Javier López: El fin de la fiesta de los tokens: Cómo reducir la factura de la IA en tu equipo de ingeniería

Introducción: El fin de la euforia de los tokens

Hace unos meses, parecía que el presupuesto para IA era infinito. Todos queríamos probar el modelo más grande, el más potente, y no nos importaba cuántos tokens quemábamos por el camino. Pero esa realidad ha cambiado.

Hoy los departamentos financieros ya no miran con buenos ojos esa factura mensual de Azure, Bedrock, OpenAI o Anthropic. Las empresas se han "sobrado" (por decirlo de forma suave). Nadie quiere pagar más por tokens porque la factura se ha disparado de una manera que duele.

Así que he tenido que ponerme el sombrero de la eficiencia. Y he descubierto que se puede ahorrar mucho dinero sin sacrificar la calidad del desarrollo. Aquí os cuento las estrategias que estoy aplicando en mi equipo y en mis flujos personales.

Estrategia #1: El modelo justo para la tarea justa

Como ingenieros, nos encanta tener la navaja suiza más cara del mercado, pero no necesitas un misil teledirigido para matar una mosca.

Mi primer consejo es: no uses el modelo más poderoso para todo. Cada tarea tiene una herramienta adecuada. Si solo necesitas generar un comentario en el código o una función trivial, no tiene sentido llamar a Claude Opus o GPT-4 Turbo.

Actualmente, estoy probando modelos más pequeños y económicos. De hecho, creo que el mejor equilibrio entre rendimiento y precio hoy en día lo está dando el modelo chino DeepSeek. Tengo pendiente integrarlo de forma oficial, pero mis primeras pruebas con él me están dando muy buenas sensaciones para tareas de baja y media complejidad.

Como senior, aprendes que saber cuándo escalar a un modelo caro es tan importante como saber cómo usarlo.

Estrategia #2: La "Caveman Skill" o cómo eliminar la educación innecesaria

Esto me pareció una genialidad. Si usas asistentes en terminal, como Claude Code o OpenCode, existe un "skill" (o habilidad) llamado Caveman (hombre de las cavernas).

¿Qué hace? Básicamente, le dice al modelo que se quite toda la "educación" y el azúcar añadido.

Normalmente, los LLMs te responden con: "Claro, encantado de ayudarte, voy a proceder a analizar tu código para..."

Eso son tokens. Tokens que pagas. Con Caveman, el modelo se vuelve directo y brutal. Si le haces una pregunta de sí/no, te responde únicamente "Sí" o "No". Sin introducciones, sin despedidas, sin párrafos bonitos.

Y el resultado es asombroso: los usuarios hablan de reducir el coste de las respuestas entre un 60% y un 70%. En un equipo donde se hacen cientos de peticiones al día, esto supone un ahorro mensual considerable. Mi plan esta semana es instalar esta skill en OpenCode y empezar a usarlo en mi día a día.

Estrategia #3: Procesamiento por lotes (Batch Processing)

Esta es mi estrategia favorita y la que más está dando juego para ciertas tareas. La mayoría de los proveedores de IA (OpenAI, Anthropic, etc.) ofrecen una modalidad asíncrona o por lotes.

La mecánica es sencilla: cuando no necesitas una respuesta inmediata (por ejemplo, para documentar código legacy, traducir comentarios o generar tests que no bloquean el despliegue), mandas la petición marcada como "batch".

El proveedor no te responde al instante, sino que acumula tu petición junto con las de otros usuarios y la procesa cuando tienen capacidad extra en sus servidores (horas valle).

¿El resultado? Cuesta prácticamente la mitad. Yo estaba escéptico al principio, pensando que tardaría horas en llegar, pero la realidad me ha sorprendido. La respuesta llega en pocos minutos más de lo habitual, no en horas. Para tareas automáticas o de segunda división, es un auténtico game changer.

Recursos útiles para seguir los precios

La industria cambia rápido. Te recomiendo estas páginas para mantenerte actualizado:

llmprices (PyPI): Comparativa actualizada de precios por millón de tokens .

CloudZero LLM Pricing Comparison: Tablas detalladas con todos los proveedores .

OpenRouter: Para probar y comparar múltiples modelos con una sola API.

Conclusión: El ahorro está en los detalles

Ser un buen ingeniero ya no es solo escribir código limpio o diseñar arquitecturas escalables. Hoy, parte de nuestro trabajo es ser responsables con los costes de las herramientas que usamos.

Estas tres estrategias (elegir el modelo adecuado, eliminar "palabrería" con Caveman, y usar peticiones asíncronas por lotes) me están ayudando a mantener la factura de IA bajo control sin ralentizar a mi equipo. Al final, se trata de ser inteligentes con los recursos que tenemos.

Pregunta para mis lectores (Call to Action)

Estas son las tácticas que estoy aplicando hoy en día, pero sé que esto evoluciona muy rápido.

¿Tú estás aplicando alguna otra estrategia para reducir el coste de la IA en tu día a día? ¿Has probado DeepSeek o alguna alternativa similar?

Déjame un comentario o escríbeme, estoy siempre abierto a aprender nuevas formas de optimizar.

Javier López

viernes, 3 de julio de 2026

El fin de la fiesta de los tokens: Cómo reducir la factura de la IA en tu equipo de ingeniería

Introducción: El fin de la euforia de los tokens

Estrategia #1: El modelo justo para la tarea justa

Estrategia #2: La "Caveman Skill" o cómo eliminar la educación innecesaria

Estrategia #3: Procesamiento por lotes (Batch Processing)

Recursos útiles para seguir los precios

Conclusión: El ahorro está en los detalles

Pregunta para mis lectores (Call to Action)

No hay comentarios:

Archivo del blog

Javier López

viernes, 3 de julio de 2026

El fin de la fiesta de los tokens: Cómo reducir la factura de la IA en tu equipo de ingeniería

Introducción: El fin de la euforia de los tokens

Estrategia #1: El modelo justo para la tarea justa

Estrategia #2: La "Caveman Skill" o cómo eliminar la educación innecesaria

Estrategia #3: Procesamiento por lotes (Batch Processing)

Recursos útiles para seguir los precios

Conclusión: El ahorro está en los detalles

Pregunta para mis lectores (Call to Action)

No hay comentarios:

Archivo del blog

Suscribirse a