Claude 4.6 consume el doble de tokens que su predecesor: qué está pasando y cómo optimizarlo

El lanzamiento de Claude Opus 4.6 ha traído consigo un descubrimiento inquietante para desarrolladores que utilizan herramientas de automatización avanzadas: el nuevo modelo consume significativamente más tokens que su predecesor, Claude 4.5, en tareas idénticas. Un análisis detallado basado en registros de sesión revela que mientras 4.5 completaba sprints de codificación complejos consumiendo entre 0,98 y 1,75 megabytes de contexto, la versión 4.6 requería hasta 14,7 megabytes para el mismo trabajo. La causa raíz de este incremento en el consumo de recursos reside en un cambio fundamental en la estrategia de ejecución del modelo. A diferencia de 4.5, que prefería realizar el trabajo de forma integrada, 4.6 tiende a delegar más agresivamente a subagenetes —es decir, a versiones más pequeñas de sí mismo que trabajan en paralelo— y posteriormente reincorpora sus resultados completos al contexto principal. En un caso documentado, un único subagenete devolvió 1,4 megabytes de datos. Cuando ese mismo subagenete experimentó un tiempo de espera y fue consultado nuevamente, se añadieron otros 1,4 megabytes adicionales al contexto, consumiendo 2,6 megabytes de los 200.000 tokens disponibles en una única operación. Este comportamiento refleja un cambio de diseño que prioriza la ambición por defecto en modo de alto esfuerzo. El modelo 4.6 intenta hacer más, leer más archivos y delegar más trabajo. Sin embargo, esto no debe interpretarse como un defecto, sino como una característica que requiere una nueva estrategia de uso. Para cuantificar el impacto y explorar soluciones, se realizó un experimento controlado ejecutando el mismo sprint de codificación de tres formas distintas. La versión de eficiencia máxima, que implementó límites estrictos de presupuesto de contexto —restringiendo el orquestador a leer solo dos archivos, limitando los prompts de subagenetes a 500 caracteres y limitando los resultados a 2.000 caracteres— logró completarse en una única sesión con un consumo total de 5,0 megabytes. Sin embargo, el código resultante sacrificó calidad: omitió un criterio de especificación, contenía aproximadamente 70 líneas de código duplicado y presentaba problemas con funciones particularmente largas. Una aproximación híbrida que mantuvo las reglas de eficiencia de contexto pero añadió protecciones de calidad específicas —instrucciones como "descomponer en funciones a nivel de módulo, no closures" y "verificar cada criterio de éxito de la especificación"— produjo código de arquitectura excelente pero consumió 7,3 megabytes y requirió dos sesiones. El análisis revela un dilema fundamental: no es posible instruir simultáneamente al modelo que "se preocupe profundamente por la calidad del código" y que "no lea ningún archivo fuente" sin que uno de esos objetivos sufra. Los desarrolladores enfrentan ahora una decisión sobre dónde situar el equilibrio en el espectro entre eficiencia y calidad. Expertos sugieren que el punto óptimo para flujos de trabajo complejos probablemente requiera aceptar que los sprints complejos necesitarán dos sesiones cortas en lugar de intentar comprimir todo en un contexto único. Para optimizar el uso, se recomiendan prácticas específicas: preferir el trabajo integrado para tareas menores de cinco llamadas de herramienta, utilizar grep para localizar secciones relevantes antes de leer archivos completos, evitar releer archivos dentro de la misma sesión y establecer límites claros en las salidas de subagenetes. Este descubrimiento abre un debate más amplio en la comunidad de IA sobre cómo los modelos más ambiciosos y "ansiosos" por demostrar su capacidad pueden ser canalizados de manera más eficiente. A medida que los modelos de lenguaje se vuelven más complejos en su toma de decisiones sobre delegación y estrategia, la optimización de su consumo de recursos se convierte en una habilidad crítica tanto para desarrolladores como para usuarios empresariales.

🎙️ Quick Summary

Hola a todos, y bienvenidos a ClaudeIA Radio. Hoy quiero hablaros de algo que está revolucionando silenciosamente la forma en que los desarrolladores utilizan Claude 4.6, y créedme, es fascinante. Resulta que alguien ha hecho un análisis profundo —y cuando digo profundo, me refiero a que literalmente pidió a Claude que analizara sus propios registros de sesión— y ha descubierto que el nuevo Claude 4.6 tiene un apetito voraz de tokens. Estamos hablando de que consume entre tres y quince veces más contexto que la versión anterior para hacer exactamente lo mismo. ¿Por qué? Porque 4.6 es más ambicioso. Delega más trabajo, lee más archivos, intenta ser más exhaustivo. No es que el modelo esté roto; es que literalmente quiere hacer más cosas. Lo que más me llama la atención es el dilema que esto plantea. Si le dices al modelo "hazlo de forma eficiente", sacrifica calidad. Si le pides que se preocupe por la calidad, consume más contexto. Es como pedirle a alguien que corra una maratón rápido pero sin sudar. Pensadlo un momento: ¿cuál es el verdadero coste de usar un modelo más ambicioso pero más hambriento de recursos? ¿Vale la pena si el resultado final es mejor? Y aquí viene lo interesante: algunos desarrolladores ya están optimizando sus flujos de trabajo, ajustando sus instrucciones, y logrando un equilibrio que mantiene la calidad sin quemar su presupuesto de tokens. Esto sugiere que el futuro de trabajar con IA avanzada no es "usa el modelo y espera lo mejor", sino "entiende cómo tu modelo piensa y ajusta tus instrucciones en consecuencia". La pregunta que os dejo es: ¿estamos entrando en una era donde los usuarios de IA tendrán que volverse tan técnicos como los ingenieros para aprovechar realmente el potencial de estos modelos?

🤖 Classification Details

In-depth analysis of token consumption patterns between Claude versions with documented experiments, measurements, and practical optimization strategies. Includes concrete CLAUDE.md rules and configuration examples.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details