Una investigación exhaustiva realizada durante tres semanas sobre benchmarks controlados en un entorno de producción real ha cuestionado algunas de las prácticas más comunes en la utilización de modelos de lenguaje avanzados para desarrollo de código. El análisis, que incluyó 52 experimentos controlados utilizando Claude Sonnet 4.6 como ejecutor y Opus 4.7 como evaluador en un proyecto Next.js/TypeScript/Supabase, ha destapado hallazgos que contradicen las suposiciones iniciales del equipo de investigación.
El descubrimiento más sorprendente concierne a los equipos de agentes paralelos de Anthropic. Contrariamente a lo que cabría esperar, ejecutar múltiples agentes de forma simultánea resulta entre un 73% y un 124% más costoso que la ejecución secuencial, sin proporcionar ninguna mejora en la calidad del resultado final. La razón radica en un problema fundamental de arquitectura: cada agente paralelo carga independientemente el contexto completo del código base. En un proyecto de 80.000 tokens, esto significa que tres agentes paralelos requieren tres copias completas del contexto, agotando rápidamente la caché de procesamiento disponible y multiplying los costes de computación.
Sin embargo, el estudio identifica un factor crucial que actúa como palanca principal para optimizar tanto el coste como la calidad: la existencia de un contrato técnico detallado anterior al código. Cuando se proporciona un documento CONTRACT.md estructurado que especifica interfaces exactas, nombres de columnas, rutas de importación, convenciones SQL y objetivos explícitos, el coste se reduce un 54% mientras la calidad mejora de 5/10 a 9/10. Este hallazgo, basado en un experimento factorial 2×2 con N=20, subraya que la ingeniería del prompt y la especificación técnica precisa constituyen la influencia más determinante en toda la cadena de procesamiento.
Otro hallazgo inquietante afecta a los sistemas de reintentos. Los experimentos demuestran que los bucles de reintento degradan activamente la calidad, reduciendo los resultados de 9/10 a 6/10. El problema estriba en que cuando el modelo realiza un reintento, regenera archivos completos en lugar de realizar ediciones quirúrgicas, destruyendo secciones previamente correctas. Este patrón se ha replicado en 15 intentos de reintento distintos, sugiriendo que es un comportamiento sistemático del modelo.
Respecto a la revisión de código con modelos más capaces, los datos indican que utilizar Opus para revisar código generado por Sonnet aumenta el coste en un 56% sin añadir mejora alguna en la calidad cuando el contrato inicial es de buena calidad. La calidad se mantiene en 9.8/10 en ambos casos, lo que sugiere que invertir en una especificación inicial precisa elimina la necesidad de costosos pasos de revisión posteriores.
El estudio también revela una estrategia efectiva con modelos más pequeños. Haiku logra una calidad equivalente a Sonnet con un coste 64% inferior, pero únicamente cuando implementa un contrato previamente redactado por Sonnet. Cuando Haiku debe redactar su propio contrato, la calidad se desmorona a 4.9/10, estableciendo una regla clara: Sonnet para la autoría de especificaciones, Haiku para la implementación.
Finalmente, la investigación propone una mejora arquitectónica significativa mediante un índice de código base de tres niveles: un resumen L0, firmas de funciones L1 y código fuente sin procesar L2. Esta estructura consigue tasas de lectura de caché del 98% en trabajadores secuenciales y reduce los costes drásticamente. Una sesión típica que costaba 5.45 dólares se reduce a 0.83 dólares manteniendo la calidad, mientras que los trabajadores paralelos siguen pagando el costo completo de carga de caché en cada iteración.
Los investigadores han publicado el conjunto completo de datos, metodología y tablas de resultados, junto con una herramienta de código abierto bajo licencia MIT sin telemetría. El equipo solicita explícitamente crítica metodológica, especialmente de aquellos que ejecuten los mismos patrones en bases de código no greenfield o clases de tareas diferentes, reconociendo que varios hallazgos pueden no generalizarse a todos los contextos.