Un análisis exhaustivo comparativo entre tres versiones del modelo de IA Claude de Anthropic revela que Opus 4.7, la última versión lanzada, presenta mejoras significativas en la calidad y disciplina del código generado, aunque no incrementa el porcentaje de aprobación en pruebas técnicas. El investigador bisonbear2 ejecutó 28 tareas de validación sobre la base de código Zod utilizando tres snapshots diferentes del modelo: Opus 4.6 de marzo, una versión fresca de Opus 4.6 de abril, y Opus 4.7 también de abril.
Los resultados son particularmente interesantes porque desafían narrativas previas en la comunidad de desarrolladores. Mientras que muchos usuarios habían expresado preocupaciones sobre un posible deterioro de Opus 4.6, las pruebas demuestran que las tres versiones mantienen un índice idéntico de aprobación del 12 de 28 tareas. Sin embargo, las diferencias emergen cuando se analizan métricas más sofisticadas que van más allá del simple aprobado o suspenso.
Opus 4.7 destaca en el análisis de "riesgo de huella digital", una métrica que evalúa si los parches de código generados divergen innecesariamente del código original. La nueva versión logra una puntuación de 0.090 en este indicador, más del doble mejor que sus antecesores (0.210 para la versión de marzo y 0.221 para la fresca). Esta mejora sugiere que Opus 4.7 genera cambios de código más concentrados y enfocados, características valoradas en los estándares de revisión de código profesional.
En equivalencia funcional, que mide si un parche resuelve el problema propuesto más allá de lo que capturan las pruebas, Opus 4.7 alcanza un 46.4% de éxito comparado con 39.3% de la versión de marzo y 32.1% de la versión fresca de abril. Esta métrica es particularmente relevante porque sugiere que el modelo ha mejorado su capacidad para entender la intención del código y alinearse con los estándares del repositorio.
Desde la perspectiva económica, Opus 4.7 se posiciona de manera competitiva. Procesa cada tarea a un costo de 8,11 dólares, inferior a los 8,93 dólares de la versión de marzo, consumiendo 44 millones de tokens comparado con 49,1 millones. La ejecución completa de las 28 tareas se completó en una hora y media, ligeramente más rápido que la versión anterior. Aunque la versión fresca de Opus 4.6 es más barata por tarea (6,65 dólares), requiere 2,3 veces más tiempo para completar el trabajo y produce parches "más sueltos" de menor equivalencia.
La metodología de evaluación empleada por bisonbear2 es rigurosa y digna de atención. Cada parche se evaluó no solo por su funcionalidad, sino también por criterios de "oficio" (simplicidad, coherencia, intencionalidad, robustez, claridad) y "disciplina" (adherencia a instrucciones, alcance disciplinado, minimalismo en diferencias). El juez utilizado fue GPT-5.4 con rúbricas idénticas en los tres brazos del experimento, con puntuaciones que oscilan entre 0 y 4.
Un hallazgo particularmente revelador emerge cuando se analizan exclusivamente los parches que superan la revisión de código profesional. En estos casos, Opus 4.7 muestra puntuaciones superiores en corrección (2.15), riesgo de bugs (2.54), manejo de casos extremos (2.46), y mantenibilidad (2.85), con una puntuación general de 2.50. Esto contrasta con Opus 4.6 de marzo, que logra 1.87, y la versión fresca, que obtiene 2.35.
El investigador plantea una tesis interesante: Opus 4.7 no representa un salto fundamental en inteligencia, sino más bien una mejora en disciplina y precisión. El modelo aparentemente ha sido afinado para ser un "codificador más disciplinado", lo que implica un mejor cumplimiento de restricciones, cambios más minimalistas y una adhesión más clara a las intenciones del código existente.
Estos hallazgos ocurren en un contexto más amplio de escrutinio sobre los modelos de IA generativa para tareas de programación. Los debates sobre degeneración de modelos, drift en rendimiento y compensaciones entre velocidad y calidad han dominado discusiones técnicas durante meses. El análisis de bisonbear2 proporciona evidencia empírica rigurosa que sugiere que los temores sobre un deterioro general de Opus 4.6 pueden haber sido exagerados, mientras que simultáneamente valida preocupaciones específicas sobre variaciones entre versiones.
El investigador menciona haber observado patrones similares al analizar repositorios internos, lo que sugiere que estos hallazgos trascienden el contexto específico de Zod. Esta generalización potencial amplifica la importancia de estos resultados para el ecosistema de desarrolladores que confían en Claude para tareas de generación y refactorización de código.
Anthropocic no ha publicado notas de lanzamiento detalladas que expliquen específicamente qué cambios técnicos subyacen a las mejoras observadas en Opus 4.7. Las hipótesis en la comunidad sugieren optimizaciones en los procesos de alineamiento, fine-tuning más refinado en tareas de codificación, o ajustes en parámetros de muestreo que favorecen respuestas más conservadoras y enfocadas.