Back to Monday, April 20, 2026
Claude's reaction

💭 Claude's Take

Comprehensive benchmark analysis comparing three Opus snapshots (old 4.6, new 4.6, 4.7) on 28 real-world Zod tasks. Includes detailed methodology, GPT-5.4 judging with rubric scoring, code review metrics, cost analysis, and reproducible testing framework (Stet).

Opus 4.7 de Anthropic demuestra mejoras en calidad de código frente a sus predecesores, aunque mantiene el mismo índice de aprobación

🔴 r/ClaudeAI by /u/bisonbear2
research_verified models research coding # showcase
View Original Post
Un análisis exhaustivo comparativo entre tres versiones del modelo de IA Claude de Anthropic revela que Opus 4.7, la última versión lanzada, presenta mejoras significativas en la calidad y disciplina del código generado, aunque no incrementa el porcentaje de aprobación en pruebas técnicas. El investigador bisonbear2 ejecutó 28 tareas de validación sobre la base de código Zod utilizando tres snapshots diferentes del modelo: Opus 4.6 de marzo, una versión fresca de Opus 4.6 de abril, y Opus 4.7 también de abril. Los resultados son particularmente interesantes porque desafían narrativas previas en la comunidad de desarrolladores. Mientras que muchos usuarios habían expresado preocupaciones sobre un posible deterioro de Opus 4.6, las pruebas demuestran que las tres versiones mantienen un índice idéntico de aprobación del 12 de 28 tareas. Sin embargo, las diferencias emergen cuando se analizan métricas más sofisticadas que van más allá del simple aprobado o suspenso. Opus 4.7 destaca en el análisis de "riesgo de huella digital", una métrica que evalúa si los parches de código generados divergen innecesariamente del código original. La nueva versión logra una puntuación de 0.090 en este indicador, más del doble mejor que sus antecesores (0.210 para la versión de marzo y 0.221 para la fresca). Esta mejora sugiere que Opus 4.7 genera cambios de código más concentrados y enfocados, características valoradas en los estándares de revisión de código profesional. En equivalencia funcional, que mide si un parche resuelve el problema propuesto más allá de lo que capturan las pruebas, Opus 4.7 alcanza un 46.4% de éxito comparado con 39.3% de la versión de marzo y 32.1% de la versión fresca de abril. Esta métrica es particularmente relevante porque sugiere que el modelo ha mejorado su capacidad para entender la intención del código y alinearse con los estándares del repositorio. Desde la perspectiva económica, Opus 4.7 se posiciona de manera competitiva. Procesa cada tarea a un costo de 8,11 dólares, inferior a los 8,93 dólares de la versión de marzo, consumiendo 44 millones de tokens comparado con 49,1 millones. La ejecución completa de las 28 tareas se completó en una hora y media, ligeramente más rápido que la versión anterior. Aunque la versión fresca de Opus 4.6 es más barata por tarea (6,65 dólares), requiere 2,3 veces más tiempo para completar el trabajo y produce parches "más sueltos" de menor equivalencia. La metodología de evaluación empleada por bisonbear2 es rigurosa y digna de atención. Cada parche se evaluó no solo por su funcionalidad, sino también por criterios de "oficio" (simplicidad, coherencia, intencionalidad, robustez, claridad) y "disciplina" (adherencia a instrucciones, alcance disciplinado, minimalismo en diferencias). El juez utilizado fue GPT-5.4 con rúbricas idénticas en los tres brazos del experimento, con puntuaciones que oscilan entre 0 y 4. Un hallazgo particularmente revelador emerge cuando se analizan exclusivamente los parches que superan la revisión de código profesional. En estos casos, Opus 4.7 muestra puntuaciones superiores en corrección (2.15), riesgo de bugs (2.54), manejo de casos extremos (2.46), y mantenibilidad (2.85), con una puntuación general de 2.50. Esto contrasta con Opus 4.6 de marzo, que logra 1.87, y la versión fresca, que obtiene 2.35. El investigador plantea una tesis interesante: Opus 4.7 no representa un salto fundamental en inteligencia, sino más bien una mejora en disciplina y precisión. El modelo aparentemente ha sido afinado para ser un "codificador más disciplinado", lo que implica un mejor cumplimiento de restricciones, cambios más minimalistas y una adhesión más clara a las intenciones del código existente. Estos hallazgos ocurren en un contexto más amplio de escrutinio sobre los modelos de IA generativa para tareas de programación. Los debates sobre degeneración de modelos, drift en rendimiento y compensaciones entre velocidad y calidad han dominado discusiones técnicas durante meses. El análisis de bisonbear2 proporciona evidencia empírica rigurosa que sugiere que los temores sobre un deterioro general de Opus 4.6 pueden haber sido exagerados, mientras que simultáneamente valida preocupaciones específicas sobre variaciones entre versiones. El investigador menciona haber observado patrones similares al analizar repositorios internos, lo que sugiere que estos hallazgos trascienden el contexto específico de Zod. Esta generalización potencial amplifica la importancia de estos resultados para el ecosistema de desarrolladores que confían en Claude para tareas de generación y refactorización de código. Anthropocic no ha publicado notas de lanzamiento detalladas que expliquen específicamente qué cambios técnicos subyacen a las mejoras observadas en Opus 4.7. Las hipótesis en la comunidad sugieren optimizaciones en los procesos de alineamiento, fine-tuning más refinado en tareas de codificación, o ajustes en parámetros de muestreo que favorecen respuestas más conservadoras y enfocadas.

🎙️ Quick Summary

Buenas noches, oyentes de ClaudeIA Radio. Hoy tengo que hablaros de algo que realmente me ha fascinado: un análisis comparativo que alguien de la comunidad ha hecho entre tres versiones de Opus en 28 tareas de codificación. Y lo que me llama la atención no es lo que la mayoría esperaría. Veréis, durante meses hemos escuchado a desarrolladores quejarse de que Opus 4.6 se estaba volviendo "más tonto". Y resulta que cuando miras el índice de aprobación puro, los tres modelos están igualados: 12 de 28. Mismo aprobado, punto. Pero aquí es donde se pone interesante, oyentes. Cuando profundizas en las métricas que realmente importan—cuánto de focalizados son los cambios, si realmente entienden lo que el código necesita—Opus 4.7 los destroza. Especialmente en lo que llaman "riesgo de huella digital", donde Opus 4.7 es más del doble mejor. Eso significa que el modelo está haciendo cambios más precisos, más quirúrgicos. No está tocando código que no necesita tocar. Eso, para mí, es disciplina pura, y en producción, la disciplina vale más que la brillantez. Lo que más me llama la atención es que la versión más barata per tarea—Opus 4.6 fresco de abril—produce parches más sueltos que toman 2,3 veces más tiempo. Es decir, ahorras dinero pero pierdes eficiencia y calidad. Eso es un trade-off típico de modelos que quizás estén un poco demasiado afinados para una métrica específica. Y Anthropic parece haberlo entendido con Opus 4.7: es más caro que la versión reciente de 4.6, sí, pero es más rápido y mucho mejor en lo que importa. Pensadlo así: estamos viendo que la batalla de los modelos ya no es "¿quién es más inteligente?" sino "¿quién es más inteligente y más disciplinado?" Eso es madurez en la IA. La pregunta que os dejo es: ¿cuántos de vosotros estaríais dispuestos a pagar un 20% más si significara que vuestro modelo hace cambios mejor focalizados y mantiene la calidad? Porque creo que es el futuro.

🤖 Classification Details

Comprehensive benchmark analysis comparing three Opus snapshots (old 4.6, new 4.6, 4.7) on 28 real-world Zod tasks. Includes detailed methodology, GPT-5.4 judging with rubric scoring, code review metrics, cost analysis, and reproducible testing framework (Stet).