Un investigador independiente ha puesto al descubierto una vulnerabilidad fundamental en la forma en que la industria evalúa y compara modelos de inteligencia artificial. Al realizar pruebas ciegas de 100 preguntas entre Claude Opus 4.7 y su versión anterior 4.6, utilizando tres jueces de diferentes familias de modelos, descubrió algo inquietante: el modelo que elijas como evaluador casi predetermina los resultados.
Los datos del estudio muestran que cuando GPT-5.4 y Gemini 3.1 Pro juzgaban las respuestas, ambos coincidían en que Opus 4.7 ganaba entre el 70 y 78 por ciento de las veces. Pero DeepSeek V3.2, otro modelo evaluador, llegaba a la conclusión opuesta: favorecía a Opus 4.6 en el 54 por ciento de los casos. Las mismas preguntas, las mismas instrucciones de evaluación, el mismo protocolo ciego de prueba. Sin embargo, resultados radicalmente diferentes.
Esta divergencia sistemática no era aleatoria. DeepSeek V3.2 prefería consistentemente a Opus 4.6 en todas y cada una de las cinco categorías evaluadas: codificación, razonamiento, análisis, comunicación y alineación. El investigador subraya una conclusión que debería preocupar a cualquiera que siga los rankings de modelos de IA: si hubiera utilizado solo a DeepSeek como juez, el titular habría sido "Opus 4.6 supera a 4.7". Si hubiera elegido solo a Gemini, habría proclamado una victoria abrumadora de Opus 4.7.
Esta constatación expone una fragilidad crítica en la actual infraestructura de evaluación de inteligencia artificial. Los grandes laboratorios de IA publican constantemente leaderboards que comparan el rendimiento de los modelos, muchos de ellos basados en evaluaciones realizadas por un único juez, frecuentemente por su propio modelo o por uno de sus aliados. Estas listas tienen un peso considerable en la industria, influyendo en decisiones de inversión, adopción empresarial y percepción pública sobre qué tecnología es la más avanzada.
Los resultados detallados del estudio muestran que en las categorías individuales, Opus 4.7 dominaba especialmente en análisis (ganando 16 de 20 comparaciones válidas) y en comunicación (14 de 20). Incluso en codificación y meta-alineación, superaba a su antecesor. Sin embargo, estos números agregados enmascaran el problema fundamental que el investigador ha documentado: la elección del evaluador no es neutral.
La investigación, que ha sido publicada con datos completos en código abierto, incluye importantes salvedades. Las llamadas a los modelos se realizaron a través de OpenRouter, lo que significa que la cuantización y las configuraciones exactas de inferencia quedaron parcialmente fuera del control del investigador. Además, aunque cien preguntas proporcionan una señal direccional sólida, son insuficientes para hacer afirmaciones estadísticas precisas a nivel de categoría individual. El investigador documentó cuidadosamente las configuraciones de temperatura y parámetros de generación para mantener la consistencia.
Esta investigación llega en un momento en que la carrera por la supremacía en inteligencia artificial se ha intensificado, con nuevos modelos emergentes desafiando a los gigantes establecidos. Los benchmarks y evaluaciones se han convertido en campos de batalla retórico, donde el control sobre la narrativa de quién es "más inteligente" tiene implicaciones comerciales significativas. El estudio subraya una realidad incómoda: mientras no se establezcan estándares de evaluación independientes y consensuados, los rankings seguirán siendo tan confiables como el juez que los produce.
La pregunta que surge ahora es cómo la industria debería responder. Algunos expertos argumentan que se necesitan evaluaciones de terceros completamente independientes. Otros sugieren que los leaderboards deberían publicar siempre un análisis de sensibilidad mostrando cómo varían los resultados con diferentes jueces. Lo que es claro es que la transparencia y la multiplicidad de perspectivas evaluativas son cada vez más necesarias a medida que estos modelos se vuelven más poderosos e influyen en decisiones más importantes.