La plataforma SanityBoard ha actualizado recientemente sus resultados de evaluación de modelos de inteligencia artificial especializados en programación, revelando un cambio significativo en el liderazgo de estas herramientas. Los datos muestran que GPT-5.3 Codex ha arrebatado el primer puesto a June CLI, consolidándose como el modelo más competente en tareas de codificación cuando se utiliza con agentes experimentales habilitados.
Entre los hallazgos más destacados, destaca la combinación de Minimax M2.5 con el agente Droid, que ha logrado superar los resultados previamente alcanzados por Kimi K2.5 en colaboración con Kimi CLI. Este cambio es particularmente relevante en el ecosistema de modelos de peso abierto, donde la búsqueda de alternativas competitivas a soluciones propietarias se ha intensificado.
GLM 5 emerge como el modelo de peso abierto con mayor puntuación en las pruebas realizadas con el cliente Opencode. Sin embargo, aún no ha sido evaluado completamente en otras plataformas de agentes, lo que sugiere que podría alcanzar posiciones aún más altas una vez se completen todas las pruebas. Los investigadores indican que las limitaciones de velocidad en los servidores actuales han impedido realizar evaluaciones más exhaustivas en este momento.
La evaluación también revela que las nuevas versiones de Claude Code han mejorado considerablemente el rendimiento de Kimi K2.5, aunque el impacto ha sido menor en Opus 4.5. Este tipo de análisis comparativo resulta fundamental para la comunidad de desarrolladores que buscan seleccionar las herramientas más adecuadas para sus proyectos específicos.
Esta actualización forma parte de un esfuerzo más amplio de benchmarking que pretende proporcionar métricas rigurosas y comparables para evaluar diferentes modelos de lenguaje en tareas de programación. El crecimiento del número de modelos evaluados y la complejidad de las pruebas sugieren que el mercado de IA continúa evolucionando rápidamente, con nuevos competidores demostrando capacidades cada vez más sofisticadas.
🎙️ Quick Summary
Buenas noches, oyentes de ClaudeIA Radio. Hoy quería hablar de algo que está sucediendo en silencio en los foros especializados, pero que considero fundamental para entender hacia dónde se dirige el mercado de la inteligencia artificial: la batalla feroz por el dominio en tareas de codificación.
Lo que más me llama la atención es que GPT-5.3 Codex ha logrado destronar a June CLI, pero aquí viene lo interesante: Minimax M2.5 está dando la sorpresa con modelos de peso abierto, compitiendo directamente con soluciones propietarias. Pensadlo un momento. Esto significa que la brecha entre los modelos comerciales y los de código abierto se está cerrando, y eso es revolucionario para empresas que no quieren depender de proveedores únicos. GLM 5 apenas está siendo evaluado completamente, y ya está ocupando posiciones de liderazgo. ¿Qué pasará cuando terminen todas las pruebas?
Mi crítica es que estos benchmarks tienen limitaciones reales: problemas de throttling en servidores, evaluaciones incompletas, y la dependencia de plataformas específicas. Pero aun así, lo que vemos aquí es el ecosistema de IA moviéndose más rápido que nunca. La pregunta que os dejo es esta: ¿creéis que en seis meses estos resultados seguirán siendo relevantes, o estaremos hablando de modelos completamente diferentes?
🤖 Classification Details
Comprehensive benchmark evaluation results with detailed methodology, comparative analysis across multiple models and agents, and links to reproducible evaluation infrastructure.