Ken, un estudiante de informática de 20 años en la Universidad de Stanford, ha desarrollado Sup AI, un sistema de ensemble de inteligencia artificial que alcanza una precisión del 52,15% en la prueba Humanity's Last Exam, superando significativamente al mejor modelo individual evaluado en las mismas condiciones, que obtuvo un 44,74%.
El enfoque innovador detrás de Sup AI parte de una observación fundamental: aunque ningún modelo de IA es perfecto, sus errores no están fuertemente correlacionados. En otras palabras, los modelos tienden a cometer errores únicos y distintos unos de otros. Esta característica abre la posibilidad de combinar múltiples modelos de manera inteligente para obtener resultados superiores.
La arquitectura de Sup AI funciona ejecutando varios modelos en paralelo y sintetizando sus resultados mediante un sistema de ponderación basado en confianza. La clave técnica radica en analizar la entropía de las distribuciones de probabilidad de los tokens generados. Una entropía baja en esta distribución correlaciona fuertemente con respuestas precisas, mientras que una entropía alta frecuentemente precede a alucinaciones—respuestas plausibles pero completamente inventadas que son una de las debilidades más conocidas de los sistemas de IA actuales.
En el desarrollo del proyecto, Ken ha colaborado estrechamente con su padre, Scott, un investigador científico de inteligencia artificial en Toyota Research Institute (TRI). Esta asociación ha demostrado ser productiva, con Scott enviando papers constantemente y ambos debatiendo su aplicabilidad y posibles modificaciones. El enfoque de ponderación por entropía emergió precisamente de estas conversaciones colaborativas.
La evaluación de Sup AI se llevó a cabo sobre 1.369 de las 2.500 preguntas que componen Humanity's Last Exam, una prueba diseñada para evaluar capacidades avanzadas de razonamiento en sistemas de IA. La mejora del 7,41% respecto al mejor modelo individual es estadísticamente significativa, con un valor p menor a 0,001, lo que descarta que se trate de una variación aleatoria.
La metodología, código de evaluación, datos y resultados completos están disponibles públicamente, reflejando el compromiso del equipo con la transparencia científica. Sin embargo, el proyecto enfrenta desafíos prácticos reales. El equipo inicialmente ofreció acceso gratuito, pero experimentó abuso tan severo que casi colapsa la operación. Como respuesta, implementó un modelo sostenible que requiere un crédito inicial de cinco euros con verificación de tarjeta, sin cobros automáticos posteriores.
Una limitación técnica importante reside en que no todas las APIs de modelos de IA exponen los logits de probabilidad de los tokens, información crucial para calcular la confianza. Sup AI implementa varios métodos alternativos para estimar la confianza en estos casos, aunque esto introduce cierta variabilidad en la precisión del ponderamiento.
Este trabajo tiene implicaciones significativas para la industria de la IA. El enfoque de ensemble ponderado por confianza representa una alternativa pragmática a la búsqueda de modelos únicos cada vez más grandes y costosos. A medida que emergen nuevos modelos especializados de diferentes fabricantes y organizaciones de investigación, la capacidad de combinar inteligentemente sus fortalezas se vuelve cada vez más valiosa.
El proyecto también ilustra cómo investigadores jóvenes con acceso limitado de recursos pueden contribuir innovación significativa al campo. La colaboración intergeneracional entre Ken y su padre demuestra que las mejores ideas en IA pueden surgir de equipos pequeños y altamente coordinados, no necesariamente de los laboratorios mejor financiados.
La disponibilidad de código y datos abiertos invita a la comunidad a validar los resultados, identificar mejoras y potencialmente aplicar la metodología a otros conjuntos de evaluación. Este enfoque transparente es particularmente valioso en un panorama donde los resultados de sistemas propietarios a menudo no pueden verificarse independientemente.