N-Day-Bench: El nuevo reto que mide si la IA puede encontrar vulnerabilidades reales en código auténtico

Un nuevo sistema de evaluación cuestiona la verdadera capacidad de los grandes modelos de lenguaje para identificar vulnerabilidades de seguridad en repositorios de código reales. N-Day-Bench, una iniciativa de investigación verificada, ha desarrollado una metodología innovadora que pretende resolver uno de los mayores problemas en la evaluación de sistemas de inteligencia artificial: la contaminación de datos de entrenamiento. La premisa es simple pero reveladora. Los benchmarks tradicionales de descubrimiento de vulnerabilidades se vuelven obsoletos rápidamente. Cuando un caso se resuelve y se publica, es probable que acabe en los datos de entrenamiento de futuros modelos, lo que transforma la evaluación en una simple medición de memorización en lugar de capacidad real de análisis. N-Day-Bench soluciona este problema con un enfoque que actualiza su conjunto de pruebas mensualmente, extrayendo casos frescos directamente de los avisos de seguridad de GitHub. El proceso es riguroso y está diseñado para evitar cualquier sesgo. Cada caso se estructura en torno a tres agentes especializados: un Curator que lee el aviso de seguridad y construye la respuesta correcta, un Finder que representa el modelo bajo prueba y dispone de 24 pasos en una terminal bash sandboxed para explorar el código, y un Judge que evalúa el informe de forma ciega. El aspecto crucial es que el Finder nunca ve el parche aplicado; solo recibe indicios sobre dónde se encuentra la vulnerabilidad y debe rastrear el defecto a través del código real. Los criterios de selección son estrictos. Solo se incluyen repositorios con más de 10.000 estrellas en GitHub, y un filtro de diversidad evita que un único repositorio domine el conjunto de evaluación. Los avisos ambiguos, aquellos que hacen referencia a múltiples repositorios o contienen referencias irresolubles, se descartan para mantener la integridad de las pruebas. Actualmente, N-Day-Bench está evaluando a los modelos más avanzados del sector: GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, GLM-5.1 y Kimi K2.5. Todos los rastros de ejecución se hacen públicos, permitiendo a la comunidad verificar los resultados y analizar cómo cada modelo aborda el desafío. Esta iniciativa es particularmente relevante en un momento en el que la seguridad del software se ha convertido en una preocupación central para las empresas y los gobiernos. Si los modelos de lenguaje pueden identificar vulnerabilidades reales en código auténtico, podrían convertirse en herramientas invaluables para los equipos de seguridad. Sin embargo, si los resultados muestran que su capacidad es limitada o que dependen demasiado de patrones memorizados, esto tendría implicaciones profundas sobre cómo debemos confiar en la IA para tareas críticas de seguridad. La metodología abierta y la actualización mensual de casos representan un paso importante hacia una evaluación más honesta de las capacidades de inteligencia artificial. Mantiene una ventana de contaminación de datos que, aunque inevitable en el mundo actual de la IA, se documenta explícitamente. Esto permite a investigadores y desarrolladores entender exactamente cuándo un modelo podría estar beneficiándose de información vista durante el entrenamiento versus demostrando una verdadera capacidad de análisis de seguridad.

🎙️ Quick Summary

Buenas noches, radioescuchas de ClaudeIA Radio. Hoy quiero hablaros de algo que me tiene fascinado y un poco inquieto a partes iguales: N-Day-Bench. Pensadlo un momento. Hemos pasado años evaluando modelos de IA con benchmarks estáticos, con pruebas que se publican, se memorizan, se filtran en los datos de entrenamiento... y luego pretendemos que el modelo es brillante cuando lo único que hace es repetir lo que aprendió en el proceso. Es como darle las respuestas al examen y luego felicitarse por lo bien que contesta. Lo que más me llama la atención es que alguien haya decidido finalmente hacer algo al respecto. N-Day-Bench tira de GitHub cada mes, coge vulnerabilidades reales, auténticas, sin parches ni soluciones visibles, y pone a estos modelos a trabajar de verdad. Veinticuatro pasos en terminal, explorando código real. Sin trucos. Sin memorización posible porque el caso es completamente nuevo. Es brutal y es honesto, y eso es exactamente lo que necesitamos. Pero aquí está el dilema que no puedo evitar: ¿y si la realidad es decepcionante? ¿Y si GPT-5.4 o Claude Opus no son tan buenos encontrando vulnerabilidades como creemos? Entonces nos enfrentamos a una pregunta incómoda: ¿en qué podemos realmente confiar a estos modelos? Porque si no pueden encontrar un bug que ya existe en código público real, ¿qué nos dice eso sobre nuestra dependencia de ellos para seguridad? Te animo a que busques la tabla de resultados. Observa dónde están esos modelos frontales. ¿Estamos seguros de lo que vemos?

🤖 Classification Details

Benchmark study for LLM security vulnerability detection with clear methodology, live leaderboard, and public traces. Tests Claude Opus 4.6 among other models.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details