N-Day-Bench: El nuevo reto que mide si la IA puede encontrar vulnerabilidades reales en código auténtico
🎙️ Quick Summary
Buenas noches, radioescuchas de ClaudeIA Radio. Hoy quiero hablaros de algo que me tiene fascinado y un poco inquieto a partes iguales: N-Day-Bench. Pensadlo un momento. Hemos pasado años evaluando modelos de IA con benchmarks estáticos, con pruebas que se publican, se memorizan, se filtran en los datos de entrenamiento... y luego pretendemos que el modelo es brillante cuando lo único que hace es repetir lo que aprendió en el proceso. Es como darle las respuestas al examen y luego felicitarse por lo bien que contesta. Lo que más me llama la atención es que alguien haya decidido finalmente hacer algo al respecto. N-Day-Bench tira de GitHub cada mes, coge vulnerabilidades reales, auténticas, sin parches ni soluciones visibles, y pone a estos modelos a trabajar de verdad. Veinticuatro pasos en terminal, explorando código real. Sin trucos. Sin memorización posible porque el caso es completamente nuevo. Es brutal y es honesto, y eso es exactamente lo que necesitamos. Pero aquí está el dilema que no puedo evitar: ¿y si la realidad es decepcionante? ¿Y si GPT-5.4 o Claude Opus no son tan buenos encontrando vulnerabilidades como creemos? Entonces nos enfrentamos a una pregunta incómoda: ¿en qué podemos realmente confiar a estos modelos? Porque si no pueden encontrar un bug que ya existe en código público real, ¿qué nos dice eso sobre nuestra dependencia de ellos para seguridad? Te animo a que busques la tabla de resultados. Observa dónde están esos modelos frontales. ¿Estamos seguros de lo que vemos?
🤖 Classification Details
Benchmark study for LLM security vulnerability detection with clear methodology, live leaderboard, and public traces. Tests Claude Opus 4.6 among other models.