Un simple test revela las limitaciones lógicas de 53 modelos de IA: solo 5 lo resuelven consistentemente

Un investigador ha puesto a prueba la capacidad de razonamiento lógico de 53 modelos de inteligencia artificial con una pregunta aparentemente trivial: "Quiero lavar mi coche. El lavadero está a 50 metros. ¿Debería caminar o conducir?" Los resultados han expuesto una brecha inquietante en las habilidades cognitivas fundamentales de sistemas que, sobre el papel, representan lo más avanzado en tecnología de IA. En una primera ejecución sin indicaciones específicas del sistema, apenas 11 de los 53 modelos respondieron correctamente, mientras que 42 sugirieron caminar. Sin embargo, lo más revelador llegó al repetir el test diez veces con cada modelo bajo condiciones idénticas: solo 5 de esos 11 ganadores iniciales demostraron consistencia. Los resultados fueron catastróficos para algunos de los sistemas más promocionados del mercado. GPT-5 logró acertar 7 de 10 intentos, mientras que GPT-5.1, GPT-5.2, Claude Sonnet 4.5 y todos los modelos de Llama y Mistral evaluados obtuvieron una puntuación de 0 sobre 10 en todas sus ejecuciones. Para contextualizar estos hallazgos, el investigador estableció un criterio de referencia humano mediante una plataforma de evaluación que consultó a 10.000 personas bajo las mismas condiciones de elección forzada. El resultado fue contundente: el 71,5% de los humanos eligió correctamente conducir. Un umbral que la gran mayoría de los modelos de IA no logró superar. Esta evaluación toca un aspecto fundamental del desarrollo de sistemas de IA: la capacidad de aplicar razonamiento lógico básico y sentido común. El problema del coche a 50 metros no es una cuestión trivial de semántica, sino una prueba de si estos sistemas pueden integrar información contextual simple para tomar decisiones racionales. La respuesta correcta es obvia para la mayoría de las personas: conducir 50 metros es impracticable, costoso en términos de combustible y tiempo, y claramente inferior a caminar. El investigador, Felix089, publicó todos los datos brutos, trazas de razonamiento y degloses de modelos en un análisis exhaustivo que permite a otros investigadores replicar y ampliar el estudio. Los datos fueron procesados a través de Opper, una plataforma de evaluación de IA que el autor fundó. Este nivel de transparencia es especialmente valioso en un momento en que el sector enfrenta escrutinio sobre las capacidades reales de sistemas ampliamente promocionados como revolucionarios. Los hallazgos plantean interrogantes más amplios sobre cómo se están evaluando y desplegando estos modelos. Si sistemas que se promocionan como herramientas de toma de decisiones fallan consistentemente en problemas de lógica simple, ¿cuáles son las implicaciones para aplicaciones de mayor criticidad? El test del lavado de coches, aunque simple, actúa como una vela canaria para detectar fallos en capacidades cognitivas que deberían ser estándares en cualquier sistema considerado verdaderamente inteligente. Esta investigación llega en un momento crucial para la industria de la IA, donde las afirmaciones sobre capacidades se sobredimensionan frecuentemente. La metodología rigurosa del estudio, ejecutando cada modelo múltiples veces y comparando con una línea de base humana verificable, proporciona datos empíricos que contrastan con las declaraciones de marketing. Los resultados sugieren que, a pesar de los avances aparentes, persisten brechas fundamentales en el razonamiento lógico básico de incluso los modelos más sofisticados del mercado.

🎙️ Quick Summary

Buenas tardes, oyentes de ClaudeIA Radio. Esto es interesante porque nos acabamos de enterar de que 53 modelos de IA, algunos de los más caros y promocionados del mercado, fracasan estrepitosamente en lo que debería ser una pregunta trivial: si tu coche está a 50 metros, ¿caminas o conduces? Lo sé, suena absurdo pensar que una máquina que puede escribir artículos o resumir documentos no sea capaz de resolver esto. Pero ahí está el dato: solo 5 de 53 lo hacen consistentemente bien. Lo que más me llama la atención es que algunos de estos sistemas, cuando los pones a prueba una sola vez, pueden sonar inteligentes. Pero cuando repites el test diez veces, eso es cuando ves la realidad. GPT-5.2, Claude Sonnet 4.5, todos los Llamas y Mistrals: cero de diez. Y mientras tanto, el 71,5% de los humanos consultados lo acierta a la primera. Pensadlo un momento: estamos construyendo sistemas de IA que se supone que son más inteligentes que nosotros, y están fracasando en lo que cualquier niño de seis años entiende por sentido común. Está claro que aquí hay algo fundamental que no estamos resolviendo. No es un problema de tokens o parámetros, es un problema de razonamiento lógico básico. Y eso debería preocuparnos a todos cuando estos modelos se están implementando en decisiones médicas, legales y financieras. La pregunta que queda en el aire es: ¿hasta qué punto estamos confiando en sistemas que no pueden ni resolver un problema de primaria consistentemente?

🤖 Classification Details

Systematic benchmark test across 53 models with human baseline (10k people), full methodology disclosed, reasoning traces provided, raw data available for verification.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details