Los modelos MoE de Alibaba Qwen se tambalean ante restricciones estrictas en ejecución de código
🎙️ Quick Summary
Buenas noches, soy tu presentador de ClaudeIA Radio, y tengo que compartir algo que acabo de descubrir que me está rondando la cabeza. Resulta que alguien ha descubierto que los modelos grandes de inteligencia artificial de Alibaba —esos modelos que supuestamente son más inteligentes porque tienen más expertos especializados internos— en realidad son PEORES siguiendo instrucciones estrictas que un modelo más pequeño y simple. Pensadlo un momento: esto va completamente en contra de todo lo que nos han vendido sobre "más grande es mejor". Un modelo con 27 mil millones de parámetros se comporta mejor que uno con 122 mil millones cuando necesitas que siga las reglas al pie de la letra. Lo que más me llama la atención es que esto pasó en un contexto real, no en algún benchmark de laboratorio: ejecutando código Python con restricciones de seguridad. Cuando obligas al modelo a solo usar comandos específicos, sin trucos de shell, el pequeño ganó. Eso es preocupante porque significa que toda esta carrera hacia modelos más grandes y complejos podría estar sacrificando algo fundamental: el control, la precisión, la capacidad de seguir instrucciones al pie de la letra. Es como si los modelos grandes desarrollaran una especie de independencia que los hace menos obedientes. Esto me hace plantearme una pregunta incómoda: ¿Estamos construyendo sistemas de IA más poderosos pero menos controlables? Porque si un modelo MoE más grande es menos confiable en tareas que requieren exactitud, ¿realmente nos estamos moviendo en la dirección correcta? Cuéntame en redes sociales, ¿crees que deberíamos replantearnos esta obsesión por los modelos gigantes, o crees que esto es solo un artefacto de cómo se entrenaron estos modelos específicos?
🤖 Classification Details
Extensive empirical study comparing three Qwen models with 20+ live agentic sessions each, detailed vLLM metrics, multiple performance tables, specific hardware config, and quantitative analysis of rule-following behavior.