Qwen 3.5: cómo un modelo de 27 mil millones de parámetros compite con gigantes de 122 mil millones mediante una arquitectura más profunda

Alibaba ha lanzado tres nuevos modelos de lenguaje bajo su línea Qwen 3.5 que desafían las convenciones sobre la relación entre tamaño de parámetros y rendimiento. Mientras que dos de ellos utilizan arquitecturas de Mezcla de Expertos (MoE) con 122 mil millones y 35 mil millones de parámetros respectivamente, el tercero es un modelo denso de apenas 27 mil millones que logra resultados comparables en benchmarks de evaluación. Esta aparente anomalía en el rendimiento relativo obedece a diferencias fundamentales en la distribución de parámetros entre los modelos. Todos ellos comparten un diseño arquitectónico similar que intercala capas de atención vigilada con capas DeltaNet vigiladas, cada una seguida de su respectiva red neuronal de alimentación hacia adelante. Sin embargo, es precisamente en cómo se distribuyen los parámetros entre estas capas donde radican las claves del desempeño del modelo más pequeño. Los modelos MoE concentran una proporción significativamente mayor de sus parámetros en las capas de alimentación hacia adelante. El modelo de 122 mil millones dedica el 63% de sus parámetros totales a estas capas (aunque solo 2,2% están activos en cualquier momento dado), mientras que el modelo de 35 mil millones destina el 61%. En contraste, el modelo denso de 27 mil millones asigna solamente el 34% de sus parámetros a estas capas. Esta diferencia fundamental permite al modelo de 27 mil millones reasignar parámetros hacia otras partes de la arquitectura. Concretamente, el modelo denso incorpora 64 capas en lugar de 48 (en el caso del modelo de 122B) o 40 (en el de 35B), proporcionándole mayor profundidad para tareas de razonamiento complejo. Además, utiliza cuatro claves y cuatro valores en sus capas de atención vigilada, frente a solo dos en sus contrapartes MoE, lo que potencialmente le permite capturar matices más sutiles en las relaciones semánticas. El modelo también emplea más cabezas de atención en sus capas DeltaNet vigiladas. Otro factor relevante es la tasa de activación de parámetros. Aunque el modelo denso contiene menos parámetros totales en sus capas de alimentación, utiliza una proporción mayor de ellos de manera activa durante la inferencia. Esta eficiencia computacional por token podría explicar por qué logra un rendimiento competitivo a pesar de su tamaño significativamente inferior. El análisis arquitectónico sugiere que el modelo Qwen 3.5 de 27 mil millones puede considerarse, en varios aspectos, como una red más profunda y amplia que su hermano de 35 mil millones. Esta estructuración más equilibrada de parámetros desafía la suposición tradicional en el campo del aprendizaje automático de que más parámetros siempre equivalen a mejor rendimiento. Este desarrollo tiene implicaciones significativas para la industria de los modelos de lenguaje grandes. Si la distribución inteligente de parámetros puede compensar sustancialmente la diferencia de escala, ello sugiere que futuras investigaciones deberían enfocarse tanto en la arquitectura como en el número bruto de parámetros. Para aplicaciones prácticas, especialmente en entornos con restricciones computacionales, modelos más compactos pero arquitectónicamente sofisticados como este podrían ofrecer un equilibrio óptimo entre rendimiento y eficiencia.

🎙️ Quick Summary

Hola radioescuchas de ClaudeIA, tenemos que hablar de algo que me tiene bastante intrigado. Alibaba acaba de lanzar esta nueva familia de modelos Qwen 3.5, y lo que está pasando aquí es fascinante desde el punto de vista arquitectónico. Mirad, durante años hemos asumido casi como un dogma que más parámetros equivale a mejor rendimiento. Pero resulta que Qwen ha demostrado que eso no es necesariamente cierto si organizas esos parámetros de forma inteligente. Lo que más me llama la atención es esto: tienen un modelo de 27 mil millones de parámetros que compite directamente con uno de 35 mil millones. ¿Cómo es posible? Bueno, el pequeño es mucho más profundo, tiene más capas, utiliza más cabezas de atención y, aquí viene lo importante, dedica muchos menos recursos a esas capas de alimentación hacia adelante que son típicamente enormes en los modelos MoE. Es como si dijesen: "Sabéis qué, vamos a construir una red más profunda pero más esbelta, en lugar de una red gorda y poco profunda". Y funciona. Esto es interesante porque sugiere que estamos en un punto de inflexión donde la ingeniería arquitectónica importa más de lo que creíamos. No es solo cuestión de reunir el máximo de dinero para entrenar el modelo más grande posible. Pensadlo un momento: si la distribución inteligente de parámetros puede hacer que un modelo pequeño compita con uno cuatro veces más grande, ¿qué implicaciones tiene eso para el futuro? ¿Significa que el camino hacia la AGI no es necesariamente escalar hasta el infinito, sino entender mejor cómo organizar lo que ya tenemos?

🤖 Classification Details

Detailed architectural analysis with specific parameter counts, mathematical formulas, layer comparisons, and reasoning about design trade-offs between dense and MoE models. Well-sourced from HuggingFace configs and prior community discussion.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details