El modelo Qwen de 27 mil millones de parámetros supera al de 35 mil millones en pruebas de generación de código

Un desarrollador ha publicado resultados sorprendentes tras evaluar diferentes versiones cuantificadas del modelo de lenguaje Qwen3.5 utilizando LiveCodeBench, un conjunto de pruebas especializado en generación de código. Los datos revelan un hallazgo contraintuitivo: el modelo más pequeño y comprimido obtiene un desempeño significativamente superior al de su versión más grande. Las pruebas se realizaron en hardware modesto: una RTX 4060 Ti con 16 GB de VRAM, 32 GB de memoria RAM y un procesador i7-14700. Se evaluaron cuatro variantes de modelos Qwen, incluyendo versiones de 27 mil millones, 35 mil millones, 9 mil millones y 4 mil millones de parámetros, con diferentes niveles de compresión mediante cuantización. Según los resultados consolidados de tres períodos de evaluación diferentes, el modelo Qwen3.5-27B con cuantización IQ3_XXS logró un rendimiento promedio del 34,8 por ciento en resolución de problemas de codificación, superando ampliamente al Qwen3.5-35B con cuantización IQ4_XS, que alcanzó únicamente el 11,0 por ciento. Esta diferencia es particularmente pronunciada en problemas de dificultad media, donde el modelo de 27 mil millones obtuvo un 25,0 por ciento frente al 4,2 por ciento del de 35 mil millones, representando una ventaja de aproximadamente seis veces. Lo más intrigante es que ambos modelos comparten la misma arquitectura base de Qwen3.5. La principal diferencia radica en que el modelo de 27 mil millones utiliza una cuantización más agresiva (IQ3_XXS, ocupando 10,7 GB) comparado con el de 35 mil millones (IQ4_XS, con 17,4 GB). Este resultado desafía la premisa convencional de que modelos más grandes siempre producen mejores resultados. El desarrollador observó además una degradación alarmante del modelo de 35 mil millones en las pruebas más recientes del período abril-mayo de 2025, donde obtuvo un rendimiento nulo del 0 por ciento en todos los problemas evaluados. Múltiples intentos de optimización, incluyendo aumentar la longitud del contexto a 150.000 tokens y utilizar diferentes esquemas de compresión, no consiguieron mejorar este desempeño. Esta evaluación pone de manifiesto un fenómeno relevante para la comunidad de inteligencia artificial local: la cuantización agresiva, lejos de siempre ser perjudicial, puede en algunos casos preservar mejor las capacidades críticas del modelo que una compresión más conservadora. El hallazgo también subraya la importancia de pruebas sistemáticas y empíricas antes de asumir que especificaciones técnicas más grandes garantizan un mejor desempeño en tareas específicas. Es importante notar que estas pruebas evaluaron únicamente 92 de aproximadamente mil problemas disponibles en LiveCodeBench, por lo que los resultados deben interpretarse como indicativos más que como conclusiones definitivas sobre el rendimiento de estos modelos.

🎙️ Quick Summary

Hola, esto que os voy a contar es realmente fascinante porque cuestiona una de nuestras creencias más arraigadas en el mundo de la inteligencia artificial: que más grande siempre es mejor. Resulta que alguien ha estado experimentando con las versiones cuantificadas de Qwen3.5 y ha descubierto algo sorprendente: el modelo de 27 mil millones de parámetros, comprimido agresivamente, le da una paliza al de 35 mil millones en tareas de generación de código. Estamos hablando de una diferencia de casi 3,2 veces en rendimiento general. ¿Cómo es posible? Pues eso es lo que más me llama la atención. Lo que sucede aquí es que la cuantización no es una simple pérdida de información uniforme. Parece que comprimir más agresivamente el modelo de 27 mil millones ha preservado, de alguna manera, los circuitos neuronales más críticos para resolver código, mientras que la compresión más suave del de 35 mil millones ha mantenido mucho ruido y redundancia. Además, hay otro dato escalofriante: en las pruebas más recientes de abril-mayo de 2025, el modelo de 35 mil millones simplemente se rendía sin intentarlo, obteniendo un cero absoluto. Incluso aumentar el contexto a 150.000 tokens no funcionó. Es como si el modelo hubiera olvidado cómo escribir código. Pensadlo un momento: esto tiene implicaciones enormes para cualquiera que quiera ejecutar modelos en hardware local sin gastar un dineral. Quizás no necesitamos esos modelos gigantes; quizás necesitamos ser más inteligentes sobre cómo los comprimimos. ¿Qué creéis que pasaría si aplicásemos estas lecciones a otros modelos? ¿Es posible que hayamos estado buscando la eficiencia en el lugar equivocado?

🤖 Classification Details

Detailed benchmark evaluation with reproducible methodology, specific hardware specs, configuration parameters, and comprehensive results tables across multiple models and time periods. Includes links to code repository and diff for reproducibility.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details