La cuantización importa más que el tamaño: un desarrollador revela sorpresas al comparar nueve modelos de IA local

Un desarrollador ha realizado un experimento exhaustivo comparando nueve modelos de lenguaje local diferentes ejecutándose en el mismo hardware, utilizando idénticas condiciones de prueba. El resultado desafía algunas de las premisas más comunes en la comunidad de IA de código abierto: la importancia del proveedor de cuantización supera significativamente la importancia del número de parámetros o incluso la velocidad de generación de tokens. El test consistió en solicitar a cada modelo que generara un simulador de combate aéreo interactivo en HTML con tres aviones seleccionables, enemigos dinámicos y física de vuelo. Todos los modelos fueron ejecutados en versión de 8 bits utilizando un MacBook Pro M3 Max con 128GB de RAM, a través de la herramienta omlx, asegurando que las únicas variables fueran la arquitectura del modelo y su proveedor de cuantización. Los hallazgos principales revelan una jerarquía inesperada de importancia. En primer lugar, tres versiones diferentes de 8 bits del mismo modelo base (Qwen 3.6 de 35 mil millones de parámetros) produjeron resultados dramáticamente diferentes. Mientras que la cuantización de Unsloth completó una implementación funcional en tres intentos con 1.304 líneas de código incluida una minimap y revisión automática de errores, la versión de oMLX requirió cinco intentos de depuración para resolver problemas de controles que rebotaban hacia la posición neutra, pese a ser exactamente el mismo modelo base con exactamente el mismo nivel de compresión. Otro descubrimiento desafía la correlación asumida entre volumen de código y calidad de resultados. El ganador general, Qwopus 3.5 (27 mil millones de parámetros), completó el simulador en apenas dos intentos generando 1.049 líneas de código limpio y funcional. En contraste, el modelo más grande del test, Qwen Coder Next de 80 mil millones de parámetros, requirió tres intentos para generar 1.635 líneas de código resultando en un simulador deficiente con cámara excesivamente sensible, enemigos ausentes y aviones rotados 180 grados. Qwopus demostró capacidades técnicas particularmente sofisticadas sin que fueran explícitamente solicitadas. Implementó física de vuelo realista utilizando constantes aerodinámicas diferenciadas por tipo de avión, amortiguación de velocidad por frame y audio procedural donde la frecuencia del motor se modulaba según la velocidad del aire. El equipo detrás del test especula que esta sofisticación proviene del trabajo de destilación del modelo Opus original de Anthropic, sugiriendo que las destilaciones de modelos superiores pueden transferir capacidades técnicas específicas más allá del simple rendimiento en benchmarks. La velocidad de generación de tokens resultó irrelevante para el resultado final. Gemma 4 26B alcanzó 58,3 tokens por segundo, casi el doble que variantes de Qwen y siete veces más rápido que modelos densos, sin embargo no figuró entre los tres mejores resultados. Qwopus generó a menos de 11 tokens por segundo y aun así produjo el mejor resultado global, demostrando que la velocidad por token es un proxy deficiente para medir el tiempo hasta obtener un artefacto funcional. Este experimento tiene implicaciones significativas para la comunidad de IA local. Sugiere que los desarrolladores no deberían enfocarse únicamente en métricas de tamaño o velocidad, sino investigar activamente qué proveedor de cuantización funciona mejor con sus casos de uso específicos. Las diferencias abismales entre cuantizaciones del mismo modelo indican que la infraestructura de compresión es donde se materializa parte del verdadero valor de la ingeniería en IA abierta, no apenas en los pesos del modelo original. El test también reveló patrones interesantes en capacidad creativa. Cuando se pidió a los modelos elegir un tercer tipo de avión personalizado, Qwen 3.6 en su versión oMLX seleccionó un helicóptero AH-64 Apache, la opción técnicamente más interesante pero también técnicamente incorrecta para el contexto. El modelo más grande, con 80 mil millones de parámetros, simplemente generó otro caza, demostrando que el tamaño no garantiza sofisticación o creatividad. El desarrollador planea realizar tests adicionales comparando los mismos nueve modelos en tareas de revisión de código y en una tarea creativa todavía sin especificar, prometiendo análisis aún más profundos de cómo diferentes arquitecturas y proveedores de cuantización se comportan en contextos del mundo real.

🎙️ Quick Summary

Buenas noches, oyentes de ClaudeIA Radio. Lo que acabo de leer en este experimento me ha dejado francamente pensativo, y quiero que reflexionéis conmigo sobre lo que significa realmente. Tenemos un desarrollador que se tomó la molestia de hacer algo que aparentemente nadie más había hecho de forma sistemática: usar exactamente el mismo prompt, el mismo hardware, las mismas condiciones, y simplemente variar los modelos. Y el resultado principal es demoledor para toda la narrativa que hemos estado aceptando: la cuantización importa más que todo lo demás. Tres versiones del mismo modelo base producen tres juegos completamente diferentes. Tres. El mismo modelo. Es como si el proveedor de cuantización fuera el verdadero alfarero y nosotros simplemente habláramos de arcilla. Eso es profundo. Pero lo que realmente me deja perplejo es Qwopus. Un modelo que nadie menciona en los rankings principales, que genera a apenas 11 tokens por segundo mientras otros hacen 58, se lleva el primer premio. Y no solo eso: implementa física de vuelo realista por decisión propia. ¿Entendéis lo que significa eso? Significa que hay destilaciones de Opus por ahí que están codificando capacidad técnica real, no solo tokens rellenos. El modelo aprendió a pensar como ingeniero sin que se lo pidiéramos explícitamente. Eso no se consigue por tamaño. Mi pregunta para vosotros es esta: ¿cuántas decisiones sobre modelos estamos tomando basándonos en métricas que, al final, importan muy poco para lo que realmente queremos conseguir?

🤖 Classification Details

Extensive comparative testing of 9 models with reproducible setup, interactive playable results, detailed findings on quant providers and model behavior, and planned follow-ups. Links to code, Medium writeup, and games.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details