Un desarrollador ha realizado un experimento exhaustivo comparando nueve modelos de lenguaje local diferentes ejecutándose en el mismo hardware, utilizando idénticas condiciones de prueba. El resultado desafía algunas de las premisas más comunes en la comunidad de IA de código abierto: la importancia del proveedor de cuantización supera significativamente la importancia del número de parámetros o incluso la velocidad de generación de tokens.
El test consistió en solicitar a cada modelo que generara un simulador de combate aéreo interactivo en HTML con tres aviones seleccionables, enemigos dinámicos y física de vuelo. Todos los modelos fueron ejecutados en versión de 8 bits utilizando un MacBook Pro M3 Max con 128GB de RAM, a través de la herramienta omlx, asegurando que las únicas variables fueran la arquitectura del modelo y su proveedor de cuantización.
Los hallazgos principales revelan una jerarquía inesperada de importancia. En primer lugar, tres versiones diferentes de 8 bits del mismo modelo base (Qwen 3.6 de 35 mil millones de parámetros) produjeron resultados dramáticamente diferentes. Mientras que la cuantización de Unsloth completó una implementación funcional en tres intentos con 1.304 líneas de código incluida una minimap y revisión automática de errores, la versión de oMLX requirió cinco intentos de depuración para resolver problemas de controles que rebotaban hacia la posición neutra, pese a ser exactamente el mismo modelo base con exactamente el mismo nivel de compresión.
Otro descubrimiento desafía la correlación asumida entre volumen de código y calidad de resultados. El ganador general, Qwopus 3.5 (27 mil millones de parámetros), completó el simulador en apenas dos intentos generando 1.049 líneas de código limpio y funcional. En contraste, el modelo más grande del test, Qwen Coder Next de 80 mil millones de parámetros, requirió tres intentos para generar 1.635 líneas de código resultando en un simulador deficiente con cámara excesivamente sensible, enemigos ausentes y aviones rotados 180 grados.
Qwopus demostró capacidades técnicas particularmente sofisticadas sin que fueran explícitamente solicitadas. Implementó física de vuelo realista utilizando constantes aerodinámicas diferenciadas por tipo de avión, amortiguación de velocidad por frame y audio procedural donde la frecuencia del motor se modulaba según la velocidad del aire. El equipo detrás del test especula que esta sofisticación proviene del trabajo de destilación del modelo Opus original de Anthropic, sugiriendo que las destilaciones de modelos superiores pueden transferir capacidades técnicas específicas más allá del simple rendimiento en benchmarks.
La velocidad de generación de tokens resultó irrelevante para el resultado final. Gemma 4 26B alcanzó 58,3 tokens por segundo, casi el doble que variantes de Qwen y siete veces más rápido que modelos densos, sin embargo no figuró entre los tres mejores resultados. Qwopus generó a menos de 11 tokens por segundo y aun así produjo el mejor resultado global, demostrando que la velocidad por token es un proxy deficiente para medir el tiempo hasta obtener un artefacto funcional.
Este experimento tiene implicaciones significativas para la comunidad de IA local. Sugiere que los desarrolladores no deberían enfocarse únicamente en métricas de tamaño o velocidad, sino investigar activamente qué proveedor de cuantización funciona mejor con sus casos de uso específicos. Las diferencias abismales entre cuantizaciones del mismo modelo indican que la infraestructura de compresión es donde se materializa parte del verdadero valor de la ingeniería en IA abierta, no apenas en los pesos del modelo original.
El test también reveló patrones interesantes en capacidad creativa. Cuando se pidió a los modelos elegir un tercer tipo de avión personalizado, Qwen 3.6 en su versión oMLX seleccionó un helicóptero AH-64 Apache, la opción técnicamente más interesante pero también técnicamente incorrecta para el contexto. El modelo más grande, con 80 mil millones de parámetros, simplemente generó otro caza, demostrando que el tamaño no garantiza sofisticación o creatividad.
El desarrollador planea realizar tests adicionales comparando los mismos nueve modelos en tareas de revisión de código y en una tarea creativa todavía sin especificar, prometiendo análisis aún más profundos de cómo diferentes arquitecturas y proveedores de cuantización se comportan en contextos del mundo real.