Un desarrollador pone a prueba 21 modelos de IA locales en MacBook Air M5: los resultados desmienten los mitos sobre rendimiento

La evaluación rigurosa de modelos de lenguaje grandes (LLM) especializados en código ha sido históricamente un terreno fangoso, plagado de afirmaciones anecdóticas y pruebas sesgadas. Un reciente benchmarking exhaustivo sobre hardware real pretende cambiar esa dinámica al sustituir las impresiones subjetivas por datos verificables. El estudio evaluó 21 modelos de IA diferentes ejecutándose de forma local en una MacBook Air M5, midiendo simultáneamente la calidad del código generado y la velocidad de procesamiento. Para garantizar la comparabilidad directa de los resultados, todos los modelos fueron sometidos a condiciones idénticas: 164 problemas de codificación del conjunto de pruebas HumanEval+, una variante del estándar HumanEval que incorpora más casos de prueba por problema, reduciendo así la probabilidad de que los modelos aprueben por simple coincidencia. Los resultados revelan ganadores claramente definidos en diferentes categorías. El Qwen 3.6 35B-A3B destaca como el modelo de mayor precisión, alcanzando un 89,6% de exactitud en la métrica de éxito a la primera (pass@1) mientras mantiene una velocidad notable de 16,9 tokens por segundo, logro facilitado por su arquitectura de parámetros activos (MoE), que reduce dramáticamente el consumo de memoria a pesar de su tamaño nominal de 35 mil millones de parámetros. Para usuarios con restricciones presupuestarias de hardware, el Qwen 2.5 Coder 7B emerge como el mejor equilibrio entre calidad y eficiencia, ofreciendo un 84,2% de precisión consumiendo apenas 4,5 GB de memoria RAM y ejecutándose a 11,3 tokens por segundo. Este modelo se posiciona particularmente interesante para desarrolladores que busquen un asistente de codificación diario en máquinas con 8 GB de RAM disponibles. Uno de los hallazgos más desconcertantes concierne a la familia Gemma 4, cuyos modelos muestran un desempeño significativamente inferior al esperado. El Gemma 4 31B alcanza apenas un 31,1% de precisión, por debajo incluso del Llama 3.2 1B (32,9%) y dramáticamente inferior a su predecesor Gemma 3 27B (78,7%). Las variantes MoE de Gemma 4 registran resultados aún peores, con apenas 12,2% en el caso del modelo 26B-A4B. El investigador especula que la cuantización Q4_K_M utilizada podría afectar desproporcionadamente a la arquitectura de Gemma 4, o que la distribución de tareas en HumanEval+ podría no favorecer sus fortalezas particulares. Otro descubrimiento notable es el del Phi 4 Mini 3.8B, que el investigador describe como "una opción inesperada". A pesar de su tamaño diminuto (3,8 mil millones de parámetros), alcanza un 70,7% de precisión mientras se ejecuta a una velocidad impressionante de 19,6 tokens por segundo en apenas 2,5 GB de memoria. Este rendimiento lo coloca por delante de varios modelos significativamente más grandes, lo que sugiere que la arquitectura y el entrenamiento pueden ser tan determinantes como el tamaño bruto. El análisis también evidencia un principio fundamental que emerge del benchmark: el número de parámetros activos es lo que determina la velocidad de ejecución, mientras que el número total de parámetros es lo que influye más decisivamente en la calidad de los resultados. Esta distinción resulta crucial para optimizar la selección de modelos según las necesidades específicas de cada usuario. El trabajo completo, disponible a través de múltiples canales de acceso incluyendo análisis detallados, código fuente abierto y datasets públicos, representa un esfuerzo deliberado por democratizar la información sobre rendimiento de LLMs en hardware de consumidor. El investigador ha explicitado su intención de continuar expandiendo el benchmark y ha invitado a la comunidad a contribuir con resultados de diferentes configuraciones de hardware Apple Silicon (M3, M4 Pro, M4 Max), lo que sugiere un compromiso con mantener este trabajo como referencia comunitaria actualizada. Esta evaluación llega en un momento en que la inferencia local de modelos de IA se ha convertido en una prioridad creciente para desarrolladores que valoran la privacidad, la latencia predecible y la independencia de servicios en la nube. Los datos generados proporcionan un marco concreto para tomar decisiones técnicas basadas en evidencia, en lugar de en preferencias de marca o expectativas infladas.

🎙️ Quick Summary

Mira, esto es lo que me encanta de la comunidad tech: alguien se cansa de escuchar "este modelo es increíble, hermano" en foros y dice, bueno, pues voy a medirlo de verdad. Y eso es exactamente lo que pasó aquí. Este tipo benchmarkeó 21 modelos de IA para código en su MacBook Air M5 usando las mismas condiciones para todos. Sin trucos, sin cherry-picking, solo datos puros y duros. Lo que más me llama la atención es cómo los resultados rompen completamente con lo que uno podría esperar. El Gemma 4, que suena como el último grito en tecnología de Google, está ahí mismo en el fondo sacando resultados patéticos. Un 31% de precisión. Eso es peor que modelos diminutos que tienen 30 veces menos parámetros. ¿Cómo es posible? Quizás la cuantización les está matando el modelo, o quizás el benchmark simplemente no favorece lo que Gemma 4 hace bien. Pero la cuestión es que esto demuestra por qué los benchmarks reales importan. Sin este trabajo, alguien estaría ahora mismo descargándose Gemma 4 y sintiéndose decepcionado. Y luego está el Phi 4 Mini. Un modelito de apenas 3,8 mil millones de parámetros que se ejecuta a casi 20 tokens por segundo en 2,5 gigas de RAM y aun así resuelve problemas de codificación mejor que modelos 10 veces más grandes. Pensadlo un momento: eso significa que el futuro de la IA local no va a ser necesariamente sobre quién tiene el modelo más gordo, sino sobre quién logra la mejor arquitectura. Y ese es un cambio de mentalidad importante. ¿No crees que es hora de dejar de obsesionarse con los números de parámetros y empezar a pensar en eficiencia real?

🤖 Classification Details

Comprehensive benchmark comparing 21 local LLMs with standardized testing (164 coding problems, HumanEval+), detailed methodology, performance table, and hardware specs. Includes GitHub repo and Medium article.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details