La evaluación rigurosa de modelos de lenguaje grandes (LLM) especializados en código ha sido históricamente un terreno fangoso, plagado de afirmaciones anecdóticas y pruebas sesgadas. Un reciente benchmarking exhaustivo sobre hardware real pretende cambiar esa dinámica al sustituir las impresiones subjetivas por datos verificables.
El estudio evaluó 21 modelos de IA diferentes ejecutándose de forma local en una MacBook Air M5, midiendo simultáneamente la calidad del código generado y la velocidad de procesamiento. Para garantizar la comparabilidad directa de los resultados, todos los modelos fueron sometidos a condiciones idénticas: 164 problemas de codificación del conjunto de pruebas HumanEval+, una variante del estándar HumanEval que incorpora más casos de prueba por problema, reduciendo así la probabilidad de que los modelos aprueben por simple coincidencia.
Los resultados revelan ganadores claramente definidos en diferentes categorías. El Qwen 3.6 35B-A3B destaca como el modelo de mayor precisión, alcanzando un 89,6% de exactitud en la métrica de éxito a la primera (pass@1) mientras mantiene una velocidad notable de 16,9 tokens por segundo, logro facilitado por su arquitectura de parámetros activos (MoE), que reduce dramáticamente el consumo de memoria a pesar de su tamaño nominal de 35 mil millones de parámetros.
Para usuarios con restricciones presupuestarias de hardware, el Qwen 2.5 Coder 7B emerge como el mejor equilibrio entre calidad y eficiencia, ofreciendo un 84,2% de precisión consumiendo apenas 4,5 GB de memoria RAM y ejecutándose a 11,3 tokens por segundo. Este modelo se posiciona particularmente interesante para desarrolladores que busquen un asistente de codificación diario en máquinas con 8 GB de RAM disponibles.
Uno de los hallazgos más desconcertantes concierne a la familia Gemma 4, cuyos modelos muestran un desempeño significativamente inferior al esperado. El Gemma 4 31B alcanza apenas un 31,1% de precisión, por debajo incluso del Llama 3.2 1B (32,9%) y dramáticamente inferior a su predecesor Gemma 3 27B (78,7%). Las variantes MoE de Gemma 4 registran resultados aún peores, con apenas 12,2% en el caso del modelo 26B-A4B. El investigador especula que la cuantización Q4_K_M utilizada podría afectar desproporcionadamente a la arquitectura de Gemma 4, o que la distribución de tareas en HumanEval+ podría no favorecer sus fortalezas particulares.
Otro descubrimiento notable es el del Phi 4 Mini 3.8B, que el investigador describe como "una opción inesperada". A pesar de su tamaño diminuto (3,8 mil millones de parámetros), alcanza un 70,7% de precisión mientras se ejecuta a una velocidad impressionante de 19,6 tokens por segundo en apenas 2,5 GB de memoria. Este rendimiento lo coloca por delante de varios modelos significativamente más grandes, lo que sugiere que la arquitectura y el entrenamiento pueden ser tan determinantes como el tamaño bruto.
El análisis también evidencia un principio fundamental que emerge del benchmark: el número de parámetros activos es lo que determina la velocidad de ejecución, mientras que el número total de parámetros es lo que influye más decisivamente en la calidad de los resultados. Esta distinción resulta crucial para optimizar la selección de modelos según las necesidades específicas de cada usuario.
El trabajo completo, disponible a través de múltiples canales de acceso incluyendo análisis detallados, código fuente abierto y datasets públicos, representa un esfuerzo deliberado por democratizar la información sobre rendimiento de LLMs en hardware de consumidor. El investigador ha explicitado su intención de continuar expandiendo el benchmark y ha invitado a la comunidad a contribuir con resultados de diferentes configuraciones de hardware Apple Silicon (M3, M4 Pro, M4 Max), lo que sugiere un compromiso con mantener este trabajo como referencia comunitaria actualizada.
Esta evaluación llega en un momento en que la inferencia local de modelos de IA se ha convertido en una prioridad creciente para desarrolladores que valoran la privacidad, la latencia predecible y la independencia de servicios en la nube. Los datos generados proporcionan un marco concreto para tomar decisiones técnicas basadas en evidencia, en lugar de en preferencias de marca o expectativas infladas.