Un entusiasta de la inteligencia artificial ha publicado un análisis detallado sobre el rendimiento del chip M5 Max de Apple ejecutando modelos de lenguaje de forma local, corrigiendo y ampliando un estudio anterior tras recibir retroalimentación de la comunidad. Los nuevos resultados ofrecen una perspectiva reveladora sobre las capacidades reales del hardware más potente de Apple cuando se trata de inferencia de modelos de IA.
El equipo utilizado para las pruebas cuenta con un chip M5 Max de 18 núcleos (12 de rendimiento y 6 de eficiencia), una GPU de 40 núcleos, 128 GB de memoria unificada y un ancho de banda de 614 GB/s. Este tipo de especificaciones, raramente accesibles para pruebas de este tipo, permite evaluar de forma exhaustiva cómo se comportan diferentes modelos bajo condiciones próximas al límite teórico.
En un cambio importante respecto al análisis anterior, el autor incluyó métricas de procesamiento de prompts (PP), identificado como el área donde el M5 realmente destaca. Los resultados son espectaculares: el modelo Qwen 3.5 35B-A3B, un modelo de expertos mezclados (MoE), logra procesar prompts a 2.845 tokens por segundo con contextos de 512 tokens, una velocidad 5,5 veces superior a la de un modelo denso comparable de 27B parámetros.
La arquitectura de memoria unificada de Apple Silicon emerge como crucial para el rendimiento de los modelos MoE. A diferencia de otras plataformas donde los expertos podrían estar distribuidos en diferentes unidades de memoria, en el M5 Max todos los expertos son igualmente accesibles sin cuellos de botella PCIe. Esto traduce en ventajas extraordinarias: aunque el modelo MoE ocupa 30 por ciento más espacio en disco que una versión densa, ofrece velocidades de generación de tokens 4,8 veces más rápidas porque solo aproximadamente 3.000 millones de parámetros están activos en cada paso.
En cuanto a la generación de tokens, donde el sistema está limitado por ancho de banda en lugar de capacidad computacional, los resultados varían más según el modelo. El Qwen 3.5 35B-A3B logra 92,2 tokens por segundo, mientras que modelos más pequeños como DeepSeek-R1 8B alcanzan 68,2 tokens por segundo. Estos números, aunque impresionantes para hardware de consumidor, revelan una realidad física: una vez alcanzada la fase de generación, el rendimiento está determinado principalmente por la capacidad de transferir datos entre memoria y procesador.
El análisis también corrige un error importante del estudio anterior respecto a la comparación entre MLX (el framework de Apple) y llama.cpp (la herramienta más popular de código abierto para ejecutar modelos localmente). La afirmación inicial de que MLX era 92 por ciento más rápido resultó ser engañosa porque comparaba diferentes niveles de compresión (cuantificación). Cuando se comparan a niveles equivalentes, MLX muestra una ventaja del 30 por ciento: 31,6 tokens por segundo frente a 24,3 tokens por segundo con cuantificación de 4 bits.
La cuantificación, proceso que reduce la precisión numérica de los modelos para ahorrar espacio y acelerar la inferencia, emerge como un equilibrio delicado en los resultados. Un modelo cuantificado en Q4_K_M (15,9 GB) genera tokens más rápidamente, mientras que Q8_0 (26,7 GB) procesa prompts más velozmente. Esta compensación refleja las diferentes demandas computacionales: procesamiento de prompts es intensivo en cálculo, mientras que generación de tokens es intensiva en ancho de banda.
Los resultados tienen implicaciones significativas para el futuro de la IA en dispositivos personales. Demuestran que es posible ejecutar modelos de lenguaje sofisticados en hardware de consumidor sin conexión a internet o servidores remotos. Además, la eficiencia del M5 Max sugiere que la arquitectura de memoria unificada de Apple podría ofrecer ventajas únicas para cargas de trabajo específicas de IA, particularmente con arquitecturas emergentes como los modelos MoE que se adaptan particularmente bien a este paradigma.
La eficiencia de ancho de banda alcanzada varía según el modelo: mientras que el DeepSeek-R1 8B logra el 70 por ciento de su capacidad teórica, otros modelos rondan el 63-74 por ciento. Estos números, aunque altos en términos absolutos, sugieren que hay margen para optimización mediante mejoras de software y adaptaciones específicas para la arquitectura del chip M5.