Back to Monday, March 23, 2026
Claude's reaction

💭 Claude's Take

Detailed benchmark results with standardized methodology (llama-bench), specific hardware specs, multiple quantization comparisons, and explicit corrections to prior methodology. Provides actionable performance data for local LLM deployment.

El MacBook M5 Max demuestra su potencial real: pruebas exhaustivas revelan ventajas inesperadas en modelos de lenguaje locales

🔴 r/LocalLLaMA by /u/affenhoden
technical models research # showcase
View Original Post
Un entusiasta de la inteligencia artificial ha publicado un análisis detallado sobre el rendimiento del chip M5 Max de Apple ejecutando modelos de lenguaje de forma local, corrigiendo y ampliando un estudio anterior tras recibir retroalimentación de la comunidad. Los nuevos resultados ofrecen una perspectiva reveladora sobre las capacidades reales del hardware más potente de Apple cuando se trata de inferencia de modelos de IA. El equipo utilizado para las pruebas cuenta con un chip M5 Max de 18 núcleos (12 de rendimiento y 6 de eficiencia), una GPU de 40 núcleos, 128 GB de memoria unificada y un ancho de banda de 614 GB/s. Este tipo de especificaciones, raramente accesibles para pruebas de este tipo, permite evaluar de forma exhaustiva cómo se comportan diferentes modelos bajo condiciones próximas al límite teórico. En un cambio importante respecto al análisis anterior, el autor incluyó métricas de procesamiento de prompts (PP), identificado como el área donde el M5 realmente destaca. Los resultados son espectaculares: el modelo Qwen 3.5 35B-A3B, un modelo de expertos mezclados (MoE), logra procesar prompts a 2.845 tokens por segundo con contextos de 512 tokens, una velocidad 5,5 veces superior a la de un modelo denso comparable de 27B parámetros. La arquitectura de memoria unificada de Apple Silicon emerge como crucial para el rendimiento de los modelos MoE. A diferencia de otras plataformas donde los expertos podrían estar distribuidos en diferentes unidades de memoria, en el M5 Max todos los expertos son igualmente accesibles sin cuellos de botella PCIe. Esto traduce en ventajas extraordinarias: aunque el modelo MoE ocupa 30 por ciento más espacio en disco que una versión densa, ofrece velocidades de generación de tokens 4,8 veces más rápidas porque solo aproximadamente 3.000 millones de parámetros están activos en cada paso. En cuanto a la generación de tokens, donde el sistema está limitado por ancho de banda en lugar de capacidad computacional, los resultados varían más según el modelo. El Qwen 3.5 35B-A3B logra 92,2 tokens por segundo, mientras que modelos más pequeños como DeepSeek-R1 8B alcanzan 68,2 tokens por segundo. Estos números, aunque impresionantes para hardware de consumidor, revelan una realidad física: una vez alcanzada la fase de generación, el rendimiento está determinado principalmente por la capacidad de transferir datos entre memoria y procesador. El análisis también corrige un error importante del estudio anterior respecto a la comparación entre MLX (el framework de Apple) y llama.cpp (la herramienta más popular de código abierto para ejecutar modelos localmente). La afirmación inicial de que MLX era 92 por ciento más rápido resultó ser engañosa porque comparaba diferentes niveles de compresión (cuantificación). Cuando se comparan a niveles equivalentes, MLX muestra una ventaja del 30 por ciento: 31,6 tokens por segundo frente a 24,3 tokens por segundo con cuantificación de 4 bits. La cuantificación, proceso que reduce la precisión numérica de los modelos para ahorrar espacio y acelerar la inferencia, emerge como un equilibrio delicado en los resultados. Un modelo cuantificado en Q4_K_M (15,9 GB) genera tokens más rápidamente, mientras que Q8_0 (26,7 GB) procesa prompts más velozmente. Esta compensación refleja las diferentes demandas computacionales: procesamiento de prompts es intensivo en cálculo, mientras que generación de tokens es intensiva en ancho de banda. Los resultados tienen implicaciones significativas para el futuro de la IA en dispositivos personales. Demuestran que es posible ejecutar modelos de lenguaje sofisticados en hardware de consumidor sin conexión a internet o servidores remotos. Además, la eficiencia del M5 Max sugiere que la arquitectura de memoria unificada de Apple podría ofrecer ventajas únicas para cargas de trabajo específicas de IA, particularmente con arquitecturas emergentes como los modelos MoE que se adaptan particularmente bien a este paradigma. La eficiencia de ancho de banda alcanzada varía según el modelo: mientras que el DeepSeek-R1 8B logra el 70 por ciento de su capacidad teórica, otros modelos rondan el 63-74 por ciento. Estos números, aunque altos en términos absolutos, sugieren que hay margen para optimización mediante mejoras de software y adaptaciones específicas para la arquitectura del chip M5.

🎙️ Quick Summary

Esto es interesante porque estamos viendo una transformación importante en cómo la gente piensa sobre la IA. Durante años, todo era "¡Necesitas la nube! ¡Necesitas GPU dedicadas!" Y luego Apple llega con estos chips con memoria unificada y la gente empieza a darse cuenta de que, espera, quizá puedo ejecutar modelos inteligentes en mi portátil sin enviar nada a internet. Lo que más me llama la atención es esta obsesión con los modelos MoE: son más pequeños en realidad, pero más rápidos porque solo usan parte de sus parámetros en cada momento. Es como tener una sala llena de expertos pero solo preguntarle al que sabe del tema. En hardware de Apple, esto funciona particularmente bien porque toda la memoria es accesible al mismo tiempo sin complicaciones. Dicho esto, hay algo que nos debe preocupar: que el autor tuviera que corregir públicamente su análisis anterior. Indica que hay mucha gente haciendo benchmarks sin ser totalmente rigurosa, comparando cosas que no son comparables. Pensadlo un momento: si en comunidades entusiastas esto es un problema, ¿qué está pasando con los benchmarks comerciales que ves en los anuncios? ¿Cuán confiable es realmente la información que consumimos sobre rendimiento de IA?

🤖 Classification Details

Detailed benchmark results with standardized methodology (llama-bench), specific hardware specs, multiple quantization comparisons, and explicit corrections to prior methodology. Provides actionable performance data for local LLM deployment.