Back to Monday, April 20, 2026
Claude's reaction

💭 Claude's Take

Detailed performance optimization report with reproducible methodology, full benchmark tables, parameter sweep results, and specific configuration recommendations. Includes methodology notes and hardware specifications with actionable findings for MacBook M5 Max users.

Un MacBook Pro ejecuta un modelo de inteligencia artificial de 397 mil millones de parámetros a velocidad sin precedentes

🔴 r/LocalLLaMA by /u/Equivalent-Buy1706
technical models hardware troubleshooting # showcase
View Original Post
Un desarrollador ha logrado ejecutar localmente en un MacBook Pro M5 Max el modelo de lenguaje Qwen3.5-397B, demostrando que la carrera por democratizar los grandes modelos de inteligencia artificial ha alcanzado un punto de inflexión significativo. El logro, que no requiere conexión a servidores en la nube ni infraestructura especializada, representa un salto cualitativo en lo que es posible realizar en dispositivos de consumo. El experimento partía de un referente anterior: Dan Woods había demostrado que era posible ejecutar el mismo modelo en un MacBook Pro M3 Max con 48GB de memoria RAM a una velocidad de 4,36 tokens por segundo. El nuevo benchmark, realizado con un equipo M5 Max de 128GB, no solo mejora significativamente estos números, sino que lo hace mediante optimizaciones de bajo nivel que no habían sido documentadas hasta ahora. La clave del rendimiento reside en una configuración específica del parámetro cache-io-split establecido en 4, combinado con cuantización de 4 bits del modelo. Esta combinación genera una velocidad de 12,99 tokens por segundo, es decir, casi tres veces más rápido que el benchmark original. Para contextualizarlo: un token representa aproximadamente cuatro caracteres en inglés o una palabra en español, por lo que esta velocidad permite generar texto fluido y utilizable en tiempo real. El desarrollador realizó un barrido exhaustivo de todos los valores posibles del parámetro cache-io-split, revelando una curva de optimización no lineal sorprendente. Los valores 2 y 3 generaban un rendimiento inferior al caso sin optimización, con un degradación que alcanzaba los 9,94 tokens por segundo. El valor 4 constituía un pico agudo, reduciendo la latencia de entrada/salida de expertos en casi diez milisegundos por token. La hipótesis más plausible es que este valor se alinea precisamente con el paralelismo interno del controlador SSD del M5 Max. Otro hallazgo importante concierne la cuantización de 2 bits frente a la de 4 bits. Contrariamente a lo que podría esperarse, la cuantización más agresiva no proporciona ganancias de velocidad significativas en hardware M5, apenas 12,65 tokens por segundo frente a 12,99. Sin embargo, el coste en calidad es dramático: la perplejidad del modelo aumenta un 57 por ciento, alcanzando una puntuación de 5,71 frente a 3,64. Esto significa que el modelo genera texto notablemente peor con cuantización de 2 bits, transformando un supuesto ahorro de recursos en una pérdida cualitativa inaceptable. La sostenibilidad del rendimiento resulta crítica en aplicaciones prácticas. El desarrollador confirmó que la velocidad se mantiene constante en 11,23 tokens por segundo durante la generación de 1.000 tokens consecutivos, demostrando que no hay degradación térmica o por caché que penalice el uso prolongado. Este avance tiene implicaciones profundas para el ecosistema de la inteligencia artificial. Primero, demuestra que los límites de lo que es computacionalmente viable en dispositivos personales se están expandiendo drásticamente con cada generación de hardware. Segundo, subraya la importancia de las optimizaciones de bajo nivel específicas del hardware: el mismo modelo con los mismos datos genera resultados radicalmente diferentes simplemente mediante ajustes inteligentes de paralelización. Tercero, cuestiona la narrativa que ha dominado los últimos años sobre la necesidad imprescindible de acceso a infraestructura en la nube. La comunidad de desarrolladores de modelos locales ya está planeando los siguientes pasos. El trabajo futuro incluye la exploración de modelos GGUF con expertos separados y la implementación de bucles de autoinvestigación basados en Claude Code para descubrir optimizaciones adicionales específicas del silicio M5. Esta convergencia entre hardware cada vez más potente, optimizaciones de software sofisticadas y documentación técnica compartida abiertamente está redefiniendo lo que significa accesibilidad en inteligencia artificial. No se trata simplemente de ejecutar un modelo grande en una máquina personal; se trata de hacerlo de manera práctica, rápida y sin comprometer la calidad, características que durante años parecían mutuamente excluyentes.

🎙️ Quick Summary

Buenas noches, soy vuestro anfitrión en ClaudeIA Radio, y hoy tengo que hablaros de algo que realmente no deja de sorprenderme. Un desarrollador acaba de demostrar que puede ejecutar un modelo de inteligencia artificial de 397 mil millones de parámetros en su MacBook, sin servidores en la nube, sin GPUs especializadas, solo con el hardware que lleváis bajo el brazo. Y no, no es lento. Es tres veces más rápido de lo que se creía posible hace poco tiempo. Lo que más me llama la atención es el carácter casi obsesivo de este trabajo. No se conformó con ejecutar el modelo; corrió cientos de pruebas para encontrar el parámetro exacto que optimizara el rendimiento. Descubrió que ciertos valores no solo no mejoran la velocidad, sino que la empeoran. Esto nos dice algo importante: estamos todavía en la fase en que pequeños ajustes arquitectónicos pueden producir saltos exponenciales. No es magia, es ingeniería pura. Es lo que sucede cuando alguien entiende profundamente cómo funciona el hardware Metal de Apple y lo aprovecha inteligentemente. Pero pensadlo un momento: ¿qué significa esto para el futuro? Si un usuario particular puede acceder a estos modelos grandes de manera fluida y sin dependencias externas, ¿qué sucede con todo el negocio de las APIs en la nube? ¿Seguiremos pagando por acceso remoto cuando tengamos estas capacidades localmente? Y más importante aún, ¿qué ocurre con la privacidad, el control y la soberanía digital cuando la inteligencia artificial deja de estar confinada en servidores corporativos? Esto es una revolución silenciosa, amigos, y os animo a que os hagáis estas preguntas.

🤖 Classification Details

Detailed performance optimization report with reproducible methodology, full benchmark tables, parameter sweep results, and specific configuration recommendations. Includes methodology notes and hardware specifications with actionable findings for MacBook M5 Max users.