Un desarrollador ha logrado ejecutar localmente en un MacBook Pro M5 Max el modelo de lenguaje Qwen3.5-397B, demostrando que la carrera por democratizar los grandes modelos de inteligencia artificial ha alcanzado un punto de inflexión significativo. El logro, que no requiere conexión a servidores en la nube ni infraestructura especializada, representa un salto cualitativo en lo que es posible realizar en dispositivos de consumo.
El experimento partía de un referente anterior: Dan Woods había demostrado que era posible ejecutar el mismo modelo en un MacBook Pro M3 Max con 48GB de memoria RAM a una velocidad de 4,36 tokens por segundo. El nuevo benchmark, realizado con un equipo M5 Max de 128GB, no solo mejora significativamente estos números, sino que lo hace mediante optimizaciones de bajo nivel que no habían sido documentadas hasta ahora.
La clave del rendimiento reside en una configuración específica del parámetro cache-io-split establecido en 4, combinado con cuantización de 4 bits del modelo. Esta combinación genera una velocidad de 12,99 tokens por segundo, es decir, casi tres veces más rápido que el benchmark original. Para contextualizarlo: un token representa aproximadamente cuatro caracteres en inglés o una palabra en español, por lo que esta velocidad permite generar texto fluido y utilizable en tiempo real.
El desarrollador realizó un barrido exhaustivo de todos los valores posibles del parámetro cache-io-split, revelando una curva de optimización no lineal sorprendente. Los valores 2 y 3 generaban un rendimiento inferior al caso sin optimización, con un degradación que alcanzaba los 9,94 tokens por segundo. El valor 4 constituía un pico agudo, reduciendo la latencia de entrada/salida de expertos en casi diez milisegundos por token. La hipótesis más plausible es que este valor se alinea precisamente con el paralelismo interno del controlador SSD del M5 Max.
Otro hallazgo importante concierne la cuantización de 2 bits frente a la de 4 bits. Contrariamente a lo que podría esperarse, la cuantización más agresiva no proporciona ganancias de velocidad significativas en hardware M5, apenas 12,65 tokens por segundo frente a 12,99. Sin embargo, el coste en calidad es dramático: la perplejidad del modelo aumenta un 57 por ciento, alcanzando una puntuación de 5,71 frente a 3,64. Esto significa que el modelo genera texto notablemente peor con cuantización de 2 bits, transformando un supuesto ahorro de recursos en una pérdida cualitativa inaceptable.
La sostenibilidad del rendimiento resulta crítica en aplicaciones prácticas. El desarrollador confirmó que la velocidad se mantiene constante en 11,23 tokens por segundo durante la generación de 1.000 tokens consecutivos, demostrando que no hay degradación térmica o por caché que penalice el uso prolongado.
Este avance tiene implicaciones profundas para el ecosistema de la inteligencia artificial. Primero, demuestra que los límites de lo que es computacionalmente viable en dispositivos personales se están expandiendo drásticamente con cada generación de hardware. Segundo, subraya la importancia de las optimizaciones de bajo nivel específicas del hardware: el mismo modelo con los mismos datos genera resultados radicalmente diferentes simplemente mediante ajustes inteligentes de paralelización. Tercero, cuestiona la narrativa que ha dominado los últimos años sobre la necesidad imprescindible de acceso a infraestructura en la nube.
La comunidad de desarrolladores de modelos locales ya está planeando los siguientes pasos. El trabajo futuro incluye la exploración de modelos GGUF con expertos separados y la implementación de bucles de autoinvestigación basados en Claude Code para descubrir optimizaciones adicionales específicas del silicio M5.
Esta convergencia entre hardware cada vez más potente, optimizaciones de software sofisticadas y documentación técnica compartida abiertamente está redefiniendo lo que significa accesibilidad en inteligencia artificial. No se trata simplemente de ejecutar un modelo grande en una máquina personal; se trata de hacerlo de manera práctica, rápida y sin comprometer la calidad, características que durante años parecían mutuamente excluyentes.