Back to Tuesday, March 31, 2026
Claude's reaction

💭 Claude's Take

Extensive benchmark with reproducible methodology, specific tool versions, detailed metrics (tok/s, TTFT, memory), test suite description, and capability assessment. Comprehensive technical documentation.

MLX dobla la velocidad de Ollama en modelos de código cuánticos en MacBook Pro con Apple Silicon

🔴 r/LocalLLaMA by /u/paddybuc
research_verified models hardware research # resource
View Original Post
Un nuevo análisis comparativo revela que el framework nativo de Apple para aprendizaje automático, MLX, supera significativamente a Ollama en la ejecución de modelos de lenguaje grandes especializados en programación. La prueba, realizada en un MacBook Pro con chip M5-Max y 128 GB de RAM, muestra que MLX genera 72 tokens por segundo con el modelo Qwen3-Coder-Next en cuantización de 8 bits, prácticamente el doble de los 35 tokens por segundo que logra Ollama. La ventaja de MLX es particularmente notable en la latencia de primer token (TTFT), métrica crítica que mide el tiempo desde que se envía una solicitud hasta que se recibe la primera respuesta. MLX alcanza valores entre 47% y 58% más rápidos que Ollama, dependiendo del tipo de tarea. En trabajos sencillos de generación de código, MLX procesa la solicitud en apenas 76 milisegundos frente a los 182 milisegundos de Ollama. Pero quizás el dato más espectacular es el tiempo de arranque en frío. Mientras que MLX carga el modelo en 2,4 segundos, Ollama requiere 65,3 segundos, una diferencia de 27 veces. Esta disparidad se debe a que MLX aprovecha la arquitectura de memoria unificada de Apple Silicon mediante pesos precompilados, mientras que Ollama (basado en llama.cpp) debe convertir y mapear pesos GGUF, un proceso significativamente más lento. La prueba evaluó ambos backends en seis escenarios de programación reales: desde tareas triviales de completación de código hasta análisis complejos de revisión de código. En todos los casos, ambos sistemas produjeron salidas de calidad idéntica, puesto que utilizan los mismos pesos del modelo; la diferencia radica únicamente en la eficiencia de ejecución. El modelo Qwen3-Coder-Next identificó correctamente fallos en código de merge sort y búsqueda binaria, generó implementaciones bien estructuradas de cachés LRU con anotaciones de tipo, y proporcionó recomendaciones de optimización sobre el uso de regex y estructuras de datos. El consumo de memoria final fue similar en ambos backends (aproximadamente 93-102 GB una vez estabilizados), aunque MLX comenzó con una línea base más baja. Este resultado tiene implicaciones importantes para los desarrolladores que trabajan con modelos locales en MacBooks con Apple Silicon, sugiriendo que MLX es la opción preferida para aplicaciones que requieren baja latencia y arranque rápido. Esta comparativa llega en un contexto donde la inferencia local de modelos grandes se ha convertido en una alternativa viable a los servicios en la nube, especialmente para tareas de programación donde la latencia y la privacidad de los datos son críticas. La clara victoria de MLX refuerza la estrategia de Apple de optimizar su propio ecosistema de aprendizaje automático para su hardware propietario, mientras que plantea preguntas sobre el futuro competitivo de soluciones agnósticas como Ollama en dispositivos Apple.

🎙️ Quick Summary

Hola a todos, esto es lo que os quería contar hoy en ClaudeIA Radio: resulta que si tenéis un MacBook Pro decente con silicio de Apple, hay una noticia que os va a gustar. MLX, el framework de Apple, es literalmente el doble de rápido que Ollama para ejecutar modelos de código. Estamos hablando de 72 tokens por segundo frente a 35. Dos veces más rápido. Pensadlo un momento. Lo que más me llama la atención es el arranque en frío: MLX tarda 2,4 segundos mientras que Ollama necesita 65 segundos. Eso es una diferencia de 27 veces, amigos. Veintisiete. Es decir, si estáis trabajando en desarrollo local y necesitáis que el modelo esté listo rápidamente, MLX no tiene competencia. Apple ha hecho sus deberes, ha optimizado todo para su hardware, y los números lo demuestran. Ahora bien, aquí viene la pregunta del millón: ¿qué significa esto para los que creemos en la inferencia local y en la privacidad? Por un lado, es genial que tengamos opciones que funcionan tan bien en local. Pero por otro lado, esto refuerza el lock-in de Apple: si tenéis un Mac, pues naturalmente vais a usar MLX. ¿Y si no lo tenéis? Entonces estáis atrapados con Ollama, que es bastante más lento. Eso me hace pensar si algún día veremos versiones equivalentes de MLX para otras plataformas, o si Apple va a mantener esta ventaja como exclusiva de sus dispositivos. ¿Creéis que eso es juego limpio, o es simplemente Apple siendo Apple?

🤖 Classification Details

Extensive benchmark with reproducible methodology, specific tool versions, detailed metrics (tok/s, TTFT, memory), test suite description, and capability assessment. Comprehensive technical documentation.