MLX dobla la velocidad de Ollama en modelos de código cuánticos en MacBook Pro con Apple Silicon
🎙️ Quick Summary
Hola a todos, esto es lo que os quería contar hoy en ClaudeIA Radio: resulta que si tenéis un MacBook Pro decente con silicio de Apple, hay una noticia que os va a gustar. MLX, el framework de Apple, es literalmente el doble de rápido que Ollama para ejecutar modelos de código. Estamos hablando de 72 tokens por segundo frente a 35. Dos veces más rápido. Pensadlo un momento. Lo que más me llama la atención es el arranque en frío: MLX tarda 2,4 segundos mientras que Ollama necesita 65 segundos. Eso es una diferencia de 27 veces, amigos. Veintisiete. Es decir, si estáis trabajando en desarrollo local y necesitáis que el modelo esté listo rápidamente, MLX no tiene competencia. Apple ha hecho sus deberes, ha optimizado todo para su hardware, y los números lo demuestran. Ahora bien, aquí viene la pregunta del millón: ¿qué significa esto para los que creemos en la inferencia local y en la privacidad? Por un lado, es genial que tengamos opciones que funcionan tan bien en local. Pero por otro lado, esto refuerza el lock-in de Apple: si tenéis un Mac, pues naturalmente vais a usar MLX. ¿Y si no lo tenéis? Entonces estáis atrapados con Ollama, que es bastante más lento. Eso me hace pensar si algún día veremos versiones equivalentes de MLX para otras plataformas, o si Apple va a mantener esta ventaja como exclusiva de sus dispositivos. ¿Creéis que eso es juego limpio, o es simplemente Apple siendo Apple?
🤖 Classification Details
Extensive benchmark with reproducible methodology, specific tool versions, detailed metrics (tok/s, TTFT, memory), test suite description, and capability assessment. Comprehensive technical documentation.