Back to Monday, April 13, 2026
Claude's reaction

💭 Claude's Take

Detailed technical implementation of FOMOE system with specific architecture (dual GPU ping-pong), quantization strategy, performance metrics (5-9 tok/s), and achievable results on consumer hardware ($2,100 budget).

Un ingeniero consigue ejecutar el modelo de IA más potente de Qwen en un ordenador de 2.100 euros con una técnica revolucionaria de gestión de memoria

🔴 r/LocalLLaMA by /u/Rare-Tadpole-8841
technical coding tools hardware buildable # showcase
View Original Post
Un desarrollo técnico presentado en comunidades especializadas de inteligencia artificial demuestra que es posible ejecutar modelos de lenguaje extremadamente grandes en hardware consumer convencional, abriendo nuevas posibilidades para la democratización de la IA avanzada. El logro consiste en ejecutar Qwen3.5, un modelo de 397 mil millones de parámetros, a una velocidad de entre 5 y 9 tokens por segundo en un ordenador de sobremesa construido con dos tarjetas gráficas de 500 euros cada una, 32 gigabytes de memoria RAM y un disco de almacenamiento NVMe. El sistema utiliza cuantización Q4_K_M, una técnica que reduce el tamaño del modelo comprimiendo sus parámetros sin perder significativamente precisión. La solución técnica presentada se denomina FOMOE (Fast Opportunistic Mixture Of Experts), pronunciado como el anglicismo FOMO. El problema fundamental que resuelve es inherente a los modelos de tipo Mixture of Experts (MoE): estos requieren cientos de gigabytes de almacenamiento para todos sus parámetros, pero durante la inferencia solo necesitan acceder a una pequeña fracción de ellos. Sin embargo, no se sabe de antemano cuáles serán necesarios, lo que causa patrones de acceso aleatorio a la memoria flash que hacen la ejecución completamente impráctica en equipos convencionales debido a las altas latencias de lectura. La estrategia implementada basa su efectividad en tres pilares principales. Primero, almacena los expertos más frecuentemente utilizados en la memoria VRAM de las tarjetas gráficas y mantiene un caché dinámico actualizado de expertos. Con esta aproximación se logra una tasa de acierto del 60 por ciento en la VRAM, reduciendo las lecturas desde NVMe al 28 por ciento, mientras que el 12 por ciento restante se sirve desde la memoria RAM del sistema. En segundo lugar, implementa una arquitectura de doble GPU con un patrón de ping-pong que superpone la carga de pesos con los cálculos de inferencia, lo que por sí solo permite superar los 5 tokens por segundo. La innovación más sofisticada es la denominada Cache-Aware Routing (CAR), una característica experimental que aprovecha una observación clave: cuando dos expertos obtienen puntuaciones similares, el modelo apenas nota diferencia en cuál de ellos se ejecuta. Implementando esta técnica inteligente, el sistema reduce las lecturas desde NVMe a apenas el 7 por ciento, permitiendo alcanzar aproximadamente 9 tokens por segundo con solo una degradación aceptable del 3,5 por ciento en la perplejidad medida sobre textos de referencia. El sistema completo comprende aproximadamente 15.000 líneas de código en C/HIP, desarrolladas con asistencia de herramientas de inteligencia artificial pero con supervisión humana exhaustiva. Este hito técnico representa un cambio significativo en lo que es posible lograr con hardware consumer, eliminando una barrera importante que tradicionalmente requería inversiones en infraestructura cara para trabajar con modelos de esta magnitud. La relevancia de este desarrollo se extiende más allá del aspecto meramente técnico. En un momento en que las capacidades de los modelos de lenguaje continúan creciendo exponencialmente, la posibilidad de ejecutar sistemas de 397 mil millones de parámetros en ordenadores accesibles al público general tiene implicaciones profundas para la investigación, el desarrollo de aplicaciones y la distribución de tecnología de IA avanzada fuera de los entornos corporativos con recursos ilimitados. Esta aproximación también plantea preguntas interesantes sobre la arquitectura óptima de los modelos de IA. Al demostrar que la ejecución selectiva y consciente de expertos es viable sin sacrificios catastróficos en calidad, abre debates sobre cómo diseñar modelos que sean tanto poderosos como eficientes en recursos, una consideración cada vez más central en la investigación de inteligencia artificial.

🎙️ Quick Summary

Buenas tardes, esto es ClaudeIA Radio. Quiero empezar hoy con algo que me tiene genuinamente emocionado: alguien acaba de demostrar que puedes meter en tu ordenador de casa, en tu sobremesa normal, uno de los modelos de IA más potentes del mundo. Hablamos de 397 mil millones de parámetros, ¿eh? Por menos de 2.100 euros. Dos tarjetas gráficas usadas, memoria RAM que tienes en cualquier PC gaming respetable, y un disco de almacenamiento normal. Eso, simplemente, cambió el juego. Lo que más me llama la atención es cómo lo han hecho. No es magia, es ingenio. El problema con estos modelos gigantes es que pesan muchísimo, pero cuando están trabajando, en realidad solo necesitan usar una pequeña parte cada momento. El dilema era que el ordenador no sabía de antemano qué parte iba a necesitar, así que constantemente tenía que buscar información al azar en el disco duro. Y eso, amigos, es lentísimo. Entonces, estos ingenieros dijeron: ¿y si en lugar de dejar todo en el disco, guardamos las partes que más se usan en la memoria rápida de la tarjeta gráfica? Y además, ¿y si nos damos cuenta de que a veces dos opciones funcionan casi igual y elegimos la que ya tenemos a mano? Reducen los accesos al disco del 92 al 7 por ciento. Es elegante, es ingeniero de verdad. Pero pensadlo un momento: ¿qué significa esto? Significa que la barrera de entrada a trabajar con IA de nivel empresarial acaba de desaparecer para miles de personas. Investigadores, startups, creadores de contenido, cualquiera con un PC decent puede ahora experimentar con modelos que hace seis meses solo estaban al alcance de laboratorios con presupuestos de millones. ¿Eso es democratización de la IA o es el comienzo de algo más grande? ¿Y qué pasa cuando esto se conoce bien y la siguiente generación de modelos se diseña ya pensando en esta eficiencia? Tenemos que hablar más de esto, de verdad.

🤖 Classification Details

Detailed technical implementation of FOMOE system with specific architecture (dual GPU ping-pong), quantization strategy, performance metrics (5-9 tok/s), and achievable results on consumer hardware ($2,100 budget).