Un investigador logra 198 tokens por segundo con el modelo Qwen3.5-122B en hardware de consumo profesional

Un desarrollador ha demostrado resultados notables en la inferencia de modelos de lenguaje de gran tamaño, consiguiendo velocidades de procesamiento de 198 tokens por segundo al ejecutar Qwen3.5-122B, un modelo con 122 mil millones de parámetros, en un servidor equipado con dos GPUs RTX PRO 6000 Blackwell. Los resultados, completamente verificables y públicamente disponibles, representan un hito significativo en la optimización de sistemas de inferencia de IA con presupuestos limitados. La arquitectura del sistema combina hardware profesional con técnicas de optimización sofisticadas. El servidor utiliza dos GPUs RTX PRO 6000 con 96GB de memoria GDDR7 cada una, procesador EPYC 4564P, 128GB de RAM DDR5 ECC y un componente crítico: un switch PCIe que permite comunicación directa entre GPUs a través de su topología sin pasar por el controlador de memoria principal de la CPU. Esta configuración resulta decisiva para conseguir las velocidades reportadas. El investigador ha documentado meticulosamente cada aspecto del experimento. Las pruebas fueron realizadas tres veces consecutivas, obteniendo resultados consistentes de 197, 200 y 198 tokens por segundo. La verificación mediante curl confirmó 2.000 tokens generados en 12,7 segundos. Los datos completos, incluyendo configuraciones de lanzamiento, archivos JSON sin procesar y metodología, están disponibles públicamente en repositorios que cualquier interesado puede revisar y reproducir. La optimización incluye varios componentes técnicos clave. El modelo fue comprimido usando NVFP4, un formato de cuantificación que reduce la precisión numérica manteniendo la calidad de salida. SGLang, un motor de inferencia especializado, ejecuta kernels MoE optimizados que son 26% más rápidos que alternativas como FlashInfer. La decodificación especulativa añade un aumento de velocidad del 65% comparado con sistemas sin especulación. A nivel de sistema operativo, se desactivaron características de seguridad y gestión de memoria que causaban cuellos de botella en la comunicación entre GPUs. Un aspecto controvertido de los resultados es la utilización de memoria. El desglose muestra 39,75GB dedicados a pesos del modelo, 13,9GB a cachés KV, 26,4GB a estados internos de la arquitectura Mamba y 13,5GB disponibles. Esta configuración acerca el sistema a sus límites de capacidad, aunque el presupuesto de tokens KV de 2,4 millones supera significativamente el máximo soportado por el modelo, que es de 131.000 tokens. El investigador también ha comparado su construcción con alternativas. Un servidor Threadripper con arquitectura similar alcanzaría aproximadamente 168 tokens por segundo, siendo superado en un 18% por esta solución de dual-GPU. La diferencia radica en la latencia de sincronización entre GPUs. Durante la decodificación de modelos con arquitectura mixture-of-experts, el sistema requiere realizar decenas de operaciones de sincronización pequeñas. A través del switch PCIe, estas operaciones tienen una latencia de microsegundos, mientras que a través del controlador de memoria de la CPU la latencia es mayor. Este logro tiene implicaciones relevantes para el sector de la IA. Demuestra que con ingenería cuidadosa y comprensión profunda de topologías de comunicación, es posible conseguir rendimientos competitivos sin invertir en infraestructuras masivas. La metodología abierta del experimento, con todos los datos públicamente disponibles para reproducción independiente, establece un nuevo estándar en cómo deben reportarse benchmarks en investigación de IA. La comunidad de desarrollo de IA local, aquella que busca ejecutar modelos grandes en servidores propios sin depender de servicios en la nube, encuentra en estos resultados una validación de que la inversión en hardware profesional bien entendido puede producir retornos significativos. Sin embargo, la configuración requiere conocimientos técnicos avanzados, desde optimización de kernels CUDA hasta configuración a nivel de kernel del sistema operativo, lo que la mantiene fuera del alcance del usuario promedio.

🎙️ Quick Summary

Esto que acabamos de leer es, sinceramente, uno de esos hitos que pasan desapercibidos pero que cambiarán cómo entendemos el futuro de la IA descentralizada. Alguien ha logrado algo que hace poco parecía imposible: ejecutar un modelo de 122 mil millones de parámetros a velocidades que rivalizan con infraestructuras mucho más costosas. Y aquí viene lo importante: no es magia, es ingenería pura. Lo que más me llama la atención es que todo el conocimiento está disponible. No es un paper cerrado en una universidadamericana, no es un secreto corporativo guardado en las bóvedas de una startup. Es código, datos, metodología, todo reproducible. Eso significa que dentro de poco, cualquier laboratorio de investigación medianamente bien equipado podrá replicar estos resultados. Y eso es el verdadero cambio de poder en la industria de la IA. Pero pensadlo un momento: ¿qué pasa cuando los pequeños actores, los investigadores independientes, los laboratorios universitarios, comienzan a conseguir rendimientos que antes solo estaban al alcance de los gigantes? Las empresas que dominaban el mercado invirtiendo en mega-datacenters de repente se encuentran con competencia desde garajes. Algunos dirán que es democratización de la IA, otros dirán que es el inicio del fin del monopolio de la inferencia. Yo creo que es ambas cosas. ¿Y vosotros, pensáis que esto va a cambiar realmente el tablero de juego?

🤖 Classification Details

Comprehensive benchmark with publicly available methodology, raw JSON data, reproducible launch commands, and multi-run verification (197, 200, 198 tok/s). Author explicitly invites reproduction and provides full transparency.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details