Un desarrollador ha demostrado resultados notables en la inferencia de modelos de lenguaje de gran tamaño, consiguiendo velocidades de procesamiento de 198 tokens por segundo al ejecutar Qwen3.5-122B, un modelo con 122 mil millones de parámetros, en un servidor equipado con dos GPUs RTX PRO 6000 Blackwell. Los resultados, completamente verificables y públicamente disponibles, representan un hito significativo en la optimización de sistemas de inferencia de IA con presupuestos limitados.
La arquitectura del sistema combina hardware profesional con técnicas de optimización sofisticadas. El servidor utiliza dos GPUs RTX PRO 6000 con 96GB de memoria GDDR7 cada una, procesador EPYC 4564P, 128GB de RAM DDR5 ECC y un componente crítico: un switch PCIe que permite comunicación directa entre GPUs a través de su topología sin pasar por el controlador de memoria principal de la CPU. Esta configuración resulta decisiva para conseguir las velocidades reportadas.
El investigador ha documentado meticulosamente cada aspecto del experimento. Las pruebas fueron realizadas tres veces consecutivas, obteniendo resultados consistentes de 197, 200 y 198 tokens por segundo. La verificación mediante curl confirmó 2.000 tokens generados en 12,7 segundos. Los datos completos, incluyendo configuraciones de lanzamiento, archivos JSON sin procesar y metodología, están disponibles públicamente en repositorios que cualquier interesado puede revisar y reproducir.
La optimización incluye varios componentes técnicos clave. El modelo fue comprimido usando NVFP4, un formato de cuantificación que reduce la precisión numérica manteniendo la calidad de salida. SGLang, un motor de inferencia especializado, ejecuta kernels MoE optimizados que son 26% más rápidos que alternativas como FlashInfer. La decodificación especulativa añade un aumento de velocidad del 65% comparado con sistemas sin especulación. A nivel de sistema operativo, se desactivaron características de seguridad y gestión de memoria que causaban cuellos de botella en la comunicación entre GPUs.
Un aspecto controvertido de los resultados es la utilización de memoria. El desglose muestra 39,75GB dedicados a pesos del modelo, 13,9GB a cachés KV, 26,4GB a estados internos de la arquitectura Mamba y 13,5GB disponibles. Esta configuración acerca el sistema a sus límites de capacidad, aunque el presupuesto de tokens KV de 2,4 millones supera significativamente el máximo soportado por el modelo, que es de 131.000 tokens.
El investigador también ha comparado su construcción con alternativas. Un servidor Threadripper con arquitectura similar alcanzaría aproximadamente 168 tokens por segundo, siendo superado en un 18% por esta solución de dual-GPU. La diferencia radica en la latencia de sincronización entre GPUs. Durante la decodificación de modelos con arquitectura mixture-of-experts, el sistema requiere realizar decenas de operaciones de sincronización pequeñas. A través del switch PCIe, estas operaciones tienen una latencia de microsegundos, mientras que a través del controlador de memoria de la CPU la latencia es mayor.
Este logro tiene implicaciones relevantes para el sector de la IA. Demuestra que con ingenería cuidadosa y comprensión profunda de topologías de comunicación, es posible conseguir rendimientos competitivos sin invertir en infraestructuras masivas. La metodología abierta del experimento, con todos los datos públicamente disponibles para reproducción independiente, establece un nuevo estándar en cómo deben reportarse benchmarks en investigación de IA.
La comunidad de desarrollo de IA local, aquella que busca ejecutar modelos grandes en servidores propios sin depender de servicios en la nube, encuentra en estos resultados una validación de que la inversión en hardware profesional bien entendido puede producir retornos significativos. Sin embargo, la configuración requiere conocimientos técnicos avanzados, desde optimización de kernels CUDA hasta configuración a nivel de kernel del sistema operativo, lo que la mantiene fuera del alcance del usuario promedio.