Un desarrollador logra velocidades extremas con Qwen3.5 en GPUs de consumo: más de 100 tokens por segundo en decodificación

Un ingeniero ha documentado resultados extraordinarios al ejecutar el modelo de lenguaje Qwen3.5 de 27 mil millones de parámetros en un sistema equipado con dos GPUs GeForce RTX 3090, alcanzando velocidades de decodificación superiores a 100 tokens por segundo y capacidades de prefill cercanas a 1.500 tokens por segundo. Los hallazgos, compartidos en la comunidad de LocalLLAMA, representan un hito significativo en la búsqueda de ejecutar modelos de lenguaje avanzados en hardware de consumidor sin comprometer sustancialmente el rendimiento. El logro es particularmente notable considerando que el sistema mantiene una ventana de contexto de 170.000 tokens, lo que permitiría procesar documentos completos sin necesidad de truncamiento. En escenarios de múltiples usuarios simultáneos, el mismo sistema reporta un rendimiento agregado de 585 tokens por segundo distribuidos entre ocho solicitudes concurrentes. Para conseguir estos resultados, el desarrollador implementó una estrategia técnica sofisticada que incluye el uso de vLLM con paralelismo de tensores aprovechando la interconexión NVLink entre las GPUs. La configuración implementa Multi-Token Prediction (MTP) con cinco tokens predichos simultáneamente, una configuración que diverge de la recomendación estándar de tres tokens pero que, según los datos empíricos reportados, demuestra mayor eficiencia en este hardware específico. Un elemento crucial en la optimización fue la selección deliberada de una cuantización específica del modelo que preserva la precisión completa en las capas de atención lineal —donde la cuantización degrada significativamente la calidad— mientras reduce la precisión a enteros de 4 bits en las capas de atención estándar. Esta decisión explota el soporte nativo en hardware que las RTX 3090 ofrecen para operaciones INT4, multiplicando efectivamente el rendimiento en estas operaciones críticas. La compilación personalizada de vLLM desde el código fuente, aunque laboriosa, permitió extraer optimizaciones adicionales específicas del hardware. El desarrollador documentó también la necesidad de aplicar parches a la herramienta para resolver problemas en el análisis de llamadas a funciones y en la preservación del contenido de razonamiento cuando se utiliza el protocolo LiteLLM en conjunto con MTP. Los scripts de configuración proporcionados revelan un ajuste meticuloso de variables de entorno y parámetros de motor, incluyendo la gestión agresiva de memoria con una utilización del 90 por ciento, deshabilitación de espacios de intercambio y habilitación de almacenamiento en caché de prefijos para optimizar la reutilización de cálculos. Este trabajo documenta una tendencia más amplia en el ecosistema de inteligencia artificial: la democratización de capacidades que hasta hace poco tiempo se consideraban dominio exclusivo de centros de datos corporativos. Con modelos de código abierto cada vez más capaces y herramientas de optimización como vLLM madurando, la frontera entre lo que es computacionalmente viable en hardware de consumidor versus infraestructura empresarial se desplaza continuamente.

🎙️ Quick Summary

Buenas tardes, desde ClaudeIA Radio. Hoy quería hablarte de algo que me ha parecido fascinante: un tipo ha conseguido hacer algo que hace apenas un año hubiera parecido prácticamente imposible. Ejecutar un modelo de 27 mil millones de parámetros, con 170.000 tokens de contexto, a más de 100 tokens por segundo en dos tarjetas gráficas de consumidor. Dos RTX 3090, que sí, son caras, pero estamos hablando de hardware que cualquier videojugador serio podría tener en su PC. Lo que más me llama la atención es cómo lo consiguió: no fue solo comprar hardware más potente o esperar a que los modelos fueran más eficientes. Fue trabajar meticulosamente con cada parámetro del software, compilando desde cero, ajustando variables de entorno, incluso parcheando bugs en las herramientas existentes. Es casi artesanal, ¿sabes? Eso representa una filosofía muy diferente a la que tenemos en la industria AI actualmente, donde todos queremos soluciones plug-and-play. Este tipo dijo: "voy a exprimir cada gota de rendimiento de mi hardware entendiendo exactamente qué está pasando". Y pensadlo un momento: si esto es posible en dos GPUs de consumidor, ¿qué significa para el futuro del trabajo con modelos locales? ¿Significa que en cinco años cualquiera con un PC decente podrá tener capacidades que hoy solo existen en servidores empresariales? ¿O simplemente estamos viendo el techo de lo que se puede hacer sin pasar a infraestructura de otra liga? Eso es lo que me intringa.

🤖 Classification Details

Detailed technical guide with concrete configuration scripts, performance metrics, and optimization techniques for running Qwen3.5 with vLLM. Includes specific parameter tuning and workarounds for tool-calling bugs.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details