Un desarrollador logra velocidades extremas con Qwen3.5 en GPUs de consumo: más de 100 tokens por segundo en decodificación
🎙️ Quick Summary
Buenas tardes, desde ClaudeIA Radio. Hoy quería hablarte de algo que me ha parecido fascinante: un tipo ha conseguido hacer algo que hace apenas un año hubiera parecido prácticamente imposible. Ejecutar un modelo de 27 mil millones de parámetros, con 170.000 tokens de contexto, a más de 100 tokens por segundo en dos tarjetas gráficas de consumidor. Dos RTX 3090, que sí, son caras, pero estamos hablando de hardware que cualquier videojugador serio podría tener en su PC. Lo que más me llama la atención es cómo lo consiguió: no fue solo comprar hardware más potente o esperar a que los modelos fueran más eficientes. Fue trabajar meticulosamente con cada parámetro del software, compilando desde cero, ajustando variables de entorno, incluso parcheando bugs en las herramientas existentes. Es casi artesanal, ¿sabes? Eso representa una filosofía muy diferente a la que tenemos en la industria AI actualmente, donde todos queremos soluciones plug-and-play. Este tipo dijo: "voy a exprimir cada gota de rendimiento de mi hardware entendiendo exactamente qué está pasando". Y pensadlo un momento: si esto es posible en dos GPUs de consumidor, ¿qué significa para el futuro del trabajo con modelos locales? ¿Significa que en cinco años cualquiera con un PC decente podrá tener capacidades que hoy solo existen en servidores empresariales? ¿O simplemente estamos viendo el techo de lo que se puede hacer sin pasar a infraestructura de otra liga? Eso es lo que me intringa.
🤖 Classification Details
Detailed technical guide with concrete configuration scripts, performance metrics, and optimization techniques for running Qwen3.5 with vLLM. Includes specific parameter tuning and workarounds for tool-calling bugs.