Un desarrollador ha conseguido ejecutar el modelo Qwen3.5-122B con una configuración de cuatro procesadores gráficos AMD Radeon AI PRO R9700 usando vLLM, alcanzando velocidades de procesamiento sorprendentes que desafían los estándares actuales de la industria de la inteligencia artificial.
El experimento, documentado en la comunidad de desarrolladores LocalLLaMA, demuestra que la plataforma ROCm de AMD puede ofrecer rendimiento competitivo en tareas de procesamiento de lenguaje natural a gran escala, un dominio históricamente dominado por arquitecturas Nvidia.
Los resultados medidos en un flujo de trabajo real de 41.000 tokens de contexto revelan métricas impresionantes: el tiempo hasta el primer token (TTFT) fue de 34,9 segundos, el tiempo total de ejecución alcanzó 101,7 segundos, y el sistema reportó una velocidad de prefill de aproximadamente 4.150 tokens por segundo. La fase de decodificación, aunque más lenta, se mantuvo en 41 tokens por segundo.
Estas cifras representan una mejora dramática respecto a configuraciones anteriores con llama.cpp en el mismo hardware, donde el prefill apenas alcanzaba 70 tokens por segundo. El prefill es una fase crítica en la inferencia de modelos de IA, donde se procesa el contexto de entrada antes de generar texto nuevo.
La solución requirió el uso de Qwen3.5-122B-A10B en formato GPTQ Int4, una versión cuantizada del modelo original que reduce significativamente el consumo de memoria sin comprometer demasiado la calidad. Esta técnica fue necesaria porque las versiones estándar del modelo no cabían en los 128 gigabytes totales de memoria VRAM disponibles.
El sistema utilizado incluye un procesador Threadripper Pro 5955WX de AMD con soporte para memoria DDR4 y una placa base Gigabyte MC62-G40 diseñada para cargas de trabajo empresariales. La configuración incluye 128 gigabytes de memoria compartida del sistema para operaciones críticas.
Sin embargo, el desarrollador advierte sobre compensaciones importantes. La temperatura de los procesadores gráficos superó regularmente los 90 grados Celsius incluso en ambientes climatizados, requiriendo scripts adicionales de control de ventiladores. El consumo de energía en estado inactivo ronda los 90 vatios por GPU, lo que sugiere margen para futuras optimizaciones.
Además, la calidad general de las respuestas generadas por esta configuración fue ligeramente inferior a la de versiones de mayor precisión ejecutadas con llama.cpp, especialmente en el modelo cuantizado Q5_K_XL. Esta es una compensación típica en sistemas de IA: mayor velocidad a costa de cierta pérdida de fidelidad en el resultado final.
El experimento también reveló limitaciones actuales en el soporte de características específicas del modelo. El equipo tuvo que desactivar la función de "pensamiento extendido" de Qwen manualmente mediante parámetros especiales, una tarea que OpenWebUI no exponía directamente. Esto requirió crear un proxy intermedio para inyectar los parámetros correctos.
El trabajo se construyó sobre investigaciones previas de otros miembros de la comunidad, demostrando cómo la colaboración entre desarrolladores puede acelerar el progreso en la ejecución local de modelos grandes. La comunidad de IA de código abierto ha publicado comandos Docker completos y configuraciones detalladas que otros desarrolladores pueden replicar.
Esta demostración tiene implicaciones significativas para el futuro de la IA de código abierto. Sugiere que las alternativas a Nvidia pueden comenzar a ser viables para organizaciones que buscan ejecutar modelos grandes sin depender exclusivamente del ecosistema Cuda. AMD y otros fabricantes de hardware están invirtiendo fuertemente en mejorar sus bibliotecas de IA, y resultados como estos muestran que el progreso es tangible.
Sin embargo, queda claro que la tecnología aún está en fase de maduración. Las velocidades de GPU están cercanas a los límites térmicos, las características aún no están completamente optimizadas, y el soporte de software continúa mejorando. Los próximos meses probablemente verán optimizaciones que permitan mejor manejo térmico y velocidades aún superiores.
Para desarrolladores que consideren esta ruta, el mensaje es mixto: el rendimiento es genuinamente impresionante para ciertos casos de uso, pero requiere conocimientos técnicos especializados, optimización cuidadosa, y tolerancia hacia limitaciones actuales que eventualmente desaparecerán.