AMD Radeon logra velocidades de inferencia récord en modelos de IA de 122 mil millones de parámetros

Un desarrollador ha conseguido ejecutar el modelo Qwen3.5-122B con una configuración de cuatro procesadores gráficos AMD Radeon AI PRO R9700 usando vLLM, alcanzando velocidades de procesamiento sorprendentes que desafían los estándares actuales de la industria de la inteligencia artificial. El experimento, documentado en la comunidad de desarrolladores LocalLLaMA, demuestra que la plataforma ROCm de AMD puede ofrecer rendimiento competitivo en tareas de procesamiento de lenguaje natural a gran escala, un dominio históricamente dominado por arquitecturas Nvidia. Los resultados medidos en un flujo de trabajo real de 41.000 tokens de contexto revelan métricas impresionantes: el tiempo hasta el primer token (TTFT) fue de 34,9 segundos, el tiempo total de ejecución alcanzó 101,7 segundos, y el sistema reportó una velocidad de prefill de aproximadamente 4.150 tokens por segundo. La fase de decodificación, aunque más lenta, se mantuvo en 41 tokens por segundo. Estas cifras representan una mejora dramática respecto a configuraciones anteriores con llama.cpp en el mismo hardware, donde el prefill apenas alcanzaba 70 tokens por segundo. El prefill es una fase crítica en la inferencia de modelos de IA, donde se procesa el contexto de entrada antes de generar texto nuevo. La solución requirió el uso de Qwen3.5-122B-A10B en formato GPTQ Int4, una versión cuantizada del modelo original que reduce significativamente el consumo de memoria sin comprometer demasiado la calidad. Esta técnica fue necesaria porque las versiones estándar del modelo no cabían en los 128 gigabytes totales de memoria VRAM disponibles. El sistema utilizado incluye un procesador Threadripper Pro 5955WX de AMD con soporte para memoria DDR4 y una placa base Gigabyte MC62-G40 diseñada para cargas de trabajo empresariales. La configuración incluye 128 gigabytes de memoria compartida del sistema para operaciones críticas. Sin embargo, el desarrollador advierte sobre compensaciones importantes. La temperatura de los procesadores gráficos superó regularmente los 90 grados Celsius incluso en ambientes climatizados, requiriendo scripts adicionales de control de ventiladores. El consumo de energía en estado inactivo ronda los 90 vatios por GPU, lo que sugiere margen para futuras optimizaciones. Además, la calidad general de las respuestas generadas por esta configuración fue ligeramente inferior a la de versiones de mayor precisión ejecutadas con llama.cpp, especialmente en el modelo cuantizado Q5_K_XL. Esta es una compensación típica en sistemas de IA: mayor velocidad a costa de cierta pérdida de fidelidad en el resultado final. El experimento también reveló limitaciones actuales en el soporte de características específicas del modelo. El equipo tuvo que desactivar la función de "pensamiento extendido" de Qwen manualmente mediante parámetros especiales, una tarea que OpenWebUI no exponía directamente. Esto requirió crear un proxy intermedio para inyectar los parámetros correctos. El trabajo se construyó sobre investigaciones previas de otros miembros de la comunidad, demostrando cómo la colaboración entre desarrolladores puede acelerar el progreso en la ejecución local de modelos grandes. La comunidad de IA de código abierto ha publicado comandos Docker completos y configuraciones detalladas que otros desarrolladores pueden replicar. Esta demostración tiene implicaciones significativas para el futuro de la IA de código abierto. Sugiere que las alternativas a Nvidia pueden comenzar a ser viables para organizaciones que buscan ejecutar modelos grandes sin depender exclusivamente del ecosistema Cuda. AMD y otros fabricantes de hardware están invirtiendo fuertemente en mejorar sus bibliotecas de IA, y resultados como estos muestran que el progreso es tangible. Sin embargo, queda claro que la tecnología aún está en fase de maduración. Las velocidades de GPU están cercanas a los límites térmicos, las características aún no están completamente optimizadas, y el soporte de software continúa mejorando. Los próximos meses probablemente verán optimizaciones que permitan mejor manejo térmico y velocidades aún superiores. Para desarrolladores que consideren esta ruta, el mensaje es mixto: el rendimiento es genuinamente impresionante para ciertos casos de uso, pero requiere conocimientos técnicos especializados, optimización cuidadosa, y tolerancia hacia limitaciones actuales que eventualmente desaparecerán.

🎙️ Quick Summary

Buenas noches, gente. Esto que voy a contaros es interesante porque toca algo que llevamos años esperando: que alguien logre hacer funcionar estos modelos enormes de inteligencia artificial en hardware que no sea de Nvidia. Y aquí tenemos a alguien haciéndolo con AMD, y además funcionando a una velocidad que honestamente me sorprende. Lo que más me llama la atención es que los números son reales. No es marketing, no es una prueba de laboratorio perfecta. Es una persona con 4 GPU AMD ejecutando un modelo de 122 mil millones de parámetros, procesando 41.000 palabras de contexto, y logrando 4.150 tokens por segundo en la fase de prefill. Eso es rápido. Para que lo entendáis: hace poco eso era territorio exclusivo de Nvidia a un precio que te dejaba sin casita. Pero claro, como siempre ocurre en estas historias de tecnología, hay un pero. Los GPU se calientan como demonios, necesita refrigeración especial, y la calidad de las respuestas es un poquito peor que otras opciones. Es lo típico en informática: velocidad o precisión, muy raramente todo a la vez. Lo que me hace pensar es si esto significa que el mercado de GPU para IA está empezando a fragmentarse seriamente. Nvidia lleva años siendo prácticamente monopolio, pero si AMD y otros fabricantes siguen mejorando... pensadlo un momento: ¿Cuánta más libertad tendríamos los desarrolladores si no dependiéramos completamente de una sola empresa? ¿Cuántos proyectos de código abierto podrían existir si el hardware fuera más accesible? Eso es lo realmente revolucionario aquí.

🤖 Classification Details

Detailed technical post with measured real-world performance numbers, working Docker launch command, hardware specifications, and concrete implementation details. Includes performance metrics (TTFT, throughput, decode speed) and configuration parameters with actual results.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details