Modelos de IA de 120 mil millones de parámetros funcionan en tarjetas gráficas antiguas gracias a ingeniería creativa con máquinas virtuales

Un desarrollador ha logrado ejecutar modelos de inteligencia artificial masivos en hardware modesto mediante una solución técnica poco ortodoxa que combina virtualización, paso de dispositivos PCIe y la funcionalidad RPC de llama.cpp, demostrando que los límites de lo que es posible en computación local de IA son más flexibles de lo que comúnmente se asume. El experimento, realizado en un equipo con procesador AMD Ryzen 5 9600X y dos tarjetas gráficas NVIDIA de diferentes generaciones (una RTX 5060 Ti de 16GB y una GTX 1080 Ti de 11GB, sumando 27GB de VRAM en total), ha conseguido ejecutar el modelo Qwen3.5-35B a una velocidad de 60 tokens por segundo, considerada prácticamente utilizable para la mayoría de aplicaciones de inferencia. El desafío técnico principal surgió de una incompatibilidad de drivers: la tarjeta más nueva requiere versiones recientes de software mientras que la antigua solo es compatible con versiones antiguas. La solución implementada fue particularmente creativa: se configuró una máquina virtual mediante virt-manager en la que se trasladó la GTX 1080 Ti mediante paso de dispositivos PCIe (GPU passthrough), permitiendo que cada sistema operativo gestionara sus propios drivers de forma independiente. Posteriormente, se aprovechó la capacidad de comunicación remota de llama.cpp para que ambas GPUs trabajaran conjuntamente como si fueran un único recurso. El modelo Nemotron-3-Super-120B, significativamente más grande con 120 mil millones de parámetros, también funcionó en el mismo hardware, aunque con limitaciones considerables: la velocidad descendió a apenas 3 tokens por segundo y fue necesario emplear la memoria RAM del sistema (64GB DDR5) como extensión de la VRAM, lo que provocó congelaciones ocasionales de la interfaz gráfica durante la inferencia. Este logro tiene implicaciones importantes para el panorama actual de la IA. Mientras que los grandes laboratorios de investigación invierten millones en infraestructuras especializadas, este experimento evidencia que ejecutar modelos grandes en hardware de consumidor es técnicamente viable, aunque requiere conocimiento profundo de virtualizacion, compilación de software y arquitecturas de computación acelerada. La velocidad alcanzada con Qwen3.5-35B (60 tokens por segundo) está dentro del rango aceptable para muchas aplicaciones prácticas como chatbots, asistentes de escritura y herramientas de análisis. El desarrollador ha compartido los comandos exactos utilizados, incluyendo las banderas de compilación necesarias para activar soporte CUDA y RPC en llama.cpp, así como las configuraciones de tensor-split para distribuir el modelo entre dispositivos. Sin embargo, quedan preguntas abiertas: si es posible utilizar formatos cuantificados de precisión variable (NVFP4) para exprimir aún más rendimiento, y cómo optimizar la distribución del trabajo entre GPUs para reducir cuellos de botella. Esta aproximación DIY (Do It Yourself) forma parte de una tendencia más amplia en la comunidad de código abierto de democratizar el acceso a modelos de IA avanzados. A diferencia del enfoque de "pagar por acceso en la nube", soluciones como llama.cpp y técnicas de cuantificación permiten que investigadores, hobbyistas y pequeñas empresas ejecuten modelos que hace poco eran inaccesibles sin presupuestos corporativos significativos.

🎙️ Quick Summary

Buenas, oyentes de ClaudeIA Radio. Hoy quiero hablaros de algo que me ha dejado bastante sorprendido: un tío ha conseguido correr modelos de inteligencia artificial enormes en hardware que tiene años, y lo ha hecho de una forma que roza lo absurdo. Estamos hablando de máquinas virtuales, paso de GPUs por PCIe, y un montaje que suena a que va a explotar en cualquier momento pero que funciona. Y funcionaba muy bien, vaya. Lo que más me llama la atención es esto: mientras las grandes empresas tecnológicas nos venden la idea de que necesitas pagar suscripciones mensuales para acceder a modelos potentes en la nube, hay gente aquí haciendo cosas que hace cinco años parecían imposibles con tarjetas gráficas de segunda mano y software de código abierto. Eso es democratización real de la tecnología. Pero, pensadlo un momento: ¿por qué no vemos estas soluciones más documentadas y simplificadas? ¿Por qué sigue siendo tan complicado que la mayoría de usuarios acabemos pensando que la única opción es ChatGPT Plus? La barrera no es técnica; es de conocimiento y documentación. Y eso me fascinaba porque muestra que el verdadero poder está en las comunidades de código abierto, no en Silicon Valley. Lo que de verdad me intriga es si esto representa el futuro: una bifurcación donde la gente con recursos económicos pero no corporativos pueda tener IA local potente de forma accesible. ¿Vamos hacia ahí, o seguirá siendo un nicho de entusiastas?

🤖 Classification Details

Detailed multi-GPU setup guide with llama.cpp, including hardware configuration, driver compatibility solutions, RPC implementation, and reproducible commands with performance metrics.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details