Una iniciativa surgida de la comunidad de desarrolladores ha logrado transformar lo que parecía ser hardware informático descartado en una infraestructura de procesamiento de inteligencia artificial sorprendentemente eficiente y económica. El proyecto convierte 800 tarjetas gráficas AMD RX 580, originalmente utilizadas para minería de criptomonedas, en un cluster distribuido capaz de realizar tareas de visión por computadora con un coste operativo extraordinariamente bajo.
El reto técnico inicial era considerable. Las RX 580, disponibles en versiones de 4GB y 8GB, presentaban limitaciones significativas para el procesamiento paralelo distribuido: velocidades PCIe reducidas, ancho de banda de memoria limitado y latencia de comunicación entre dispositivos que hacía inviable el paralelismo de tensores. Después de intentar diversas aproximaciones fallidas, el equipo pivotó hacia una arquitectura radicalmente diferente: en lugar de intentar que múltiples tarjetas trabajen conjuntamente en un único modelo, cada GPU funciona como un trabajador de inferencia completamente independiente, procesando un modelo y una solicitud simultáneamente.
La implementación técnica requirió soluciones creativas. El equipo compiló desde código fuente una pila completa de gráficos que incluye libdrm, Wayland, Mesa con el driver Vulkan RADV y finalmente llama.cpp. Dado que los procesadores Celeron G3950 del sistema carecen de soporte AVX2, los desarrolladores tuvieron que desactivar explícitamente instrucciones avanzadas, manteniendo únicamente SSE4.2. El modelo elegido fue Qwen3-VL-8B-Instruct, un modelo de lenguaje visual que se ejecuta en cuatro niveles de cuantización: Q4 en una GPU, Q8 en dos, y BF16 en tres o seis GPUs, permitiendo escalado de calidad según las necesidades.
La aplicación inicial demuestra el potencial económico del proyecto. El cluster se utiliza para extracción óptica de caracteres (OCR) y comprensión visual de documentos complejos. Una prueba de concepto procesó un documento médico de oftalmología de 966 páginas con terminología densa, diagramas intrincados, láminas fotográficas, anotaciones manuscritas en cursiva y tablas. El mismo trabajo mediante la API de OpenAI costaría aproximadamente 12 dólares; con este cluster consume apenas 50 centavos en electricidad a una tarifa local de 0,065 dólares por kilovatio-hora. Esta representa una reducción de costes operativos del 2.400 por ciento.
Desde una perspectiva de infraestructura informática, los números son aún más reveladoras. El coste de adquisición de cada GPU es de aproximadamente 80 dólares por cada 8GB de VRAM, comparado con 365 dólares por GB en una H100 de última generación. La calidad de los resultados es sorprendentemente comparable a soluciones comerciales de gama alta para tareas específicas de comprensión de documentos, manejando correctamente texto manuscrito, gráficos, tablas e imágenes.
El proyecto incluye un sistema de escalado progresivo de calidad. Si el procesamiento inicial en Q4 con resolución de 175 DPI no es satisfactorio, el documento se reenvía a GPUs con cuantización Q8 a 200 DPI, después a BF16 a 250 DPI, y finalmente a BF16 distribuido entre seis GPUs a 300 DPI. Estadísticamente, la mayoría de páginas se resuelven en el primer nivel, siendo solo los escaneos de peor calidad los que requieren escalado.
El equipo ya trabaja en una segunda aplicación: análisis de vídeo. La arquitectura propuesta dividiría vídeo de 60 segundos (aproximadamente 800 fotogramas) entre 800 GPUs, cada una analizando un fotograma. El procesamiento incluiría clustering temporal, rastreo de entidades y extracción de eventos, generando un análisis visual estructurado. Esto abriría posibilidades para monitoreo con alertas, evaluaciones de seguridad y controles de aseguramiento de calidad a escala que actualmente resultan prohibitivamente caros mediante APIs tradicionales.
Este proyecto ilustra una tendencia emergente en la infraestructura de IA: el aprovechamiento creativo de hardware descartado mediante optimización de software. En un contexto donde los modelos de lenguaje de última generación requieren inversiones de capital masivas en procesadores especializados, estas soluciones de bajo coste abren interrogantes sobre la democratización real del acceso a capacidades de procesamiento visual.
Aunque todavía en fase de desarrollo, la conversión de granja minera a cluster de IA representa un caso de estudio en eficiencia económica y reutilización de infraestructura tecnológica. La iniciativa sugiere que el futuro de ciertos tipos de procesamiento de IA no necesariamente requiere hardware de la generación más reciente, sino más bien ingeniería cuidadosa y arquitecturas adaptadas a las limitaciones reales del hardware disponible.