Un desarrollador ha creado ZINC, un motor de inferencia para modelos de lenguaje de gran escala optimizado específicamente para GPUs AMD de consumo, demostrando que es posible ejecutar modelos de 35 mil millones de parámetros en hardware que costaba apenas 550 dólares. El proyecto surge como respuesta a un vacío crítico en el ecosistema de la IA local: mientras que NVIDIA domina el mercado con soluciones maduras como CUDA y vLLM, millones de usuarios con GPUs AMD se encuentran con un panorama desolador de incompatibilidades y soluciones improvisadas.
El problema es bien conocido en las comunidades de entusiastas de modelos locales. ROCm, la solución oficial de AMD, no soporta tarjetas de consumo. vLLM, la alternativa más popular para inferencia eficiente, funciona únicamente con NVIDIA. Llama.cpp ofrece soporte a través de Vulkan, pero lo hace de manera genérica, sin aprovechar las características específicas del hardware AMD y sin proporcionar una verdadera solución de servicio en producción. Esta brecha representa un desperdicio masivo de potencial computacional: RDNA4, la arquitectura más reciente de AMD, ofrece 640 gigabytes por segundo de ancho de banda y núcleos de matrices cooperativas capaces de competir con las soluciones de NVIDIA en escenarios de entrenamiento.
ZINC está escrito en Zig, un lenguaje de programación de sistemas que ha demostrado ser sorprendentemente adecuado para esta tarea. El acceso directo a la API de Vulkan mediante `@cImport` elimina la necesidad de generadores de bindings, mientras que la compilación en tiempo de compilación (`comptime`) permite optimizar las tablas de despacho específicas para cada tipo de cuantización. La gestión de recursos GPU se simplifica considerablemente con `errdefer`, garantizando una limpieza correcta de memoria, y el sistema de construcción de Zig automatiza la compilación de shaders GLSL, generando un único binario ejecutable.
En su estado actual, ZINC carga modelos en formato GGUF, mapea 21 gigabytes de pesos a la memoria de VRAM y ejecuta transformadores híbridos completos de 40 capas con enrutamiento de expertos y capas de sistemas de espacio de estados. Las pruebas iniciales con Qwen3.5-35B producen resultados reconocibles a una velocidad de 7,1 tokens por segundo en RDNA4. Aunque esta cifra es modesta comparada con sistemas optimizados para NVIDIA, el desarrollador identifica claramente el cuello de botella: el overhead de sincronización entre capas requiere 120 viajes de ida y vuelta entre CPU y GPU por token generado. La solución es grabar el grafo de decodificación completo como un único buffer de comando, el principal objetivo de desarrollo actual.
La elegancia técnica del proyecto radica en su compacidad y claridad. El código consta de aproximadamente 5.000 líneas de Zig y 2.000 líneas de GLSL, lo suficientemente pequeño para que cualquier desarrollador interesado pueda revisarlo y comprenderlo completamente. Este enfoque contrasta marcadamente con algunos proyectos de gran escala que se han vuelto opacos y difíciles de auditar.
El timing de ZINC es particularmente significativo. Los modelos abiertos han alcanzado finalmente una madurez suficiente para justificar la ejecución local en consumidores individuales. El hardware AMD ha evolucionado hasta el punto de ofrecer prestaciones genuinamente competitivas. Y, quizás más importante, nadie estaba construyendo específicamente para esta intersección: GPUs AMD de consumo, con Vulkan, desde el lenguaje Zig. Este proyecto representa una apuesta similar a la que Tinygrad realizó anteriormente demostrando que AMD podía competir en el entrenamiento; ZINC aplica la misma filosofía al lado de la inferencia.
Si ZINC logra alcanzar su potencial completo, podría democratizar significativamente el acceso a la IA local. Millones de usuarios con GPUs AMD actuales podrían finalmente ejecutar modelos de lenguaje potentes sin depender de soluciones costosas o limitadas. El proyecto también sienta un precedente importante: demuestra que es técnicamente viable construir software de alta rendimiento para arquitecturas alternativas cuando existe la combinación correcta de lenguaje, herramientas y determinación.