Un ingeniero ha desarrollado Krasis, un motor de ejecución innovador que combina procesamiento en GPU y CPU para ejecutar modelos de lenguaje de inteligencia artificial extremadamente grandes a velocidades anteriormente inviables en hardware de consumo. El proyecto representa un avance significativo en la democratización de modelos de IA de escala empresarial para usuarios con recursos limitados.
Los resultados de rendimiento son notables. En una configuración con una tarjeta NVIDIA RTX 5080 y un procesador AMD Ryzen 5900X, Krasis logra procesar 3.324 tokens por segundo durante la fase de prefill —el paso computacionalmente más intensivo— en el modelo Qwen3-Coder-Next de 80 mil millones de parámetros. El tiempo de respuesta inicial es de apenas 9,7 segundos para contextos de 35.000 tokens, seguido de una velocidad de decodificación de 14,9 tokens por segundo, completamente utilizable para aplicaciones interactivas.
La arquitectura de Krasis invierte la aproximación convencional. Los runtimes estándar descargan algunas capas de la red neuronal a la GPU mientras procesan el resto en CPU, lo que resulta en un cuello de botella significativo durante el procesamiento de prompts largos. Krasis trata la GPU como un motor de cálculo en flujo continuo, enviando el modelo completo a través de la memoria de video lo más rápido posible mientras oculta las transferencias de datos bajo computación concurrente. El GPU maneja toda la fase de prefill —donde se procesa el contexto inicial— y la CPU se dedica únicamente a la decodificación, generando tokens uno a uno.
Esta estrategia tiene implicaciones prácticas profundas. Los usuarios que emplean modelos de IA en entornos de desarrollo, donde los prompts incluyen especificaciones de herramientas, contexto de archivos y código existente, experimentaban anteriormente esperas de minutos antes de que el modelo comenzara a generar respuestas. Con Krasis, estos tiempos se reducen drásticamente, transformando la experiencia de uso.
Las compensaciones son claras. El sistema requiere aproximadamente 2,5 veces el tamaño del modelo cuantizado en memoria RAM del sistema —alrededor de 100 gigabytes para el modelo Qwen3-Coder-Next cuantizado a 4 bits—, así como almacenamiento en disco para los modelos transcodificados. Sin embargo, ambos recursos son significativamente más baratos que la memoria de video de GPU. Actualmente, Krasis está optimizado específicamente para modelos de arquitectura Mixture-of-Experts (MoE), donde múltiples redes neuronales especializadas procesan diferentes tipos de información, aunque el rendimiento en modelos densos tradicionales sería inferior.
El software ha sido desarrollado en Rust con orquestación en Python y cuenta con una API compatible con OpenAI, permitiendo la integración con herramientas populares de desarrollo como Cursor y OpenCode. El autor está buscando feedback sobre qué modelos deberían soportarse a continuación y explora optimizaciones adicionales, incluyendo decodificación especulativa con modelos draft que podrían multiplicar por dos o tres las velocidades actuales de generación.
Esta innovación llega en un momento crítico de la industria de IA, donde la escalabilidad de modelos cada vez más grandes requiere soluciones creativas para hacerlos accesibles más allá de laboratorios de investigación e empresas con recursos ilimitados. La aproximación híbrida de Krasis sugiere que las limitaciones de hardware no son necesariamente obstáculos insuperables, sino desafíos que pueden ser reencuadrados mediante arquitectura inteligente de software.