Un equipo de desarrolladores ha publicado resultados de rendimiento de una estación de trabajo empresarial equipada con dos GPUs RTX PRO 6000 Blackwell Max-Q y 1.15TB de memoria RAM DDR5, demostrando la viabilidad de ejecutar modelos de lenguaje grandes de forma local para múltiples usuarios simultáneamente.
La configuración, con un coste estimado entre 30.000 y 50.000 dólares, integra un procesador AMD EPYC9645 de 96 núcleos y 192 hilos junto a 192GB de VRAM combinada, lo que abre nuevas posibilidades para las organizaciones que desean mantener sus datos dentro de infraestructuras propias sin depender de servicios en la nube.
Los investigadores compararon dos enfoques fundamentales: el primero utiliza precisión fp8 nativa con descarga de capas al procesador central mediante KTransformers, mientras que el segundo emplea cuantización INT4 con ejecución exclusivamente en GPU mediante SGLang. Los resultados revelan un equilibrio complejo entre velocidad de procesamiento y capacidad de concurrencia.
En contextos cortos de aproximadamente 140 tokens de entrada, el modelo cuantizado a INT4 mostró una velocidad de prefill 2 a 4 veces superior, alcanzando velocidades de procesamiento iniciales (TTFT) significativamente más bajas. Sin embargo, este enfoque presenta una limitación crítica: el modelo debe caber íntegramente en VRAM, lo que reduce drásticamente el espacio disponible para la memoria caché de claves y valores (KV-cache), permitiendo procesar solamente tres peticiones concurrentes antes de que el sistema comience a acumular solicitudes en la cola.
La situación cambia radicalmente cuando se procesan contextos extensos de 64.000 tokens. En estas condiciones, el enfoque fp8 con descarga a CPU demuestra una capacidad de escalado superior, permitiendo procesar efectivamente diez o más usuarios simultáneos. Aunque la velocidad de procesamiento inicial es más lenta, aproximadamente el doble que su contraparte cuantizada, la disponibilidad de mayor caché compensa esta diferencia en escenarios reales donde las consultas reutilizan información previamente procesada.
Un hallazgo especialmente revelador concierne al tiempo de espera en cola, que emerge como un cuello de botella dominante cuando el sistema se satura. Los investigadores enfatizan que este factor, frecuentemente ignorado en benchmarks tradicionales, se convierte en el principal determinante de la experiencia del usuario cuando múltiples solicitudes compiten por recursos. En el modelo INT4 puro, el tiempo de cola se dispara exponencialmente después de tres usuarios concurrentes, reduciendo significativamente la utilidad práctica del sistema a pesar de su mayor velocidad teórica.
La arquitectura propuesta utiliza KTransformers, que implementa un procesamiento de capas por lotes (layer-wise chunked prefill) particularmente eficiente para entradas extensas. Esta técnica procesa secuencialmente las capas de la red neuronal, manteniéndolas en VRAM y accediendo a datos del procesador solo cuando es necesario, combinando lo mejor de ambos mundos: la velocidad de GPU con la capacidad de memoria del sistema.
El equipo probó estos sistemas con el modelo MiniMax-M2.1, seleccionado específicamente por sus capacidades para tareas de programación, como parte de su objetivo de construir plataformas locales de codificación asistida por IA. Esta elección refleja una tendencia creciente en el sector hacia la ejecución de modelos avanzados en infraestructuras propias, particularmente en organizaciones con requisitos estrictos de privacidad o conformidad normativa.
Estos resultados son particularmente significativos porque la mayoría de benchmarks publicados se centran en rendimiento de usuario único con tamaños de contexto limitados. La evaluación sistemática de rendimiento bajo cargas multiusuario y contextos extensos proporciona datos valiosos para organizaciones que consideran reemplazar servicios basados en la nube con soluciones de IA local. Aunque la inversión inicial es considerable, la posibilidad de que una única estación de trabajo sirva a equipos de entre cuatro y cincuenta personas, según las circunstancias, presenta una proposición económica atractiva para muchos casos de uso empresariales.
Los datos también iluminan un debate técnico fundamental sobre la arquitectura de sistemas de IA: la búsqueda de velocidad a través de la cuantización agresiva sacrifica flexibilidad y escalabilidad multiusuario, mientras que mantener mayor precisión con descarga inteligente a CPU permite servir a bases de usuarios más amplias sin degradación severa de rendimiento.