Un entusiasta de la IA consigue ejecutar modelos de 27 mil millones de parámetros en hardware modesto mediante una técnica de distribución en red

Un usuario de la comunidad de modelos locales de inteligencia artificial ha logrado un hito técnico notable: ejecutar Qwen3.5-27B, un modelo de lenguaje denso de gran tamaño, a una velocidad de 13 tokens por segundo utilizando hardware consumer distribuido entre dos ordenadores conectados en red local. El logro representa un avance significativo en la democratización de los modelos de lenguaje avanzados, demostrando que es posible ejecutar modelos considerados previamente "fuera de alcance" sin necesidad de inversiones masivas en hardware especializado. El entusiasta utilizó una tarjeta gráfica NVIDIA GeForce RTX 4070 Ti de 12 gigabytes de memoria junto con una AMD RX 6800 de 16 gigabytes, ambas conectadas mediante protocolo RPC (Remote Procedure Call) a través de una red local. La técnica empleada se basa en el uso de rpc-server de llama.cpp, una herramienta que permite dividir la carga computacional de un modelo entre múltiples GPUs ubicadas en diferentes máquinas físicas. Según el usuario, esta solución resulta particularmente eficiente porque el modelo se carga una única vez en la red; los accesos posteriores recuperan los tensores cacheados directamente desde disco, eliminando el cuello de botella de transferencia de datos. La configuración implementada incluye un ordenador principal con Windows 11 dotado de procesador Intel Core i7-14700K y 64 gigabytes de memoria DDR4, mientras que una segunda máquina con Ubuntu 24.04, un procesador Intel Core i5-11600K y 48 gigabytes de RAM proporciona la capacidad adicional de procesamiento. Ambos sistemas ejecutan la versión b8348 de llama.cpp y utilizan optimizaciones como atención flash y tokens de clave-valor completamente alojados en memoria de GPU. Durante las pruebas realizadas con un contexto de 32.000 tokens, el sistema procesó una entrada de 33.386 tokens en aproximadamente 126 segundos, alcanzando una velocidad de evaluación de 264,69 tokens por segundo en la fase de prompt. La generación posterior de respuestas funcionó a 12,98 tokens por segundo, una velocidad aceptable para aplicaciones interactivas considerando la complejidad del modelo y las limitaciones del hardware. El usuario reporta que una ventana de contexto de 84.000 tokens constituye el máximo factible mientras se mantiene el almacenamiento de clave-valor íntegro en memoria GPU sin recurrir a memoria del sistema, lo que abre posibilidades para dividir tareas complejas entre múltiples agentes de inteligencia artificial. Este logro subraya la evolución constante de las herramientas de código abierto para la ejecución de modelos de lenguaje grandes. El ecosistema de llama.cpp, unsloth y similares ha generado un punto de inflexión donde los entusiastas y pequeños equipos de desarrollo pueden acceder a capacidades de procesamiento de lenguaje natural que hace apenas dos años requerían centros de datos especializados o suscripciones a servicios en la nube. La implicación más amplia es que la brecha entre la investigación de inteligencia artificial de vanguardia y su implementación práctica continúa estrechándose. Las barreras cada vez más bajas de entrada permiten experimentación distribuida, lo que potencialmente acelera la innovación en aplicaciones específicas del dominio donde los desarrolladores pueden ajustar y perfeccionar modelos sin costos prohibitivos de infraestructura.

🎙️ Quick Summary

Esto es interesante porque estamos presenciando algo que hace poco parecía imposible: gente con hardware prácticamente normal —un par de tarjetas gráficas que podríamos encontrar en ordenadores gaming—ejecutando modelos que teóricamente requerían infraestructura empresarial. Lo que más me llama la atención es que no estamos hablando de modelos pequeños y limitados, sino de un Qwen3.5-27B con ventanas de contexto de 32.000 tokens. Eso es territorio serio. Pero aquí viene lo que realmente me fascina: la clave no fue una revolución de hardware, sino la técnica. La idea de usar RPC para distribuir la carga entre dos máquinas diferentes, conectadas simplemente por red local, y luego cachear los tensores en disco para que las ejecuciones posteriores sean instantáneas... eso es ingenio puro. Es el tipo de solución que te hace pensar: ¿cuántas otras limitaciones que damos por ciertas simplemente no las hemos cuestionado lo suficiente? LoEs que me inquieta un poco es si esto no debería haber sido más obvio hace tiempo. ¿Por qué no vimos más posts así hace seis meses? ¿Es porque la gente simplemente no lo sabía, o porque estábamos todos demasiado enfocados en comprar hardware más potente en lugar de pensar en arquitecturas distribuidas más eficientes? Pensadlo un momento: ¿cuántas personas están ahora mismo guardando presupuesto para comprarse una RTX 6000 cuando quizá podrían estar dividiendo la carga entre tres máquinas más modestas?

🤖 Classification Details

Detailed setup guide for distributed inference across two machines using llama.cpp rpc-server. Includes specific hardware, command-line config, and benchmark results.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details