Un avance significativo en la optimización de redes neuronales podría democratizar el acceso a modelos de lenguaje de largo contexto en equipos locales. Un investigador ha presentado resultados preliminares de un nuevo mecanismo de atención subquadrático que permite ejecutar un modelo Nemotron Nano v3 de 30 mil millones de parámetros con capacidad de procesar un millón de tokens de contexto utilizando únicamente una GPU de consumidor profesional.
Los números son prometedores: el sistema alcanza aproximadamente 20.000 tokens por segundo en la fase de prefill (procesamiento inicial del contexto) y 100 tokens por segundo en la fase de decodificación con un millón de tokens de contexto. El consumo de memoria se sitúa en 66 GB, distribuidos entre 6 GB de caché KV y 60 GB para el modelo en precisión FP16. Estos resultados se han obtenido en una GPU NVIDIA B200, con rendimiento similar reportado en la RTX PRO 6000 Blackwell.
La innovación fundamental radica en el algoritmo de búsqueda de atención. Mientras que los mecanismos de atención tradicionales funcionan con complejidad O(L) —realizando una búsqueda por fuerza bruta—, esta nueva aproximación implementa un algoritmo de búsqueda por saltos con complejidad O(L^0.5). En términos prácticos, esto significa que al aumentar diez veces la longitud del contexto, el coste computacional crece solo aproximadamente un 3,2 veces en lugar de aumentar proporcionalmente.
El investigador explica que la premisa fundamental del trabajo es que gran parte de la computación en inferencia de largo contexto se desperdicia en búsquedas exhaustivas innecesarias. Al implementar estrategias de "acceso aleatorio global" manteniendo la escalabilidad subquadrática, es posible reducir significativamente este derroche computacional mientras se garantiza que cada token permanece accesible.
Los objetivos anunciados son ambiciosos pero viables: ejecutar un modelo completo con contexto de un millón de tokens en una GPU de 24 GB mediante cuantización de 4 bits, o alcanzar 10 millones de tokens de contexto en infraestructura de 96 GB. El investigador ha indicado que completó un estudio de viabilidad inicial y continúa el entrenamiento del modelo hacia uso productivo real.
La calidad inicial alcanza un rendimiento perfecto en la prueba de "needle in a haystack" (aguja en un pajar) con contextos de 256.000 tokens, aunque el investigador advierte que las evaluaciones de calidad todavía están en progreso y estas son cifras preliminares.
El plan de lanzamiento incluye la publicación de código abierto en fases: primero los kernels de atención optimizados, posteriormente la pila completa de inferencia, y finalmente el modelo entrenado una vez se logre confianza en el rendimiento de largo contexto. Esta aproximación por etapas responde a la necesidad de validar tanto la calidad como la velocidad en tareas reales de largo contexto.
Este trabajo es especialmente relevante en el contexto actual de la IA, donde la capacidad de procesar documentos extensos, bases de código completas o búsquedas exhaustivas sobre colecciones documentales es cada vez más demandada. Históricamente, estas capacidades han requerido acceso a infraestructura cloud costosa y centralizada. Un modelo capaz de ejecutarse localmente con estas prestaciones podría transformar casos de uso en escritura de largo formato, análisis de codebases empresariales y sistemas de conocimiento personal.
La comunidad de investigadores en IA local aguardaba con interés los resultados de optimización de atención, y este anuncio representa un paso tangible hacia la viabilidad técnica y económica de estos flujos de trabajo en hardware de consumidor profesional.