Un modelo de IA revoluciona el procesamiento de contexto ultralargocon atención subquadrática: 1 millón de tokens en una sola GPU

Un equipo de desarrolladores ha anunciado el lanzamiento de un modelo experimental de 30 mil millones de parámetros que logra procesar contextos de hasta 10 millones de tokens en una única tarjeta gráfica, alcanzando velocidades de generación de 76 tokens por segundo en contextos de máxima amplitud. Este avance representa un hito técnico significativo en la búsqueda de hacer los modelos de lenguaje de larga duración prácticos para hardware convencional. La innovación central radica en una arquitectura de atención subquadrática que reduce la complejidad computacional de O(L²) a O(L^3/2), donde L representa la longitud del contexto. Este cambio aparentemente marginal en la notación matemática tiene implicaciones revolucionarias en el mundo práctico: cuando se multiplica por diez la longitud del contexto, la velocidad de decodificación solo se reduce en aproximadamente el 30 por ciento, en lugar del descenso drástico de diez veces que experimentaría una arquitectura estándar. El mecanismo funciona de manera análoga a un algoritmo de búsqueda inteligente. En lugar de examinar cada token del contexto disponible (búsqueda por fuerza bruta), el sistema realiza una búsqueda de saltos con enrutamiento aprendido. Primero identifica y puntúa O(L^0.5) intervalos candidatos de tokens, selecciona los más relevantes y luego aplica atención a nivel de token únicamente dentro de esos segmentos seleccionados. Crucialmente, el sistema mantiene el acceso aleatorio al contexto controlado por el contenido, lo que significa que cualquier token del documento puede ser seleccionado por el enrutamiento dependiente del contenido, a diferencia de las ventanas deslizantes fijas que caracterizan a otros enfoques. Los resultados de rendimiento publicados muestran que con una tarjeta NVIDIA B200, el modelo alcanza aproximadamente 20.202 tokens por segundo en la fase de prefill con 1 millón de tokens de contexto y 109 tokens por segundo en decodificación. Incluso escalando hasta 10 millones de tokens, el sistema mantiene 5.576 tokens por segundo en prefill y 76 en decodificación, con un consumo de memoria de aproximadamente 120 gigabytes en el caso extremo. Esta capacidad abre nuevas posibilidades de aplicación práctica. El sistema permite mantener conversaciones casi infinitas con el caché de clave-valor en memoria, cargar documentos una única vez y realizar razonamiento cross-documental sin reprocesamiento, y generar textos largos con hasta 20 mil tokens de razonamiento coherente. Los primeros resultados experimentales demuestran precisión perfecta en la prueba de aguja en pajar a 512 mil tokens de contexto, evidenciando que el sistema mantiene verdaderamente la capacidad de encontrar información relevante incluso en contextos extremos. El equipo desarrollador ha publicado tanto el modelo como el código de inferencia de forma abierta, incluyendo kernels escritos en Triton, un servidor compatible con la API de OpenAI, y una interfaz de línea de comandos. Sin embargo, los propios autores reconocen que se trata de una versión experimental centrada en la viabilidad arquitectónica y de sistemas, no en calidad de producción. Señalan explícitamente limitaciones: datos de entrenamiento limitados, evaluaciones incompletas más allá de pruebas básicas, y soporte actual únicamente en precisión de 16 bits. Los desarrolladores anunciaron que próximamente llegarán cuantizaciones de 4 y 8 bits que permitirían ejecutar contextos de 1 millón de tokens en tarjetas gráficas de consumidor como la RTX 4090, democratizando potencialmente esta capacidad de procesamiento de contexto ultralargoal mercado de aficionados y pequeños desarrolladores. También está planeado el soporte para arquitecturas AMD mediante ROCm y eventualmente para procesadores Apple Silicon. Este trabajo se produce en un contexto industrial donde la carrera por modelos de contexto más largo se ha intensificado, con empresas como Anthropic, OpenAI y varios laboratorios de investigación persiguiendo variantes de este mismo objetivo. Sin embargo, la mayoría de los enfoques existentes conservan la arquitectura de atención estándar y optimizan mediante técnicas de ingeniería incremental. Este lanzamiento representa un cambio arquitectónico más fundamental, lo que lo diferencia de la mayoría de trabajos académicos que permanecen en repositorios de investigación sin implementación práctica completa.

🎙️ Quick Summary

Hola oyentes de La Gaceta IA, quiero hablarles sobre algo que acaba de suceder en el mundo de los modelos locales y que francamente me tiene bastante emocionado. Alguien acaba de lanzar un modelo que procesa 10 millones de tokens en una sola tarjeta gráfica sin que la velocidad se desmorone completamente. Pensadlo un momento: diez veces más contexto, pero solo el 30 por ciento más lento. Esto es interesante porque durante años hemos estado atrapados en esta maldición cuadrática donde multiplicar el contexto por diez significa multiplicar el tiempo computacional por cien. Lo que más me llama la atención es que lo hayan hecho de verdad. No es un paper teórico bonito en arXiv que nadie puede reproducir. Han soltado el código, han soltado el modelo, incluso han construido un servidor compatible con OpenAI. Eso es arriesgado, porque si algo no funciona como promete, lo sabremos inmediatamente. Pero aquí viene el pero, y es importante: el equipo mismo reconoce que esto es un prototipo de viabilidad, no algo listo para producción. Tienen limitaciones claras, datos de entrenamiento limitados, y por ahora funciona únicamente en FP16, lo que significa 120 gigas de RAM para el caso extremo. Ahora bien, ¿qué implicaciones tiene esto? Si logran la cuantización que prometen, estamos hablando de poder ejecutar razonamiento sobre millones de tokens en un RTX 4090. Eso democratiza algo que hoy solo tienen las megacorporaciones. Pero aquí viene mi escepticismo constructivo: ¿realmente necesitamos 1 millón de tokens en contexto? Algunos dirán que sí, para análisis de múltiples documentos o repositorios de código gigantes. Otros dirán que es arquitectura buscando problema. A mí me parece que es la clase de apuesta que necesita el sector, esos intentos que rompen con lo establecido. ¿Vosotros qué pensáis: es este el futuro de los modelos locales, o es un callejón tecnológico interesante pero finalmente impráctica?

🤖 Classification Details

Comprehensive technical release with verifiable sources (paper, code, model weights), benchmarks, and implementation details. Clear architectural innovation with reproducible results.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details