La inteligencia artificial generativa ha revolucionado el desarrollo de software, pero enfrenta una limitación técnica fundamental: el contexto máximo que puede procesar en una sola conversación. Claude, uno de los modelos más avanzados del mercado, tiene un límite de 200.000 tokens, una barrera que muchos desarrolladores encuentran insuficiente durante sesiones largas de programación.
Un ingeniero conocido como Aizenvolt11 ha desarrollado una solución innovadora a este problema. Su extensión para Visual Studio Code, llamada Damocles, implementa un sistema denominado «Distill Mode» que efectivamente circunvala el límite de contexto mediante un enfoque de generación aumentada por recuperación (RAG) implementado localmente en la máquina del usuario.
La arquitectura técnica es sofisticada pero elegante. En lugar de confiar en búsquedas vectoriales tradicionales, el sistema utiliza BM25, el mismo algoritmo de clasificación que impulsa Elasticsearch y la mayoría de motores de búsqueda modernos. El funcionamiento es notablemente eficiente: después de cada respuesta de Claude, el modelo Haiku (versión más ligera) genera anotaciones estructuradas que se almacenan localmente en una base de datos SQLite. Cuando el usuario prepara su siguiente mensaje, el sistema busca las notas relevantes y solo inyecta aproximadamente 4.000 tokens de contexto seleccionado, descartando el ruido acumulado de ejecuciones de herramientas anteriores.
Esta aproximación aborda un problema que los desarrolladores con sesiones prolongadas conocen bien: la compresión con pérdida que realiza Claude cuando alcanza los límites de la ventana de contexto. Aunque el modelo intenta resumir conversaciones previas, este proceso frecuentemente resulta en la pérdida de instrucciones críticas dadas al inicio de la sesión, degradando la calidad de las respuestas posteriores.
La implementación de Damocles ofrece ventajas adicionales significativas. El algoritmo BM25 no solo busca coincidencias de palabras clave exactas, sino que implementa técnicas sofisticadas como la derivación Porter, permitiendo que «refactorización» coincida con «refactor». El sistema también rastrea relaciones entre entradas mediante etiquetas semánticas —por ejemplo, «flujo-autenticación»— y puede recuperar contexto relacionado incluso cuando la búsqueda inicial no lo identifica directamente.
Desde la perspectiva de la calidad de las respuestas, la reducción de ruido es particularmente notable. En sesiones largas de programación, la ventana de contexto normal acumula fragmentos de salida bruta de herramientas: registros de lectura de archivos, resultados extensos de búsquedas, salidas de bash. Para cuando el desarrollador alcanza el mensaje 50, la mayoría de esta información es obsoleta. El sistema Distill Mode, mediante el almacenamiento de resúmenes curados y anotados, mantiene una relación señal-ruido significativamente superior, lo que se traduce en menos alucinaciones del modelo.
El desarrollador ha hecho que Damocles esté disponible tanto en el Visual Studio Code Marketplace como en Open VSX, permitiendo a otros experimentar con esta arquitectura. La configuración predeterminada establece un presupuesto de tokens de 4.000 para contexto inyectado, aunque es personalizable entre 500 y 16.000 tokens según las necesidades específicas.
Como con cualquier innovación en arquitectura de software, existen compensaciones. Si el mecanismo de búsqueda BM25 falla en recuperar el contexto correcto, Claude efectivamente sufre amnesia en ese turno, aunque el creador reporta que esto no ha ocurrido en su uso práctico. Además, existe una latencia mínima después de cada respuesta mientras Haiku genera las anotaciones.
Esta solución representa una tendencia más amplia en la comunidad de desarrolladores: la optimización del uso de modelos de lenguaje mediante arquitecturas locales inteligentes. Mientras las empresas de IA continúan expandiendo los límites de contexto de sus modelos, este tipo de enfoque demuestra que las soluciones creativas a nivel de aplicación pueden lograr resultados comparables o superiores mediante una gestión más eficiente de la información disponible.