Kelet: la herramienta que desentraña por qué fallan silenciosamente los agentes de IA

Los agentes de inteligencia artificial que funcionan en producción enfrentan un problema que no suele mencionarse en las conferencias tecnológicas: no se bloquean de manera visible. Simplemente generan respuestas incorrectas mientras todo el sistema continúa operando con normalidad. Este comportamiento silencioso convierte la depuración en una tarea titánica, especialmente cuando los sistemas manejan millones de sesiones diarias. Kelet, una nueva herramienta desarrollada por Almog Baku, propone automatizar lo que hasta ahora ha sido un proceso manual tedioso: el análisis de causa raíz en aplicaciones basadas en modelos de lenguaje. Baku, quien ha construido más de 50 agentes de IA en producción—algunos alcanzando más de un millón de sesiones diarias—señala que la construcción de estos sistemas nunca fue el verdadero desafío. «El problema más difícil fue siempre entender por qué fallaban», explica el desarrollador. El funcionamiento de Kelet se basa en un enfoque deductivo iterativo. En primer lugar, los desarrolladores conectan sus trazas de ejecución y señales variadas: retroalimentación de usuarios, ediciones realizadas por estos, patrones de clics, análisis de sentimiento, e incluso evaluaciones basadas en modelos de lenguaje como jueces. La herramienta procesa estos datos y extrae hechos relevantes de cada sesión individual. A continuación, Kelet forma hipótesis sobre qué salió mal en cada caso específico. Aquí es donde reside la innovación central: mientras que los fallos individuales pueden parecer aleatorios o aislados, cuando se agrupan las hipótesis análogas, emergen patrones coherentes de fallo. El sistema agrupa estas hipótesis similares y las investiga conjuntamente, finalmente exponiendo una causa raíz junto con sugerencias de corrección que los desarrolladores pueden revisar y aplicar. La integración de Kelet en flujos de trabajo existentes puede realizarse de varias maneras. Para agentes especializados en codificación, existe una herramienta específica llamada Kelet Skill que analiza automáticamente el código base, descubre dónde deberían recopilarse señales y configura todo sin intervención manual. Para quienes prefieren un control más granular, existen kits de desarrollo en Python y TypeScript que permiten una configuración personalizada. El momento de esta herramienta resulta significativo en el contexto actual del desarrollo de IA. A medida que las organizaciones despliegan agentes cada vez más complejos en producción—desde sistemas de atención al cliente hasta herramientas de análisis de datos—la capacidad de diagnosticar fallos rápidamente se convierte en un factor crítico para la confiabilidad y el mantenimiento. Las aproximaciones tradicionales de logging y monitoreo, diseñadas originalmente para aplicaciones deterministas, resultan insuficientes para sistemas cuyo comportamiento emerge de la interacción entre múltiples llamadas a modelos de lenguaje. Actualmente, Kelet se encuentra en fase beta y es ofrecido gratuitamente, sin requerir tarjeta de crédito para acceder. El creador ha publicado documentación completa y busca activamente retroalimentación de desarrolladores que operan agentes en producción, especialmente respecto a si el enfoque de automatización del análisis manual de errores se alinea con sus necesidades reales en el campo.

🎙️ Quick Summary

Aquí está la cosa, oyentes, y quiero que escuchéis bien esto: Almog Baku acaba de tocar un punto de fricción que la industria de la IA ha estado ignorando completamente. Durante años hemos escuchado hablar del auge de los agentes de IA, de cómo van a revolucionar todo, de startups con valuaciones astronómicas. Pero nadie—y digo nadie—habla de lo que pasa cuando esos agentes empiezan a fallar en silencio. ¿Entendéis lo irónico? Un sistema tradicional se cae, genera un error, alertas por todas partes. Un agente de IA simplemente te da una respuesta equivocada mientras sonríe. Y luego tienes que analizar manualmente cientos de trazas como si fueses un detective. Lo que me atrae de Kelet es la elegancia de la solución. No es magia, ¿eh? Es lógica pura: si los fallos individuales parecen aleatorios, agrúpalos. Cuando agrupes suficientemente, emergirán patrones. Es casi obvio una vez que lo escuchas, pero no por eso menos brillante. El problema es que esto requería horas de análisis humano antes. Ahora lo automatiza. Pensadlo: si realmente funciona como promete, estamos hablando de reducir el tiempo de diagnóstico de días a horas. Eso tiene implicaciones económicas enormes para cualquier compañía con agentes en producción. Pero aquí va mi escepticismo, y espero que me entendáis: ¿y si el patrón que Kelet identifica es demasiado obvio? ¿Y si los problemas reales son cosas sutiles, complejas, que requieren genuina intuición humana? El hecho de que sea gratuito durante beta es genial, pero también me pregunto: ¿cuál es el modelo de negocio? ¿Y esto significa que pronto necesitaremos otra herramienta para debuggear el debugger? Porque en la industria de la IA, parece que estamos en una carrera infinita de capas. ¿Creéis que esta herramienta es la solución definitiva que necesitábamos, o simplemente es un parche temporal que nos hará sentir mejor mientras los verdaderos problemas siguen acechando bajo la superficie?

🤖 Classification Details

Root cause analysis tool for LLM agents with concrete implementation details. Provides SDKs, integration methods, and real-world problem solving (1M+ sessions/day experience).

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details