Relvy: la IA que automatiza la resolución de incidentes en producción mientras los equipos duermen

Relvy AI, una startup respaldada por Y Combinator en su ciclo de otoño de 2024, presenta una solución radical para uno de los problemas más acuciantes en la ingeniería de software: la automatización de runbooks de guardia mediante agentes de inteligencia artificial. Fundada por Bharath y Simranjit, la plataforma promete reducir significativamente el tiempo de resolución de incidentes en producción, transformando lo que tradicionalmente requiere horas de análisis manual en procesos que pueden completarse en minutos. La propuesta de Relvy aborda un desafío técnico que ha demostrado ser particularmente resistente para los modelos de IA actuales: el análisis autónomo de causa raíz en sistemas distribuidos. Mientras que modelos como Claude Opus 4.6 alcanzan tasas de precisión del 36% en análisis de causa raíz según el conjunto de datos OpenRCA, estos mismos modelos logran desempeños significativamente mejores en tareas de codificación. Esta brecha refleja la complejidad inherente a la depuración en entornos de producción. La compañía ha identificado tres obstáculos fundamentales que impiden que la IA generalista funcione efectivamente en estas situaciones. En primer lugar, el volumen de datos de telemetría generado por sistemas modernos tiende a abrumar al modelo, introduciéndolo en un ruido informativo que dificulta la identificación de patrones relevantes. En segundo lugar, la interpretación de datos en contextos empresariales requiere conocimiento específico del dominio y la arquitectura particular de cada organización. Finalmente, la naturaleza de la guardia informática impone restricciones temporales severas y poco margen para que la IA explore múltiples caminos investigativos; los errores que conducen a los ingenieros por senderos equivocados pueden resultar costosos en tiempo de inactividad del servicio. La solución de Relvy se fundamenta en la construcción de herramientas especializadas para el análisis de datos de telemetría. Estas herramientas poseen capacidades específicas para detectar anomalías en series temporales densas, identificar segmentos problemáticos en datos de observabilidad, realizar búsquedas patrones en logs y razonar sobre árboles de trazas distribuidas, todo sin sobrecargar el contexto del modelo de lenguaje. Este enfoque modular permite que el agente de IA funcione de manera más determinista y predecible. Un elemento clave de la arquitectura de Relvy es su anclaje alrededor de runbooks específicos del dominio. En lugar de permitir que el agente explore ampliamente el espacio de posibilidades, los runbooks proporcionan una guía estructurada que refleja los pasos que un ingeniero experimentado seguiría durante una investigación. Esta restricción deliberada paradójicamente mejora los resultados: acelera el análisis, reduce la carga cognitiva en los ingenieros que deben validar el trabajo de la IA, y construye confianza a través de la transparencia operativa. La plataforma se despliega ya sea localmente mediante Docker Compose o Helm Charts, o a través de una opción en la nube. Los usuarios conectan sus herramientas de observabilidad y repositorios de código, definen runbooks específicos para sus servicios, y Relvy comienza a investigar automáticamente las alertas. Cada investigación se presenta como un notebook interactivo con visualizaciones de datos que permiten a los ingenieros verificar el trabajo de la IA y construir confianza progresivamente. La configuración puede extenderse para que Relvy ejecute acciones de mitigación automáticas a través de la CLI de AWS, aunque estos cambios requieren aprobación humana explícita. Ejemplos de pasos automatizables incluyen la verificación de dashboards específicos para determinar si errores están aislados a un shard particular, el análisis de picos de throughput en APM para identificar patrones sospechosos, y la revisión de cambios recientes en código que podrían haber originado el incidente. El desarrollo de Relvy ha seguido un camino iterativo basado en aprendizajes con clientes tempranos. La compañía comenzó experimentando con monitoreo continuo de logs utilizando modelos de lenguaje pequeños, enfoque que resultó demasiado lento. Después de invertir profundamente en resolver efectivamente el problema del análisis de causa raíz, el producto actual representa aproximadamente un año de refinamiento continuo. En el contexto más amplio de la adopción de IA en operaciones, Relvy representa un cambio significativo respecto a enfoques más genéricos. Mientras que muchos equipos de ingeniería utilizan herramientas como Cursor o el servidor MCP de Datadog con Claude para depuración asistida, estos métodos dependen de la iniciativa humana y tienden a requerir un conocimiento contextual considerable. Relvy invierte la ecuación: la IA toma la iniciativa, actuando dentro de marcos predefinidos que garantizan relevancia operativa.

🎙️ Quick Summary

Hola oyentes de ClaudeIA Radio. Lo que más me llama la atención de Relvy es que hayan sido brutalmente honestos sobre algo que la mayoría de startups de IA prefiere ocultarse: Claude Opus tiene un 36% de precisión en análisis de causa raíz. Un 36%. Es decir, si lo dejas suelto analizando tu base de datos de producción caída, fallará dos de cada tres veces. Eso es importante, porque significa que la solución obvia—meter los logs en ChatGPT y esperar milagros—simplemente no funciona. Lo que me interesa es su aproximación: en lugar de intentar construir un modelo de IA más grande o mejor, construyen herramientas especializadas. Un programa que entienda series temporales, que sepa buscar patrones en logs, que razone sobre árboles de trazas. Y luego anclan el agente de IA alrededor de runbooks específicos. Es decir, en lugar de darle libertad total al agente para explorar, lo canalizan hacia los pasos que un ingeniero experto seguiría. Paradójicamente, menos libertad = mejor desempeño. Pensadlo: ¿cuántas startups de IA han intentado exactamente lo opuesto? "Mira, modelo, aquí tienes acceso a todo. Sé libre." Y fracasan. Pero aquí está mi pregunta: ¿realmente estamos automatizando el problema correcto? Relvy reduce el tiempo de resolución de incidentes de horas a minutos, vale. Pero ¿cuántos incidentes evitables ocurren porque la arquitectura de software es frágil desde el principio? ¿Es verdad que lo que necesitamos es más IA reaccionando a crisis, o necesitamos menos crisis desde el inicio? Dicho esto, si tu servicio está down ahora mismo, Relvy parece exactamente lo que necesitas.

🤖 Classification Details

Product using Claude Code with MCP servers for on-call automation, explicitly mentions Claude Opus and Datadog MCP integration.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details