Una startup emergente respaldada por Y Combinator acaba de lanzar una solución que aborda uno de los mayores dolores de cabeza en el desarrollo de agentes de inteligencia artificial: cómo garantizar que funcionan correctamente antes de llegar a producción.
Cekura, fundada por Tarush, Sidhant y Shashij, ofrece una plataforma de testing y monitorización especializada en agentes de voz y chat. Tras dieciocho meses perfeccionando su tecnología de simulación de agentes de voz, la empresa ha extendido recientemente su infraestructura a aplicaciones de chat, posicionándose como una solución integral para equipos de desarrollo que trabajan con modelos de lenguaje.
El problema que Cekura identifica es fundamental: resulta prácticamente imposible realizar control de calidad manual en un agente de IA. Cuando un equipo actualiza un prompt, cambia de modelo o añade una nueva herramienta, ¿cómo pueden estar seguros de que el agente se comportará correctamente ante los miles de posibles interacciones de usuarios reales? La industria ha recurrido históricamente a soluciones insuficientes: revisiones puntuales manuales que no escalan, esperar a que los usuarios se quejen (demasiado tarde), o pruebas automatizadas frágiles basadas en scripts.
La propuesta de Cekura se fundamenta en la simulación sintética. El sistema genera usuarios virtuales que interactúan con el agente de manera similar a como lo haría un usuario real, mientras que jueces basados en LLM evalúan si las respuestas son correctas considerando el arco conversacional completo, no solo turnos aislados.
Tres características técnicas distinguen la solución. Primera, la generación automática de escenarios de prueba: un agente generador puede crear un conjunto inicial de tests a partir de una descripción del agente, pero además, Cekura ingiere conversaciones reales de producción e extrae automáticamente casos de prueba de ellas. Esto permite que la cobertura de testing evolucione conforme los usuarios descubren nuevas formas de interactuar con el sistema.
Segunda, una plataforma simulada de herramientas. Los agentes invocan APIs y servicios externos constantemente. Ejecutar simulaciones contra APIs reales es lento e inestable. Cekura permite definir esquemas de herramientas, comportamientos y valores de retorno sin tocar sistemas de producción, permitiendo que las pruebas verifiquen la selección de herramientas y la lógica de decisiones de manera segura y rápida.
Tercera, casos de prueba deterministas y estructurados. Los modelos de lenguaje son estocásticos por naturaleza. Una prueba de integración continua que pasa "la mayoría de las veces" carece de utilidad. En lugar de prompts libres, los evaluadores de Cekura se definen como árboles de acciones condicionales estructuradas: condiciones explícitas que disparan respuestas específicas, con soporte para mensajes fijos cuando se requiere precisión palabra por palabra. Esto garantiza que el usuario sintético se comporta consistentemente entre ejecuciones.
Más allá del testing, Cekura ofrece monitorización de agentes en producción. Aunque plataformas de trazado como Langfuse o LangSmith son herramientas valiosas para depurar llamadas individuales a LLM, los agentes conversacionales presentan modos de fallo distintos. El problema no reside en un solo turno de conversación, sino en cómo se relacionan entre sí. Cekura proporciona un ejemplo ilustrativo: un flujo de verificación que requiere nombre, fecha de nacimiento y número de teléfono antes de proceder. Si el agente olvida solicitar la fecha de nacimiento pero continúa de todas formas, cada turno individual aparecerá correcto en aislamiento. El fallo solo se hace visible al evaluar la sesión completa como una unidad.
Este enfoque holístico marca una diferencia crucial. Mientras que las plataformas de trazado evalúan turno por turno, Cekura evalúa la sesión íntegra. En el ejemplo de un agente bancario, si el usuario falla la verificación en el paso uno pero el agente alucina y procede de todas formas, un evaluador basado en turnos vería el paso tres (confirmación de dirección) y lo marcaría como correcto. Cekura examinaría la transcripción completa y marcaría la sesión como fallida porque la verificación nunca se completó realmente.
La startup ofrece una prueba gratuita de siete días sin requerimiento de tarjeta de crédito, con planes de pago a partir de treinta euros mensuales. El lanzamiento en Hacker News ha generado interés en una comunidad técnica cada vez más interesada en soluciones que aborden los desafíos específicos de los agentes conversacionales, un segmento que experimentará un crecimiento exponencial en los próximos años conforme se generalice el despliegue de estas tecnologías en entornos empresariales y de consumo.