Un desarrollador ha creado una plataforma innovadora para resolver una pregunta que ha perseguido a la comunidad de inteligencia artificial: ¿cuáles son realmente los modelos de lenguaje que escriben ficción que la gente quiere seguir leyendo? La solución, bautizada como Narrator, representa un cambio de paradigma en cómo evaluamos las capacidades creativas de estos sistemas.
El proyecto surge de una observación fundamental: la escritura de ficción no es una capacidad única, sino un complejo ecosistema que requiere brainstorming, ejecución en prosa de calidad y consistencia narrativa a lo largo de historias extensas. Los benchmarks tradicionales, según su creador, abordan estos elementos de forma aislada, pero los lectores los experimentan como un todo integrado.
El panorama actual de evaluación presenta fragmentación. Los tests de memoria como los de FictionLive utilizan preguntas de opción múltiple para verificar si los modelos recuerdan detalles de la trama, pero esta capacidad es necesaria, no suficiente: un modelo puede destacar en recall y aún así escribir historias aburridas. Los datos de uso de herramientas como Novelcrafter, que muestran qué modelos prefieren los escritores como copilots, miden la colaboración humano-IA, no la salida independiente. El enfoque más común, LLM-as-a-judge para evaluar calidad de prosa, es notoriamente poco fiable en escritura creativa: los modelos tienen sesgos sistemáticos hacia la prosa verbosa y estructuras predecibles, y la "buena escritura" es genuinamente subjetiva de formas que el código correcto no lo es.
Lo que faltaba era un benchmark cuantitativo desde la perspectiva del lector: una métrica que midiera si los humanos realmente disfrutaban lo que estos modelos producían. Narrator llena este vacío capturando visualizaciones, tiempo de lectura, valoraciones, marcadores, comentarios y visitas repetidas, funcionando esencialmente como un Wattpad para modelos de IA.
El viaje técnico hacia esta solución comenzó con una lección crucial: la generación de una sola pasada no funciona para ficción larga. Los modelos pierden threads de trama, olvidan personajes y la calidad se degrada a través de capítulos. La versión actual implementa un cambio arquitectónico significativo: un bucle de agente persistente que mantiene estado entre capítulos. Antes de generar, el agente revisa contexto estructurado: hojas de personajes, esquemas de trama, threads sin resolver y notas de construcción del mundo. Después de generar, actualiza estos artefactos para el siguiente capítulo. Esencialmente, cada modelo recibe un "cuaderno del escritor" que persiste a lo largo de toda la historia.
Esta aproximación produjo mejoras medibles. Modelos que batallaban con consistencia en la versión de una sola pasada mejoraron significativamente cuando tenían acceso a sus propias notas.
El filtrado granular representa otro cambio estratégico. En lugar de un único ranking de "escritura creativa", las historias se clasifican por idioma, género, etiquetas y calificación de contenido. La plataforma permite profundizar en especificidades: qué modelo escribe las mejores comedias en español, cuál maneja mejor historias LitRPG con protagonistas masculinos, cuál destaca en romance versus horror. Las respuestas frecuentemente contradicen lo que esperarían basarse en benchmarks generales, con modelos de rendimiento medio dominando nichos específicos.
La plataforma incluye características distintivas como la bifurcación de historias, que permite a los lectores ramificar narrativas al estilo de Elige tu propia aventura. Si a un lector no le gusta hacia dónde va la trama, puede bifurcarla y ver cómo el mismo modelo maneja la divergencia, creando comparaciones naturales A/B. Otra innovación es la visualización LitRPG, que renderiza estadísticas y árboles de habilidades como elementos de interfaz reales en lugar de muros de texto numérico.
Esta iniciativa refleja una tendencia más amplia en la evaluación de IA: el movimiento desde métricas sintéticas hacia indicadores de valor del mundo real. Con la ficción generada por IA ganando tracción en plataformas como Royal Road, entender qué modelos genuinamente resuenan con audiencias lectoras se convierte en una pregunta cada vez más relevante para desarrolladores y empresas de IA. Narrator propone responder esa pregunta no a través de jueces automatizados ni preferencias de expertos, sino mediante el comportamiento agregado de lectores reales interactuando con contenido generado.