La forma en que los agentes de inteligencia artificial interactúan con el mundo digital podría estar a punto de cambiar fundamentalmente. Un antiguo líder técnico de Manus —la startup que fue adquirida por Meta— ha compartido conclusiones sorprendentes tras dos años desarrollando sistemas de agentes de IA: las arquitecturas basadas en llamadas a funciones tipadas, ampliamente adoptadas en la industria, podrían estar innecesariamente complicadas.
Según su análisis, el enfoque tradicional de proporcionar a los modelos de lenguaje un catálogo de herramientas independientes —búsqueda web, lectura de archivos, ejecución de código— obliga a estos sistemas a tomar decisiones previas sobre qué herramienta utilizar, fragmentando su atención cognitiva. Cada nueva herramienta añadida aumenta exponencialmente la carga de selección, reduciendo la precisión y desviando recursos del objetivo principal.
Su propuesta representa un giro radical hacia la simplicidad: reemplazar docenas de herramientas especializadas por una única interfaz unificada que expone todas las capacidades como comandos de línea de órdenes estilo Unix. En lugar de invocar funciones separadas como search_web() o read_file(), el agente ejecutaría simplemente run(command="cat notas.md") o run(command="cat registros.txt | grep ERROR | wc -l").
Esta aproximación aprovecha un patrón fundamental: los modelos de lenguaje, al igual que Unix hace cincuenta años, operan exclusivamente con flujos de texto. Todo lo que "piensan" y "hacen" se expresa en tokens y texto. La paradoja es que dos sistemas diseñados con décadas de diferencia y desde premisas completamente distintas convergieron en la misma solución de interfaz. Unix optó por todo-es-texto para operadores humanos en terminales; los grandes modelos de lenguaje hacen exactamente lo mismo porque es su naturaleza fundamental.
El ingeniero señala que los modelos de lenguaje ya poseen familiaridad profunda con patrones CLI. Durante su entrenamiento han procesado miles de millones de líneas de código en GitHub, scripts de integración continua, soluciones en Stack Overflow y documentación técnica —todo saturado de comandos Unix encadenados. No necesitan aprender una nueva interfaz; simplemente expresan un conocimiento preexistente.
La ventaja práctica es notable. Una tarea que requeriría tres llamadas a funciones distintas —read_file(), search_text() y count_lines()— se reduce a una sola ejecución: cat archivo | grep ERROR | wc -l. No se trata de una optimización especial, sino de la capacidad nativa de Unix para componer comandos mediante tuberías.
Para que este enfoque sea robusto, el sistema requiere un analizador de cadenas (parseChain) que interprete operadores Unix estándar: la tubería (|) para encadenar salidas, && para ejecución condicional del siguiente comando, || para alternativas, y ; para secuencias incondicionales. Con este mecanismo, cada invocación de herramienta se convierte en un flujo de trabajo completo.
Esta metodología ha sido implementada en proyectos de código abierto como Pinix (un tiempo de ejecución de agentes) y agent-clip, surgidos de la experiencia práctica enfrentándose a fallos en producción. El autor ha destilado estas lecciones en principios de diseño más generales que desafían las convenciones actuales de la industria de agentes de IA.
La implicación más amplia es que la industria de los agentes de IA podría haber estado sobre-ingenierizando sus sistemas. Si los marcos actuales insisten en catálogos elaborados de funciones tipadas principalmente porque es lo que "se supone" que debe hacerse, mientras que un enfoque más simple y alineado con la naturaleza de los LLMs proporciona resultados superiores, entonces los equipos de desarrollo podrían estar gastando recursos en complejidad innecesaria.
Esto abre interrogantes sobre el futuro de estándares como OpenAI's function calling y similares. ¿Representen estos la dirección correcta, o la industria adoptó ampliamente una solución que no era óptima? La respuesta probablemente dependa de validación empírica adicional y de cómo estos principios escalen a sistemas más grandes y complejos.