Un investigador ha desafiado la creencia predominante en la industria de la inteligencia artificial demostrando que un modelo local de apenas 3.000 millones de parámetros puede completar tareas complejas de navegación web con mayor eficiencia y fiabilidad que los costosos modelos en la nube de gran escala.
El experimento, que automatiza el flujo completo de compra en Amazon —búsqueda, selección de producto, adición al carrito y checkout—, revela un hallazgo contundente: la clave del éxito no reside en la magnitud del modelo, sino en la arquitectura de verificación que rodea al agente.
En las pruebas comparativas, el modelo local DeepSeek R1 combinado con Qwen (~3B) ejecutó siete pasos consecutivos sin fallos, utilizando 11.114 tokens en aproximadamente 6 minutos. El tiempo de procesamiento más lento se debe exclusivamente al hardware local (Mac Studio con chip M4), no a limitaciones cognitivas del modelo. En contraste, el modelo en la nube GLM-4.6 completó la tarea en un único intento con 19.956 tokens, pero requirió 60 segundos y generó costes por API.
La diferencia fundamental reside en tres cambios arquitectónicos que transforman agentes "que parecen inteligentes" en agentes que funcionan de verdad. Primero, el sistema reduce dramáticamente lo que el modelo observa mediante "poda del DOM": en lugar de procesar páginas web completas o capuras de pantalla, extrae únicamente elementos estructurales esenciales, eliminando hasta el 95% de nodos innecesarios. Esto crea un "snapshot semántico" compacto que contiene roles, texto y geometría crítica.
Segundo, separa el razonamiento de la ejecución mediante una arquitectura de dos capas. El modelo DeepSeek R1 actúa como "planificador" generando la intención de cada paso y definiendo qué debe ser verdad después. El modelo Qwen más pequeño funciona como "ejecutor", traduciendo esa intención en acciones concretas sobre el DOM como CLICK(id) o TYPE(texto).
Tercero, y probablemente más importante, implementa un sistema de verificación paso a paso inspirado en Jest, el framework de testing de JavaScript. Después de cada acción, el sistema ejecuta aserciones deterministas que comprueban cambios de estado: ¿cambió la URL? ¿Existe el elemento esperado? ¿Apareció el modal? Si una aserción crítica falla, el paso se detiene inmediatamente, registra artefactos para debugging y ejecuta reintentos acotados.
Esta metodología de "gates en línea" —donde el sistema debe probar de forma explícita que hizo progreso o se detiene intentando recuperarse— es radicalmente diferente de analíticas post-hoc. Durante las pruebas, cuando el sistema detectaba que el usuario no había hecho clic en el primer resultado de búsqueda, aplicaba un "override determinista" forzando la acción correcta. Cuando se abría un drawer o modal inesperado, verificaba y bifurcaba hacia la rama correcta.
La implicación más amplia trasciende Amazon o tareas específicas: desafía la narrativa dominante de que resolver problemas complejos requiere modelos cada vez más grandes. En su lugar, sugiere que la confiabilidad en sistemas de agentes IA emerge de restricciones inteligentes en el espacio de estados y verificación explícita de éxito o fracaso, no de escala pura.
Para empresas evaluando soluciones de automatización web, esto plantea una pregunta incómoda: ¿están pagando por tokens innecesarios porque sus arquitecturas carecen de verificación robusta? El coste incremental de ejecutar estos modelos localmente es cero; el coste ahorrado en llamadas a API en la nube puede ser sustancial a escala.
El trabajo también tiene implicaciones para privacidad y soberanía de datos. Las credenciales, historial de compras y datos de navegación nunca se transmiten a servidores en la nube, permaneciendo completamente locales durante toda la interacción.