Cumulus Labs, una startup respaldada por Y Combinator en su cohorte de invierno de 2026, ha presentado IonRouter, una plataforma de inferencia diseñada para resolver uno de los problemas más persistentes en la industria de la inteligencia artificial: la falsa dicotomía entre velocidad cara y economía complicada.
La compañía, fundada por Veer Shah y Suryaa, identifica un problema que ha afectado a innumerables equipos de desarrollo: los proveedores de inferencia existentes se dividen en dos categorías irreconciliables. Por un lado están las soluciones rápidas pero costosas, como Together AI y Fireworks, que requieren mantener GPUs siempre activas. Por otro, las alternativas económicas pero exigentes, como Modal y RunPod, que obligan a los desarrolladores a configurar manualmente vLLM y lidiar con inicios en frío que pueden durar segundos.
La solución que presenta IonRouter busca un equilibrio mediante una arquitectura de software completamente nueva. El equipo ha desarrollado IonAttention, un motor de inferencia escrito en C++ que aprovecha características específicas del hardware GH200 de NVIDIA. Mientras que otros stacks de inferencia tratan el GH200 como un simple objetivo de compatibilidad, Cumulus Labs ha construido su solución alrededor de las características únicas que hacen interesante este hardware: un enlace coherente CPU-GPU capaz de transferir 900 GB por segundo, 452 GB de memoria LPDDR5X de baja latencia junto al acelerador, y 72 núcleos ARM que pueden utilizarse efectivamente.
Esta aproximación ha generado tres innovaciones técnicas que la empresa considera significativas. La primera permite utilizar la coherencia de caché del hardware para que los gráficos CUDA se comporten como si tuvieran parámetros dinámicos sin costo computacional adicional, una capacidad que solo es posible en hardware de clase GH200. La segunda introduce escritura eager de bloques KV impulsada por la inmutabilidad de los datos en lugar de presión de memoria, reduciendo los bloqueos por desalojo de menos de 10 milisegundos a menos de 0,25 milisegundos. La tercera implementa planificación de atención phantom-tile para tamaños de lote pequeños, cortando el tiempo de atención en más de un 60 por ciento en los casos más afectados.
Los resultados de rendimiento son notables. En pipelines multimodales, IonRouter alcanza 588 tokens por segundo frente a los 298 que consigue Together AI en la misma carga de trabajo de modelo de visión-lenguaje. La contrapartida es una latencia p50 más alta: aproximadamente 1,46 segundos comparado con 0,74 segundos de Together, una métrica que el equipo reconoce que está optimizando activamente.
El modelo de precios de IonRouter abandona los costes de inactividad, cobrando exclusivamente por token procesado. Modelos como GPT-OSS-120B se ofrecen a 0,02 dólares por token de entrada y 0,095 de salida, mientras que Qwen3.5-122B cuesta 0,20 de entrada y 1,60 de salida. La interfaz es deliberadamente simple: los desarrolladores pueden canjear su URL base en una sola línea de código, manteniendo sus clientes OpenAI existentes sin cambios significativos.
El pedigree del equipo refuerza la credibilidad de la propuesta. Suryaa construyó infraestructura de orquestación de GPUs en TensorDock y sistemas de producción en Palantir, mientras que Shah dirigió desarrollo de infraestructura de machine learning y kernel de Linux para contratos militares y aeroespaciales donde la confiabilidad no era una opción sino un requisito absoluto. Esta experiencia en sistemas bajo presión y optimización de hardware se refleja en cada decisión arquitectónica de IonRouter.
El desafío que afronta la startup es convertir una solución técnicamente impresionante en un negocio viable. El mercado de inferencia es competitivo, con jugadores bien financiados tanto en el segmento premium como en el de bajo costo. Sin embargo, el nicho que Cumulus Labs identifica, particularmente para equipos que ejecutan modelos personalizados y modelos afinados propietarios, representa un espacio menos saturado donde la combinación de precio accesible y rendimiento confiable podría ser diferenciadora.
La plataforma está disponible ahora mismo con un área de pruebas sin requisitos de registro, permitiendo a desarrolladores evaluar el rendimiento antes de comprometerse. Esta estrategia de acceso bajo fricción, combinada con la capacidad de mantener código cliente existente sin cambios, reduce significativamente las barreras para la adopción inicial.