Un estudio comparativo exhaustivo ha puesto en evidencia que los modelos de lenguaje pequeños y destilados de Qwen3, con tamaños que oscilan entre 600 millones y 8 mil millones de parámetros, pueden igualar o incluso superar el rendimiento de las aplicaciones de frontera más sofisticadas en una amplia variedad de tareas especializadas, mientras generan ahorros de costes que alcanzan cifras de hasta cien veces menores.
La investigación, realizada por Distil Labs y verificada por la comunidad de desarrolladores especializados en modelos locales, evaluó sistemáticamente estos modelos compactos frente a las versiones más avanzadas de GPT-5, Gemini 2.5, Claude 4.6 y Grok 4.1 en nueve conjuntos de datos diferentes que abarcaban clasificación de texto, invocación de funciones, respuesta a preguntas y búsqueda de información en contextos cerrados.
Los resultados más sorprendentes incluyen un rendimiento del 98,7% del modelo Qwen3-0.6B en tareas de interpretación de comandos para domótica inteligente, superando significativamente el 92,0% de Gemini Flash, a pesar de poseer apenas la dieciséis parte de parámetros. En la traducción de lenguaje natural a consultas SQL, la variante Qwen3-4B alcanzó el 98,0% de precisión con un coste de apenas tres dólares por millón de solicitudes, comparado con los 24 dólares de GPT-5 Nano y los 378 dólares de la familia Claude Haiku.
La metodología empleada en esta investigación resultó particularmente rigurosa. Los investigadores utilizaron conjuntos de pruebas idénticos, indicaciones uniformes y criterios de evaluación consistentes para todos los modelos comparados. Las versiones de frontera se ejecutaron tres veces en cada conjunto de datos para reportar media y desviación estándar, mientras que los modelos destilados funcionaron a temperatura cero, eliminando variabilidad por aleatoriedad.
En las pruebas de rendimiento utilizando una única unidad de procesamiento H100, el modelo Qwen3-4B procesó 222 solicitudes por segundo con latencias de 390 milisegundos en el percentil 50, 640 en el percentil 95 y 870 en el percentil 99. La huella de memoria se situó en 7,6 gigabytes en precisión de 16 bits, reducible a menos de 4,3 gigabytes utilizando cuantificación FP8 sin pérdida apreciable de precisión.
El aspecto distintivo de esta investigación radica en que todos los modelos destilados fueron entrenados únicamente con modelos de código abierto como maestros, sin incorporar salidas de sistemas de frontera en el proceso de aprendizaje. El destilamiento se logró con apenas 50 ejemplos de entrenamiento en algunos casos, demostrando la eficiencia de la transferencia de conocimiento desde modelos grandes a arquitecturas compactas.
Donde los sistemas de frontera mantienen su ventaja es en tareas que requieren razonamiento abierto combinado con conocimiento del mundo general, como demostró la evaluación HotpotQA. Los modelos destilados alcanzaron el 92,0% mientras que Claude Haiku logró el 98,0%, poniendo de relieve el compromiso fundamental entre tamaño del modelo y capacidad de generalización en dominios amplios.
En términos generales, los modelos destilados igualaron o superaron el rendimiento del mejor modelo de tier medio disponible en APIs comerciales en 6 de las 9 tareas evaluadas, empatando efectivamente en una séptima. Esta conclusión tiene implicaciones significativas para empresas y desarrolladores que deben evaluar constantemente el equilibrio entre rendimiento, coste y soberanía de datos.
Los investigadores proporcionan recomendaciones prácticas para la selección entre destilamiento y consultas a APIs de frontera: el destilamiento resulta ventajoso en tareas estructuradas con esquemas bien definidos, volúmenes altos de procesamiento o cuando la soberanía de datos constituye un requisito crítico. Las APIs de frontera mantienen su utilidad cuando se requiere generación de texto abierto, conocimiento general amplio o cuando el volumen de solicitudes es suficientemente bajo para que el coste sea irrelevante. Para organizaciones con necesidades mixtas, recomendan una estrategia de enrutamiento inteligente que dirija cada solicitud al recurso más apropiado.
Toda la investigación se ha puesto a disposición pública, incluyendo código fuente, modelos, conjuntos de datos y scripts de evaluación, permitiendo que otros investigadores reproduzcan los resultados y construyan sobre ellos. Este enfoque de ciencia abierta contrasta marcadamente con la tendencia hacia mayor hermetismo en el desarrollo de modelos de lenguaje más grandes, potencialmente catalitando una mayor democratización de capacidades avanzadas de inteligencia artificial.