El equipo de Unsloth ha presentado avances significativos en la optimización de modelos de lenguaje mediante la liberación de nuevas cuantificaciones dinámicas para Qwen3.5-35B que establecen nuevos estándares de referencia en casi todas las métricas de precisión.
La cuantificación es un proceso fundamental en el despliegue de modelos de inteligencia artificial que busca reducir el tamaño de los pesos de la red neuronal manteniendo su rendimiento. Unsloth ha completado más de 150 puntos de referencia de divergencia de Kullback-Leibler, generando un total de 9 terabytes de artefactos GGUF (un formato de cuantificación popular en la comunidad de IA local), que han sido puestos a disposición de la comunidad para investigación posterior.
Los resultados demuestran que las nuevas cuantificaciones dinámicas alcanzan una divergencia KL del 99,9%, posicionándose en la frontera de Pareto óptima para configuraciones como UD-Q4_K_XL e IQ3_XXS. Este logro es especialmente relevante considerando que permite reducir el tamaño de los modelos sin sacrificar significativamente la calidad de las salidas.
Un hallazgo crucial del trabajo es que no todos los componentes de un modelo responden de igual forma a la cuantificación agresiva. El equipo descubrió que cuantificar capas sensibles como ssm_out (capas Mamba) o attn_* (capas de atención) resulta contraproducente, aumentando dramáticamente la divergencia KL sin ahorros significativos en espacio. Por el contrario, capas como ffn_up_exps y ffn_gate_exps toleran mejor una cuantificación a 3 bits, lo que sugiere que un enfoque selectivo y granular produce mejores resultados que técnicas uniformes.
El equipo también ha identificado y corregido un fallo crítico en la plantilla de chat para llamadas de herramientas que afectaba a todos los proveedores de cuantificación. Esta corrección ha sido aplicada a las versiones actualizadas de Qwen3.5-35B, aunque se recomienda a los usuarios descargar nuevamente los archivos una vez que se complete la conversión de los modelos de 112B y 27B.
Otro aspecto importante del estudio concierne a la técnica imatrix, que pondera el proceso de cuantificación basándose en la importancia de cada peso. Los resultados muestran que imatrix reduce significativamente la divergencia KL, particularmente en cuantificaciones de bajo nivel, mejorando el rendimiento general de todos los esquemas de cuantificación probados.
El trabajo también plantea una reflexión crítica sobre las métricas de evaluación tradicionales. Aunque la perplejidad y la divergencia KL son indicadores útiles, el análisis comparativo de Unsloth reveló que estos números pueden ser engañosos en aplicaciones del mundo real. Por ejemplo, la cuantificación IQ2_XXS de Unsloth superó al IQ3_S de AesSedai en evaluaciones prácticas de código en vivo y MMLU Pro, a pesar de ser 11 gigabytes más pequeña y tener métricas de perplejidad y KLD teóricamente peores. Este hallazgo subraya la importancia de realizar evaluaciones en tareas reales para validar la verdadera calidad de los modelos cuantificados.
El equipo ha descontinuado el uso de MXFP4 en la mayoría de sus cuantificaciones GGUF, favoreciendo en su lugar Q4_K, que ofrece mejor rendimiento con un uso similar de bits por peso. Esta decisión se basa en evidencia empírica exhaustiva de que MXFP4 funciona particularmente mal en capas críticas como attn_gate, attn_q, ssm_beta y ssm_alpha.
Los artefactos de investigación, que incluyen métricas de divergencia KL y 121 configuraciones probadas, han sido publicados públicamente, permitiendo a otros investigadores investigar la cuantificación de modelos híbridos arquitectónicos. Esta transparencia representa un aporte significativo a la comunidad de IA de código abierto, facilitando un mejor entendimiento sobre cómo optimizar modelos de lenguaje para ejecución local manteniendo su capacidad intelectual.
El trabajo de Unsloth se inscribe en una tendencia más amplia de democratización de la IA, donde la capacidad de ejecutar modelos sofisticados en hardware de consumidor se vuelve cada vez más accesible. Los avances en cuantificación son fundamentales para esta democratización, permitiendo que investigadores y desarrolladores con recursos limitados trabajen con modelos de última generación.