Un desarrollador ha publicado una implementación de código abierto de DFlash, una técnica de decodificación especulativa que consigue multiplicar por cuatro la velocidad de generación de texto en computadoras Mac con procesador M5 Max. Los resultados preliminares muestran mejoras dramáticas en el rendimiento de modelos lingüísticos grandes ejecutados localmente, sin sacrificar la precisión ni requerir modificaciones a la infraestructura existente de MLX.
La técnica funciona de manera relativamente sencilla pero ingeniosa: un modelo de borrador más pequeño genera dieciséis tokens en paralelo mediante difusión en bloques, mientras que el modelo objetivo verifica todos ellos en una única pasada forward. Cada token emitido se valida contra el modelo objetivo antes de ser confirmado, garantizando un resultado sin pérdidas de calidad. Esta arquitectura lossless es fundamental porque permite obtener aceleraciones sustanciales sin degradar la salida del modelo.
Los números son especialmente impresionantes en modelos medianos. El Qwen3.5-4B alcanza 219.83 tokens por segundo con DFlash frente a los 53.74 de referencia, logrando una aceleración de 4.10x. El Qwen3.5-9B, un modelo más capacitado, consigue 127.07 tokens por segundo comparado con 30.96 de baseline, también con una aceleración de 4.13x. La tasa de aceptación se mantiene consistentemente alrededor del 89 por ciento, lo que indica que la mayoría de los tokens especulativos se validan correctamente.
Lo más interesante del trabajo es el análisis técnico subyacente. El autor descubrió que en memoria unificada, todo está limitado por el ancho de banda disponible. Los intentos de optimización computacional mediante kernels Metal personalizados (GEMV por lotes, SiLU fusionado, SDPA personalizado) resultaron paradójicamente más lentos que las implementaciones estándar de MLX. Las ganancias reales provienen de mejoras en la precisión numérica, especialmente en la implementación de caminos bf16 (formato de punto flotante de 16 bits) numéricamente estables a través de ciclos especulativos.
Esta observación revela una verdad fundamental sobre la computación en silicio Apple: la arquitectura de memoria unificada, aunque potente, presenta características de rendimiento completamente diferentes a las de las GPUs dedicadas tradicionales. El ancho de banda es el cuello de botella, no la computación pura. Por eso, aunque parezca contraintuitivo, simplificar el código y mejorar la precisión numérica supera a la optimización bruta de kernels personalizados.
El rendimiento varía significativamente según el tamaño y la cuantización del modelo. El Qwen3.5-27B cuantizado a 4 bits logra solo 1.90x de aceleración, y el modelo 35B aún más reducida (1.69x). La razón es clara: los modelos cuantizados son inherentemente rápidos, transformando el modelo de borrador en bf16 en el factor limitante. Esta es una limitación estructural del decodificador especulativo en hardware limitado por ancho de banda con objetivos cuantizados, un desafío que requiere enfoques alternativos.
Otro hallazgo importante es que la técnica se optimizó específicamente para la arquitectura híbrida GatedDeltaNet más atención del Qwen3.5. Los modelos de pura atención como Qwen3 o Gemma funcionan con DFlash, pero sin los beneficios del tape-replay, una optimización personalizada que replaya únicamente los pasos aceptados a través del estado recurrente, evitando guardar y restaurar puntos de control completos.
La publicación en código abierto es especialmente significativa porque utiliza MLX sin forks, permaneciendo totalmente compatible con el ecosistema de herramientas de Apple. Esto democratiza el acceso a estas mejoras de rendimiento para cualquiera que ejecute modelos locales en Mac. El desarrollador ha planteado un roadmap que incluye optimizaciones para modelos de pura atención y compresión del modelo de borrador, sugiriendo que los límites actuales de rendimiento aún no se han alcanzado.
En el contexto más amplio de la IA, este trabajo representa un cambio de paradigma en cómo pensamos sobre la inferencia local. Mientras que la industria se enfoca principalmente en modelos más grandes y más rápidos en centros de datos, hay un movimiento paralelo igualmente importante hacia hacer que los modelos existentes sean dramáticamente más eficientes en hardware de consumo. Para usuarios que dependen de privacidad, latencia baja o simplemente no quieren pagar por acceso a API en la nube, estas mejoras de rendimiento son transformadoras. Una aceleración de 4.1x es la diferencia entre una herramienta incómoda de usar y una que es prácticamente instantánea.