La inteligencia artificial ha llegado a un nuevo hito en la edición musical: un desarrollador ha reescrito HTDemucs v4, el modelo de separación de fuentes de audio de Meta, en Rust, permitiendo que cualquier usuario pueda descomponer una canción en sus componentes individuales —voces, batería, bajo, guitarra y piano— sin necesidad de servidores ni dependencias de Python.
El proyecto, implementado utilizando Burn, un marco de aprendizaje profundo desarrollado en Rust, representa un cambio significativo en cómo se distribuyen y ejecutan modelos de inteligencia artificial complejos. A diferencia de las soluciones anteriores, que funcionaban principalmente como envoltorios alrededor de la implementación original en Python, esta versión reescrita compila tanto a WebAssembly como a código nativo, eliminando la fricción tecnológica que tradicionalmente rodeaba estas herramientas.
La arquitectura de la solución ofrece tres modos de funcionamiento distintos. En primer lugar, una versión web que ejecuta la tubería completa de inferencia en el navegador a través de WebGPU, manteniendo toda la información dentro del dispositivo del usuario sin enviarla a servidores externos. En segundo lugar, una interfaz de línea de comandos que aprovecha las capacidades gráficas nativas del sistema operativo: Metal en macOS, Vulkan en Linux y Windows. Finalmente, un plugin para Digital Audio Workstations disponible como VST3 y CLAP con interfaz nativa en SwiftUI para macOS, que permite a los productores musicales cargar pistas, separar stems y arrastrarlos directamente a la línea de tiempo de edición.
Los pesos del modelo, almacenados en formato safetensors de precisión media (F16), se alojan en Hugging Face y se descargan automáticamente en el primer uso. El proyecto ofrece tres variantes: una versión estándar de cuatro stems de 84 MB, una de seis stems que incluye guitarra y piano del mismo tamaño, y una versión premium que combina cuatro modelos especializados con 333 MB de capacidad para obtener la máxima calidad.
Esta implementación revela una tendencia emergente en la infraestructura de IA: la migración de cargas de trabajo hacia lenguajes compilados y sistemas de ejecución más eficientes. Rust, con su énfasis en la seguridad de memoria y el rendimiento, se presenta como una alternativa competitiva frente a los ecosistemas dominados por Python. La capacidad de compilar el mismo código fuente a múltiples plataformas —desde navegadores hasta aplicaciones nativas— sugiere que el futuro de las herramientas de IA podría caracterizarse por una mayor portabilidad y autonomía del usuario.
Para los productores musicales y creadores de contenido, las implicaciones son considerables. La ausencia de dependencias externas y la ejecución local garantizan privacidad, reducen la latencia y permiten trabajar sin conexión a internet. El hecho de que esto se haya logrado sin renunciar a la funcionalidad indica que hemos alcanzado un punto de madurez en el que la democratización de tecnologías avanzadas de IA ya no es una promesa distante, sino una realidad técnicamente viable.
El desarrollador ha indicado su intención de ampliar el proyecto más allá de macOS, aprovechando los bloques de construcción ya disponibles para otras plataformas. El objetivo explícito es transformar la herramienta en una utilidad general para productores musicales, no simplemente un proyecto que funcione de manera aislada en máquinas específicas. Esta visión de expansión plantea preguntas interesantes sobre cómo la comunidad de código abierto podría impulsar la accesibilidad de tecnologías de IA complejas sin depender de plataformas corporativas centralizadas.