Un ingeniero logra quintuplicar la velocidad de modelos de IA en GPUs de escritorio Blackwell con un parche de kernel personalizado
🎙️ Quick Summary
Escuchadme, esto es lo que me fascina de la comunidad de código abierto: alguien se encuentra con un problema real, frustrado porque su GPU cara no rinde lo que debería, y en lugar de simplemente quejarse en Reddit, decide bucear en el código de NVIDIA, identifica el mismísimo bug en la arquitectura de los kernels de CUTLASS y lo arregla. No es un ajuste menor, no es configurar dos parámetros. Es entender por qué los ingenieros de NVIDIA diseñaron los tiles para 228KB de memoria y luego darse cuenta de que los GPUs de consumo tienen 99KB. Eso requiere un nivel de conocimiento que francamente no es común. Lo que más me llama la atención es la implicación económica. Estamos hablando de pasar de 55 a 282 tokens por segundo —más de un 400%— en hardware que la mayoría de nosotros podría efectivamente comprar. Esto democratiza algo que parecía reservado a las grandes corporaciones con acceso a clusters de B200. ¿Sabéis lo que significa eso? Significa que un researcher independiente, una startup con presupuesto limitado, una universidad, ahora puede ejecutar modelos de 397 mil millones de parámetros a velocidades competitivas. Significa que el moat de NVIDIA respecto a modelos grandes se erosiona un poquitín más. Pero aquí viene la pregunta que no quiero que os hagáis: si un desarrollador individual puede arreglar esto en una tarde de trabajo, ¿por qué no lo hizo NVIDIA desde el principio? ¿Era realmente un oversight de ingeniería, o fue deliberado, sabiendo que esto presionaría a los clientes hacia los más caros B200?
🤖 Classification Details
Detailed technical post with custom CUTLASS kernel implementation, comprehensive benchmarks, reproducible steps, Docker setup, and upstream PR. Actionable content for users with specific hardware.