Un investigador expone un fallo crítico de NVIDIA que limita el rendimiento real de sus GPUs Blackwell profesionales

Un desarrollador independiente ha completado un exhaustivo análisis de rendimiento que revela un problema fundamental en la arquitectura de procesamiento de NVIDIA para sus tarjetas gráficas RTX PRO 6000 Blackwell. Después de invertir más de ocho horas en pruebas comparativas de múltiples configuraciones, el investigador ha documentado que el rendimiento máximo sostenible alcanzado es de 50,5 tokens por segundo al ejecutar el modelo Qwen3.5-397B con cuantificación NVFP4, cifra significativamente inferior a las reclamaciones de 130 tokens por segundo que circulan en foros de la comunidad. El hallazgo más preocupante es que NVIDIA ha enviado modelos específicamente diseñados para aprovechar los núcleos de tensor FP4 nativos de estas tarjetas profesionales de 20.000 dólares, pero la propia biblioteca CUTLASS de la empresa contiene kernels defectuosos que no funcionan correctamente en la arquitectura SM120 de las tarjetas de escritorio Blackwell. Concretamente, los 80 tácticas especializadas de GEMM agrupadas con TMA fallan en la inicialización, obligando al sistema a recurrir a Marlin, un backend alternativo que requiere desquantificar los pesos FP4 a FP16, lo que implica perder aproximadamente el 50% del rendimiento teórico disponible. Para llegar a estos 50,5 tokens por segundo, el investigador tuvo que aplicar 12 parches distintos en FlashInfer y vLLM, modificando verificaciones de versión SM, asignaciones de capacidad de cómputo y configuraciones de compilación. El análisis también evidencia que la Predicción Multi-Token (MTP), una técnica que debería mejorar el rendimiento, produce una regresión del 22% en estas configuraciones debido a discrepancias entre las activaciones FP4 nativas en las que se entrenaron los cabezales de especulación y las activaciones W4A16 generadas por Marlin. La investigación arroja luz sobre presuntas reclamaciones infladas de rendimiento halladas en foros comunitarios, donde algunos usuarios afirmaban haber conseguido velocidades muy superiores. El análisis de los repositorios mencionados no revela cambios a nivel de kernel que justifiquen estas cifras, sugiriendo que podrían estar contabilizando tokens especulativos tanto aceptados como rechazados, en lugar de medir únicamente tokens de salida reales entregados al usuario. A pesar de estas limitaciones, 50,5 tokens por segundo para un modelo de 397 mil millones de parámetros supone un logro técnico considerable, potencialmente superior al rendimiento de muchas configuraciones de Llama 70B. Sin embargo, los datos indican que la velocidad debería ser entre dos y tres veces superior si los componentes de software funcionaran según las especificaciones de diseño de NVIDIA. El investigador ha presentado un informe de error formal a NVIDIA a través del repositorio de CUTLASS, aunque hasta el momento no ha recibido respuesta de la empresa. Curiosamente, la arquitectura SM121 presente en los servidores DGX Spark Blackwell sí ofrece soporte completo para MoE con NVFP4 nativo a 356 TFLOPS, lo que sugiere que el problema no es una limitación fundamental del diseño Blackwell, sino una validación incompleta de las configuraciones de teselas para las variantes de escritorio.

🎙️ Quick Summary

Esto es interesante porque toca un problema que raramente vemos expuesto de forma tan clara: cuando los fabricantes venden hardware premium con características específicamente diseñadas, pero luego los drivers y las librerías que deberían aprovechar esas características simplemente no funcionan. NVIDIA está cobrando 20.000 dólares por estas tarjetas, empaquetándolas con modelos NVFP4 cuantificados, y presumiblemente sugiriendo que ese es el camino a seguir. Pero resulta que ese camino está roto y nadie en la empresa Nvidia parece estar respondiendo al problema. Lo que más me llama la atención es la brecha entre lo que se anuncia y lo que funciona realmente. Tenemos gente en internet diciendo que consigue 130 tokens por segundo, cuando la realidad parece ser 50. Y cuando este investigador examina el código de esos usuarios, descubre que no hay cambios reales que justifiquen esa diferencia. Probablemente estén contando de forma distinta. ¿Ves? Ese es el tipo de confusión que genera daño en el ecosistema. Las empresas confían en datos sobre rendimiento que no son reales. Pensadlo un momento: esto es lo que ocurre incluso en el segmento profesional, donde hay dinero de verdad en juego. Si un ingeniero de una empresa de Fortune 500 compra estas tarjetas basándose en las promesas de rendimiento oficial, implementa su stack de IA alrededor de NVFP4, y luego descubre que obtiene la mitad de la velocidad que esperaba, habrá perdido semanas de trabajo. ¿Cuándo empezaremos a exigir a NVIDIA que valide realmente el hardware que vende?

🤖 Classification Details

Extensive benchmarking report with detailed hardware specs, multiple backend comparisons, actual performance measurements, identified NVIDIA bug with issue tracking, and practical configuration guidance.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details