Un entusiasta de la IA logra ejecutar Qwen3.5-35B en una tarjeta gráfica convencional con rendimiento sorprendente

La democratización de los modelos de lenguaje de gran tamaño continúa avanzando a ritmo acelerado. Un desarrollador ha conseguido ejecutar Qwen3.5-35B, un modelo de inteligencia artificial de 35 mil millones de parámetros, en una tarjeta gráfica RTX 4060 Ti de 16 GB, logrando velocidades de procesamiento de entre 40 y 60 tokens por segundo—una cifra que, aunque modesta en comparación con servidores especializados, representa un hito importante para la computación de IA local y accesible. El proyecto, desarrollado en un entorno Windows 11 con procesador Intel i7-13700F y 64 GB de memoria RAM, utilizó llama.cpp, un software de código abierto diseñado para ejecutar modelos de lenguaje de forma eficiente en hardware convencional. La configuración incluyó técnicas avanzadas de optimización como la cuantización Q4_K_L, que reduce el tamaño del modelo sin sacrificar significativamente su capacidad intelectual, y la configuración de parámetros específicos como unified key-value memory y flash attention. Lo particularmente relevante de este logro es que mantiene un contexto de 64,000 tokens, lo que significa que el modelo puede procesar y recordar conversaciones extremadamente largas. Las pruebas realizadas muestran velocidades consistentes en escenarios reales: 56 tokens por segundo en generaciones de mil tokens, 47 tokens por segundo después de procesar contextos de más de mil tokens, y rendimiento sostenido incluso cuando ejecuta Docker Desktop simultáneamente en segundo plano. Este desarrollo tiene implicaciones significativas para la industria. Primero, demuestra que el hardware de consumo masivo es cada vez más capaz de ejecutar modelos sofisticados sin necesidad de inversiones en infraestructura costosa. Segundo, pone de manifiesto la importancia de la optimización del software y la afinación cuidadosa de parámetros, más allá de simplemente tener hardware potente. El desarrollador señaló que la presión sobre la memoria de acceso rápido (VRAM) resultó más crítica que la búsqueda de números de rendimiento máximo en pruebas aisladas. El proyecto también reveló insights técnicos valiosos sobre cómo el software de optimización realmente se comporta en tiempo de ejecución. Los registros de inicio pueden parecer correctos mientras se ejecutan, pero las métricas reales que importan—como n_parallel, kv_unified, n_ctx_seq, n_ctx_slot, n_batch y ubatch—determinan verdaderamente el rendimiento final. Esta observación sugiere que muchos usuarios podrían estar dejando rendimiento sobre la mesa simplemente por no comprender estas variables subyacentes. Actualmente existe una brecha clara en la comunidad de IA local: no hay bases de datos compartidas de configuraciones optimizadas para diferentes tarjetas gráficas. Esto obliga a cada usuario a efectuar su propio proceso de afinación mediante prueba y error. La creación de tales repositorios podría acelerar significativamente la adopción de modelos locales y hacer que esta tecnología sea más accesible incluso para usuarios sin profundos conocimientos técnicos.

🎙️ Quick Summary

Buenas noches, queridos oyentes de La Gaceta IA. Hoy quiero hablaros de algo que me tiene particularmente emocionado: un desarrollador acaba de demostrar que puedes tener un modelo de inteligencia artificial capaz de recordar conversaciones de 64,000 tokens—imagínate, eso son literalmente cientos de páginas de texto—corriendo en una tarjeta gráfica que cuesta entre 300 y 400 euros. No es ciencia ficción. Es hoy. Es ahora mismo. Lo que más me llama la atención es que estos 40-60 tokens por segundo no son números de laboratorio. Son números reales, con Docker corriendo de fondo, en una máquina de usuario. Eso significa que mientras estás navegando por internet, podrías tener corriendo simultáneamente un modelo de IA de 35 mil millones de parámetros. Hace tres años, esto hubiera requerido miles de euros en hardware especial. Hoy? Tu PC gamer de toda la vida vale. Pero aquí viene lo que realmente me preocupa: nadie está documentando cómo hacerlo. El autor del post señala que no existe una base de datos de configuraciones optimizadas. Esto es un desperdicio colosal. Hay miles de personas intentando exactamente lo mismo, cometiendo los mismos errores, invirtiendo semanas en afinación que ya alguien resolvió. ¿No os parece que estamos siendo ineficientes colectivamente? Pensadlo un momento: ¿Cuántas personas podrían tener IA local mañana si simplemente compartiéramos nuestras configuraciones probadas y documentadas? La pregunta es: ¿quién va a ser el primero en crear ese repositorio que cambie las reglas del juego?

🤖 Classification Details

Detailed tuning guide with specific llama.cpp configuration parameters, actual throughput numbers, and observations about performance optimization. Reproducible technical workflow.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details