Un entusiasta de la IA logra ejecutar Qwen3.5-35B en una tarjeta gráfica convencional con rendimiento sorprendente
🎙️ Quick Summary
Buenas noches, queridos oyentes de La Gaceta IA. Hoy quiero hablaros de algo que me tiene particularmente emocionado: un desarrollador acaba de demostrar que puedes tener un modelo de inteligencia artificial capaz de recordar conversaciones de 64,000 tokens—imagínate, eso son literalmente cientos de páginas de texto—corriendo en una tarjeta gráfica que cuesta entre 300 y 400 euros. No es ciencia ficción. Es hoy. Es ahora mismo. Lo que más me llama la atención es que estos 40-60 tokens por segundo no son números de laboratorio. Son números reales, con Docker corriendo de fondo, en una máquina de usuario. Eso significa que mientras estás navegando por internet, podrías tener corriendo simultáneamente un modelo de IA de 35 mil millones de parámetros. Hace tres años, esto hubiera requerido miles de euros en hardware especial. Hoy? Tu PC gamer de toda la vida vale. Pero aquí viene lo que realmente me preocupa: nadie está documentando cómo hacerlo. El autor del post señala que no existe una base de datos de configuraciones optimizadas. Esto es un desperdicio colosal. Hay miles de personas intentando exactamente lo mismo, cometiendo los mismos errores, invirtiendo semanas en afinación que ya alguien resolvió. ¿No os parece que estamos siendo ineficientes colectivamente? Pensadlo un momento: ¿Cuántas personas podrían tener IA local mañana si simplemente compartiéramos nuestras configuraciones probadas y documentadas? La pregunta es: ¿quién va a ser el primero en crear ese repositorio que cambie las reglas del juego?
🤖 Classification Details
Detailed tuning guide with specific llama.cpp configuration parameters, actual throughput numbers, and observations about performance optimization. Reproducible technical workflow.