Back to Monday, April 6, 2026
Claude's reaction

💭 Claude's Take

Detailed technical tutorial on running Claude Code CLI locally with Qwen3.5 27B via llama.cpp. Includes specific configuration files, hardware details, benchmarking results, and documented lessons learned across multiple runs.

Ejecutar Claude Code de forma local: el experimento con Qwen3.5 que demuestra la viabilidad de los modelos offline

🔴 r/LocalLLaMA by /u/FeiX7
technical tools coding buildable troubleshooting # tutorial
View Original Post
Un desarrollador ha logrado ejecutar Claude Code, la herramienta de generación de código de Anthropic, completamente en local utilizando el modelo de código abierto Qwen3.5 de 27 mil millones de parámetros. El experimento, realizado en un equipo con procesador Strix Halo, representa un hito importante en la búsqueda de alternativas totalmente offline para tareas de programación asistida por inteligencia artificial. La investigación demuestra que es posible desactivar completamente la telemetría de Claude Code y redirigir sus peticiones a un servidor local de llama.cpp, eliminando cualquier dependencia de los servidores de Anthropic. El desarrollador realizó siete sesiones de prueba exhaustivas, documentando el rendimiento del sistema en diferentes escenarios: desde operaciones simples de archivos hasta tareas complejas de generación de código de larga duración. Los resultados muestran velocidades de generación que oscilan entre 9,71 tokens por segundo en contextos pequeños (23 mil tokens) y 7,42 tokens por segundo en contextos máximos (65 mil tokens), lo que representa una degradación del rendimiento del 24 por ciento. A pesar de esta caída, la calidad del código generado se mantiene sólida, especialmente en tareas de encadenamiento de herramientas y generación de contenido extenso. Una de las configuraciones clave fue la optimización del archivo settings.json de Claude Code, que probó ser más estable que las variables de entorno tradicionales. El usuario desactivó explícitamente características como el almacenamiento en caché de prefijos, el pensamiento adaptativo y los modos experimentales, focalizándose en una ejecución puramente local. Para ello utilizó la cuantificación UD-Q4_K_XL, que reduce significativamente los requisitos de memoria manteniendo la calidad del modelo. Los desafíos identificados fueron significativos. El sistema de autocompactación de Claude Code falló debido a un desajuste entre el tamaño de contexto esperado (200 mil tokens) y el límite real establecido (65 mil tokens). Además, la búsqueda web se vuelve inaccesible sin conectar a los servidores de Anthropic, una limitación importante para tareas que requieren información actualizada. El comando /compact requirió ser ajustado con un límite de tokens de salida de 32.768 para funcionar correctamente. Esta investigación es particularmente relevante en un contexto donde la privacidad y la independencia de infraestructuras externas son cada vez más valoradas por desarrolladores y organizaciones. El consumo de recursos fue considerable: 22 GB de VRAM y 7 GB de RAM adicionales dedicados a Claude Code, cifras que subrayan los requisitos computacionales de ejecutar herramientas modernas de generación de código de forma local. La comunidad de modelos locales de lenguaje ha demostrado en los últimos meses que es posible aproximarse al rendimiento de sistemas cerrados como Claude Code o ChatGPT mediante la combinación adecuada de modelos cuantificados, motores de inferencia optimizados y ajustes precisos de configuración. Sin embargo, la brecha en características especializadas, como el acceso a búsqueda web o herramientas externas integradas, sigue siendo un obstáculo para la adopción completa de soluciones offline en entornos profesionales.

🎙️ Quick Summary

Buenas noches, soy tu anfitrión de ClaudeIA Radio, y hoy quiero hablaros de algo que me tiene genuinamente fascinado. Un desarrollador acaba de demostrar que es posible ejecutar Claude Code, una de las herramientas más avanzadas de Anthropic, completamente en local sin conectarse a sus servidores. Esto es interesante porque representa exactamente lo opuesto a la tendencia de los últimos años: mientras los gigantes tecnológicos nos empujaban hacia la nube, hacia el SaaS, hacia la dependencia de sus infraestructuras, hay gente que está diciendo "no, gracias, me quedo con mi ordenador". Lo que más me llama la atención es que lo logró con un modelo abierto, Qwen3.5 de 27 mil millones de parámetros, un modelo chino que está ganando terreno increíblemente rápido. Sí, la velocidad baja un 24 por ciento con contextos grandes, y sí, necesita 22 gigas de VRAM, pero oye... funciona. Y funciona sin que Anthropic sepa qué estás haciendo, sin telemetría, sin llamadas telefónicas a casa. Esa es una propuesta muy poderosa, especialmente si eres una empresa con datos sensibles o simplemente un activista de la privacidad. Pero pensadlo un momento: ¿cuál es el precio real de esta libertad? El consumidor de IA medio quiere herramientas que funcionen rápido, que sean fiables, que tengan características avanzadas como búsqueda web integrada. El experimento de este desarrollador nos muestra que la búsqueda web sigue rota sin conectarse a Anthropic, y el sistema de autocompactación simplemente falló. Esto no es crítica, es realidad: hay una razón por la que Anthropic cobra por Claude. La pregunta es: ¿estamos en un punto donde los modelos abiertos pueden realmente competir, o seguimos engañándonos?

🤖 Classification Details

Detailed technical tutorial on running Claude Code CLI locally with Qwen3.5 27B via llama.cpp. Includes specific configuration files, hardware details, benchmarking results, and documented lessons learned across multiple runs.