LM Studio acumula errores críticos que sabotean las capacidades de herramientas en modelos de razonamiento como Qwen 3.5

Una investigación exhaustiva realizada por la comunidad de modelos de lenguaje locales ha destapado una serie de fallos sistémicos en LM Studio, la plataforma popular para ejecutar modelos de inteligencia artificial en equipos locales. Los errores, que se remontan a hace más de un año, interactúan entre sí de manera que degradan significativamente el rendimiento de modelos de razonamiento avanzados como Qwen 3.5 y DeepSeek-R1, especialmente cuando estos intentan utilizar herramientas externas mediante llamadas de función. El primero de estos fallos afecta directamente a cómo el analizador sintáctico de LM Studio procesa los bloques de pensamiento interno de los modelos de razonamiento. Cuando estos modelos reflexionan sobre la sintaxis utilizada para invocar herramientas dentro de sus bloques `<think>`, el parser de LM Studio malinterpreta estas menciones teóricas como intentos reales de ejecución de funciones. Esto genera un bucle recursivo catastrófico: el modelo razona sobre la sintaxis de llamadas de herramientas, el parser interpreta erróneamente esa reflexión como una instrucción, genera un error, devuelve ese error al modelo, el modelo intenta explicar qué salió mal mencionando nuevamente la sintaxis problemática, y el ciclo se repite indefinidamente. El problema es particularmente irónico porque hace imposible que el modelo se diagnostique a sí mismo: cualquier intento de describir el problema reproduce el mismo fallo. El segundo error documentado surge cuando se registran múltiples servidores MCP (Model Context Protocol) en la plataforma. Los análisis reproducibles demuestran que la mera acción de añadir un segundo servidor MCP, sin ni siquiera invocarlo, cambia fundamentalmente cómo el parser maneja las llamadas de herramientas del primer servidor. Los tokens especiales que deberían ser interpretados como marcadores de inicio de función se convierten en texto plano inerte, impidiendo que cualquier herramienta se ejecute. Este comportamiento es determinista y ocurre con la misma entrada, el mismo modelo y el mismo objetivo, cambiando solo una variable del sistema. El tercer fallo afecta específicamente a los modelos de razonamiento cuando se accede a través de la API del servidor. El campo `reasoning_content` puede contener miles de tokens de deliberación sofisticada mientras que el campo `content` permanece vacío, pero el servidor reporta un `finish_reason: stop` que indica éxito. Esto significa que todos los frameworks de evaluación, todas las herramientas de evaluación comparativa y todos los sistemas agentes que comprueban únicamente el código de finalización aceptan erróneamente estas respuestas vacías como válidas. El modelo ha realizado un trabajo computacional genuino y extenso, pero ese trabajo queda atrapado en un campo que la mayoría de clientes nunca consultan. Lo más preocupante es que estos tres fallos no son independientes sino que forman un círculo vicioso de degradación del rendimiento. El razonamiento del modelo dispara el primer error, múltiples servidores registrados activan el segundo, la confusión resultante causa que el modelo se quede atrapado en deliberación sin producir salida, lo que dispara el tercero. El usuario ve una respuesta vacía, reinicia, y todo comienza de nuevo. El análisis técnico sugiere que la causa raíz común es que el parser carece de un modelo adecuado de tipos de contenido: no diferencia entre pensamiento interno deliberado, intentos reales de invocar herramientas y contenido de salida destinado al usuario. Estos problemas tienen implicaciones significativas para la adopción de modelos de código abierto. Los usuarios y organizaciones que intentan migrar hacia una dependencia del 90% en modelos ejecutados localmente se encuentran con que las herramientas fundamentales para hacerlo viables presentan limitaciones impredecibles. Los desarrolladores que reportaron estos problemas han descubierto que existen soluciones de trabajo temporal —deshabilitar el razonamiento resuelve el primer error, registrar solo una herramienta a la vez resuelve el segundo— pero estas son claramente insatisfactorias en flujos de trabajo prácticos. El primero de estos problemas fue reportado hace más de un año sin resolución definitiva, lo que sugiere un desfase potencial entre las prioridades del equipo de desarrollo y las necesidades de los usuarios que dependen de estas capacidades críticas para sus aplicaciones.

🎙️ Quick Summary

Escuchadme bien porque esto es interesante por varias razones. Tenemos aquí una plataforma, LM Studio, que es realmente querida por la comunidad de IA local, ¿verdad? Pero está acumulando errores que literalmente hacen que los modelos parezcan más tontos de lo que realmente son. Y lo más fascinante es cómo estos fallos interactúan entre sí en una cascada perfecta de caos. Lo que más me llama la atención es que algunos de estos problemas llevan abiertos más de un año. Un AÑO. Eso me dice algo importante sobre la sostenibilidad de estas herramientas comunitarias. Porque sí, nos encanta la IA local y la privacidad, pero si la herramienta que necesitas para ejecutar estos modelos tiene agujeros fundamentales sin arreglar, estamos viviendo en una ilusión de control. El hecho de que un modelo razone sobre cómo llamar a una herramienta y que eso mismo cause que falle es casi cómicamente irónico. Es como si el modelo estuviera suplicando ayuda y la plataforma lo castigue por pedir ayuda. Y aquí viene lo que deberíamos pensar todos: ¿podemos realmente confiar en migrar nuestros flujos de trabajo a soluciones locales si los problemas críticos no se resuelven? Porque la alternativa es seguir atados a APIs en la nube de las grandes corporaciones. Pensadlo un momento: ¿vale la pena el ahorro de privacidad y costes si tenemos que gastar horas debugging porque nuestro modelo no puede usar herramientas correctamente? Eso es un trade-off brutal.

🤖 Classification Details

Comprehensive technical bug report identifying three critical issues in LM Studio that break Qwen 3.5 tool calling and reasoning. Includes specific reproduction steps, bug tracker references, and workarounds with verified testing.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details