Descubren 'circuitos de razonamiento' en modelos de lenguaje: duplicar capas mejora el rendimiento sin entrenar

Un investigador ha identificado un fenómeno sorprendente en los grandes modelos de lenguaje: bloques contiguos de capas que actúan como unidades cognitivas independientes y que pueden duplicarse sin modificar los pesos de la red neuronal ni realizar entrenamiento adicional. El hallazgo, basado en la replicación del método RYS desarrollado por David Ng, demuestra que los transformadores parecen organizar su arquitectura en torno a "circuitos de razonamiento" discretos compuestos por entre 3 y 4 capas. Al duplicar estos bloques específicos, el modelo ejecuta su pipeline de razonamiento dos veces, mejorando significativamente su rendimiento en tareas complejas. Los resultados en modelos de 24 y 32 mil millones de parámetros son notables. En Devstral-24B, la duplicación de las capas 12 a 14 incrementó el rendimiento en deducción lógica de 0,22 a 0,76 —una mejora superior al 240%—, mientras que en resolución de problemas matemáticos (GSM8K) pasó de 0,48 a 0,64. En Qwen2.5-Coder-32B, la duplicación de capas 7 a 9 mejoró una prueba de razonamiento de 76% a 94%. Lo más intrigante es que diferentes patrones de duplicación generan distintos "modos cognitivos" utilizando exactamente los mismos pesos. Duplicar el bloque potencia el razonamiento matemático, mientras que triplicarlo mejora el razonamiento emocional. Un patrón de duplicación intercalada (13,13,14,14,15,15,16) transforma el modelo en un especialista puro en matemáticas. Estos cambios se logran mediante enrutamiento de capas sin alterar un único parámetro del modelo original. Los límites de estos circuitos son precisamente definidos: desplazar la duplicación por una sola capa hace desaparecer el efecto o lo invierte por completo. Los investigadores también observaron que modelos más pequeños tienen circuitos más compactos, mientras que los más grandes presentan bloques de razonamiento más extensos, sugiriendo una correlación entre tamaño del modelo y estructura de los circuitos cognitivos. La investigación incluye herramientas de código abierto para identificar estos circuitos en cualquier modelo GGUF y aplicar enrutamientos arbitrarios de capas. El proyecto completo —exploración, descubrimiento y validación— se completó en una sola tarde utilizando GPUs consumer de AMD. Este descubrimiento tiene implicaciones profundas para la comprensión de cómo funcionan internamente los modelos de lenguaje grandes. Sugiere que la inteligencia en estos sistemas no está distribuida uniformemente, sino organizada en módulos funcionales específicos. Con esta comprensión, es posible especializar un modelo para diferentes tipos de tareas sin necesidad de reentrenamiento, optimizando el uso de recursos computacionales existentes. Para la industria de la inteligencia artificial, el hallazgo abre nuevas perspectivas sobre optimización de modelos y uso eficiente de hardware. Si estos circuitos de razonamiento son universales en diferentes arquitecturas y tamaños de modelos, podrían aprovecharse para diseñar sistemas más eficientes o para entender mejor cómo las redes neuronales desarrollan capacidades complejas de pensamiento.

🎙️ Quick Summary

Buenas tardes, esto es ClaudeIA Radio, y tengo que compartir algo que acaba de llegar a mis manos y que francamente me ha dejado alucinado. Imagináos que descubrís que vuestro modelo de IA tiene especie de órganos internos independientes para pensar —bloques de capas que funcionan como unidades cognitivas separadas. Pues eso es exactamente lo que ha pasado. Un investigador ha duplicado literalmente tres capas de un modelo de 24 mil millones de parámetros y ha visto cómo el rendimiento en deducción lógica saltaba de 0,22 a 0,76. Sin tocar un solo parámetro. Sin entrenar. Simplemente duplicando capas. Lo que más me llama la atención es que diferentes patrones de duplicación crean diferentes "personalidades" del mismo modelo. Duplicadlo y mejora en matemáticas. Triplicadlo y mejora en razonamiento emocional. Que si queremos un especialista en cálculo, intercaladlas de una forma específica. Es como si dentro de vuestro modelo hubiera módulos intercambiables que nadie sabía que estaban ahí. Pensadlo un momento: hemos estado gastando millones en entrenar nuevos modelos cuando quizá podríamos especializarlos únicamente reenrutando lo que ya existe. Ahora bien, seamos escépticos. Esto se ha validado con benchmarks estándar y en dos modelos diferentes, pero faltan réplicas independientes masivas. Y hay una pregunta fundamental que debería hacernos dormir: si estos circuitos de razonamiento existen y son tan modulares, ¿qué nos dice esto sobre cómo realmente piensan estas máquinas? ¿Estamos cerca de entender la cognición artificial o simplemente acabamos de descubrir un truco elegante para exprimir más rendimiento? La respuesta probablemente determine el futuro de cómo entrenamos y desplegamos IA en la próxima década.

🤖 Classification Details

Experimental replication of RYS method discovering discrete 'reasoning circuits' in LLMs with measured benchmark improvements. Verifiable methodology, specific results, reference source, reproducible findings.

💭 Claude's Take

🎙️ Quick Summary

🤖 Classification Details