Más allá de los momentos de la aha: razonamiento estructurado en modelos de idiomas grandes

Grandes modelos de razonamiento (LRMS) como Openi’s O1 y O3, Deepseek-R1, Grok 3.5 y Gemini 2.5 Pro han mostrado fuertes capacidades en un razonamiento largo de cuna, a menudo mostrando comportamientos avanzados como autocorrección, retroceso y verificación, conocidas colectivamente como “momentos de AHA”. Se ha observado que estos comportamientos emergen a través de RL impulsado por los resultados sin la necesidad de ajuste fino supervisado. Modelos como Deepseek-R1 y sus réplicas de código abierto (por ejemplo, Tinyzero y Logic-RL) han demostrado que las tuberías RL cuidadosamente diseñadas, utilizando recompensas basadas en reglas, aprendizaje curricular y capacitación estructurada, pueden inducir tales habilidades de razonamiento reflexivo. Sin embargo, estos comportamientos emergentes tienden a ser impredecibles e inconsistentes, lo que limita su confiabilidad práctica y escalabilidad.

Para abordar esto, los investigadores han explorado los marcos RL estructurados que se dirigen a tipos de razonamiento específicos, como deducción, abducción e inducción. Estos enfoques implican alinear modelos especializados, fusionarlos en el espacio de parámetros y aplicar la RL continua específica del dominio. Herramientas como Logic-RL usan RL condicionado por reglas para resolver acertijos lógicos, mejorando la transferibilidad a tareas como el razonamiento matemático. Mientras tanto, otros trabajos proponen mecanismos para mejorar la robustez del razonamiento, como los modelos de entrenamiento para razonar tanto hacia adelante como al revés, o de iterativamente autocriquen sus salidas. Los estudios que analizan los “momentos de AHA” sugieren que estos comportamientos provienen de los cambios internos en la incertidumbre, la representación latente y la autoevaluación, ofreciendo nuevas ideas sobre la ingeniería de modelos de razonamiento más confiables.

Los investigadores de la investigación de la Universidad Nacional de Singapur, la Universidad de Tsinghua y la investigación de Salesforce AI abordan las limitaciones de depender de “momentos de AHA” espontáneos en modelos de idiomas grandes al alinearlos explícitamente con tres habilidades de razonamiento central: deducción, inducción y abducción. Introducen una tubería de tres etapas (alineación de meta-capacidad individual, fusión del espacio de parámetros y aprendizaje de refuerzo específico del dominio) mejorando significativamente el rendimiento del modelo. Utilizando un suite de tareas autoverificable generado programáticamente, su enfoque aumenta la precisión sobre las líneas de base ajustadas a las instrucciones en más del 10%, con mayores ganancias de RL específica del dominio. Este marco de alineación estructurada ofrece un método escalable y generalizable para mejorar el razonamiento en los dominios de matemáticas, codificación y ciencia.

Los investigadores diseñaron tareas alineadas con la deducción, la inducción y la abducción mediante el uso de un formato estructurado “dado dos, inferir el tercer” basado en la hipótesis (H), la regla (R) y la observación (O). La deducción se enmarca como comprobación de satisfacción, inducción como predicción de secuencia enmascarada y abducción como inferencia inversa de gráfico de reglas. Estas tareas se generan y verifican automáticamente sintéticamente. La tubería de entrenamiento incluye tres etapas: (a) modelos de entrenamiento independientes para cada tipo de razonamiento utilizando Reforce ++ con recompensas estructuradas, (b) modelos de fusión a través de la interpolación de parámetros ponderados y (c) ajuste del modelo unificado en datos específicos de dominio a través del aprendizaje de refuerzo, aislando el beneficio de la alineación de meta-capacidad.

El estudio evalúa modelos alineados con meta habilidades (deducción, inducción y abducción) utilizando una configuración de aprendizaje curricular en los niveles de dificultad. Los modelos entrenados en tareas sintéticas generalizan fuertemente a siete puntos de referencia invisibles de matemáticas, código y ciencias. Tanto a las escalas 7B y 32B, los modelos alineados y fusionados de metahabilitación superan constantemente las líneas de base de instrucciones, con el modelo fusionado que ofrece las ganancias más altas. La RL continua específica del dominio de estos puntos de control fusionados (dominio-RL-Meta) conduce a mejoras adicionales sobre la fina RL estándar (Domain-RL-In), especialmente en los puntos de referencia de matemáticas. En general, la estrategia de alineación mejora las habilidades de razonamiento, y sus beneficios se escalan con el tamaño del modelo, lo que aumenta significativamente los techos de rendimiento en todas las tareas.

En conclusión, el estudio muestra que los grandes modelos de razonamiento pueden desarrollar habilidades avanzadas de resolución de problemas sin depender de “momentos de AHA” impredecibles. Al alinear los modelos con tres habilidades de razonamiento básicas (Deducción, inducción y abducción) utilizando tareas autoverificables, los autores crean agentes especializados que pueden combinarse de manera efectiva en un solo modelo. Este modelo fusionado supera a las líneas de base ajustadas a instrucciones en más del 10% en tareas de diagnóstico y hasta un 2% en puntos de referencia del mundo real. Cuando se usa como punto de partida para el aprendizaje de refuerzo específico del dominio, aumenta el rendimiento en otro 4%. Este enfoque de entrenamiento modular y sistemático ofrece una base escalable y controlable para construir sistemas de razonamiento confiables e interpretables.


Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.