Investigaciones recientes indican que los LLM, particularmente los más pequeños, con frecuencia luchan con un razonamiento robusto. Tienden a funcionar bien en preguntas familiares, pero faltan cuando esos mismos problemas están ligeramente alterados, como cambiar nombres o números, o agregar información irrelevante pero relacionada. Esta debilidad, conocida como pobre generalización fuera de distribución (OOD), da como resultado caídas de precisión notables, incluso en tareas matemáticas simples. Una solución prometedora es crear variaciones sintéticas de problemas de razonamiento, ayudando a los modelos a aprender a centrarse en la lógica subyacente en lugar de los detalles de la superficie. Fortalecer el razonamiento de esta manera es crucial para desarrollar sistemas de IA más generales y confiables.
Resumen de la lógica central de las fallas de razonamiento de LLM
Los LLM han demostrado capacidades de razonamiento impresionantes, sin embargo, a menudo vacilan cuando se exponen a cambios de distribución, como cambios en el fraseo, los valores numéricos o la introducción de distracciones. Esta vulnerabilidad es evidente en los puntos de referencia en el razonamiento lógico, matemático y de sentido común. Las soluciones anteriores se han basado en el aumento de datos para exponer modelos a una variedad más amplia de entradas, mejorando la robustez pero aumentando las demandas computacionales. Los investigadores también han explorado formatos como la abstracción de pensamiento y la cadena de abstracción para enseñar razonamiento abstracto, mientras que las técnicas de planificación como la cadena de pensamiento y el pensamiento ayudan a la resolución de problemas paso a paso. El aprendizaje de refuerzo y los métodos basados en preferencias proporcionan apoyo adicional para el desarrollo de habilidades de razonamiento más allá de la memorización del patrón.
Método de aprendizaje simbólico de Abstral para mejorar la consistencia del razonamiento
Investigadores de Apple y EPFL proponen Abstral, un método que enseña a LLM a comprender los patrones de razonamiento abstracto en lugar de memorizar los detalles de la superficie. En lugar de generar muchos ejemplos de entrenamiento variados, que son computacionalmente costosos, Abstral ayuda a LLMS a aprender la estructura subyacente de los problemas de razonamiento utilizando el aprendizaje de refuerzo. Este método conecta estos patrones abstractos con herramientas simbólicas, permitiendo la resolución de problemas más confiable. Probado en puntos de referencia GSM, Abstral mejora significativamente el rendimiento de LLM, especialmente cuando se enfrenta a cambios de entrada o información de distracción. Superenta a los modelos entrenados solo con el aprendizaje supervisado al promover un razonamiento más consistente e independiente del contexto.
Cuatro pasos para abstracto de razonamiento simbólico a través de Abstral
Abstral es un marco de cuatro pasos diseñado para enseñar a los LLM a razonar de manera abstracta en lugar de confiar en patrones de superficie. Primero, identifica variables clave en una pregunta y las reemplaza con marcadores de posición simbólicos. Luego, utilizando datos especialmente diseñados (granulares), el modelo aprende a razonar paso a paso con estos símbolos abstractos. A continuación, recupera la estructura de razonamiento general (abstracción) de la respuesta simbólica. Finalmente, usa esta abstracción con los valores originales para calcular la respuesta correcta. El aprendizaje de refuerzo con dos recompensas, una por corrección y otra por similitud simbólica, mejora aún más la capacidad del modelo para generar patrones de razonamiento precisos e independientes del contexto.
Las variaciones GSM8K revelan la robustez de Abstral en los tamaños de LLM
Los investigadores evalúan las tareas de razonamiento abstrral en matemáticas utilizando modelos como Llama-3 y QWEN2, capacitándolos con un conjunto de datos llamado granular que reescribe problemas matemáticos en una forma simbólica abstracta. Esto ayuda a los modelos a centrarse en la estructura en lugar de los detalles de la superficie. Proban robustez utilizando versiones alteradas de problemas de GSM8K, cambiando números, nombres y frases. En comparación con las líneas de base como la improvisación estándar de la cadena de pensamiento, Abstral muestra una consistencia más fuerte y una menor caída de la precisión en estas variaciones. Especialmente para modelos más pequeños, mejora la confiabilidad en las entradas reactivas. Los resultados sugieren que enseñar modelos para razonar de manera abstracta los hace más adaptables y menos dependientes de patrones memorizados.
Enseñar LLMS El pensamiento abstracto a través del refuerzo produce un razonamiento robusto
En conclusión, Abstral es un método diseñado para mejorar el razonamiento abstracto en LLMS, lo que los hace más resistentes a los cambios superficiales en los problemas. A diferencia del ajuste fino tradicional o el aumento de datos, Abstral utiliza el aprendizaje de refuerzo para entrenar modelos en los fundamentos granulares que mezclan la cadena de pensamiento socrática con una abstracción detallada. Este enfoque ayuda a eliminar las distracciones a nivel de superficie y conectarse mejor con herramientas simbólicas. Probado en los desafíos de referencia de perturbación GSM8K, Abstral reduce notablemente las caídas de rendimiento bajo cambios de distribución, particularmente en modelos más pequeños. El estudio muestra que aprender a abstracto mejora la robustez del razonamiento de manera más efectiva que depender únicamente de la supervisión directa.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo, YouTube y Spotify Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.