Screenshot 2024 04 05 At 6.39.49 Pm.png

La competencia de los modelos de lenguaje grande (LLM) para descifrar las complejidades del lenguaje humano ha sido objeto de considerable elogio. Sin embargo, cuando se trata de razonamiento matemático (una habilidad que entrelaza la lógica con la comprensión numérica), estos modelos a menudo fallan, revelando una brecha en su capacidad para imitar los procesos cognitivos humanos de manera integral. Esta brecha exige una necesidad urgente de innovación en IA, impulsando esfuerzos de investigación para mejorar la comprensión matemática de los LLM sin diluir su destreza lingüística.

Las investigaciones existentes incluyen las indicaciones de la Cadena de Pensamiento, refinadas a través de marcos como el Árbol de Pensamientos y el Gráfico de Pensamientos, que guían a los LLM a través del razonamiento estructurado. Los métodos de ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL), como se ve en WizardMath y en datos de supervisión de alta calidad, han tenido como objetivo la mejora directa de las capacidades. Además, estrategias como la autoconsistencia y herramientas como MATH-SHEPHERD mejoran la resolución de problemas. Mammoth y Tora utilizan la inserción de código para superar los límites computacionales, mostrando diversos enfoques para aumentar el razonamiento matemático de los LLM.

Investigadores de Zhipu.AI y la Universidad de Tsinghua han introducido el proceso de «Autocrítica», que se distingue por emplear los resultados del modelo para una mejora basada en la retroalimentación. A diferencia de los métodos tradicionales que se centran en la retroalimentación externa, este enfoque internaliza mecanismos de mejora, facilitando avances simultáneos en el razonamiento matemático y las capacidades de procesamiento del lenguaje.

La metodología se desarrolla a través de un proceso estructurado de dos fases. Inicialmente, un modelo de crítica matemática evalúa los resultados matemáticos del LLM, lo que facilita la fase de ajuste fino rechazativo (RFT), donde solo las respuestas que cumplen con un criterio establecido se retienen para un mayor refinamiento. A esto le sigue la etapa de Optimización de preferencias directas (DPO), que agudiza la comprensión de resolución de problemas del LLM al aprender de pares de respuestas correctas e incorrectas. La eficacia de este canal se prueba en el modelo ChatGLM3-32B, utilizando conjuntos de datos académicos establecidos y el conjunto de datos MATH USER EVAL especialmente seleccionado para comparar las capacidades mejoradas de procesamiento del lenguaje y razonamiento matemático del modelo.

El proceso de autocrítica, aplicado al modelo ChatGLM3-32B, demostró mejoras cuantitativas significativas en la resolución de problemas matemáticos. En el conjunto de datos MATH USER EVAL, el modelo mejorado mostró un aumento de rendimiento, logrando un aumento del 17,5 % en la precisión en comparación con su versión básica. Además, en comparación con otros modelos líderes, como InternLM2-Chat-20B y DeepSeek-Chat-67B, que observaron mejoras del 5,1% y 1,2% respectivamente, el rendimiento del ChatGLM3-32 B destacó notablemente. Además, las capacidades lingüísticas del modelo experimentaron una mejora paralela, con una mejora del 6,8 % en la precisión de las tareas lingüísticas, lo que confirma la eficacia del canal para equilibrar las fortalezas del procesamiento matemático y del lenguaje.

En resumen, esta investigación presenta el proceso de “Autocrítica”, una herramienta práctica que aumenta significativamente las capacidades de resolución de problemas matemáticos de los LLM mientras mantiene el dominio lingüístico. Al aprovechar los resultados del modelo para obtener retroalimentación a través del modelo Math-Critique e implementar etapas de ajuste fino rechazativo y optimización directa de preferencias, el modelo ChatGLM3-32B demostró mejoras sustanciales en la precisión matemática y el procesamiento del lenguaje. Esta innovación metodológica representa un paso significativo hacia el desarrollo de sistemas de IA más adaptables e inteligentes, lo que apunta a una dirección prometedora para futuras investigaciones y aplicaciones de IA.


Revisar la Papel y Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.