Sistemas de razonamiento como o1 de Abierto AI se introdujeron recientemente para resolver tareas complejas utilizando procesos de pensamiento lento. Sin embargo, está claro que los grandes modelos de lenguaje tienen limitaciones, ya que no pueden planificar, desglosar problemas, mejorar ideas, resumir o repensar debido a su formación y métodos. Si bien estas herramientas intentan mejorar el razonamiento, dependen de una guía estructurada y de un tiempo de procesamiento adicional, lo que genera dudas sobre su capacidad para manejar tareas complejas sin ayuda humana regular.
Los métodos actuales en los sistemas de razonamiento se basan principalmente en enfoques de pensamiento rápido, proporcionando así respuestas rápidas pero con menos profundidad y precisión. La industria ha desarrollado y mantenido principalmente estos sistemas, pero sus técnicas principales no se divulgan públicamente. Generalmente fallan en el pensamiento extendido, lo que limita considerablemente su capacidad para resolver problemas complejos. En algunos sistemas se utilizaron métodos como la búsqueda de árboles y los modelos de recompensa, pero no fueron muy efectivos para generalizar entre dominios o eran demasiado lentos para su uso en el mundo real. Los nuevos sistemas utilizaron escala de tiempo de prueba para dar más tiempo para procesar y generar pasos de razonamiento detallados llamados pensamientos para encontrar soluciones. El ajuste de grandes modelos de lenguaje con largas cadenas de pensamiento también ha mejorado el rendimiento en tareas complejas.
Para solucionar esto, investigadores del Escuela Gaoling de Inteligencia Artificial, Universidad Renmin de China, y BAAI propuso una solución que implica marco trifásico llamado “imitar, explorar y mejorar”para mejorar el razonamiento en modelos de lenguaje. Los investigadores presentaron un método de entrenamiento de tres fases:imitación, exploración, y superación personalt—para desarrollar modelos de razonamiento similares a El sistema o1 de OpenAI.
El modelo fue entrenado para seguir formatos específicos en la fase de imitación, utilizando datos mínimos para generar razonamientos y soluciones. Durante la fase de exploración, el modelo se centró en problemas difíciles, desarrollando múltiples soluciones y mejorándolas en función de las respuestas correctas, especialmente para tareas que requieren un pensamiento lento. En la fase de superación personal, datos y técnicas de alta calidad como ajuste supervisado (SFT) y optimización de preferencias directas (DPO) se utilizaron para mejorar las habilidades de razonamiento del modelo. Métricas como la extensión y la perplejidad ayudaron a filtrar datos de baja calidad. Sin embargo, no había suficientes problemas desafiantes y no se utilizó el aprendizaje por refuerzo debido a la limitación de recursos. El enfoque se centró en mejorar las capacidades de razonamiento del modelo mediante un refinamiento continuo.
Los investigadores evaluaron el marco utilizando tres puntos de referencia desafiantes: MATEMÁTICAS-OAI, AIME2024, y GPQA. MATEMÁTICAS-OAI incluido 500 problemas de matematicas de competencia, OBJETIVO2024 presentado 30 problemas para los estudiantes de secundaria, y GPQA tenía 198 preguntas de opción múltiple en biología, física y química. La atención se centró en las matemáticas, con Qwen2.5-32B-Instruir como modelo principal, en comparación con modelos como o1-avance, Vista previa de DeepSeek-R1-Litey QwQ-32B. Los experimentos utilizaron una búsqueda codiciosa con hasta 32k fichas.
Los resultados mostraron que los sistemas de pensamiento lento como o1-La vista previa tuvo un buen desempeño, particularmente en AIME, mientras que la capacitación basada en destilación y exploración también arrojó resultados competitivos. Modelos con 3.9k instancias de destilación logradas 90,2% precisión en MATEMÁTICAS-OAI y 46,7% en OBJETIVO. Iterativo OFV y la capacitación en exploración mejoraron el desempeño en puntos de referencia como OBJETIVO y MATEMÁTICAS-OAI, con variantes entrenadas en 1.1k casos que muestran ganancias consistentes. Sin embargo, el rendimiento fluctuó debido a la limitada capacidad de exploración, especialmente en AIME, que tenía menos muestras de prueba. El análisis indicó que excluir problemas difíciles reducía el rendimiento, mientras que mezclar datos matemáticos y de otros dominios mejoraba las capacidades de razonamiento. Más DPO El análisis mostró que alinear sólo el proceso de pensamiento con OFV condujo a una optimización estable, aunque se necesitaron más experimentos para refinar las estrategias. Esto mantuvo un buen equilibrio entre estrategias iterativas de capacitación, destilación y exploración para respaldar la mejora en todos los puntos de referencia.
En resumen, los investigadores presentaron un marco de pensamiento lento para mejorar los sistemas de razonamiento, demostrando su eficacia para resolver problemas complejos en todos los dominios. Basado en entrenamiento con datos de pensamiento extensos y de alta calidad, el enfoque permite que los modelos generalicen y manejen tareas difíciles, particularmente en matemáticas. El sistema se beneficia de la superación personal a través de la exploración y procesos de pensamiento flexibles. Sin embargo, la investigación aún se encuentra en sus primeras etapas y sigue existiendo una brecha en el rendimiento en comparación con los sistemas a nivel industrial. En el futuro, este dominio se podrá desarrollar y este marco puede actuar como base para los futuros investigadores.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Divyesh es pasante de consultoría en Marktechpost. Está cursando un BTech en Ingeniería Agrícola y Alimentaria en el Instituto Indio de Tecnología de Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el ámbito agrícola y resolver desafíos.