La creciente complejidad de la curación de datos de razonamiento
Los modelos de razonamiento recientes, como Deepseek-R1 y O3, han mostrado un rendimiento sobresaliente en áreas matemáticas, codificadas y científicas, utilizando técnicas posteriores a la capacitación como ajuste fino supervisado (SFT) y aprendizaje de refuerzo (RL). Sin embargo, las metodologías completas detrás de estos modelos de razonamiento fronterizo no son públicas, lo que dificulta la investigación para construir modelos de razonamiento. Si bien la curación de datos SFT se ha convertido en un enfoque poderoso para desarrollar capacidades de razonamiento sólidos, la mayoría de los esfuerzos existentes exploran solo opciones de diseño limitadas, como confiar únicamente en preguntas escritas por humanos o modelos de maestros individuales. Además, explorar el amplio espacio de diseño de varias técnicas para generar pares de respuesta y respuesta requiere altos costos para la inferencia de maestros y la capacitación de modelos.
Las huellas de razonamiento proporcionadas por modelos como Gemini, QWQ y Deepseek-R1 han permitido técnicas de destilación de conocimiento para entrenar modelos de razonamiento más pequeños. Proyectos como OpenR1, OpenMathRasoning y OpenCoderteroning recopilan preguntas de foros públicos y sitios de competencia, mientras que el razonamiento natural utiliza corpus de pre-entrenamiento como datos de semillas. Algunos esfuerzos, como S1 y Limo, se centran en curar manualmente pequeños conjuntos de datos de alta calidad de indicaciones desafiantes. Otros métodos, como DeepMath-103k y Nvidia Nemotron, introducen innovaciones en las etapas de abastecimiento de datos, filtrado y escala. Los métodos RL, incluidos Aceroason y Skywork-Or1, tienen capacidades de razonamiento mejoradas más allá de los métodos SFT tradicionales.
OpententHougss: un marco escalable para el desarrollo del conjunto de datos SFT
Investigadores de la Universidad de Stanford, la Universidad de Washington, Bespokelabs.ai, el Toyota Research Institute, UC Berkeley y 12 organizaciones adicionales han propuesto optimistas, una nueva receta de datos de razonamiento abierto SOTA. OpentHoughts utiliza un enfoque progresivo en tres iteraciones: OpentHoughts-114k escala la tubería Sky-T1 con verificación automatizada, OpentHoughts2-1m mejora la escala de datos a través de la diversidad de preguntas aumentadas y las estrategias de generación sintética, y las optimistas de OpentHeuss3-1.2m incorporan hallazgos de más de 1,000 experimentos de ablación para desarrollar una tubería simple y de alto rendimiento de los datos. Además, el modelo OpentHinker3-7b logra el rendimiento de vanguardia entre los modelos de datos abiertos a la escala 7b.
El OpentHoughts3-1.2m se construye ablando cada componente de la tubería de forma independiente mientras mantiene condiciones constantes en otras etapas, generando 31,600 puntos de datos por estrategia y ajuste fino. El objetivo durante el entrenamiento es crear el mejor conjunto de datos de pares de respuesta a preguntas para el razonamiento SFT. La evaluación ocurre en ocho puntos de referencia de razonamiento a través de Matemáticas (AIME24, AMC23, Math500), Codificación (CodeElo, CodeForces, LivecodeBench) y Science (GPQA Diamond, Jeebench). El diseño experimental incluye un riguroso proceso de descontaminación para eliminar las muestras de alta similitud y mantiene un conjunto de referencia mantenido para las pruebas de generalización. La evaluación de evaluación sirve como la herramienta de evaluación principal, asegurando protocolos de evaluación consistentes.
Insights de evaluación y rendimiento de referencia
La evaluación de la tubería de OpentHoughts revela ideas clave en el abastecimiento de preguntas, la mezcla, el filtrado, el filtrado de respuestas y el modelo de maestro. Los experimentos de abastecimiento de preguntas muestran que Codegolf y las preguntas de codificación competitiva alcanzan el mayor rendimiento para las tareas de código (25.3-27.5 puntajes promedio), mientras que las preguntas generadas por LLM y escritas por humanos Excel en matemáticas (58.8-58.5 puntajes), y las preguntas de cambio estacas con el cuadro de texto de la química funcionan mejor en la ciencia (43.2-45.3 calificaciones). La pregunta de mezcla muestra que combinar múltiples fuentes de preguntas degrada el rendimiento, con resultados óptimos de mejoras de precisión del 5% sobre diversas estrategias de mezcla. En el modelo de maestro, QWQ-32B supera a Deepseek-R1 en la destilación del conocimiento, logrando una mejora de precisión de 1.9-2.6%.
En conclusión, los investigadores presentan el proyecto OpentHoughs, que demuestra que la experimentación sistemática puede avanzar significativamente en la curación de datos SFT para los modelos de razonamiento. Los investigadores desarrollaron Opentents3-1.2m, un conjunto de datos de razonamiento de datos abiertos de vanguardia en ciencias, matemáticas y dominios de codificación. El modelo OpentHinker3-7b resultante logra un rendimiento superior entre los modelos de razonamiento de datos abiertos a su escala. Sin embargo, varias limitaciones permanecen inexploradas, incluidos los enfoques RL, el ajuste fino y las estrategias de aprendizaje curricular. Las direcciones de investigación futuras incluyen investigar los efectos de transferencia de dominio cruzado al optimizar los dominios individuales versus el rendimiento general y comprender la dinámica de escala a medida que los modelos de estudiantes abordan las capacidades de los maestros.
Mira el Papel, Página del proyecto y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 99k+ ml de subreddit y suscribirse a Nuestro boletín.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
