Modelos de idiomas grandes (LLM) se desarrollan específicamente para las matemáticas, la programación y los agentes autónomos generales y requieren una mejora en el razonamiento en el tiempo de prueba. Varios enfoques incluyen producir pasos de razonamiento en respuesta a algún aviso o utilizar modelos de muestreo y entrenamiento para generar el mismo paso. El aprendizaje de refuerzo es más probable que se proponga una autoexploración y la capacidad de aprender de la retroalimentación; Sin embargo, su impacto en el razonamiento complejo se ha mantenido limitado. Escalada LLMS El tiempo de prueba sigue siendo un problema porque los mayores esfuerzos computacionales no necesariamente se traducen en mejores modelos. El razonamiento profundo y las respuestas más largas pueden mejorar el rendimiento, pero ha sido un desafío lograr esto de manera efectiva.
Métodos actuales para mejorar el razonamiento del modelo de lenguaje centrarse en el aprendizaje de imitación, donde los modelos replican los pasos de razonamiento generados utilizando indicaciones o muestreo de rechazo. El pretrete en los datos relacionados con el razonamiento y el ajuste fino con el aprendizaje de refuerzo ayudan a mejorar la comprensión, pero no escala bien para un razonamiento complejo. Las técnicas posteriores al entrenamiento, como generar pares de respuesta-respuesta, y agregar verificadores mejoran la precisión, pero dependen en gran medida de la supervisión externa. La escala de los modelos de lenguaje a través de más datos y modelos más grandes mejora el rendimiento, pero la escala basada en el aprendizaje de refuerzo y la inferencia de tiempo de prueba siguen siendo ineficaces. El muestreo repetido aumenta los costos computacionales sin mejorar la capacidad de razonamiento, lo que hace que las técnicas actuales sean ineficientes para un razonamiento más profundo y respuestas de forma larga.
Para abordar estos problemas, Investigadores de la Universidad de Tsinghua y Zhipu ai propuso el T1 método. Mejora el aprendizaje de refuerzo al expandir el alcance de la exploración y mejorar la escala de inferencia. T1 Comienza con la capacitación del modelo de lenguaje basado en datos de cadena de pensamiento con prueba y error y autoverificación. Esto normalmente se niega durante la fase de entrenamiento por los métodos existentes. Por lo tanto, el modelo encuentra las respuestas correctas y comprende los pasos tomados para llegar a ellas. A diferencia de los enfoques anteriores centrados en obtener las soluciones correctas, T1 fomenta diversas rutas de razonamiento al producir múltiples respuestas a cada aviso y analizar errores antes del aprendizaje de refuerzo. Este marco mejora la capacitación de RL de dos maneras: primero, a través del sobremuestreo, que aumenta la diversidad de respuesta, y segundo, al regular la estabilidad del entrenamiento a través de una pérdida auxiliar basada en la entropía. En lugar de mantener un modelo de referencia fijo, T1 actualiza dinámicamente el modelo de referencia utilizando promedios móviles exponenciales para que el entrenamiento no pueda volverse rígido. T1 castiga las respuestas redundantes, demasiado largas o de baja calidad con una recompensa negativa, manteniendo el modelo en el camino hacia un razonamiento significativo.
Los investigadores construyeron T1 utilizando modelos abiertos como GLM-4-9B y QWEN2.5-14B/32Bcentrándose en el razonamiento matemático a través del aprendizaje de refuerzo (RL). Derivaron datos de entrenamiento de Math-Train y Numinamath, curando 30,000 instancias extrayendo respuestas y filtrando datos ruidosos. El ajuste de fino supervisado (SFT) Se usó la programación de descomposición de coseno, y la capacitación de RL incluyó descenso de gradiente de políticas con recompensas basadas en la corrección. Tras la evaluación, T1 superó a sus modelos de referencia en puntos de referencia de matemáticas, con Qwen2.5-32b mostrando un 10-20% mejora sobre el Sft versión. Aumento del número de respuestas muestreadas (k) mejoradas y generalización mejoradas, especialmente para GPQA. Una temperatura de muestreo 1.2 El entrenamiento estabilizado, mientras que los valores excesivamente altos o bajos condujeron a problemas de rendimiento. Se aplicaron sanciones durante el entrenamiento RL para controlar la longitud de la respuesta y mejorar la consistencia. Los resultados demostraron ganancias de rendimiento significativas con escala de inferencia, donde más recursos computacionales condujeron a mejores resultados.
En conclusión, el método propuesto T1 Modelos de idiomas grandes mejorados a través del aprendizaje de refuerzo escalado con exploración y estabilidad. Las sanciones y el sobremuestreo podrían suavizar la influencia de las muestras de cuello de botella. Mostró un fuerte rendimiento y un comportamiento de escala prometedor. El enfoque para medir la escala de inferencia mostró que el entrenamiento de RL más mejoró la precisión del razonamiento y las tendencias de escala. T1 supera los modelos de vanguardia en puntos de referencia desafiantes, superando las debilidades en los enfoques de razonamiento actuales. Este trabajo puede ser un punto de partida para una mayor investigación, ofreciendo un marco para avanzar en las capacidades de razonamiento y escalar modelos de idiomas grandes.
Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.
🚨 Conocer Intellagent: Un marco de múltiples agentes de código abierto para evaluar un sistema de IA conversacional complejo (Promocionado)
Divyesh es un pasante de consultoría en MarktechPost. Está buscando un BTech en ingeniería agrícola y alimentaria del Instituto Indio de Tecnología, Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el dominio agrícola y resolver desafíos.