Optimización de la prueba de tiempo de prueba para LLM: un enfoque de aprendizaje de meta-refuerzo con minimización de arrepentimiento acumulativo

Mejorar las habilidades de razonamiento de los LLM mediante la optimización del cálculo de tiempo de prueba es un desafío de investigación crítico. Los enfoques actuales se basan principalmente en modelos de ajuste fino con trazas de búsqueda o RL utilizando recompensas de resultados binarios. Sin embargo, estos métodos pueden no explotar completamente el tiempo de prueba de prueba de manera eficiente. Investigaciones recientes sugieren que aumentar la computación en el tiempo de prueba puede mejorar el razonamiento al generar trazas de solución más largas e incorporar pasos estructurados como la reflexión, la planificación y la búsqueda algorítmica. Los desafíos clave siguen siendo si los LLM asignan recursos computacionales de manera efectiva en función de la complejidad de las tareas y descubren soluciones a problemas más difíciles cuando se les da un presupuesto de cómputo de tiempo de prueba más amplio. Abordar esto es crucial para mejorar la eficiencia y la generalización en el razonamiento de LLM.

Los avances recientes en la escala de la prueba de tiempo de prueba han explorado la capacitación de verificadores separados para métodos basados en selección como Best-of-N o Beam Search, que a veces puede ser más efectivo que aumentar los datos o el tamaño del modelo. Sin embargo, el ajuste fino en trazas de búsqueda desconocidas puede conducir a una memorización en lugar de mejoras de razonamiento genuinas. Los enfoques basados en RL han demostrado prometer para generar un razonamiento de la cadena de pensamiento, lo que permite que los modelos introspecten, planifiquen y refinen sus resultados. Sin embargo, aumentar la longitud del razonamiento no siempre se correlaciona con una mayor precisión, ya que los modelos pueden generar secuencias innecesariamente largas sin un progreso significativo. Para abordar esto, los esfuerzos recientes han incorporado mecanismos de recompensa estructurados y sanciones de longitud para fomentar un razonamiento eficiente, asegurando que los modelos se centren en producir soluciones informativas y concisas en lugar de un cálculo excesivo.

Investigadores de la Universidad de Carnegie Mellon & Hugging Face investigan optimización de la prueba de tiempo para los LLM refinando cómo los modelos asignan recursos computacionales durante el razonamiento. En lugar de confiar únicamente en RL de recompensa de resultados, introducen un enfoque ajustado que equilibra la exploración y explotación, asegurando un progreso constante hacia las respuestas correctas. Su método incorpora un bono de recompensa denso para cuantificar el progreso, mejorando la eficiencia. Las evaluaciones sobre puntos de referencia matemáticos demuestran que este enfoque supera significativamente los métodos existentes, lo que mejora la precisión y la eficiencia del token. Sus hallazgos también sugieren que la optimización para el progreso minimiza el arrepentimiento computacional al tiempo que mejora el descubrimiento de soluciones sin sacrificar la precisión.

El problema de optimizar el cálculo de tiempo de prueba se enmarca como un desafío de aprendizaje de meta refuerzo (meta rl). El objetivo es maximizar el rendimiento de una LLM dentro de un presupuesto de token de tiempo de prueba dado al equilibrar la exploración y la explotación. En lugar de optimizar únicamente para los resultados, el enfoque de ajuste fino (MRT) de meta refuerzo propuesto minimiza el arrepentimiento acumulativo al recompensar el progreso entre episodios secuenciales. Esta estrategia agnóstica presupuestaria permite que los LLM avanzaran constantemente independientemente de las limitaciones de capacitación. Al incorporar un bono de recompensa basado en mejoras incrementales, MRT garantiza un uso eficiente de tiempo de cálculo de tiempo de prueba, mejorando la adaptabilidad y la precisión de la respuesta dentro de las limitaciones de implementación.

El estudio evalúa la efectividad de MRT en la optimización del cálculo del tiempo de prueba, con un enfoque en lograr una alta precisión mientras se mantiene la eficiencia computacional. El estudio presenta hallazgos clave, compara la eficiencia de MRT con métodos anteriores y realiza experimentos de ablación sobre el presupuesto y el progreso del token. MRT supera constantemente los modelos de referencia y el RL (GRPO) de resultados de resultados, logrando resultados de última generación en su categoría de tamaño. También mejora la robustez fuera de distribución y ofrece mayores ganancias de rendimiento con modelos más débiles. Además, MRT mejora significativamente la eficiencia del token, lo que requiere menos tokens para una precisión comparable. Experimentos adicionales destacan su efectividad en la búsqueda retrocedida y las evaluaciones linealizadas.

En conclusión, el estudio se refiere a la optimización del cálculo del tiempo de prueba como un problema de aprendizaje de meta-refuerzo (RL), introduciendo el arrepentimiento acumulativo como una métrica clave. Los modelos RL de recompensa de resultados de última generación no pueden minimizar el arrepentimiento, a menudo luchando con nuevas consultas dentro de un presupuesto de token. Esta limitación surge del entrenamiento únicamente con las recompensas de resultados, que carecen de la granularidad para guiar el progreso paso a paso. Para abordar esto, se propone MRT, incorporando un bono de recompensa denso que fomenta la mejora incremental. MRT mejora la eficiencia del tiempo de cálculo, logrando 2-3x mejor rendimiento y 1.5x mayor eficiencia de tokens en el razonamiento matemático en comparación con el resultado de la RL, aunque quedan varias preguntas abiertas.

Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Parlant: construir agentes de AI de IA confiables con LLM 💬 ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅

Optimización de la prueba de tiempo de prueba para LLM: un enfoque de aprendizaje de meta-refuerzo con minimización de arrepentimiento acumulativo

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

El cambio de dominio: trasladar la gobernanza de datos de la selección de productos a la inversión en infraestructura

Cree sistemas de IA generativa de alto rendimiento con Strands Agents, NVIDIA NIM y Amazon Bedrock AgentCore

Diseñe una tubería de recuperación y reclasificación de alta precisión con ZeroEntropy Zerank-2 Reranker

You missed

Las tormentas espaciales podrían alterar las señales de los trenes y provocar accidentes graves

ZAPATERO| La fiscal superior de Madrid abre expediente contra los dos fiscales mencionados por los investigados de la trama Zapatero.

La red de comunicaciones lunares de Goonhilly se expande

España vigila varios buques de la armada rusa a su paso por el sur de Mallorca