Los LLM han obtenido ganancias impresionantes en un razonamiento complejo, principalmente a través de innovaciones en arquitectura, escala y enfoques de capacitación como RL. RL mejora las LLM mediante el uso de señales de recompensa para guiar el modelo hacia estrategias de razonamiento más efectivas, lo que resulta en procesos de pensamiento más largos y más coherentes que se adaptan dinámicamente a la complejidad de una tarea. A pesar de esto, la mayoría de los LLM mejorados con RL dependen en gran medida del conocimiento interno estático y el razonamiento de solo texto, haciéndolos mal adecuados para tareas que requieren información en tiempo real, experiencia específica del dominio o cálculos precisos. Esta limitación es especialmente evidente en problemas intensivos en conocimiento o abiertos en los que la incapacidad de acceder e interactuar con herramientas externas conduce a inexactitudes o alucinaciones.
Para superar estas restricciones, el trabajo reciente ha explorado el razonamiento de agente, donde los LLM se involucran dinámicamente con herramientas y entornos externos durante el proceso de razonamiento. Estas herramientas incluyen plataformas de búsqueda web, API y ejecución de código, mientras que los entornos van desde navegadores simulados hasta sistemas operativos. El razonamiento de agente permite que los modelos planifiquen, adapten y resuelvan tareas de manera interactiva, más allá de la inferencia estática. Sin embargo, los métodos actuales para la integración de herramientas a menudo dependen de indicaciones de diseño manual o ajuste fino supervisado, lo que obstaculiza la escalabilidad y la generalización. Las técnicas de aprendizaje de refuerzo emergente como la optimización de políticas relativas del grupo (GRPO) proporcionan una capacitación más eficiente y adaptativa para el uso de herramientas sin supervisión a nivel de paso. Sin embargo, la intersección de RL, el uso de la herramienta y la toma de decisiones de agente permanecen subexploradas, particularmente en tareas del mundo real que exigen razonamiento múltiple, planificación dinámica e interacción externa robusta.
Microsoft Research presenta el artista (razonamiento de agente e integración de herramientas en transformadores de administración automática), un marco que combina razonamiento de agente, aprendizaje de refuerzo y uso dinámico de herramientas para mejorar las LLM. Artista permite que los modelos decidan de forma autónoma cuándo, cómo y qué herramientas usar durante el razonamiento de varios pasos, aprendiendo estrategias sólidas sin supervisión a nivel de paso. El modelo mejora el razonamiento y la interacción con entornos externos a través de consultas y salidas de herramientas integradas. Evaluado en matemáticas desafiantes y puntos de referencia de llamadas de funciones, el artista supera a los mejores modelos como GPT-4O, alcanzando hasta el 22% de ganancias. Demuestra comportamientos de agente emergentes, estableciendo un nuevo estándar en resolución de problemas generalizable e interpretable.
El artista es un marco flexible que permite a LLM interactuar con herramientas y entornos externos utilizando el aprendizaje de refuerzo. Alterna entre el razonamiento y el uso de la herramienta, lo que permite que el modelo elija cuándo y cómo invocar herramientas como intérpretes de código o API. La capacitación utiliza GRPO, que evita las funciones de valor y utiliza recompensas grupales basadas en resultados. Las estructuras de los artistas implementan el razonamiento, consultas de herramientas, salidas de herramientas y respuestas finales, con un sistema de recompensas compuestas que fomenta la corrección, el formato adecuado y el uso exitoso de herramientas, que permite la resolución adaptativa de problemas de varios pasos.
El artista supera a varias líneas de base, incluidas las LLM de GPT-4O y de herramientas, en complejos puntos de referencia matemáticos como AMC, AIME y Olympiad. Logra una precisión más alta de PASS \@1, con ganancias notables de hasta el 22% sobre modelos base y más del 35% en comparación con otros métodos integrados en la herramienta. La ventaja del artista proviene de su aprendizaje de refuerzo de agente, lo que le permite usar herramientas externas y refinar las soluciones de varios pasos estratégicamente. En comparación con el uso de la herramienta basado en el aviso, muestra una invocación de herramientas superior, calidad de respuesta y profundidad de razonamiento. Si bien sus beneficios son más evidentes en tareas complejas, el artista mejora significativamente los conjuntos de datos más simples como Math-500 a través del uso selectivo de la herramienta.
En conclusión, el artista es un marco que combina razonamiento de agente, aprendizaje de refuerzo y uso de herramientas dinámicas para mejorar las capacidades de los LLM. A diferencia de los enfoques tradicionales basados en la solicitud, el artista permite que los modelos planifiquen, se adapten, adapten y resuelvan tareas complejas interactuando con herramientas y entornos externos. Aprende estrategias efectivas de uso de herramientas sin supervisión paso a paso, mejorando la precisión y el razonamiento más profundo. Las evaluaciones sobre puntos de referencia matemáticos y de llamada de funciones muestran ganancias de rendimiento significativas. El artista también produce más caminos de razonamiento interpretables y comportamientos robustos. Este trabajo destaca el potencial de RL de agente como una dirección prometedora para crear sistemas de IA más adaptativos y capaces.
Mira el Papel. Además, no olvides seguirnos Gorjeo.
Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.