El desarrollo de agentes de IA capaces de tomar decisiones independientes, especialmente para tareas de varios pasos, es un desafío importante. Espesca profundaun líder en el avance de los grandes modelos de idiomas y el aprendizaje de refuerzo, se centra en permitir que la IA procese información, predice los resultados y ajuste las acciones a medida que evolucionan las situaciones. Subraya la importancia del razonamiento adecuado en la configuración dinámica. El nuevo desarrollo de Deepseekai captura métodos de vanguardia en el aprendizaje de refuerzo, modelos de idiomas grandes y la toma de decisiones basadas en agentes para garantizar que se mantenga al tanto de la investigación y las aplicaciones actuales de IA. Se ocupa de muchos problemas comunes, como inconsistencias de toma de decisiones, problemas de planificación a largo plazo y la incapacidad de adaptarse a las condiciones cambiantes. Sin embargo, la IA puede tomar acciones subóptimas o incluso cometer errores sin un mecanismo de razonamiento adecuado.
Muchas metodologías de capacitación de IA sufren problemas de procesamiento inconsistente, lo que, a su vez, conduce a errores en tareas que requieren múltiples rondas de toma de decisiones. Estos enfoques no describen un entorno que, a través de la acción de la IA, proporciona una comprensión completa de las consecuencias, debido a la cual los resultados no están analizados y oscuros. Además, la capacitación se implementa en un procedimiento paso a paso por el cual hay descansos en secuencias de aprendizaje, y las funciones de recompensa se vuelven inestables, lo que resulta en la falta de un desarrollo político a largo plazo adecuado. Por lo tanto, los sistemas de decisión y resolución de problemas se vuelven ineficientes e ineficaces. Deepseekai resuelve este dilema al proporcionar una capacitación más integrada y bien transmitida, ayudando a la IA a tomar decisiones buenas, consistentes y confiables mientras se adapta rápidamente a nuevos entornos.
Encontrarse Ragenla primera reproducción de Deepseek-r1 (-cero) Métodos para capacitar modelos de agente, para abordar los desafíos en la capacitación de agentes de IA para razonamiento de varios pasos y tareas del mundo real. Deepseekai, conocido por sus avances en modelos de idiomas grandes y aprendizaje de refuerzo, desarrollado Deepseek-r1 Para mejorar el razonamiento de agente a través del entrenamiento estructurado. A diferencia de otros métodos que luchan con el procesamiento de lotes inconsistente, la planificación limitada y las recompensas inestables, Ragen El entrenamiento de línea de agenda utilizando un enfoque de dos fases: una fase de despliegue donde los estados ambientales y los tokens de razonamiento generados por el modelo se procesan juntos y una fase de actualización en la que solo los tokens críticos (acciones y recompensas) controman al aprendizaje, garantizando despliegues de lotes estables y mejorando la toma de decisiones . El marco evita eficientemente la inestabilidad de las longitudes de secuencia variable mediante la generación de tokens de razonamiento y acción durante el despliegue, ejecutando solo acciones en el entorno y reforzando la planificación estratégica a través de la agregación de recompensas en la fase de actualización. Probado en el entorno de rompecabezas de Sokoban, Ragen Mostró que los modelos más pequeños funcionan de manera comparable a los más grandes y que los modelos sin instrucciones explícitas se adaptan bien. Ragen Mejora la toma de decisiones secuenciales al reproducir la metodología de capacitación de Deepseek-R1, por lo que es valioso para aplicaciones como la automatización de logística y los asistentes de IA.
Al final, Ragen Mejora la capacitación de los agentes de IA eliminando la toma de decisiones inconsistentes, las recompensas inestables y las limitaciones de planificación. Al imitar el enfoque de Deepseek-R1, garantiza un aprendizaje estable y una mejor adaptabilidad. Probado en el rompecabezas de Sokoban, mostró que los modelos más pequeños funcionan bien como un indicador de eficiencia. Como línea de base para futuras investigaciones, Ragen puede ayudar a refinar los métodos de capacitación de IA, mejorar el aprendizaje de refuerzo y apoyar los avances en los sistemas de IA de uso general.
Verificar el Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.
🚨 Conocer Intellagent: Un marco de múltiples agentes de código abierto para evaluar un sistema de IA conversacional complejo (Promocionado)
Divyesh es un pasante de consultoría en MarktechPost. Está persiguiendo un BTech en ingeniería agrícola y alimentaria del Instituto Indio de Tecnología, Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el dominio agrícola y resolver desafíos.