Una línea base sencilla, sin modelo de circuito abierto, para tareas de locomoción mediante aprendizaje por refuerzo sin utilizar modelos complejos ni recursos computacionales

El campo del aprendizaje por refuerzo profundo (DRL) está ampliando las capacidades del control robótico. Sin embargo, ha habido una tendencia creciente a aumentar la complejidad de los algoritmos. Como resultado, los algoritmos más recientes necesitan muchos detalles de implementación para funcionar bien en diferentes niveles, lo que causa problemas de reproducibilidad. Además, incluso los modelos DRL de última generación tienen problemas simples, como el entorno Mountain Car o la tarea Swimmer. Sin embargo, varios trabajos han ido en contra de encontrar líneas de base más simples y alternativas escalables para las tareas de RL, por lo que estos esfuerzos enfatizaron la necesidad de simplicidad en el campo. Los algoritmos de RL complejos a menudo requieren un diseño de tareas detallado en forma de ingeniería de recompensa lenta.

Para abordar estas cuestiones, este artículo analiza trabajos relacionados, como la búsqueda de líneas base de aprendizaje automático más simples y políticas periódicas para la locomoción. En el primer enfoque, se proponen parametrizaciones más simples, como funciones lineales o funciones de base radial (RBF), lo que resalta la fragilidad del aprendizaje automático. El segundo enfoque implica políticas periódicas para la locomoción, integrando movimientos rítmicos en el control robótico. El trabajo reciente se ha centrado en el uso de osciladores para gestionar tareas de locomoción en robots cuadrúpedos. Sin embargo, ningún estudio previo ha examinado la aplicación de osciladores de bucle abierto en puntos de referencia de locomoción de aprendizaje automático.

Investigadores del Centro Aeroespacial Alemán (DLR) RMC en Alemania, la Universidad de la Sorbona CNRS en Francia y el Centro de Reconstrucción de la Universidad Tecnológica de Delft en los Países Bajos han propuesto una línea base simple, sin modelo de bucle abierto, que funciona mejor en tareas de locomoción estándar sin el uso de modelos complejos o una gran cantidad de recursos computacionales. Aunque no supera a los algoritmos de RL en simulación, ofrece múltiples beneficios para aplicaciones del mundo real. Estos beneficios incluyen computación rápida, fácil implementación en sistemas integrados, salidas de control fluidas y robustez al ruido del sensor. Este método está diseñado para resolver tareas de locomoción, pero no se limita a la versatilidad debido a su simplicidad.

Se utilizan implementaciones JAX de Stable-Baselines3 y el marco de entrenamiento RL Zoo para las líneas base RL. El espacio de búsqueda se utiliza para optimizar los parámetros de los osciladores. La efectividad del método propuesto se prueba en las tareas de locomoción MuJoCo v4 incluidas en la biblioteca Gymnasium v0.29.1. El enfoque se compara con tres algoritmos RL profundos establecidos: (a) Optimización de políticas proximales (PPO), (b) Gradientes de políticas deterministas profundos (DDPG) y (c) Actor-Crítico suave (SAC). Además, las configuraciones de hiperparámetros se obtienen de los artículos originales para garantizar una comparación justa, excepto para la tarea del nadador, donde el factor de descuento (γ = 0,9999) está ajustado con precisión.

La línea base propuesta y los experimentos asociados resaltan las limitaciones existentes del DRL para aplicaciones robóticas, brindan información sobre cómo abordarlas y alientan la reflexión sobre los costos de la complejidad y la generalidad. Los algoritmos DRL se comparan con la línea base a través de experimentos en tareas de locomoción, incluidas tareas simuladas, y se transfieren a un cuadrúpedo elástico real. Este artículo tiene como objetivo abordar tres preguntas clave:

¿Cómo se comportan los osciladores de bucle abierto frente a los métodos DRL en términos de rendimiento, tiempo de ejecución y eficiencia de parámetros?
¿Qué tan resilientes son las políticas de RL al ruido de los sensores, las fallas y las perturbaciones externas en comparación con la línea base de circuito abierto?
¿Cómo se transfieren las políticas aprendidas a un robot real cuando se entrena sin aleatorización ni ingeniería de recompensas?

En conclusión, los investigadores introdujeron una línea base de bucle abierto sin modelo que funciona bien en tareas de locomoción estándar sin necesidad de modelos complejos o recursos computacionales. En este artículo, se incluyen dos experimentos más, que se llevaron a cabo utilizando osciladores de bucle abierto para detectar el inconveniente actual de los algoritmos DRL. DRL, cuando se compara con la línea base, muestra que es más propenso a un bajo rendimiento cuando se enfrenta al ruido o falla del sensor. Sin embargo, por diseño, el control de bucle abierto es sensible a las perturbaciones y no puede recuperarse de posibles caídas, lo que limita esta línea base. Este método produce posiciones de las articulaciones sin utilizar el estado del robot. Por lo tanto, se necesita un controlador PD en la simulación para transformar estas posiciones en comandos de par.

Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios

Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

🐝 Únase al boletín de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Una línea base sencilla, sin modelo de circuito abierto, para tareas de locomoción mediante aprendizaje por refuerzo sin utilizar modelos complejos ni recursos computacionales

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Tutorial de NVIDIA Garak: cree un flujo de trabajo de equipo rojo LLM defensivo completo con sondas y detectores personalizados

Las 21 mejores herramientas de inteligencia artificial con y sin código en 2026

Conozca Harness-1: un subagente de recuperación 20B capacitado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado en gpt-oss-20b

You missed

Una nueva ecuación podría convertir troncos torcidos y bifurcados en columnas de construcción

¿Es Japón un paraíso libertario? No exactamente.

El Ayuntamiento de Marbella inicia el desmantelamiento de seis torres de alta tensión en Nueva Andalucía « Euro Weekly News

Exclusiva: Madhuri Dixit sobre la única condición que tiene para reunirse con Anil Kapoor