Perla de código abierto de Meta AI Researchers: una biblioteca de agentes de IA de aprendizaje por refuerzo lista para producción

El aprendizaje por refuerzo (RL) es un subcampo del aprendizaje automático en el que un agente toma las acciones adecuadas para maximizar sus recompensas. En el aprendizaje por refuerzo, el modelo aprende de sus experiencias e identifica las acciones óptimas que conducen a las mejores recompensas. En los últimos años, la RL ha mejorado significativamente y hoy encuentra sus aplicaciones en una amplia gama de campos, desde los coches autónomos hasta la robótica e incluso los videojuegos. También ha habido avances importantes en el desarrollo de bibliotecas que facilitan el desarrollo de sistemas RL. Ejemplos de tales bibliotecas incluyen RLLib, Stable-Baselines 3, etc.

Para que un agente de RL tenga éxito, hay ciertas cuestiones que deben abordarse, como abordar las recompensas retrasadas y las consecuencias posteriores, encontrar un equilibrio entre explotación y exploración y considerar parámetros adicionales (como consideraciones de seguridad o requisitos de riesgo) para evitar situaciones catastróficas. Las bibliotecas RL actuales, aunque son bastante poderosas, no abordan estos problemas adecuadamente y, por lo tanto, los investigadores de Meta han lanzado una biblioteca llamada Perla que considera los problemas mencionados anteriormente y permite a los usuarios desarrollar agentes RL versátiles para sus aplicaciones del mundo real.

Pearl se desarrolló sobre PyTorch, lo que lo hace compatible con GPU y entrenamiento distribuido. La biblioteca también proporciona diferentes funcionalidades para pruebas y evaluación. El principal algoritmo de aprendizaje de políticas de Pearl se llama PearlAgent, que tiene características como exploración inteligente, sensibilidad al riesgo, restricciones de seguridad, etc., y tiene componentes como aprendizaje en línea y fuera de línea, aprendizaje seguro, resumen histórico y buffers de reproducción.

Un agente de RL eficaz debe poder utilizar un algoritmo de aprendizaje fuera de línea para aprender y evaluar una política. Además, para la capacitación en línea y fuera de línea, el agente debe tener algunas medidas de seguridad para la recopilación de datos y el aprendizaje de políticas. Además de eso, el agente también debe tener la capacidad de aprender representaciones estatales utilizando diferentes modelos y resumir historias en representaciones estatales para filtrar acciones indeseables. Por último, el agente también debería poder reutilizar los datos de manera eficiente utilizando un búfer de reproducción para mejorar la eficiencia del aprendizaje. Los investigadores de Meta han incorporado todas las características mencionadas anteriormente en el diseño de Pearl (más específicamente, PearlAgent), convirtiéndola en una biblioteca versátil y eficaz para el diseño de agentes RL.

Los investigadores compararon Pearl con bibliotecas RL existentes y evaluaron factores como modularidad, exploración inteligente y seguridad, entre otros. Pearl implementó con éxito todas estas capacidades, distinguiéndose de los competidores que no lograron incorporar todas las características necesarias. Por ejemplo, RLLib admite RL sin conexión, resumen de historial y búfer de reproducción, pero no modularidad ni exploración inteligente. De manera similar, SB3 no logra incorporar modularidad, toma de decisiones segura y bandido contextual. Aquí es donde Pearl se destacó del resto, ya que tenía todas las características consideradas por los investigadores.

Pearl también está en progreso para admitir varias aplicaciones del mundo real, incluidos sistemas de recomendación, sistemas de subasta y selección creativa, lo que la convierte en una herramienta prometedora para resolver problemas complejos en diferentes dominios. Aunque RL ha logrado avances significativos en los últimos años, su implementación para resolver problemas del mundo real sigue siendo una tarea desalentadora, y Pearl ha demostrado sus capacidades para cerrar esta brecha ofreciendo soluciones integrales y de grado de producción. Con su conjunto único de características como exploración inteligente, seguridad y resumen histórico, tiene el potencial de servir como un activo valioso para una integración más amplia de RL en aplicaciones del mundo real.


Revisar la Papel, GitHuby Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Soy graduado en ingeniería civil (2022) de Jamia Millia Islamia, Nueva Delhi, y tengo un gran interés en la ciencia de datos, especialmente las redes neuronales y su aplicación en diversas áreas.