Este artículo sobre IA de Qualcomm AI Research presenta EDGI: un innovador difusor equivalente para el aprendizaje por refuerzo avanzado basado en modelos y la planificación eficiente

Hay simetrías en todas partes. Los principios universales de la física son válidos tanto en el espacio como en el tiempo. Exhiben simetría cuando las coordenadas espaciales se traducen, rotan y desplazan en el tiempo. Además, el sistema es simétrico en cuanto a una permutación de las etiquetas si varios elementos similares o equivalentes están etiquetados con números. Los agentes encarnados encuentran esta estructura, y muchas actividades robóticas cotidianas muestran simetrías temporales, espaciales o de permutación. Los andares de un cuadrúpedo son independientes de su dirección de movimiento; De manera similar, una pinza robótica podría engancharse con varios elementos idénticos sin tener en cuenta sus etiquetas. Sin embargo, la mayoría de los algoritmos de planificación y aprendizaje por refuerzo (RL) deben tener en cuenta esta rica estructura.

Si bien han mostrado resultados impresionantes en temas bien definidos después de recibir suficiente capacitación, con frecuencia exhiben ineficiencia en el muestreo y falta de resiliencia a los cambios ambientales. El equipo de estudio considera que es fundamental crear algoritmos RL que comprendan sus simetrías para aumentar la eficiencia y la resiliencia de sus muestras. Estos algoritmos deben cumplir dos requisitos importantes. Inicialmente, el mundo y los modelos de políticas deben ser equivariantes con respecto al grupo de simetría pertinente. A menudo se trata de un subgrupo de cambios de tiempo discretos Z, el grupo de productos del grupo de simetría espacial SE(3) y uno o más grupos de permutación de objetos Sn para agentes incorporados. En segundo lugar, para resolver problemas reales, debería ser factible romper suavemente (partes de) el grupo de simetría. Mover un objeto a una ubicación específica en el espacio que rompa el grupo de simetría SE(3) puede ser el objetivo de una pinza robótica. Los primeros esfuerzos sobre RL equivariante han revelado las ventajas potenciales de esta técnica. Sin embargo, estos trabajos a menudo sólo consideran pequeños grupos de simetría finitos, como Cn, y normalmente no permiten una ruptura suave de la simetría dependiendo del trabajo en cuestión durante las pruebas.

En este estudio, el equipo de investigación de Qualcomm presenta un método equivariante para la planificación y el aprendizaje por refuerzo basado en modelos llamado Difusor Equivariante para Generar Interacciones (EDGI). El elemento fundamental de EDGI es equivalente a todo el grupo de productos SE(3) × Z × Sn, y se adapta a las numerosas representaciones de este grupo que el equipo de investigación prevé encontrar en contextos incorporados. Además, dependiendo del trabajo, EDGI permite una ruptura suave y flexible de la simetría en el momento de la prueba. Su metodología se basa en el método Difusor propuesto previamente por investigadores, que abordan el desafío del modelado generativo tanto en el aprendizaje de un modelo dinámico como en la planificación dentro de él. El concepto principal de Difusor es entrenar un modelo de difusión en un conjunto de datos fuera de línea de trayectorias de acción estatal. Utilizando la guía del clasificador para optimizar la recompensa, una muestra de este modelo está condicionada al estado actual para planificar. Su principal contribución es un nuevo modelo de difusión que permite datos de representación múltiple y equivariantes sobre el grupo de productos SE(3) × Z × Sn de simetrías espaciales, temporales y de permutación.

El equipo de investigación presenta innovadoras capas temporales, de objetos y de permutación que actúan sobre simetrías individuales y un método novedoso para incorporar numerosas representaciones de entrada en una única representación interna. Su método, cuando se combina con la guía y el acondicionamiento del clasificador, permite una ruptura suave del grupo de simetría a través de los requisitos de la tarea en el momento de la prueba cuando se incluye en un algoritmo de planificación. El equipo de estudio utiliza el manejo robótico de elementos y configuraciones de navegación 3D para mostrar EDGI de manera objetiva. Utilizando un orden de magnitud menos de datos de entrenamiento, el equipo de estudio descubre que EDGI aumenta significativamente el rendimiento en el dominio de datos bajos, igualando el rendimiento de la mejor línea de base no equivalente. Además, EDGI se generaliza eficazmente a configuraciones no descubiertas previamente y es notablemente más resistente a los cambios de simetría en el entorno.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.