Aprendizaje de una transmisión cultural sólida en tiempo real sin datos humanos

Investigación

Publicado
Autores

Equipo de Inteligencia General Cultural

A lo largo de milenios, la humanidad ha descubierto, evolucionado y acumulado una gran cantidad de conocimientos culturales, desde rutas de navegación hasta matemáticas y normas sociales y obras de arte. La transmisión cultural, definida como pasar información eficientemente de un individuo a otro, es el proceso de herencia que subyace a este aumento exponencial de las capacidades humanas.

Nuestro agente, de azul, imita y recuerda la demostración tanto de los bots (izquierda) como de los humanos (derecha), de rojo.

Para ver más videos de nuestros agentes en acción, visite nuestro sitio web.

En este trabajo, utilizamos el aprendizaje por refuerzo profundo para generar agentes artificiales capaces de transmitir cultura en el momento de la prueba. Una vez capacitados, nuestros agentes pueden inferir y recordar conocimientos de navegación demostrados por expertos. Esta transferencia de conocimiento ocurre en tiempo real y se generaliza en un vasto espacio de tareas nunca antes vistas. Por ejemplo, nuestros agentes pueden aprender rápidamente nuevos comportamientos al observar una sola demostración humana, sin siquiera capacitarse con datos humanos.

Un resumen de nuestro entorno de aprendizaje por refuerzo. Las tareas son representantes de navegación para una amplia clase de habilidades humanas, que requieren secuencias particulares de decisiones estratégicas, como cocinar, orientarse y resolver problemas.

Entrenamos y probamos a nuestros agentes en mundos 3D generados procedimentalmente, que contienen objetivos esféricos y coloridos incrustados en un terreno ruidoso lleno de obstáculos. Un jugador debe navegar por los objetivos en el orden correcto, que cambia aleatoriamente en cada episodio. Dado que el orden es imposible de adivinar, una estrategia de exploración ingenua conlleva una gran penalización. Como fuente de información transmitida culturalmente, proporcionamos un “bot” privilegiado que siempre ingresa los objetivos en la secuencia correcta.

Nuestro agente MEDAL(-ADR) supera las ablaciones en tareas prolongadas, en mundos sin obstáculos (arriba) y con obstáculos (abajo).

A través de ablaciones, identificamos un “kit de inicio” mínimo y suficiente de ingredientes de entrenamiento necesarios para que surja la transmisión cultural, denominado MEDAL-ADR. Estos componentes incluyen memoria (M), abandono de expertos (ED), sesgo de atención hacia el experto (AL) y aleatorización automática de dominio (ADR). Nuestro agente supera las ablaciones, incluido el método de última generación (ME-AL), en una variedad de tareas desafiantes y prolongadas. La transmisión cultural se generaliza sorprendentemente bien fuera de la distribución, y el agente recuerda las manifestaciones mucho después de que el experto se haya marchado. Al examinar el cerebro del agente, encontramos neuronas sorprendentemente interpretables responsables de codificar la información social y los estados objetivo.

Nuestro agente generaliza fuera de la distribución del entrenamiento (arriba) y posee neuronas individuales que codifican información social (abajo).

En resumen, proporcionamos un procedimiento para capacitar a un agente capaz de realizar una transmisión cultural flexible, de alto recuerdo y en tiempo real, sin utilizar datos humanos en el proceso de capacitación. Esto allana el camino para la evolución cultural como algoritmo para desarrollar agentes artificiales más inteligentes en general.

Las notas de este autor se basan en el trabajo conjunto del Equipo de Inteligencia General Cultural: Avishkar Bhoopchand, Bethanie Brownfield, Adrian Collister, Agustin Dal Lago, Ashley Edwards, Richard Everett, Alexandre Fréchette, Edward Hughes, Kory W. Mathewson, Piermaria Mendolicchio, Yanko Oliveira, Julia Pawar, Miruna Pîslar, Alex Platonov, Evan Senter, Sukhdeep Singh, Alexander Zacherl y Lei M. Zhang.

Leer el documento completo aquí.