Un agente generalista - Google DeepMind

Investigación

Publicado: 12 mayo 2022
Autores: Scott Reed, Konrad Żołna, Emilio Parisotto, Sergio Gómez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Giménez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar y Nando de Freitas

Inspirados por el progreso en el modelado del lenguaje a gran escala, aplicamos un enfoque similar para construir un agente generalista único más allá del ámbito de la producción de texto. El agente, al que nos referimos como Gato, funciona como una política generalista multimodal, multitarea y multiencarnación. La misma red con los mismos pesos puede reproducir Atari, subtitular imágenes, chatear, apilar bloques con un brazo robótico real y mucho más, decidiendo en función de su contexto si generar texto, pares de articulaciones, presionar botones u otros tokens.

Durante la fase de entrenamiento de Gato, los datos de diferentes tareas y modalidades se serializan en una secuencia plana de tokens, se agrupan y procesan mediante una red neuronal transformadora similar a un modelo de lenguaje grande. La pérdida se enmascara para que Gato solo prediga objetivos de acción y texto.

Al implementar Gato, se tokeniza un mensaje, como una demostración, formando la secuencia inicial. A continuación, el entorno genera la primera observación, que también se tokeniza y se adjunta a la secuencia. Gato toma muestras del vector de acción de forma autorregresiva, un token a la vez.

Una vez que se han muestreado todos los tokens que componen el vector de acción (determinado por la especificación de acción del entorno), la acción se decodifica y se envía al entorno, que avanza y produce una nueva observación. Luego se repite el procedimiento. El modelo siempre ve todas las observaciones y acciones anteriores dentro de su ventana de contexto de 1024 tokens.

Gato está capacitado en una gran cantidad de conjuntos de datos que comprenden la experiencia del agente en entornos tanto simulados como del mundo real, además de una variedad de conjuntos de datos de imágenes y lenguaje natural. Aquí se muestra el número de tareas en las que el rendimiento del modelo Gato previamente entrenado está por encima de un porcentaje de la puntuación de expertos, agrupadas por dominio.

Las siguientes imágenes también muestran cómo el modelo Gato previamente entrenado con los mismos pesos puede subtitular imágenes, participar en un diálogo interactivo y controlar un brazo robótico, entre muchas otras tareas.

Un agente generalista – Google DeepMind

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Cómo Couchbase construyó una arquitectura de IA multimodelo para Capella iQ con Amazon Bedrock

Tongyi Lab de Alibaba lanza Qwen-Audio-3.0-TTS, un modelo alojado de conversión de texto a voz en Flash y niveles Plus en 16 idiomas

Charla sobre el enfriador de agua, Ep. 12: Tolerancia a fallas bizantinas

You missed

Omio recauda 8,7 millones de euros de inversión estratégica para la expansión asiática

Conoce gente nueva a través del fútbol en Mallorca « Euro Weekly News

El capitán de los Saskatchewan Roughriders muere en un accidente fatal a los 26 años

Las tumbas recién descubiertas de Saqqara conservan un registro familiar de 3.000 años de antigüedad