644a5309537e5d50d2de4a5e Deepmind Liskvdgflek 1.jpg

Investigación hacia modelos de IA que puedan generalizar, escalar y acelerar la ciencia

La próxima semana marca el inicio del día 11. Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR), que tendrá lugar del 1 al 5 de mayo en Kigali, Ruanda. Esta será la primera gran conferencia sobre inteligencia artificial (IA) que se celebrará en África y el primer evento presencial desde el inicio de la pandemia.

Investigadores de todo el mundo se reunirán para compartir su trabajo de vanguardia en aprendizaje profundo que abarca los campos de la inteligencia artificial, la estadística y la ciencia de datos, y aplicaciones que incluyen visión artificial, juegos y robótica. Estamos orgullosos de apoyar la conferencia como patrocinador Diamante y campeón de DEI.

Equipos de todo DeepMind presentarán 23 artículos este año. Aquí hay algunos puntos destacados:

Preguntas abiertas sobre el camino hacia AGI

Los avances recientes han demostrado el increíble rendimiento de la IA en texto e imágenes, pero se necesita más investigación para que los sistemas se generalicen en todos los dominios y escalas. Este será un paso crucial en el camino hacia el desarrollo de la inteligencia artificial general (AGI) como una herramienta transformadora en nuestra vida cotidiana.

Presentamos un nuevo enfoque donde los modelos aprende resolviendo dos problemas en uno. Al entrenar modelos para que vean un problema desde dos perspectivas al mismo tiempo, aprenden a razonar sobre tareas que requieren resolver problemas similares, lo que resulta beneficioso para la generalización. También exploramos el Capacidad de las redes neuronales para generalizar. comparándolos con la jerarquía de lenguas de Chomsky. Al probar rigurosamente 2200 modelos en 16 tareas diferentes, descubrimos que ciertos modelos tienen dificultades para generalizarse y descubrimos que aumentarlos con memoria externa es crucial para mejorar el rendimiento.

Otro desafío que abordamos es cómo avanzar en tareas a largo plazo a nivel experto, donde las recompensas son pocas y espaciadas. Desarrollamos un nuevo enfoque y un conjunto de datos de capacitación de código abierto para ayudar a los modelos a aprender a explorar de manera similar a la humana en horizontes temporales prolongados.

Enfoques innovadores

A medida que desarrollamos capacidades de IA más avanzadas, debemos garantizar que los métodos actuales funcionen según lo previsto y de manera eficiente en el mundo real. Por ejemplo, aunque los modelos lingüísticos pueden producir respuestas impresionantes, muchos no pueden explicar sus respuestas. Introducimos un Método para utilizar modelos de lenguaje para resolver problemas de razonamiento de varios pasos. explotando su estructura lógica subyacente, proporcionando explicaciones que puedan ser entendidas y comprobadas por los humanos. Por otro lado, los ataques adversarios son una forma de sondear los límites de los modelos de IA, empujándolos a crear resultados erróneos o dañinos. El entrenamiento con ejemplos contradictorios hace que los modelos sean más robustos ante los ataques, pero puede tener un costo en el rendimiento de las entradas «regulares». Mostramos que agregando adaptadores, podemos crear Modelos que nos permiten controlar este tradeoff. sobre la marcha.

El aprendizaje por refuerzo (RL) ha demostrado ser exitoso para una variedad de desafíos del mundo real, pero los algoritmos RL generalmente están diseñados para realizar bien una tarea y tienen dificultades para generalizarse a otras nuevas. Nos proponemos destilación del algoritmo, un método que permite que un modelo único se generalice eficientemente a nuevas tareas entrenando un transformador para imitar las historias de aprendizaje de los algoritmos RL en diversas tareas. Los modelos RL también aprenden mediante prueba y error, lo que puede consumir mucho tiempo y datos. Se necesitaron casi 80 mil millones de cuadros de datos para nuestro modelo. Agente 57 para alcanzar un rendimiento a nivel humano en 57 juegos de Atari. Compartimos una nueva forma de entrena a este nivel usando 200 veces menos experienciareduciendo enormemente los costos de computación y energía.

IA para la ciencia

La IA es una herramienta poderosa para que los investigadores analicen grandes cantidades de datos complejos y comprendan el mundo que nos rodea. Varios artículos muestran cómo la IA está acelerando el progreso científico y cómo la ciencia está haciendo avanzar la IA.

Predecir las propiedades de una molécula a partir de su estructura tridimensional es fundamental para el descubrimiento de fármacos. Nosotros presentamos un método de eliminación de ruido que logra un nuevo estado del arte en la predicción de propiedades moleculares, permite el entrenamiento previo a gran escala y generaliza en diferentes conjuntos de datos biológicos. También presentamos una nueva Transformador que puede realizar cálculos de química cuántica más precisos. utilizando únicamente datos sobre posiciones atómicas.

Finalmente, con FIGnet, nos inspiramos en la física para modelar colisiones entre formas complejas, como una tetera o un donut. Este simulador podría tener aplicaciones en robótica, gráficos y diseño mecánico.

Ver la lista completa de Artículos de DeepMind y calendario de eventos en ICLR 2023.