Investigación
Hacia sistemas de IA más multimodales, robustos y generales
La próxima semana marca el inicio de la 37ª conferencia anual sobre Sistemas de Procesamiento de Información Neural (NeurIPS), la conferencia sobre inteligencia artificial (IA) más grande del mundo. NeuroIPS 2023 se llevará a cabo del 10 al 16 de diciembre en Nueva Orleans, EE. UU.
Equipos de todo Google DeepMind presentarán más de 180 artículos en la conferencia y los talleres principales.
Mostraremos demostraciones de nuestros modelos de IA de vanguardia para pronóstico del tiempo mundial, descubrimiento de materialesy Marca de agua en contenido generado por IA.. También habrá una oportunidad de escuchar al equipo detrás. Gemini, nuestro modo de IA más grande y capazl.
He aquí un vistazo a algunos de los aspectos más destacados de nuestra investigación:
Multimodalidad: lenguaje, vídeo, acción.
UniSim es un simulador universal de interacciones del mundo real.
Los modelos de IA generativa pueden crear pinturas, componer música y escribir historias. Pero por muy capaces que sean estos modelos en un medio, la mayoría lucha por transferir esas habilidades a otro. Profundizamos en cómo las habilidades generativas podrían ayudar a aprender entre modalidades. En una presentación destacada, mostramos que Los modelos de difusión se pueden utilizar para clasificar imágenes. sin necesidad de formación adicional. Los modelos de difusión como Imagen clasifican imágenes de una manera más humana que otros modelos, basándose en formas en lugar de texturas. Es más, mostramos cuán justo predecir subtítulos a partir de imágenes puede mejorar el aprendizaje de la visión por computadora. Nuestro enfoque superó los métodos actuales en tareas de visión y lenguaje, y mostró más potencial de escala.
Más modelos multimodales podrían dar paso a asistentes robóticos y digitales más útiles para ayudar a las personas en su vida cotidiana. En un cartel destacado, nosotros crear agentes que puedan interactuar con el mundo digital como lo hacen los humanos – a través de capturas de pantalla y acciones del teclado y el mouse. Por separado, demostramos que por Aprovechando la generación de vídeo, incluidos subtítulos y subtítulos, los modelos pueden transferir conocimientos. prediciendo planes de vídeo para acciones reales de robots.
Uno de los próximos hitos podría ser generar experiencia realista en respuesta a acciones realizadas por humanos, robots y otro tipo de agentes interactivos. Estaremos mostrando una demostración de UniSim, nuestro simulador universal de interacciones del mundo real. Este tipo de tecnología podría tener aplicaciones en distintas industrias, desde los videojuegos y el cine hasta la formación de agentes para el mundo real.
Construyendo una IA segura y comprensible
Ilustración artística de la inteligencia artificial (IA). Esta imagen muestra la investigación de seguridad de la IA. Fue creado por el artista Khyati Trehan como parte del proyecto Visualizing AI lanzado por Google DeepMind.
Los modelos de lenguaje grandes pueden generar respuestas impresionantes, pero son propensos a sufrir “alucinaciones”, texto que parece correcto pero está inventado. Nuestros investigadores plantean la cuestión de si un método para encontrar una ubicación almacenada de hechos (localización) puede permitir editar el hecho. Sorprendentemente, encontraron que la localización de un hecho y la edición de la ubicación no editan el hecho, insinuando la complejidad de comprender y controlar la información almacenada en los LLM. Con Tracr, proponemos una forma novedosa de evaluar la interpretabilidad métodos traduciendo programas legibles por humanos en modelos de transformadores. hemos una versión de código abierto de Tracr para ayudar a servir como base para evaluar los métodos de interpretabilidad.
Al desarrollar e implementar modelos grandes, la privacidad debe integrarse en cada paso del camino. Para la formación, nuestros equipos están estudiando cómo medir si Los modelos de lenguaje están memorizando datos. – para proteger material privado y sensible. Paralelamente, nuestros investigadores demuestran cómo evaluar la preservación de la privacidad. entrenar con una técnica que sea eficiente suficiente para uso en el mundo real. En otra presentación oral, nuestros científicos investigan la Limitaciones de la formación a través de modelos de “estudiante” y “docente”. que tienen diferentes niveles de acceso y vulnerabilidad si son atacados.
Habilidades emergentes
Ilustración artística de la inteligencia artificial (IA). Esta imagen imagina la Inteligencia General Artificial (AGI). Fue creado por Novoto Studio como parte del proyecto Visualizing AI lanzado por Google DeepMind.
A medida que los modelos grandes se vuelven más capaces, nuestra investigación está superando los límites de nuevas capacidades para desarrollar sistemas de IA más generales.
Si bien los modelos de lenguaje se utilizan para tareas generales, carecen de la comprensión exploratoria y contextual necesaria para resolver problemas más complejos. Presentamos el Árbol de los Pensamientos, un nuevo marco para la inferencia de modelos de lenguaje para ayudar a los modelos a explorar y razonar sobre una amplia gama de posibles soluciones. Al organizar el razonamiento y la planificación como un árbol en lugar de la cadena de pensamientos plana comúnmente utilizada, demostramos que un modelo de lenguaje es capaz de resolver tareas complejas como el “juego 24” con mucha más precisión.
Para ayudar a las personas a resolver problemas y encontrar lo que buscan, los modelos de IA deben procesar miles de millones de valores únicos de manera eficiente. Con la multiplexación de funciones, se utiliza un único espacio de representación para muchas funciones diferentes, lo que permite que los grandes modelos de incrustación (LEM) escale a productos para miles de millones de usuarios.
Finalmente, con DoReMi mostramos cómo el uso de IA para automatizar la combinación de tipos de datos de entrenamiento puede acelerar significativamente el entrenamiento de modelos de lenguaje y mejorar el rendimiento en tareas nuevas e invisibles.
Fomentar una comunidad global de IA
Estamos orgullosos de patrocinar NeurIPS y apoyar los talleres dirigidos por LatinX en IA, QueerInAIy Mujeres en ML, ayudando a fomentar colaboraciones de investigación y desarrollando una comunidad diversa de inteligencia artificial y aprendizaje automático. Este año, NeurIPS tendrá una pista creativa con nuestro proyecto Visualizing AI, que encarga a los artistas crear representaciones más diversas y accesibles de la IA.
Si asiste a NeurIPS, visite nuestro stand para obtener más información sobre nuestra investigación de vanguardia y conozca a nuestros equipos que organizan talleres y presentan durante la conferencia.