Investigación
Promover agentes de IA adaptables, potenciar la creación de escenas 3D e innovar la formación LLM para un futuro más inteligente y seguro
La próxima semana, investigadores de IA de todo el mundo se reunirán para 38a Conferencia Anual sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS), que tendrá lugar del 10 al 15 de diciembre en Vancouver,
Dos artículos dirigidos por investigadores de Google DeepMind serán reconocidos con Prueba del tiempo premios por su “innegable influencia” en el campo. Ilya Sutskever presentará en Aprendizaje secuencia a secuencial con redes neuronales que fue escrito en coautoría con el vicepresidente de investigación drástica de Google DeepMind, Oriol Vinyals, y el distinguido científico Quoc V. Le. El científico investigador de Google, David Warde, y el científico investigador de Google DeepMind, Ian Goodfellow, presentarán en Redes generativas de confrontación.
También mostraremos cómo trasladamos nuestra investigación fundamental a aplicaciones del mundo real, con demostraciones en vivo que incluyen Gemma Alcance, IA para la generación de música, pronóstico del tiempo y más.
Los equipos de Google DeepMind presentarán más de 100 artículos nuevos sobre temas que van desde agentes de inteligencia artificial y medios generativos hasta enfoques de aprendizaje innovadores.
Creación de agentes de IA adaptables, inteligentes y seguros
Los agentes de inteligencia artificial basados en LLM se muestran prometedores a la hora de realizar tareas digitales mediante comandos de lenguaje natural. Sin embargo, su éxito depende de una interacción precisa con interfaces de usuario complejas, lo que requiere una gran cantidad de datos de capacitación. Con AndroidControlcompartimos el conjunto de datos de control más diverso hasta la fecha, con más de 15 000 demostraciones recopiladas por humanos en más de 800 aplicaciones. Los agentes de IA entrenados con este conjunto de datos mostraron mejoras de rendimiento significativas que esperamos ayuden a avanzar en la investigación sobre agentes de IA más generales.
Para que los agentes de IA generalicen todas las tareas, deben aprender de cada experiencia que encuentren. Presentamos un método para aprendizaje de abstracción en contexto que ayuda a los agentes a comprender patrones de tareas clave y relaciones a partir de demostraciones imperfectas y comentarios en lenguaje natural, mejorando su desempeño y adaptabilidad.
Un fotograma de una demostración en vídeo de alguien preparando una salsa, con elementos individuales identificados y numerados. ICAL es capaz de extraer los aspectos importantes del proceso.
Desarrollar una IA agente que funcione para cumplir los objetivos de los usuarios puede ayudar a que la tecnología sea más útil, pero la alineación es fundamental cuando se desarrolla una IA que actúa en nuestro nombre. Para ello proponemos un método teórico para medir la orientación hacia objetivos de un sistema de IAy también mostrar cómo un La percepción que el modelo tiene de su usuario puede influir en sus filtros de seguridad.. En conjunto, estos conocimientos subrayan la importancia de contar con salvaguardias sólidas para prevenir comportamientos no deseados o inseguros, garantizando que las acciones de los agentes de IA sigan alineadas con los usos seguros y previstos.
Avanzando en la creación y simulación de escenas 3D
A medida que crece la demanda de contenido 3D de alta calidad en industrias como los juegos y los efectos visuales, la creación de escenas 3D realistas sigue siendo costosa y requiere mucho tiempo. Nuestro trabajo reciente presenta novedosos enfoques de generación, simulación y control 3D, agilizando la creación de contenido para flujos de trabajo más rápidos y flexibles.
Para producir escenas y recursos 3D realistas y de alta calidad, a menudo es necesario capturar y modelar miles de fotografías 2D. Mostramos CAT3Dun sistema que puede crear contenido 3D en tan solo un minuto, a partir de cualquier cantidad de imágenes, incluso una sola imagen o un mensaje de texto. CAT3D logra esto con un modelo de difusión de múltiples vistas que genera imágenes 2D consistentes adicionales desde muchos puntos de vista diferentes y utiliza esas imágenes generadas como entrada para técnicas de modelado 3D tradicionales. Los resultados superan a los métodos anteriores tanto en velocidad como en calidad.
CAT3D permite la creación de escenas 3D a partir de cualquier número de imágenes reales o generadas.
De izquierda a derecha: texto a imagen a 3D, una foto real a 3D, varias fotos a 3D.
La simulación de escenas con muchos objetos rígidos, como una mesa desordenada o ladrillos Lego cayendo, también requiere un gran esfuerzo computacional. Para superar este obstáculo, presentamos una nueva técnica llamada SDF-Sim que representa formas de objetos de forma escalable, acelerando la detección de colisiones y permitiendo una simulación eficiente de escenas grandes y complejas.
Una simulación compleja de cientos de objetos que caen y chocan, modelada con precisión utilizando SDF-Sim
Los generadores de imágenes de IA basados en modelos de difusión luchan por controlar la posición y orientación 3D de múltiples objetos. Nuestra solución, Activos neuronalespresenta representaciones de objetos específicos que capturan tanto la apariencia como la pose en 3D, aprendidas mediante capacitación con datos de video dinámicos. Neural Assets permite a los usuarios mover, rotar o intercambiar objetos entre escenas, una herramienta útil para animación, juegos y realidad virtual.
Dada una imagen de origen y cuadros delimitadores 3D de objeto, podemos traducir, rotar y cambiar la escala del objeto, o transferir objetos o fondos entre imágenes.
Mejorar la forma en que los LLM aprenden y responden
También estamos mejorando la forma en que los LLM capacitan, aprenden y responden a los usuarios, mejorando el rendimiento y la eficiencia en varios frentes.
Con ventanas de contexto más grandes, los LLM ahora pueden aprender potencialmente de miles de ejemplos a la vez, lo que se conoce como aprendizaje en contexto de múltiples tomas (ICL). Este proceso mejora el rendimiento del modelo en tareas como matemáticas, traducción y razonamiento, pero a menudo requiere datos de alta calidad generados por humanos. Para que la formación sea más rentable, exploramos métodos para adaptar ICL de muchos disparos que reducen la dependencia de datos seleccionados manualmente. Hay tantos datos disponibles para entrenar modelos de lenguaje que la principal limitación para los equipos que los crean es la computación disponible. Nosotros abordar una pregunta importante: con un presupuesto informático fijo, ¿cómo se elige el tamaño de modelo adecuado para lograr los mejores resultados?
Otro enfoque innovador, que llamamos Modelos de lenguaje invertido en el tiempo (TRLM), explora la capacitación previa y el ajuste de un LLM para que funcione a la inversa. Cuando se le dan respuestas tradicionales de LLM como entrada, un TRLM genera consultas que podrían haber producido esas respuestas. Cuando se combina con un LLM tradicional, este método no solo ayuda a garantizar que las respuestas sigan mejor las instrucciones del usuario, sino que también mejora la generación de citas para textos resumidos y mejora los filtros de seguridad contra contenido dañino.
La curación de datos de alta calidad es vital para entrenar grandes modelos de IA, pero la curación manual es difícil a escala. Para abordar esto, nuestro Selección de ejemplo conjunto (JEST) optimiza el entrenamiento al identificar los datos más fáciles de aprender dentro de lotes más grandes, lo que permite hasta 13 veces menos rondas de entrenamiento y 10 veces menos cálculos, superando las líneas base de preentrenamiento multimodal de última generación.
Las tareas de planificación son otro desafío para la IA, particularmente en entornos estocásticos, donde los resultados están influenciados por la aleatoriedad o la incertidumbre. Los investigadores utilizan varios tipos de inferencias para la planificación, pero no existe un enfoque consistente. Demostramos que La planificación en sí misma puede verse como un tipo distinto de inferencia probabilística. y proponer un marco para clasificar diferentes técnicas de inferencia en función de su eficacia de planificación.
Reuniendo a la comunidad global de IA
Estamos orgullosos de ser patrocinadores Diamante de la conferencia y apoyar Mujeres en el aprendizaje automático, LatinX en IA y Negro en IA en la construcción de comunidades en todo el mundo que trabajen en inteligencia artificial, aprendizaje automático y ciencia de datos.
Si está en NeurIP este año, visite los stands de Google DeepMind y Google Research para explorar investigaciones de vanguardia en demostraciones, talleres y más durante la conferencia.