4wxiotg8xe A Gph Bqrcb0k Vp46l 6d Dtq7raiejk9yh5f8bs3ch Xgmt47d7ptgwafgh2t8ompbixmfg Mdgmynfl1uso0cw4vfwujepn221zqw1200 H630 N Nu.jpeg

Un aspecto clave de la inteligencia es la capacidad de aprender rápidamente cómo realizar una nueva tarea cuando se le dan unas instrucciones breves. Por ejemplo, un niño puede reconocer animales reales en el zoológico después de ver algunas fotografías de los animales en un libro, a pesar de las diferencias entre los dos. Pero para que un modelo visual típico aprenda una nueva tarea, debe entrenarse con decenas de miles de ejemplos etiquetados específicamente para esa tarea. Si el objetivo es contar e identificar animales en una imagen, como en “tres cebras”, habría que recopilar miles de imágenes y anotar cada imagen con su cantidad y especie. Este proceso es ineficiente, costoso y requiere muchos recursos, requiere grandes cantidades de datos anotados y la necesidad de entrenar un nuevo modelo cada vez que se enfrenta a una nueva tarea. Como parte de la misión de DeepMind de resolver la inteligencia, hemos explorado si un modelo alternativo podría hacer que este proceso sea más fácil y más eficiente, dada solo información limitada sobre tareas específicas.

Hoy, en la preimpresión de nuestro papelles presentamos Flamenco, un modelo único de lenguaje visual (VLM) que establece un nuevo estado del arte en el aprendizaje de pocas tomas en una amplia gama de tareas multimodales abiertas. Esto significa que Flamingo puede abordar una serie de problemas difíciles con solo un puñado de ejemplos de tareas específicas (en unas “pocas tomas”), sin necesidad de capacitación adicional. La sencilla interfaz de Flamingo hace esto posible, tomando como entrada un mensaje que consta de imágenes, videos y texto intercalados y luego generando el idioma asociado.

Similar al comportamiento de grandes modelos de lenguaje (LLM), que pueden abordar una tarea de lenguaje procesando ejemplos de la tarea en su mensaje de texto, la interfaz visual y de texto de Flamingo puede guiar el modelo hacia la resolución de una tarea multimodal. Dados algunos pares de ejemplos de entradas visuales y respuestas de texto esperadas compuestas en el mensaje de Flamingo, se puede hacer una pregunta al modelo con una nueva imagen o video y luego generar una respuesta.

En las 16 tareas que estudiamos, Flamingo supera todos los enfoques anteriores de aprendizaje de pocas oportunidades cuando se le dan tan solo cuatro ejemplos por tarea. En varios casos, el mismo modelo Flamingo supera a los métodos que se ajustan y optimizan para cada tarea de forma independiente y utilizan varios órdenes de magnitud de datos más específicos de la tarea. Esto debería permitir a las personas no expertas utilizar rápida y fácilmente modelos precisos de lenguaje visual en nuevas tareas que tienen entre manos.

En la práctica, Flamingo fusiona grandes modelos de lenguaje con poderosas representaciones visuales (cada una de ellas preentrenada y congelada por separado) agregando componentes arquitectónicos novedosos en el medio. Luego se entrena con una combinación de datos multimodales complementarios a gran escala que provienen únicamente de la web, sin utilizar ningún dato anotado con fines de aprendizaje automático. Siguiendo este método, partimos de Chinchilla, nuestro modelo de lenguaje de parámetros de 70B con cálculo óptimo recientemente introducido, para entrenar nuestro modelo Flamingo final, un VLM de parámetros de 80B. Una vez finalizada esta capacitación, Flamingo se puede adaptar directamente a las tareas de visión mediante un aprendizaje simple de unos pocos disparos sin ningún ajuste adicional específico de la tarea.

También probamos las capacidades cualitativas del modelo más allá de nuestros puntos de referencia actuales. Como parte de este proceso, comparamos el rendimiento de nuestro modelo al subtitular imágenes relacionadas con el género y el color de la piel, y ejecutamos los subtítulos generados por nuestro modelo a través de la API Perspective de Google, que evalúa la toxicidad del texto. Si bien los resultados iniciales son positivos, es crucial realizar más investigaciones para evaluar los riesgos éticos en los sistemas multimodales e instamos a las personas a evaluar y considerar estas cuestiones cuidadosamente antes de pensar en implementar dichos sistemas en el mundo real.

Las capacidades multimodales son esenciales para importantes aplicaciones de IA, como ayudar a las personas con discapacidad visual con desafíos visuales cotidianos o mejorar la identificación de contenidos que incitan al odio En la red. Flamingo permite adaptarse eficientemente a estos ejemplos y otras tareas sobre la marcha sin modificar el modelo. Curiosamente, el modelo demuestra capacidades de diálogo multimodal listas para usar, como se ve aquí.

Flamingo es una familia de modelos de uso general efectiva y eficiente que se puede aplicar a tareas de comprensión de imágenes y videos con ejemplos mínimos de tareas específicas. Modelos como Flamingo son muy prometedores para beneficiar a la sociedad de manera práctica y continuamos mejorando su flexibilidad y capacidades para que puedan implementarse de manera segura para el beneficio de todos. Las habilidades de Flamingo allanaron el camino hacia interacciones ricas con modelos de lenguaje visual aprendidos que pueden permitir una mejor interpretabilidad y aplicaciones nuevas e interesantes, como un asistente visual que ayuda a las personas en la vida cotidiana, y estamos encantados con los resultados hasta ahora.