Microsoft Research presenta Florence-2: un modelo novedoso de Vision Foundation con una representación unificada basada en indicaciones para una variedad de tareas de visión por computadora y lenguaje de visión

Ha habido una tendencia notable en los sistemas de Inteligencia General Artificial (AGI) hacia el uso de representaciones adaptables y previamente entrenadas, que brindan ventajas independientes de las tareas en diversas aplicaciones. El procesamiento del lenguaje natural (PNL) es un buen ejemplo de esta tendencia, ya que los modelos sofisticados demuestran flexibilidad con un conocimiento profundo que cubre varios dominios y tareas con instrucciones sencillas. La popularidad de la PNL fomenta una estrategia complementaria en visión por computadora. Obstáculos únicos surgen de la necesidad de capacidades perceptivas amplias en representación universal para diversas actividades relacionadas con la visión. Mientras que el procesamiento del lenguaje natural (PNL) se centra principalmente en el texto, la visión por computadora tiene que manejar datos visuales complejos, como características, contornos enmascarados y ubicación de objetos. En visión por computadora, lograr una representación universal requiere un manejo hábil de varias tareas desafiantes dispuestas en dos dimensiones, como se muestra en la Figura 1.

Figura 1

Jerarquía espacial: El modelo tiene que reconocer información espacial en diferentes tamaños, comprendiendo detalles de píxeles finos e ideas a nivel de imagen. Para respaldar la compleja jerarquía espacial en la visión, el modelo debe ser capaz de gestionar una variedad de granularidades.

Granularidad semántica: En visión por computadora, la representación universal debería cubrir una variedad de granularidades semánticas. El paradigma pasa de títulos abstractos a explicaciones más detalladas, proporcionando una comprensión flexible para diversos usos.

Esta búsqueda se caracteriza por características distintivas y desafíos sustanciales. Un obstáculo clave es la necesidad de más, lo que obstaculiza el desarrollo de un modelo fundamental capaz de capturar los intrincados matices de la jerarquía espacial y la granularidad semántica. Los conjuntos de datos existentes, como ImageNet, COCO y Flickr30k Entities, diseñados para aplicaciones especializadas, están ampliamente etiquetados por humanos. Para superar esta limitación, es imperativo generar anotaciones extensas para cada imagen a mayor escala. Otro desafío es la ausencia de una solución que integre perfectamente la jerarquía espacial y la granularidad semántica en la visión por computadora. Con un diseño específico para tareas, los modelos tradicionales funcionan bien en tareas como segmentación semántica, identificación de objetos y subtítulos de imágenes. Sin embargo, es crucial crear un modelo completo y cohesivo que pueda adaptarse a diferentes tareas de visión de manera independiente de la tarea, incluso asumiendo nuevas tareas con poco o ningún ajuste específico de la tarea.

A través de un preentrenamiento unificado y un diseño de red, el modelo es pionero en la integración de características espaciales, temporales y multimodales en la visión por computadora. La primera iteración evolutiva sobresale en el aprendizaje por transferencia a través del ajuste fino de tareas específicas utilizando adaptadores personalizados y entrenamiento previo con emparejamientos ruidosos de texto e imagen. Sin embargo, su dependencia de grandes conjuntos de datos y adaptadores específicos de tareas genera lagunas a la hora de abordar los dos problemas principales mencionados anteriormente. En este trabajo, los investigadores de Azure proporcionan una columna vertebral universal que se logra mediante el aprendizaje multitarea con ricas anotaciones visuales. Esto conduce a una representación unificada basada en indicaciones para diversas tareas de visión, que aborda con éxito los problemas de datos integrales incompletos y la falta de una arquitectura uniforme.

Se necesitan datos anotados a gran escala y de alta calidad para el aprendizaje multitarea. En lugar de depender de anotaciones humanas que consumen mucho tiempo, su motor de datos crea un extenso conjunto de datos visuales llamado \fld, que tiene 5,400 millones de anotaciones para 126 millones de fotografías. Hay dos módulos de procesamiento efectivos en este motor. El primer módulo se aleja de la estrategia convencional de anotación única y manual mediante el uso de modelos especializados para anotar fotografías de forma conjunta y autónoma. De manera similar a la sabiduría de la teoría de las multitudes, muchos modelos colaboran para crear un consenso, lo que resulta en una interpretación de la imagen más imparcial y confiable. Utilizando modelos básicos que se han aprendido, el segundo módulo refina y filtra repetidamente estas anotaciones automáticas.

Su modelo utiliza una arquitectura de secuencia a secuencia (seq2seq), que integra un codificador de imágenes y un codificador-decodificador multimodal aprovechando este gran conjunto de datos. Esta arquitectura admite una variedad de tareas de visión sin requerir ajustes arquitectónicos específicos de la tarea, en línea con el objetivo de la comunidad de PNL de creación de modelos flexibles con una base uniforme. Cada anotación en el conjunto de datos se estandariza constantemente en resultados textuales. Esto permite la optimización consistente de una única estrategia de aprendizaje multitarea utilizando la misma función de pérdida como objetivo. El resultado es un modelo básico de visión flexible que puede manejar una variedad de funciones, incluido el reconocimiento de objetos, los subtítulos y la conexión a tierra, todo bajo el control de un único modelo con parámetros estandarizados. Se utilizan indicaciones textuales para activar tareas, de acuerdo con la metodología empleada por los modelos de lenguaje grande (LLM).

Su método logra una representación universal y tiene un amplio uso en muchas tareas visuales. Los hallazgos clave consisten en:

El modelo es un modelo básico de visión flexible que proporciona un nuevo rendimiento de última generación en tareas, incluida la comprensión de expresiones de referencia en RefCOCO, la base visual en Flick30k y los subtítulos en COCO.
A pesar de su pequeño tamaño, compite con modelos más especializados después de haber sido ajustado utilizando datos anotados por humanos disponibles públicamente. En particular, el modelo mejorado establece nuevas puntuaciones de referencia en RefCOCO.
La columna vertebral previamente entrenada supera a los modelos supervisados y autosupervisados en tareas posteriores, detección de objetos COCO y segmentación de instancias y segmentación semántica ADE20K. Su modelo, que utiliza los marcos Mask-RCNN, DINO y UperNet, ofrece aumentos significativos de 6,9, 5,5 y 5,9 puntos en los conjuntos de datos COCO y ADE20K, respectivamente, y cuadriplica la eficiencia del entrenamiento de los modelos previamente entrenados en ImageNet.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.

↗ Tutorial paso a paso sobre ‘Cómo crear aplicaciones LLM que puedan ver, oír y hablar’

Microsoft Research presenta Florence-2: un modelo novedoso de Vision Foundation con una representación unificada basada en indicaciones para una variedad de tareas de visión por computadora y lenguaje de visión

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Una implementación de codificación en redes neuronales de gráficos espaciales para la inferencia de funciones urbanas utilizando city2graph, OSMnx y PyTorch Geométrico

Google lanza Gemini-SQL2: Gemini 3.1 Pro Text-to-SQL obtiene una puntuación del 80,04 % en la tabla de clasificación de modelo único de BIRD

Zyphra lanza Zamba2-VL: modelos híbridos de lenguaje de visión Mamba2-Transformer que reducen el tiempo hasta el primer token en aproximadamente un orden de magnitud

You missed

Una implementación de codificación en redes neuronales de gráficos espaciales para la inferencia de funciones urbanas utilizando city2graph, OSMnx y PyTorch Geométrico

Un suplemento para el dolor articular podría acelerar la pérdida de memoria del Alzheimer: ScienceAlert

Los hogares estadounidenses están pagando un impuesto Trump de 3.100 dólares y no lo saben

La Guardia Civil recupera 34 palomas mensajeras robadas – El Informativo