Ha habido un marcado movimiento en el campo de los sistemas AGI hacia el uso de representaciones adaptables y previamente entrenadas conocidas por sus beneficios independientes de las tareas en diversas aplicaciones. El procesamiento del lenguaje natural (PNL) es un claro ejemplo de esta tendencia, ya que los modelos más sofisticados demuestran adaptabilidad al aprender nuevas tareas y dominios desde cero con sólo instrucciones básicas. El éxito del procesamiento del lenguaje natural inspira una estrategia similar en la visión por computadora.
Uno de los principales obstáculos para la representación universal de diversas tareas relacionadas con la visión es el requisito de una amplia capacidad de percepción. A diferencia del procesamiento del lenguaje natural (PLN), la visión por computadora trabaja con datos visuales complejos, como la ubicación de objetos, contornos enmascarados y propiedades. Se requiere el dominio de diversas tareas desafiantes para lograr una representación universal en visión por computadora. La distinción y los severos obstáculos definen este esfuerzo. La falta de anotaciones visuales exhaustivas es un obstáculo importante que nos impide construir un modelo básico que pueda capturar las sutilezas de la jerarquía espacial y la granularidad semántica. Otro obstáculo es que actualmente es necesario un marco de preentrenamiento unificado en visión por computadora que utilice una arquitectura de red única para integrar la granularidad semántica y la jerarquía espacial sin problemas.
Un equipo de investigadores de Microsoft presenta Florence-2, un novedoso modelo básico de visión con una representación unificada basada en indicaciones para una variedad de tareas de visión por computadora y lenguaje visual. Esto resuelve los problemas de necesitar una arquitectura coherente y limitar los datos completos mediante la creación de una representación única basada en indicaciones para todas las actividades de visión. Se requieren datos anotados de alta calidad y a gran escala para el aprendizaje multitarea. Al utilizar FLD-5B, el motor de datos genera un conjunto de datos visuales completo con un total de 5,4 mil millones de anotaciones para 126 millones de imágenes, una mejora significativa con respecto a la anotación manual que requiere mucha mano de obra. Los dos módulos de procesamiento del motor son altamente eficientes. En lugar de utilizar una sola persona para anotar cada imagen, como se hacía en el pasado, el primer módulo emplea modelos especializados para hacerlo de forma automática y en colaboración. Se logra una interpretación de la imagen más confiable y objetiva cuando numerosos modelos colaboran para lograr un consenso, que recuerda la sabiduría de las ideas de las multitudes.
El modelo Florence-2 destaca por sus características únicas. Integra un codificador de imágenes y un codificador-decodificador multimodal en una arquitectura de secuencia a secuencia (seq2seq), siguiendo el objetivo de la comunidad de PNL de desarrollar modelos flexibles con un marco consistente. Esta arquitectura puede manejar una variedad de tareas de visión sin requerir modificaciones arquitectónicas específicas de la tarea. La técnica de aprendizaje multitarea unificada del modelo con optimización consistente, utilizando la misma función de pérdida como objetivo, es posible uniformando todas las anotaciones en el conjunto de datos FLD-5B en salidas textuales. Florence-2 es un modelo básico de visión multipropósito que puede aterrizar, subtitular y detectar objetos usando un solo modelo y un conjunto estándar de parámetros, activados por señales textuales.
A pesar de su tamaño compacto, Florence-2 se destaca en el campo y puede competir con modelos especializados más grandes. Después de realizar ajustes utilizando datos anotados por humanos disponibles públicamente, Florence-2 logra nuevos rendimientos de última generación en los puntos de referencia de RefCOCO/+/g. Este modelo previamente entrenado supera a los modelos supervisados y autosupervisados en tareas posteriores, incluida la segmentación semántica ADE20K y la detección de objetos COCO y la segmentación de instancias. Los resultados hablan por sí solos y muestran mejoras significativas de 6,9, 5,5 y 5,9 puntos en los conjuntos de datos COCO y ADE20K utilizando Mask-RCNN, DIN y la eficiencia del entrenamiento es 4 veces mejor que los modelos previamente entrenados en ImageNet. Este desempeño es un testimonio de la efectividad y confiabilidad de Florence-2.
Florence-2, con su representación universal previamente entrenada, ha demostrado ser muy eficaz. Los resultados experimentales demuestran su destreza para mejorar una multitud de tareas posteriores, infundiendo confianza en sus capacidades.
Revisar la Papel y Tarjeta modelo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de más de 45.000 ml
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.