Los modelos de lenguaje de visión han sido un hito revolucionario en el desarrollo de modelos de lenguaje, que supera las deficiencias de los LLM previos al predecesor como LLAMA, GPT, etc. Los modelos de lenguaje de visión exploran un nuevo territorio más allá de la modularidad única para combinar las entradas de los videos de texto e imágenes . VLMS otorga así una mejor comprensión de las relaciones visuales espaciales al expandir los límites de representación de la entrada, apoyando una cosmovisión más rica. Con nuevas oportunidades vienen nuevos desafíos, que es el caso de VLMS. Actualmente, los investigadores de todo el mundo se encuentran y resuelven nuevos desafíos para mejorar los VLM, uno a la vez. Basado en una encuesta realizada por investigadores de la Universidad de Maryland y la Universidad del Sur de California, este artículo ofrece una visión intrincada de lo que está sucediendo en este campo y lo que podemos esperar en el futuro de los modelos de lenguaje de visión.
Este artículo analiza un examen estructurado de VLM desarrollados en los últimos cinco años, abarcando arquitecturas, metodologías de capacitación, puntos de referencia, aplicaciones y los desafíos inherentes al campo. Para empezar, familiarizémonos con algunos de los modelos SOTA en VLM y de dónde vienen de -Clip por OpenAi, Blok by Salesforce, Flamingo por DeepMind y Gemini. Estos son los grandes peces en este dominio, que se está expandiendo rápidamente para apoyar la interacción multimodalidad del usuario.
Cuando diseccionamos un VLM para comprender su estructura, encontramos que ciertos bloques son fundamentales para los modelos, independientemente de sus características o capacidades. Estos son el codificador de visión, el codificador de texto y el decodificador de texto. Además, el mecanismo de atención cruzada integra información entre modalidades, pero está presente en menos. La arquitectura de VLMS también está evolucionando ya que los desarrolladores ahora usan modelos de lenguaje grandes pretrados como la columna vertebral en lugar de entrenar desde cero. Las metodologías auto-supervisadas, como el modelado de imágenes enmascaradas y el aprendizaje contrastante, han sido frecuentes en la última opción. Por otro lado, mientras usa una columna vertebral de modelo previamente capacitada, las formas más comunes de alinear las características de texto LLM visuales y previamente capacitadas son utilizar un proyector, capacitación conjunta y etapas de entrenamiento de congelación.
Otro desarrollo interesante es cómo los últimos modelos tratan las características visuales como tokens. Además, la transfusión trata los tokens de texto discretos y los vectores de imágenes continuas en paralelo al introducir puntos de interrupción estratégicos.
Ahora, discutimos las principales categorías de puntos de referencia en el dominio que evalúan las diversas capacidades de un VLM. La mayoría de los conjuntos de datos se crean mediante generación sintética o anotaciones humanas. Estos puntos de referencia prueban las capacidades de varios modelos, incluida la comprensión de texto visual, la generación de texto a imagen e inteligencia general multimodal. También hay puntos de referencia que prueban los desafíos contra las alucinaciones, etc. La coincidencia de respuestas, las preguntas de opción múltiple y los puntajes de similitud de imagen/texto han surgido como técnicas de evaluación comunes.
Los VLM se adaptan a una variedad de tareas, desde aplicaciones del mundo virtual, como agentes virtuales encarnados hasta aplicaciones del mundo real, como robótica y conducción autónoma. Los agentes encarnados son un caso de uso interesante que se basa en gran medida en el desarrollo de VLM. Los agentes montañosos son modelos de IA con cuerpos virtuales o físicos que pueden interactuar con su entorno. VLM aumenta su interacción de usuario y sistema de soporte al permitir características como respuesta de preguntas visuales. Además, los modelos VLM generativos como GaN generan contenido visual como memes, etc. En robótica, VLMS encuentran sus casos de uso en manipulación de habilidades, navegación, interacción humano-robot y conducción autónoma.
Si bien los VLM han mostrado un enorme potencial sobre sus homólogos textuales, los investigadores deben superar múltiples limitaciones y desafíos. Existen compensaciones considerables entre flexibilidad y generalización de los modelos. Otros problemas, como la alucinación visual, plantean preocupaciones sobre la confiabilidad del modelo. Hay restricciones adicionales sobre la equidad y la seguridad debido a los sesgos en los datos de capacitación. Además, en los desafíos técnicos, aún no vemos una capacitación eficiente y un paradigma ajustado cuando los conjuntos de datos de alta calidad son escasos. Además, las desviaciones contextuales entre modalidades o desalineaciones reducen la calidad de salida.
Conclusión: El documento proporciona una descripción general de los modelos de lenguaje de visión de entresis de visión: un nuevo campo de investigación que integra contenido a partir de múltiples modalidades. Vemos la arquitectura, las innovaciones y los desafíos del modelo en los tiempos actuales.
Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.
Adeeba Alam Ansari está buscando su doble título en el Instituto Indio de Tecnología (IIT) Kharagpur, ganando una B.Tech en Ingeniería Industrial y una M.Tech en Ingeniería Financiera. Con un gran interés en el aprendizaje automático y la inteligencia artificial, es una ávida lectora y una persona inquisitiva. Adeeba cree firmemente en el poder de la tecnología para empoderar a la sociedad y promover el bienestar a través de soluciones innovadoras impulsadas por la empatía y una profunda comprensión de los desafíos del mundo real.