Cómo facilitar el conocimiento espacial de los modelos es un tema de investigación importante en el aprendizaje visión-lenguaje. Este dilema conduce a dos capacidades requeridas: referenciación y conexión a tierra. Mientras que la conexión a tierra requiere que el modelo localice la región de acuerdo con la descripción semántica proporcionada, la referencia requiere que el modelo comprenda completamente la semántica de regiones suministradas específicas. En esencia, alinear la información geográfica y la semántica es el conocimiento necesario tanto para la referencia como para la conexión a tierra. A pesar de esto, las referencias y los fundamentos generalmente se enseñan por separado en los textos actuales. Los seres humanos, por otro lado, pueden combinar fácilmente capacidades de referencia/fundamentación con la discusión y el razonamiento cotidianos, y pueden aprender de una actividad y generalizar el conocimiento compartido a otro trabajo sin dificultad.
En esta investigación, investigan tres cuestiones clave a la luz de la disparidad antes mencionada. (i) ¿Cómo podrían combinarse las referencias y los fundamentos en un marco único y cómo se complementarán entre sí? (ii) ¿Cómo representa las muchas regiones que la gente suele utilizar para referirse a cosas, como puntos, cuadros, garabatos y formas libres? (iii) ¿Cómo pueden las referencias y los fundamentos, esenciales para las aplicaciones prácticas, convertirse en un vocabulario abierto, en seguir instrucciones y ser sólidos? Investigadores de la Universidad de Columbia y Apple AI/ML presentan Ferret, un nuevo modelo de lenguaje grande multimodal (MLLM) de referencia y tierra, para abordar estos tres problemas. Primero eligieron MLLM como base de Ferret debido a su sólida capacidad de comprensión global de visión y lenguaje. Como se muestra en la Figura 1, Ferret inicialmente codifica las coordenadas de áreas en forma numérica en lenguaje sencillo para unificar la referencia y la conexión a tierra.
Figura 3: Una imagen general de la arquitectura del modelo Ferret sugerido. La representación de la región híbrida sugerida y el muestreador visual espacialmente consciente se muestran a la izquierda. La arquitectura general del modelo (derecha). El codificador de imágenes es el único parámetro que no se puede entrenar.
Sin embargo, no resulta práctico representar una variedad de formas regionales, como trazos, garabatos o polígonos intrincados, con un solo punto o un cuadro de coordenadas. Estas formas son necesarias para una interacción más precisa y completa entre el modelo humano y el modelo. Para abordar este problema, también sugieren un muestreador visual con conciencia espacial para adquirir las características ópticas de áreas en cualquier forma, teniendo en cuenta la escasez variable en esas formas. Luego, las áreas visuales en la entrada se representan en Ferret utilizando una representación de región híbrida formada por coordenadas discretas y características visuales continuas. Con las técnicas mencionadas anteriormente, Ferret puede manejar entradas que combinan texto de forma libre y áreas referenciadas, y puede conectar a tierra los elementos especificados en su salida creando automáticamente las coordenadas para cada objeto y texto conectables a tierra.
Hasta donde saben, Ferret es la primera aplicación que maneja entradas de MLLM con regiones de forma libre. Recopilan GRIT, un conjunto de datos de ajuste de instrucciones de conexión y referencia de 1,1 millones de muestras, para crear capacidades de referencia y conexión en vocabulario abierto, seguimiento de instrucciones y resiliencia de Ferret. GRIT tiene varias capas de conocimiento espacial, incluidas descripciones de regiones, conexiones, objetos y razonamiento complicado. Contiene datos que combinan ubicación y texto tanto en la entrada como en la salida, así como también la ubicación de entrada y salida de texto (referencia) y la ubicación de entrada y salida de texto (conexión a tierra). Con la ayuda de plantillas cuidadosamente diseñadas, la mayor parte del conjunto de datos se transforma de tareas de visión (lenguaje) actuales, como la identificación de objetos y la base de frases, al seguimiento de instrucciones.
Para ayudar en la capacitación de un generalista de referencia y referencia de vocabulario abierto y que sigue instrucciones, también se recopilan 34.000 chats de ajuste de instrucciones de referencia y referencia utilizando ChatGPT/GPT-4. También realizan minería de datos negativos con conciencia espacial, lo que mejora la solidez del modelo. El hurón posee una gran capacidad de localización y conciencia espacial de vocabulario abierto. Funciona mejor cuando se compara con las actividades tradicionales de referencia y conexión a tierra. Más que eso, creen que las capacidades de referencia y conexión deberían incorporarse en las discusiones humanas diarias, por ejemplo, cuando las personas se refieren a algo desconocido y preguntan sobre su función. Para evaluar esta nueva habilidad, presentan el Ferret-Bench, que cubre tres nuevos tipos de tareas: Descripción de referencia, Razonamiento de referencia y Conexión a tierra en la conversación. Comparan Ferret con los mejores MLLM que ya se utilizan y descubren que puede superarlos en un promedio de 20,4%. Ferret también tiene la notable capacidad de reducir las alucinaciones de objetos.
En total, han hecho tres contribuciones diferentes. (i) Sugieren Ferret, que permite una referencia y una base de vocabulario abierto y detallado en MLLM. Ferret emplea una representación de región híbrida equipada con un muestreador visual único con conciencia espacial. (ii) crean GRIT, un gran conjunto de datos de ajuste de instrucciones terrestres y de referencia para el entrenamiento de modelos. También incluye ejemplos negativos extra espaciales para fortalecer la resiliencia del modelo. Para evaluar tareas que necesitan simultáneamente referencia/fundamentación, semántica, conocimiento y razonamiento, crean el Ferret-Bench (iii). Su modelo se desempeña mejor que otros en diversas actividades y tiene menos alucinaciones de objetos.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.
Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.