Método enseña modelos de IA generativa a localizar objetos personalizados | Noticias del MIT

Digamos que una persona lleva a su Bulldog Francés, Bowser, al parque para perros. Identificar a Bowser mientras juega entre los otros caninos es fácil para el dueño del perro mientras está en el lugar.

Pero si alguien quiere utilizar un modelo de IA generativa como GPT-5 para monitorear a su mascota mientras está en el trabajo, el modelo podría fallar en esta tarea básica. Los modelos de visión y lenguaje como GPT-5 a menudo destacan en el reconocimiento de objetos generales, como un perro, pero no funcionan bien en la localización de objetos personalizados, como Bowser, el bulldog francés.

Para abordar esta deficiencia, investigadores del MIT y del MIT-IBM Watson AI Lab han introducido un nuevo método de entrenamiento que enseña a modelos de visión y lenguaje a localizar objetos personalizados en una escena.

Su método utiliza datos de seguimiento de vídeo cuidadosamente preparados en los que se rastrea el mismo objeto en varios fotogramas. Diseñaron el conjunto de datos de modo que el modelo deba centrarse en pistas contextuales para identificar el objeto personalizado, en lugar de depender del conocimiento que memorizó previamente.

Cuando se le dan algunas imágenes de ejemplo que muestran un objeto personalizado, como la mascota de alguien, el modelo reentrenado es más capaz de identificar la ubicación de esa misma mascota en una nueva imagen.

Los modelos reentrenados con su método superaron en esta tarea a los sistemas más modernos. Es importante destacar que su técnica deja intactas el resto de las habilidades generales del modelo.

Este nuevo enfoque podría ayudar a los futuros sistemas de inteligencia artificial a rastrear objetos específicos a lo largo del tiempo, como la mochila de un niño, o localizar objetos de interés, como una especie de animal en el monitoreo ecológico. También podría ayudar en el desarrollo de tecnologías de asistencia impulsadas por IA que ayuden a los usuarios con discapacidad visual a encontrar ciertos elementos en una habitación.

“En última instancia, queremos que estos modelos puedan aprender del contexto, tal como lo hacen los humanos. Si un modelo puede hacer esto bien, en lugar de volver a entrenarlo para cada nueva tarea, podríamos simplemente proporcionar algunos ejemplos e inferir cómo realizar la tarea a partir de ese contexto. Esta es una habilidad muy poderosa”, dice Jehanzeb Mirza, postdoctorado del MIT y autor principal de un artículo sobre esta técnica.

A Mirza se unen en el artículo los coautores principales Sivan Doveh, estudiante de posgrado en el Instituto Weizmann de Ciencias; y Nimrod Shabtay, investigador de IBM Research; James Glass, científico investigador senior y jefe del Grupo de Sistemas de Lenguaje Hablado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL); y otros. El trabajo será presentado en la Conferencia Internacional sobre Visión por Computadora.

Una deficiencia inesperada

Los investigadores han descubierto que los modelos de lenguaje grandes (LLM) pueden sobresalir en el aprendizaje del contexto. Si le dan a un LLM algunos ejemplos de una tarea, como problemas de suma, puede aprender a responder nuevos problemas de suma según el contexto que se le ha proporcionado.

Un modelo de visión-lenguaje (VLM) es esencialmente un LLM con un componente visual conectado a él, por lo que los investigadores del MIT pensaron que heredaría las capacidades de aprendizaje en contexto del LLM. Pero este no es el caso.

“La comunidad de investigadores aún no ha podido encontrar una respuesta en blanco y negro a este problema particular. El cuello de botella podría surgir del hecho de que se pierde parte de la información visual en el proceso de fusionar los dos componentes, pero simplemente no lo sabemos”, dice Mirza.

Los investigadores se propusieron mejorar las capacidades de los VLM para realizar localización en contexto, lo que implica encontrar un objeto específico en una nueva imagen. Se centraron en los datos utilizados para volver a entrenar los VLM existentes para una nueva tarea, un proceso llamado ajuste fino.

Los datos de ajuste típicos se recopilan de fuentes aleatorias y representan colecciones de objetos cotidianos. Una imagen puede contener coches estacionados en una calle, mientras que otra incluye un ramo de flores.

“No existe una coherencia real en estos datos, por lo que el modelo nunca aprende a reconocer el mismo objeto en múltiples imágenes”, afirma.

Para solucionar este problema, los investigadores desarrollaron un nuevo conjunto de datos seleccionando muestras de datos de seguimiento de vídeo existentes. Estos datos son clips de vídeo que muestran el mismo objeto moviéndose a través de una escena, como un tigre caminando por un prado.

Cortaron fotogramas de estos vídeos y estructuraron el conjunto de datos de modo que cada entrada constara de varias imágenes que mostraran el mismo objeto en diferentes contextos, con ejemplos de preguntas y respuestas sobre su ubicación.

“Al utilizar múltiples imágenes del mismo objeto en diferentes contextos, alentamos al modelo a localizar consistentemente ese objeto de interés centrándose en el contexto”, explica Mirza.

Forzando el enfoque

Pero los investigadores descubrieron que los VLM tienden a hacer trampa. En lugar de responder basándose en pistas del contexto, identificarán el objeto utilizando los conocimientos adquiridos durante el entrenamiento previo.

Por ejemplo, dado que el modelo ya aprendió que la imagen de un tigre y la etiqueta “tigre” están correlacionadas, podría identificar al tigre que cruza el pastizal basándose en este conocimiento previamente entrenado, en lugar de inferir del contexto.

Para resolver este problema, los investigadores utilizaron pseudonombres en lugar de nombres reales de categorías de objetos en el conjunto de datos. En este caso, cambiaron el nombre del tigre a “Charlie”.

“Nos tomó un tiempo descubrir cómo evitar que el modelo hiciera trampa. Pero cambiamos el juego para el modelo. El modelo no sabe que ‘Charlie’ puede ser un tigre, por lo que se ve obligado a mirar el contexto”, dice.

Los investigadores también enfrentaron desafíos para encontrar la mejor manera de preparar los datos. Si los fotogramas están demasiado juntos, el fondo no cambiará lo suficiente como para proporcionar diversidad de datos.

Al final, el ajuste de los VLM con este nuevo conjunto de datos mejoró la precisión de la localización personalizada en aproximadamente un 12 por ciento en promedio. Cuando incluyeron el conjunto de datos con pseudonombres, las mejoras en el rendimiento alcanzaron el 21 por ciento.

A medida que aumenta el tamaño del modelo, su técnica conduce a mayores ganancias de rendimiento.

En el futuro, los investigadores quieren estudiar las posibles razones por las que los VLM no heredan capacidades de aprendizaje en contexto de sus LLM básicos. Además, planean explorar mecanismos adicionales para mejorar el rendimiento de un VLM sin necesidad de volver a entrenarlo con nuevos datos.

“Este trabajo replantea la localización personalizada de objetos en pocas tomas (adaptación sobre la marcha al mismo objeto en nuevas escenas) como un problema de ajuste de instrucciones y utiliza secuencias de seguimiento de video para enseñar a los VLM a localizar basándose en el contexto visual en lugar de en los antecedentes de la clase. También presenta el primer punto de referencia para esta configuración con ganancias sólidas en los VLM abiertos y propietarios. Dada la inmensa importancia de una conexión a tierra rápida y específica de cada instancia, a menudo sin ajustes, para los usuarios de flujos de trabajo del mundo real (como robótica, asistentes de realidad aumentada, herramientas creativas, etc.), la receta práctica centrada en datos que ofrece este trabajo puede ayudar a mejorar la adopción generalizada de modelos básicos de visión y lenguaje”, dice Saurav Jha, postdoctorado en el Instituto de Inteligencia Artificial de Mila-Québec, que no participó en este trabajo.

Los coautores adicionales son Wei Lin, investigador asociado de la Universidad Johannes Kepler; Eli Schwartz, científico investigador de IBM Research; Hilde Kuehne, profesora de informática en el Centro de IA de Tuebingen y profesora asociada del Laboratorio de IA Watson del MIT-IBM; Raja Giryes, profesor asociado de la Universidad de Tel Aviv; Rogerio Feris, científico principal y director del Laboratorio de IA Watson del MIT-IBM; Leonid Karlinsky, investigador principal de IBM Research; Assaf Arbelle, científico investigador senior de IBM Research; y Shimon Ullman, profesor Samy y Ruth Cohn de Ciencias de la Computación en el Instituto Weizmann de Ciencias.

Esta investigación fue financiada, en parte, por el MIT-IBM Watson AI Lab.