Investigadores de la CMU proponen el aprendizaje por abstracción en contexto (ICAL): un método de IA que crea una memoria de experiencias multimodales a partir de demostraciones subóptimas y retroalimentación humana

Los humanos son versátiles; pueden aplicar rápidamente lo que han aprendido a partir de pequeños ejemplos a contextos más amplios combinando información nueva y antigua. No sólo pueden prever posibles contratiempos y determinar qué es importante para el éxito, sino que aprenden rápidamente a adaptarse a diferentes situaciones practicando y recibiendo retroalimentación sobre lo que funciona. Este proceso puede refinar y transferir conocimientos a través de muchos trabajos y situaciones.

La extracción de conocimientos de alto nivel a partir de trayectorias y experiencias ha sido objeto de investigaciones recientes que utilizan modelos de lenguaje visual (VLM) y modelos de lenguaje extenso (LLM). La introspección del modelo produce estos conocimientos, que luego se utilizan para mejorar el rendimiento al adjuntarlos a indicaciones, utilizando su notable capacidad para aprender en contexto. La mayoría de los enfoques actuales se basan en el lenguaje de varias maneras: para comunicar recompensas laborales, para almacenar ajustes humanos después de los fracasos, para que expertos en el campo creen o seleccionen ejemplos sin reflexión, o para establecer regulaciones e incentivos a través del lenguaje. Los enfoques en cuestión se basan principalmente en texto y no utilizan señales visuales ni demostraciones. También dependen únicamente de la introspección en caso de falla, que es solo una de las muchas formas en que las máquinas y los humanos pueden acumular experiencias y obtener conocimientos.

Un nuevo estudio realizado por la Universidad Carnegie Mellon y Google DeepMind demuestra un enfoque novedoso para entrenar VLM. Este enfoque, llamado aprendizaje de abstracción en contexto (ICAL), guía a los VLM para crear abstracciones multimodales en dominios novedosos. En términos más simples, ICAL ayuda a los VLM a comprender y aprender de sus experiencias en diferentes situaciones, permitiéndoles adaptarse y desempeñarse mejor en nuevas tareas. El enfoque enfatiza abstracciones de aprendizaje que abarcan la dinámica de las tareas y el conocimiento crítico, en contraste con esfuerzos anteriores que almacenan y recuerdan planes de acción o trayectorias exitosas. Para ser más precisos, ICAL aborda cuatro tipos distintos de abstracciones cognitivas:

  1. Relaciones causales y de tareas, que revelan los principios o acciones subyacentes necesarios para lograr un objetivo y la interconexión de sus elementos.
  2. Cambios en los estados de los objetos, que muestran las diferentes formas o estados que puede tomar un objeto.
  3. Abstracciones temporales, que dividen las tareas en objetivos más pequeños
  4. Las interpretaciones de tareas enfatizan aspectos visuales importantes dentro de una tarea.

En respuesta a demostraciones buenas o malas, ICAL le indica a un VLM que optimice las trayectorias y genere abstracciones verbales y visuales relevantes. La entrada de lenguaje natural de los humanos guía la ejecución de la trayectoria en el entorno, lo que refina aún más estas abstracciones. El modelo puede mejorar sus capacidades de ejecución y abstracción con cada fase de generación de abstracciones, utilizando abstracciones derivadas previamente. Las abstracciones adquiridas resumen de manera concisa las reglas, las regiones focales, las secuencias de acción, las transiciones de estados y las representaciones visuales expresadas en lenguaje natural de formato libre.

Utilizando las abstracciones de ejemplo adquiridas, los investigadores llevaron a cabo una evaluación exhaustiva de su agente en tres puntos de referencia diferentes: VisualWebArena, TEACh y Ego4D. Estos puntos de referencia se utilizan ampliamente en el campo de la IA y proporcionan un estándar para evaluar el rendimiento de diferentes modelos. VisualWebArena se utiliza para tareas web autónomas multimodales, TEACh para el entrenamiento basado en diálogos en el hogar y Ego4D para la anticipación de acciones de video. La eficacia de las abstracciones enseñadas por ICAL para el aprendizaje en contexto se demuestra por el nuevo rendimiento de vanguardia de su agente en TEACh, que supera a los agentes VLM que se basan en demostraciones sin procesar o ejemplos extensos escritos a mano por expertos en el dominio. En particular, el método propuesto mejora el éxito de las condiciones objetivo en un 12,6% en comparación con el SOTA anterior, HELPER. Después de solo diez casos, los hallazgos muestran que este método ofrece un aumento de velocidad del 14,7% en trabajos no vistos y crece con el tamaño de la memoria externa. El rendimiento de la condición objetivo mejora en un 4,9 % adicional cuando los ejemplos aprendidos se combinan con el ajuste fino LLM basado en LoRA [32]Con un porcentaje de éxito del 22,7 % en VisualWebArena, el agente supera al avanzado GPT4Vision + Set of Marks por un margen del 14,3 %. Al utilizar la cadena de pensamiento, ICAL reduce la distancia de edición de sustantivos en 6,4 y la distancia de edición de acciones en 1,7 en el entorno Ego4D, superando así al GPT4V de pocos disparos. También compite de cerca con los enfoques totalmente supervisados, a pesar de que utiliza 639 veces menos datos de entrenamiento en el dominio.

El potencial del método ICAL es enorme, ya que supera de forma consistente al aprendizaje en contexto utilizando planes de acción o trayectorias sin tales abstracciones, al tiempo que reduce significativamente la necesidad de ejemplos meticulosamente construidos. El equipo reconoce varias áreas para un mayor estudio y desafíos potenciales para ICAL, como su capacidad para manejar demostraciones ruidosas y su dependencia de una API de acción estática. Sin embargo, estos se ven como oportunidades de crecimiento y mejora en lugar de limitaciones, lo que infunde un sentido de optimismo y esperanza para el futuro de ICAL.


Revisar la Papel, Proyectoy GitHubTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 45.000 ml


🚀 Cree, edite y aumente datos tabulares con el primer sistema de IA compuesto, Gretel Navigator, ¡ahora disponible de forma generalizada! [Advertisement]


Dhanshree Shenwai es ingeniera informática y tiene una amplia experiencia en empresas de tecnología financiera que abarcan los ámbitos financiero, de tarjetas y pagos y bancario, y está muy interesada en las aplicaciones de la inteligencia artificial. Le entusiasma explorar nuevas tecnologías y avances en el cambiante mundo actual, facilitando la vida de todos.