Imagine tener un asistente digital que no solo pueda responder sus preguntas sino también navegar por la web, resolver problemas matemáticos complejos, escribir códigos e incluso razonar sobre imágenes y juegos basados en texto. ¿Suena demasiado bueno para ser verdad? Bueno, prepárense porque el futuro de la inteligencia artificial se volvió mucho más accesible y transparente con la introducción de LUMOS.
En un desarrollo innovador, investigadores del Instituto Allen de IA, UCLA y la Universidad de Washington han presentado LUMOS, un marco de código abierto que promete revolucionar la forma en que interactuamos con los agentes del lenguaje. A diferencia de las soluciones de código cerrado existentes que a menudo parecen cajas negras, LUMOS ofrece un nivel sin precedentes de asequibilidad, transparencia y reproducibilidad, lo que lo convierte en un punto de inflexión en el mundo de la IA.
Pero, ¿qué es exactamente LUMOS y por qué está causando tanto revuelo en la comunidad de la IA? Abróchese el cinturón, porque estamos a punto de profundizar en los detalles esenciales de esta notable innovación, explorando cómo funciona, qué puede hacer y por qué es más importante de lo que piensa.
Los agentes de lenguaje actuales a menudo dependen de grandes modelos de lenguaje de código cerrado como GPT-4 o ChatGPT como componente principal. Si bien son potentes, estos modelos son costosos, necesitan más transparencia y ofrecen una reproducibilidad y controlabilidad limitadas.
El marco LUMOS adopta un enfoque diferente al utilizar modelos de lenguaje grande (LLM) de código abierto como modelos base. Emplea una arquitectura unificada y modular que consta de tres componentes clave: un módulo de planificación, un módulo de puesta a tierra y un módulo de ejecución.
El módulo de planificación descompone tareas complejas en una secuencia de submetas de alto nivel expresadas en lenguaje natural. Por ejemplo, para una pregunta multimodal como «¿De qué país es el dispositivo que tiene en la mano?», el módulo de planificación podría generar dos subobjetivos: «Identificar la marca del dispositivo» y «Responder el país de la marca del dispositivo».
Luego, el módulo de conexión a tierra traduce estos subobjetivos de alto nivel en acciones ejecutables de bajo nivel que pueden ejecutarse mediante varias herramientas en el módulo de ejecución. Por ejemplo, el primer subobjetivo podría basarse en una acción como «VQA(, ¿Cuál es la marca…?)» para identificar la marca del dispositivo a partir de la imagen mediante una herramienta visual de respuesta a preguntas.
El módulo de ejecución contiene una colección de herramientas disponibles en el mercado, incluidas API, modelos neuronales y simuladores virtuales, que pueden ejecutar acciones basadas en tierra. Los resultados de estas acciones ejecutadas luego se retroalimentan a los módulos de planificación y puesta a tierra, lo que permite un comportamiento iterativo y adaptativo del agente.
Una de las ventajas clave de LUMOS es su diseño modular, que permite actualizaciones sencillas y una aplicabilidad más amplia a diversas tareas interactivas. Al separar los componentes de planificación, puesta a tierra y ejecución, los investigadores pueden mejorar o reemplazar módulos individuales sin afectar a los demás.
Para entrenar LUMOS, los investigadores seleccionaron un conjunto de datos a gran escala y de alta calidad de más de 56.000 anotaciones derivadas de diversos fundamentos de razonamiento de verdad sobre el terreno en varias tareas interactivas complejas, que incluyen respuesta a preguntas, matemáticas, codificación, navegación web y razonamiento multimodal. Estas anotaciones se obtuvieron empleando GPT-4 y otros modelos de lenguaje avanzados para convertir los puntos de referencia existentes en un formato unificado compatible con la arquitectura LUMOS. El conjunto de datos resultante es uno de los mayores recursos de código abierto para el ajuste de agentes, lo que permite entrenar modelos de lenguaje más pequeños como agentes de lenguaje de manera efectiva.
En evaluaciones de nueve conjuntos de datos, LUMOS exhibió varias ventajas clave. Superó a varios agentes de código abierto más grandes en conjuntos de datos disponibles para cada tipo de tarea, incluso superando a los agentes de GPT en tareas web y de respuesta a preguntas en algunos casos. LUMOS también superó a los agentes producidos por otros métodos de capacitación, como la cadena de pensamientos y la capacitación integrada no modularizada. LUMOS demostró notablemente capacidades de generalización impresionantes, superando significativamente a los agentes de escala 30B (WizardLM-30B y Vicuna-v1.3-33B) y de dominio específico en tareas invisibles que involucran nuevos entornos y acciones.
Con su naturaleza de código abierto, rendimiento competitivo y sólidas capacidades de generalización, LUMOS representa un importante paso adelante en el desarrollo de agentes lingüísticos asequibles, transparentes y reproducibles para tareas interactivas complejas.
Revisar la Papel, página HF, y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 39k+ ML
Vibhanshu Patidar es pasante de consultoría en MarktechPost. Actualmente cursa una licenciatura en el Instituto Indio de Tecnología (IIT) Kanpur. Es un entusiasta de la robótica y el aprendizaje automático con una habilidad especial para desentrañar las complejidades de los algoritmos que unen la teoría y las aplicaciones prácticas.