HUSKY: un agente de lenguaje unificado y de código abierto para un razonamiento complejo de varios pasos en todos los dominios

Los avances recientes en los LLM han allanado el camino para el desarrollo de agentes lingüísticos capaces de manejar tareas complejas de varios pasos utilizando herramientas externas para una ejecución precisa. Si bien los modelos propietarios o los diseños de tareas específicas dominan los agentes lingüísticos existentes, estas soluciones a menudo generan altos costos y problemas de latencia debido a la dependencia de API. Los LLM de código abierto se centran estrictamente en la respuesta a preguntas de múltiples saltos o implican procesos complejos de capacitación e inferencia. A pesar de las limitaciones computacionales y fácticas de los LLM, los agentes lingüísticos ofrecen un enfoque prometedor al aprovechar metódicamente herramientas externas para abordar desafíos complicados.

Investigadores de la Universidad de Washington, Meta AI y el Instituto Allen de IA presentaron HUSKY, un agente lingüístico versátil y de código abierto diseñado para abordar tareas diversas y complejas, incluido el razonamiento numérico, tabular y basado en el conocimiento. HUSKY opera a través de dos etapas clave: generar la siguiente acción a realizar y ejecutarla utilizando modelos expertos. El agente utiliza un espacio de acción unificado e integra herramientas como código, matemáticas, búsqueda y razonamiento de sentido común. A pesar de utilizar modelos 7B más pequeños, pruebas exhaustivas muestran que HUSKY supera a los modelos más grandes y de vanguardia en varios puntos de referencia. Demuestra un enfoque sólido y escalable para resolver eficientemente tareas de razonamiento de varios pasos.

Los agentes lingüísticos se han vuelto cruciales para resolver tareas complejas al aprovechar los modelos lingüísticos para crear planes de alto nivel o asignar herramientas para pasos específicos. Por lo general, se basan en modelos de código cerrado o de código abierto. Los agentes anteriores utilizaban modelos propietarios para la planificación y ejecución que, si bien eran efectivos, eran costosos e ineficientes debido a la dependencia de API. Los avances recientes se centran en modelos de código abierto, extraídos de modelos docentes más grandes, que ofrecen más control y eficiencia, pero a menudo se especializan en dominios limitados. A diferencia de estos, HUSKY emplea un enfoque amplio y unificado con un proceso sencillo de curación de datos, utilizando herramientas de codificación, matemáticas, búsqueda y razonamiento de sentido común para abordar diversas tareas de manera eficiente.

HUSKY es un agente lingüístico diseñado para resolver tareas complejas de razonamiento de varios pasos a través de un proceso de dos etapas: predecir y ejecutar acciones. Utiliza un generador de acciones para determinar el siguiente paso y la herramienta asociada, seguido de modelos expertos para ejecutar estas acciones. Los modelos expertos manejan tareas como generar código, realizar razonamiento matemático y elaborar consultas de búsqueda. HUSKY repite este proceso hasta llegar a una solución final. Formado con datos sintéticos, HUSKY combina flexibilidad y eficiencia en diversos dominios. Se evalúa en conjuntos de datos que requieren diversas herramientas, incluido HUSKYQA, un nuevo conjunto de datos diseñado para probar el razonamiento numérico y las capacidades de recuperación de información.

HUSKY se evalúa en diversas tareas que involucran razonamiento numérico, tabular y basado en conocimientos, además de tareas con herramientas mixtas. Al utilizar conjuntos de datos como GSM-8K, MATH y FinQA para el entrenamiento, HUSKY muestra un sólido rendimiento cero en tareas invisibles, superando constantemente a otros agentes como REACT, CHAMELEON y modelos propietarios como GPT-4. El modelo integra herramientas y módulos diseñados para tareas de razonamiento específicas, aprovechando modelos ajustados como LLAMA y DeepSeekMath. Esto permite una resolución precisa de problemas paso a paso en todos los dominios, destacando las capacidades avanzadas de HUSKY en el uso de múltiples herramientas y la descomposición iterativa de tareas.

En conclusión, HUSKY es un agente lingüístico de código abierto diseñado para abordar tareas complejas de razonamiento de varios pasos en varios dominios, incluido el razonamiento numérico, tabular y basado en el conocimiento. Utiliza un enfoque unificado con un generador de acciones que predice pasos y selecciona herramientas apropiadas, ajustadas a partir de modelos base sólidos. Los experimentos muestran que HUSKY se desempeña de manera sólida en todas las tareas y se beneficia de la capacitación en dominios específicos y entre dominios. Las variantes con diferentes modelos especializados para código y razonamiento matemático resaltan el impacto de la elección del modelo en el rendimiento. La arquitectura flexible y escalable de HUSKY está preparada para manejar desafíos de razonamiento cada vez más diversos, proporcionando un modelo para desarrollar agentes lingüísticos avanzados.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

HUSKY: un agente de lenguaje unificado y de código abierto para un razonamiento complejo de varios pasos en todos los dominios

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

¿Es el lenguaje visual? Un experimento con caracteres chinos

Moonshot AI lanza Kimi K2.7-Code: un modelo de codificación que reporta un +21,8 % en Kimi Code Bench v2 sobre K2.6

Pensé que la ingeniería de datos era solo escribir guiones. Me equivoqué.

You missed

¿Es el lenguaje visual? Un experimento con caracteres chinos

Cómo Francesco Totti construyó un imperio empresarial después del fútbol

Mercadona rompe la tradición ampliando el horario de verano en la Axarquía y la Costa Tropical « Euro Weekly News

Conozca a las estrellas de cine detrás de la película de Spielberg – Hollywood Life