Los investigadores de FutureHouse proponen Aviary: un gimnasio extensible de código abierto para agentes lingüísticos

La inteligencia artificial (IA) ha logrado avances significativos en el desarrollo de modelos de lenguaje capaces de resolver problemas complejos. Sin embargo, aplicar estos modelos a los desafíos científicos del mundo real sigue siendo difícil. Muchos agentes de IA luchan con tareas que requieren múltiples ciclos de observación, razonamiento y acción. Además, los modelos existentes a menudo carecen de la capacidad de integrar herramientas de manera efectiva o mantener la coherencia en el razonamiento de varios pasos. Estas cuestiones son particularmente apremiantes en los ámbitos científicos, donde las tareas exigen precisión, adaptabilidad y eficiencia computacional. Abordar estos problemas requiere un marco flexible y práctico para capacitar y desplegar agentes lingüísticos.

Presentamos Aviary: un gimnasio extensible de código abierto

Un equipo de investigadores de FutureHouse Inc., la Universidad de Rochester y el Instituto Francis Crick ha presentado Aviary, un gimnasio de código abierto para agentes lingüísticos. Aviary aborda las limitaciones de los marcos existentes mediante la introducción de procesos de decisión del lenguaje (LDP), que modelan las tareas como procesos de decisión de Markov parcialmente observables basados ​​en el lenguaje natural. Este enfoque permite a los agentes lingüísticos manejar eficazmente tareas de razonamiento complejas de varios pasos.

Aviary incluye cinco entornos, tres de los cuales están diseñados para tareas científicas avanzadas:

  1. Clonación molecular: Manipulación de construcciones de ADN utilizando herramientas para la anotación de secuencias y la planificación de protocolos.
  2. Control de calidad de la literatura científica: Recuperar y analizar literatura científica para responder preguntas de investigación detalladas.
  3. Ingeniería de estabilidad de proteínas: Proponer mutaciones de proteínas para mejorar la estabilidad con la ayuda de herramientas computacionales y bioquímicas.

Estas tareas hacen de Aviary una plataforma valiosa para capacitar y evaluar agentes lingüísticos en escenarios del mundo real que requieren razonamiento, integración de herramientas y aprendizaje iterativo.

Información técnica y beneficios del aviario

Aviary utiliza un marco de gráficos de cálculo estocástico para modelar agentes de lenguaje, lo que permite una optimización flexible y eficiente. Las características clave incluyen:

  • Iteración experta (EI): Un método de entrenamiento que refina de forma iterativa a los agentes utilizando trayectorias de alta calidad.
  • Voto mayoritario: Una técnica para mejorar la precisión mediante la combinación de múltiples resultados de inferencia sin una sobrecarga computacional excesiva.
  • Integración de herramientas: Soporte integrado para herramientas como anotadores de secuencias y sistemas de recuperación de literatura, lo que mejora la aplicabilidad en el mundo real.

Los investigadores muestran que los modelos de código abierto no fronterizos como Llama-3.1-8B-Instruct pueden lograr un rendimiento comparable o mejor que los modelos fronterizos (por ejemplo, Claude 3.5 Sonnet) en estos entornos. Además, estos modelos funcionan con costos de inferencia significativamente más bajos, lo que los hace accesibles para aplicaciones científicas a gran escala.

Resultados y conocimientos

Los agentes entrenados en aviarios demuestran un desempeño impresionante:

  • En tareas de clonación molecular, el agente Llama-3.1-8B-Instruct mostró mejoras notables en la precisión a través de la IE y la clonación de comportamiento, superando a los expertos humanos en los puntos de referencia de SeqQA.
  • En las tareas de control de calidad de la literatura científica, el mismo modelo logró niveles de rendimiento iguales o mejores que los humanos, manteniendo la eficiencia.
  • La votación mayoritaria mejoró aún más la precisión, y los resultados de SeqQA alcanzaron el 89 % después de muestrear múltiples trayectorias, superando los puntos de referencia de los modelos humanos y de frontera.

Conclusión

Aviary representa un avance reflexivo en el desarrollo de agentes de inteligencia artificial del lenguaje. Al demostrar que los modelos de código abierto y sin fronteras pueden sobresalir en tareas científicas, Aviary abre nuevas posibilidades para una investigación de IA accesible y rentable. Su diseño de código abierto fomenta la colaboración, lo que permite a los investigadores y desarrolladores perfeccionar y ampliar aún más sus aplicaciones.

Con herramientas y métodos de capacitación adaptados a los desafíos del mundo real, Aviary establece un punto de referencia sobre cómo los agentes lingüísticos pueden abordar tareas complejas. Proporciona un marco convincente para avanzar en la exploración científica impulsada por la IA y la resolución práctica de problemas.


Verificar el Papel, Detalles técnicosy GitHub Página. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluaciónÚnase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.