Meta AI presenta un razonador colaborativo (coral): un marco de IA diseñado específicamente para evaluar y mejorar las habilidades de razonamiento colaborativo en LLM

Repensar el problema de la colaboración en modelos de idiomas

Los modelos de idiomas grandes (LLM) han demostrado capacidades notables en tareas de un solo agente, como respuesta de preguntas y razonamiento estructurado. Sin embargo, la capacidad de razonar en colaboración, donde múltiples agentes interactúan, no están de acuerdo y se alinean en soluciones, los restos subdesarrollados. Esta forma de interacción es fundamental para muchas tareas humanas, desde la colaboración académica hasta la toma de decisiones en contextos profesionales. Sin embargo, la mayoría de las tuberías y puntos de referencia de capacitación de LLM se centran en los resultados aislados de giro único, con vistas a las dimensiones sociales de la resolución de problemas, como la asertividad, la toma de perspectiva y la persuasión. Un desafío principal para avanzar en las capacidades colaborativas es la falta de conjuntos de datos de diálogo múltiples de alta calidad escalables diseñados para tareas de razonamiento.

Meta AI presenta un razonador colaborativo: un marco de evaluación y capacitación de múltiples agentes

Para abordar esta limitación, Meta AI presenta Razonador colaborativo (coral)—Un marco diseñado específicamente para evaluar y mejorar las habilidades de razonamiento colaborativo en LLM. El coral reformula los problemas de razonamiento tradicional en tareas de múltiples agentes y giros múltiples, donde dos agentes no solo deben resolver un problema, sino también llegar a un consenso a través de una conversación natural. Estas interacciones emulan la dinámica social del mundo real, que requieren que los agentes desafíen conclusiones incorrectas, negocien puntos de vista conflictivos y lleguen a las decisiones conjuntas.

El marco abarca cinco dominios, incluidas las matemáticas (matemáticas), la opción múltiple STEM (MMLU-Pro, GPQA) y la cognición social (Exploretom, Hitom). Estas tareas sirven como tallas para evaluar si los modelos pueden aplicar sus habilidades de razonamiento en un contexto cooperativo e impulsado por el diálogo.

Metodología: colaboración sintética y soporte de infraestructura

El coral define nuevas métricas de evaluación adaptadas a configuraciones de múltiples agentes. En el nivel de conversación, corrección del acuerdo mide si los agentes convergen en la solución correcta. A nivel de turno, comportamientos sociales como persuasión (la capacidad de influir en otro agente) y asertividad (La capacidad de mantener la posición) se cuantifican explícitamente.

Para abordar el cuello de botella de los datos, Meta AI propone un Enfoque de autocolaboracióndonde un solo LLM juega ambos papeles en una conversación. Estas conversaciones sintéticas se utilizan para generar datos de entrenamiento a través de una tubería que involucra muestreo de árboles, filtrado de creenciasy preferencia ajustado usando Optimización de preferencias directas (DPO).

Para admitir la generación de datos a escala, meta presenta Matrizun marco de servicio de alto rendimiento. Matrix admite una variedad de backends, emplea GRPC para redes eficientes e integra con slurm y ray para orquestación a gran escala. Las comparaciones empíricas muestran que Matrix logra hasta 1.87 veces un rendimiento más alto que los sistemas comparables como Hugging Face’s LLM-Starm, lo que lo hace adecuado para el entrenamiento conversacional de alto volumen.

Resultados empíricos: ganancias de rendimiento y generalización

La evaluación en cinco puntos de referencia revela que la colaboración, cuando se modela y capacita adecuadamente, produce ganancias medibles. Los modelos de coral sintonizados superan significativamente los enfoques de la cadena de pensamiento (COT) de la línea de base (COT). Por ejemplo, Llama-3.1-8b-Instructo muestra un 47.8% de mejora en Exploretom después del entrenamiento de Coral+DPO. El modelo LLAMA-3.1-70B ajustado en coral supera a GPT-4O y O1 en tareas de razonamiento de colaboración clave como MMLU-Pro y Exploretom.

En particular, los modelos entrenados a través de coral exhiben una generalización mejorada. Cuando se prueban en tareas invisibles (p. Ej., GPQA y Hitom), los modelos entrenados en coral demuestran ganancias consistentes, lo que indica que los comportamientos de colaboración aprendidos pueden transferirse a través de dominios.

A pesar de las mejoras, los modelos capacitados en coral aún tienen un rendimiento inferior a las líneas de base entrenadas con cuna en problemas matemáticos complejos (por ejemplo, matemáticas), lo que sugiere que la colaboración por sí sola puede no ser suficiente en dominios que requieren un razonamiento simbólico profundo.

El razonador colaborativo proporciona una vía estructurada y escalable para evaluar y mejorar el razonamiento de múltiples agentes en los modelos de idiomas. A través del auto-diariogue sintético y las métricas sociales específicas, Meta AI presenta un enfoque novedoso para cultivar LLM capaces de una colaboración efectiva. La integración del coral con la infraestructura de matriz permite aún más la experimentación reproducible y a gran escala.

A medida que los LLM se integran cada vez más en los flujos de trabajo humanos, la capacidad de colaborar, en lugar de simplemente realizar, es probable que sea una capacidad definitoria. El coral es un paso hacia esa dirección, que ofrece una base para futuras investigaciones sobre agentes sociales capaces de navegar en entornos complejos de múltiples agentes.

Aquí está el Papel, Descargue el código de razonador colaborativo y Descargue el código matriz. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Meta AI presenta un razonador colaborativo (coral): un marco de IA diseñado específicamente para evaluar y mejorar las habilidades de razonamiento colaborativo en LLM

ByEquipo de 7 minutos

Repensar el problema de la colaboración en modelos de idiomas

Meta AI presenta un razonador colaborativo: un marco de evaluación y capacitación de múltiples agentes

Metodología: colaboración sintética y soporte de infraestructura

Resultados empíricos: ganancias de rendimiento y generalización

By Equipo de 7 minutos

Related Post

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8: Comparación de puntos de referencia de codificación agente, precios de API y compensaciones entre costo y rendimiento

La API de Google Health tiene una CLI: ghealth es una herramienta de código abierto para sus datos de Fitbit Air

Anthropic vuelve a implementar Claude Fable 5 el 1 de julio después del levantamiento de los controles de exportación de EE. UU. y agrega un nuevo clasificador de ciberseguridad

You missed

Cómo Trump ayudó a China a fabricar el vehículo eléctrico más barato de Estados Unidos

Cómo lo ha hecho Estados Unidos – Mayormente

La oferta de participación de 42.000 millones de dólares de OpenAI a Trump lo cambia todo

Buscan el Ayuntamiento de Frigiliana – Noticias Gaceta Costa Tropical

ByEquipo de 7 minutos

Repensar el problema de la colaboración en modelos de idiomas

Meta AI presenta un razonador colaborativo: un marco de evaluación y capacitación de múltiples agentes

Metodología: colaboración sintética y soporte de infraestructura

Resultados empíricos: ganancias de rendimiento y generalización

Conclusión: hacia los agentes de razonamiento social generalistas

By Equipo de 7 minutos

Related Post

You missed