Meta presenta Autodata: un marco agente que convierte los modelos de IA en científicos de datos autónomos para la creación de datos de capacitación de alta calidad

El cuello de botella en la creación de mejores modelos de IA nunca ha sido solo la computación: siempre ha sido la calidad de los datos. El equipo de RAM (razonamiento, alineación y memoria) de Meta AI ahora está abordando ese cuello de botella directamente. Los metainvestigadores han presentado Autodata, un marco que implementa agentes de inteligencia artificial en el papel de un científico de datos autónomo, encargado de construir, evaluar y refinar de manera iterativa conjuntos de datos de capacitación y evaluación, sin depender de costosas anotaciones humanas en cada paso.

Y los resultados, probados en complejos problemas de razonamiento científico, muestran que este enfoque no sólo coincide con los métodos clásicos de generación de datos sintéticos, sino que los supera significativamente.

https://facebookresearch.github.io/RAM/blogs/autodata/

Por qué la creación de datos sintéticos siempre ha sido difícil

Para comprender lo que resuelve Autodata, es necesario comprender cómo se crean normalmente los datos de entrenamiento de IA en la actualidad.

La mayoría de los sistemas de IA modernos comenzaron con datos escritos por humanos. A medida que los modelos mejoraron, los investigadores comenzaron a complementarlos con datos sintéticos: datos generados por el propio modelo. Los datos sintéticos son atractivos porque pueden generar casos extremos poco comunes, reducir el costo del etiquetado manual y producir ejemplos más desafiantes que los que existen naturalmente en los corpus públicos.

El enfoque dominante para generar datos sintéticos ha sido la autoinstrucción, que genera un modelo de lenguaje grande (LLM) utilizando ejemplos de pocas o cero oportunidades para crear nuevas muestras de entrenamiento. Los métodos de autoinstrucción fundamentada ampliaron eso al basar la generación en documentos y otras fuentes para reducir las alucinaciones y aumentar la diversidad. La autoinstrucción de CoT (autoinstrucción en cadena de pensamiento) impulsó aún más el uso del razonamiento en cadena de pensamiento durante la generación para construir tareas más complejas con mayor precisión. Más recientemente, los métodos de “autodesafío” permiten que un agente retador interactúe con herramientas antes de proponer una tarea y las funciones de evaluación que la acompañan: el trabajo previo más cercano a lo que hace Autodata.

¿El problema? Ninguno de estos métodos brindó a los investigadores una forma basada en la retroalimentación para controlar o mejorar de manera iterativa la calidad de los datos durante la generación misma. Se podían filtrar, evolucionar o refinar los datos después del hecho, pero el proceso de generación permaneció en gran medida estático y de un solo paso.

Autodata cambia eso.

https://facebookresearch.github.io/RAM/blogs/autodata/

Qué hace realmente Autodata

Autodata es un método que permite a los agentes de IA actuar como científicos de datos que crean de forma iterativa datos de evaluación y capacitación de alta calidad. En lugar de generar datos en una sola pasada, el agente ejecuta una canalización de circuito cerrado modelada según cómo trabaja realmente un científico de datos humanos:

Creación de datos: el agente se basa en los documentos fuente proporcionados (trabajos de investigación, códigos, textos legales, etc.) y utiliza herramientas y habilidades aprendidas para generar ejemplos de capacitación o evaluación. Análisis de datos: luego, el agente inspecciona lo que creó: ¿Es correcto este ejemplo? ¿Alta calidad? ¿Suficientemente desafiante? Sintetiza los aprendizajes a nivel de ejemplo y, eventualmente, a nivel de conjunto de datos (¿Es diverso? ¿Mejora un modelo cuando se usa como datos de entrenamiento?). Iteración: utilizando esos aprendizajes, el agente actualiza su receta de generación de datos y retrocede para crear mejores datos. Esto continúa hasta que se cumple un criterio de parada.

La creación de datos agentes proporciona una manera de convertir una mayor computación de inferencia en un entrenamiento de modelos de mayor calidad. Cuanto más cálculo de tiempo de inferencia le proporcione al agente, mejores serán los datos que produzca, una idea clave para los profesionales que gestionan presupuestos de cálculo.

La implementación específica: autoinstrucción agente

La creación de instancias iniciales de Autodata por parte de Meta se llama Agentic Self-Instruct, y su arquitectura se basa en un LLM orquestador principal que coordina cuatro subagentes especializados:

Challenger LLM: genera un ejemplo de entrenamiento (par de entrada + respuesta) basado en un mensaje detallado del agente principal. Weak Solver: un modelo más pequeño y menos capaz que generalmente falla en el ejemplo generado. Strong Solver: un modelo más capaz que se espera que tenga éxito en general. Verificador/juez: evalúa si la salida de cada solucionador cumple con los criterios de calidad, utilizando rúbricas generadas por Challenger LLM.

Una nota de diseño importante: el solucionador Débil y Fuerte puede en realidad ser el mismo LLM operando en diferentes modos. Por ejemplo, a la versión sólida se le puede permitir utilizar un mayor cálculo del tiempo de inferencia, incluido el andamiaje o la agregación, además de tener acceso a información privilegiada, lo que brinda a los profesionales flexibilidad en la forma de definir la separación de capacidades.

Los criterios de aceptación son precisos y requieren múltiples condiciones. Para que un ejemplo sea aceptado en el conjunto de datos, deben cumplirse los cuatro requisitos siguientes:

El verificador de calidad (QV) debe aprobar el ejemplo débil_avg ≤ 65% y max_weak ≤ 75% sin puntuaciones de cero strong_avg ≥ 60% y strong_avg < 95%, asegurando que la pregunta no sea demasiado difícil para todos ni trivialmente fácil para el solucionador fuerte. La brecha strong_avg − débil_avg ≥ 20%

Si alguno de esos umbrales no se cumple, el agente principal envía comentarios específicos al Challenger y vuelve a intentarlo, desde un ángulo de razonamiento diferente. Este ciclo suele ejecutar varias rondas por artículo (mediana de 3 a 5) antes de producir una pregunta aceptada o agotar su presupuesto de pasos.

Los números que importan

Las mejoras en la calidad con respecto a la autoinstrucción CoT estándar son mensurables y significativas.

En CoT Self-Instruct, los dos solucionadores obtienen puntuaciones casi idénticas (débil con un 71,4% y fuerte con un 73,3%, una diferencia de sólo 1,9 puntos porcentuales), lo que demuestra que las preguntas de una sola vez no logran encontrar tareas suficientemente desafiantes para ninguno de los modelos. Agentic Self-Instruct reduce la puntuación débil al 43,7% mientras que eleva la puntuación fuerte al 77,8%, ampliando la brecha a 34 puntos. El ciclo de creación de datos agentes produce preguntas que recompensan específicamente las capacidades más sólidas del modelo, en lugar de preguntas que ambos modelos puedan responder igualmente bien.

El conjunto de datos en sí se produjo procesando más de 10 000 artículos CS del corpus S2ORC (2022+), lo que arrojó 2117 pares de control de calidad que satisfacen todas las limitaciones de calidad y los requisitos de brecha de rendimiento.

Cuando Qwen-3.5-4B se entrenó con GRPO durante aproximadamente una época (tamaño de lote 32, tasa de aprendizaje 1e-6) en datos de autoinstrucciones agentes versus datos de autoinstrucciones CoT, utilizando Kimi-K2.6 como modelo de recompensa para calificar las respuestas según las rúbricas generadas, el modelo entrenado con datos agentes demostró una clara ventaja tanto en conjuntos de pruebas dentro como fuera de distribución.

Metaoptimización: enseñar al agente a ser un mejor científico de datos

Autodata va un nivel más allá. Más allá del ciclo interno de creación de datos, el marco admite la metaoptimización del propio agente científico de datos, utilizando los mismos criterios de calidad del ciclo interno para optimizar el aprovechamiento del agente del ciclo externo (el andamiaje del código del agente, las indicaciones y la lógica de evaluación).

Utilizando un marco de optimización basado en la evolución, el metaoptimizador ejecutó 233 iteraciones en total, de las cuales 126 fueron aceptadas (un arnés mutante solo se agrega a la población si su puntuación de validación excede estrictamente la de su padre). El metaoptimizador utilizó Kimi-K2.6 como analizador (leyendo trayectorias de evaluación completas para diagnosticar patrones de falla sistemáticos) y como implementador, que modificó el arnés del agente a través de un agente de edición de código. La configuración utilizó 50 artículos de capacitación y 25 artículos de validación.

A partir de un aprovechamiento básico que logra una tasa de aprobación de validación del 12,8%, el metaoptimizador descubrió progresivamente cuatro mejoras clave en el aprovechamiento de forma automática:

Aplicación de conocimientos específicos del artículo: las preguntas deben evaluar el conocimiento específico del artículo, no el conocimiento genérico de ML/CS. Se introdujo una autoevaluación: “Si un solucionador pudiera responder correctamente sin leer este artículo específico, la pregunta es demasiado fácil”. Prevención de fugas de contexto: reglas estrictas que requieren que el contexto describa solo el dominio y la configuración del problema, nunca la solución propuesta en el documento. Rúbrica de solo positivo con límite de peso: el optimizador eliminó por completo los criterios de rúbrica de peso negativo, descubriendo que históricamente fallaban y destruían puntuaciones sólidas de los modelos sin mejorar la discriminación. Todos los criterios ahora utilizan pesos enteros positivos con un límite de 7. Formato de rúbrica estructurada: formato JSON estricto para criterios de rúbrica con pesos enteros, eliminando errores de análisis que habían causado fallas de evaluación en iteraciones anteriores.

La progresión del 12,8% al 42,4% de tasa de aprobación validada demuestra que la metaoptimización de las instrucciones del agente científico de datos puede mejorar sustancialmente la calidad de los datos sin ingeniería de aprovechamiento manual.

Consulta los detalles técnicos aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros