Hugging Face lanza ml-intern: un agente de inteligencia artificial de código abierto que automatiza el flujo de trabajo posterior a la capacitación de LLM

Hugging Face ha lanzado ml-intern, un agente de inteligencia artificial de código abierto diseñado para automatizar los flujos de trabajo posteriores a la capacitación de un extremo a otro para modelos de lenguaje grandes (LLM). Construida sobre el marco de smolagents de la empresa, la herramienta puede realizar de forma autónoma revisión de literatura, descubrimiento de conjuntos de datos, ejecución de scripts de capacitación y evaluación iterativa, tareas que generalmente requieren un esfuerzo manual significativo por parte de investigadores e ingenieros de ML.

¿Qué hace ml-intern?

El agente opera como un bucle continuo que refleja el flujo de trabajo de un investigador de ML. Comienza explorando arXiv y Hugging Face Papers, leyendo secciones de metodología y recorriendo gráficos de citas para identificar conjuntos de datos y técnicas relevantes. Luego busca en Hugging Face Hub conjuntos de datos a los que se hace referencia, inspecciona su calidad y los reformatea para su capacitación. Cuando la computación local no está disponible, el agente puede iniciar trabajos a través de Hugging Face Jobs. Después de cada ejecución de capacitación, lee los resultados de la evaluación, diagnostica fallas (como el colapso de las recompensas en los canales de RLHF) y vuelve a capacitarse hasta que mejora el rendimiento de las pruebas comparativas.

Toda la pila de monitoreo se basa en Trackio, un rastreador de experimentos nativo de Hub posicionado como una alternativa de código abierto a Weights & Biases.

Rendimiento en PostTrainBench

ml-intern se evaluó con PostTrainBench, un punto de referencia introducido por investigadores de la Universidad de Tubinga y el Instituto Max Planck. El punto de referencia prueba la capacidad de un agente para entrenar posteriormente un modelo base dentro de un período estricto de 10 horas en una sola GPU H100.

En la demostración de lanzamiento oficial, ml-intern tomó el modelo base Qwen3-1.7B (que obtiene una puntuación de referencia de aproximadamente el 10 % en GPQA) y lo llevó al 32 % en menos de 10 horas. El progreso del agente fue notablemente rápido, superando la marca del 27,5% en poco más de 3 horas.

Este resultado es particularmente significativo en comparación con el SOTA existente. Los datos de Hugging Face muestran que el agente superó a Claude Code, que actualmente se encuentra en un punto de referencia del 22,99% en la misma tarea. Mientras que el artículo más amplio de PostTrainBench registró un máximo del 33% utilizando el Gemma-3-4B más grande, la capacidad de ml-intern para extraer el 32% del pequeño modelo Qwen de 1.7B demuestra un nivel de “eficiencia de datos” que los investigadores manuales a menudo luchan por replicar en un período de tiempo tan corto.

https://x.com/akseljoonas/status/2046543093856412100

Enfoques técnicos: datos sintéticos y GRPO

Vale la pena destacar para los profesionales dos estrategias técnicas que ml-intern demostró en demostraciones publicadas.

Generación de datos sintéticos: en una prueba en el ámbito de la atención médica, el agente evaluó los conjuntos de datos médicos disponibles, determinó que su calidad era insuficiente para un ajuste confiable y escribió un guión para generar ejemplos de capacitación sintéticos centrados en casos extremos, incluido el lenguaje de cobertura médica y escenarios de respuesta de emergencia multilingües. Luego, aumentó la muestra de estos datos para aumentar la distribución de la capacitación antes de evaluarla en HealthBench.

RLHF autónomo a través de GRPO: en una prueba de dominio matemático, el agente implementó un script de entrenamiento de optimización de políticas relativas al grupo (GRPO), una técnica que realiza aprendizaje reforzado a partir de comentarios humanos con una menor sobrecarga de memoria que el PPO estándar. El agente inició un entrenamiento en las GPU A100, supervisó las curvas de recompensa y realizó ablaciones para aislar los componentes efectivos antes de finalizar el punto de control.

Conclusiones clave

Bucle de investigación autónomo: el agente replica todo el flujo de trabajo de aprendizaje automático, desde realizar revisiones de literatura en arXiv y atravesar gráficos de citas hasta ejecutar ejecuciones de entrenamiento de forma autónoma y diagnosticar fallas. Ganancias significativas en razonamiento: en menos de 10 horas, el agente impulsó la puntuación de razonamiento científico de un modelo Qwen3-1.7B en el punto de referencia GPQA del 8,5% al ​​32%, superando los resultados GPQA específicos de Claude Code (22,99%). Estrategias de capacitación avanzadas: más allá del simple ajuste, ml-intern puede generar datos sintéticos de alta calidad para casos extremos e implementar técnicas complejas como la optimización de políticas relativas al grupo (GRPO) para optimizar el rendimiento matemático. Integración nativa del ecosistema: construida sobre el marco de smolagents, la herramienta se integra de forma nativa con Hugging Face Jobs para computación y utiliza Trackio para el seguimiento de experimentos de código abierto.

Consulte la aplicación y la CLI. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros