MLE-Star (ingeniería de aprendizaje automático a través de la búsqueda y el refinamiento dirigido) es un sistema de agente de vanguardia desarrollado por Google Cloud Investigers para automatizar el diseño y optimización del diseño y optimización de la tubería de aprendizaje automático complejo. Al aprovechar la búsqueda a escala web, el refinamiento de código dirigido y los módulos de verificación robustos, MLE-Star logra un rendimiento incomparable en una variedad de tareas de ingeniería de aprendizaje automático, superando significativamente los agentes de ML autónomos anteriores e incluso los métodos de referencia humanos.
El problema: automatizar la ingeniería de aprendizaje automático
Mientras que los modelos de idiomas grandes (LLM) han incursionado en la generación de códigos y la automatización del flujo de trabajo, los agentes de ingeniería de ML existentes luchan con:
- Excesiva la memoria LLM: Tendiendo a los modelos “familiares” por defecto (por ejemplo, utilizando solo Scikit-Learn para datos tabulares), con vistas a los enfoques de vanguardia específicos de la tarea.
- Iteración gruesa “a la vez”: Los agentes anteriores modifican los scripts completos de una sola vez, que carecen de exploración profunda y específica de componentes de tuberías como ingeniería de características, preprocesamiento de datos o conjunto de modelos.
- Mal error y manejo de fugas: El código generado es propenso a errores, fuga de datos u omisión de archivos de datos proporcionados.
MLE-Star: Innovaciones centrales
MLE-Star presenta varios avances clave sobre soluciones anteriores:
1. Selección de modelo de búsqueda web
En lugar de dibujar únicamente de su “entrenamiento” interno, MLE-Star utiliza una búsqueda externa para recuperar modelos de última generación y fragmentos de código relevante para la tarea y el conjunto de datos proporcionados. Ancla la solución inicial en las mejores prácticas actuales, no solo lo que LLM “recuerda”.
2. Refinamiento de código anidado y dirigido
MLE-Star mejora sus soluciones a través de un proceso de refinamiento de dos bucles:
- Bucle exterior (conducido por ablación): Ejecuta estudios de ablación en el código en evolución para identificar qué componente de tubería (preparación de datos, modelo, ingeniería de características, etc.) más impacta el rendimiento.
- Bucle interno (exploración enfocada): Genadora y prueba las variaciones iterativamente para ese componente, utilizando retroalimentación estructurada.
Esto permite una exploración profunda y componente: EG, ampliamente probando formas de extraer y codificar características categóricas en lugar de cambiar todo ciegamente todo a la vez.
3. Estrategia de conjuntos de autocompleto
MLE-Star propone, implementa y refina métodos nuevos de conjunto mediante la combinación de múltiples soluciones candidatas. En lugar de solo una votación “mejor de N” o promedios simples, utiliza sus habilidades de planificación para explorar estrategias avanzadas (por ejemplo, apilarse con meta-aprendizaje a medida o una búsqueda optimizada de peso).
4. Robustez a través de agentes especializados
- Agente de depuración: Atrapa y corrige automáticamente los errores de Python (trazas) hasta que se ejecute el script o se alcanza los intentos máximos.
- Verificador de fuga de datos: Inspecciona el código para evitar la información de las muestras de prueba o validación que sesgan el proceso de capacitación.
- Verificador de uso de datos: Asegura que el script de solución maximice el uso de todos los archivos de datos proporcionados y modalidades relevantes, mejorando el rendimiento del modelo y la generalización.
Resultados cuantitativos: superar el campo
La efectividad de Mle-Star se valida rigurosamente en el Mle-bench-lite Benchmark (22 competencias desafiantes de Kaggle que abarcan tareas tabulares, de imagen, audio y texto):
| Métrico | MLE-Star (Gemini-2.5-Pro) | Ayudante (mejor línea de base) |
|---|---|---|
| Cualquier tasa de medalla | 63.6% | 25.8% |
| Tasa de medalla de oro | 36.4% | 12.1% |
| Por encima de la mediana | 83.3% | 39.4% |
| Envío válido | 100% | 78.8% |
- MLE-Star logra más del doble de la tasa de soluciones de “medalla” (de nivel superior) en comparación con los mejores agentes anteriores.
- En las tareas de imagen, MLE-Star elige abrumadoramente las arquitecturas modernas (EficeTeNet, VIT), dejando atrás a los distritos más antiguos como resnet, traduciendo directamente a tasas de podio más altas.
- La estrategia de conjunto por sí sola contribuye con un aumento adicional, no solo la selección sino que combina soluciones ganadoras.
Ideas técnicas: por qué gana MLE-Star
- Buscar como base: Al extraer el código de ejemplo y las tarjetas modelo de la web en el momento de ejecución, MLE-Star se mantiene mucho más actualizado, incluyendo automáticamente los nuevos tipos de modelos en sus propuestas iniciales.
- Enfoque guiado por ablación: Medir sistemáticamente la contribución de cada segmento de código permite mejoras “quirúrgicas”, primero en las piezas más impactantes (por ejemplo, codificaciones de características específicas, preprocesamiento avanzado específico del modelo).
- Conjunto adaptativo: El agente del conjunto no solo promedia; Prueba de manera inteligente el apilamiento, los meta-aprendizaje de regresión, la ponderación óptima y más.
- Rigorosos controles de seguridad: La corrección de errores, la prevención de fugas de datos y el uso completo de datos de datos desbloquean los puntajes de validación y prueba mucho más altos, evitando las trampas que viajan en la generación de código LLM de vainilla.
Extensibilidad y humano en el bucle
MLE-Star también es extensible:
- Los expertos humanos pueden inyectar descripciones de modelos de vanguardia para una adopción más rápida de las últimas arquitecturas.
- El sistema se construye en la cima de Google Kit de desarrollo de agentes (ADK)facilitando la adopción e integración de código abierto en ecosistemas de agentes más amplios, como se muestra en el muestras oficiales.
Conclusión
MLE-Star representa un verdadero salto en la automatización de la ingeniería de aprendizaje automático. Al hacer cumplir un flujo de trabajo que comienza con la búsqueda, prueba el código a través de bucles impulsados por la ablación, combina soluciones con conjuntos adaptativos y el código de políticas sale con agentes especializados, supera a la arte anterior e incluso a muchos competidores humanos. Su base de código de código abierto significa que los investigadores y los profesionales de ML ahora pueden integrar y extender estas capacidades de vanguardia en sus propios proyectos, acelerando tanto la productividad como la innovación.
Mira el Papel, Página de Github y Detalle técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.