De 100,000 a menos de 500 etiquetas: cómo Google AI corta datos de entrenamiento LLM por órdenes de magnitud




La investigación de Google ha presentado Un método innovador para ajustar los modelos de idiomas grandes (LLM) que reduce la cantidad de datos de capacitación requeridos en hasta 10,000xmientras mantiene o incluso mejora la calidad del modelo. Este enfoque se centra en el aprendizaje activo y el enfoque de los esfuerzos de etiquetado de expertos en los ejemplos más informativos: los “casos límite” donde la incertidumbre del modelo alcanza su punto máximo.

El cuello de botella tradicional

Los LLM de ajuste fino para las tareas que exigen una comprensión contextual y cultural profunda, como la seguridad o moderación del contenido de anuncios, generalmente ha requerido conjuntos de datos etiquetados masivos y de alta calidad. La mayoría de los datos son benignos, lo que significa que para la detección de violación de políticas, solo una pequeña fracción de ejemplos es importante, lo que aumenta el costo y la complejidad de la curación de datos. Los métodos estándar también luchan para mantenerse al día cuando las políticas o patrones problemáticos cambian, lo que requiere un costo reentrenamiento.

El avance de aprendizaje activo de Google

Cómo funciona:

  • Llm-as-scout: El LLM se usa para escanear un vasto corpus (cientos de miles de millones de ejemplos) e identificar casos de los que es menos seguro.
  • Etiquetado de expertos dirigidos: En lugar de etiquetar miles de ejemplos aleatorios, los expertos humanos solo anotan esos elementos límite y confusos.
  • Curación iterativa: Este proceso se repite, con cada lote de nuevos ejemplos “problemáticos” informados por los puntos de confusión del último modelo.
  • Convergencia rápida: Los modelos se ajustan en múltiples rondas, y la iteración continúa hasta que la producción del modelo se alinea estrechamente con el juicio experto, medido por Kappa de Cohen, que compara el acuerdo entre los anotadores más allá del azar.
Fuente de la imagen: https://research.google/blog/achieving-10000x-training-data-reduction-hith-high-fidelity-labels/

Impacto:

  • Las necesidades de datos Plummet: En experimentos con modelos Gemini Nano-1 y Nano-2, la alineación con expertos humanos alcanzó la paridad o mejor utilizando 250–450 ejemplos bien elegidos En lugar de ~ 100,000 etiquetas de crowdsourcing aleatorios, una reducción de tres a cuatro órdenes de magnitud.
  • Aumentos de calidad del modelo: Para tareas más complejas y modelos más grandes, las mejoras de rendimiento alcanzaron el 55-65% sobre el inicio, lo que demuestra una alineación más confiable con los expertos en políticas.
  • Eficiencia de la etiqueta: Para ganancias confiables utilizando pequeños conjuntos de datos, la alta calidad de la etiqueta fue consistentemente necesaria (Kappa de Cohen> 0.8).

Por que importa

Este enfoque voltea el paradigma tradicional. En lugar de ahogar modelos en grandes grupos de datos ruidosos y redundantes, aprovecha la capacidad de ambos LLM para identificar casos ambiguos y la experiencia de dominio de los anotadores humanos donde su aporte es más valioso. Los beneficios son profundos:

  • Reducción de costos: Vastamente menos ejemplos para etiquetar, reduciendo drásticamente el gasto laboral y de capital.
  • Actualizaciones más rápidas: La capacidad de capacitar modelos en un puñado de ejemplos hace que la adaptación a los nuevos patrones de abuso, los cambios de política o los cambios de dominio sean rápidos y factibles.
  • Impacto social: La capacidad mejorada para la comprensión contextual y cultural aumenta la seguridad y la confiabilidad de los sistemas automatizados que manejan el contenido sensible.

En resumen

La nueva metodología de Google permite el ajuste fino de LLM en tareas complejas, evolucionando con solo cientos (no cientos de miles) de etiquetas dirigidas y de alta fidelidad, que anulan el desarrollo del modelo mucho más delgado, más ágil y rentable.



Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.