Escalar modelos de IA: combatir el colapso con datos sintéticos reforzados

A medida que los datos generados por IA complementan o incluso reemplazan cada vez más los datos anotados por humanos, han surgido preocupaciones sobre la degradación del rendimiento del modelo cuando los modelos se entrenan de forma iterativa con datos sintéticos. El colapso del modelo se refiere a este fenómeno en el que el rendimiento de un modelo se deteriora significativamente cuando se entrena con datos sintetizados generados mediante el modelo. Este problema es importante porque obstaculiza el desarrollo de métodos más eficientes y eficaces para desarrollar resúmenes de alta calidad a partir de grandes volúmenes de datos de texto.

Los métodos actuales para contrarrestar el colapso del modelo implican varios enfoques, incluido el uso de aprendizaje por refuerzo con retroalimentación humana (RLHF), curación de datos e ingeniería rápida. RLHF aprovecha la retroalimentación humana para garantizar la calidad de los datos utilizados para la capacitación, manteniendo o mejorando así el rendimiento del modelo. RLHF ha mejorado con éxito el rendimiento del modelo al garantizar que el modelo aprenda de datos de alta calidad aprobados por humanos. Sin embargo, este enfoque es costoso y no escalable, ya que depende en gran medida de anotadores humanos.

Otro método implica una cuidadosa selección y filtrado de datos sintetizados. Esto puede incluir el uso de heurísticas o reglas predefinidas para descartar datos irrelevantes o de baja calidad antes de utilizarlos para el entrenamiento. Si bien este método puede ayudar a mitigar el impacto negativo de los datos sintetizados de baja calidad, a menudo requiere un esfuerzo significativo para mantener la calidad del conjunto de datos de entrenamiento y solo elimina parcialmente el riesgo de colapso del modelo si los criterios de filtrado son lo suficientemente sólidos. Además, la ingeniería de indicaciones es una técnica que implica la elaboración de indicaciones específicas que guían el modelo para generar resultados de mayor calidad. La ingeniería rápida no es un método infalible y puede verse limitada por los sesgos y debilidades inherentes del modelo en sí. Y a menudo requiere conocimiento experto y experimentación iterativa para lograr resultados óptimos.

Para abordar estas limitaciones, un equipo de investigadores de Meta AI, NYU y la Universidad de Pekín proponen un método que incorpora retroalimentación sobre datos sintetizados, con el objetivo de prevenir el colapso del modelo mediante técnicas de refuerzo. Su enfoque implica el uso de mecanismos de retroalimentación para seleccionar o podar datos sintetizados, asegurando que solo se utilicen datos de alta calidad para capacitación adicional. Este método se postula como una alternativa más eficiente y escalable que RLHF, ya que puede automatizarse parcial o totalmente.

El núcleo de la metodología propuesta radica en mejorar los datos sintetizados a través de mecanismos de retroalimentación, que pueden ser humanos u otros modelos. Los investigadores proporcionan un marco teórico que demuestra que un modelo de clasificación de mezclas gaussianas puede lograr un rendimiento óptimo cuando se entrena con datos sintetizados con retroalimentación aumentada.

Dos experimentos prácticos validan las predicciones teóricas. El primer experimento implica entrenar transformadores para calcular valores propios de matrices, una tarea que experimenta un colapso del modelo cuando se entrena con datos puramente sintetizados. El rendimiento del modelo mejora significativamente al eliminar las predicciones incorrectas y seleccionar las mejores conjeturas a partir de datos sintetizados, lo que demuestra la eficacia del refuerzo mediante la selección de datos. El segundo experimento se centra en el resumen de noticias con modelos de lenguaje grandes (LLM) como LLaMA-2. Aquí, los datos aumentados con retroalimentación evitan la degradación del rendimiento, incluso cuando aumenta el volumen de datos sintetizados, lo que respalda la hipótesis de que el refuerzo es crucial para mantener la integridad del modelo.

Los investigadores emplean una estrategia de decodificación para generar resúmenes y evaluar su desempeño utilizando la métrica Rouge-1. También utilizan un potente modelo verificador, Llama-3, para seleccionar los datos mejor sintetizados para el entrenamiento. Los resultados muestran que el método propuesto supera significativamente al modelo original entrenado con el conjunto de datos completo, incluso cuando se utiliza solo el 12,5% de los datos. Se observó que el modelo entrenado con datos sintetizados seleccionados por el oráculo logra el mejor rendimiento, lo que indica que el método propuesto mitiga efectivamente el colapso del modelo. Este es un hallazgo importante, ya que sugiere que, cuando se refuerzan adecuadamente, los datos sintéticos de alta calidad pueden igualar y potencialmente superar la calidad de los datos generados por humanos.

La investigación ofrece una solución prometedora al problema del colapso del modelo en los LLM formados con datos sintetizados. Al incorporar mecanismos de retroalimentación para mejorar la calidad de los datos sintéticos, el método propuesto garantiza un rendimiento sostenido del modelo sin la necesidad de una intervención humana extensa. Este enfoque proporciona una alternativa escalable y rentable a los métodos RLHF actuales, allanando el camino para sistemas de IA más robustos y confiables en el futuro.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML


Shreya Maji es pasante de consultoría en MarktechPost. Obtuvo su B.Tech en el Instituto Indio de Tecnología (IIT), Bhubaneswar. Entusiasta de la IA, le gusta mantenerse actualizada sobre los últimos avances. Shreya está particularmente interesada en las aplicaciones de la tecnología de punta en la vida real, especialmente en el campo de la ciencia de datos.