Screenshot 2024 03 28 At 12.01.44 Am.png

La contratación de anotadores humanos era una técnica costosa y que requería mucho tiempo y se utilizaba tradicionalmente para crear conjuntos de datos para el ajuste supervisado y el ajuste de instrucciones. Debido al alto costo, sólo unas pocas personas influyentes en el área pudieron crear conjuntos de datos tan completos. Sin embargo, las cosas han cambiado en los últimos meses. Se han desarrollado numerosos conjuntos de datos de ajuste fino sintéticos de primer nivel, siendo GPT-3.5 y GPT-4 las herramientas más comunes.

Los modelos Phi desarrollados por Microsoft fueron pioneros en este ámbito; confiaron en gran medida en datos sintéticos para el entrenamiento. Estos superaron a los modelos más grandes entrenados en conjuntos de datos web durante períodos más largos. Con más de 617.000 descargas en los últimos 30 días, Phi-2 se encuentra entre los 20 modelos más populares en el centro Hugging Face.

Otro inconveniente es el empleo de modelos propietarios para producir los datos, además del hecho de que se sabe muy poco sobre cómo surgieron los conjuntos de datos Phi. Los investigadores de Hugging Face presentan cosmopedia, una base de datos de libros de texto sintéticos, entradas de blogs, historias, blogs y artículos de WikiHow producidos por Mixtral-8x7B-Instruct-v0.1. Es el conjunto de datos sintéticos abiertos más grande hasta la fecha, con más de 25 mil millones de tokens y 30 millones de archivos.

Si bien la creación de datos sintéticos puede parecer simple, resulta muy difícil ampliarlos y al mismo tiempo preservar la diversidad, lo cual es fundamental para lograr el máximo rendimiento. En este trabajo, el equipo generó más de 30 millones cosmopedia mensajes que cubren cientos de temas con una tasa de contenido duplicado de menos del 1%.

Cosmopedia’El objetivo final es proporcionar una enorme cantidad de datos sintéticos completos y de excelente calidad. Para construir las indicaciones de Cosmopedia, los investigadores combinaron dos métodos: condicionamiento sobre datos en línea y condicionamiento sobre fuentes seleccionadas. A esto lo llamaron “datos semilla”, el conjunto original de información utilizado para crear sus condiciones.

Fuentes seleccionadas: Los temas provienen de recursos educativos confiables, incluidos OpenStax, WikiHow, cursos de Stanford y Khan. La principal deficiencia de esta estrategia es su incapacidad de escalar, a pesar de que produce contenido de alta calidad.

Aprovechando la variabilidad en el estilo de audiencia y generación, es posible generar muestras de un solo tema en diferentes formatos (p. ej., libro de texto académico versus publicación de blog) y para diferentes audiencias (p. ej., niños pequeños versus estudiantes universitarios).

Datos web: Dado que los datos web representan más del 80% de Cosmopedia’Según las indicaciones, quedó claro que este enfoque era el más escalable. Utilizando un conjunto de datos similar a RefinedWeb, los investigadores organizaron millones de muestras en línea en 145 grupos. Para cada grupo, determinaron su tema dando a Mixtral extractos de 10 muestras seleccionadas al azar y pidiéndoles que identificaran su tema común.

Después de revisar los grupos, eliminaron aquellos que no cumplían con los estándares de valor educativo. Obituarios, contenido explícito para adultos y chismes de celebridades son algunos ejemplos de contenido que se ha eliminado. Continuaron diciéndole al modelo que creara un libro de texto de acuerdo con el tema de una muestra web en función de su agrupación, y luego construyeron indicaciones.

El equipo condicionó las indicaciones al tema solo la mitad del tiempo y modificó los estilos de audiencia y generación para promover la diversidad y tener en cuenta cualquier etiquetado de tema incompleto. Utilizaron este método para crear 23 millones de mensajes al final.

Las evaluaciones preliminares de los modelos educados utilizando los libros de texto producidos revelaron una ausencia de conocimientos básicos y de sentido común propios de un plan de estudios de escuela primaria. Para abordar esto, los investigadores utilizaron textos de los conjuntos de datos de ajuste de instrucciones UltraChat y OpenHermes2.5 como datos iniciales para las indicaciones y construyeron historias que incorporan el sentido común y el conocimiento cotidiano. Estos conjuntos de datos cubren una amplia variedad de temas.

El equipo utilizó el repositorio de agrupación de texto para aplicar la agrupación de temas a los datos en línea utilizados en las indicaciones de Cosmopedia. Para crear 25 mil millones de tokens de contenido sintético usando Mixtral-8x7B-Instruct-v0.1, utilizan la biblioteca llm-swarm. Hugging Face Hub es utilizado por esta herramienta escalable de generación de datos sintéticos, que utiliza LLM locales o puntos finales de inferencia. Es compatible con las bibliotecas de inferencia vLLM y TGI. En el clúster Hugging Face Science, se utilizó TGI para implementar localmente Mixtral-8x7B en GPU H100. Se necesitaron más de 10.000 horas de GPU para generar Cosmopedia.

El equipo destaca que existe la posibilidad de que las muestras de semillas o los datos de entrenamiento del modelo estén contaminados con puntos de referencia porque se trata de datos sintéticos. Emplean una vía de descontaminación para eliminar muestras de referencia de prueba de su conjunto de datos para superar este problema.

Utilizando una superposición de 10 gramos, pudieron detectar muestras que podrían estar contaminadas, al igual que Phi-1. Después de la recuperación del candidato, los investigadores comparan la muestra del conjunto de datos con el punto de referencia utilizando difflib.SequenceMatcher. Eliminan la muestra si la relación entre la longitud de las subcadenas coincidentes y la longitud de la muestra de referencia es mayor que 0,5. Todos los puntos de referencia que se probaron utilizando el modelo Cosmo-1B, como MMLU, HellaSwag, PIQA, SIQA, Winogrande, OpenBookQA, ARC-Easy y ARC-Challenge, pasaron este procedimiento de descontaminación.

Para la deduplicación y tokenización de datos, utilizaron el paquete datatrove. El entrenamiento del modelo se llevó a cabo utilizando nanotron y la evaluación se realizó mediante lighteval.

El modelo supera a TinyLlama 1.1B en MMLU, ARC-easy, OpenBookQA y ARC-challenge, y está a la par con Qwen-1.5-1B en OpenBookQA y ARC-challenge. Sin embargo, existen diferencias de rendimiento notables en comparación con Phi-1.5, lo que indica una generación sintética de mayor calidad. Estas diferencias podrían atribuirse al LLM empleado para la generación, la cobertura del tema o las indicaciones.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.