Cómo los datos de alta calidad impactan cada aspecto del proceso de capacitación LLM…
Los modelos de lenguajes grandes (LLM) existen desde hace bastante tiempo, pero sólo recientemente su impresionante rendimiento ha merecido una atención significativa por parte de la comunidad de IA en general. Teniendo esto en cuenta, podríamos empezar a cuestionar el origen del actual movimiento LLM. ¿Qué fue lo que realmente hizo que los modelos recientes fueran tan impresionantes en comparación con sus predecesores? Aunque algunos pueden argumentar que hay una variedad de factores diferentes, un avance especialmente impactante fue la capacidad de realizar la alineación. En otras palabras, descubrimos cómo entrenar a los LLM no solo para que generen la siguiente palabra más probable, sino también para que generen un texto que satisfaga los objetivos de un ser humano, ya sea siguiendo una instrucción o recuperando información importante.
“Nuestra hipótesis es que la alineación puede ser un proceso simple en el que el modelo aprende el estilo o formato para interactuar con los usuarios, para exponer el conocimiento y las capacidades que ya se adquirieron durante el entrenamiento previo”. – de [1]
Esta descripción general estudiará el papel y el impacto de la alineación, así como la interacción entre la alineación y la capacitación previa. Curiosamente, estas ideas fueron exploradas por el reciente modelo LIMA. [1], que realiza la alineación simplemente ajustando un LLM previamente entrenado sobre un corpus curado semimanualmente de solo 1000 ejemplos de respuestas de alta calidad. Aprenderemos que el proceso de alineación, aunque crítico, le enseña principalmente a un LLM la gobernabilidad y el comportamiento o estilo correcto, mientras que la mayor parte del conocimiento se adquiere durante la capacitación previa. Como tal, la alineación se puede realizar con éxito incluso con datos de entrenamiento mínimos. Sin embargo, veremos que el impacto de la calidad y diversidad de los datos tanto en la alineación como en otras vías de formación de LLM (por ejemplo, formación previa, ajuste, etc.) es absolutamente enorme.
“Los LLM se capacitan en dos etapas: (1) entrenamiento previo no supervisado a partir de texto sin formato, para aprender representaciones de propósito general, y (2) ajuste de instrucciones a gran escala y aprendizaje reforzado, para alinearse mejor con las tareas finales y las preferencias del usuario”. – de [1]
Aunque los modelos de lenguaje se han estudiado desde diferentes perspectivas en los últimos meses, la creación de estos…