Screenshot 2024 02 04 At 5.08.09 Pm.png

Los modelos de lenguajes grandes (LLM) han atraído una gran atención y popularidad entre la comunidad de inteligencia artificial (IA) en los últimos meses. Estos modelos han demostrado grandes capacidades en tareas que incluyen resumen de texto, respuesta a preguntas, finalización de código, generación de contenido, etc.

Los LLM frecuentemente reciben capacitación sobre datos inadecuados extraídos de la web. La mayoría de las veces, estos datos son ruidosos, no estructurados y no necesariamente se expresan con claridad. Seguir los principios de escala existentes, que indican que a medida que aumenta el tamaño del modelo, la potencia computacional y la cantidad de datos también deberían aumentar proporcionalmente, constituye un desafío.

Hay dos limitaciones principales. En primer lugar, está el importante coste computacional y el tiempo que implica la formación previa. En segundo lugar, está el problema inminente de la escasez de datos de alta calidad disponibles en Internet. En una investigación reciente, un equipo de investigadores de Apple y la Universidad Carnegie Mellon ha abordado estos problemas introduciendo la idea de preentrenamiento aumentado de reformulación web (WRAP).

WRAP es un método innovador que utiliza un LLM ya existente y adaptado a las instrucciones. Este LLM se utiliza para parafrasear páginas en línea en estilos particulares, incluida la imitación del tono de Wikipedia o la conversión de texto a un formato de respuesta a pregunta. El objetivo principal de WRAP es mejorar la formación previa de los LLM añadiendo datos tanto genuinos como reformulados artificialmente.

Las características principales de WRAP son las siguientes:

  1. Eficiencia del preentrenamiento: la aplicación de WRAP al ruidoso conjunto de datos C4 acelera considerablemente el preentrenamiento, aproximadamente tres veces más rápido. Esta eficacia es fundamental para reducir los altos gastos y el compromiso de tiempo generalmente relacionados con la formación LLM.
  1. Mejora del rendimiento del modelo: WRAP hace que el modelo funcione mejor cuando se ejecuta dentro del mismo presupuesto computacional. Al utilizar diferentes subconjuntos de Pile, un conjunto de datos a gran escala utilizado para capacitar y evaluar LLM reduce la ambigüedad en más del 10%. Mejora la precisión de las preguntas y respuestas en más de un 2 % para 13 actividades diferentes.
  1. Reformulación de documentos web: WRAP utiliza un LLM de tamaño mediano para parafrasear documentos de la web en varios estilos. Este método se diferencia de la creación de nuevos datos porque mejora el contenido ya existente preservando al mismo tiempo la calidad y diversidad de la información original.

Los datos sintéticos producidos por WRAP tienen dos beneficios principales. En primer lugar, incluye una variedad de estilos que reflejan la diversidad de lenguajes utilizados en aplicaciones más adelante. Con esta diversidad, el LLM está mejor preparado para una variedad más amplia de eventos del mundo real. En segundo lugar, los datos sintéticos reformulados son de mayor calidad que los datos sin procesar extraídos de la web. Esta mejora de la calidad resulta de un lenguaje más ordenado y cohesivo, ya que esto promueve un aprendizaje de modelos más eficiente.

En conclusión, WRAP es un gran avance en el campo de la formación previa en LLM. Mediante el uso de datos sintéticos de diferentes estilos y calidad superior, WRAP no solo acelera el proceso de capacitación sino que también mejora el desempeño general de los LLM. Dada la abundancia de datos web de baja calidad y la naturaleza intensiva en recursos de los enfoques clásicos de formación LLM, este enfoque presenta un posible camino a seguir.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.