Investigadores de Google DeepMind presentan Gecko: un modelo de integración compacto y versátil impulsado por el vasto conocimiento mundial de los LLM

Los esfuerzos para crear modelos que puedan comprender y procesar texto con precisión humana continúan en el procesamiento del lenguaje natural. Entre los desafíos famosos, se destaca uno: crear modelos que puedan convertir de manera eficiente grandes cantidades de información textual en una forma que las máquinas puedan comprender y actuar. Los modelos de incrustación de texto cumplen este propósito al transformar el texto en vectores densos, lo que permite a las máquinas medir la similitud semántica, clasificar documentos y recuperar información según la relevancia del contenido. Sin embargo, la creación de dichos modelos anteriormente dependía de grandes conjuntos de datos anotados manualmente, un proceso que requería mucho tiempo y recursos.

Los investigadores de Google DeepMind presentaron Gecko, un innovador modelo de incrustación de texto. Gecko se distingue por aprovechar los modelos de lenguajes grandes (LLM) para la destilación del conocimiento. A diferencia de los modelos tradicionales que dependen de extensos conjuntos de datos etiquetados, Gecko inicia su proceso de aprendizaje generando datos sintéticos emparejados a través de un LLM. Este paso inicial produce una amplia gama de pares de consultas y pasajes que sientan las bases para un conjunto de datos de capacitación diverso y completo.

El equipo perfecciona aún más la calidad de este conjunto de datos sintéticos empleando el LLM para volver a etiquetar los pasajes, asegurando que cada consulta coincida con el pasaje más relevante. Este proceso de reetiquetado es fundamental, ya que elimina los datos menos relevantes y resalta los pasajes que realmente resuenan con las consultas correspondientes, un método que los modelos tradicionales, limitados por sus conjuntos de datos, a menudo no logran lograr.

Cuando se comparó con Massive Text Embedding Benchmark (MTEB), demostró un rendimiento excepcional, superando a los modelos con tamaños de incrustación más grandes. Gecko, con 256 dimensiones de incrustación, superó a todas las entradas con 768 tamaños de incrustación, y cuando se expandió a 768 dimensiones, obtuvo una puntuación promedio de 66,31. Estas cifras son particularmente impresionantes, considerando que Gecko compite con modelos siete veces más grandes y con dimensiones de empotramiento cinco veces mayores.

El principal avance de Gecko radica en FRet, un conjunto de datos sintéticos ingeniosamente elaborado utilizando LLM. Este conjunto de datos surge de un proceso de dos niveles en el que los LLM generan primero un amplio espectro de pares de consultas y pasajes, simulando diversos escenarios de recuperación. Luego, estos pares se refinan y los pasajes se vuelven a etiquetar para mayor precisión, asegurando que cada consulta se alinee con el pasaje más relevante. FRet aprovecha el vasto conocimiento de los LLM para producir un conjunto de datos diverso y personalizado con precisión para tareas avanzadas de comprensión del lenguaje.

En conclusión, el desarrollo de Gecko marca un avance notable en el empleo de LLM para generar y perfeccionar su conjunto de datos de capacitación. Elimina las limitaciones de las dependencias tradicionales de conjuntos de datos y establece un nuevo punto de referencia para la eficiencia y versatilidad de los modelos de incrustación de texto. El desempeño excepcional del modelo en el MTEB, junto con su enfoque innovador para la generación y el refinamiento de datos, subraya el potencial de los LLM.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.