Avance de modelos de lenguaje grandes para la base estructurada del conocimiento con StructLM: modelo basado en la arquitectura CodeLlama

No podemos negar los importantes avances logrados en el procesamiento del lenguaje natural (PLN) a través de grandes modelos de lenguaje (LLM). Aún así, estos modelos a menudo necesitan ponerse al día cuando se enfrentan a las complejidades de la información estructurada, lo que pone de relieve una brecha notable en sus capacidades. El quid de la cuestión radica en las limitaciones inherentes de los LLM, como ChatGPT, que necesitan ponerse al día con los modelos más modernos por un margen significativo cuando se les asigna la tarea de fundamentar el conocimiento de fuentes estructuradas. Esta deficiencia subraya la necesidad de enfoques más nuevos e innovadores para mejorar las capacidades de base de conocimiento estructurado (SKG) de los LLM, permitiéndoles comprender y utilizar datos estructurados de manera más efectiva.

Se han desarrollado varios métodos para resolver tareas de SKG, incluido el aprendizaje de representaciones contextuales de datos tabulares, la integración de la autoatención consciente de las relaciones y la realización de capacitación previa sobre datos tabulares/de base de datos. Los avances recientes se han centrado en unificar las tareas de SKG en un formato de secuencia a secuencia y en el uso de marcos de indicaciones en LLM potentes para una resolución de tareas más sólida y precisa. El ajuste de instrucciones (TI) se ha utilizado para mejorar la controlabilidad y previsibilidad de los LLM, alineándolos con las expectativas de los usuarios y mejorando el desempeño de las tareas posteriores.

Un equipo de investigadores de la Universidad de Waterloo y la Universidad Estatal de Ohio han presentado StructLM, un modelo novedoso diseñado para cerrar la brecha en las capacidades de SKG. Aprovechando un conjunto de datos de ajuste de instrucciones integral que comprende más de 1,1 millones de ejemplos, StructLM está entrenado con la arquitectura CodeLlama, que varía de parámetros 7B a 34B, para superar los modelos de tareas específicas en un espectro de conjuntos de datos.

El equipo de investigación seleccionó un conjunto de datos diverso para StructLM, centrándose en SKG en 25 tareas, como la generación de datos a texto y el control de calidad basado en tablas. Este conjunto de datos, que contiene alrededor de 700.000 ejemplos de SKG, les permitió evaluar los modelos en 18 tareas retenidas y desarrollarlos para seis tareas retenidas. Aplicaron un sistema uniforme en todos los ejemplos y un conjunto de variaciones de instrucciones aleatorias para cada conjunto de datos. Para realizar ajustes, emplearon GPU A800 durante tres épocas, enfocándose en mantener una longitud de secuencia máxima constante para las fases de entrenamiento e inferencia, asegurando una cobertura integral y un procesamiento eficiente de las tareas de datos estructurados.

Los resultados revelan que StructLM supera a los modelos existentes a la hora de fundamentar el conocimiento estructurado y no estructurado, estableciendo nuevos puntos de referencia en 14 de los 18 conjuntos de datos evaluados. El ajuste de diferentes tipos de datos con la misma tarea produce mejores resultados en comparación con los modelos de tarea única, incluso entre diferentes tipos de conocimiento. StructLM muestra un sólido rendimiento de generalización, superando a ChatGPT en 5 de 6 tareas pendientes. Estos logros resaltan el rendimiento superior del modelo y su potencial para redefinir el panorama de interpretación de datos estructurados de los LLM.

En conclusión, el desarrollo de StructLM es un avance importante en los esfuerzos por mejorar las capacidades SKG de los LLM. Se trata de una serie de modelos desarrollados en base a la arquitectura CodeLlama. Supera los modelos de tareas específicas en 14 de los 18 conjuntos de datos evaluados y establece nuevos logros de vanguardia en 7 tareas SKG. A pesar de estos avances, los investigadores reconocen las limitaciones en la diversidad de los conjuntos de datos y las métricas de evaluación, lo que subraya la necesidad continua de tipos de datos estructurados más amplios y heterogéneos para un mayor desarrollo sólido del modelo SKG.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….

Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Avance de modelos de lenguaje grandes para la base estructurada del conocimiento con StructLM: modelo basado en la arquitectura CodeLlama

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Construí mi primer canal ETL como un completo principiante. He aquí cómo.

WorkOS lanza auth.md: un protocolo de registro de agente abierto basado en estándares OAuth

StepFun lanza StepAudio 2.5 Realtime: un modelo de voz de extremo a extremo con RLHF específico para juegos de rol y comprensión paralingüística

You missed

Un medicamento común para la diabetes está relacionado con una “longevidad excepcional” en las mujeres: ScienceAlert

Preocupante aumento del vapeo entre adolescentes

¿Meenakshi Seshadri regresará a Bollywood después de 30 años?

La psilocibina prepara el cerebro para hacer que los medicamentos comunes para el dolor de los nervios funcionen mucho mejor