rLLM (relationLLM): una biblioteca de PyTorch diseñada para el aprendizaje de tablas relacionales (RTL) con modelos de lenguaje grandes (LLM)

Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) han surgido como herramientas poderosas en inteligencia artificial, demostrando capacidades notables para comprender y generar texto. Estos modelos utilizan tecnologías avanzadas como el preentrenamiento no supervisado a escala web, el ajuste fino de instrucciones y la alineación de valores, mostrando un sólido desempeño en diversas tareas. Sin embargo, la aplicación de los LLM a los macrodatos del mundo real presenta desafíos significativos, principalmente debido a los enormes costos involucrados. Para 2025, se proyecta que el costo total de los LLM alcance casi los 5.000 billones de dólares, superando ampliamente el PIB de las principales economías. Esta carga financiera es particularmente pronunciada en el procesamiento de texto y datos estructurados, que representan una parte sustancial de los gastos a pesar de ser menores en volumen en comparación con los datos multimedia. Como resultado, ha habido un enfoque creciente en el aprendizaje de tablas relacionales (RTL, por sus siglas en inglés) en los últimos años, dado que las bases de datos relacionales albergan aproximadamente el 73% de los datos del mundo.

Investigadores de la Universidad Jiao Tong de Shanghai y la Universidad de Tsinghua presentan Proyecto rLLM (relationLLM)que aborda los desafíos en RTL al proporcionar una plataforma para el desarrollo rápido de métodos de tipo RTL utilizando LLM. Este enfoque innovador se centra en dos funciones clave: descomponer las redes neuronales de grafos (GNN), LLM y redes neuronales de tablas (TNN) de última generación en módulos estandarizados, y permitir la construcción de modelos robustos a través de una metodología de “combinar, alinear y co-entrenar”. Para demostrar la aplicación de rLLM, se presenta un método RTL simple llamado BRIDGE. BRIDGE procesa datos de tablas utilizando TNN y utiliza “claves externas” en tablas relacionales para establecer relaciones entre muestras de tablas, que luego se analizan utilizando GNN. Este método considera múltiples tablas y sus interconexiones, lo que proporciona un enfoque integral para el análisis de datos relacionales. Además, para abordar la escasez de conjuntos de datos en el campo emergente de RTL, el proyecto presenta una colección de datos robusta llamada SJTUTables, que comprende tres conjuntos de datos de tablas relacionales: TML1M, TLF2K y TACM12K.

El proyecto rLLM presenta una arquitectura integral que consta de tres capas principales: la capa de motor de datos, la capa de módulo y la capa de modelo. Esta estructura está diseñada para facilitar el procesamiento y análisis eficiente de datos de tablas relacionales.

La capa de motor de datos constituye la base y se centra en las estructuras de datos fundamentales para los datos de gráficos y tablas. Desacopla la carga y el almacenamiento de datos a través de las subclases Dataset y BaseGraph/BaseTable, respectivamente. Este diseño permite un manejo flexible de varios tipos de datos de gráficos y tablas, optimizando el almacenamiento y el procesamiento tanto de gráficos homogéneos como heterogéneos, así como de datos de tablas.

La capa de módulo descompone las operaciones de GNN, LLM y TNN en submódulos estándar. Para GNN, incluye GraphTransform para el preprocesamiento y GraphConv para implementar capas de convolución de gráficos. Los módulos LLM comprenden un Predictor para la anotación de datos y un Enhancer para la ampliación de datos. Los módulos TNN cuentan con TableTransform para mapear características a espacios de dimensiones superiores y TableConv para el aprendizaje interactivo de múltiples capas entre columnas de características.

BRIDGE demuestra la aplicación de rLLM en métodos de tipo RTL. Aborda la complejidad de las bases de datos relacionales mediante el procesamiento de características tanto de tabla como de no tabla. Un codificador de tablas, que utiliza los módulos TableTransform y TableConv, maneja datos de tablas heterogéneas para producir incrustaciones de tablas. Un codificador de gráficos, que emplea los módulos GraphTransform y GraphConv, modela relaciones de claves externas y genera incrustaciones de gráficos. BRIDGE integra las salidas de ambos codificadores, lo que permite el modelado simultáneo de datos de múltiples tablas y sus interconexiones. El marco admite enfoques de capacitación supervisados ​​y no supervisados, y se adapta a varios escenarios de datos y objetivos de aprendizaje.

Los resultados experimentales revelan las limitaciones de las redes neuronales transcripcionales tradicionales de una sola tabla para procesar datos de tablas relacionales. Estas redes neuronales transcripcionales, limitadas al aprendizaje a partir de una única tabla de destino, no aprovechan la abundante información disponible en múltiples tablas y sus interconexiones, lo que da como resultado un rendimiento subóptimo. Por el contrario, el algoritmo BRIDGE demuestra capacidades superiores al combinar eficazmente un codificador de tablas con un codificador de gráficos. Este enfoque integrado permite a BRIDGE extraer información valiosa tanto de las tablas individuales como de sus relaciones. En consecuencia, BRIDGE logra una mejora significativa del rendimiento en comparación con los métodos convencionales, lo que resalta la importancia de considerar la estructura relacional de los datos en las tareas de aprendizaje de tablas.

El marco rLLM introduce un enfoque sólido para el aprendizaje de tablas relacionales mediante modelos de lenguaje de gran tamaño. Integra métodos avanzados y optimiza las estructuras de datos para mejorar la eficiencia. El proyecto invita a la colaboración de investigadores e ingenieros de software para ampliar sus capacidades y aplicaciones en el campo del análisis de datos relacionales.


Revisar la Papel y GitHubTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.