Las bases de datos relacionales son parte integral de muchos sistemas digitales y brindan almacenamiento de datos estructurado en diversos sectores, como el comercio electrónico, la atención médica y las redes sociales. Su estructura basada en tablas simplifica el mantenimiento y el acceso a los datos a través de lenguajes de consulta potentes como SQL, lo que las hace cruciales para la gestión de datos. Estas bases de datos sustentan partes importantes de la economía digital, organizando y recuperando de manera eficiente los datos necesarios para las operaciones en diversos campos. Sin embargo, la riqueza de la información relacional en estas bases de datos a menudo se subutiliza debido a la complejidad de manejar múltiples tablas interconectadas.
Un desafío importante en el uso de bases de datos relacionales es la extracción de señales predictivas incorporadas en las intrincadas relaciones entre tablas. Los métodos tradicionales a menudo reducen los datos relacionales a formatos más simples, generalmente una sola tabla. Si bien este proceso simplifica la estructura de los datos, conduce a una pérdida sustancial de información predictiva y requiere la creación de complejos procesos de extracción de datos. Estos procesos son propensos a errores, aumentan la complejidad del software y requieren un esfuerzo manual significativo. En consecuencia, existe una necesidad apremiante de métodos para explotar la naturaleza relacional de los datos sin simplificarlos por completo.
Los métodos existentes para gestionar datos relacionales dependen en gran medida de la ingeniería de características manual. En este enfoque, los científicos de datos transforman minuciosamente los datos sin procesar en formatos adecuados para los modelos de ML. Este proceso requiere mucho trabajo y, a menudo, genera inconsistencias y errores. La ingeniería de características manual también limita la escalabilidad de los modelos predictivos, ya que cada nueva tarea o conjunto de datos requiere una reelaboración sustancial. A pesar de ser el estándar de oro actual, este método es ineficiente y no puede aprovechar al máximo el poder predictivo inherente a las bases de datos relacionales.
Investigadores de la Universidad de Stanford, Kumo.AI y el Instituto Max Planck de Informática presentaron Banco Relun punto de referencia innovador para facilitar el aprendizaje profundo en bases de datos relacionales. Esta iniciativa tiene como objetivo estandarizar la evaluación de modelos de aprendizaje profundo en diversos dominios y escalas. RelBench proporciona una infraestructura integral para desarrollar y probar métodos de aprendizaje profundo relacional (RDL), lo que permite a los investigadores comparar sus modelos con puntos de referencia consistentes.
RelBench aprovecha un enfoque novedoso al convertir bases de datos relacionales en representaciones gráficas, lo que permite el uso de redes neuronales gráficas (GNN) para tareas predictivas. Esta conversión implica la creación de un gráfico temporal heterogéneo donde los nodos representan entidades y los bordes indican relaciones. Las características iniciales de los nodos se extraen utilizando modelos tabulares profundos diseñados para manejar diversos tipos de columnas, como datos numéricos, categóricos y de texto. Luego, la GNN actualiza iterativamente estas incrustaciones de nodos en función de sus vecinos, lo que facilita la extracción de patrones relacionales complejos.
Los investigadores compararon su enfoque RDL con los métodos tradicionales de ingeniería de características manuales en varias tareas predictivas. Los resultados fueron convincentes: los modelos RDL superaron o igualaron consistentemente la precisión de los modelos diseñados manualmente, al tiempo que redujeron drásticamente el esfuerzo humano requerido y las líneas de código en más del 90 %. Por ejemplo, en las tareas de clasificación de entidades, RDL logró puntajes AUROC de 70,45 % y 82,39 % para la pérdida de usuarios y la pérdida de elementos, respectivamente, superando significativamente al clasificador LightGBM tradicional.
En las tareas de regresión de entidades, los modelos RDL demostraron un rendimiento superior. Por ejemplo, el error absoluto medio (MAE) para las predicciones del valor de vida útil del usuario se redujo en más del 14 %, lo que demuestra la precisión y la eficiencia de los modelos RDL. En las tareas de recomendación, los modelos RDL lograron mejoras notables, con puntuaciones de precisión media promedio (MAP) que aumentaron en más del 300 % en algunos casos. Estos resultados subrayan el potencial para automatizar y mejorar las tareas predictivas en bases de datos relacionales, lo que abre nuevas vías para la investigación y la aplicación.
En conclusión, la introducción de RelBench proporciona un punto de referencia estandarizado y una infraestructura integral que permite a los investigadores explotar al máximo el poder predictivo de las bases de datos relacionales. Este punto de referencia mejora la precisión de las predicciones y reduce significativamente el esfuerzo manual necesario, lo que lo convierte en una herramienta transformadora para el campo. Con RelBench, los investigadores han desarrollado soluciones de aprendizaje profundo más eficientes y escalables para conjuntos de datos multitabulares complejos.
Revisar la Papel, GitHub, y DetallesTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit
Encuentra lo próximo Seminarios web sobre IA aquí
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.