Google AI presenta CardBench: un sistema de evaluación comparativa integral que incluye más de 20 bases de datos del mundo real y miles de consultas para revolucionar la estimación de cardinalidad aprendida

La estimación de cardinalidad (CE) es crucial para optimizar el rendimiento de las consultas en bases de datos relacionales. Implica predecir la cantidad de resultados intermedios que devolverá una consulta de base de datos, lo que influye directamente en la elección de los planes de ejecución por parte de los optimizadores de consultas. Las estimaciones de cardinalidad precisas son esenciales para seleccionar órdenes de unión eficientes, determinar si se debe utilizar un índice y elegir el mejor método de unión. Estas decisiones afectan significativamente los tiempos de ejecución de las consultas y el rendimiento general de la base de datos. Las estimaciones inexactas pueden generar planes de ejecución deficientes, lo que da como resultado un rendimiento significativamente más lento, a veces de varios órdenes de magnitud. Esto hace que la CE sea un aspecto fundamental de la gestión de bases de datos, con una amplia investigación dedicada a mejorar su precisión y eficiencia.

Sin embargo, el desafío radica en las limitaciones de los métodos actuales para la estimación de cardinalidad. Las técnicas tradicionales de CE, ampliamente utilizadas en los sistemas de bases de datos modernos, se basan en heurísticas y modelos simplificados, como el supuesto de uniformidad de datos e independencia de columnas. Si bien son eficientes desde el punto de vista computacional, estos métodos a menudo necesitan predecir con precisión las cardinalidades, especialmente en consultas complejas que involucran múltiples tablas y filtros. Los modelos de CE aprendidos han surgido como una alternativa prometedora, que ofrece una mejor precisión al aprovechar los enfoques basados ​​en datos. Sin embargo, estos modelos deben superar barreras significativas para su adopción en entornos prácticos. Los altos costos de capacitación, la necesidad de grandes conjuntos de datos y un punto de referencia sistemático para evaluar el rendimiento de estos modelos en diversas bases de datos han obstaculizado su uso generalizado.

Los métodos existentes, incluidos los enfoques tradicionales basados ​​en heurísticas, se han complementado con modelos aprendidos que utilizan características específicas de cada instancia de los datos. Estos modelos aprendidos pueden mejorar la precisión, pero a menudo a costa de requisitos de entrenamiento extensos. Por ejemplo, los enfoques basados ​​en la carga de trabajo requieren ejecutar decenas de miles de consultas para recopilar cardinalidades verdaderas para el entrenamiento, lo que genera costos computacionales significativos. Los métodos basados ​​en datos más recientes intentan modelar la distribución de datos dentro y entre tablas sin ejecutar consultas, lo que reduce algunos costos, pero aún requiere un nuevo entrenamiento a medida que cambian los datos. A pesar de estos avances, la falta de un punto de referencia integral ha dificultado la comparación de diferentes modelos y la evaluación de su generalización en varios conjuntos de datos.

Los investigadores de Google Inc. han presentado Banco de tarjetasun punto de referencia diseñado para abordar la necesidad de un marco de evaluación sistemático para los modelos de estimación de cardinalidad aprendidos. CardBench es un punto de referencia integral que incluye miles de consultas en 20 bases de datos distintas del mundo real, significativamente más que cualquier punto de referencia anterior. Esto permite una evaluación más exhaustiva de los modelos CE aprendidos en diversas condiciones. El punto de referencia admite tres configuraciones clave: modelos basados ​​en instancias, que se entrenan en un solo conjunto de datos; modelos zero-shot, que se entrenan previamente en múltiples conjuntos de datos y luego se prueban en un conjunto de datos no visto; y modelos ajustados, que se entrenan previamente y luego se ajustan con una pequeña cantidad de datos del conjunto de datos de destino.

El diseño de CardBench incluye herramientas para calcular las estadísticas de datos necesarias, generar consultas SQL realistas y crear gráficos de consultas anotados para entrenar modelos CE. El benchmark ofrece dos conjuntos de datos de entrenamiento: uno para consultas de una sola tabla con múltiples predicados de filtro y otro para consultas de unión binaria que involucran dos tablas. El benchmark incluye 9125 consultas de una sola tabla y 8454 consultas de unión binaria para uno de sus conjuntos de datos más pequeños, lo que garantiza un entorno sólido y desafiante para la evaluación de modelos. Las etiquetas de datos de entrenamiento, derivadas de Google BigQuery, requirieron siete años de tiempo de ejecución de consultas de CPU, lo que destaca la importante inversión computacional en la creación de este benchmark. Al proporcionar estos conjuntos de datos y herramientas, CardBench reduce la barrera para los investigadores interesados ​​en desarrollar y probar nuevos modelos CE.

Las evaluaciones de rendimiento realizadas con CardBench muestran resultados prometedores, en particular para los modelos ajustados. Si bien los modelos zero-shot tienen dificultades con la precisión cuando se aplican a conjuntos de datos no vistos, especialmente en consultas complejas que involucran uniones, los modelos ajustados logran una precisión comparable a la de los métodos basados ​​en instancias con muchos menos datos de entrenamiento. Por ejemplo, los modelos de red neuronal de grafos (GNN) ajustados lograron un error q mediano de 1,32 y un error q del percentil 95 de 120 en consultas de unión binaria, superando significativamente a los modelos zero-shot. Los resultados sugieren que ajustar los modelos preentrenados puede mejorar sustancialmente su rendimiento incluso con 500 consultas. Esto los hace viables para aplicaciones prácticas donde los datos de entrenamiento pueden ser limitados.

En conclusión, CardBench representa un avance significativo en la estimación de cardinalidad aprendida. Los investigadores pueden evaluar y comparar sistemáticamente diferentes modelos de CE al proporcionar un punto de referencia integral y diverso, lo que fomenta una mayor innovación en esta área crítica. La capacidad del punto de referencia para admitir modelos ajustados, que requieren menos datos y tiempo de entrenamiento, ofrece una solución práctica para aplicaciones del mundo real donde el costo de entrenar nuevos modelos puede ser prohibitivo.


Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.