Screenshot 2024 08 29 At 11.22.32 Pm.png

Los sistemas de IA que integran el procesamiento del lenguaje natural con la gestión de bases de datos pueden generar un valor significativo al permitir a los usuarios consultar fuentes de datos personalizadas utilizando lenguaje natural. Los métodos actuales, como Text2SQL y Retrieval-Augmented Generation (RAG), son limitados y solo manejan un subconjunto de consultas: Text2SQL aborda consultas traducibles al álgebra relacional, mientras que RAG se centra en búsquedas puntuales dentro de las bases de datos. Estos métodos a menudo no son suficientes para las preguntas complejas que requieren conocimiento del dominio, razonamiento semántico o conocimiento del mundo. Los sistemas eficaces deben combinar la precisión computacional de las bases de datos con las capacidades de razonamiento de los modelos de lenguaje, manejando consultas complejas más allá de las simples búsquedas puntuales u operaciones relacionales.

Los investigadores de la Universidad de California en Berkeley y la Universidad de Stanford proponen la Generación Aumentada por Tablas (TAG), un nuevo paradigma para responder a preguntas en lenguaje natural sobre bases de datos. TAG introduce un enfoque unificado que implica tres pasos: traducir la consulta del usuario en una consulta de base de datos ejecutable (síntesis de consulta), ejecutar esta consulta para recuperar datos relevantes (ejecución de consulta) y utilizar estos datos junto con la consulta para generar una respuesta en lenguaje natural (generación de respuesta). A diferencia de Text2SQL y RAG, que se limitan a casos específicos, TAG aborda una gama más amplia de consultas. Los puntos de referencia iniciales muestran que los métodos existentes logran una precisión inferior al 20%, mientras que las implementaciones de TAG pueden mejorar el rendimiento entre un 20% y un 65%, lo que destaca su potencial.

La investigación de Text2SQL, que incluye conjuntos de datos como WikiSQL, Spider y BIRD, se centra en convertir consultas de lenguaje natural en SQL, pero no aborda consultas que requieren razonamiento o conocimiento adicionales. RAG mejora los modelos de lenguaje aprovechando colecciones de texto externas, con modelos como la recuperación de tablas densas (DTR) y la recuperación de tablas con reconocimiento de uniones que extienden RAG a los datos tabulares. Sin embargo, TAG se expande más allá de estos métodos al integrar capacidades de modelos de lenguaje en la ejecución de consultas y operaciones de bases de datos para cálculos exactos. Las investigaciones anteriores sobre datos semiestructurados y asistentes de datos agénticos exploran conceptos relacionados, pero TAG apunta a aprovechar una gama más amplia de capacidades de modelos de lenguaje para diversos tipos de consultas.

El modelo TAG responde a las consultas en lenguaje natural siguiendo tres pasos principales: síntesis de la consulta, ejecución de la consulta y generación de la respuesta. En primer lugar, traduce la consulta del usuario en una consulta de base de datos (síntesis de la consulta). A continuación, ejecuta esta consulta para recuperar los datos relevantes de la base de datos (ejecución de la consulta). Por último, utiliza los datos recuperados y la consulta original para generar una respuesta en lenguaje natural (generación de la respuesta). TAG va más allá de los métodos tradicionales como Text2SQL y RAG al incorporar razonamiento complejo e integración de conocimientos. Admite varios tipos de consultas, modelos de datos y motores de ejecución y explora patrones de generación iterativos y recursivos para mejorar la respuesta a las consultas.

Al evaluar el modelo TAG, se creó un punto de referencia utilizando consultas modificadas del conjunto de datos BIRD para probar el razonamiento semántico y el conocimiento del mundo. El punto de referencia incluyó 80 consultas, divididas equitativamente entre aquellas que requerían conocimiento del mundo y razonamiento. El modelo TAG escrito a mano superó de manera constante a otros métodos, logrando hasta un 55 % de precisión en general y demostrando un rendimiento superior en consultas de comparación. Otras líneas de base, incluidas Text2SQL, RAG y Retrieval + LM Rank, tuvieron dificultades, especialmente con consultas de razonamiento, mostrando una precisión menor y tiempos de ejecución más altos. El modelo TAG escrito a mano también logró el tiempo de ejecución más rápido y proporcionó respuestas completas, particularmente en consultas de agregación.

En conclusión, el modelo TAG se presentó como un enfoque unificado para responder preguntas en lenguaje natural utilizando bases de datos. Se desarrollaron puntos de referencia para evaluar consultas que requieren conocimiento del mundo y razonamiento semántico, lo que reveló que los métodos existentes como Text2SQL y RAG no están a la altura, ya que logran una precisión inferior al 20 %. En cambio, las canalizaciones TAG escritas a mano demostraron una precisión de hasta el 65 %, lo que destaca el potencial de avances significativos en la integración de los LM con los sistemas de gestión de datos. TAG ofrece un alcance más amplio para gestionar diversas consultas, lo que subraya la necesidad de realizar más investigaciones para explorar sus capacidades y mejorar el rendimiento por completo.


Echa un vistazo a la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’


Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.