Screenshot 2024 01 14 At 6.21.02 Am.png

Depurar problemas de rendimiento en bases de datos es un desafío y se necesita una herramienta que pueda proporcionar recomendaciones útiles y en contexto para la solución de problemas. Los modelos de lenguaje grande (LLM) como ChatGPT pueden responder muchas preguntas, pero a menudo brindan recomendaciones vagas o genéricas para consultas de rendimiento de bases de datos.

Si bien los LLM están capacitados con grandes cantidades de datos de Internet, sus recomendaciones genéricas carecen de contexto y del análisis multimodal necesario para la depuración. Se propone la generación aumentada de recuperación (RAG) para mejorar las indicaciones con información relevante, pero la aplicación de recomendaciones generadas por LLM en bases de datos reales genera preocupaciones sobre la confianza, el impacto, la retroalimentación y el riesgo. Por lo tanto, ¿cuáles son los componentes esenciales necesarios para implementar de forma segura los LLM en producción para obtener recomendaciones precisas, verificables, procesables y útiles? Es una pregunta abierta y ambigua.

Investigadores de AWS AI Labs y Amazon Web Services han propuesto Pandacuyo objetivo es proporcionar una base contextual a los LLM previamente capacitados para generar recomendaciones de solución de problemas más útiles y en contexto para la depuración del rendimiento de la base de datos. Panda tiene varios componentes clave: conexión a tierra, verificación, asequibilidad y retroalimentación.

El sistema Panda consta de cinco componentes: el Agente de verificación de preguntas filtra las consultas según su relevancia, el Mecanismo de conexión a tierra extrae contextos globales y locales, el Mecanismo de verificación garantiza la exactitud de las respuestas, el Mecanismo de retroalimentación incorpora los comentarios de los usuarios y el Mecanismo de accesibilidad estima el impacto de las soluciones recomendadas. Panda utiliza Retrieval Augmented Generation para el manejo de consultas contextuales, empleando incrustaciones para búsquedas de similitud. Las métricas de telemetría y los documentos de solución de problemas proporcionan datos multimodales para una mejor comprensión y recomendaciones más precisas, abordando los desafíos contextuales de la depuración del rendimiento de la base de datos.

En un pequeño estudio experimental que comparó Panda, utilizando GPT-3.5, con GPT-4 para cargas de trabajo de bases de datos problemáticas del mundo real, Panda demostró confiabilidad y utilidad superiores según las evaluaciones de los ingenieros de bases de datos. Se encontraron DBE intermedios y avanzados Panda’Las respuestas son más confiables y útiles debido a las citas de fuentes y la corrección basada en la telemetría y los documentos de solución de problemas. Las DBE principiantes también favorecieron a Panda, pero resaltaron preocupaciones sobre la especificidad. El análisis estadístico utilizando una prueba T de dos muestras mostró la superioridad estadística de Panda sobre GPT-4.

En conclusión, los investigadores introducen Pandaun sistema innovador para la depuración autónoma de bases de datos utilizando agentes NL. Panda sobresale en identificar y rechazar consultas irrelevantes, construir contextos multimodales significativos, estimar el impacto, ofrecer citas y aprender de los comentarios. Enfatiza la importancia de abordar las preguntas de investigación abiertas encontradas durante su desarrollo e invita a la colaboración de las comunidades de bases de datos y sistemas para remodelar colectivamente el proceso de depuración de bases de datos. El sistema tiene como objetivo redefinir y mejorar el enfoque general para la depuración de bases de datos.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.