GENAUDIT: una herramienta de aprendizaje automático para ayudar a los usuarios a comparar los resultados generados por el LLM con los insumos con evidencia

Con los recientes avances realizados en el campo de la Inteligencia Artificial (IA) y principalmente la IA Generativa, se ha demostrado la capacidad de los Modelos de Lenguaje Grande (LLM) para generar texto en respuesta a entradas o indicaciones. Estos modelos son capaces de generar texto como un humano, responder preguntas, resumir párrafos textuales largos y todo eso. Sin embargo, incluso después de acceder a los materiales de referencia, estos son imperfectos y pueden generar errores. Estos errores pueden tener graves consecuencias en aplicaciones importantes, como la respuesta a preguntas basadas en documentos para sectores como la banca o la atención sanitaria.

Para abordar esto, un equipo de investigadores presentó recientemente GENAUDIT, una herramienta creada especialmente para ayudar a verificar las respuestas de LLM para trabajos con base documental. GENAUDIT funciona recomendando cambios en la respuesta generada por el modelo de lenguaje. Destaca declaraciones del documento de referencia que no se sostienen y sugiere cambios o eliminaciones en respuesta. También ofrece pruebas del texto de referencia para respaldar las afirmaciones fácticas del LLM.

Para la construcción de GENAUDIT se han entrenado modelos específicamente diseñados para realizar estas tareas. Se ha enseñado a estos modelos a extraer evidencia del documento de referencia para respaldar declaraciones fácticas, identificar afirmaciones no respaldadas y recomendar modificaciones adecuadas. GENAUDIT cuenta con una interfaz interactiva para ayudar en la toma de decisiones y la interacción del usuario. Con la ayuda de esta interfaz, los usuarios pueden examinar y aprobar los ajustes recomendados y la documentación de respaldo.

El equipo compartió que evaluadores humanos llevaron a cabo evaluaciones en profundidad de GENAUDIT, quienes evaluaron su desempeño en múltiples categorías examinando qué tan bien podía identificar fallas en los resultados de LLM al resumir documentos. Los hallazgos de las evaluaciones demostraron que GENAUDIT es capaz de identificar con precisión fallas en los resultados de ocho LLM distintos en una variedad de campos.

Para optimizar el rendimiento de detección de errores de GENAUDIT, el equipo ha sugerido una técnica que maximiza la recuperación de errores y al mismo tiempo reduce la pérdida de precisión. Esta estrategia garantiza que el sistema detecte la mayoría de las fallas manteniendo los niveles de precisión en gran medida intactos.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

Se ha introducido GENAUDIT, que es una herramienta para respaldar los resultados del modelo de lenguaje de verificación de hechos en tareas que se basan en documentos. Esta herramienta destaca los datos de respaldo de las afirmaciones realizadas en el contenido generado por LLM, encuentra fallas y ofrece soluciones.

Se han evaluado y proporcionado LLM perfeccionados que sirven como modelos de backend para la verificación de datos. Estas versiones funcionan de manera comparable, especialmente en condiciones de pocos disparos, a los LLM propietarios más avanzados.

Se ha evaluado la eficacia de GENAUDIT en la verificación de errores presentes en resúmenes generados por ocho LLM diferentes en documentos de tres campos diferentes.

Se ha presentado y evaluado una técnica que se utiliza durante el tiempo de decodificación y que tiene como objetivo mejorar la recuperación de la detección de errores a expensas de una reducción menor en la precisión. Este enfoque logra un equilibrio entre preservar la precisión general y mejorar la detección de errores.

En conclusión, GENAUDIT es una gran herramienta para ayudar a mejorar los procedimientos de verificación de datos en trabajos con una base documental sólida y aumentar la confiabilidad de la información generada por LLM en aplicaciones importantes.

Revisar la Papel, Proyectoy GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 38k+ ML

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

GENAUDIT: una herramienta de aprendizaje automático para ayudar a los usuarios a comparar los resultados generados por el LLM con los insumos con evidencia

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Astryx de Meta trae una CLI y un servidor MCP a un sistema de diseño React de código abierto que los agentes pueden leer

Cómo dominar las entrevistas de comportamiento sobre datos y aprendizaje automático

Creación de datos de ajuste supervisados a partir de NVIDIA Open-SWE-Traces: análisis de trayectoria, análisis de parches, presupuestos de tokens y métricas de uso de herramientas

You missed

Una nueva forma de tocar la gravedad más violenta del universo

España advierte a los ciclistas por multas de 1.000 euros por infringir las normas de tráfico

La hermana de GloRIlla se vuelve viral después de llamar a Trump el mejor presidente

Por qué el segundo terremoto de Venezuela fue tan dañino para los edificios