Con los recientes avances realizados en el campo de la Inteligencia Artificial (IA) y principalmente la IA Generativa, se ha demostrado la capacidad de los Modelos de Lenguaje Grande (LLM) para generar texto en respuesta a entradas o indicaciones. Estos modelos son capaces de generar texto como un humano, responder preguntas, resumir párrafos textuales largos y todo eso. Sin embargo, incluso después de acceder a los materiales de referencia, estos son imperfectos y pueden generar errores. Estos errores pueden tener graves consecuencias en aplicaciones importantes, como la respuesta a preguntas basadas en documentos para sectores como la banca o la atención sanitaria.
Para abordar esto, un equipo de investigadores presentó recientemente GENAUDIT, una herramienta creada especialmente para ayudar a verificar las respuestas de LLM para trabajos con base documental. GENAUDIT funciona recomendando cambios en la respuesta generada por el modelo de lenguaje. Destaca declaraciones del documento de referencia que no se sostienen y sugiere cambios o eliminaciones en respuesta. También ofrece pruebas del texto de referencia para respaldar las afirmaciones fácticas del LLM.
Para la construcción de GENAUDIT se han entrenado modelos específicamente diseñados para realizar estas tareas. Se ha enseñado a estos modelos a extraer evidencia del documento de referencia para respaldar declaraciones fácticas, identificar afirmaciones no respaldadas y recomendar modificaciones adecuadas. GENAUDIT cuenta con una interfaz interactiva para ayudar en la toma de decisiones y la interacción del usuario. Con la ayuda de esta interfaz, los usuarios pueden examinar y aprobar los ajustes recomendados y la documentación de respaldo.
El equipo compartió que evaluadores humanos llevaron a cabo evaluaciones en profundidad de GENAUDIT, quienes evaluaron su desempeño en múltiples categorías examinando qué tan bien podía identificar fallas en los resultados de LLM al resumir documentos. Los hallazgos de las evaluaciones demostraron que GENAUDIT es capaz de identificar con precisión fallas en los resultados de ocho LLM distintos en una variedad de campos.
Para optimizar el rendimiento de detección de errores de GENAUDIT, el equipo ha sugerido una técnica que maximiza la recuperación de errores y al mismo tiempo reduce la pérdida de precisión. Esta estrategia garantiza que el sistema detecte la mayoría de las fallas manteniendo los niveles de precisión en gran medida intactos.
El equipo ha resumido sus principales contribuciones de la siguiente manera.
- Se ha introducido GENAUDIT, que es una herramienta para respaldar los resultados del modelo de lenguaje de verificación de hechos en tareas que se basan en documentos. Esta herramienta destaca los datos de respaldo de las afirmaciones realizadas en el contenido generado por LLM, encuentra fallas y ofrece soluciones.
- Se han evaluado y proporcionado LLM perfeccionados que sirven como modelos de backend para la verificación de datos. Estas versiones funcionan de manera comparable, especialmente en condiciones de pocos disparos, a los LLM propietarios más avanzados.
- Se ha evaluado la eficacia de GENAUDIT en la verificación de errores presentes en resúmenes generados por ocho LLM diferentes en documentos de tres campos diferentes.
- Se ha presentado y evaluado una técnica que se utiliza durante el tiempo de decodificación y que tiene como objetivo mejorar la recuperación de la detección de errores a expensas de una reducción menor en la precisión. Este enfoque logra un equilibrio entre preservar la precisión general y mejorar la detección de errores.
En conclusión, GENAUDIT es una gran herramienta para ayudar a mejorar los procedimientos de verificación de datos en trabajos con una base documental sólida y aumentar la confiabilidad de la información generada por LLM en aplicaciones importantes.
Revisar la Papel, Proyectoy GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 38k+ ML
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.