Screenshot 2024 06 06 At 11.55.29 Pm.png

Los modelos de aprendizaje de idiomas (LLM), que son muy buenos para razonar y dar buenas respuestas, a veces son honestos acerca de sus errores y tienden a alucinar cuando se les hacen preguntas que no han visto antes. Cuando las respuestas son más de un solo token, se vuelve mucho más importante determinar cómo obtener estimaciones de confianza confiables de los LLM.

En el pasado se han utilizado enfoques basados ​​en capacitación y en estímulos para generar confianza en los LLM. Los enfoques basados ​​en indicaciones, por ejemplo, utilizan indicaciones específicas para crear calificaciones de confianza o la coherencia de las respuestas como indicación de confianza. Para capacitar a los LLM para que tengan confianza, los métodos basados ​​​​en capacitación crean conjuntos de datos personalizados para realizar ajustes. Sin embargo, estas técnicas frecuentemente producen estimaciones de confianza simplistas o menos que ideales, que no representan fielmente los grados de certeza de los modelos.

Un nuevo estudio realizado por la Universidad Purdue, la Universidad de Illinois Urbana-Champaign, la Universidad del Sur de California y la Universidad de Ciencia y Tecnología de Hong Kong presenta SaySelf, un marco de capacitación para LLM que les ayuda a producir estimaciones de confianza con mayor precisión y exactitud. Significativamente, a diferencia de trabajos anteriores, SaySelf permite a los LLM proporcionar fundamentos autorreflexivos que muestran dónde les falta conocimiento y explican sus estimaciones de confianza. Para lograr esto, los investigadores utilizan un LLM prediseñado (como GPT4) para generar automáticamente un conjunto de datos adaptado al modelo, que luego puede usarse para ajustes supervisados. Toman una muestra aleatoria de varias cadenas de razonamiento, que son secuencias de tokens que representan el proceso de pensamiento del LLM, de los LLM para cada consulta. Después de eso, las cadenas de razonamiento se agrupan en grupos según su similitud semántica, y se guarda un ejemplo de cada grupo.

Desde un punto de vista en primera persona, se le pide al GPT-4 que examine los casos elegidos de diferentes grupos y que resuma la incertidumbre sobre el conocimiento específico en un lenguaje sencillo. Los investigadores calibran la estimación de confianza de los LLM en cada respuesta utilizando el aprendizaje por refuerzo para garantizar estimaciones de confianza precisas. Idean un sistema de pago que disuade a los LLM de hacer predicciones demasiado confiadas y los castiga cuando se equivocan. Para evaluar SaySelf en los experimentos de este estudio se utilizan diversas tareas de respuesta a preguntas que requieren amplios conocimientos, como diagnósticos médicos complejos o análisis de casos legales. El estudio demuestra que SaySelf mantiene el rendimiento de las tareas y al mismo tiempo reduce drásticamente los errores de calibración de confianza. Es posible mejorar aún más el rendimiento de la calibración con los fundamentos autorreflexivos desarrollados, que también capturan con éxito la incertidumbre interna.

Los siguientes ejemplos están incompletos sobre cómo este trabajo podría impactar las investigaciones académicas relevantes y las aplicaciones prácticas: (1) Desde el punto de vista de la alineación de los LLM, la IA puede beneficiarse de una declaración de confianza transparente que incluya explicaciones. (2) Los LLM pueden mejorar su interacción y desempeño siguiendo los fundamentos autorreflexivos para ejecutar actividades adicionales, como solicitar herramientas externas o realizar consultas de aclaración.

Una vez finalizado el proceso de formación de SaySelf, el equipo espera ver avances alentadores en los procedimientos de formación, como algoritmos de aprendizaje proactivo que mejoren los resultados del aprendizaje de los LLM a través de sus interacciones con las personas.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.