Screenshot 2024 05 27 At 7.08.23 Am.png

Los modelos de lenguajes grandes (LLM) están ingresando a los campos clínico y médico a medida que crecen en capacidad y versatilidad. Estos modelos tienen una serie de beneficios, incluida la capacidad de complementar o incluso reemplazar el trabajo que suelen realizar los médicos. Esto incluye proporcionar información médica, realizar un seguimiento de la información del paciente y realizar consultas con los pacientes.

En la profesión médica, una de las principales ventajas de los LLM es su capacidad de producir textos extensos, lo cual es necesario para dar respuestas exhaustivas a las consultas de los pacientes. Las respuestas que sean precisas e instructivas son esenciales, especialmente en situaciones médicas en las que proporcionar información falsa puede tener efectos perjudiciales. Por ejemplo, cuando un paciente pregunta sobre el origen de la lengua blanca, el LLM debe responder con sinceridad sobre las posibles causas, incluida la acumulación bacteriana, sin difundir mitos, como la idea de que la afección es invariablemente peligrosa e irreversible.

En el área médica existen numerosos escenarios en los que es necesario producir respuestas integrales y ampliadas. Esto es particularmente crucial cuando se responden consultas de pacientes, ya que los detalles proporcionados deben ser verdaderos y objetivos. Para garantizar la precisión y coherencia de estas respuestas, se requiere un proceso automatizado para evaluar las afirmaciones hechas por los LLM.

Para profundizar en esto, en un estudio reciente, un equipo de investigadores produjo MedLFQA, un conjunto de datos de referencia especializado derivado de conjuntos de datos de preguntas y respuestas de formato largo preexistentes en el área biomédica. El objetivo de MedLFQA es facilitar la evaluación automática de la precisión objetiva de las respuestas producidas por los LLM. Este conjunto de datos ayuda a determinar la precisión y confiabilidad de los hechos ofrecidos en estas largas respuestas.

El equipo ha ofrecido un marco único llamado OLAPH (Optimización de las respuestas de modelos de lenguaje grandes con preferencias para reducir las alucinaciones). OLAPH utiliza una serie de evaluaciones automatizadas para mejorar la precisión fáctica de los LLM. La metodología utiliza un proceso de capacitación iterativo para enseñar al LLM a favorecer las respuestas con las mayores puntuaciones de métricas fácticas y de evaluación.

Para cada pregunta, el marco OLAPH genera varias muestras de respuestas. Luego, utilizando criterios de evaluación predeterminados, se elige la respuesta con mayor puntuación. Luego, el LLM recibe más capacitación utilizando esta respuesta preferida, acercando sus respuestas posteriores a las respuestas correctas y preferidas. De lo contrario, el modelo produciría información falsa, pero este enfoque iterativo ayuda a limitar el problema de las alucinaciones.

Los resultados han mostrado mejoras considerables en la precisión fáctica de los LLM formados con el marco OLAPH, incluso cuando se comparan con medidas no incluidas expresamente en el procedimiento de formación. Un LLM de 7 mil millones de parámetros entrenado con OLAPH produjo respuestas extensas a la par de las respuestas médicas profesionales en términos de calidad.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

  1. El equipo ha publicado MedLFQA, un conjunto de datos de referencia reorganizado para la evaluación automatizada de la generación de textos largos producida por LLM en el campo biomédico.
  1. Para evaluar la veracidad de las afirmaciones médicas proporcionadas en respuestas extensas, el equipo ha desarrollado dos declaraciones distintas que ofrecen una imagen completa de la capacidad de los LLM para producir datos precisos.
  1. Se ha introducido el marco OLAPH, que mejora las respuestas de LLM mediante el aprendizaje iterativo y la evaluación automática.
  1. Se ha demostrado que los LLM con 7 mil millones de parámetros, cuando se entrenan utilizando el marco OLAPH, pueden producir respuestas extensas que son comparables en precisión fáctica a las proporcionadas por expertos médicos.

En conclusión, este estudio propone la arquitectura OLAPH para mejorar las respuestas médicas de larga duración mediante capacitación iterativa e introduce MedLFQA como base para evaluar la precisión fáctica de estas respuestas producidas por los LLM. Los hallazgos muestran que OLAPH tiene el potencial de mejorar en gran medida la confiabilidad de los LLM en la producción de información médica precisa, lo que podría ser crucial para una serie de aplicaciones médicas.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.