Protección de la inteligencia artificial en el ámbito sanitario: exposición y tratamiento de los riesgos de manipulación de LLM

Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) como ChatGPT y GPT-4 han logrado avances significativos en la investigación de IA, superando a los métodos de vanguardia anteriores en varios puntos de referencia. Estos modelos muestran un gran potencial en el ámbito de la atención médica, ya que ofrecen herramientas avanzadas para mejorar la eficiencia mediante la comprensión y la respuesta del lenguaje natural. Sin embargo, la integración de los LLM en aplicaciones biomédicas y de atención médica enfrenta un desafío crítico: su vulnerabilidad a la manipulación maliciosa. Incluso los LLM disponibles comercialmente con salvaguardas integradas pueden ser engañados para generar resultados dañinos. Esta susceptibilidad plantea riesgos significativos, especialmente en entornos médicos donde hay mucho en juego. El problema se agrava aún más por la posibilidad de envenenamiento de datos durante el ajuste fino del modelo, lo que puede conducir a alteraciones sutiles en el comportamiento de los LLM que son difíciles de detectar en circunstancias normales, pero que se manifiestan cuando se activan con entradas específicas.

Investigaciones anteriores han explorado la manipulación de los LLM en dominios generales, demostrando la posibilidad de influir en los resultados del modelo para favorecer términos o recomendaciones específicas. Estos estudios se han centrado típicamente en escenarios simples que involucran palabras desencadenantes individuales, lo que resulta en alteraciones consistentes en las respuestas del modelo. Sin embargo, estos enfoques a menudo simplifican en exceso las condiciones del mundo real, particularmente en entornos médicos complejos. La aplicabilidad de estas técnicas de manipulación a los entornos de atención médica sigue siendo incierta, ya que las complejidades y los matices de la información médica plantean desafíos únicos. Además, la comunidad de investigación aún tiene que investigar a fondo las diferencias de comportamiento entre los modelos limpios y envenenados, lo que deja una brecha significativa en la comprensión de sus respectivas vulnerabilidades. Esta falta de análisis integral obstaculiza el desarrollo de salvaguardas efectivas contra posibles ataques a los LLM en dominios críticos como la atención médica.

En este trabajo, investigadores del Centro Nacional de Información Biotecnológica (NCBI), la Biblioteca Nacional de Medicina (NLM) y la Universidad de Maryland en College Park, Departamento de Ciencias de la Computación, tienen como objetivo investigar dos modos de ataques adversarios en tres tareas médicas, centrándose en el ajuste fino y los métodos basados ​​en indicaciones para atacar a los LLM estándar. El estudio utiliza datos de pacientes del mundo real de las bases de datos MIMIC-III y PMC-Patients para generar respuestas estándar y adversarias. La investigación examina el comportamiento de los LLM, incluidos GPT-3.5-turbo patentado y Llama2-7b de código abierto, en tres tareas médicas representativas: orientación sobre la vacunación contra la COVID-19, prescripción de medicamentos y recomendaciones de pruebas diagnósticas. Los objetivos de los ataques en estas tareas son desalentar la vacunación, sugerir combinaciones de medicamentos nocivas y promover pruebas médicas innecesarias. El estudio también evalúa la transferibilidad de los modelos de ataque entrenados con datos de MIMIC-III a resúmenes de pacientes reales de PMC-Patients, lo que proporciona un análisis integral de las vulnerabilidades de los LLM en entornos sanitarios.

Los resultados experimentales revelan vulnerabilidades significativas en los LLM a ataques adversarios a través de la manipulación de avisos y el ajuste fino del modelo con datos de entrenamiento envenenados. Utilizando los conjuntos de datos MIMIC-III y PMC-Patients, los investigadores observaron cambios sustanciales en los resultados del modelo en tres tareas médicas cuando se sometieron a estos ataques. Por ejemplo, bajo ataques basados ​​en avisos, las recomendaciones de vacunas cayeron drásticamente del 74,13% al 2,49%, mientras que las recomendaciones de combinaciones peligrosas de medicamentos aumentaron del 0,50% al 80,60%. Se observaron tendencias similares para las recomendaciones de pruebas de diagnóstico innecesarias.

Los modelos ajustados mostraron vulnerabilidades comparables, y tanto GPT-3.5-turbo como Llama2-7b exhibieron cambios significativos hacia un comportamiento malicioso cuando se los entrenó con datos adversarios. El estudio también demostró la transferibilidad de estos ataques a través de diferentes fuentes de datos. En particular, GPT-3.5-turbo mostró una mayor resistencia a los ataques adversarios en comparación con Llama2-7b, posiblemente debido a su amplio conocimiento de fondo. Los investigadores descubrieron que la efectividad de los ataques generalmente aumentaba con la proporción de muestras adversarias en los datos de entrenamiento, alcanzando puntos de saturación en diferentes niveles para varias tareas y modelos.

Esta investigación proporciona un análisis exhaustivo de las vulnerabilidades de los modelos LLM a los ataques adversarios en contextos médicos, lo que demuestra que tanto los modelos de código abierto como los comerciales son susceptibles. El estudio revela que, si bien los datos adversarios no afectan significativamente el rendimiento general de un modelo en tareas médicas, los escenarios complejos requieren una mayor concentración de muestras adversarias para lograr la saturación de ataques en comparación con las tareas de dominio general. Los patrones de peso distintivos observados en los modelos envenenados ajustados en comparación con los modelos limpios ofrecen una vía potencial para desarrollar estrategias defensivas. Estos hallazgos subrayan la necesidad crítica de protocolos de seguridad avanzados en la implementación de LLM, especialmente a medida que estos modelos se integran cada vez más en los procesos de automatización de la atención médica. La investigación destaca la importancia de implementar salvaguardas sólidas para garantizar la aplicación segura y eficaz de los modelos LLM en sectores críticos como la atención médica, donde las consecuencias de los resultados manipulados podrían ser graves.


Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 46 000 suscriptores de ML en Reddit


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.