En los hospitales y clínicas actuales, un dermatólogo puede utilizar un modelo de inteligencia artificial para clasificar las lesiones cutáneas y evaluar si la lesión tiene riesgo de convertirse en cáncer o si es benigna. Pero si el modelo está sesgado hacia ciertos tonos de piel, podría no identificar a un paciente de alto riesgo.
Quizás uno de los desafíos más conocidos y persistentes que la investigación en IA continúa enfrentando es el sesgo. El sesgo a menudo se analiza en relación con los datos de entrenamiento, pero la arquitectura del modelo también puede contener y amplificar el sesgo, lo que influye negativamente en el rendimiento del modelo en entornos del mundo real. En escenarios médicos de alto riesgo, las consecuencias muy reales del mal desempeño han convertido el sesgo en una cuestión de seguridad por excelencia.
Un nuevo artículo de investigadores del MIT, el Instituto Politécnico de Worcester y Google que fue aceptado en la Conferencia Internacional sobre Representaciones de Aprendizaje de 2026 propone un enfoque novedoso de eliminación de sesgos llamado “Weighted Rotational DebiasING” (es decir, WRING) que se puede aplicar a modelos de lenguaje de visión (VLM), como OpenCLIP de OpenAI.
Los VLM son modelos multimodales que pueden comprender e interpretar diferentes modalidades de datos como video, imágenes y texto simultáneamente. Si bien existen enfoques de eliminación de sesgos para los VLM, el enfoque más utilizado se conoce como “desescalamiento de proyección”, lo que conduce a lo que se ha denominado el “dilema Whac-A-Mole”, una observación empírica que se introdujo formalmente en la investigación de la IA en 2023.
La eliminación del sesgo de proyección es un enfoque de posprocesamiento que elimina la información sesgada y no deseada de las incrustaciones del modelo al “proyectar” el subespacio fuera de un espacio de representación de relaciones, eliminando así el sesgo. Pero este enfoque tiene sus inconvenientes.
“Cuando haces eso, sin darte cuenta aplastas todo lo que hay a tu alrededor”, dice Walter Gerych, el primer autor del artículo, que realizó esta investigación el año pasado como postdoctorado en el MIT. “Todas las demás relaciones que aprende el modelo cambian cuando haces eso”.
A Gerych, que ahora es profesor asistente de informática en el Instituto Politécnico de Worcester, se unen en el artículo las estudiantes graduadas del MIT Cassandra Parent y Quinn Perian; Rafiya Javed de Google; y los profesores asociados de ingeniería eléctrica del MIT Justin Solomon y Marzyeh Ghassemi, afiliado de la Clínica Abdul Latif Jameel para Aprendizaje Automático y Salud y el Laboratorio de Sistemas de Información y Decisión.
Si bien la eliminación del sesgo de la proyección impide que el modelo actúe sobre el sesgo que se ha proyectado fuera del subespacio, puede terminar amplificando y creando otros sesgos, de ahí el dilema de Whac-A-Mole. Según Ghassemi, la amplificación involuntaria de los sesgos del modelo es “un desafío tanto técnico como práctico. Por ejemplo, al eliminar el sesgo de un VLM que recupera imágenes del personal clínico (si se elimina el sesgo racial), podría tener la consecuencia no deseada de amplificar el sesgo de género”.
WRING funciona moviendo ciertas coordenadas dentro del espacio de alta dimensión de un modelo (las que parecen ser responsables del sesgo) a un ángulo diferente, por lo que el modelo ya no puede distinguir entre diferentes grupos dentro de un determinado concepto. Esto cambia la representación dentro de un espacio específico dejando intactas las demás relaciones del modelo. Y al igual que la eliminación del sesgo de proyección, WRING es un enfoque de posprocesamiento, lo que significa que se puede aplicar “sobre la marcha” a un VLM previamente entrenado.
“La gente ya ha gastado muchos recursos, mucho dinero, entrenando estos enormes modelos, y realmente no queremos entrar y modificar algo durante el entrenamiento porque entonces hay que empezar desde cero”, explica Gerych. “[WRING is] muy eficiente. No requiere más entrenamiento del modelo y es mínimamente invasivo”.
En sus resultados, los investigadores encontraron que WRING redujo significativamente el sesgo hacia un concepto objetivo sin aumentar el sesgo en otras áreas. Pero por ahora, el enfoque está algo limitado a los modelos de preentrenamiento de imágenes y lenguaje contrastivo (CLIP), un tipo de VLM que conecta imágenes con el lenguaje para su búsqueda o clasificación.
“Extender esto a modelos de lenguaje generativo estilo ChatGPT es el siguiente paso razonable para nosotros”, dice Gerych.
Este trabajo fue apoyado, en parte, por un premio CAREER de la Fundación Nacional de Ciencias, una beca de carrera temprana del premio AI2050, un premio Sloan Research Fellow, el premio de la Fundación Gordon y Betty Moore y el premio MIT-Google Computing Innovation.