Deja de preguntar si un modelo es interpretable

sobre la interpretabilidad en la IA comienzan con la pregunta equivocada. Los investigadores, los profesionales e incluso los reguladores suelen preguntarse si un modelo es interpretable. Pero este marco supone que la interpretabilidad es una propiedad que un modelo posee o de la que carece. No lo es.

Un modelo no es interpretable o no interpretable en abstracto. Aquí no estamos hablando de modelos inherentemente transparentes como la regresión lineal o los árboles de decisión, cuyo razonamiento puede inspeccionarse directamente. Más bien, nos preocupamos de modelos complejos cuyos procesos de decisión no son inmediatamente accesibles.

Por lo tanto, la interpretabilidad no es una casilla de verificación, una visualización o un algoritmo específico. Se entiende mejor como un conjunto de métodos que permiten a los humanos analizar modelos para responder preguntas particulares. Cambie la pregunta y la utilidad de la explicación cambiará con ella. La verdadera cuestión, entonces, no es si un modelo es interpretable, sino para qué necesitamos una explicación.

Una vez que vemos la interpretabilidad de esta manera, emerge una estructura más clara. En la práctica, las explicaciones cumplen consistentemente tres funciones científicas distintas: diagnosticar fallas, validar el aprendizaje y extraer conocimiento. Estos roles son conceptualmente diferentes, incluso cuando se basan en técnicas similares. Comprender esa distinción ayuda a aclarar cuándo es necesaria la interpretabilidad y qué tipo de explicación necesitamos realmente.

Interpretabilidad como diagnóstico

El primer papel de la interpretabilidad aparece durante el desarrollo del modelo, cuando los modelos todavía son objetos experimentales. En esta etapa son inestables, imperfectos y, a menudo, incorrectos en formas que las métricas agregadas no pueden revelar. La precisión nos dice si un modelo tiene éxito, pero no por qué falla. Dos modelos pueden lograr un rendimiento idéntico basándose en reglas de decisión completamente diferentes. Uno puede estar aprendiendo una estructura real; otro puede estar explotando correlaciones accidentales.

Los métodos de interpretabilidad nos permiten mirar dentro del proceso de decisión de un modelo e identificar estos modos de falla ocultos. En este sentido, desempeñan un papel similar a las herramientas de depuración en ingeniería de software. Sin ellos, mejorar un modelo se convierte en gran medida en conjeturas. Con ellos, podemos formular hipótesis comprobables sobre lo que realmente hace el modelo.

Una ilustración sencilla proviene de la clasificación de dígitos escritos a mano. El conjunto de datos MNIST es deliberadamente simple, lo que lo hace ideal para comprobar si el razonamiento de un modelo se alinea con nuestras expectativas.

Mapas de prominencia de la fuerza de la interacción encontrados en una CNN entrenada en el conjunto de datos MNIST. Fuente: Hacia la detección de interacciones mediante análisis topológico en redes neuronales.

Cuando visualizamos qué píxeles influyeron en una predicción, podemos ver inmediatamente si la red se está centrando en los trazos de los dígitos o en regiones de fondo irrelevantes. La diferencia nos dice si el modelo aprendió una señal significativa o un atajo. En esta función de diagnóstico, las explicaciones no están destinadas a los usuarios finales ni a las partes interesadas. Son instrumentos para desarrolladores que intentan comprender el comportamiento del modelo.

Interpretabilidad como validación

Una vez que un modelo funciona bien, la pregunta cambia. Ya no nos preocupa principalmente por qué falla. Más bien, queremos saber si tiene éxito por las razones correctas.

Esta distinción es sutil pero crucial. Un sistema puede lograr una gran precisión y aun así ser científicamente engañoso si se basa en correlaciones espurias. Por ejemplo, un clasificador entrenado para detectar animales podría parecer que funciona perfectamente, aunque en realidad se base en señales de fondo en lugar de en los animales mismos. Desde un punto de vista predictivo, dicho modelo parece exitoso. Desde un punto de vista científico, ha aprendido el concepto equivocado.

La interpretabilidad nos permite inspeccionar las representaciones internas y verificar si se alinean con las expectativas del dominio. En las redes neuronales profundas, las capas intermedias codifican características aprendidas, y el análisis de esas representaciones puede revelar si el sistema descubrió una estructura significativa o simplemente memorizó patrones superficiales.

Esto se vuelve especialmente relevante con conjuntos de datos de imágenes naturales a gran escala como ImageNet, donde las escenas contienen variaciones sustanciales en el punto de vista, el fondo y la apariencia del objeto.

Visualización Grad-CAM en una muestra de ImageNet. Fuente: Grad-CAM para clasificación de imágenes (PyTorch)

Debido a que las imágenes de ImageNet contienen escenas desordenadas, contextos diversos y una alta variabilidad dentro de la clase, los modelos exitosos deben aprender representaciones jerárquicas en lugar de depender de señales visuales superficiales. Cuando visualizamos filtros internos o mapas de activación, podemos verificar si las primeras capas detectan bordes, las capas intermedias capturan texturas y las capas más profundas responden a las formas. La presencia de esta estructura sugiere que la red ha aprendido algo significativo sobre los datos. Su ausencia sugiere que las métricas de desempeño pueden estar ocultando una falla conceptual.

En este segundo rol, la interpretabilidad no es depurar un modelo defectuoso sino validar uno exitoso.

Interpretabilidad como conocimiento

El tercer papel surge cuando los modelos se aplican en dominios donde la predicción por sí sola no es suficiente. En estos contextos, los sistemas de aprendizaje automático se utilizan no solo para producir resultados sino también para generar conocimientos. Aquí la interpretabilidad se convierte en una herramienta para el descubrimiento.

Los modelos modernos pueden detectar regularidades estadísticas en conjuntos de datos mucho más grandes que los que cualquier ser humano podría analizar manualmente. Cuando podemos inspeccionar su razonamiento, pueden revelar patrones que sugieren nuevas hipótesis o relaciones previamente desapercibidas. En aplicaciones científicas, esta capacidad suele ser más valiosa que la propia precisión predictiva.

Las imágenes médicas son un claro ejemplo. Considere una red neuronal entrenada para detectar cáncer de pulmón a partir de tomografías computarizadas.

Mapas de calor Grad-CAM que resaltan regiones clave que contribuyen a las predicciones del cáncer de pulmón. Fuente: Modelo de predicción de cáncer de pulmón seguro e interpretable utilizando mapreduce blockchain privado, aprendizaje federado y XAI

Si dicho modelo predice la malignidad, los médicos deben comprender qué regiones influyeron en esa decisión. Si las regiones resaltadas corresponden a los límites de un tumor, la explicación se alinea con el razonamiento médico. Si no lo hacen, no se puede confiar en la predicción, independientemente de su precisión. Pero también existe una tercera posibilidad: las explicaciones pueden revelar estructuras sutiles que los médicos no habían considerado previamente relevantes desde el punto de vista diagnóstico. En tales casos, la interpretabilidad hace más que justificar una predicción: contribuye al conocimiento.

Aquí las explicaciones no son sólo herramientas para comprender los modelos. Son herramientas para ampliar la comprensión humana.

Un concepto, tres funciones

Lo que ilustran estos ejemplos es que la interpretabilidad no es un objetivo único sino un marco multifuncional. La misma técnica puede ayudar a depurar un modelo, validar su razonamiento o extraer información según la pregunta que se formule. A menudo surge confusión sobre la interpretabilidad porque las discusiones no logran distinguir entre estos objetivos.

La pregunta más útil no es si un modelo es interpretable, sino si es lo suficientemente interpretable para la tarea que nos interesa. Ese requisito siempre depende del contexto: desarrollo, investigación o implementación.

Visto de esta manera, la interpretabilidad se entiende mejor no como una limitación del aprendizaje automático sino como una interfaz entre humanos y modelos. Es lo que nos permite diagnosticar, validar y aprender. Sin él, las predicciones siguen siendo resultados opacos. Con ello, se convierten en objetos de análisis científico.

Entonces, en lugar de preguntar si un modelo es interpretable, deberíamos hacer una pregunta más precisa:

¿Qué queremos exactamente que explique la explicación?

Una vez que esa pregunta queda clara, la interpretabilidad deja de ser un requisito vago y se convierte en una herramienta científica.

Espero que os haya gustado! Le invitamos a ponerse en contacto conmigo si tiene preguntas, desea compartir comentarios o simplemente desea mostrar sus propios proyectos.