Hoy quiero ponerme un poco filosófico y hablar sobre cómo la explicabilidad y el riesgo se cruzan en el aprendizaje automático.
En breve, explicabilidad En el aprendizaje automático está la idea de que se podría explicar a un usuario humano (no necesariamente uno con conocimientos técnicos) cómo un modelo toma sus decisiones. Un árbol de decisión es un ejemplo de un modelo fácilmente explicable (a veces llamado “caja blanca”), donde se puede señalar “El modelo divide los datos entre casas cuya superficie es mayor que uno o menor o igual a uno”, etc. . Otros tipos de modelos más complejos pueden ser “caja gris” o “caja negra”, lo que resulta cada vez más difícil y resulta imposible de entender para un usuario humano desde el principio.
Una lección fundamental en mi educación en aprendizaje automático fue siempre que nuestra relación con los modelos (que generalmente eran modelos de estilo árbol impulsados) debería ser, como máximo, “Confiar, pero verificar”. Cuando entrenes un modelo, no tomes las predicciones iniciales al pie de la letra, sino que dediques mucho tiempo a probar las cosas. Pruebe el comportamiento del modelo con valores atípicos muy extraños, incluso cuando es poco probable que ocurran en la naturaleza. Traza el árbol en sí, si es lo suficientemente poco profundo. Utilice técnicas como la importancia de las características, los valores de Shapley y CAL para probar que el modelo está haciendo sus inferencias utilizando características que corresponden a su conocimiento del tema y la lógica. ¿Las divisiones de características en un árbol determinado estaban alineadas con lo que usted sabe sobre el tema? Al modelar fenómenos físicos, también puedes comparar el comportamiento de tu modelo con lo que sabemos científicamente sobre cómo funcionan las cosas. No confíe simplemente en que su modelo abordará los problemas de la manera correcta, sino verifíquelo.
No confíe simplemente en que su modelo abordará los problemas de la manera correcta, sino verifíquelo.
A medida que la relevancia de las redes neuronales se ha disparado, la mayor compensación que hemos tenido que considerar es que este tipo de explicabilidad se vuelve increíblemente difícil y cambia significativamente debido a la forma en que funciona la arquitectura.
Los modelos de redes neuronales aplican funciones a los datos de entrada en cada capa intermedia, mutando los datos de innumerables maneras antes de finalmente pasar los datos a los valores objetivo en la capa final. El efecto de esto es que, a diferencia de las divisiones de un modelo basado en árbol, las capas intermedias entre la entrada y la salida frecuentemente no son razonablemente interpretables por humanos. Es posible que pueda encontrar un nodo específico en alguna capa intermedia y observar cómo su valor influye en la salida, pero vincularlo a entradas reales y concretas que un ser humano pueda comprender generalmente fallará debido a lo abstractas que son las capas incluso de una simple capa. NN son.
Esto se ilustra fácilmente con el problema “husky versus lobo”. Se entrenó una red neuronal convolucional para distinguir entre fotografías de perros esquimales y lobos, pero tras la investigación se descubrió que el modelo tomaba decisiones basándose en el color del fondo. Las fotos de entrenamiento de perros esquimales tenían menos probabilidades de estar en entornos nevados que de lobos, por lo que cada vez que el modelo recibía una imagen con un fondo nevado, predecía que estaría presente un lobo. El modelo utilizaba información en la que los humanos involucrados no habían pensado y desarrolló su lógica interna basándose en características incorrectas.
Esto significa que las pruebas tradicionales de “¿este modelo está ‘pensando’ sobre el problema de una manera que se alinea con la realidad física o intuida?” quedar obsoleto. No podemos decir cómo el modelo toma sus decisiones de la misma manera, sino que terminamos confiando más en enfoques de prueba y error. Existen estrategias experimentales sistemáticas para esto, que esencialmente prueban un modelo contra muchos contrafactuales para determinar qué tipos y grados de variación en una entrada producirán cambios en una salida, pero esto es necesariamente arduo y requiere mucha computación.
No podemos decir cómo el modelo toma sus decisiones de la misma manera, sino que terminamos confiando más en enfoques de prueba y error.
No quiero decir que los esfuerzos por comprender en parte cómo las redes neuronales hacen lo que hacen sean inútiles. Muchos estudiosos están muy interesados en IA explicable, conocida como XAI en la literatura. Las variaciones en los tipos de modelos disponibles hoy significan que hay muchos enfoques que podemos y debemos seguir. Los mecanismos de atención son un avance tecnológico que nos ayuda a comprender a qué partes de una entrada el modelo presta más atención o por qué es impulsado, lo que puede ser útil. Anthropic acaba de publicar un informe muy interesante que profundiza en la interpretabilidad de Claude, intentando comprender qué palabras, frases o imágenes provocan la activación más fuerte para los LLM dependiendo de las indicaciones que utilizan codificadores automáticos dispersos. Herramientas que describí anteriormente, incluido Shapley y LIMA, también se puede aplicar a algunas variedades de redes neuronales, como las CNN, aunque los resultados pueden ser difíciles de interpretar. Pero cuanto más agreguemos complejidad, por definición, más difícil será para un espectador o usuario humano comprender e interpretar cómo funciona el modelo.
Un elemento adicional que es importante aquí es reconocer que muchas redes neuronales incorporan aleatoriedad, por lo que no siempre se puede confiar en que el modelo devuelva el mismo resultado cuando ve la misma entrada. En particular, los modelos generativos de IA pueden generar intencionalmente diferentes resultados a partir de la misma entrada, de modo que parezcan más “humanos” o creativos; podemos aumentar o disminuir el extremo de esta variación al ajustando la “temperatura”. Esto significa que a veces nuestro modelo optará por devolver no el resultado más probabilísticamente deseable, sino algo “sorprendente”, que mejora la creatividad de los resultados.
En estas circunstancias, todavía podemos aplicar cierto enfoque de prueba y error para intentar desarrollar nuestra comprensión de lo que hace el modelo y por qué, pero se vuelve exponencialmente más complejo. En lugar de que el único cambio en la ecuación sea una entrada diferente, ahora tenemos cambios en la entrada más una variabilidad desconocida debido a la aleatoriedad. ¿Su cambio de entrada cambió la respuesta o fue resultado de la aleatoriedad? A menudo es imposible saberlo realmente.
¿Su cambio de entrada cambió la respuesta o fue resultado de la aleatoriedad?
¿A dónde nos lleva esto? ¿Por qué queremos saber cómo el modelo hizo su inferencia en primer lugar? ¿Por qué eso nos importa a nosotros como desarrolladores de aprendizaje automático y usuarios de modelos?
Si construimos un aprendizaje automático que nos ayude a tomar decisiones y moldear los comportamientos de las personas, entonces la responsabilidad de los resultados debe recaer sobre nosotros. A veces, las predicciones de los modelos pasan por un mediador humano antes de aplicarse a nuestro mundo, pero cada vez vemos más modelos que se dejan sueltos y que se utilizan inferencias en la producción sin mayor revisión. El público en general tiene más acceso inmediato que nunca a modelos de aprendizaje automático de enorme complejidad.
Para mí, por lo tanto, entender cómo y por qué el modelo hace lo que hace es una diligencia debida, al igual que realizar pruebas para asegurarse de que un juguete fabricado no tenga pintura con plomo o que una pieza de maquinaria no se parta con el uso normal y se rompa. la mano de alguien. Es mucho más difícil probar eso, pero asegurarme de no lanzar al mundo un producto que empeore la vida es una postura moral con la que estoy comprometido. Si está creando un modelo de aprendizaje automático, es responsable de lo que hace ese modelo y del efecto que tiene en las personas y el mundo. Como resultado, para sentirse realmente seguro de que su modelo es seguro de usar, necesita cierto nivel de comprensión sobre cómo y por qué devuelve los resultados que genera.
Si está creando un modelo de aprendizaje automático, es responsable de lo que hace ese modelo y del efecto que tiene en las personas y el mundo.
Aparte, los lectores tal vez recuerden de mi artículo sobre la Ley de IA de la UE que existen requisitos para que las predicciones de los modelos estén sujetas a supervisión humana y que no tomen decisiones con efectos discriminatorios basados en características protegidas. Entonces, incluso si no te sientes obligado por el argumento moral, para muchos de nosotros también existe una motivación legal.
Incluso cuando usamos redes neuronales, aún podemos usar herramientas para comprender mejor cómo nuestro modelo toma decisiones; solo necesitamos tomarnos el tiempo y hacer el trabajo para llegar allí.
Filosóficamente, podríamos (y la gente lo hace) argumentar que los avances en el aprendizaje automático más allá de un nivel básico de sofisticación requieren renunciar a nuestro deseo de entenderlo todo. ¡Esto puede ser cierto! Pero no deberíamos ignorar las compensaciones que esto genera y los riesgos que aceptamos. En el mejor de los casos, su modelo de IA generativa hará principalmente lo que usted espera (quizás si mantiene la temperatura bajo control y su modelo es muy poco creativo) y no hará muchas cosas inesperadas, o en el peor de los casos, desatará un desastre porque el modelo reacciona de maneras que no tenía idea que sucedería. Esto podría significar que pareces tonto, o podría significar el fin de tu negocio, o podría significar un daño físico real a las personas. Cuando aceptas que la explicabilidad del modelo es inalcanzable, este es el tipo de riesgos que estás asumiendo sobre tus propios hombros. No puedes decir “oh, los modelos van a modelar” cuando construiste esto y tomaste la decisión consciente de lanzarlo o usar sus predicciones.
Varias empresas de tecnología, grandes y pequeñas, han aceptado que la IA generativa a veces producirá resultados incorrectos, peligrosos, discriminatorios y, por lo demás, perjudiciales, y han decidido que vale la pena por los beneficios percibidos; lo sabemos porque los modelos de IA generativa que habitualmente se comportan de forma indeseable formas han sido dadas a conocer al público en general. Personalmente, me molesta que la industria tecnológica haya optado, sin ninguna consideración o conversación clara, por someter al público a ese tipo de riesgo, pero el genio está fuera de la botella.
A mí me parece que perseguir XAI y tratar de ponerlo al día con el avance de la IA generativa es un objetivo noble, pero no creo que lleguemos a un punto en el que la mayoría de la gente pueda entender fácilmente cómo funcionan estos modelos. hacen lo que hacen, simplemente porque las arquitecturas son muy complicadas y desafiantes. Como resultado, creo que también debemos implementar la mitigación de riesgos, garantizando que los responsables de los modelos cada vez más sofisticados que afectan nuestras vidas a diario sean responsables de estos productos y su seguridad. Debido a que los resultados son a menudo impredecibles, necesitamos marcos para proteger a nuestras comunidades de los peores escenarios.
No deberíamos considerar que todos los riesgos son insostenibles, pero debemos ser claros sobre el hecho de que el riesgo existe y que los desafíos de explicabilidad para la vanguardia de la IA significan que el riesgo del aprendizaje automático es más difícil de medir y anticipar que nunca antes. La única opción responsable es equilibrar este riesgo con los beneficios reales que generan estos modelos (sin dar por sentados los beneficios proyectados o prometidos de alguna versión futura) y tomar decisiones reflexivas en consecuencia.