Lo que estoy actualizando en mi clase de ética de la IA para 2025 | por Nathan Bos, Ph.D. | enero de 2025

¿Qué sucedió en 2024 que sea nuevo y significativo en el mundo de la ética de la IA? Los nuevos avances tecnológicos han llegado rápidamente, pero ¿qué implicaciones éticas o de valores van a importar a largo plazo?

He estado trabajando en actualizaciones para mi clase de 2025 sobre Valores y Ética en Inteligencia Artificial. Este curso es parte del programa Johns Hopkins Education for Professionals, parte de la Maestría en Inteligencia Artificial.

Estoy haciendo actualizaciones importantes sobre tres temas basados ​​en los desarrollos de 2024 y una serie de actualizaciones pequeñas, integrando otras noticias y llenando vacíos en el curso.

Tema 1: Interpretabilidad del LLM.

El trabajo de Anthropic en interpretabilidad fue un gran avance en IA explicable (XAI). Discutiremos cómo se puede utilizar este método en la práctica, así como las implicaciones sobre cómo pensamos sobre la comprensión de la IA.

Tema 2: IA centrada en el ser humano.

El rápido desarrollo de la IA añade urgencia a la pregunta: ¿Cómo diseñamos la IA para empoderar a los seres humanos en lugar de reemplazarlos? He agregado contenido a lo largo de mi curso sobre esto, incluidos dos nuevos ejercicios de diseño.

Tema 3: Ley y gobernanza de la IA.

Los principales avances fueron la Ley de IA de la UE y una serie de leyes de California, incluidas leyes contra las falsificaciones profundas, la desinformación, la propiedad intelectual, las comunicaciones médicas y el uso por parte de menores de redes sociales “adictivas”, entre otras. Para la clase, desarrollé algunas heurísticas para evaluar la legislación sobre IA, como estudiar definiciones, y explicar cómo la legislación es solo una pieza de la solución al rompecabezas de la gobernanza de la IA.

El gobernador de California, Gavin Newsome, firma una de varias nuevas leyes sobre IA; dominio publico foto del Estado de California

Material nuevo varios:

Estoy integrando material de noticias en temas existentes sobre derechos de autor, riesgos, privacidad, seguridad y daños en las redes sociales y los teléfonos inteligentes.

Qué hay de nuevo:

El innovador trabajo de Anthropic en 2024 sobre interpretabilidad fue una fascinación para mí. Publicaron una entrada de blog. aquíy también hay un papely había un navegador de funciones interactivas. La mayoría de los lectores expertos en tecnología deberían poder sacar algo de provecho del blog y del artículo, a pesar de cierto contenido técnico y un título desalentador (‘Escalamiento de la monosemanticidad’).

A continuación se muestra una captura de pantalla de una característica descubierta: “elogio sincofántico”. Me gusta este por la sutileza psicológica; Me sorprende que puedan separar este concepto abstracto de la simple “adulación” o “elogio”.

Gráfico del artículo ‘Escalamiento de la monosemanticidad: extracción de características interpretables del soneto de Claude 3’.

Qué es importante:

IA explicable: Para mi clase de ética, esto es más relevante para la IA explicable (XAI), que es un ingrediente clave del diseño centrado en el ser humano. La pregunta que plantearé a la clase es: ¿cómo se podría utilizar esta nueva capacidad para promover la comprensión y el empoderamiento humanos al utilizar los LLM? Los SAE (codificadores automáticos dispersos) son demasiado costosos y difíciles de entrenar para ser una solución completa a los problemas de XAI, pero pueden agregar profundidad a una estrategia XAI de múltiples frentes.

Implicaciones de seguridad: También merece mención el trabajo de Anthropic en materia de seguridad. Identificaron la característica de “elogio sincofántico” como parte de su trabajo sobre seguridad, específicamente relevante para esta pregunta: ¿podría una IA muy poderosa ocultar sus intenciones a los humanos, posiblemente halagando a los usuarios para que se sientan complacientes? Esta dirección general es especialmente destacada a la luz de este trabajo reciente: Los modelos de frontera son capaces de realizar intrigas en contexto.

¿Evidencia de ‘comprensión’ de la IA? ¿La interpretabilidad mató al ‘loro estocástico’? Hace tiempo que estoy convencido de que los LLM deben tener algunas representaciones internas de conceptos complejos e interrelacionados. No podían hacer lo que hacen como motores de asociación de palabras o estímulo-respuesta profundo (‘loros estocásticos’) sin importar cuántos patrones memorizaran. El uso de abstracciones complejas, como las identificadas por Anthropic, se ajusta a mi definición de “comprensión”, aunque algunos reservan ese término sólo para la comprensión humana. Quizás deberíamos simplemente agregar un calificativo para “comprensión de la IA”. Este no es un tema que cubra explícitamente en mi clase de ética, pero sí surge en la discusión de temas relacionados.

Se necesita visualización SAE. Todavía estoy buscando una buena ilustración visual de cómo las características complejas de una red profunda se asignan a SAE muy delgadas y muy amplias con características escasamente representadas. Lo que tengo ahora es la aproximación de Powerpoint que creé para uso en clase, a continuación. Felicitaciones a Brendan Boycroft por su visualizador LLM, que me ha ayudado a comprender más sobre la mecánica de los LLM. https://bbycroft.net/llm

Descripción del autor del mapeo SAE

¿Qué hay de nuevo?

En 2024, era cada vez más evidente que la IA afectará todas las actividades humanas y parece hacerlo a un ritmo mucho más rápido que tecnologías anteriores, como la energía de vapor o las computadoras. La velocidad del cambio importa casi más que la naturaleza del cambio porque la cultura, los valores y la ética humanos no suelen cambiar rápidamente. Los patrones y precedentes desadaptativos establecidos ahora serán cada vez más difíciles de cambiar en el futuro.

¿Qué es importante?

La IA centrada en el ser humano debe convertirse en algo más que un interés académico: debe convertirse en un conjunto de valores, prácticas y principios de diseño bien comprendidos y ampliamente practicados. Algunas personas y organizaciones que me gustan, junto con el trabajo de explicabilidad antrópica ya mencionado, son La IA centrada en el ser humano de StanfordGoogle Personas + IA esfuerzo, y Ben Schneiderman’s liderazgo temprano y organización comunitaria.

Para mi clase de ingenieros de IA que trabajan, estoy tratando de centrarme en principios de diseño prácticos y específicos. Necesitamos contrarrestar los principios de diseño disfuncionales que parezco ver en todas partes: “automatizar todo lo más rápido posible” y “ocultar todo a los usuarios para que no puedan estropearlo”. Busco casos y ejemplos que desafíen a las personas a dar un paso adelante y utilizar la IA de manera que permitan a los humanos ser más inteligentes, más sabios y mejores que nunca.

Escribí casos ficticios para módulos de clase sobre el futuro del trabajo, HCAI y armas letales autónomas. Caso 1 Se trata de un sistema LLM orientado al cliente que intentó hacer demasiado y muy rápido y dejar a los humanos expertos fuera del circuito. Caso 2 trata sobre una maestra de secundaria que descubrió que la mayoría de sus estudiantes estaban haciendo trampa en un ensayo de solicitud de campamento con un LLM y quiere usar GenAI de una mejor manera.

Los casos están en páginas medianas separadas. aquí y aquí¡Y me encantan los comentarios! Gracias a Sara Bos y Andrew Taylor por los comentarios ya recibidos.

El segundo caso podría ser controvertido; Algunas personas argumentan que está bien que los estudiantes aprendan a escribir con IA antes de aprender a escribir sin ella. No estoy de acuerdo, pero ese debate sin duda continuará.

Prefiero casos de diseño del mundo real cuando sea posible, pero ha sido difícil encontrar buenos casos de HCAI. mi colega John (Ian) McCulloh Recientemente me dio algunas ideas geniales a partir de ejemplos que utiliza en sus clases, incluido el Caso de donación de órganosun proyecto de Accenture que ayudó a médicos y pacientes a tomar decisiones urgentes sobre el trasplante de riñón de forma rápida y adecuada. Ian enseña en el mismo programa que yo. Espero trabajar con Ian para convertir esto en un caso interactivo para el próximo año.

La mayoría de la gente está de acuerdo en que el desarrollo de la IA debe regularse, ya sea mediante leyes o por otros medios, pero hay mucho desacuerdo sobre cómo hacerlo.

¿Qué hay de nuevo?

El Ley de IA de la UE entró en vigor, brindando un sistema escalonado para el riesgo de IA y prohibiendo una lista de aplicaciones de mayor riesgo, incluidos sistemas de puntuación social e identificación biométrica remota. La Ley de IA se suma a la de la UE Ley de Mercados Digitales y el Reglamento General de Protección de Datospara formar el conjunto de legislación relacionada con la IA más amplio y completo del mundo.

California aprobó un conjunto de leyes relacionadas con la gobernanza de la IA, que pueden tener implicaciones nacionales, de la misma manera que las leyes de California sobre temas como el medio ambiente a menudo han sentado precedentes. Me gusta esta revisión (incompleta) del bufete de abogados White & Case.

Para comparaciones internacionales sobre privacidad, me gusta el sitio web de DLA Piper. Leyes de protección de datos del mundo.

¿Qué es importante?

Mi clase se centrará en dos cosas:

  1. Cómo debemos evaluar la nueva legislación
  2. Cómo encaja la legislación en el contexto más amplio de la gobernanza de la IA

¿Cómo evalúa la nueva legislación?

Dado el ritmo del cambio, lo más útil que pensé que podría darle a mi clase es un conjunto de heurísticas para evaluar nuevas estructuras de gobernanza.

Presta atención a las definiciones. Cada uno de los nuevos actos jurídicos tropezó con problemas a la hora de definir exactamente qué estaría cubierto; algunas definiciones son probablemente demasiado estrechas (fácilmente obviadas con pequeños cambios en el enfoque), otras demasiado amplias (que invitan al abuso) y algunas pueden quedar anticuadas rápidamente.

California tuvo que resolver algunos problemas difíciles de definición para intentar regular cosas como los “medios adictivos” (ver SB-976), ‘Medios generados por IA’ (ver AB-1836), y redactar una legislación separada para la ‘IA generativa’ (ver SB-896). Cada uno de estos tiene algunos aspectos potencialmente problemáticos, dignos de discusión en clase. Como ejemplo, la Ley de Réplicas Digitales define los medios generados por IA como “un sistema diseñado o basado en una máquina que varía en su nivel de autonomía y que puede, para objetivos explícitos o implícitos, inferir de la información que recibe cómo generar resultados que pueden influir en los entornos físicos o virtuales.“Aquí hay mucho margen de interpretación.

¿Quién está cubierto y cuáles son las sanciones? ¿Las sanciones son económicas o penales? ¿Existen excepciones para el uso policial o gubernamental? ¿Cómo se aplica a través de líneas internacionales? ¿Tiene un sistema escalonado basado en el tamaño de una organización? En cuanto al último punto, la regulación tecnológica a menudo intenta proteger a las nuevas empresas y a las pequeñas empresas con umbrales o niveles de cumplimiento. Pero el gobernador de California vetó la SB 1047 sobre seguridad de la IA para eximir a las pequeñas empresas, argumentando que “los modelos más pequeños y especializados pueden resultar igual o incluso más peligrosos”. ¿Fue una decisión inteligente o simplemente estaba protegiendo a los gigantes tecnológicos de California?

¿Es aplicable, flexible y “preparado para el futuro”? Es muy difícil acertar con la legislación tecnológica porque la tecnología es un objetivo que cambia rápidamente. Si es demasiado específico, corre el riesgo de volverse obsoleto rápidamente o, peor aún, de obstaculizar las innovaciones. Pero cuanto más general o vago sea, menos aplicable podrá ser, o más fácil de “engañar”. Una estrategia es exigir a las empresas que definan sus propios riesgos y soluciones, lo que proporciona flexibilidad, pero sólo funcionará si la legislatura, los tribunales y el público prestan atención a lo que las empresas realmente hacen. Se trata de una apuesta por un poder judicial que funcione bien y una ciudadanía comprometida y empoderada… pero la democracia siempre lo es.

No todos los problemas pueden o deben resolverse con legislación. La gobernanza de la IA es un sistema de varios niveles. Incluye la proliferación de marcos de IA y documentos de orientación independientes sobre IA que van más allá de lo que debería hacerlo la legislación y proporcionan objetivos no vinculantes y a veces idealistas. Algunos que creo que son importantes:

Aquí hay otras noticias y temas que estoy integrando en mi clase, algunos de los cuales son nuevos para 2024 y otros no. Lo haré:

¡Gracias por leer! Siempre agradezco el contacto con otras personas que imparten cursos similares o con un profundo conocimiento de áreas relacionadas. ¡Y también agradezco siempre los aplausos y los comentarios!