Tomando un camino responsable hacia AGI

Comprender y abordar el potencial de uso indebido

El uso indebido ocurre cuando un ser humano utiliza deliberadamente un sistema de inteligencia artificial con fines dañinos.

Una mejor comprensión de los daños y mitigaciones actuales continúa mejorando nuestra comprensión de los daños graves a largo plazo y cómo prevenirlos.

Por ejemplo, el uso indebido de la IA generativa actual incluye la producción de contenido dañino o la difusión de información inexacta. En el futuro, los sistemas avanzados de IA pueden tener la capacidad de influir de manera más significativa en las creencias y comportamientos públicos de maneras que podrían tener consecuencias sociales no deseadas.

La posible gravedad de dicho daño requiere medidas proactivas de seguridad y protección.

Como detallamos en el documento, un elemento clave de nuestra estrategia es identificar y restringir el acceso a capacidades peligrosas que podrían usarse indebidamente, incluidas aquellas que permiten ataques cibernéticos.

Estamos explorando una serie de mitigaciones para evitar el uso indebido de la IA avanzada. Esto incluye mecanismos de seguridad sofisticados que podrían evitar que actores maliciosos obtengan acceso sin formato a pesos de modelos que les permitan eludir nuestras barreras de seguridad; mitigaciones que limiten el potencial de uso indebido cuando se implemente el modelo; e investigación de modelos de amenazas que ayuda a identificar umbrales de capacidad donde es necesaria una mayor seguridad. Además, nuestro marco de evaluación de ciberseguridad lanzado recientemente lleva este trabajo un paso más allá para ayudar a mitigar las amenazas impulsadas por la IA.

Incluso hoy en día, evaluamos periódicamente nuestros modelos más avanzados, como el Gemini, en busca de capacidades potencialmente peligrosas. Nuestro Marco de Seguridad Frontier profundiza en cómo evaluamos las capacidades y empleamos mitigaciones, incluso para los riesgos de ciberseguridad y bioseguridad.

El desafío de la desalineación

Para que la AGI complemente verdaderamente las capacidades humanas, debe estar alineada con los valores humanos. La desalineación ocurre cuando el sistema de IA persigue un objetivo diferente a las intenciones humanas.

Anteriormente hemos mostrado cómo puede surgir la desalineación con nuestros ejemplos de juegos de especificaciones, donde una IA encuentra una solución para lograr sus objetivos, pero no de la manera prevista por el ser humano que la instruye, y la generalización errónea de los objetivos.

Por ejemplo, un sistema de inteligencia artificial al que se le pide que reserve entradas para una película podría decidir piratear el sistema de venta de entradas para obtener asientos ya ocupados, algo que una persona que le pide que compre los asientos puede no considerar.

También estamos llevando a cabo una investigación exhaustiva sobre el riesgo de una alineación engañosa, es decir, el riesgo de que un sistema de IA se dé cuenta de que sus objetivos no se alinean con las instrucciones humanas y trate deliberadamente de eludir las medidas de seguridad implementadas por los humanos para evitar que tome medidas desalineadas.

Contrarrestar la desalineación

Nuestro objetivo es contar con sistemas de IA avanzados que estén capacitados para perseguir los objetivos correctos, de modo que sigan las instrucciones humanas con precisión, evitando que la IA utilice atajos potencialmente poco éticos para lograr sus objetivos.

Hacemos esto a través de una supervisión ampliada, es decir, siendo capaces de saber si las respuestas de una IA son buenas o malas para lograr ese objetivo. Si bien esto es relativamente fácil ahora, puede resultar un desafío cuando la IA tiene capacidades avanzadas.

Por ejemplo, ni siquiera los expertos en Go se dieron cuenta de lo bueno que era el Movimiento 37, un movimiento que tenía una probabilidad de 1 entre 10.000 de ser utilizado, cuando AlphaGo lo jugó por primera vez.

Para abordar este desafío, contratamos a los propios sistemas de inteligencia artificial para que nos ayuden a brindar retroalimentación sobre sus respuestas, como en el debate.

Una vez que podamos saber si una respuesta es buena, podemos usarla para construir un sistema de IA seguro y alineado. Un desafío aquí es descubrir en qué problemas o instancias entrenar el sistema de IA. A través del trabajo en capacitación sólida, estimación de incertidumbre y más, podemos cubrir una variedad de situaciones que un sistema de IA encontrará en escenarios del mundo real, creando una IA en la que se pueda confiar.

A través de un monitoreo efectivo y medidas de seguridad informática establecidas, nuestro objetivo es mitigar el daño que podría ocurrir si nuestros sistemas de IA persiguieran objetivos desalineados.

El monitoreo implica el uso de un sistema de inteligencia artificial, llamado monitor, para detectar acciones que no se alinean con nuestros objetivos. Es importante que el monitor sepa cuándo no sabe si una acción es segura. Cuando no esté seguro, debe rechazar la acción o marcarla para su posterior revisión.

Haciendo posible la transparencia

Todo esto se vuelve más fácil si la toma de decisiones de la IA se vuelve más transparente. Realizamos una extensa investigación sobre interpretabilidad con el objetivo de aumentar esta transparencia.

Para facilitar esto aún más, estamos diseñando sistemas de inteligencia artificial que sean más fáciles de entender.

Por ejemplo, nuestra investigación sobre Optimización para miopes con aprobación para no miopes (MONA) tiene como objetivo garantizar que cualquier planificación a largo plazo realizada por sistemas de IA siga siendo comprensible para los humanos. Esto es particularmente importante a medida que la tecnología mejora. Nuestro trabajo en MONA es el primero en demostrar los beneficios de seguridad de la optimización a corto plazo en los LLM.

Construyendo un ecosistema para la preparación de AGI

Dirigido por Shane Legg, cofundador y científico jefe de AGI en Google DeepMind, nuestro Consejo de seguridad de AGI (ASC) analiza el riesgo de AGI y las mejores prácticas, haciendo recomendaciones sobre medidas de seguridad. El ASC trabaja en estrecha colaboración con el Consejo de Responsabilidad y Seguridad, nuestro grupo de revisión interna copresidido por nuestra directora de operaciones Lila Ibrahim y la directora sénior de Responsabilidad Helen King, para evaluar las investigaciones, los proyectos y las colaboraciones de AGI en función de nuestros principios de IA, asesorando y asociándonos con equipos de investigación y productos en nuestro trabajo de mayor impacto.

Nuestro trabajo sobre la seguridad de AGI complementa nuestra profundidad y amplitud de prácticas e investigaciones de responsabilidad y seguridad que abordan una amplia gama de cuestiones, incluido el contenido nocivo, el sesgo y la transparencia. También continuamos aprovechando nuestros aprendizajes de la seguridad en la agencia, como el principio de tener un ser humano al tanto para verificar las acciones consecuentes, para informar nuestro enfoque para construir AGI de manera responsable.

Externamente, estamos trabajando para fomentar la colaboración con expertos, industria, gobiernos, organizaciones sin fines de lucro y de la sociedad civil, y adoptar un enfoque informado para desarrollar AGI.

Por ejemplo, nos estamos asociando con organizaciones sin fines de lucro de investigación de seguridad de IA, incluidas Apollo y Redwood Research, quienes han asesorado sobre una sección dedicada a la desalineación en la última versión de nuestro Marco de Seguridad Frontier.

A través del diálogo continuo con las partes interesadas en las políticas a nivel mundial, esperamos contribuir al consenso internacional sobre cuestiones críticas de seguridad fronteriza, incluida la mejor manera de anticiparnos y prepararnos para nuevos riesgos.

Nuestros esfuerzos incluyen trabajar con otros en la industria (a través de organizaciones como Frontier Model Forum) para compartir y desarrollar mejores prácticas, así como colaboraciones valiosas con institutos de IA en pruebas de seguridad. En última instancia, creemos que un enfoque internacional coordinado de la gobernanza es fundamental para garantizar que la sociedad se beneficie de los sistemas avanzados de IA.

Educar a los investigadores y expertos en IA sobre la seguridad de los AGI es fundamental para crear una base sólida para su desarrollo. Por ello, hemos lanzado un nuevo curso sobre Seguridad AGI para estudiantes, investigadores y profesionales interesados ​​en este tema.

En última instancia, nuestro enfoque en materia de seguridad y protección de AGI sirve como una hoja de ruta vital para abordar los numerosos desafíos que siguen abiertos. Esperamos colaborar con la comunidad de investigación de IA en general para promover la AGI de manera responsable y ayudarnos a desbloquear los inmensos beneficios de esta tecnología para todos.