Cómo las cumbres en Seúl, Francia y otros lugares pueden impulsar la cooperación internacional en materia de seguridad de la IA en la frontera
El año pasado, el gobierno del Reino Unido organizó la primera gran cumbre mundial sobre seguridad de la IA en la frontera en Bletchley Park. Centró la atención del mundo en el rápido progreso en la frontera del desarrollo de la IA y proporcionó medidas internacionales concretas para responder a posibles riesgos futuros, incluido el Declaración de Bletchley; nuevos institutos de seguridad de IA; y el Informe científico internacional sobre seguridad avanzada de la IA.
Seis meses después de Bletchley, la comunidad internacional tiene la oportunidad de aprovechar ese impulso e impulsar una mayor cooperación global en la Cumbre AI de Seúl de esta semana. A continuación compartimos algunas ideas sobre cómo la cumbre (y las futuras) pueden impulsar el progreso hacia un enfoque común y global para la seguridad de la IA en la frontera.
Las capacidades de IA han seguido avanzando a un ritmo rápido
Desde Bletchley, ha habido una gran innovación y progreso en todo el campo, incluido Google DeepMind. La IA continúa impulsando avances en dominios científicos críticos, con nuestro nuevo AlfaFold 3 modelo que predice la estructura y las interacciones de todas las moléculas de la vida con una precisión sin precedentes. Este trabajo ayudará a transformar nuestra comprensión del mundo biológico y acelerar el descubrimiento de fármacos. Al mismo tiempo, nuestro Familia de modelos Géminis ya han hecho que los productos utilizados por miles de millones de personas en todo el mundo sean más útiles y accesibles. También hemos estado trabajando para mejorar la forma en que nuestros modelos perciben, razonan e interactúan y recientemente compartimos nuestro progreso en la construcción del futuro de los asistentes de IA con Proyecto Astra.
Este progreso en las capacidades de la IA promete mejorar la vida de muchas personas, pero también plantea preguntas novedosas que deben abordarse de manera colaborativa en una serie de dominios clave de seguridad. Google DeepMind está trabajando para identificar y abordar estos desafíos a través de investigaciones pioneras en seguridad. Sólo en los últimos meses, hemos Compartimos nuestro enfoque en evolución. desarrollar un conjunto holístico de evaluaciones de seguridad y responsabilidad para nuestros modelos avanzados, incluyendo investigaciones tempranas evaluar capacidades críticas como el engaño, la ciberseguridad, la autoproliferación y el autorazonamiento. También publicamos una exploración en profundidad de alineando futuros asistentes avanzados de IA con los valores e intereses humanos. Más allá de los LLM, recientemente compartimos nuestro enfoque para bioseguridad para AlfaFold 3.
Este trabajo está impulsado por nuestra convicción de que necesitamos innovar en seguridad y gobernanza tan rápido como innovamos en capacidades, y que ambas cosas deben hacerse en conjunto, informándose y fortaleciéndose mutuamente continuamente.
Construyendo un consenso internacional sobre los riesgos fronterizos de la IA
Maximizar los beneficios de los sistemas avanzados de IA requiere generar consenso internacional sobre cuestiones críticas de seguridad en las fronteras, incluida la anticipación y la preparación para nuevos riesgos más allá de los que plantean los modelos actuales. Sin embargo, dado el alto grado de incertidumbre sobre estos posibles riesgos futuros, existe una clara demanda por parte de los responsables de las políticas de una visión independiente y con base científica.
Por eso el lanzamiento del nuevo interino Informe científico internacional sobre la seguridad de la IA avanzada es un componente importante de la Cumbre AI de Seúl, y esperamos presentar evidencia de nuestra investigación a finales de este año. Con el tiempo, este tipo de esfuerzo podría convertirse en un insumo central para el proceso de la cumbre y, si tiene éxito, creemos que se le debería otorgar un estatus más permanente, inspirado libremente en la función del Panel Intergubernamental sobre el Cambio Climático. Esta sería una contribución vital a la base de evidencia que los formuladores de políticas de todo el mundo necesitan para informar la acción internacional.
Creemos que estas cumbres de IA pueden proporcionar un foro regular dedicado a generar consenso internacional y un enfoque común y coordinado para la gobernanza. Mantener un enfoque exclusivo en la seguridad fronteriza también garantizará que estas convocatorias sean complementarias y no duplicativas de otros esfuerzos de gobernanza internacional.
Establecer mejores prácticas en evaluaciones y un marco de gobernanza coherente
Las evaluaciones son un componente crítico necesario para informar las decisiones de gobernanza de la IA. Nos permiten medir las capacidades, el comportamiento y el impacto de un sistema de IA y son un aporte importante para las evaluaciones de riesgos y el diseño de mitigaciones adecuadas. Sin embargo, la ciencia de las evaluaciones de seguridad de la IA de vanguardia aún se encuentra en una etapa temprana de su desarrollo.
Esta es la razón por la que Foro del modelo de frontera (FMF), que Google lanzó con otros laboratorios de inteligencia artificial líderes, está colaborando con institutos de seguridad de inteligencia artificial en los EE. UU. y el Reino Unido y otras partes interesadas en las mejores prácticas para evaluar modelos de frontera. Las cumbres de IA podrían ayudar a escalar este trabajo a nivel internacional y ayudar a evitar un mosaico de pruebas nacionales y regímenes de gobernanza que se duplican o entran en conflicto entre sí. Es fundamental que evitemos la fragmentación que podría dañar inadvertidamente la seguridad o la innovación.
Los institutos de seguridad de IA de EE. UU. y el Reino Unido ya he acordado construir un enfoque común para las pruebas de seguridad, un primer paso importante hacia una mayor coordinación. Creemos que con el tiempo existe la oportunidad de aprovechar esto para lograr un enfoque común y global. Una prioridad inicial de la Cumbre de Seúl podría ser acordar una hoja de ruta para que una amplia gama de actores colaboren en el desarrollo y estandarización de puntos de referencia y enfoques de evaluación de IA de vanguardia.
También será importante desarrollar marcos compartidos para la gestión de riesgos. Para contribuir a estas discusiones, recientemente presentamos la primera versión de nuestro Marco de seguridad fronterizo, un conjunto de protocolos para identificar de forma proactiva futuras capacidades de IA que podrían causar daños graves y establecer mecanismos para detectarlas y mitigarlos. Esperamos que el Marco evolucione significativamente a medida que aprendamos de su implementación, profundicemos nuestra comprensión de los riesgos y evaluaciones de la IA y colaboremos con la industria, el mundo académico y el gobierno. Con el tiempo, esperamos que compartir nuestros enfoques facilite el trabajo con otros para acordar estándares y mejores prácticas para evaluar la seguridad de futuras generaciones de modelos de IA.
Hacia un enfoque global para la seguridad de la IA de frontera
Muchos de los riesgos potenciales que podrían surgir del progreso en la frontera de la IA son de naturaleza global. A medida que nos acercamos a la Cumbre de IA de Seúl y miramos hacia futuras cumbres en Francia y más allá, estamos entusiasmados por la oportunidad de avanzar en la cooperación global en materia de seguridad de la IA en la frontera. Esperamos que estas cumbres proporcionen un foro dedicado al progreso hacia un enfoque global común. Hacer esto bien es un paso fundamental para desbloquear los enormes beneficios de la IA para la sociedad.