Nuestra próxima iteración del FSF establece protocolos de seguridad más fuertes en el camino hacia AGI
La IA es una herramienta poderosa que está ayudando a desbloquear nuevos avances y progresar significativamente en algunos de los mayores desafíos de nuestro tiempo, desde el cambio climático hasta el descubrimiento de drogas. Pero a medida que avanza su desarrollo, las capacidades avanzadas pueden presentar nuevos riesgos.
Por eso nosotros introducido La primera iteración de nuestro marco de seguridad fronteriza el año pasado: un conjunto de protocolos para ayudarnos a mantenernos por adelantado a los posibles riesgos severos de los potentes modelos de IA fronteriza. Desde entonces, hemos colaborado con expertos en la industria, la academia y el gobierno para profundizar nuestra comprensión de los riesgos, las evaluaciones empíricas para probarlos y las mitigaciones que podemos aplicar. También hemos implementado el marco en nuestros procesos de seguridad y gobernanza para evaluar modelos fronterizos como Gemini 2.0. Como resultado de este trabajo, hoy estamos publicando una actualización Marco de seguridad fronteriza.
Las actualizaciones clave del marco incluyen:
- Recomendaciones de nivel de seguridad para nuestros niveles de capacidad crítica (CCLS), ayudando a identificar dónde se necesitan los esfuerzos más fuertes para frenar el riesgo de exfiltración
- Implementación de un procedimiento más consistente sobre cómo aplicamos mitigaciones de implementación
- Describir un enfoque líder de la industria para el riesgo de alineación engañosa
Recomendaciones para una mayor seguridad
Las mitigaciones de seguridad ayudan a evitar que los actores no autorizados exfiltren los pesos del modelo. Esto es especialmente importante porque el acceso a los pesos del modelo permite la eliminación de la mayoría de las salvaguardas. Dadas las apuestas involucradas mientras miramos hacia adelante para una IA cada vez más poderosa, hacer esto mal podría tener serias implicaciones para la seguridad y la seguridad. Nuestro marco inicial reconoció la necesidad de un enfoque escalonado para la seguridad, lo que permite la implementación de mitigaciones con diferentes fortalezas para adaptarse al riesgo. Este enfoque proporcional también asegura que obtengamos el equilibrio correcto entre mitigar los riesgos y fomentar el acceso y la innovación.
Desde entonces, hemos dibujado investigación más amplia Para evolucionar estos niveles de mitigación de seguridad y recomendar un nivel para cada uno de nuestros CCL.* Estas recomendaciones reflejan nuestra evaluación del nivel mínimo de seguridad apropiado, el campo de la IA fronteriza debe aplicarse a dichos modelos en un CCL. Este proceso de mapeo nos ayuda a aislar dónde se necesitan las mitigaciones más fuertes para reducir el mayor riesgo. En la práctica, algunos aspectos de nuestras prácticas de seguridad pueden exceder los niveles de referencia recomendados aquí debido a nuestra fuerte postura de seguridad general.
Esta segunda versión del marco recomienda niveles de seguridad particularmente altos para CCL dentro del dominio de la investigación y el desarrollo del aprendizaje automático (I + D). Creemos que será importante que los desarrolladores de IA fronteriza tengan una fuerte seguridad para futuros escenarios cuando sus modelos pueden acelerar y/o automatizar significativamente el desarrollo de la IA. Esto se debe a que la proliferación incontrolada de tales capacidades podría desafiar significativamente la capacidad de la sociedad para administrar y adaptarse cuidadosamente al ritmo rápido del desarrollo de la IA.
Asegurar la seguridad continua de los sistemas de IA de vanguardia es un desafío global compartido y una responsabilidad compartida de todos los desarrolladores líderes. Es importante destacar que obtener este derecho es un problema de acción colectiva: el valor social de las mitigaciones de seguridad de cualquier actor solo se reducirá significativamente si no se aplica ampliamente en todo el campo. Construir el tipo de capacidades de seguridad que creemos que pueden ser necesarias llevará tiempo, por lo que es vital que todos los desarrolladores de IA fronterizos trabajen colectivamente hacia medidas de seguridad aumentadas y aceleren los esfuerzos hacia los estándares comunes de la industria.
Procedimiento de mitigaciones de implementación
También describimos las mitigaciones de implementación en el marco que se centran en prevenir el mal uso de las capacidades críticas en los sistemas que implementamos. Hemos actualizado nuestro enfoque de mitigación de implementación para aplicar un proceso de mitigación de seguridad más riguroso a los modelos que alcanzan un CCL en un dominio de riesgo de uso indebido.
El enfoque actualizado implica los siguientes pasos: Primero, preparamos un conjunto de mitigaciones iterando en un conjunto de salvaguardas. Mientras lo hacemos, también desarrollaremos un caso de seguridad, que es un argumento evaluable que muestra cómo los riesgos severos asociados con los CCL de un modelo se han minimizado a un nivel aceptable. El organismo de gobierno corporativo apropiado revisa el caso de seguridad, con una implementación general de disponibilidad que ocurre solo si se aprueba. Finalmente, continuamos revisando y actualizando las salvaguardas y el caso de seguridad después de la implementación. Hemos hecho este cambio porque creemos que todas las capacidades críticas justifican este proceso de mitigación exhaustivo.
Enfoque al riesgo de alineación engañosa
La primera iteración del marco se centró principalmente en el riesgo de uso indebido (es decir, los riesgos de los actores de amenaza que utilizan capacidades críticas de modelos desplegados o exfiltrados para causar daño). Sobre la base de esto, hemos adoptado un enfoque líder en la industria para abordar de manera proactiva los riesgos de alineación engañosa, es decir, el riesgo de un sistema autónomo que socava deliberadamente el control humano.
Un enfoque inicial de esta pregunta se centra en detectar cuándo los modelos pueden desarrollar una capacidad de razonamiento instrumental de referencia, lo que les permite socavar el control humano a menos que existan salvaguardas. Para mitigar esto, exploramos el monitoreo automatizado para detectar el uso ilícito de capacidades de razonamiento instrumental.
No esperamos que el monitoreo automatizado permanezca suficiente a largo plazo si los modelos alcanzan niveles aún más fuertes de razonamiento instrumental, por lo que estamos emprendiendo activamente, y muy alentadoras, una investigación adicional que desarrolla enfoques de mitigación para estos escenarios. Si bien aún no sabemos qué es probable que surjan tales capacidades, creemos que es importante que el campo se prepare para la posibilidad.
Conclusión
Continuaremos revisando y desarrollando el marco con el tiempo, guiados por nuestro Principios de IAque describe aún más nuestro compromiso con el desarrollo responsable.
Como parte de nuestros esfuerzos, continuaremos trabajando en colaboración con socios en toda la sociedad. Por ejemplo, si evaluamos que un modelo ha alcanzado un CCL que plantea un riesgo no mitigado y material para la seguridad pública general, nuestro objetivo es compartir información con las autoridades gubernamentales apropiadas donde facilitará el desarrollo de IA segura. Además, el último marco describe una serie de áreas potenciales para más investigaciones, áreas en las que esperamos colaborar con la comunidad de investigación, otras compañías y el gobierno.
Creemos que un enfoque abierto, iterativo y de colaboración ayudará a establecer estándares comunes y mejores prácticas para evaluar la seguridad de los futuros modelos de IA al tiempo que asegura sus beneficios para la humanidad. El Compromisos de seguridad de la IA de la frontera de Seúl Marcó un paso importante hacia este esfuerzo colectivo, y esperamos que nuestro marco de seguridad fronteriza actualizado contribuya aún más a ese progreso. A medida que miramos hacia AGI, obtener esto correcto significará abordar preguntas muy consecuentes, como los umbrales de capacidad y las mitigaciones correctas, que requerirán el aporte de la sociedad más amplia, incluidos los gobiernos.