Estamos ampliando nuestros dominios de riesgo y refinando nuestro proceso de evaluación de riesgos.
Los avances de la IA están transformando nuestra vida cotidiana, desde el avance de las matemáticas, la biología y la astronomía hasta la realización del potencial de la educación personalizada. A medida que construimos modelos de IA cada vez más potentes, nos comprometemos a desarrollar nuestras tecnologías de manera responsable y a adoptar un enfoque basado en evidencia para anticiparnos a los riesgos emergentes.
Hoy publicamos la tercera versión de nuestro Marco de seguridad fronterizo (FSF), nuestro enfoque más completo hasta el momento para identificar y mitigar riesgos graves de modelos avanzados de IA.
Esta actualización se basa en nuestras colaboraciones continuas con expertos de la industria, el mundo académico y el gobierno. También hemos incorporado lecciones aprendidas de la implementación de versiones anteriores y la evolución de las mejores prácticas en la seguridad de la IA de vanguardia.
Actualizaciones clave del Marco
Abordar los riesgos de la manipulación nociva
Con esta actualización, presentamos un nivel de capacidad crítica (CCL)* centrado en la manipulación dañina, específicamente, modelos de IA con potentes capacidades de manipulación que podrían usarse indebidamente para cambiar sistemática y sustancialmente creencias y comportamientos en contextos identificados de alto riesgo en el transcurso de las interacciones con el modelo, lo que razonablemente resultaría en un daño adicional esperado a escala grave.
Esta adición se basa y pone en práctica la investigación que hemos realizado para identificar y evaluar los mecanismos que impulsan la manipulación desde la IA generativa. En el futuro, continuaremos invirtiendo en este ámbito para comprender y medir mejor los riesgos asociados con la manipulación dañina.
Adaptar nuestro enfoque a los riesgos de desalineación
También hemos ampliado nuestro Marco para abordar posibles escenarios futuros en los que modelos de IA desalineados podrían interferir con la capacidad de los operadores para dirigir, modificar o cerrar sus operaciones.
Si bien nuestra versión anterior del Marco incluía un enfoque exploratorio centrado en CCL de razonamiento instrumental (es decir, niveles de advertencia específicos cuando un modelo de IA comienza a pensar de manera engañosa), con esta actualización ahora proporcionamos protocolos adicionales para nuestras CCL de investigación y desarrollo de aprendizaje automático centrados en modelos que podrían acelerar la investigación y el desarrollo de IA a niveles potencialmente desestabilizadores.
Además de los riesgos de uso indebido que surgen de estas capacidades, también existen riesgos de desalineación que surgen del potencial de un modelo para acciones no dirigidas en estos niveles de capacidad y la probable integración de dichos modelos en los procesos de desarrollo e implementación de IA.
Para abordar los riesgos que plantean las CCL, realizamos revisiones de casos de seguridad antes de los lanzamientos externos cuando se alcanzan las CCL relevantes. Esto implica realizar análisis detallados que demuestren cómo se han reducido los riesgos a niveles manejables. Para las CCL de investigación y desarrollo de aprendizaje automático avanzado, las implementaciones internas a gran escala también pueden representar un riesgo, por lo que ahora estamos ampliando este enfoque para incluir dichas implementaciones.
Mejorando nuestro proceso de evaluación de riesgos
Nuestro Marco está diseñado para abordar los riesgos en proporción a su gravedad. Hemos perfeccionado nuestras definiciones de CCL específicamente para identificar las amenazas críticas que justifican las estrategias de mitigación y gobernanza más rigurosas. Seguimos aplicando mitigaciones de seguridad y protección antes de que se alcancen umbrales de CCL específicos y como parte de nuestro enfoque de desarrollo de modelo estándar.
Por último, en esta actualización, entramos en más detalles sobre nuestro proceso de evaluación de riesgos. Sobre la base de nuestras evaluaciones principales de alerta temprana, describimos cómo llevamos a cabo evaluaciones holísticas que incluyen la identificación sistemática de riesgos, análisis integrales de las capacidades del modelo y determinaciones explícitas de la aceptabilidad del riesgo.
Avanzando en nuestro compromiso con la seguridad fronteriza
Esta última actualización de nuestro Marco de Seguridad Frontier representa nuestro compromiso continuo de adoptar un enfoque científico y basado en evidencia para rastrear y adelantarse a los riesgos de la IA a medida que las capacidades avanzan hacia AGI. Al ampliar nuestros dominios de riesgo y fortalecer nuestros procesos de evaluación de riesgos, nuestro objetivo es garantizar que la IA transformadora beneficie a la humanidad y, al mismo tiempo, minimice los daños potenciales.
Nuestro Marco seguirá evolucionando en función de nuevas investigaciones, aportes de las partes interesadas y lecciones de la implementación. Seguimos comprometidos a trabajar en colaboración entre la industria, el mundo académico y el gobierno.
El camino hacia una AGI beneficiosa requiere no sólo avances técnicos, sino también marcos sólidos para mitigar los riesgos a lo largo del camino. Esperamos que nuestro Marco de Seguridad Fronterizo actualizado contribuya significativamente a este esfuerzo colectivo.