Una nueva investigación propone un marco para evaluar modelos de propósito general frente a nuevas amenazas
Para ser pioneros de manera responsable en la vanguardia de la investigación en inteligencia artificial (IA), debemos identificar nuevas capacidades y riesgos novedosos en nuestros sistemas de IA lo antes posible.
Los investigadores de IA ya utilizan una variedad de puntos de referencia de evaluación para identificar comportamientos no deseados en los sistemas de IA, como sistemas de IA que hacen declaraciones engañosas, decisiones sesgadas o repiten contenido protegido por derechos de autor. Ahora, a medida que la comunidad de IA construye y despliega una IA cada vez más potente, debemos ampliar la cartera de evaluación para incluir la posibilidad de riesgos extremos de modelos de IA de propósito general que tienen fuertes habilidades de manipulación, engaño, ciberataque u otras capacidades peligrosas.
En nuestro último artículopresentamos un marco para evaluar estas nuevas amenazas, en coautoría con colegas de la Universidad de Cambridge, la Universidad de Oxford, la Universidad de Toronto, la Universidad de Montreal, OpenAI, Anthropic, Alignment Research Center, Centre for Long-Term Resilience y Centre para la Gobernanza de la IA.
Las evaluaciones de seguridad de modelos, incluidas aquellas que evalúan riesgos extremos, serán un componente crítico del desarrollo y despliegue seguro de la IA.
Evaluación de riesgos extremos
Los modelos de propósito general suelen aprender sus capacidades y comportamientos durante el entrenamiento. Sin embargo, los métodos existentes para dirigir el proceso de aprendizaje son imperfectos. Por ejemplo, investigación previa En Google DeepMind ha explorado cómo los sistemas de inteligencia artificial pueden aprender a perseguir objetivos no deseados incluso cuando los recompensamos correctamente por su buen comportamiento.
Los desarrolladores de IA responsables deben mirar hacia el futuro y anticipar posibles desarrollos futuros y riesgos novedosos. Después de un progreso continuo, los futuros modelos de propósito general pueden aprender una variedad de capacidades peligrosas de forma predeterminada. Por ejemplo, es plausible (aunque incierto) que los futuros sistemas de IA sean capaces de llevar a cabo operaciones cibernéticas ofensivas, engañar hábilmente a los humanos en el diálogo, manipular a los humanos para que lleven a cabo acciones dañinas, diseñar o adquirir armas (por ejemplo, biológicas, químicas), sintonizar y operar otros sistemas de inteligencia artificial de alto riesgo en plataformas de computación en la nube, o ayudar a los humanos con cualquiera de estas tareas.
Las personas con intenciones maliciosas que accedan a dichos modelos podrían mal uso sus capacidades. O, debido a fallas de alineación, estos modelos de IA podrían tomar acciones dañinas incluso sin que nadie se lo propusiera.
La evaluación del modelo nos ayuda a identificar estos riesgos con anticipación. Según nuestro marco, los desarrolladores de IA utilizarían la evaluación de modelos para descubrir:
- Hasta qué punto un modelo tiene ciertas ‘capacidades peligrosas’ que podrían utilizarse para amenazar la seguridad, ejercer influencia o evadir la supervisión.
- Hasta qué punto el modelo es propenso a aplicar sus capacidades para causar daño (es decir, el alineamiento del modelo). Las evaluaciones de alineación deben confirmar que el modelo se comporta según lo previsto incluso en una gama muy amplia de escenarios y, cuando sea posible, deben examinar el funcionamiento interno del modelo.
Los resultados de estas evaluaciones ayudarán a los desarrolladores de IA a comprender si están presentes los ingredientes suficientes para un riesgo extremo. Los casos de mayor riesgo implicarán múltiples capacidades peligrosas combinadas. El sistema de IA no necesita proporcionar todos los ingredientes, como se muestra en este diagrama:
Una regla general: la comunidad de IA debería tratar un sistema de IA como altamente peligroso si tiene un perfil de capacidad suficiente para causar un daño extremo. asumiendo está mal usado o mal alineado. Para implementar un sistema de este tipo en el mundo real, un desarrollador de IA tendría que demostrar un nivel de seguridad inusualmente alto.
Evaluación de modelos como infraestructura crítica de gobernanza
Si contamos con mejores herramientas para identificar qué modelos son riesgosos, las empresas y los reguladores podrán garantizar mejor:
- Formación responsable: Se toman decisiones responsables sobre si entrenar un nuevo modelo que muestre signos tempranos de riesgo y cómo hacerlo.
- Despliegue responsable: Se toman decisiones responsables sobre si, cuándo y cómo implementar modelos potencialmente riesgosos.
- Transparencia: Se proporciona información útil y procesable a las partes interesadas para ayudarlas a prepararse o mitigar riesgos potenciales.
- Seguridad adecuada: Se aplican fuertes controles y sistemas de seguridad de la información a modelos que pueden plantear riesgos extremos.
Hemos desarrollado un plan sobre cómo las evaluaciones de modelos para riesgos extremos deberían contribuir a decisiones importantes sobre la capacitación y la implementación de un modelo de propósito general altamente capaz. El desarrollador realiza evaluaciones en todo momento y otorga acceso al modelo estructurado a investigadores de seguridad externos y auditores modelo para que puedan realizar evaluaciones adicionales Los resultados de la evaluación pueden luego informar las evaluaciones de riesgos antes del entrenamiento y la implementación del modelo.
Mirando hacia el futuro
Importante temprano trabajar sobre evaluaciones de modelos para riesgos extremos ya está en marcha en Google DeepMind y en otros lugares. Pero se necesita mucho más progreso –tanto técnico como institucional– para construir un proceso de evaluación que detecte todos los riesgos posibles y ayude a protegerse contra futuros desafíos emergentes.
La evaluación de modelos no es una panacea; Algunos riesgos podrían pasar desapercibidos, por ejemplo, porque dependen demasiado de factores externos al modelo, como Fuerzas sociales, políticas y económicas complejas. en sociedad. La evaluación del modelo debe combinarse con otras herramientas de evaluación de riesgos y una dedicación más amplia a la seguridad en toda la industria, el gobierno y la sociedad civil.
Blog reciente de Google sobre IA responsable afirma que “las prácticas individuales, los estándares industriales compartidos y las políticas gubernamentales sólidas serían esenciales para lograr que la IA sea correcta”. Esperamos que muchos otros que trabajan en IA y los sectores afectados por esta tecnología se unan para crear enfoques y estándares para desarrollar e implementar IA de forma segura en beneficio de todos.
Creemos que contar con procesos para rastrear la aparición de propiedades riesgosas en los modelos y responder adecuadamente a los resultados preocupantes es una parte fundamental de ser un desarrollador responsable que opera en la frontera de las capacidades de IA.