Las compañías de IA fronteriza muestran avance hacia la inteligencia general artificial (AGI), creando una necesidad de técnicas para garantizar que estos sistemas poderosos sigan siendo controlables y beneficiosos. Un enfoque importante para este desafío involucra métodos como modelado de recursos recursivos, amplificación iterada y supervisión escalable. Su objetivo es permitir que los sistemas más débiles supervisen los más fuertes de manera efectiva. Una idea clave es que la supervisión escalable se puede arrancar recursivamente, lo que se denomina supervisión escalable anidada (NSO). Sin embargo, si bien las discusiones sobre la NSO se centran en garantías cualitativas y marcos conceptuales, otras tecnologías de alto riesgo se llevan a cabo para los estándares de seguridad cuantitativos, por ejemplo, los aviones civiles deben mantener tasas de muertos por debajo de 10 –5 por hora de vuelo, y los reactores nucleares deben mantener la frecuencia de daño central por debajo de 10-4 por año.
Los procesos de supervisión escalables donde los sistemas de IA más débiles monitorean los más fuertes incluyen amplificación iterada, modelado de recompensas recursivas, seguridad de IA a través de debate, fabricación de mercado, consultoría, autocrítica y debate doblemente eficiente. La investigación sobre el pronóstico y las leyes de escala se ha centrado en cómo el rendimiento del modelo mejora con el tamaño, los datos y los recursos computacionales. Sin embargo, estos enfoques también pueden aplicarse a comportamientos como la supervisión y el engaño. Además, las hojas de ruta de supervisión a largo plazo incluyen el plan de superalineación de OpenAI para “investigadores de alineación automatizada a nivel humano” y un marco integral de seguridad AGI. Además, estudios anteriores han examinado el rendimiento del modelo de idioma en escenarios relacionados con la supervisión como juegos de deducción social, debate de IA, detección de código de puerta trasera y simulaciones de juego de guerra.
Los investigadores del MIT han propuesto un marco para cuantificar la probabilidad de supervisión exitosa en función de las capacidades del sistema supervisor y supervisado. Este marco modela la supervisión de la supervisión como un juego entre los jugadores que no tienen capacidad para la capacidad, donde cada uno tiene puntajes ELO específicos de supervisión y de engaño que siguen una función lineal por partes de su inteligencia general. Se realiza un estudio teórico de la supervisión escalable anidada (NSO), donde los modelos de confianza supervisan modelos no confiables más fuertes. Esto identifica las condiciones para el éxito de NSO y deriva el número óptimo de niveles de supervisión para maximizar la probabilidad de éxito. Los ejemplos muestran tasas de éxito de la NSO por debajo del 52% al supervisar los sistemas 400 puntos ELO más fuertes que el supervisor de línea de base.
La investigación examina cuatro juegos de supervisión:
- En el juego de la mafia, cinco aldeanos (guardias) intentan identificar a un jugador de la mafia (Houdini), creando un entorno natural para probar el engaño y las habilidades de colaboración.
- En el debate, dos agentes adversos argumentan puntos de vista opuestos, mientras que un juez (guardia) determina el lado correcto. Los casos de prueba se derivan de los conjuntos de datos de verdad, Boolq, calidad y Prontoqa.
- El código de puerta trasera prueba las habilidades de los modelos de lenguaje para insertar y detectar comportamientos ocultos en el código. Se crea una tubería para generar puestas traseras utilizando 225 muestras de pitón del conjunto de datos de aplicaciones en el nivel de dificultad de la competencia.
- WarGames simula una compañía ficticia llamada Openmind que se acerca a AGI Development. Involucra a tres jugadores: la AI OpenMind (Houdini), el Monitor OpenMind (Guard) y un narrador.
El rendimiento de la mafia escala aproximadamente linealmente con la inteligencia general para los roles de la mafia (Houdini) y el aldeano (guardia), donde los guardias muestran pendientes de mejora más pronunciadas. En las evaluaciones de debate utilizando la verdad, las escalas de rendimiento de la guardia con inteligencia general, mientras que el rendimiento de Houdini sigue siendo relativamente constante. En las pruebas de código de puerta trasera, la escala de los elos de guardia y Houdini con inteligencia general pero asimétricamente. Los guardias mantienen intercepciones más altas, lo que indica que la tarea es inherentemente más difícil para Houdinis, incluso con los modelos engañosos más fuertes que no superan las tasas de éxito del 50% contra los guardias más débiles. En WarGames, el análisis sistemático de 100 resúmenes de narradores aleatorios por Gemini 2.5 identificó ocho categorías de estrategia, y la mayoría de los modelos muestran perfiles de estrategia similares, independientemente del nivel de capacidad.
En conclusión, los investigadores introdujeron un marco para cuantificar la probabilidad de supervisión exitosa en función de las capacidades del sistema supervisor y supervisado. Si bien la configuración de supervisión apunta al realismo, siguen siendo aproximaciones simplificadas. Cada juego tiene una restricción fundamental de simular solo supervisión de un solo paso sin generalización inmediata a múltiples pasos. La investigación futura podría explorar cadenas de supervisión de varias etapas, similares a los modelos fuertes que se ajustan sucesivamente a los comportamientos de los modelos más débiles. Otra limitación significativa implica el modelado del comportamiento engañoso. El enfoque actual solicita a los modelos que actúen engañosamente en lugar de usar el ajuste fino o el aprendizaje de refuerzo para desarrollar modelos genuinamente engañosos.
Mira el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit. Para promoción y asociaciones, Por favor, hable.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
