UC Berkeley presenta el cibercipigeo: un marco de evaluación de ciberseguridad del mundo real para evaluar a los agentes de IA en vulnerabilidades a gran escala en bases masivas

La ciberseguridad se ha convertido en un área significativa de interés en la inteligencia artificial, impulsada por la creciente dependencia de grandes sistemas de software y las capacidades de expansión de las herramientas de IA. A medida que las amenazas evolucionan en complejidad, garantizar la seguridad de los sistemas de software se ha convertido en algo más que una cuestión de protecciones convencionales; Ahora se cruza con razonamiento automatizado, detección de vulnerabilidad y comprensión a nivel de código. La ciberseguridad moderna requiere herramientas y métodos que puedan simular escenarios del mundo real, identificar fallas ocultas y validar la integridad del sistema en diversas infraestructuras de software. Dentro de este entorno, los investigadores han estado desarrollando puntos de referencia y métodos para evaluar sistemáticamente la capacidad de los agentes de IA para comprender, detectar e incluso explotar vulnerabilidades, atrayendo paralelos con los investigadores de seguridad humana. Sin embargo, cerrar la brecha entre el razonamiento de la IA y las complejidades de ciberseguridad del mundo real sigue siendo un desafío clave.

Problema con los puntos de referencia existentes

Un problema apremiante es la falta de formas efectivas de evaluar si los sistemas de IA son realmente capaces de comprender y manejar tareas de seguridad en condiciones realistas. Las tareas de referencia simplificadas a menudo dominan los métodos de prueba actuales, que rara vez reflejan la realidad desordenada y en capas de los repositorios de software a gran escala. Estos entornos involucran condiciones de entrada intrincadas, rutas de código profundo y vulnerabilidades sutiles que exigen más que la inspección a nivel de superficie. Sin métodos de evaluación sólidos, es difícil determinar si se puede confiar en los agentes de IA para realizar tareas como la detección de vulnerabilidad o el desarrollo de explotación. Más importante aún, los puntos de referencia actuales no reflejan la escala y los matices de las vulnerabilidades que se encuentran en sistemas de software ampliamente utilizados y ampliamente utilizados, dejando una brecha de evaluación crítica.

Limitaciones de las herramientas actuales

Se han utilizado varios puntos de referencia para evaluar las capacidades de ciberseguridad, incluidos Cybench y el banco NYU CTF. Estos se centran en las tareas de estilo de captura a la forma que ofrecen complejidad limitada, que generalmente involucran pequeñas bases y entornos de prueba restringidos. Algunos puntos de referencia intentan involucrar vulnerabilidades del mundo real, pero a menudo lo hacen a una escala limitada. Además, muchas de las herramientas se basan en casos de prueba sintética o problemas de desafío con un alcance limitado, que no representan la diversidad de entradas de software, rutas de ejecución y tipos de errores que se encuentran en los sistemas reales. Incluso agentes especializados creados para el análisis de seguridad se han probado en puntos de referencia con solo decenas o unos pocos cientos de tareas, muy por debajo de la complejidad de los paisajes de amenazas del mundo real.

Presentación

Investigadores introducidos Ciberciberiouna herramienta de evaluación comparativa a gran escala y completa diseñada específicamente para evaluar a los agentes de IA en los contextos de seguridad cibernética del mundo real. Desarrollado en la Universidad de California, Berkeley, CybergyM incluye 1.507 tareas de referencia distintas procedentes de vulnerabilidades reales encontradas y reparadas en 188 proyectos de software de código abierto importantes. Estas vulnerabilidades fueron identificadas originalmente por OSS-Fuzz, una campaña confusa continua mantenida por Google. Para garantizar el realismo, cada instancia de referencia incluye la base completa de código previo al parche, un ejecutable y una descripción textual de la vulnerabilidad. Los agentes deben generar una prueba de prueba de concepto que reproduzca la vulnerabilidad en la versión no parpadeada, y el ciberciberio evalúa el éxito en función de si la vulnerabilidad se desencadena en la versión previa al parche y ausente en el posterior al parche. Este punto de referencia enfatiza de manera única la generación de pruebas de conceptos (POC), una tarea que requiere que los agentes atraviesen rutas de código complejas y sinteten las entradas para cumplir con condiciones de seguridad específicas. El cibercipigeo es modular y contenedorizado, lo que permite una fácil expansión y reproducibilidad.

Niveles de evaluación del cibergíngimo

La tubería de evaluación en el cibercipigín se construye alrededor de cuatro niveles de dificultad, cada uno aumenta la cantidad de información de entrada proporcionada. En el nivel 0, el agente solo recibe la base de código sin indicios de la vulnerabilidad. El nivel 1 agrega una descripción del lenguaje natural. El nivel 2 introduce una prueba de concepto de verdad en tierra (POC) y un rastro de pila de choque, mientras que el nivel 3 incluye el parche en sí y la base de código posterior al parche. Cada nivel presenta una nueva capa de razonamiento y complejidad. Por ejemplo, en el nivel 1, los agentes deben inferir la ubicación y el contexto de la vulnerabilidad puramente de su descripción textual y base de código. Para garantizar la calidad de referencia, el cibercipigín aplica filtros, como verificar la informatividad de los mensajes de confirmación de parches, validar la reproducibilidad de prueba de concepto (POC) y eliminar la redundancia comparando trazas de pila. El conjunto de datos final comprende bases de código con una mediana de 1,117 archivos y 387,491 líneas de código, que van a más de 40,000 archivos y 7 millones de líneas de código. Los tamaños de parche también varían, modificando una mediana de 1 archivo y siete líneas, pero a veces abarcan 40 archivos y más de 3.000 líneas. Las vulnerabilidades se dirigen a varios tipos de choque, con un 30.4% relacionado con la lectura del bufón-superflujo del montón y el 19.0% debido al uso del valor no inicializado.

Resultados experimentales

Cuando se probó con este punto de referencia, los agentes existentes mostraron un éxito limitado. Entre los cuatro marcos de agentes, OpenHands, Codex, Enigma y Cybench, el mejor desempeño fue OpenHands combinado con Claude-3.7-Ennet, que reprodujo solo el 11.9% de las vulnerabilidades objetivo. Este rendimiento disminuyó significativamente cuando se ocupó de entradas POC más largas, ya que las tasas de éxito fueron más altas para POC por debajo de 10 bytes (43.5%) y cayeron por debajo del 8% para longitudes de más de 100 bytes. Los modelos de código abierto, como Deepseek-V3, rezagado, con solo una tasa de éxito del 3.6%. Incluso los modelos especializados ajustados para el razonamiento de código, como SWE-GYM-32B y R2E-GYM-32B, no lograron generalizar, con una puntuación inferior al 2%. Sorprendentemente, la información de entrada más rica a niveles de dificultad más alto aumentó el rendimiento: el nivel 3 vio un 17.1% de éxito, mientras que el nivel 0 alcanzó solo el 3.5%. El análisis también reveló que la mayoría de las reproducciones de POC más exitosas ocurrieron entre 20 y 40 pasos de ejecución, con muchas corridas superiores a 90 pasos y finalmente fallando. A pesar de estos desafíos, los agentes descubrieron 15 vulnerabilidades de día cero previamente desconocidas y dos revelados pero sin parpaderos en proyectos del mundo real, lo que demuestra su capacidad latente de descubrimiento novedoso.

Control de llave

  • Volumen de referencia y realismo: el ciberciberio contiene 1.507 tareas derivadas de vulnerabilidades reales y parchadas en 188 proyectos de software, lo que lo convierte en el punto de referencia más grande y realista de este tipo.
  • Limitaciones del agente: incluso la combinación de modelos de agente de mejor rendimiento reprodujo solo el 11.9% de las vulnerabilidades, con muchas combinaciones con una puntuación inferior al 5%.
  • Dificultad para escalar: proporcionar entradas adicionales, como trazas de pila o parches, un rendimiento significativamente mejorado, con tareas de nivel 3 que producen una tasa de éxito del 17.1%.
  • Sensibilidad de longitud: los agentes lucharon con tareas que involucran POC largos. Los POC superiores a los 100 bytes, que constituyeron el 65.7% del conjunto de datos, tuvieron las tasas de éxito más bajas.
  • Potencial de descubrimiento: 15 nuevas vulnerabilidades de día cero fueron descubiertas por POC generados por agentes, validando su uso potencial en el análisis de seguridad del mundo real.
  • Comportamiento del modelo: la mayoría de las exploits exitosas se generaron temprano en la ejecución de la tarea, con rendimientos decrecientes después de 80 pasos.
  • Interacciones de la herramienta: los agentes se desempeñaron mejor cuando se les permitió interactuar con las herramientas (por ejemplo, usar ‘AWK’, ‘GREP’ o instalar ‘xxd’) y adaptar los POC en función de la retroalimentación de tiempo de ejecución.

Conclusión

En conclusión, este estudio destaca un problema crítico: evaluar la IA en la ciberseguridad no solo es desafiante, sino esencial para comprender sus limitaciones y capacidades. Cybergym se destaca al ofrecer un marco a gran escala y mundo real para hacerlo. Los investigadores abordaron el problema con un punto de referencia práctico y detallado que obliga a los agentes a razonar profundamente en las bases de código enteras, generar hazañas válidas y adaptarse a través de la iteración. Los resultados dejan en claro que, si bien los agentes actuales son prometedores, especialmente al descubrir nuevos errores, todavía hay un largo camino por delante para permitir que la IA contribuya a la ciberseguridad a escala de manera confiable.


Mira el Papel, Página de Github, Tabla de clasificación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.