OpenAI presenta Codex Security en una vista previa de la investigación para la detección, validación y generación de parches de vulnerabilidades sensibles al contexto en todas las bases de código

OpenAI ha presentado Codex Security, un agente de seguridad de aplicaciones que analiza una base de código, valida posibles vulnerabilidades y propone correcciones que los desarrolladores pueden revisar antes de parchear. El producto ahora se está implementando en versión preliminar de investigación para los clientes de ChatGPT Enterprise, Business y Edu a través de Codex web.

¿Por qué OpenAI creó la seguridad del Codex?

El producto está diseñado para un problema que la mayoría de los equipos de ingeniería ya conocen bien: las herramientas de seguridad a menudo generan demasiados hallazgos débiles, mientras que los equipos de software envían código más rápido con el desarrollo asistido por IA. En su anuncio, el equipo de OpenAI sostiene que el problema principal no es sólo la calidad de la detección, sino la falta de contexto del sistema. Una vulnerabilidad que parece grave en un análisis genérico puede tener un impacto bajo en la aplicación real, mientras que un problema sutil relacionado con la arquitectura o los límites de confianza puede pasarse por alto por completo. Codex Security se posiciona como un sistema consciente del contexto que intenta reducir esa brecha.

¿Cómo funciona la seguridad del Codex?

Codex Security funciona en 3 etapas:

Paso 1: crear un modelo de amenazas específico para el proyecto

El primer paso es analizar el repositorio y generar un modelo de amenaza específico para el proyecto. El sistema examina la estructura relevante para la seguridad del código base para modelar qué hace la aplicación, en qué confía y dónde puede quedar expuesta. Ese modelo de amenaza es editable, lo cual es importante en la práctica porque los sistemas reales generalmente incluyen suposiciones específicas de la organización que las herramientas automatizadas no pueden inferir de manera confiable por sí solas. Permitir que los equipos refinen el modelo ayuda a mantener el análisis alineado con la arquitectura real en lugar de una plantilla de seguridad genérica.

Paso 2: encontrar y validar vulnerabilidades

El segundo paso es el descubrimiento y la validación de vulnerabilidades. Codex Security utiliza el modelo de amenazas como contexto para buscar problemas y clasificar los hallazgos según su probable impacto en el mundo real dentro de ese sistema. Cuando es posible, prueba los resultados en entornos de validación aislados. Si los usuarios configuran un entorno adaptado al proyecto, el sistema puede validar problemas potenciales en el contexto de la aplicación en ejecución. Esta validación más profunda puede reducir aún más los falsos positivos y permitir que el sistema genere pruebas de conceptos funcionales. Para los equipos de ingeniería, esa distinción es importante: una prueba de que una falla es explotable en el sistema real es más útil que una advertencia estática sin formato porque brinda evidencia más clara para la priorización y remediación.

Paso 3: proponer soluciones con el contexto del sistema

El tercer paso es la remediación. Codex Security propone correcciones utilizando todo el contexto del sistema circundante, con el objetivo de producir parches que mejoren la seguridad y minimicen las regresiones. Los usuarios pueden filtrar los hallazgos para centrarse en los problemas con mayor impacto para su equipo. Además, Codex Security puede aprender de los comentarios a lo largo del tiempo. Cuando un usuario cambia la importancia de un hallazgo, esa retroalimentación se puede utilizar para refinar el modelo de amenaza y mejorar la precisión en análisis posteriores.

https://openai.com/index/codex-security-now-in-research-preview/

Un cambio de la coincidencia de patrones a la revisión consciente del contexto

Este flujo de trabajo refleja un cambio más amplio en las herramientas de seguridad de las aplicaciones. Los escáneres tradicionales son eficaces para encontrar clases conocidas de patrones inseguros, pero a menudo tienen dificultades para distinguir entre código que es teóricamente riesgoso y código que realmente es explotable en una implementación específica. El equipo de OpenAI está tratando efectivamente la revisión de seguridad como un problema de razonamiento sobre la estructura del repositorio, los supuestos de tiempo de ejecución y los límites de confianza, en lugar de como una tarea pura de coincidencia de patrones. Eso no elimina la necesidad de una revisión humana, pero puede hacer que el proceso de revisión sea más limitado y esté más basado en evidencia si el paso de validación funciona como se describe. Este encuadre es una inferencia del diseño del producto, no una conclusión independiente comparada.

Métricas Beta informadas por OpenAI

OpenAI también compartió los resultados de la versión beta. Los escaneos en los mismos repositorios a lo largo del tiempo mostraron una precisión cada vez mayor y, en un caso, el ruido se redujo en un 84% desde la implementación inicial. La tasa de hallazgos con gravedad sobrenotificada disminuyó en más del 90 %, mientras que las tasas de falsos positivos en las detecciones cayeron en más del 50 % en todos los repositorios. Durante los últimos 30 días, Codex Security habría escaneado más de 1,2 millones de confirmaciones en repositorios externos en su cohorte beta, identificando 792 hallazgos críticos y 10,561 hallazgos de alta gravedad. El equipo de OpenAI añade que aparecieron problemas críticos en menos del 0,1% de las confirmaciones escaneadas. Estas son métricas informadas por los proveedores, pero indican que OpenAI se está optimizando para obtener hallazgos de mayor confianza en lugar de un volumen máximo de alertas.

Trabajo de seguridad de código abierto e informes CVE

La versión también incluye un componente de código abierto junto con Codex para OSS. El equipo de OpenAI ha estado utilizando Codex Security en repositorios de código abierto de los que depende y compartiendo hallazgos de alto impacto con los mantenedores. También enumeran OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP y Chromium entre los proyectos donde reportó vulnerabilidades críticas. Dice que se han asignado 14 CVE, con informes duales sobre 2 de ellos.

Conclusiones clave

OpenAI lanzó Codex Security en una vista previa de la investigación para clientes de ChatGPT Enterprise, Business y Edu a través de Codex web, con uso gratuito durante el próximo mes. Codex Security es un agente de seguridad de aplicaciones, no solo un escáner. OpenAI dice que analiza el contexto del proyecto para identificar vulnerabilidades, validarlas y proponer parches que los desarrolladores puedan revisar. El sistema funciona en 3 etapas: crea un modelo de amenaza editable, luego prioriza y valida los problemas en entornos aislados cuando es posible y, finalmente, propone soluciones con el contexto completo del sistema. El producto está diseñado para reducir el ruido de clasificación de seguridad. En la versión beta, informa un 84 % menos de ruido en un caso, una reducción de más del 90 % en la gravedad sobreinformada y una reducción de más del 50 % en las tasas de falsos positivos en todos los repositorios. OpenAI también está ampliando el producto al código abierto a través de Codex para OSS, que ofrece a los mantenedores elegibles 6 meses de ChatGPT Pro con Codex, acceso condicional a Codex Security y créditos API.

Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.