OpenAI acaba de lanzar GPT-5.3-Codex: un modelo de codificación agente más rápido que unifica el rendimiento del código fronterizo y el razonamiento profesional en un solo sistema

OpenAI acaba de presentar GPT-5.3-Codex, un nuevo modelo de codificación agente que extiende Codex desde la escritura y revisión de código hasta el manejo de una amplia gama de trabajos en una computadora. El modelo combina el rendimiento de codificación de vanguardia de GPT-5.2-Codex con las capacidades de razonamiento y conocimiento profesional de GPT-5.2 en un solo sistema, y ​​se ejecuta un 25% más rápido para los usuarios de Codex debido a mejoras en la infraestructura y la inferencia.

Para los desarrolladores, GPT-5.3-Codex se posiciona como un agente de codificación que puede ejecutar tareas de larga duración que implican investigación, uso de herramientas y ejecución compleja, sin dejar de ser manejable “como un colega” durante una ejecución.

Capacidades de agencia de frontera y resultados comparativos

OpenAI evalúa GPT-5.3-Codex en cuatro puntos de referencia clave que apuntan a la codificación y el comportamiento agente del mundo real: SWE-Bench Pro, Terminal-Bench 2.0, OSWorld-Verified y GDPval.

https://openai.com/index/introduciendo-gpt-5-3-codex/

En SWE-Bench Pro, un punto de referencia resistente a la contaminación creado a partir de problemas reales de GitHub y solicitudes de extracción en cuatro idiomas, GPT-5.3-Codex alcanza el 56,8 % con un alto esfuerzo de razonamiento. Esto mejora ligeramente con respecto a GPT-5.2-Codex y GPT-5.2 con el mismo nivel de esfuerzo. Terminal-Bench 2.0, que mide las habilidades terminales que necesitan los agentes de codificación, muestra una brecha mayor: GPT-5.3-Codex alcanza el 77,3%, significativamente más alto que los modelos anteriores.

https://openai.com/index/introduciendo-gpt-5-3-codex/

En OSWorld-Verified, un punto de referencia agente de uso de computadoras donde los agentes completan tareas de productividad en un entorno de escritorio visual, GPT-5.3-Codex alcanza el 64,7%. Los humanos obtienen alrededor del 72% en este punto de referencia, lo que proporciona un punto de referencia aproximado a nivel humano.

Para el trabajo de conocimiento profesional, GPT-5.3-Codex se evalúa con GDPval, una evaluación introducida en 2025 que mide el desempeño en tareas bien especificadas en 44 ocupaciones. GPT-5.3-Codex logra un 70,9 % de victorias o empates en GDPval, igualando a GPT-5.2 en un alto esfuerzo de razonamiento. Estas tareas incluyen la creación de presentaciones, hojas de cálculo y otros productos de trabajo que se alinean con los flujos de trabajo profesionales típicos.

Un detalle notable del sistema es que GPT-5.3-Codex logra sus resultados con menos tokens que los modelos anteriores, lo que permite a los usuarios “construir más” dentro del mismo contexto y presupuestos de costos.

Más allá de la codificación: GDPval y OSWorld

OpenAI enfatiza que los desarrolladores de software, diseñadores, gerentes de productos y científicos de datos realizan una amplia gama de tareas más allá de la generación de código. GPT-5.3-Codex está diseñado para ayudar en todo el ciclo de vida del software: depuración, implementación, monitoreo, redacción de PRD, edición de copias, ejecución de investigaciones de usuarios, pruebas y métricas.

Con habilidades personalizadas similares a las utilizadas en experimentos anteriores de GDPval, GPT-5.3-Codex produce productos de trabajo completos. Los ejemplos en el blog oficial de OpenAI incluyen presentaciones de diapositivas de asesoramiento financiero, un documento de capacitación minorista, una hoja de cálculo de análisis del VPN y una presentación de moda. Cada tarea de GDPval está diseñada por un profesional del dominio y refleja el trabajo realista de esa ocupación.

https://openai.com/index/introduciendo-gpt-5-3-codex/

En OSWorld, GPT-5.3-Codex demuestra capacidades de uso de computadoras más sólidas que los modelos GPT anteriores. OSWorld-Verified requiere que el modelo utilice la visión para completar diversas tareas en un entorno de escritorio, alineándose estrechamente con la forma en que los agentes operan aplicaciones y herramientas reales en lugar de solo producir texto.

Un colaborador interactivo en la aplicación Codex

A medida que los modelos se vuelven más capaces, OpenAI plantea el principal desafío como la supervisión y el control humanos de muchos agentes que trabajan en paralelo. La aplicación Codex está diseñada para facilitar la gestión y dirección de agentes y, con GPT-5.3-Codex, obtiene un comportamiento más interactivo.

Codex ahora proporciona actualizaciones frecuentes durante una ejecución para que los usuarios puedan ver el progreso y las decisiones clave. En lugar de esperar un resultado final único, los usuarios pueden hacer preguntas, discutir enfoques y dirigir el modelo en tiempo real. GPT-5.3-Codex explica lo que está haciendo y responde a los comentarios manteniendo el contexto. Este ‘comportamiento de seguimiento’ se puede configurar en la configuración de la aplicación Codex.

Un modelo que ayudó a formarse y desplegarse

GPT-5.3-Codex es el primer modelo de esta familia que fue “fundamental en su creación”. OpenAI utilizó las primeras versiones de GPT-5.3-Codex para depurar su propio entrenamiento, gestionar la implementación y diagnosticar resultados y evaluaciones de pruebas.

El equipo de investigación de OpenAI utilizó Codex para monitorear y depurar la ejecución del entrenamiento, rastrear patrones a lo largo del proceso de entrenamiento, analizar la calidad de la interacción, proponer correcciones y crear aplicaciones que visualicen diferencias de comportamiento en relación con modelos anteriores. El equipo de desarrollo utilizó Codex para optimizar y adaptar el arnés de servicio, identificar errores de representación de contexto, encontrar las causas fundamentales de las bajas tasas de aciertos de caché y escalar dinámicamente los clústeres de GPU para mantener una latencia estable ante picos de tráfico.

Durante la prueba alfa, un investigador le pidió a GPT-5.3-Codex que cuantificara el trabajo adicional completado por turno y el efecto en la productividad. El modelo generó clasificadores basados ​​en expresiones regulares para estimar la frecuencia de aclaraciones, las respuestas positivas y negativas y el progreso de las tareas, luego los ejecutó en los registros de sesión y produjo un informe. Codex también ayudó a crear nuevos canales de datos y visualizaciones más ricas cuando las herramientas de panel estándar eran insuficientes y resumió información de miles de puntos de datos en menos de 3 minutos.

Capacidades y salvaguardas de ciberseguridad

GPT-5.3-Codex es el primer modelo que OpenAI clasifica como “alta capacidad” para tareas relacionadas con la ciberseguridad según su marco de preparación y el primer modelo que ha entrenado directamente para identificar vulnerabilidades de software. OpenAI afirma que no tiene evidencia definitiva de que el modelo pueda automatizar los ciberataques de un extremo a otro y está adoptando un enfoque de precaución con su paquete de seguridad de ciberseguridad más completo hasta la fecha.

Las mitigaciones incluyen capacitación en seguridad, monitoreo automatizado, acceso confiable para capacidades avanzadas y canales de aplicación de la ley que incorporan inteligencia sobre amenazas. OpenAI está lanzando un piloto de ‘Acceso Confiable para Cyber’, ampliando la versión beta privada de Aardvark, un agente de investigación de seguridad, y proporcionando escaneo gratuito de la base de código para proyectos de código abierto ampliamente utilizados como Next.js, donde recientemente se utilizó Codex para identificar vulnerabilidades reveladas.

Conclusiones clave

Modelo de frontera unificada para codificación y trabajo: GPT-5.3-Codex combina la potencia de codificación de GPT-5.2-Codex con el razonamiento y las capacidades profesionales de GPT-5.2 en un único modelo agente y se ejecuta un 25 % más rápido en Codex. Lo último en codificación y evaluaciones comparativas de agentes: el modelo establece nuevos máximos en SWE-Bench Pro (56,8 % en xhigh), Terminal-Bench 2.0 (77,3 %) y logra un 64,7 % en OSWorld-Verified y un 70,9 % de victorias o empates en GDPval, a menudo con menos tokens que los modelos anteriores. Admite el desarrollo web y de aplicaciones a largo plazo: utilizando habilidades como “desarrollar juegos web” y seguimientos genéricos como “corregir el error” y “mejorar el juego”, GPT-5.3-Codex desarrolló de forma autónoma juegos complejos de carreras y buceo sobre millones de tokens, demostrando una capacidad de desarrollo sostenida de varios pasos. Fundamental en su propia capacitación e implementación: las primeras versiones de GPT-5.3-Codex se utilizaron para depurar la ejecución de capacitación, analizar el comportamiento, optimizar la pila de servicio, crear canalizaciones personalizadas y resumir registros alfa a gran escala, lo que lo convierte en el primer modelo de Codex “fundamental en su creación”. Modelo cibernético de alta capacidad con acceso protegido: GPT-5.3-Codex es el primer modelo OpenAI clasificado como ‘Alta capacidad’ para ciber y el primero entrenado directamente para identificar vulnerabilidades de software. OpenAI combina esto con Trusted Access for Cyber, la versión beta ampliada de Aardvark y el escaneo gratuito de la base de código para proyectos como Next.js.

Consulta los detalles técnicos y pruébalo aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.