OpenAI presenta GPT 5.2: un caballo de batalla de contexto largo para agentes, codificación y trabajo de conocimiento

OpenAI acaba de presentar GPT-5.2, su modelo de frontera más avanzado para trabajo profesional y agentes de larga duración, y lo está implementando en ChatGPT y API.

GPT-5.2 es una familia de tres variantes. En ChatGPT, los usuarios ven ChatGPT-5.2 Instant, Thinking y Pro. En la API, los modelos correspondientes son gpt-5.2-chat-latest, gpt-5.2 y gpt-5.2-pro. Instant se enfoca en la asistencia y el aprendizaje diarios, Thinking se enfoca en agentes y trabajos complejos de varios pasos, y Pro asigna más computación para tareas técnicas y analíticas difíciles.

Perfil de referencia, desde GDPval hasta SWE Bench

GPT-5.2 Thinking se posiciona como el principal caballo de batalla para el trabajo del conocimiento del mundo real. En GDPval, una evaluación de tareas de conocimiento bien especificadas en 44 ocupaciones en 9 grandes industrias, supera o empata a los mejores profesionales de la industria en el 70,9 por ciento de las comparaciones, al tiempo que produce resultados a más de 11 veces la velocidad y menos del 1 por ciento del costo experto estimado. Para los equipos de ingeniería, esto significa que el modelo puede generar de manera confiable artefactos como presentaciones, hojas de cálculo, cronogramas y diagramas con instrucciones estructuradas.

En un punto de referencia interno de tareas de modelado de hojas de cálculo de banca de inversión junior, las puntuaciones promedio aumentan del 59,1 por ciento con GPT-5.1 al 68,4 por ciento con GPT-5.2 Thinking y al 71,7 por ciento con GPT-5.2 Pro. Estas tareas incluyen tres modelos de declaraciones y modelos de compra apalancada con restricciones de formato y citas, que son representativos de muchos flujos de trabajo empresariales estructurados.

En ingeniería de software, GPT-5.2 Thinking alcanza el 55,6 por ciento en SWE-Bench Pro y el 80,0 por ciento en SWE-bench Verified. SWE-Bench Pro evalúa la generación de parches a nivel de repositorio en varios idiomas, mientras que SWE-bench Verified se centra en Python.

Contexto largo y flujos de trabajo agentes.

El contexto largo es un objetivo central del diseño. GPT-5.2 Thinking establece un nuevo estado del arte en OpenAI MRCRv2, un punto de referencia que inserta múltiples consultas de “aguja” idénticas en largos “pajares” de diálogo y mide si el modelo puede reproducir la respuesta correcta. Es el primer modelo que alcanza una precisión cercana al 100 por ciento en la variante MRCR de 4 agujas con 256 mil tokens.

Para cargas de trabajo que superan incluso ese contexto, GPT-5.2 Thinking se integra con el punto final Responses /compact, que realiza la compactación del contexto para ampliar la ventana efectiva para trabajos de larga duración y con muchas herramientas. Esto es relevante si está creando agentes que llaman de forma iterativa a herramientas en muchos pasos y necesitan mantener el estado más allá del límite del token sin formato.

En cuanto al uso de herramientas, GPT-5.2 Thinking alcanza el 98,7 por ciento en Tau2-bench Telecom, un punto de referencia de atención al cliente de múltiples turnos donde el modelo debe orquestar llamadas de herramientas a través de un flujo de trabajo realista. Los ejemplos oficiales de la publicación de lanzamiento de OpenAI muestran escenarios como un viajero con un vuelo retrasado, conexión perdida, equipaje perdido y requisitos de asientos médicos, donde GPT-5.2 gestiona cambios de reserva, asientos de asistencia especial y compensación en una secuencia consistente, mientras que GPT-5.1 deja los pasos sin terminar.

Visión, ciencia y matemáticas.

La calidad de la visión también mejora. GPT-5.2 Thinking reduce aproximadamente a la mitad las tasas de error en el razonamiento de gráficos y la comprensión de la interfaz de usuario en puntos de referencia como CharXiv Reasoning y ScreenSpot Pro cuando se habilita una herramienta Python. El modelo muestra una mejor comprensión espacial de las imágenes; por ejemplo, al etiquetar componentes de la placa base con cuadros delimitadores aproximados, GPT-5.2 identifica más regiones con una ubicación más estrecha que GPT-5.1.

Para cargas de trabajo científicas, GPT-5.2 Pro obtiene una puntuación del 93,2 por ciento y GPT-5.2 Thinking del 92,4 por ciento en GPQA Diamond, y GPT-5.2 Thinking resuelve el 40,3 por ciento de los problemas de FrontierMath Tier 1 a Tier 3 con las herramientas Python habilitadas. Estos puntos de referencia cubren física, química, biología y matemáticas expertas a nivel de posgrado, y OpenAI destaca el uso temprano donde GPT-5.2 Pro contribuyó a una prueba de la teoría del aprendizaje estadístico bajo verificación humana.

Tabla comparativa

ModeloPosicionamiento primarioVentana de contexto/salida máximaLímite de conocimientoParámetros notables (Thinking/Pro vs GPT-5.1 Thinking)GPT-5.1 Modelo emblemático para tareas de codificación y agentes con esfuerzo de razonamiento configurableContexto de 400.000 tokens, salida máxima de 128.0002024-09-30SWE-Bench Pro 50,8 por ciento, SWE-bench verificado 76,3 por ciento, ARC-AGI-1 72,8 por ciento, ARC-AGI-2 17,6 por cientoGPT-5.2 (Pensando) Nuevo modelo emblemático para tareas de codificación y agentes en todas las industrias y para agentes de larga duraciónContexto de 400.000 tokens, salida máxima de 128.0002025-08-31GDPval gana o empata 70,9 por ciento frente a los profesionales de la industria, SWE-Bench Pro 55,6 por ciento, SWE-bench Verified 80,0 por ciento, ARC-AGI-1 86,2 por ciento, ARC-AGI-2 52,9 por cientoGPT-5.2 ProVersión informática más alta de GPT-5.2 para las cargas de trabajo científicas y de razonamiento más difíciles, produce respuestas más inteligentes y precisas400.000 tokens de contexto, 128.000 resultados máximos2025-08-31GPQA Diamond 93,2 por ciento frente al 92,4 por ciento para GPT-5.2 Thinking y 88,1 por ciento para GPT-5.1 Thinking, ARC-AGI-1 90,5 por ciento y ARC-AGI-2 54,2 por ciento

Conclusiones clave

GPT-5.2 Thinking es el nuevo modelo de caballo de batalla predeterminado: reemplaza a GPT-5.1 Thinking como modelo principal para codificación, trabajo de conocimiento y agentes, manteniendo el mismo contexto de 400k y salida máxima de 128k, pero con un rendimiento de referencia claramente mayor en GDPval, SWE-Bench, ARC-AGI y control de calidad científico. Salto de precisión sustancial sobre GPT-5.1 a una escala similar: en puntos de referencia clave, GPT-5.2 Thinking pasa del 50,8 por ciento al 55,6 por ciento en SWE-Bench Pro y del 76,3 por ciento al 80,0 por ciento en SWE-bench Verified, y del 72,8 por ciento al 86,2 por ciento en ARC-AGI-1 y del 17,6 por ciento al 52,9 por ciento en ARC-AGI-2, manteniendo los límites de los tokens comparables. GPT-5.2 Pro está dirigido a razonamiento y ciencia de alto nivel: GPT-5.2 Pro es una variante de computación superior que mejora principalmente el razonamiento complejo y las tareas científicas, alcanzando por ejemplo el 93,2 por ciento en GPQA Diamond frente al 92,4 por ciento de GPT-5.2 Thinking y el 88,1 por ciento de GPT-5.1 Thinking, y puntuaciones más altas en los niveles ARC-AGI.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.