OpenAI lanza GPT-5.5, un modelo agente totalmente reentrenado que obtiene una puntuación del 82,7 % en Terminal-Bench 2.0 y del 84,9 % en GDPval

OpenAI ha lanzado GPT-5.5, su modelo más capaz hasta la fecha y el primer modelo base completamente reentrenado desde GPT-4.5. GPT-5.5 está diseñado para completar tareas informáticas complejas de varios pasos con una mínima dirección humana. Piense en ello como la diferencia entre un asistente que necesita una lista de verificación y uno que comprende el objetivo subyacente y descubre los pasos por sí mismo. El lanzamiento se lanza hoy para los suscriptores Plus, Pro, Business y Enterprise en ChatGPT y Codex.

Lo que realmente significa aquí “agencial”

Un modelo agente no responde simplemente a un único mensaje: toma una secuencia de acciones, utiliza herramientas (como navegar por la web, escribir código, ejecutar scripts u operar software), verifica su propio trabajo y continúa hasta que finaliza la tarea. Los modelos anteriores a menudo se detenían en los puntos de transferencia, lo que requería que el usuario volviera a indicar o corregir el rumbo. GPT-5.5 está diseñado para reducir esas interrupciones.

OpenAI lanzó GPT-5.5 como un modelo dirigido al uso de computadoras con agentes: escribe y depura código, navega por la web, completa hojas de cálculo y continúa trabajando en tareas de varios pasos sin necesidad de que un humano supervise cada movimiento.

Los cuatro ámbitos donde se concentran las ganancias

Los beneficios se concentran en cuatro áreas: codificación agente, uso de computadoras, trabajo de conocimiento e investigación científica temprana: dominios que OpenAI describe como aquellos “donde el progreso depende del razonamiento en contexto y de la adopción de medidas a lo largo del tiempo”.

Para los ingenieros de software, el punto de referencia más inmediatamente relevante es SWE-Bench Pro, que evalúa la resolución de problemas de GitHub en el mundo real en cuatro lenguajes de programación. GPT-5.5 resuelve el 58,6% de las tareas de un extremo a otro en una sola pasada. Vale la pena señalar: Claude Opus 4.7 obtiene una puntuación más alta con un 64,3% en este mismo punto de referencia, aunque OpenAI ha notado que Anthropic informó signos de memorización en un subconjunto de esos problemas, lo que puede afectar la comparación.

Específicamente para la codificación a largo plazo, OpenAI también informa resultados en Expert-SWE, un punto de referencia interno que mide tareas con un tiempo medio estimado de finalización humana de 20 horas. GPT-5.5 supera a GPT-5.4 en Expert-SWE. Este punto de referencia es importante porque refleja el tipo de trabajo de ingeniería extendido y de múltiples sesiones (grandes refactorizaciones, compilaciones de características, depuración profunda en una base de código) que cada vez más se pide a las herramientas agentes que manejen de forma autónoma.

Los desarrolladores que probaron el sistema anteriormente dijeron que GPT-5.5 comprende mejor la “forma” de un sistema de software y puede comprender mejor por qué algo falla, dónde se necesita la solución y qué más en el código base se vería afectado.

https://openai.com/index/introduciendo-gpt-5-5/

Para los ingenieros de ML y científicos de datos que pasan mucho tiempo en entornos de terminales orquestando canalizaciones y depurando scripts, los resultados de Terminal-Bench 2.0 son la señal más convincente. GPT-5.5 obtiene una puntuación del 82,7 % en Terminal-Bench 2.0, que prueba flujos de trabajo complejos de línea de comandos que requieren planificación, iteración y coordinación de herramientas, superando a Claude Opus 4.7 con un 69,4 % y Gemini 3.1 Pro con un 68,5 %. Ésta no es una pista marginal.

Para el trabajo del conocimiento más amplio, GPT-5.5 obtiene una puntuación del 84,9 % en GDPval, que evalúa a los agentes en 44 ocupaciones de trabajo del conocimiento. En OSWorld-Verified, un punto de referencia que mide si un modelo puede operar de forma autónoma entornos informáticos reales, alcanza el 78,7%.

GPT-5.5 también se entrega con una variante Pro diseñada para tareas más difíciles y de mayor precisión. En BrowseComp, que prueba la capacidad de un modelo para rastrear información difícil de encontrar en la web, GPT-5.5 Pro obtiene una puntuación del 90,1%, por delante de Gemini 3.1 Pro con un 85,9%. El modelo también es el sistema mejor clasificado en el Índice de Inteligencia de Análisis Artificial.

Velocidad y eficiencia del token

Una preocupación con los modelos más capaces es que tienden a ser más lentos o más costosos de operar. OpenAI abordó esto directamente. GPT-5.5 iguala la latencia por token de GPT-5.4 en la publicación en el mundo real y, al mismo tiempo, funciona mejor en casi todas las evaluaciones medidas. También utiliza una cantidad significativamente menor de tokens para completar las mismas tareas del Codex, lo que significa ejecuciones más cortas y más eficientes incluso en flujos de trabajo agentes complejos.

En cuanto al precio, la API GPT-5.5 estándar se cobrará a 5 dólares por millón de tokens de entrada y 30 dólares por millón de tokens de salida. En contexto, GPT-5.4 tenía un precio de 2,50 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida, por lo que el precio por token se ha duplicado. El equipo de OpenAI argumentó que las ganancias en la eficiencia de los tokens compensan el costo, ya que GPT-5.5 completa las mismas tareas del Codex con menos tokens, lo que significa ejecuciones más baratas en general, incluso a una tasa por token más alta. GPT-5.5 Pro, la variante de mayor precisión, tiene un precio de $30 por millón de tokens de entrada y $180 por millón de tokens de salida en la API.

Para los equipos que ejecutan Codex a escala, lo que importa son las matemáticas netas: si GPT-5.5 completa una tarea con menos tokens que GPT-5.4, el costo efectivo por flujo de trabajo completado aún puede ser menor a pesar de la tasa más alta.

Escala y adopción

OpenAI ha experimentado un aumento en el uso del Codex, con alrededor de 4 millones de desarrolladores utilizando la herramienta semanalmente. Esa escala es importante para comprender el contexto de implementación: GPT-5.5 no es una vista previa de la investigación, sino un modelo de producción que se envía a una gran base de desarrolladores activa inmediatamente después del lanzamiento.

Conclusiones clave

GPT-5.5 es el primer modelo base completamente reentrenado de OpenAI desde GPT-4.5, diseñado específicamente para flujos de trabajo agentes: puede comprender objetivos complejos, utilizar herramientas, comprobar su propio trabajo y llevar a cabo tareas de varios pasos hasta su finalización con una mínima dirección humana. Las mayores ganancias de rendimiento se encuentran en la codificación agente, el uso de computadoras, el trabajo de conocimiento y la investigación científica temprana: GPT-5.5 obtiene una puntuación del 82,7 % en Terminal-Bench 2.0, del 84,9 % en GDPval y del 78,7 % en OSWorld-Verified, superando a Claude Opus 4.7 y Gemini 3.1 Pro en varios puntos de referencia clave. GPT-5.5 iguala la latencia por token de GPT-5.4 y, al mismo tiempo, es más capaz en casi todos los puntos de referencia; también utiliza significativamente menos tokens para completar las mismas tareas del Codex, lo que significa mejores resultados sin un aumento proporcional en la velocidad o el costo por flujo de trabajo completado. El precio de la API aumenta a $5/M de tokens de entrada y $30/M de tokens de salida (en comparación con $2,50 y $15 para GPT-5.4), con GPT-5.5 Pro con un precio de $30/M de entrada y $180/M de salida. El equipo de OpenAI sostiene que las ganancias en la eficiencia de los tokens compensan la mayor tasa por token para la mayoría de las cargas de trabajo. GPT-5.5 se está implementando hoy para usuarios Plus, Pro, Business y Enterprise en ChatGPT y Codex, y aproximadamente 4 millones de desarrolladores ya utilizan Codex semanalmente.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

OpenAI lanza GPT-5.5, un modelo agente totalmente reentrenado que obtiene una puntuación del 82,7 % en Terminal-Bench 2.0 y del 84,9 % en GDPval

ByEquipo de 7 minutos

Lo que realmente significa aquí “agencial”

Los cuatro ámbitos donde se concentran las ganancias

Velocidad y eficiencia del token

Escala y adopción

Conclusiones clave

By Equipo de 7 minutos

Related Post

xAI lanza el mercado de complementos Grok Build con complementos MongoDB, Vercel, Sentry, Chrome DevTools, Cloudflare y Superpowers en el lanzamiento

Cuando se trata de predecir las preferencias de las personas, vale la pena considerar “la potencia de tres” | Noticias del MIT

Perplexity traslada la investigación profunda a la informática y dirige las subtareas de investigación a través de más de 20 modelos fronterizos para informes, presentaciones y paneles

You missed

Un detector subterráneo gigante publica los primeros hallazgos importantes sobre partículas fantasma: ScienceAlert

Estos estados no quieren tener nada que ver con el espectáculo de mierda America 250 de Trump

La alemana NEURA Robotics recauda hasta 1.200 millones de euros en una ronda de la Serie C para construir IA física desde Europa

Lujo y más lujo – Palma’s Born