Anthrope lanza Claude Sonnet 4.5 con una nueva codificación y resultados de avance de la artista

Anthrope lanzó Claude Sonnet 4.5 y establece un nuevo punto de referencia para ingeniería de software de extremo a extremo y uso de computadora en el mundo real. La actualización también envía cambios de superficie del producto concreto (puntos de control del código Claude, una extensión de código nativa vs, herramientas de memoria/contexto de API) y un SDK de agente que expone los mismos usos antrópicos de andamio internamente. El precio permanece sin cambios desde el soneto 4 (entrada de $ 3 / salida de $ 15 por millón de tokens).

¿Qué es realmente nuevo?

Registro verificado de Swe-Bench. Anthrope informa una precisión del 77.2% en el conjunto de datos verificado de 500 Problemas SWE-Bench utilizando un andamio simple de dos herramientas (edición de archivos BASH +), promediado en más de 10 ejecuciones, sin cómputo de tiempo de prueba, presupuesto de “pensamiento” de 200k. Una configuración de contexto de 1 m alcanza el 78.2%, y una configuración de mayor competencia con muestreo y rechazo paralelo aumenta esto al 82.0%. Sota de uso informático. En OSWorld, verificado, el soneto 4.5 conduce al 61.4%, en comparación con el 42.2%de Sonnet 4, lo que refleja un control de herramientas más fuerte y la manipulación de la interfaz de usuario para tareas de navegador/escritorio. Autonomía de Horizon Long. El equipo observó> 30 horas de enfoque ininterrumpido en tareas de codificación de varios pasos, un salto práctico sobre los límites anteriores y directamente relevante para la confiabilidad del agente. Razonamiento/matemáticas. El comunicado señala “ganancias sustanciales” en el razonamiento común y las evals matemáticas; Números exactos por bench (por ejemplo, configuración AIME). La postura de seguridad es ASL-3 con defensas fortalecidas contra la inyección inmediata.

https://www.anthropic.com/news/claude-sonnet-4-5

¿Qué hay para los agentes?

El soneto 4.5 se dirige a las partes frágiles de los agentes reales: planificación extendida, memoria y orquestación de herramientas confiables. El Claude Agent SDK de Anthrope expone sus patrones de producción (gestión de la memoria para tareas de larga duración, permiso, coordinación de subcentual) en lugar de solo un punto final LLM desnudo. Eso significa que los equipos pueden reproducir el mismo andamio utilizado por el código Claude (ahora con puntos de control, un terminal renovado e integración de código VS) para mantener trabajos de varias horas coherentes y reversibles.

En las tareas medidas que simulan “usar una computadora”, el salto de 19 puntos en OsWorld-verificado es notable; Se rastrea con la capacidad del modelo para navegar, llenar hojas de cálculo y completar flujos web en la demostración del navegador de Anthrope. Para las empresas que experimentan con el trabajo de estilo RPA de agente, las puntuaciones más altas de OSWorld generalmente se correlacionan con tasas de intervención más bajas durante la ejecución.

¿Dónde puedes ejecutarlo?

API y aplicaciones antrópicas. ID de modelo Claude-Sonnet-4-5; Paridad de precios con Sonnet 4. La creación de archivos y la ejecución del código ahora están disponibles directamente en las aplicaciones de Claude para niveles pagos. AWS Bedrock. Disponible a través de Rock con rutas de integración a AgentCore; AWS destaca las sesiones de agentes de horizonte largo, las características de memoria/contexto y controles operativos (observabilidad, aislamiento de la sesión). Google Cloud Vertex AI. GA en Vertex AI con soporte para la orquestación de múltiples agentes a través del motor ADK/agente, rendimiento aprovisionado, trabajos de análisis de 1 m-token y almacenamiento en caché rápido. Copiloto de GitHub. Despliegue de vista previa pública a través de Copilot Chat (VS Code, Web, Mobile) y Copilot CLI; Las organizaciones pueden habilitar a través de la política, y BYO Key es compatible con VS Code.

Resumen

Con un puntaje verificado de Bench Swe de 77.2% documentado bajo restricciones transparentes, un 61.4% de ventaja verificada de OSWorld-verificado y actualizaciones prácticas (puntos de control, SDK, disponibilidad de copilot/rock/vértice), se desarrolla Claude Sonnet 4.5 para cargas de trabajo de agente de herramientas de larga duración en lugar de las indicaciones de demo cortas. La replicación independiente determinará cuán duradera es el “mejor para la codificación”, pero los objetivos de diseño (autonomía, andamiaje y control de la computadora) están alineados con los puntos de dolor de producción reales hoy.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.

🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial