Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8: Comparación de puntos de referencia de codificación agente, precios de API y compensaciones entre costo y rendimiento

Anthropic acaba de enviar Claude Sonnet 5. Lo llaman su modelo Sonnet más agente hasta el momento. Planifica, controla navegadores y terminales, y se ejecuta de forma autónoma en tareas largas.

Sonnet 5 es el modelo predeterminado para los planes Free y Pro en la actualidad. Los usuarios de Max, Team y Enterprise pueden seleccionarlo. También está disponible en Claude Code y en Claude Platform.

TL;DR

Sonnet 5 es el modelo de nivel medio más agente de Anthropic, cerrando gran parte de la brecha con Opus 4.8. Supera a Sonnet 4.6 en todos los puntos de referencia publicados: 63,2 % SWE-bench Pro, 81,2 % OSWorld-Verified, 57,4 % HLE. Más barato de ejecutar: $2/$10 por precio de introducción de MTok hasta el 31 de agosto, luego $3/$15; La obra 4.8 cuesta $5/$25. Mejor valor con esfuerzo bajo/medio; en xhigh puede costar más que Opus 4.8 por una calidad similar. Más seguro que 4.6, con una capacidad cibernética deliberadamente baja: Opus sigue siendo la elección para trabajos en los que la precisión es crítica.

Claudio Soneto 5

Sonnet se encuentra en el medio de la alineación de Anthropic. Está por encima del Haiku 4.5 más económico y por debajo del buque insignia Opus 4.8.

Sonnet 5 es una actualización de Sonnet 4.6, que se lanzó en febrero de 2026. Anthropic enmarca esta versión en torno a la confiabilidad agente, no en un punto de referencia principal.

En la práctica, eso significa cadenas de tareas más largas sin perder contexto. Significa una mejor autocorrección cuando falla una llamada a una herramienta. Significa un comportamiento más estable durante sesiones prolongadas dentro de Claude Code o Cowork.

El modelo expone niveles de esfuerzo: bajo, medio, alto y xalto (extra alto). Un mayor esfuerzo gasta más tokens en razonamiento. Eso aumenta tanto la calidad como el costo.

Es importante señalar que Sonnet 5 utiliza un tokenizador actualizado, el mismo introducido con Opus 4.7. El mismo texto se puede asignar a aproximadamente entre 1,0 y 1,35 veces más tokens.

Explicador interactivo

Explorador de costos y capacidades de Claude Sonnet 5

Claude Sonnet 5: Explorador de costos y capacidades

Calcule el costo por tarea entre modelos y compare los puntos de referencia publicados. Todas las cifras del lanzamiento de Anthropic el 30 de junio de 2026.

Estimador de costos por tarea

Soneto 5 (introducción $2/$10) Soneto 5 (estándar $3/$15) Opus 4.8 ($5/$25) Soneto 4.6 ($3/$15)

$0.00
por tarea • $0.00/día • $0.00/mes

Sonnet 5 utiliza un tokenizador actualizado (igual que Opus 4.7). El mismo texto se puede asignar a aproximadamente entre 1,0 y 1,35 veces más tokens, por lo que el factor se aplica únicamente al Soneto 5.

Comparación de referencia publicada

Codificación agente (SWE-bench Pro) Terminal-Bench 2.1 Uso de computadora (OSWorld-Verified) El último examen de la humanidad (herramientas)

Soneto 4.6
Soneto 5
Obra 4.8

En trabajo de conocimiento (GDPval-AA v2), Sonnet 5 obtiene una puntuación de 1.618 y supera los 1.615 del Opus 4.8. Ese punto de referencia utiliza una escala diferente, por lo que se muestra aquí como una nota en lugar de una barra.

Punto de referencia

El equipo de Anthropic publicó una tabla de referencia comparando Sonnet 5, Sonnet 4.6 y Opus 4.8. Sonnet 5 supera a su predecesor en todas las categorías probadas. Cierra gran parte de la brecha con Opus 4.8.

En codificación agente (SWE-bench Pro), Sonnet 5 obtiene una puntuación del 63,2%. Soneto 4.6 obtuvo una puntuación del 58,1%. Opus 4.8 sigue liderando con un 69,2%.

En cuanto al uso de computadoras (OSWorld-Verified), Sonnet 5 registra un 81,2% frente al 78,5% de Sonnet 4.6. En Terminal-Bench 2.1, alcanza el 80,4% frente al 67,0%.

En El último examen de la humanidad con herramientas, Soneto 5 alcanza el 57,4%. Eso casi iguala a Opus 4.8 con un 57,9%.

Hay un lugar donde Sonnet 5 avanza. En el punto de referencia de trabajo de conocimiento GDPval-AA v2, obtiene una puntuación de 1.618 frente a los 1.615 del Opus 4.8.

https://www.anthropic.com/news/claude-sonnet-5

Niveles de esfuerzo: dónde reside la verdadera compensación

La relación coste-rendimiento es la parte más importante para los desarrolladores. Sonnet 5 es una mejora estricta con respecto a Sonnet 4.6 en todos los niveles de esfuerzo. El valor más claro aparece en esfuerzo bajo y medio.

En esos niveles, Sonnet 5 ofrece una calidad que los precios anteriores de Sonnet no podían comprar. Opus 4.8 sigue siendo el líder en precisión en la parte superior de la gama.

De esto se desprende una política de enrutamiento práctica. Envíe la mayor parte del trabajo de codificación, uso de herramientas y conocimiento de agentes a Sonnet 5. Reserve Opus 4.8 para tareas críticas de precisión. Mantenga Haiku 4.5 para llamadas de gran volumen y sensibles a la latencia.

Casos de uso: dónde encaja Sonnet 5

Los socios de acceso temprano describieron flujos de trabajo concretos. Sus informes se corresponden con trabajos de ingeniería comunes.

Ingeniería de software de varios pasos: un evaluador le pidió a Sonnet 5 que investigara un error. Escribió una prueba de reproducción, implementó la solución y luego confirmó que el error regresaba sin el cambio. Lo hizo en una sola pasada. Depuración brownfield: otro socio lo ejecutó en solicitudes de extracción estrictas. El modelo rastreó los fallos hasta sus causas fundamentales. Envió soluciones duraderas en lugar de parches de síntomas. Automatización empresarial: Zapier le encargó un trabajo de dos partes. Actualizó los niveles de cuentas de Salesforce y luego envió un correo electrónico de lanzamiento a los contactos empresariales. Terminó la tarea de principio a fin. Agentes que utilizan computadoras: Pace ejecuta flujos de trabajo de seguros, como la admisión de presentaciones y las ejecuciones de pérdidas. Sus agentes actúan sobre los sistemas operativos que los equipos ya utilizan. Exploración de datos: los agentes de ClickHouse consultan datos en vivo y producen información sobre la marcha. Un razonamiento más rápido significa un tiempo de obtención de información más rápido para los analistas.

Tabla comparativa

Metric / SpecSonnet 4.6Sonnet 5Opus 4.8Codificación agencia (SWE-bench Pro)58.1%63.2%69.2%Terminal-Bench 2.167.0%80.4%no reportadoUso de computadora (OSWorld-Verified)78.5%81.2%no reportadoÚltimo examen de la humanidad (con herramientas)46.8%57.4%57.9%Trabajo de conocimiento (GDPval-AA v2)no reportado1,6181,615Precio de entrada ($/MTok)32 intro, luego 35Precio de salida ($/MTok)1510 intro, luego 1525

El precio de lanzamiento de Sonnet 5 estará vigente hasta el 31 de agosto de 2026. El precio estándar de $3/$15 comienza después de esa fecha. También se aplican el almacenamiento en caché de avisos estándar (lecturas de caché con una entrada de 0,1x) y el descuento de API por lotes del 50 %. Por token, Sonnet 5 supera a GPT-5.5 y Gemini 3.1 Pro, pero cuesta más que Gemini 3.5 Flash. Anthropic enumera una ventana contextual de 1 millón de tokens para Sonnet 5 en su publicación de lanzamiento. No publica aquí cifras de contexto para los otros modelos.

Ejemplo de codificación: llamar a Sonnet 5

La llamada API refleja cualquier otro modelo Anthropic. Cambia la cadena del modelo a claude-sonnet-5.

importar cliente antrópico = anthropic.Anthropic() # lee mensaje ANTHROPIC_API_KEY = client.messages.create( model=”claude-sonnet-5″, max_tokens=1024, mensajes=[
{“role”: “user”, “content”: “Find the race condition in worker.py and ship a tested fix.”}
]) imprimir(mensaje.contenido[0].texto)

Fortalezas y debilidades

Fortalezas:

Mejora en Sonnet 4.6 en todas las categorías de referencia. Anthropic probó la calidad de Near-Opus 4.8 en varias evaluaciones, a precios más bajos por token. Supera a Opus 4.8 en el punto de referencia de trabajo de conocimiento GDPval-AA v2. Tasas más bajas de alucinaciones, adulación y comportamiento indeseable que Sonnet 4.6. Cambio directo de API: solo intercambia la cadena del modelo.

Debilidades:

Opus 4.8 aún gana en las tareas más difíciles y críticas para la precisión. Con un esfuerzo alto, el costo puede superar al Opus 4.8 con una calidad similar. El nuevo tokenizador puede aumentar el conteo de tokens hasta 1,35 veces. La capacidad cibernética es intencionalmente baja; use Opus para trabajo cibernético autorizado El precio estándar de $3/$15 llega después del 31 de agosto de 2026 Claude Sonnet 5 — Reacción de la comunidad

Claude Soneto 5 – Reacción de la comunidad

Primeras reacciones de los desarrolladores de Hacker News y X el día del lanzamiento, 30 de junio de 2026.

Sentimiento de las 8 reacciones mostradas

Positivo · 38%
Neutro/mixto · 38%
Negativo · 25%

Recepción mixta: elogios por la relación calidad-precio, dudas sobre el precio total de $3/$15. Etiquetado manualmente a partir de las publicaciones públicas a continuación; Los dos enlaces de Reddit son hilos activos, que no se cuentan aquí.

Todas las noticias de hackers X Reddit

incógnita@ClaudeDevs (oficial)Positivo

“Rendimiento de primer nivel en codificación y uso de herramientas al precio de Sonnet”, con una ventana de contexto de 1 millón.

Ver publicación en X →

Noticias de piratas informáticosphillipcarterPositivo

“Otra gran actualización incremental del caballo de batalla”. Utiliza Sonnet sobre Opus para la mayoría de la codificación.

Ver comentario en HN →

Noticias de piratas informáticosmchusmaMezclado

Mucho más atractivo al precio de lanzamiento de $2/$10 que al precio estándar completo.

Ver comentario en HN →

incógnita@kimmonismusPositivo

“Rendimiento cercano al nivel de Opus 4.8, pero más barato”. Fuertes avances en el razonamiento y el uso de herramientas.

Ver publicación en X →

Noticias de piratas informáticosandaiCrítico

“Si estás haciendo algo difícil, utiliza un modelo más grande”. El Opus gana partes de la frontera.

Ver comentario en HN →

Noticias de piratas informáticosconradkayCrítico

“Parece peor incluso en precio/rendimiento que GLM 5.2” con parámetros 744B.

Ver comentario en HN →

Noticias de piratas informáticosmag7269Neutral

“¿Cuándo podremos conseguir un nuevo Haiku?” 4.5 tiene casi un año y muestra su edad.

Ver comentario en HN →

Noticias de piratas informáticoshermanosMezclado

Ve claramente el valor con esfuerzo bajo y medio; menos en alto versus Opus 4.8.

Ver comentario en HN →

Redditr/Claude AI

Discusión del día del lanzamiento: puntos de referencia, precios e impresiones de Claude Code de la comunidad.

Abrir el hilo en vivo →

Redditr/LocalLLaMA

Debate entre precio y rendimiento entre pesos abiertos y Sonnet 5, con comparaciones GLM-5.2 y K2.7.

Abrir el hilo en vivo →

Las tarjetas de Reddit enlazan con subreddits en vivo el día del lanzamiento, ya que todavía se estaba formando un único hilo canónico en el momento de la publicación. Las tarjetas Hacker News y X citan publicaciones públicas específicas y vinculables. Las etiquetas de opinión son una lectura editorial manual, no una puntuación automatizada.

Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ml y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8: Comparación de puntos de referencia de codificación agente, precios de API y compensaciones entre costo y rendimiento

ByEquipo de 7 minutos

TL;DR

Claudio Soneto 5

Explicador interactivo

Claude Sonnet 5: Explorador de costos y capacidades

Estimador de costos por tarea

Comparación de referencia publicada

Punto de referencia

Niveles de esfuerzo: dónde reside la verdadera compensación

Casos de uso: dónde encaja Sonnet 5

Tabla comparativa

Ejemplo de codificación: llamar a Sonnet 5

Fortalezas y debilidades

Fortalezas:

Debilidades:

Claude Soneto 5 – Reacción de la comunidad

Sentimiento de las 8 reacciones mostradas

By Equipo de 7 minutos

Related Post

La API de Google Health tiene una CLI: ghealth es una herramienta de código abierto para sus datos de Fitbit Air

Anthropic vuelve a implementar Claude Fable 5 el 1 de julio después del levantamiento de los controles de exportación de EE. UU. y agrega un nuevo clasificador de ciberseguridad

¿Qué podemos hacer cuando la memoria se convierte en el nuevo cuello de botella en la ingeniería de datos?

You missed

Blog de chismes deportivos n.° 1 en el mundo

Cómo Trump ayudó a China a fabricar el vehículo eléctrico más barato de Estados Unidos

Cómo lo ha hecho Estados Unidos – Mayormente

La oferta de participación de 42.000 millones de dólares de OpenAI a Trump lo cambia todo