Anthropic lanza Claude 4.6 Sonnet con un contexto de 1 millón de tokens para resolver codificación compleja y buscar desarrolladores

Anthropic está entrando oficialmente en su era de “pensamiento”. Hoy, la compañía anunció Claude 4.6 Sonnet, un modelo diseñado para transformar la forma en que los desarrolladores y científicos de datos manejan la lógica compleja. Junto con esta versión, viene la búsqueda web mejorada con filtrado dinámico, una función que utiliza la ejecución de código interno para verificar hechos en tiempo real.

https://www.anthropic.com/news/claude-sonnet-4-6

Pensamiento adaptativo: un nuevo motor lógico

La actualización principal de Claude 4.6 Sonnet es el motor de pensamiento adaptativo. Accedido a través de la API de pensamiento extendido, esto permite que el modelo haga una ‘pausa’ y razone un problema antes de generar una respuesta final.

En lugar de saltar directamente al código, el modelo crea monólogos internos para probar rutas lógicas. Puedes ver esto en la nueva interfaz de Thought. Para un desarrollador que depura una condición de carrera compleja, esto significa que el modelo identifica la causa raíz en su etapa de “pensamiento” en lugar de adivinar en la salida del código.

Esto mejora las tareas de limpieza de datos. Al procesar un conjunto de datos desordenado, 4.6 Sonnet dedica más tiempo de computación a analizar casos extremos e inconsistencias de esquemas. Este proceso reduce significativamente las “alucinaciones” comunes en modelos más rápidos y sin razonamiento.

Los puntos de referencia: cerrar la brecha con Opus

Los datos de rendimiento del 4.6 Sonnet muestran que ahora está pisando el cuello del modelo insignia Opus. En muchas categorías, es el modelo más eficiente disponible actualmente.

Categoría de referenciaClaude 3.5 SonnetClaude 4.6 SonnetMejora claveSWE-bench Verified49.0%79.6%Optimizado para corrección de errores complejos y edición de múltiples archivos.OSWorld (Uso de computadora)14.9%72.5%Ganancia masiva en navegación autónoma de UI y uso de herramientas.MATH71.1%88.0%Razonamiento mejorado para lógica algorítmica avanzada.BrowseComp (Búsqueda) 33,3 % 46,6 % Precisión mejorada mediante filtrado dinámico nativo basado en Python.

La puntuación del 72,5% en OSWorld es un punto destacado. Sugiere que Claude 4.6 Sonnet ahora puede navegar por hojas de cálculo, navegadores web y archivos locales con una precisión casi humana. Esto lo convierte en un candidato ideal para crear agentes autónomos de “uso de computadoras”.

La búsqueda se encuentra con Python: filtrado dinámico

La búsqueda web mejorada de Anthropic con filtrado dinámico cambia la forma en que la IA interactúa con la web en vivo. La mayoría de las herramientas de búsqueda de IA simplemente eliminan los primeros resultados que encuentran.

El Soneto de Claude 4.6 toma un camino diferente. Utiliza un entorno limitado de ejecución de código Python para posprocesar los resultados de búsqueda. Si busca una actualización de la biblioteca a partir de 2025, el modelo escribe y ejecuta código para filtrar cualquier resultado que sea anterior a la fecha especificada. También filtra por autoridad del sitio, priorizando centros técnicos como GitHub, Stack Overflow y documentación oficial.

Esto significa menos fragmentos de código obsoletos. El modelo realiza una “recuperación de varios pasos”. Realiza una búsqueda inicial, analiza el HTML y aplica filtros para garantizar que la relación “ruido-señal” se mantenga baja. Esto aumentó la precisión de la búsqueda del 33,3% al 46,6% en las pruebas internas.

Escalamiento y fijación de precios para la producción

Anthropic está posicionando 4.6 Sonnet como el modelo principal para aplicaciones de nivel de producción. Ahora presenta una ventana de contexto de token de 1 millón en versión beta. Esto permite a los desarrolladores introducir un repositorio completo o una biblioteca técnica masiva en el mensaje sin perder coherencia.

Precios y disponibilidad:

Costo de entrada: $3 por 1 millón de tokens. Costo de salida: $15 por 1 millón de tokens. Plataformas: Disponible en Anthropic API, Amazon Bedrock y Vertex AI de Google Cloud.

El modelo también muestra una mejor adherencia a las indicaciones del sistema. Esto es fundamental para los desarrolladores que crean agentes que requieren un formato JSON estricto o restricciones de “persona” específicas.

https://www.anthropic.com/news/claude-sonnet-4-6

Conclusiones clave

Motor de pensamiento adaptativo: reemplazando el antiguo modo binario de “pensamiento extendido”, Claude 4.6 Sonnet presenta el pensamiento adaptativo. Utilizando el nuevo parámetro de esfuerzo, el modelo puede decidir dinámicamente cuánto razonamiento se requiere para una tarea, optimizando el equilibrio entre velocidad, costo e inteligencia. Rendimiento de Frontier Agentic: el modelo establece nuevos puntos de referencia de la industria para agentes autónomos, con una puntuación del 79,6 % en SWE-bench Verified para codificación y del 72,5 % en OSWorld para uso informático. Estos puntajes indican que ahora puede navegar por software complejo y entornos de interfaz de usuario con una precisión casi humana. Ventana de contexto de 1 millón de tokens: ahora disponible en versión beta, la ventana de contexto se ha ampliado a 1 millón de tokens. Esto permite a los desarrolladores de IA ingerir bases de código completas de múltiples repositorios o archivos técnicos masivos en un solo mensaje sin que el modelo pierda el foco u “olvide” las instrucciones. Búsqueda mediante ejecución de código nativo: la nueva búsqueda web mejorada con filtrado dinámico permite a Claude escribir y ejecutar código Python para posprocesar los resultados de la búsqueda. Esto garantiza que el modelo pueda filtrar mediante programación las fuentes más recientes y autorizadas (como GitHub o documentos oficiales) antes de generar una respuesta. Eficiencia lista para la producción: Claude 4.6 Sonnet mantiene un precio competitivo de $3 por 1 millón de tokens de entrada y $15 por 1 millón de tokens de salida. En combinación con la nueva API Context Compaction, los desarrolladores ahora pueden crear agentes de larga duración que mantienen un historial de conversaciones “infinito” de manera más rentable.

Consulta los detalles técnicos aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Anthropic lanza Claude 4.6 Sonnet con un contexto de 1 millón de tokens para resolver codificación compleja y buscar desarrolladores

ByEquipo de 7 minutos

Pensamiento adaptativo: un nuevo motor lógico

Los puntos de referencia: cerrar la brecha con Opus

La búsqueda se encuentra con Python: filtrado dinámico

Escalamiento y fijación de precios para la producción

Conclusiones clave

By Equipo de 7 minutos

Related Post

La apuesta del LLM | Hacia la ciencia de datos

¿Qué significa el valor p?

Una implementación de codificación para construir un canal de análisis de seguridad y detección de tipos de archivos impulsado por IA con Magika y OpenAI

You missed

Meryl Streep bromea sobre el envejecimiento en el estreno de Devil Wears Prada 2 en Nueva York

La apuesta del LLM | Hacia la ciencia de datos

Su reloj inteligente puede estar obteniendo errores en 6 métricas de salud clave: ScienceAlert

Trump y Mike Johnson intentan desesperadamente salvar la Cámara antes de que Virginia vote sobre un nuevo mapa