Anthropic lanza Claude Opus 4.6 con contexto 1M, codificación agente, controles de razonamiento adaptativo y capacidades ampliadas de herramientas de seguridad

Anthropic ha lanzado Claude Opus 4.6, su modelo más capaz hasta la fecha, centrado en el razonamiento de contexto prolongado, la codificación agente y el trabajo de conocimiento de alto valor. El modelo se basa en Claude Opus 4.5 y ahora está disponible en claude.ai, Claude API y los principales proveedores de nube con el ID claude-opus-4-6.

Enfoque del modelo: trabajo de agencia, no respuestas únicas

Opus 4.6 está diseñado para tareas de varios pasos en las que el modelo debe planificar, actuar y revisar a lo largo del tiempo. Según el equipo de Anthropic, lo utilizan en Claude Code e informan que se centra más en las partes más difíciles de una tarea, maneja problemas ambiguos con mejor criterio y se mantiene productivo durante sesiones más largas.

El modelo tiende a pensar más profundamente y revisar su razonamiento antes de responder. Esto mejora el rendimiento en problemas difíciles, pero puede aumentar el costo y la latencia en problemas simples. Anthropic expone un parámetro /esfuerzo con 4 niveles (bajo, medio, alto (predeterminado) y máximo) para que los desarrolladores puedan compensar explícitamente la profundidad del razonamiento con la velocidad y el costo por punto final o caso de uso.

Más allá de la codificación, Opus 4.6 apunta a tareas prácticas de trabajo de conocimiento:

ejecutar análisis financieros realizar investigaciones con recuperación y navegación usar y crear documentos, hojas de cálculo y presentaciones

Dentro de Cowork, la superficie de trabajo autónoma de Anthropic, el modelo puede ejecutar flujos de trabajo de varios pasos que abarcan estos artefactos sin indicaciones humanas continuas.

Capacidades de contexto largo y controles de desarrollador

Opus 4.6 es el primer modelo de clase Opus con una ventana de contexto de token de 1 millón en versión beta. Para solicitudes de más de 200 000 tokens en este modo de contexto de 1 millón, el precio aumenta a $10 por 1 millón de tokens de entrada y $37,50 por 1 millón de tokens de salida. El modelo admite hasta 128.000 tokens de salida, lo que es suficiente para informes muy largos, revisiones de código o ediciones estructuradas de varios archivos en una sola respuesta.

Para que los agentes de larga duración sean manejables, Anthropic incluye varias características de plataforma en Opus 4.6:

Pensamiento adaptativo: el modelo puede decidir cuándo utilizar el pensamiento extendido en función de la dificultad y el contexto de la tarea, en lugar de ejecutar siempre con la máxima profundidad de razonamiento. Controles de esfuerzo: 4 niveles de esfuerzo discretos (bajo, medio, alto, máximo) exponen una superficie de control limpia para la latencia frente a la calidad del razonamiento. Compactación de contexto (beta): la plataforma resume y reemplaza automáticamente partes más antiguas de la conversación a medida que se acerca a un umbral de contexto configurable, lo que reduce la necesidad de una lógica de truncamiento personalizada. Inferencia exclusiva de EE. UU.: las cargas de trabajo que deben permanecer en las regiones de EE. UU. pueden ejecutarse a un precio simbólico de 1,1 veces.

Estos controles apuntan a un patrón común del mundo real: flujos de trabajo agentes que acumulan cientos de miles de tokens mientras interactúan con herramientas, documentos y códigos en muchos pasos.

Integraciones de productos: Claude Code, Excel y PowerPoint

Anthropic ha actualizado su conjunto de productos para que Opus 4.6 pueda impulsar flujos de trabajo más realistas para ingenieros y analistas.

En Claude Code, un nuevo modo de ‘equipos de agentes’ (vista previa de la investigación) permite a los usuarios crear múltiples agentes que trabajan en paralelo y se coordinan de forma autónoma. Esto está dirigido a tareas que requieren mucha lectura, como revisiones de la base de código. Cada subagente se puede controlar de forma interactiva, incluso a través de tmux, que se adapta a los flujos de trabajo de ingeniería centrados en terminales.

Claude en Excel ahora planifica antes de actuar, puede ingerir datos no estructurados e inferir estructuras, y puede aplicar transformaciones de varios pasos en una sola pasada. Cuando se combina con Claude en PowerPoint, los usuarios pueden pasar de datos sin procesar en Excel a presentaciones de diapositivas estructuradas y de marca. El modelo lee diseños, fuentes y patrones de diapositivas para que las presentaciones generadas permanezcan alineadas con las plantillas existentes. Claude en PowerPoint se encuentra actualmente en vista previa de investigación para los planes Max, Team y Enterprise.

Perfil de referencia: codificación, búsqueda, recuperación de contexto largo

El equipo de Anthropic posiciona a Opus 4.6 como lo último en varios puntos de referencia externos que son importantes para los agentes de codificación, los agentes de búsqueda y el soporte de decisiones profesionales.

https://www.anthropic.com/news/claude-opus-4-6

Los resultados clave incluyen:

GDPval-AA (trabajo de conocimiento económicamente valioso en finanzas, derecho y dominios relacionados): Opus 4.6 supera a GPT-5.2 de OpenAI en alrededor de 144 puntos Elo y a Claude Opus 4.5 en 190 puntos. Esto implica que, en comparaciones directas, Opus 4.6 supera a GPT-5.2 en esta evaluación aproximadamente el 70% de las veces. Terminal-Bench 2.0: Opus 4.6 logra la puntuación más alta reportada en este punto de referencia de tareas del sistema y codificación agente. El último examen de la humanidad: en esta prueba de razonamiento multidisciplinario con herramientas (búsqueda web, ejecución de código y otras), Opus 4.6 lidera otros modelos de frontera, incluidas las configuraciones GPT-5.2 y Gemini 3 Pro, bajo el arnés documentado. BrowseComp: Opus 4.6 funciona mejor que cualquier otro modelo en este punto de referencia de búsqueda agente. Cuando los modelos de Claude se combinan con un arnés multiagente, las puntuaciones aumentan al 86,8 %.

https://www.anthropic.com/news/claude-opus-4-6

La recuperación de contexto prolongado es una mejora central. En la variante 1M de 8 agujas de MRCR v2, un punto de referencia de ‘aguja en un pajar’ donde los hechos están enterrados dentro de 1 millón de tokens de texto, Opus 4.6 obtiene una puntuación del 76%, en comparación con el 18,5% de Claude Sonnet 4.5. Anthropic describe esto como un cambio cualitativo en la cantidad de contexto que realmente puede usar un modelo sin que el contexto se descomponga.

Mejoras de rendimiento adicionales en:

análisis de causa raíz en fallas complejas de software codificación multilingüe coherencia y planificación a largo plazo tareas de ciberseguridad ciencias de la vida, donde Opus 4.6 se desempeña casi 2 veces mejor que Opus 4.5 en evaluaciones de biología computacional, biología estructural, química orgánica y filogenética

En Vending-Bench 2, un punto de referencia de desempeño económico a largo plazo, Opus 4.6 gana $3,050.53 más que Opus 4.5 bajo la configuración reportada.

Conclusiones clave

Opus 4.6 es el modelo de gama más alta de Anthropic con contexto de 1 millón de tokens (beta): admite 1 millón de tokens de entrada y hasta 128 000 tokens de salida, con precios premium por encima de 200 000 tokens, lo que lo hace adecuado para bases de código, documentos y flujos de trabajo agentes de varios pasos muy largos. Controles explícitos para la profundidad del razonamiento y el costo a través del esfuerzo y el pensamiento adaptativo: los desarrolladores pueden ajustar el/esfuerzo (bajo, medio, alto, máximo) y dejar que el “pensamiento adaptativo” decida cuándo se necesita un razonamiento extendido, exponiendo una clara compensación entre latencia, precisión y costo para diferentes rutas y tareas. Sólido rendimiento de referencia en tareas de codificación, búsqueda y valor económico: Opus 4.6 lidera en GDPval-AA, Terminal-Bench 2.0, Humanity’s Last Exam, BrowseComp y MRCR v2 1M, con grandes ganancias sobre Claude Opus 4.5 y líneas base de clase GPT en recuperación de contexto largo y razonamiento aumentado con herramientas. Estrecha integración con Claude Code, Excel y PowerPoint para cargas de trabajo reales: los equipos de agentes en Claude Code, las transformaciones estructuradas de Excel y la generación de PowerPoint con reconocimiento de plantillas posicionan a Opus 4.6 como una columna vertebral para los flujos de trabajo prácticos de ingeniería y analistas, no solo para el chat.

Consulte los detalles técnicos y la documentación. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Max es un analista de IA en MarkTechPost, con sede en Silicon Valley, que da forma activamente al futuro de la tecnología. Enseña robótica en Brainvyne, combate el spam con ComplyEmail y aprovecha la IA a diario para traducir avances tecnológicos complejos en conocimientos claros y comprensibles.