Anthropic lanza Claude Opus 4.7: una importante actualización para codificación agente, visión de alta resolución y tareas autónomas a largo plazo

Anthropic ha lanzado Claude Opus 4.7, su último modelo de vanguardia y sucesor directo de Claude Opus 4.6. El lanzamiento se posiciona como una mejora enfocada en lugar de un salto generacional completo, pero las ganancias que ofrece son sustanciales en las áreas que más importan a los desarrolladores que crean aplicaciones impulsadas por IA del mundo real: ingeniería de software agente, razonamiento multimodal y ejecución autónoma de tareas de larga duración.

https://www.anthropic.com/news/claude-opus-4-7

¿Qué es exactamente Claude Opus 4.7?

Anthropic mantiene una familia de modelos con niveles: Haiku (rápido y liviano), Sonnet (equilibrado) y Opus (mayor capacidad). Opus 4.7 se encuentra en la parte superior de esta pila, solo debajo del Claude Mythos recientemente visto, que Anthropic ha mantenido en una versión restringida.

Opus 4.7 representa una mejora notable con respecto a Opus 4.6 en ingeniería de software avanzada, con mejoras particulares en las tareas más difíciles. Fundamentalmente, los usuarios informan que pueden entregar su trabajo de codificación más difícil (el que antes necesitaba una estrecha supervisión) a Opus 4.7 con confianza, ya que maneja tareas complejas y de larga duración con rigor y coherencia, presta atención precisa a las instrucciones e idea formas de verificar sus propios resultados antes de informar.

El modelo que verifica sus propios resultados es un cambio de comportamiento significativo. Los modelos anteriores a menudo producían resultados sin controles internos de cordura; Opus 4.7 parece cerrar ese ciclo de forma autónoma, lo que tiene implicaciones significativas para los canales de CI/CD y los flujos de trabajo agentes de múltiples pasos.

Puntos de referencia de codificación más sólidos

Los primeros evaluadores han obtenido cifras precisas sobre las mejoras de codificación. En una prueba comparativa de codificación de 93 tareas, Opus 4.7 aumentó la resolución en un 13 % con respecto a Opus 4.6, incluidas cuatro tareas que ni Opus 4.6 ni Sonnet 4.6 pudieron resolver. En CursorBench, un instrumento de evaluación de desarrolladores ampliamente utilizado, Opus 4.7 obtuvo un 70% frente a Opus 4.6 con un 58%. Y para flujos de trabajo complejos de varios pasos, un evaluador observó una ganancia del 14% sobre Opus 4.6 con menos tokens y un tercio de los errores de la herramienta y, en particular, Opus 4.7 fue el primer modelo en pasar sus pruebas de necesidad implícita y continuó ejecutándose a través de fallas de herramientas que solían detener Opus en seco.

Visión mejorada: 3 veces la resolución de los modelos anteriores

Una de las mejoras técnicamente más concretas de Opus 4.7 es su capacidad multimodal. Opus 4.7 ahora puede aceptar imágenes de hasta 2576 píxeles en el borde largo (~3,75 megapíxeles), más del triple de píxeles que los modelos Claude anteriores. Muchas aplicaciones del mundo real (desde agentes que utilizan computadoras que leen densas capturas de pantalla de la interfaz de usuario hasta la extracción de datos de diagramas de ingeniería complejos) fallan no porque el modelo carezca de capacidad de razonamiento, sino porque no puede resolver detalles visuales finos. Esto abre una gran cantidad de usos multimodales que dependen de detalles visuales finos: agentes de uso de computadoras que leen capturas de pantalla densas, extracciones de datos de diagramas complejos y trabajos que necesitan referencias perfectas en píxeles.

El impacto en la producción ya ha sido dramático. Un evaluador que trabajaba en flujos de trabajo de uso de computadoras informó que Opus 4.7 obtuvo una puntuación del 98,5 % en su punto de referencia de agudeza visual frente al 54,5 % de Opus 4.6, eliminando efectivamente su mayor problema de Opus.

Este es un cambio a nivel de modelo en lugar de un parámetro API, por lo que las imágenes que los usuarios envían a Claude simplemente se procesarán con mayor fidelidad, aunque debido a que las imágenes de mayor resolución consumen más tokens, los usuarios que no requieren detalles adicionales pueden reducir la resolución de las imágenes antes de enviarlas al modelo.

https://www.anthropic.com/news/claude-opus-4-7

Un nuevo nivel de esfuerzo: xhigh, más presupuestos de tareas

Los desarrolladores que trabajen con la API de Claude notarán dos nuevas palancas para controlar el gasto en computación.

Primero, Opus 4.7 introduce un nuevo nivel de esfuerzo xhigh (‘extra alto’) entre alto y máximo, brindando a los usuarios un control más preciso sobre el equilibrio entre razonamiento y latencia en problemas difíciles. En Claude Code, el equipo de Anthropic ha elevado el nivel de esfuerzo predeterminado a xalto para todos los planes. Al probar Opus 4.7 para casos de uso de codificación y agentes, Anthropic recomienda comenzar con un esfuerzo alto o xalto. En segundo lugar, los presupuestos de tareas ahora se están lanzando en versión beta pública en la API de la plataforma Claude, lo que brinda a los desarrolladores una forma de guiar el gasto de tokens de Claude para que pueda priorizar el trabajo en ejecuciones más largas. Juntos, estos dos controles brindan a los equipos de desarrolladores palancas de producción significativas, especialmente relevantes cuando se ejecutan canalizaciones de agentes en paralelo donde el costo por llamada y la latencia se deben administrar con cuidado.

Nuevo en Claude Code: /ultrareview y modo automático para usuarios máximos

Dos nuevas funciones de Claude Code se incluyen junto con Opus 4.7 y vale la pena señalarlas para los desarrolladores que lo utilizan como parte de su flujo de trabajo de desarrollo. El nuevo comando de barra diagonal /ultrareview produce una sesión de revisión dedicada que lee los cambios y señala errores y problemas de diseño que un revisor cuidadoso detectaría. Anthropic ofrece a los usuarios de Pro y Max Claude Code tres ultrarrevisiones gratuitas para que lo prueben. Piense en ello como una revisión bajo demanda de un ingeniero senior: útil antes de fusionar relaciones públicas complejas o enviarlas a producción.

Además, el modo automático se ha extendido a los usuarios de Max. El modo automático es una nueva opción de permisos en la que Claude toma decisiones en tu nombre, lo que significa que puedes ejecutar tareas más largas con menos interrupciones y con menos riesgo que si hubieras elegido omitir todos los permisos. Esto es particularmente valioso para los agentes que ejecutan tareas de varios pasos durante la noche o en grandes bases de código.

Memoria basada en sistema de archivos para trabajos prolongados de múltiples sesiones

Una mejora menos discutida pero operativamente significativa es cómo Opus 4.7 maneja la memoria. Opus 4.7 es mejor en el uso de la memoria basada en el sistema de archivos: recuerda notas importantes durante un trabajo prolongado de varias sesiones y las usa para pasar a nuevas tareas que, como resultado, necesitan menos contexto inicial. En los puntos de referencia de terceros, el modelo también logró resultados de vanguardia en GDPval-AA, una evaluación de terceros del trabajo de conocimiento económicamente valioso en los ámbitos financiero, legal y otros.

Conclusiones clave

Claude Opus 4.7 es el modelo de codificación más sólido de Anthropic hasta la fecha, maneja tareas complejas y de larga duración con mucha menos supervisión que Opus 4.6, y verifica de manera única sus propios resultados antes de informar. La capacidad de visión se ha triplicado, con soporte para imágenes de hasta ~3,75 megapíxeles, lo que la hace significativamente más confiable para agentes de uso informático, análisis de diagramas y cualquier flujo de trabajo que dependa de detalles visuales finos. Un nuevo nivel de esfuerzo alto y presupuestos de tareas brindan a los desarrolladores un control preciso sobre la compensación entre razonamiento y latencia y el gasto de tokens, palancas críticas para ejecutar canalizaciones de agentes de varios pasos rentables en producción. Dos características principales de Claude Code se incluyen junto con el modelo: el comando de barra diagonal /ultrareview para una revisión profunda del código bajo demanda y el modo automático, ahora extendido a los usuarios de Max, que permite a los agentes ejecutar tareas más largas con menos interrupciones.

Consulta los detalles técnicos aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros