Introducir el modelo de uso de computadora Gemini 2.5

A principios de este año, mencionamos que estamos trayendo capacidades de uso de la computadora a los desarrolladores a través de la API de Gemini. Hoy, estamos lanzando el modelo de uso de computadora Gemini 2.5, nuestro nuevo modelo especializado basado en las capacidades de comprensión visual de Gemini 2.5 Pro que impulsa a los agentes capaces de interactuar con las interfaces de usuario (UI). Superenta a las alternativas líderes en múltiples puntos de referencia de control web y móvil, todos con menor latencia. Los desarrolladores pueden acceder a estas capacidades a través de la API de Gemini en Google AI Studio y Vertex AI.

Si bien los modelos AI pueden interactuar con el software a través de API estructuradas, muchas tareas digitales aún requieren interacción directa con interfaces gráficas de usuarios, por ejemplo, llenando y enviando formularios. Para completar estas tareas, los agentes deben navegar por páginas web y aplicaciones tal como lo hacen los humanos: haciendo clic, escribiendo y desplazando. La capacidad de completar de forma nativa los formularios, manipular elementos interactivos como menores y filtros, y operar detrás de los inicios de sesión es un siguiente paso crucial para construir poderosos agentes de uso general.

Cómo funciona

Las capacidades centrales del modelo se exponen a través de la nueva herramienta ‘Computer_use` en la API de Gemini y deben operarse dentro de un bucle. Las entradas a la herramienta son la solicitud del usuario, la captura de pantalla del entorno y un historial de acciones recientes. La entrada también puede especificar si excluir las funciones de la lista completa de acciones de IU compatibles o especificar funciones personalizadas adicionales para incluir.

Introducir el modelo de uso de computadora Gemini 2.5

ByEquipo de 7 minutos

Cómo funciona

By Equipo de 7 minutos

Related Post

Google Cloud AI Research presenta ReasoningBank: un marco de memoria que destila estrategias de razonamiento a partir de los éxitos y fracasos de los agentes

Notas de la Torre de Marfil: La Metodología

Llegue a su primer agente en funcionamiento en minutos: anuncio de nuevas funciones en Amazon Bedrock AgentCore

You missed

Google Cloud AI Research presenta ReasoningBank: un marco de memoria que destila estrategias de razonamiento a partir de los éxitos y fracasos de los agentes

Pasaje de la Ilíada de Homero descubierto en el abdomen de una momia egipcia de la época romana

La princesa de la propaganda lucha por seguir dando vueltas a la guerra de Trump en Irán

Porsche Design Tower Bangkok ocupa un lugar central en el Singapore Yachting Festival 2026