Introducir el modelo de uso de computadora Gemini 2.5

A principios de este año, mencionamos que estamos trayendo capacidades de uso de la computadora a los desarrolladores a través de la API de Gemini. Hoy, estamos lanzando el modelo de uso de computadora Gemini 2.5, nuestro nuevo modelo especializado basado en las capacidades de comprensión visual de Gemini 2.5 Pro que impulsa a los agentes capaces de interactuar con las interfaces de usuario (UI). Superenta a las alternativas líderes en múltiples puntos de referencia de control web y móvil, todos con menor latencia. Los desarrolladores pueden acceder a estas capacidades a través de la API de Gemini en Google AI Studio y Vertex AI.

Si bien los modelos AI pueden interactuar con el software a través de API estructuradas, muchas tareas digitales aún requieren interacción directa con interfaces gráficas de usuarios, por ejemplo, llenando y enviando formularios. Para completar estas tareas, los agentes deben navegar por páginas web y aplicaciones tal como lo hacen los humanos: haciendo clic, escribiendo y desplazando. La capacidad de completar de forma nativa los formularios, manipular elementos interactivos como menores y filtros, y operar detrás de los inicios de sesión es un siguiente paso crucial para construir poderosos agentes de uso general.

Cómo funciona

Las capacidades centrales del modelo se exponen a través de la nueva herramienta ‘Computer_use` en la API de Gemini y deben operarse dentro de un bucle. Las entradas a la herramienta son la solicitud del usuario, la captura de pantalla del entorno y un historial de acciones recientes. La entrada también puede especificar si excluir las funciones de la lista completa de acciones de IU compatibles o especificar funciones personalizadas adicionales para incluir.