Hoy, lanzamos dos modelos Gemini actualizados y listos para producción: Gemini-1.5-Pro-002 y Gemini-1.5-Flash-002 junto con:
>50% de precio reducido en 1.5 Pro (entrada y salida para mensajes <128K) Límites de velocidad 2 veces más altos en 1.5 Flash y ~3 veces más altos en 1.5 Pro Salida 2 veces más rápida y latencia 3 veces más bajaConfiguraciones de filtro predeterminadas actualizadas
Estos nuevos modelos se basan en nuestros últimos lanzamientos de modelos experimentales e incluyen mejoras significativas a los modelos Gemini 1.5 lanzados en Google I/O en mayo. Los desarrolladores pueden acceder a nuestros últimos modelos de forma gratuita a través de Google AI Studio y la API de Gemini. Para organizaciones más grandes y clientes de Google Cloud, los modelos también están disponibles en Vertex AI.
Calidad general mejorada, con mayores avances en matemáticas, contexto extenso y visión.
La serie Gemini 1.5 son modelos diseñados para un rendimiento general en una amplia gama de tareas de texto, código y multimodales. Por ejemplo, los modelos Gemini se pueden utilizar para sintetizar información de archivos PDF de 1000 páginas, responder preguntas sobre repositorios que contienen más de 10 mil líneas de código, ver videos de una hora de duración y crear contenido útil a partir de ellos, y más.
Con las últimas actualizaciones, 1.5 Pro y Flash ahora son mejores, más rápidos y más rentables para construir en producción. Vemos un aumento de ~7 % en MMLU-Pro, una versión más desafiante del popular punto de referencia MMLU. En los puntos de referencia de MATH y HiddenMath (un conjunto interno de problemas matemáticos de competencia), ambos modelos han logrado una mejora considerable de ~20%. Para casos de uso de visión y código, ambos modelos también funcionan mejor (entre aproximadamente 2 y 7 %) en las evaluaciones que miden la comprensión visual y la generación de código Python.
También mejoramos la utilidad general de las respuestas modelo, mientras continuamos manteniendo nuestras políticas y estándares de seguridad de contenido. Esto significa menos apuestas/menos rechazos y más respuestas útiles en muchos temas.
Ambos modelos ahora tienen un estilo más conciso en respuesta a los comentarios de los desarrolladores cuyo objetivo es hacer que estos modelos sean más fáciles de usar y reducir costos. Para casos de uso como resumen, respuesta a preguntas y extracción, la longitud de salida predeterminada de los modelos actualizados es entre un 5% y un 20% más corta que la de los modelos anteriores. Para productos basados en chat donde los usuarios pueden preferir respuestas más largas de forma predeterminada, puede leer nuestra guía de estrategias de indicaciones para obtener más información sobre cómo hacer que los modelos sean más detallados y conversacionales.
Para obtener más detalles sobre la migración a las últimas versiones de Gemini 1.5 Pro y 1.5 Flash, consulte la página de modelos API de Gemini.
Géminis 1.5 Pro
Seguimos impresionados con las aplicaciones creativas y útiles de la ventana de contexto de 2 millones de tokens de largo y las capacidades multimodales de Gemini 1.5 Pro. Desde la comprensión de vídeos hasta el procesamiento de archivos PDF de 1000 páginas, todavía quedan muchos casos de uso nuevos por crear. Hoy anunciamos una reducción de precio del 64 % en tokens de entrada, una reducción de precio del 52 % en tokens de salida y una reducción de precio del 64 % en tokens almacenados en caché incrementales para nuestro modelo más potente de la serie 1.5, Gemini 1.5 Pro, a partir del 1 de octubre de 2024, en solicitudes de menos de 128 000 tokens. Junto con el almacenamiento en caché de contexto, esto continúa reduciendo el costo de construir con Gemini.
Límites de tarifas aumentados
Para que sea aún más fácil para los desarrolladores construir con Gemini, estamos aumentando los límites de velocidad del nivel pago para 1.5 Flash a 2000 RPM y aumentando 1.5 Pro a 1000 RPM, en comparación con 1000 y 360, respectivamente. En las próximas semanas, esperamos seguir aumentando los límites de velocidad de la API de Gemini para que los desarrolladores puedan crear más con Gemini.
Salida 2 veces más rápida y 3 veces menos latencia
Además de las mejoras principales en nuestros últimos modelos, en las últimas semanas hemos reducido la latencia con 1,5 Flash y aumentado significativamente los tokens de salida por segundo, lo que permite nuevos casos de uso con nuestros modelos más potentes.
Configuración de filtro actualizada
Desde el primer lanzamiento de Gemini en diciembre de 2023, un objetivo clave ha sido construir un modelo seguro y confiable. Con las últimas versiones de Gemini (modelos -002), hemos realizado mejoras en la capacidad del modelo para seguir las instrucciones del usuario y al mismo tiempo equilibrar la seguridad. Continuaremos ofreciendo un conjunto de filtros de seguridad que los desarrolladores pueden aplicar a los modelos de Google. Para los modelos lanzados hoy, los filtros no se aplicarán de forma predeterminada para que los desarrolladores puedan determinar la configuración más adecuada para su caso de uso.
Actualizaciones experimentales de Gemini 1.5 Flash-8B
Estamos lanzando una versión mejorada del modelo Gemini 1.5 que anunciamos en agosto llamada “Gemini-1.5-Flash-8B-Exp-0924”. Esta versión mejorada incluye aumentos significativos en el rendimiento en casos de uso de texto y multimodales. Ya está disponible a través de Google AI Studio y la API de Gemini.
Ha sido increíble ver los comentarios abrumadoramente positivos que los desarrolladores han compartido sobre 1.5 Flash-8B, y continuaremos dando forma a nuestro proceso de lanzamiento experimental a producción en función de los comentarios de los desarrolladores.
¡Estamos entusiasmados con estas actualizaciones y no podemos esperar a ver qué construirás con los nuevos modelos Gemini! Y para los usuarios de Gemini Advanced, pronto podrán acceder a una versión optimizada para chat de Gemini 1.5 Pro-002.