Flash 1.5, Gemma 2 y Proyecto Astra

1.5 Flash se destaca en resúmenes, aplicaciones de chat, subtítulos de imágenes y videos, extracción de datos de tablas y documentos extensos, y más. Esto se debe a que 1.5 Pro lo entrenó a través de un proceso llamado “destilación”, donde los conocimientos y habilidades más esenciales de un modelo más grande se transfieren a un modelo más pequeño y más eficiente.

Lea más sobre 1.5 Flash en el Página de tecnología Géminisy aprende sobre 1.5 Disponibilidad y precio de Flash. Pronto compartiremos más detalles en un informe técnico actualizado de Gemini 1.5.

Mejorando significativamente 1.5 Pro

En los últimos meses, hemos mejorado significativamente 1.5 Pro, nuestro mejor modelo para rendimiento general en una amplia gama de tareas.

Más allá de ampliar su ventana de contexto a 2 millones de tokens, hemos mejorado su generación de código, razonamiento y planificación lógicos, conversación de múltiples turnos y comprensión de audio e imágenes a través de datos y avances algorítmicos. Vemos fuertes mejoras en los puntos de referencia públicos e internos para cada una de estas tareas.

1.5 Pro ahora puede seguir instrucciones cada vez más complejas y matizadas, incluidas aquellas que especifican el comportamiento a nivel de producto que involucra función, formato y estilo. Hemos mejorado el control sobre las respuestas del modelo para casos de uso específicos, como crear la personalidad y el estilo de respuesta de un agente de chat o automatizar flujos de trabajo a través de múltiples llamadas a funciones. Y hemos permitido a los usuarios controlar el comportamiento del modelo configurando instrucciones del sistema.

Agregamos comprensión de audio en el API de Géminis y Estudio de IA de Google, por lo que 1.5 Pro ahora puede analizar imágenes y audio para videos cargados en Google AI Studio. Y ahora estamos integrando 1.5 Pro en los productos de Google, incluidos Géminis Avanzado y en Espacio de trabajo aplicaciones.

Lea más sobre 1.5 Pro en el Página de tecnología Géminis. Próximamente habrá más detalles en nuestro informe técnico actualizado de Gemini 1.5.

Gemini Nano comprende las entradas multimodales

Gemini Nano se está expandiendo más allá de las entradas de solo texto para incluir también imágenes. A partir de Pixel, las aplicaciones que utilicen Gemini Nano con multimodalidad podrán comprender el mundo como lo hacen las personas, no solo a través del texto, sino también a través de la vista, el sonido y el lenguaje hablado.

Leer más sobre Géminis 1.0 Nano en Android.