Nuevas capacidades de Géminis 2.5
Salida de audio nativa y mejoras en la API en vivo
Hoy, el API en vivo está presentando una versión de vista previa de entrada audiovisual y diálogo de audio nativo, para que pueda construir directamente experiencias de conversación, con un Gemini más natural y expresivo.
También permite al usuario dirigir su tono, acento y estilo de hablar. Por ejemplo, puede decirle al modelo que use una voz dramática al contar una historia. Y es compatible con el uso de la herramienta para poder buscar en su nombre.
Puede experimentar con un conjunto de características tempranas, que incluyen:
- Diálogo afectivo, en el que el modelo detecta la emoción en la voz del usuario y responde adecuadamente.
- Audio proactivo, en el que el modelo ignorará las conversaciones de fondo y sabrá cuándo responder.
- Pensando en la API en vivo, en la que el modelo aprovecha las capacidades de pensamiento de Gemini para apoyar tareas más complejas.
También estamos lanzando nuevas vistas previas para texto a voz en 2.5 Pro y 2.5 flash. Estos tienen el primer soporte de su tipo para múltiples altavoces, lo que permite texto a voz con dos voces a través de audio nativo.
Al igual que el diálogo de audio nativo, el texto a la voz es expresivo y puede capturar matices realmente sutiles, como susurros. Funciona en más de 24 idiomas y cambia a la perfección entre ellos.