Hoy lanzamos la versión estable de Gemini 2.5 Flash-Lite, nuestro modelo más rápido y de menor costo ($0,10 de entrada por 1 millón, $0,40 de salida por 1 millón) de la familia de modelos Gemini 2.5. Desarrollamos Flash-Lite 2.5 para ampliar la frontera de la inteligencia por dólar, con capacidades de razonamiento nativas que se pueden activar opcionalmente para casos de uso más exigentes. Aprovechando el impulso de 2.5 Pro y 2.5 Flash, este modelo completa nuestro conjunto de modelos 2.5 que están listos para su uso en producción a escala.
Nuestro modelo 2.5 más rentable y rápido hasta el momento
Gemini 2.5 Flash-Lite logra un equilibrio entre rendimiento y costo, sin comprometer la calidad, particularmente para tareas sensibles a la latencia como traducción y clasificación.
Esto es lo que lo hace destacar:
La mejor velocidad de su clase: Gemini 2.5 Flash-Lite tiene una latencia más baja que 2.0 Flash-Lite y 2.0 Flash en una amplia muestra de indicaciones. Rentabilidad: es nuestro modelo 2.5 de menor costo hasta el momento, con un precio de $0,10/1 millón de tokens de entrada y $0,40 de tokens de salida, lo que le permite manejar grandes volúmenes de solicitudes de manera asequible. También hemos reducido el precio de entrada de audio en un 40 % desde el lanzamiento de la vista previa. Inteligente y pequeño: demuestra una calidad superior a la de 2.0 Flash-Lite en una amplia gama de puntos de referencia, incluyendo codificación, matemáticas, ciencias, razonamiento y comprensión multimodal. Completamente funcional: cuando construyes con 2.5 Flash-Lite, obtienes acceso a una ventana de contexto de 1 millón de tokens, presupuestos de pensamiento controlables y soporte para herramientas nativas como Grounding with Google Search, Code Ejecución y contexto de URL.
Gemini 2.5 Flash-Lite en acción
Desde el lanzamiento de 2.5 Flash-Lite, ya hemos visto algunas implementaciones increíblemente exitosas; estas son algunas de nuestras favoritas:
Satlyt está construyendo una plataforma de computación espacial descentralizada que transformará la forma en que se procesan y utilizan los datos satelitales para el resumen en tiempo real de la telemetría en órbita, la gestión autónoma de tareas y el análisis de comunicaciones de satélite a satélite. La velocidad de 2.5 Flash-Lite ha permitido una reducción del 45 % en la latencia para diagnósticos integrados críticos y una disminución del 30 % en el consumo de energía en comparación con sus modelos básicos. HeyGen utiliza IA para crear avatares para contenido de video y aprovecha Gemini 2.5 Flash-Lite para automatizar la planificación de videos, analizar y optimizar contenido, y traducir videos a más de 180 idiomas. Esto les permite ofrecer experiencias globales y personalizadas a sus usuarios. DocsHound convierte demostraciones de productos en documentación utilizando Gemini 2.5 Flash-Lite para procesar vídeos largos y extraer miles de capturas de pantalla con baja latencia. Esto transforma las imágenes en documentación completa y datos de capacitación para agentes de IA mucho más rápido que los métodos tradicionales. Evertune ayuda a las marcas a comprender cómo se representan en los modelos de IA. Gemini 2.5 Flash-Lite supone un punto de inflexión para ellos, ya que acelera drásticamente el análisis y la generación de informes. Su rápido rendimiento les permite escanear y sintetizar rápidamente grandes volúmenes de resultados de modelos para brindar a los clientes información dinámica y oportuna.
Puede comenzar a usar 2.5 Flash-Lite especificando “gemini-2.5-flash-lite” en su código. Si está utilizando la versión preliminar, puede cambiar a “gemini-2.5-flash-lite”, que es el mismo modelo subyacente. Planeamos eliminar el alias de vista previa de Flash-Lite el 25 de agosto.
¿Listo para empezar a construir? Pruebe la versión estable de Gemini 2.5 Flash-Lite ahora en Google AI Studio y Vertex AI.