La última vista previa de Gemini 2.5 Flash-Lite es ahora el modelo de propiedad más rápido (pruebas externas) y un 50% menos de tokens de salida




Google lanzó una versión actualizada de los modelos de vista previa de Gemini 2.5 Flash y Gemini 2.5 Flash-Lite en AI Studio y Vertex AI, además de alias rodantes, Gemini-Flash-Latest y Gemini-Flash-Lite-Latest, que siempre apuntan a la vista previa más nueva en cada familia. Para la estabilidad de producción, Google aconseja fijar cadenas fijas (Gemini-2.5-Flash, Gemini-2.5-Flash-Lite). Google dará un aviso de correo electrónico de dos semanas antes de reorientar un alias de Latest, y señala que los límites de tarifas, las características y el costo pueden variar en las actualizaciones de alias.

https://developers.googleblog.com/en/continuing-to-bring-you-our-latest-models-with-an-improved-gemini-2-5-flash-and-flash-lite-release/

¿Qué cambió realmente?

Flash: uso mejorado de la herramienta de agente y “pensamiento” más eficiente (razonamiento múltiple). Google informa un elevador de puntos +5 en el banco SWE verificado frente a la vista previa de mayo (48.9% → 54.0%), lo que indica una mejor planificación/navegación de código de horizonte largo. Flash-Lite: sintonizado para una instrucción más estricta a continuación, una verbosidad reducida y una traducción multimodal más fuerte. El gráfico interno de Google muestra ~ 50% menos tokens de salida para flash-lite y ~ 24% menos para flash, lo que reduce directamente el gasto de salida de salida y el tiempo de reloj en los servicios de rendimiento.

https://developers.googleblog.com/en/continuing-to-bring-you-our-latest-models-with-an-improved-gemini-2-5-flash-and-flash-lite-release/

El análisis artificial (la cuenta detrás del sitio de evaluación comparativa de IA) recibió acceso previo a la liberación y mediciones externas publicadas a través de la inteligencia y la velocidad. Destacados del hilo y las páginas complementarias:

Rendimiento: en las pruebas de punto final, Gemini 2.5 Flash-Lite (vista previa 09-2025, razonamiento) se informa como el modelo de propiedad más rápido que rastrean, alrededor de ~ 887 tokens/s de salida en AI Studio en su configuración. Deltas del índice de inteligencia: las vistas previas de septiembre para Flash y Flash-Lite mejoran en las puntuaciones agregadas de “inteligencia” agregadas del análisis artificial en comparación con las versiones estables anteriores (las páginas del sitio desglosan el razonamiento versus pistas no iniciadas y supuestos de precios combinados). Eficiencia del token: el hilo reitera las propias reclamaciones de reducción de Google (−24% flash, -50% flash-lite) y enmarca la victoria como mejoras de costo por éxito para presupuestos de latencia estrictos.

Presupuestos de superficie y contexto de costos (para opciones de implementación)

El precio de la lista de GA Flash-Lite GA es de $ 0.10 / 1M tokens de entrada y tokens de salida de $ 0.40 / 1M (la publicación de GA de julio de Google y la página del modelo de Deepmind). Esa línea de base es donde las reducciones de verbosidad se traducen en ahorros inmediatos. Contexto: Flash-Lite admite ~ 1M-Token Context con “Presupuestos de pensamiento” configurables y conectividad de herramientas (Search Grounding, Code Ejecution), inútil para las pilas de agentes que entrelazan la lectura, la planificación y las llamadas múltiples.

Ángulo de agente de navegador y reclamo de O3

Un reclamo circulante dice que “el nuevo flash Gemini tiene precisión de nivel O3, pero es 2 × más rápido y 4 × más barato en las tareas de agente de navegador”. Esto es informado por la comunidad, no en la publicación oficial de Google. Es probable que rastree a suites de tareas privadas/limitadas (navegación DOM, planificación de acción) con presupuestos de herramientas y tiempos de espera de herramientas específicos. Úselo como una hipótesis para sus propias evals; No lo trates como una verdad en el banco cruzado.

Orientación práctica para equipos

PIN vs. Chase -latest: si depende de SLA estrictos o límites fijos, fije las cadenas estables. Si continuamente canario por costo/latencia/calidad, los alias más listos reducen la fricción de actualización (Google proporciona un aviso de dos semanas antes de cambiar el puntero). Puntos finales de alta QP o token: Comience con Vista previa de Flash-Lite; La verbosidad y las actualizaciones de seguimiento de instrucciones encogen tokens de salida. Validar trazas multimodales y de contexto largo bajo carga de producción. Tuberías de agente/herramienta: vista previa de flash A/B donde el uso de la herramienta de varios pasos domina los modos de costo o falla; Las cifras de elevación verificada de SWE-Bench de Google y fichas comunitarias sugieren una mejor planificación bajo presupuestos de pensamiento restringidos.

Cadenas de modelos (corriente)

Vistas previas: Gemini-2.5-Flash-Preview-09-2025, Gemini-2.5-Flash-Lite-Preview-09-2025 Estable: Gemini-2.5-Flash, Gemini-2.5-Flash-Lite Roding Aliaes: Gemini-Flash-Latest, Gemini-Flash-Lite-Latest (Pointer Semantics; May Change Feuring).

Resumen

La nueva versión de lanzamiento de Google aprieta la competencia de uso de herramientas (Flash) y la eficiencia de token/latencia (Flash-Lite) e introduce alias de lata para una iteración más rápida. Los puntos de referencia externos del análisis artificial indican ganancias significativas de rendimiento e índice de inteligencia para el septiembre de 2025. Vistas previas, con Flash-Lite ahora pruebas como el modelo de propiedad más rápido en su arnés. Valide su carga de trabajo, especialmente las pilas de agente de navegador, antes de comprometerse con los alias en la producción.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.

🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial







Artículo anterior¿Qué es Asyncio? Comenzando con Python asíncrono y usando Asyncio en una aplicación de IA con un LLM