Hoy estamos lanzando una versión temprana de Géminis 2.5 Flash en avance a través de la API de Géminis a través de Google AI Studio y Vertex ai. Sobre la base de la popular base de 2.0 Flash, esta nueva versión ofrece una actualización importante en capacidades de razonamiento, al tiempo que prioriza la velocidad y el costo. Gemini 2.5 Flash es nuestro primer modelo de razonamiento completamente híbrido, lo que brinda a los desarrolladores la capacidad de activar o desactivar el pensamiento. El modelo también permite a los desarrolladores establecer presupuestos de pensamiento para encontrar la compensación correcta entre calidad, costo y latencia. Incluso con Pensando, Los desarrolladores pueden mantener las velocidades rápidas de 2.0 flash y mejorar el rendimiento.
Nuestros modelos Gemini 2.5 son modelos, capaces de razonar a través de sus pensamientos antes de responder. En lugar de generar inmediatamente una salida, el modelo puede realizar un proceso de “pensamiento” para comprender mejor el aviso, desglosar tareas complejas y planificar una respuesta. En tareas complejas que requieren múltiples pasos de razonamiento (como resolver problemas matemáticos o analizar preguntas de investigación), el proceso de pensamiento permite que el modelo llegue a respuestas más precisas e integrales. De hecho, Gemini 2.5 Flash funciona fuertemente en Indicaciones duras en lmarenasegundo solo a 2.5 Pro.
2.5 Flash tiene métricas comparables a otros modelos principales para una fracción del costo y el tamaño.
Nuestro modelo de pensamiento más rentable
2.5 Flash continúa liderando como el modelo con la mejor relación precio / rendimiento.
Gemini 2.5 Flash agrega otro modelo a la frontera de costo Pareto de Google a la calidad.*
Controles de grano fino para gestionar el pensamiento
Sabemos que diferentes casos de uso tienen diferentes compensaciones en calidad, costo y latencia. Para dar a los desarrolladores flexibilidad, hemos habilitado la configuración de un Presupuesto de pensamiento Eso ofrece un control de grano fino sobre el número máximo de tokens que puede generar un modelo mientras piensa. Un presupuesto más alto permite que el modelo razone aún más para mejorar la calidad. Sin embargo, es importante destacar que el presupuesto establece un límite en cuánto 2.5 Flash puede pensar, pero el modelo no usa el presupuesto completo si el aviso no lo requiere.
Mejoras en la calidad del razonamiento a medida que aumenta el presupuesto de pensamiento.
El modelo está capacitado para saber cuánto tiempo pensar para un aviso dado y, por lo tanto, decide automáticamente cuánto pensar en función de la complejidad de la tarea percibida.
Si desea mantener el costo y la latencia más bajos al tiempo que mejora el rendimiento durante 2.0 flash, Establezca el presupuesto de pensamiento en 0. También puedes elegir Establecer un presupuesto de token específico Para la fase de pensamiento que usa un parámetro en la API o el control deslizante en Google AI Studio y en Vertex AI. El presupuesto puede variar de 0 a 24576 tokens para 2.5 flash.
Las siguientes indicaciones demuestran cuánto razonamiento se puede usar en el modo predeterminado del 2.5 Flash.
Indicaciones que requieren un bajo razonamiento:
Ejemplo 1: “Gracias” en español
Ejemplo 2: ¿Cuántas provincias tiene Canadá?
Indicaciones que requieren razonamiento medio:
Ejemplo 1: Rodas dos dados. ¿Cuál es la probabilidad de que suman 7?
Ejemplo 2: Mi gimnasio tiene horas de recogida para el baloncesto entre las 9 y las 3 p.m. en MWF y entre las 2 y las 8 p.m. del martes y el sábado. Si trabajo de 9 a 6 p.m. 5 días a la semana y quiero jugar 5 horas de baloncesto los días de semana, cree un horario para que todo funcione.
Indicaciones que requieren un razonamiento alto:
Ejemplo 1: Un haz en voladizo de longitud L = 3m tiene una sección transversal rectangular (ancho B = 0.1m, altura H = 0.2m) y está hecho de acero (E = 200 GPa). Está sujeto a una carga distribuida uniformemente w = 5 kN/m a lo largo de toda su longitud y una carga puntual P = 10 kN en su extremo libre. Calcule la tensión de flexión máxima (σ_max).
Ejemplo 2: Escribir una función evaluate_cells(cells: Dict[str, str]) -> Dict[str, float] Eso calcula los valores de las celdas de hoja de cálculo.
Cada celda contiene:
- O una fórmula como
"=A1 + B1 * 2"usando+,-,*,/y otras células.
Requisitos:
- Resolver dependencias entre celdas.
- Precedencia del operador de manejo (
*/antes+-).
- Detectar ciclos y levantar
ValueError("Cycle detected at <cell>").
- No
eval(). Use solo bibliotecas incorporadas.
Empiece a construir con Gemini 2.5 Flash hoy
Gemini 2.5 flash con capacidades de pensamiento ahora está disponible en vista previa a través del API GEMINI en Google AI Studio y en Vertex aiy en un menú desplegable dedicado en el Aplicación Géminis. Te recomendamos que experimente con el thinking_budget Parámetro y explorar cómo el razonamiento controlable puede ayudarlo a resolver problemas más complejos.
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
Encuentre referencias de API detalladas y guías de pensamiento en nuestro Documentos de desarrolladores O empiece con Ejemplos de código desde Libro de cocina de Géminis.
Continuaremos mejorando Gemini 2.5 Flash, con más pronto, antes de que lo pongamos generalmente disponible para el uso de producción completa.
*El precio del modelo se obtiene del análisis artificial y la documentación de la empresa