Hoy estamos implementando una versión preliminar de Gemini 2.5 Flash en vista previa a través de la API de Gemini a través de Google AI Studio y Vertex AI. Basándose en la base popular de 2.0 Flash, esta nueva versión ofrece una importante actualización en las capacidades de razonamiento, al mismo tiempo que prioriza la velocidad y el costo. Gemini 2.5 Flash es nuestro primer modelo de razonamiento totalmente híbrido, que brinda a los desarrolladores la capacidad de activar o desactivar el pensamiento. El modelo también permite a los desarrolladores establecer presupuestos pensados para encontrar la compensación adecuada entre calidad, costo y latencia. Incluso pensando mejor, los desarrolladores pueden mantener las rápidas velocidades de Flash 2.0 y mejorar el rendimiento.
Nuestros modelos Gemini 2.5 son modelos pensantes, capaces de razonar sus pensamientos antes de responder. En lugar de generar un resultado inmediatamente, el modelo puede realizar un proceso de “pensamiento” para comprender mejor el mensaje, desglosar tareas complejas y planificar una respuesta. En tareas complejas que requieren múltiples pasos de razonamiento (como resolver problemas matemáticos o analizar preguntas de investigación), el proceso de pensamiento permite que el modelo llegue a respuestas más precisas y completas. De hecho, Gemini 2.5 Flash tiene un excelente desempeño en las indicaciones difíciles en LMArena, solo superado por 2.5 Pro.
2.5 Flash tiene métricas comparables a otros modelos líderes por una fracción del costo y tamaño.
Nuestro modelo de pensamiento más rentable
2.5 Flash sigue liderando como el modelo con mejor relación precio-rendimiento.
Gemini 2.5 Flash agrega otro modelo a la frontera de Pareto de costo-calidad de Google.*
Controles detallados para gestionar el pensamiento
Sabemos que diferentes casos de uso tienen diferentes compensaciones en calidad, costo y latencia. Para brindar flexibilidad a los desarrolladores, hemos permitido establecer un presupuesto de pensamiento que ofrece un control detallado sobre la cantidad máxima de tokens que un modelo puede generar mientras piensa. Un presupuesto más alto permite que el modelo razone más para mejorar la calidad. Sin embargo, es importante destacar que el presupuesto establece un límite sobre cuánto puede pensar 2.5 Flash, pero el modelo no utiliza el presupuesto completo si el mensaje no lo requiere.
Mejoras en la calidad del razonamiento a medida que aumenta el presupuesto para el pensamiento.
El modelo está entrenado para saber cuánto tiempo pensar para una determinada indicación y, por lo tanto, decide automáticamente cuánto pensar en función de la complejidad percibida de la tarea.
Si desea mantener el costo y la latencia más bajos y al mismo tiempo mejorar el rendimiento con respecto a 2.0 Flash, establezca el presupuesto de pensamiento en 0. También puede optar por establecer un presupuesto de token específico para la fase de pensamiento usando un parámetro en la API o el control deslizante en Google AI Studio y en Vertex AI. El presupuesto puede oscilar entre 0 y 24576 tokens para 2,5 Flash.
Las siguientes indicaciones demuestran cuánto razonamiento se puede utilizar en el modo predeterminado de Flash 2.5.
Indicaciones que requieren poco razonamiento:
Ejemplo 1: “Gracias” en español
Ejemplo 2: ¿Cuántas provincias tiene Canadá?
Indicaciones que requieren un razonamiento medio:
Ejemplo 1: Tiras dos dados. ¿Cuál es la probabilidad de que sumen 7?
Ejemplo 2: Mi gimnasio tiene un horario de recogida para baloncesto entre las 9 y las 3 p. m. en MWF y entre las 2 y las 8 p. m. los martes y sábados. Si trabajo de 9 a 6 p.m. 5 días a la semana y quiero jugar 5 horas de baloncesto entre semana, cree un horario para que todo funcione.
Indicaciones que requieren un alto razonamiento:
Ejemplo 1: Una viga en voladizo de longitud L=3m tiene una sección transversal rectangular (ancho b=0,1m, altura h=0,2m) y está hecha de acero (E=200 GPa). Está sometido a una carga uniformemente distribuida w=5 kN/m en toda su longitud y a una carga puntual P=10 kN en su extremo libre. Calcule la tensión de flexión máxima (σ_max).
Ejemplo 2: escribir una función evaluar_celdas(celdas: Dict[str, str]) -> Dictar[str, float] que calcula los valores de las celdas de la hoja de cálculo.
Cada celda contiene:
O una fórmula como “=A1 + B1 * 2” usando +, -, *,/ y otras celdas.
Requisitos:
Resolver dependencias entre celdas. Manejar la precedencia del operador (*/ antes de +-). Detectar ciclos y generar ValueError (“Ciclo detectado en”). No eval(). Utilice únicamente bibliotecas integradas.
Comience a construir con Gemini 2.5 Flash hoy
Gemini 2.5 Flash con capacidades de pensamiento ahora está disponible en versión preliminar a través de la API de Gemini en Google AI Studio y en Vertex AI, y en un menú desplegable dedicado en la aplicación Gemini. Le animamos a experimentar con el parámetro think_budget y explorar cómo el razonamiento controlable puede ayudarle a resolver problemas más complejos.
de google import genai client = genai.Client(api_key=”GEMINI_API_KEY”) respuesta = client.models.generate_content( model=”gemini-2.5-flash-preview-04-17″, contenidos=”Tiras dos dados. ¿Cuál es la probabilidad de que sumen 7?”, config=genai.types.GenerateContentConfig( think_config=genai.types.ThinkingConfig( pensando_presupuesto=1024 ) ) ) imprimir(respuesta.texto)
Pitón
Encuentre referencias detalladas de API y guías de pensamiento en nuestros documentos para desarrolladores o comience con ejemplos de código del Gemini Cookbook.
Continuaremos mejorando Gemini 2.5 Flash, y pronto habrá más, antes de que esté disponible de forma general para su uso en producción completa.
*Los precios del modelo provienen de Análisis artificial y documentación de la empresa.