Google lanza Gemini-SQL2: Gemini 3.1 Pro Text-to-SQL obtiene una puntuación del 80,04 % en la tabla de clasificación de modelo único de BIRD

El equipo de investigación de Google anunció el lanzamiento de Gemini-SQL2 en X. Describieron este sistema como una innovadora capacidad de conversión de texto a SQL impulsada por Gemini 3.1 Pro. Gemini-SQL2 registró una precisión de ejecución del 80,04 % en la tabla de clasificación de texto a SQL de BIRD (modelo único). El gráfico de Google lo coloca por encima de su propio Gemini-SQL, la entrada superior anterior. La métrica mide si el SQL generado se ejecuta y devuelve resultados correctos, no si parece válido.

https://x.com/GoogleResearch/status/2065475343205740911

Géminis-SQL2

Gemini-SQL2 es una capacidad de texto a SQL, no una versión de modelo básico independiente. Traduce preguntas en lenguaje natural a lo que Google llama “consultas SQL listas para ejecución”. La capacidad se basa en Gemini 3.1 Pro.

Según el anuncio en X, “la sutileza de los datos y los contextos comerciales complejos hacen que generar SQL preciso a partir de lenguaje natural sea notoriamente difícil”. El X Post también afirmó que “una mejor comprensión de SQL puede elevar las habilidades del lenguaje natural en todos los servicios de datos de Google”. Esto apunta hacia objetivos de integración como BigQuery Studio, AlloyDB AI y Cloud SQL Studio, que ya ofrecen generación de SQL basada en Gemini. Google aún no ha confirmado qué productos recibirán Gemini-SQL2.

Puntos de referencia

BIRD (BIg Bench for LaRge-scale Database Grounded Text-to-SQL Evaluación) es un estándar de la industria para esta tarea. Contiene 12.751 pares de preguntas y SQL en 95 bases de datos que abarcan 37 dominios profesionales, con un total de 33,4 GB. Las bases de datos incluyen valores sucios y requieren una base de conocimiento externo, a diferencia de los puntos de referencia más antiguos como Spider.

BIRD mide la precisión de la ejecución (EX): el SQL generado debe ejecutarse y devolver resultados que coincidan con la consulta Gold. Google dijo esto directamente. “Según el punto de referencia BIRD, que mide la precisión de la ejecución verificada, el SQL de GeminiSQL-2 no sólo se ve bien, sino que también se ejecuta correctamente”.

Single Trained Model Track restringe los marcos de preprocesamiento, recuperación y agencia que los conjuntos utilizan para mejorar las partituras. Mide la capacidad central de texto a SQL del modelo. El récord anterior de Google Cloud en esta pista, informado el 15 de noviembre de 2025, fue 76,13. Google compara el desempeño humano con 92,96, dejando una brecha de 12,92 puntos desde 80,04.

Cómo se compara la tabla de clasificación

El gráfico de Google, en la publicación X, muestra a Gemini-SQL2 por delante de ocho competidores nombrados, junto con varios puntos sin etiquetar. Sólo el 80,04% está expresado como texto. Los valores siguientes se leen desde la posición del gráfico y son aproximados; las fechas reflejan la ubicación horizontal de cada punto.

SistemaOrganizaciónPrecisión de ejecución de BIRD (modelo único)Fecha del gráficoGemini-SQL2Google80,04% (indicado)Junio de 2026Gemini-SQLGoogle~77,2%Marzo de 2026Q-SQLAWS~76,5%Diciembre de 2025Databricks RLVR 32BDatabricks~75,7%Julio 2025SiriusAI-Text2SQL-32B-v2Tencent~75,0%diciembre de 2025Arctic-Text2SQL-R1-32BSnowflake~73,9%junio de 2025GPT-5.5-xhighOpenAI~72,5%abril de 2026SQLWeaver-32BAlibaba~71,7%mayo de 2026Claude Opus 4,6Antrópico~70,1%febrero de 2026

Se ven dos patrones. Google ahora ocupa las dos primeras posiciones nombradas, Gemini-SQL2 y Gemini-SQL. Varios modelos SQL 32B especializados también se encuentran encima de algunos modelos de frontera generales en este gráfico.

Casos de uso con ejemplos

Análisis de autoservicio: un administrador de ingresos solicita ingresos mensuales recurrentes por región, para las cuentas que se cancelaron dentro de los 90 días posteriores a la actualización. Esto necesita uniones, lógica de ventanas y aritmética de fechas. La generación con ejecución verificada detecta SQL que se ejecuta pero devuelve filas incorrectas. Borradores de ingeniería de datos: los desarrolladores pueden redactar transformaciones de BigQuery desde inglés y luego revisarlas en lugar de escribirlas desde cero. El trabajo de Google de noviembre de 2025 identificó la comprensión del esquema como la parte difícil. Las puntuaciones BIRD más altas reflejan un mejor manejo de columnas ambiguas y valores desordenados. Funciones integradas de “pregunte a sus datos”: los equipos de SaaS que agregan interfaces de consulta en lenguaje natural aún necesitan una revisión humana con una precisión del 80%. Una de cada cinco consultas puede estar equivocada. La puntuación establece expectativas, no una eliminación de la reseña.

Lanzamiento de Gemini-SQL2: Panel de recepción de la comunidad

Participación pública verificada en las publicaciones de anuncios de Google Research • primeras ~3 horas • 12 de junio de 2026

Tabla de clasificación de modelo único de BIRD • Precisión de ejecución

Desglose de la participación en la plataforma

X / Twitter (publicación principal)

Vistas144,4K

Gustos2.800

Republicaciones267

Marcadores1.300

Respuestas64

Tasa de participación3,1%

LinkedIn (publicación principal)

Reacciones349+

Comentarios12

Republicaciones27

Señal de recepción

9,3: 1

Proporción de marcadores más me gusta por respuesta en X. Una alta tasa de guardado con pocas respuestas generalmente indica aprobación sobre la controversia. El sentimiento a nivel de comentario aún no se puede medir; Las respuestas aún se cargan en el momento de la captura.

Patrón de implementación

Google aún no ha publicado una cadena o API del modelo Gemini-SQL2. El siguiente patrón basado en esquemas funciona con los modelos Gemini actuales a través del SDK de google-genai. Cambie la cadena del modelo cuando se envíe Gemini-SQL2.

de google import genai client = genai.Client() # lee GEMINI_API_KEY del entorno esquema = “”” CREAR TABLA pedidos (order_id INTEGER, TEXTO del cliente, TEXTO de la región, cantidad REAL, TEXTO de estado, FECHA_creado); “”” pregunta = “Cantidad total del pedido pagado por región en 2026, el más alto primero”. Prompt = f”””Eres un sistema de texto a SQL. Esquema:{esquema} Pregunta: {pregunta} Devuelve solo una consulta SQLite ejecutable. Sin explicación.””” resp = client.models.generate_content( model=”gemini-3.1-pro-preview”, # el modelo base nombrado en el anuncio; intercambiar cuando se envía un ID de Gemini-SQL2 content=prompt, ) print(resp.text)

Los sistemas de producción deberían agregar verificación de ejecución. Ejecute el SQL devuelto, detecte errores y vuelva a intentarlo con el mensaje de error adjunto. Ese bucle refleja lo que recompensa la métrica de precisión de ejecución de BIRD.

Conclusiones clave

Google informa que Gemini-SQL2 tiene una precisión de ejecución del 80,04% en la clasificación de modelo único de BIRD. La capacidad está impulsada por Gemini 3.1 Pro y apunta a “SQL listo para ejecución”, no solo SQL plausible. En el gráfico de Google, Gemini-SQL2 y Gemini-SQL ocupan las dos primeras posiciones con nombre; el desempeño humano es 92,96. Aún no se han publicado detalles de API, tarjeta de modelo, informe técnico o integración de productos.

MARKTECHPOST Explicación visual

Zona de juegos de texto a SQL

La tarea Gemini-SQL2 acaba de obtener una puntuación del 80,04% (prueba comparativa BIRD, modelo único). Elija una pregunta, inspeccione el SQL generado y luego ejecútelo en un conjunto de datos en vivo en el navegador.

1 • Pregunta en lenguaje natural

2 • Esquema de vista SQL generado

Seleccione una de las preguntas anteriores para generar SQL.

CREAR TABLA de pedidos (order_id INTEGER, TEXTO del cliente, TEXTO de la región, monto REAL, TEXTO del estado, creado_en la FECHA); — 12 filas de muestra cargadas en este navegador

▶ Ejecutar consulta
La precisión de la ejecución significa que SQL debe ejecutarse Y devolver las filas correctas.

Consulta los detalles aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ml y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Google lanza Gemini-SQL2: Gemini 3.1 Pro Text-to-SQL obtiene una puntuación del 80,04 % en la tabla de clasificación de modelo único de BIRD

ByEquipo de 7 minutos

Géminis-SQL2

Puntos de referencia

Cómo se compara la tabla de clasificación

Casos de uso con ejemplos

Patrón de implementación

Conclusiones clave

By Equipo de 7 minutos

Related Post

Zyphra lanza Zamba2-VL: modelos híbridos de lenguaje de visión Mamba2-Transformer que reducen el tiempo hasta el primer token en aproximadamente un orden de magnitud

Construido de adentro hacia afuera: cómo los servicios profesionales de AWS se convirtieron por primera vez en un equipo de vanguardia

Moonshot AI lanza Kimi Work, un agente de escritorio local que, según se informa, se ejecuta en Kimi K2.6 con un enjambre de agentes de 300 subagentes

You missed

¿Alguna vez has tenido una reunión de Recursos Humanos aterradora en tu calendario? Así descubrió la tripulación de Artemis 3 sus tareas

La diferencia cultural “no puede aceptarse como motivo para mitigar” la mala conducta relacionada con la deshonestidad de un abogado nacido en Etiopía

Arkeon de Gotemburgo cierra una ronda semilla de 594,2 mil euros para impulsar la precisión en la producción de chips cuánticos

Ryan Reynolds, Michael Bublé y más asisten al juego de Canadá