Agregue una línea de SQL para optimizar sus tablas de BigQuery |  de Matt Chapman |  diciembre de 2023

Agrupación: una forma sencilla de agrupar filas similares y evitar el procesamiento de datos innecesario

En mi artículo anterior, expliqué cómo optimizar consultas SQL usando particiones:

Ahora estoy escribiendo el continuación! (Broma de papá, ¿alguien?)

Este artículo analizará agrupamiento: otra poderosa técnica de optimización que puedes usar en BigQuery. Al igual que la partición, la agrupación en clústeres puede ayudarle a escribir consultas con mayor rendimiento que sean más rápidas y económicas de ejecutar. Si desea desarrollar su kit de herramientas SQL y desarrollar habilidades de ciencia de datos de nivel superior, este es un excelente lugar para comenzar.

En BigQuery, una tabla agrupada es una tabla que mantiene filas similares agrupadas en “bloques” físicos.

Por ejemplo, imagine una tabla llamada user_signups que realiza un seguimiento de todas las personas que registran una cuenta en un sitio web ficticio. Tiene cuatro columnas:

  • registration_date: la fecha en la que el usuario creó una cuenta
  • country: el país donde se encuentra el usuario
  • tier: el plan del usuario (“Gratis” o “Pago”)
  • username: el nombre de usuario del usuario

Si quisiéramos, podríamos agrupar la tabla por country para que los usuarios del mismo país se almacenen uno cerca del otro en la tabla: