Deje de crear malos DAG: optimice su entorno de flujo de aire mejorando su código Python | por Álvaro Leandro Cavalcante Carneiro

Apache Airflow es una de las herramientas de orquestación más populares en el campo de datos, impulsando los flujos de trabajo para empresas de todo el mundo. Sin embargo, cualquiera que ya haya trabajado con Airflow en un entorno de producción, especialmente en uno complejo, sabe que ocasionalmente puede presentar algunos problemas y errores extraños.

Entre los muchos aspectos que necesita administrar en un entorno de flujo de aire, una métrica crítica a menudo vuela bajo el radar: Tiempo de análisis de DAG. Monitorear y optimizar el tiempo de análisis es esencial para evitar cuellos de botella de rendimiento y garantizar el funcionamiento correcto de sus orquestaciones, como exploraremos en este artículo.

Dicho esto, este tutorial tiene como objetivo introducir airflow-parse-benchuna herramienta de código abierto que desarrollé para ayudar a los ingenieros de datos a monitorear y optimizar sus entornos de flujo de aire, proporcionando información para reducir la complejidad del código y el tiempo de análisis.

Con respecto al flujo de aire, el tiempo de análisis de DAG es a menudo un métrica pasada por alto. El análisis ocurre cada vez que el flujo de aire procesa sus archivos de Python para construir dinámicamente los DAG.

Por defecto, todos sus DAG se analizan cada 30 segundos, una frecuencia controlada por la variable de configuración min_file_process_interval. Esto significa que cada 30 segundos, todo el código de Python que está presente en su dags La carpeta se lee, se importa y procesa para generar objetos DAG que contienen las tareas que se programarán. Luego se agregan archivos procesados con éxito al Mochila.

Dos componentes de flujo de aire clave manejan este proceso:

Juntos, ambos componentes (comúnmente conocidos como el Procesador DAG) son ejecutados por el flujo de aire Planificadorasegurando que sus objetos DAG se actualicen antes de ser activados. Sin embargo, por la escalabilidad y las razones de seguridad, también es posible ejecutar su procesador DAG como un componente separado en su clúster.

Si su entorno solo tiene unas pocas docenas de DAG, es poco probable que el proceso de análisis cause algún tipo de problema. Sin embargo, es común encontrar entornos de producción con cientos o incluso miles de DAG. En este caso, si su tiempo de análisis es demasiado alto, puede conducir a:

Retraso de programación DAG.
Aumentar la utilización de recursos.
Entorno problemas de latidos del corazón.
Fallos de programador.
CPU excesivo y uso de memoria, desperdicio de recursos.

Ahora, imagine tener un entorno con cientos de DAG que contienen lógica de análisis innecesariamente compleja. Las pequeñas ineficiencias pueden convertirse rápidamente en problemas significativos, afectando la estabilidad y el rendimiento de toda su configuración de flujo de aire.

Al escribir DAG de flujo de aire, hay algunas mejores prácticas importantes a tener en cuenta para crear un código optimizado. Aunque puede encontrar muchos tutoriales sobre cómo mejorar sus DAG, resumiré algunos de los principios clave que pueden mejorar significativamente su rendimiento de DAG.

Limite el código de nivel superior

Una de las causas más comunes de los tiempos de análisis DAG altos es el código de nivel superior ineficiente o complejo. El código de nivel superior en un archivo DAG de flujo de aire se ejecuta cada vez que el planificador analiza el archivo. Si este código incluye operaciones intensivas en recursos, como consultas de bases de datos, llamadas de API o generación de tareas dinámicas, puede afectar significativamente el rendimiento del análisis.

El siguiente código muestra un ejemplo de un DAG no optimizado:

Deje de crear malos DAG: optimice su entorno de flujo de aire mejorando su código Python | por Álvaro Leandro Cavalcante Carneiro | Enero de 2025

ByEquipo de 7 minutos

Limite el código de nivel superior

Evite XCOM y variables en código de nivel superior

Eliminar los DAG innecesarios

Cambiar las configuraciones de flujo de aire

Instalación de la biblioteca

Usando la herramienta

Prueba de múltiples DAG

Omitir Dags sin cambios

Restablecer la base de datos

By Equipo de 7 minutos

Related Post

Conozca Atoms: una herramienta de codificación de Vibe que utiliza agentes de inteligencia artificial para crear, implementar y comercializar su aplicación (sin código)

Sakana AI comercializa AB-MCTS en Sakana Marlin, un agente empresarial que genera informes de investigación de hasta 100 páginas con diapositivas

El protocolo que limpió la arquitectura de nuestros agentes

You missed

La prohibición de las redes sociales es un experimento: así se estudiará

Las acciones de Rathbones se hunden un 18% después de que la FCA descubre fallos de cumplimiento

Qué significa para usted el nuevo acuerdo europeo sobre los derechos de los pasajeros de las aerolíneas

Conozca Atoms: una herramienta de codificación de Vibe que utiliza agentes de inteligencia artificial para crear, implementar y comercializar su aplicación (sin código)