Cómo dockericé Apache Flink, Kafka y PostgreSQL para la transmisión de datos en tiempo real | de Augusto de Nevrezé

Me embarqué en la misión de integrar Apache Flink con Kafka y PostgreSQL usando Docker. Lo que hace que este esfuerzo sea particularmente emocionante es el uso de pyFlink, la versión Python de Flink, que es poderoso y relativamente raro. Esta configuración tiene como objetivo manejar de manera eficiente el procesamiento y almacenamiento de datos en tiempo real. En las siguientes secciones, demostraré cómo lo logré, analizando los desafíos encontrados y cómo los superé. Concluiré con una guía paso a paso para que usted mismo pueda crear y experimentar con este canal de transmisión.

La infraestructura que construiremos se ilustra a continuación. Externamente, hay un módulo de publicación que simula mensajes de sensores de IoT, similar a lo que se discutió en un Publicación anterior. Dentro del contenedor Docker, crearemos dos temas de Kafka. El primer tema, sensores, almacenará los mensajes entrantes de los dispositivos IoT en tiempo real. Luego, una aplicación Flink consumirá los mensajes de este tema, filtrará aquellos con temperaturas superiores a 30 °C y los publicará en un segundo tema. alertas. Además, la aplicación Flink insertará los mensajes consumidos en una tabla PostgreSQL creada específicamente para este propósito. Esta configuración nos permite conservar los datos de los sensores en un formato tabular estructurado, lo que brinda oportunidades para una mayor transformación y análisis. Se pueden conectar herramientas de visualización como Tableau o Power BI a estos datos para realizar gráficos y paneles en tiempo real.

Además, otros clientes pueden consumir el tema de alertas para iniciar acciones basadas en los mensajes que contiene, como activar sistemas de aire acondicionado o activar protocolos de seguridad contra incendios.

Servicios incluidos en el contenedor Docker – imagen del autor

Para seguir el tutorial, puedes clonar lo siguiente repositorio. Se coloca un docker-compose.yml en la raíz del proyecto para que pueda inicializar la aplicación de contenedores múltiples. Además, puede encontrar instrucciones detalladas en el archivo README.

Problemas con los puertos Kafka en docker-compose.yml

Inicialmente, encontré problemas con la configuración del puerto de Kafka cuando usaba la imagen confluente de Kafka Docker, una opción popular para este tipo de configuraciones. Este problema se hizo evidente a través de los registros, enfatizando la importancia de no ejecutar docker-compose up en modo independiente (-d) durante las fases iniciales de configuración y solución de problemas.

El motivo del fallo fue que los hosts internos y externos estaban usando el mismo puerto, lo que provocó problemas de conectividad. Solucioné esto cambiando el puerto interno a 19092. Encontré este publicación de blog bastante esclarecedora.

KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:19092,PLAINTEXT_HOST://localhost:9092

Configurar Flink en modo sesión

Para ejecutar Flink en modo de sesión (permitiendo múltiples trabajos en un solo clúster), estoy usando las siguientes directivas en docker-compose.yml.

Cómo dockericé Apache Flink, Kafka y PostgreSQL para la transmisión de datos en tiempo real | de Augusto de Nevrezé | junio de 2024

ByEquipo de 7 minutos

Problemas con los puertos Kafka en docker-compose.yml

Configurar Flink en modo sesión

Imagen de Docker personalizada para PyFlink

Integrando PostgreSQL

Hundir datos a Kafka

Configuración local o en contenedores

By Equipo de 7 minutos

Related Post

Cómo Couchbase construyó una arquitectura de IA multimodelo para Capella iQ con Amazon Bedrock

Tongyi Lab de Alibaba lanza Qwen-Audio-3.0-TTS, un modelo alojado de conversión de texto a voz en Flash y niveles Plus en 16 idiomas

Charla sobre el enfriador de agua, Ep. 12: Tolerancia a fallas bizantinas

You missed

El campo magnético del cúmulo de galaxias reconstruido por primera vez con un mapa astronómico sin precedentes

¿Está la guerra en Irán fuera de control?

La startup de Bristol Ponda lidera una iniciativa de 2,76 millones de euros para construir una cadena de suministro de biomateriales de humedales en el Reino Unido

El Ayuntamiento de Orihuela restringe el uso de herramientas públicas de IA por parte del personal por riesgos de seguridad y datos – The Leader