Pipeline data analytics scalable sur GCP

13 Oct, 2023

Construire un pipeline data analytics sur Google Cloud Platform : guide des services essentiels pour le déploiement de votre infrastructure IT

Vantino développe régulièrement des pipelines data analytics pour ses clients. Voici comment nous avons migré un pipeline data sur mesure, initialement déployé on-premise, vers Google Cloud Platform.

La migration vers GCP

Pour la business analytics, la donnée est la fondation. Pour une société financière suisse possédant des bureaux en Autriche et en Allemagne, un pipeline data analytics fiable et efficace est indispensable pour prendre des décisions éclairées et rester compétitive.

La version 1 du pipeline reposait sur l'ERP (Abacus) et les systèmes CRM de l'entreprise, qui poussaient quotidiennement des rapports CSV. Ces rapports contenaient des informations clés comme les timesheets et les tâches des employés. Avant d'être chargées dans une base PostgreSQL, les données étaient validées par des scripts Python contre un schéma prédéfini via la bibliothèque Python tableschema, ce qui garantissait leur cohérence et leur exactitude. Une fois validées, les données étaient mises à disposition dans la plateforme de visualisation Apache Superset pour analyse et reporting.

Pour gagner en scalabilité et en fiabilité, l'entreprise a ensuite migré son pipeline data analytics vers Google Cloud Platform (GCP). En version 2, les rapports CSV sont chargés directement dans BigQuery, l'entrepôt de données cloud-native de Google. Cela élimine le serveur analytique sur mesure et permet à l'entreprise d'interroger et d'analyser de grands volumes de données en quasi temps réel.

Pour la migration, nous avons utilisé un processus ETL (Extract, Transform, Load). Les fichiers CSV sont chargés dans Google Cloud Storage (GCS) via Google Cloud Functions, transformés avec la bibliothèque Python DBT (Data Build Tool), puis chargés dans BigQuery. DBT permet aux équipes data de transformer et gérer leurs données de manière cohérente et maintenable : en déclarant son schéma et ses transformations dans le code, l'entreprise peut automatiser et gouverner son pipeline plus efficacement.

Apache Airflow, plateforme open-source d'orchestration et de planification de pipelines data, gère le flux de données des systèmes ERP et CRM vers BigQuery, en s'assurant que les données arrivent dans les délais et au bon format.

Pour optimiser davantage le pipeline, l'entreprise utilise GCP Dataflow, un service entièrement managé pour transformer et enrichir de grands jeux de données en quasi temps réel. Cela permet à l'équipe d'exécuter des transformations complexes sans infrastructure dédiée ni processus manuels chronophages.

Une fois les données dans BigQuery, elles sont disponibles pour analyse et visualisation dans Apache Superset. L'entreprise peut continuer à utiliser ses dashboards existants tout en bénéficiant de la performance et de la scalabilité de GCP.

Grâce à la migration vers Google Cloud Platform, la société financière suisse a amélioré à la fois l'efficacité et la fiabilité de son pipeline data analytics. Elle peut désormais gérer, transformer et analyser ses données en quasi temps réel — pour prendre des décisions plus rapides et mieux informées, et garder une longueur d'avance.

Contactez-nous pour une consultation en gestion des données. Pour plus de détails, visitez notre page Conseil Data & BI.