Vantino développe régulièrement des pipelines data analytics pour ses clients. Voici la description de la manière dont nous avons migré un pipeline data sur mesure, initialement déployé on-premise, vers GCP.
Dans le monde de la business analytics, les données sont essentielles. Pour une société financière suisse possédant des bureaux en Autriche et en Allemagne, disposer d'un pipeline data analytics fiable et efficace est essentiel pour prendre des décisions éclairées et rester compétitive.
La version 1 du pipeline data analytics de l'entreprise reposait sur son ERP (Abacus) et ses systèmes CRM pour téléverser quotidiennement des rapports CSV. Ces rapports incluaient des informations importantes telles que les timesheets et les tâches des employés. Avant que les données ne soient ajoutées à une base PostgreSQL, elles étaient validées par des scripts Python par rapport à un schéma de données prédéfini en utilisant la bibliothèque Python tableschema. Cela garantissait la cohérence et l'exactitude des données. Une fois validées, les données étaient mises à disposition dans la plateforme de visualisation Apache Superset pour analyse et reporting.
Cependant, pour tirer parti de la scalabilité et de la fiabilité, l'entreprise a migré son pipeline data analytics vers Google Cloud Platform (GCP). Dans la version 2, les rapports CSV sont chargés directement dans BigQuery, l'entrepôt de données cloud-native de Google. Cela élimine le besoin d'un serveur analytique sur mesure et permet à l'entreprise d'interroger et d'analyser facilement de grands volumes de données en temps réel.
Pour faciliter la migration vers GCP, l'entreprise utilise un processus ETL (Extract, Transform, Load). Concrètement, les fichiers CSV sont chargés dans Google Cloud Storage (GCS) à l'aide de Google Cloud Functions, transformés via la bibliothèque Python DBT (Data Build Tool), puis chargés dans BigQuery. DBT permet aux équipes data de transformer et gérer leurs données de manière cohérente et maintenable, et en définissant son schéma de données et ses transformations sous forme de code, l'entreprise peut automatiser et gérer son pipeline data plus efficacement.
Apache Airflow, plateforme open-source d'orchestration et de planification de pipelines data, est utilisée pour gérer le flux de données depuis les systèmes ERP et CRM vers BigQuery. Cela garantit que les données sont chargées dans BigQuery régulièrement et au bon format.
Pour optimiser davantage son pipeline data, l'entreprise utilise GCP Dataflow, un service entièrement managé pour transformer et enrichir de grands jeux de données en quasi temps réel. Cela permet à l'entreprise de réaliser des transformations complexes sur ses données sans nécessiter d'infrastructure dédiée ni de processus manuels chronophages.
Une fois les données chargées dans BigQuery, elles sont disponibles pour analyse et visualisation dans Apache Superset. L'entreprise peut ainsi continuer à utiliser ses tableaux de bord et visualisations existants tout en bénéficiant de la performance et de la scalabilité accrues de GCP.
Grâce à la migration vers Google Cloud Platform, la société financière suisse a pu améliorer l'efficacité et la fiabilité de son pipeline data analytics. L'entreprise peut désormais gérer, transformer et analyser ses données en temps réel pour prendre des décisions plus éclairées et garder une longueur d'avance sur la concurrence.
Contactez-nous pour une consultation en data management. Pour plus de détails, visitez notre page Conseil Data & BI.