Skalierbare Data-Analytics-Pipeline auf GCP

13 Oct, 2023

Eine Data-Analytics-Pipeline auf Google Cloud Platform aufbauen: ein Leitfaden zu den wesentlichen Diensten für die Bereitstellung Ihrer IT-Infrastruktur

Vantino entwickelt regelmässig Data-Analytics-Pipelines für seine Kunden. Dies ist die Geschichte, wie wir eine ursprünglich on-premise bereitgestellte Datenpipeline auf Google Cloud Platform migriert haben.

Die Migration auf GCP

Für Business Analytics ist Daten das Fundament. Für ein Schweizer Finanzunternehmen mit Niederlassungen in Österreich und Deutschland ist eine zuverlässige und effiziente Data-Analytics-Pipeline unverzichtbar, um fundierte Entscheidungen zu treffen und wettbewerbsfähig zu bleiben.

Version 1 der Pipeline stützte sich auf das ERP (Abacus) und die CRM-Systeme des Unternehmens, die täglich CSV-Reports hochluden. Diese Reports enthielten wichtige Informationen wie Stundenzettel und Aufgaben der Mitarbeitenden. Bevor die Daten in eine PostgreSQL-Datenbank geladen wurden, validierten Python-Skripte sie gegen ein vordefiniertes Schema mit der Python-Bibliothek tableschema, was Konsistenz und Korrektheit der Daten gewährleistete. Nach der Validierung standen die Daten in der Visualisierungsplattform Apache Superset für Analyse und Reporting zur Verfügung.

Um Skalierbarkeit und Zuverlässigkeit zu gewinnen, hat das Unternehmen seine Data-Analytics-Pipeline anschliessend auf die Google Cloud Platform (GCP) migriert. In Version 2 werden die CSV-Reports direkt in BigQuery geladen, das cloud-native Data Warehouse von Google. Das macht einen individuellen Analytics-Server überflüssig und erlaubt es dem Unternehmen, grosse Datenmengen nahezu in Echtzeit abzufragen und zu analysieren.

Für die Migration setzen wir einen ETL-Prozess (Extract, Transform, Load) ein. CSV-Dateien werden mit Google Cloud Functions in Google Cloud Storage (GCS) geladen, mit der Python-Bibliothek DBT (Data Build Tool) transformiert und in BigQuery geladen. DBT erlaubt es Datenteams, ihre Daten konsistent und wartbar zu transformieren und zu verwalten: indem das Unternehmen Schema und Transformationen als Code deklariert, lässt sich die Pipeline effizienter automatisieren und steuern.

Apache Airflow, eine Open-Source-Plattform zur Orchestrierung und Planung von Datenpipelines, steuert den Datenfluss vom ERP und den CRM-Systemen nach BigQuery und sorgt dafür, dass Daten planmässig und im richtigen Format ankommen.

Zur weiteren Optimierung der Pipeline nutzt das Unternehmen GCP Dataflow, einen vollständig gemanagten Service zum Transformieren und Anreichern grosser Datensätze nahezu in Echtzeit. So lassen sich komplexe Transformationen ohne dedizierte Infrastruktur und zeitraubende manuelle Prozesse durchführen.

Sobald die Daten in BigQuery sind, stehen sie für Analyse und Visualisierung in Apache Superset zur Verfügung. Das Unternehmen kann seine bestehenden Dashboards weiter nutzen und profitiert gleichzeitig von der Performance und Skalierbarkeit von GCP.

Dank der Migration auf die Google Cloud Platform hat das Schweizer Finanzunternehmen sowohl die Effizienz als auch die Zuverlässigkeit seiner Data-Analytics-Pipeline verbessert. Es kann nun Daten nahezu in Echtzeit verwalten, transformieren und analysieren — für schnellere, fundiertere Entscheidungen und einen Vorsprung im Wettbewerb.

Kontaktieren Sie uns für eine Datenmanagement-Beratung. Mehr Details finden Sie auf unserer Data & BI Consulting-Seite.

Wie man eine skalierbare

Data-Analytics-Pipeline auf GCP aufbaut

Eine Data-Analytics-Pipeline auf Google Cloud Platform aufbauen: ein Leitfaden zu den wesentlichen Diensten für die Bereitstellung Ihrer IT-Infrastruktur

Die Migration auf GCP