Vantino entwickelt regelmässig Data-Analytics-Pipelines für seine Kunden. Dies ist eine Beschreibung, wie wir eine individuelle, ursprünglich on-premise bereitgestellte Datenpipeline auf GCP migriert haben.
In der Welt der Business Analytics sind Daten entscheidend. Für ein Schweizer Finanzunternehmen mit Niederlassungen in Österreich und Deutschland ist eine zuverlässige und effiziente Data-Analytics-Pipeline unverzichtbar, um fundierte Entscheidungen zu treffen und wettbewerbsfähig zu bleiben.
Version 1 der Data-Analytics-Pipeline des Unternehmens stützte sich auf ihr ERP (Abacus) und CRM-Systeme, um täglich CSV-Reports hochzuladen. Diese Reports enthielten wichtige Informationen wie Stundenzettel und Aufgaben der Mitarbeitenden. Bevor die Daten in eine PostgreSQL-Datenbank eingespielt wurden, validierten Python-Skripte sie gegen ein vordefiniertes Datenschema mithilfe der Python-Bibliothek tableschema. So wurde sichergestellt, dass die Daten konsistent und korrekt waren. Nach der Validierung standen die Daten in der Visualisierungsplattform Apache Superset für Analyse und Reporting zur Verfügung.
Um jedoch von Skalierbarkeit und Zuverlässigkeit zu profitieren, hat das Unternehmen seine Data-Analytics-Pipeline auf die Google Cloud Platform (GCP) migriert. In Version 2 werden die CSV-Reports direkt in BigQuery geladen, das cloud-native Data Warehouse von Google. Damit entfällt der Bedarf für einen individuellen Analytics-Server und das Unternehmen kann grosse Datenmengen in Echtzeit einfach abfragen und analysieren.
Zur Erleichterung der Migration auf GCP nutzt das Unternehmen einen ETL-Prozess (Extract, Transform, Load). Konkret werden CSV-Dateien mithilfe von Google Cloud Functions in Google Cloud Storage (GCS) geladen, mit der Python-Bibliothek DBT (Data Build Tool) transformiert und anschliessend in BigQuery geladen. DBT erlaubt es Datenteams, ihre Daten konsistent und wartbar zu transformieren und zu verwalten — und indem das Unternehmen sein Datenschema und seine Transformationen als Code definiert, kann es seine Datenpipeline effizienter automatisieren und steuern.
Apache Airflow, eine Open-Source-Plattform zur Orchestrierung und Planung von Datenpipelines, wird genutzt, um den Datenfluss von den ERP- und CRM-Systemen nach BigQuery zu steuern. Damit wird sichergestellt, dass die Daten regelmässig und im richtigen Format in BigQuery geladen werden.
Zur weiteren Optimierung der Datenpipeline nutzt das Unternehmen GCP Dataflow, einen vollständig verwalteten Service zur Transformation und Anreicherung grosser Datensätze nahezu in Echtzeit. So kann das Unternehmen komplexe Transformationen auf seinen Daten durchführen, ohne dedizierte Infrastruktur oder zeitaufwendige manuelle Prozesse zu benötigen.
Sobald die Daten in BigQuery geladen sind, stehen sie in Apache Superset für Analyse und Visualisierung zur Verfügung. So kann das Unternehmen weiterhin seine bestehenden Dashboards und Visualisierungen nutzen und gleichzeitig von der höheren Performance und Skalierbarkeit von GCP profitieren.
Dank der Migration auf die Google Cloud Platform konnte das Schweizer Finanzunternehmen die Effizienz und Zuverlässigkeit seiner Data-Analytics-Pipeline verbessern. Das Unternehmen kann seine Daten nun in Echtzeit verwalten, transformieren und analysieren, um fundiertere Entscheidungen zu treffen und der Konkurrenz einen Schritt voraus zu bleiben.
Kontaktieren Sie uns für eine Data-Management-Beratung. Für weitere Details siehe unsere Data- & BI-Beratungsseite.