Case Story · Snowflake · Snowpark

Modernes
Data Warehousing
mit Snowflake

Wie ein eCommerce-Betreiber täglich Millionen Datensätze durch vier Verarbeitungsschichten führt — vollautomatisch, stündlich inkrementell und mit kontrollierten Betriebskosten.

0Mio. Zeilen täglich
0Dateien & API-Calls / Tag
4Datenschichten (Medallion)

Die Herausforderung

Viele Daten, viele Quellen —
und die Kosten skalieren mit

eCommerce-Betreiber aggregieren täglich Daten aus Shop-Systemen, Marktplätzen, Marketing-Plattformen und Logistik-Tools. Das Volumen ist beherrschbar — solange die Architektur von Anfang an mitgedacht wurde.

Wer Snowflake wie ein klassisches Data Warehouse betreibt — SQL-Skripte schreiben, ausführen, für jede neue Quelle wiederholen — zahlt dafür. Kosten skalieren mit dem Datenvolumen, Entwicklungszeit mit der Anzahl der Quellen, Wartung mit jedem neuen SQL-Skript.

Hoher Computing-Aufwand

ETL-Prozesse halten Warehouses permanent aktiv — auch wenn eigentlich nichts zu tun ist.

Keine Wiederverwendbarkeit

Jede neue Datenquelle bedeutet neuen Code, neue SQL-Skripte, neue Wartungslast.

Wenig Transparenz

Fehler in SQL-Skripten bleiben unbemerkt. Invalide Daten landen in der Auswertung — oder verschwinden lautlos.

Lange Bereitstellungszeiten

Neue Datenquellen onboarden dauert Tage: Schema analysieren, DDL schreiben, ETL entwickeln, testen.


Die Architektur

Medallion Schema — vier Schichten,
ein durchgängiger Prozess

Jede Schicht hat eine klar definierte Verantwortung. Klicken Sie auf einen Layer für Details zum Ansatz.

LAYER 1
Landing Zone
CSV · REST APIs · Unveränderte Rohdaten
Ansatz anzeigen
LAYER 2
Bronze
Strukturiert · Dedupliziert · Inkrementell
Snowpark Container
Ansatz anzeigen
LAYER 3
Silver
Validiert · Bereinigt · Qualitätsgesichert
Snowpark Container
Ansatz anzeigen
LAYER 4
Gold
Aggregiert · BI-ready · Business-Metriken
Snowpark Container
Ansatz anzeigen

Der Ansatz

Snowpark: Transformationen in der Engine —
nicht außerhalb

Der entscheidende Unterschied liegt nicht in der Architektur, sondern im Ausführungsmodell. Snowpark ermöglicht es, Datentransformationen in Python zu beschreiben und direkt im Snowflake-Engine auszuführen.

Klassischer Ansatz

SQL-Skripte — einmal je Entität

Für jede Datenquelle ein eigenes SQL-Skript. Das ETL-Tool führt es aus, zieht Daten heraus, transformiert extern, schreibt zurück. Das Warehouse läuft durch, Skripte häufen sich an, Änderungen in der Quelle brechen den Prozess.

-- Klassisch: 1 Skript pro Entität
-- profiles_etl.sql
INSERT INTO bronze.profiles
SELECT id, email, props:'first_name'...
FROM raw.profiles_raw;

-- campaigns_etl.sql (dasselbe, nochmal)
INSERT INTO bronze.campaigns
SELECT id, name, props:'subject'...
FROM raw.campaigns_raw;

-- events_etl.sql, clicks_etl.sql ...
Unser Ansatz

Eine Task-Klasse. Beliebig viele Entitäten per Config.

Generische Klassen für Bronze, Silver und Gold. Neue Entität onboarden: Config anlegen, fertig. Kein neuer Code, keine neuen SQL-Skripte.

Python beschreibt den Plan. Snowflake führt ihn aus. Kein Daten-Transfer, kein externer Compute.

# Neue Entität: nur Config nötig
config = {
  "source_table": "CAMPAIGNS_RAW",
  "target_table": "CAMPAIGNS",
  "merge_keys": ["ID"],
  "flatten_columns": ["PROPERTIES"],
  "incremental_column": "UPDATED_AT"
}

# Dieselbe Klasse für alle Entitäten
BronzeFlattenTask().execute(context)

Die Vorteile

Was dieser Ansatz konkret bringt

Vier messbare Unterschiede gegenüber einem klassischen ETL-Ansatz.

Benefit 01

Deutlich weniger Computing-Zeit

Snowpipe lädt Rohdaten ohne aktives Warehouse. Alle Transformationen laufen direkt im Snowflake Engine — kein externer Compute, keine Daten-Transfers.

Benefit 02

Wiederverwendbarkeit spart Entwicklungszeit

Software-Engineering-Prinzipien statt ETL-Scripting. Generische Task-Klassen verarbeiten beliebig viele Entitäten per Config. Ein Bug wird einmal gefixt und wirkt überall.

Benefit 03

Transparenz durch weniger SQL-Code

Keine N SQL-Dateien, sondern versionierbare Python-Funktionen und lesbare JSON-Configs. Invalide Daten landen mit Fehlerprotokoll in der Quarantine-Tabelle. Datenqualität ist messbar — nicht nur behauptet.

Benefit 04

Schnellere Bereitstellung neuer Quellen

Spaltenstrukturen werden automatisch erkannt — kein manuelles DDL. Neue Datenentität onboarden: JSON-Config anlegen, Pipeline starten. Was klassisch Tage dauert, dauert hier Stunden.


Das Ergebnis

50 Millionen Zeilen täglich —
kontrollierte Kosten, volle Skalierbarkeit

Die gesamte Pipeline — CSV-Exporte und REST-APIs, Rohdaten-Landung bis fertige Business-Metriken — läuft täglich vollautomatisch. Der Ansatz skaliert: Wächst das Volumen oder kommen neue Quellen hinzu, wachsen die Kosten kontrolliert mit.

CSV via Snowpipe — Event-driven, kein Warehouse-Compute
REST APIs — Direkt in Snowflake synchronisiert
Bronze · Silver · Gold — Snowpark Container Service
Parallelausführung — alle Entitäten gleichzeitig

Was wir tun

Datenplattformen, die von Anfang an
auf Effizienz ausgelegt sind

Wir entwickeln Datenplattformen auf Snowflake und Databricks, bei denen Architektur und Implementierungsqualität von Anfang an auf Betriebskosten, Skalierbarkeit und Wartbarkeit ausgelegt sind. Von der Pipeline-Infrastruktur über layerübergreifende Transformationslogik bis zum produktiven Betrieb.

Die beschriebene Architektur — Medallion Schema, Snowpark-native Verarbeitung, Config-driven Engineering — ist kein Einzelprojekt, sondern unser Standardansatz für datenintensive eCommerce- und Enterprise-Umgebungen.


Kontakt

Ähnliche Herausforderung?

Wenn Sie ähnliche Datenvolumen bewältigen oder Ihre bestehende Snowflake-Nutzung auf Effizienz überprüfen möchten — sprechen Sie uns an.

Gespräch anfragen

MK Zwei Digital GmbH · info@mk-zwei.com