Collect ist die erste und wichtigste Phase im 5-Phasen-Prozess. Wer hier schlampt, scheitert in allen folgenden Phasen — eine gute Analyse kann keine schlechten Daten retten. Dieser Artikel zeigt, woraus Collect im Mittelstand wirklich besteht und welche Fehler ich in fast jedem Audit-Projekt finde.
Die drei Säulen von Collect
Säule 1 — Breite der Quellen. Jede relevante Kunden-Interaktion muss erfasst werden. Im Mittelstand heißt das typisch: Shop-Transaktionen, App-Events, Newsletter-Clicks, Service-Tickets, CRM-Interaktionen. Omnichannel-Retailer brauchen außerdem POS und Filial-Daten. Die Lücke, die ich am häufigsten sehe: Service-Daten fehlen, weil das Service-Tool in einer anderen Abteilung sitzt.
Säule 2 — Tiefe der Erfassung. Jede Interaktion muss mit ausreichend Kontext erfasst werden, um später analysiert zu werden. Ein Seitenaufruf ohne Referrer, Session-ID und Consent-Kontext ist in Phase 2 nicht aufbereitbar. Tiefe entsteht durch sauberes Event-Tracking (z. B. via Server-side-Tagging) und klare Event-Naming-Conventions.
Säule 3 — Consent und Identity. Jedes Datum muss pro Zweck mit dem aktuellen Consent-Status getaggt werden. Identifier (E-Mail, Kundennummer, Device) müssen so erfasst werden, dass sie später zu Profilen verknüpfbar sind — idealerweise durch gehashte Identifier für Privacy-Sensibilität.
Typische Daten-Quellen im Mittelstand
| Quelle | Typische Signale | |---|---| | Shop (Web, App) | Seitenaufrufe, Produktansichten, Warenkorb, Kauf, Retoure | | CRM | Account, Opportunities, Sales-Stage, Kontakte | | Newsletter | Versand, Öffnung, Click, Unsubscribe | | Service | Tickets, Chat-Transkripte, Telefon-Dauer | | Offline | Kassenbons, Loyalty-Programm, Store-Visits |
Jede dieser Quellen hat eine eigene Systemwelt. Das Ziel der Collect-Phase ist, sie in einem einheitlichen Profil-Layer zusammenzuführen — meist über eine CDP, manchmal über ein gut geführtes Data Warehouse mit Reverse-ETL.
Consent-Management im Detail
Die DSGVO verlangt pro Zweck einen dokumentierten Consent. Das heißt praktisch: Wenn du ein Profil für Marketing-Personalisierung nutzen willst, brauchst du den Consent dafür — unabhängig vom Consent für Bestell-Abwicklung. Die Consent-Status müssen pro Profil getrennt gepflegt und an alle Downstream-Systeme propagiert werden.
Die häufigsten Fehler: Consent wird beim Onboarding gefragt, später nie aktualisiert. Consent wird als „ja/nein" geführt statt pro Zweck. Consent-Widerruf wird nicht in alle Systeme durchgereicht (GDPR-Relevant!). Eine saubere Consent-Management-Platform und eine dokumentierte Propagation-Logik sind Pflicht.
Identity-Resolution-Grundlagen
Kundenprofile sind selten einfach — eine Person hat mehrere Identifier (E-Mail privat, E-Mail geschäftlich, CRM-ID, Kundennummer, Device-IDs über mehrere Geräte). Die Zusammenführung (Identity Resolution) passiert in der Collect-Phase deterministisch (gleiche Identifier) oder probabilistisch (gleiches Verhalten, ähnliche Muster).
Deterministisch ist vorzuziehen: höhere Genauigkeit, geringere Privacy-Risiken. Probabilistisch nur dort, wo deterministisch nicht möglich ist und der Use Case es rechtfertigt. Details siehe CDP-Definition.
Häufige Fehler in der Praxis
Fehler 1 — Event-Naming ohne Konvention. Wenn „product_view", „ProductView" und „view-product" parallel existieren, ist die spätere Analyse unmöglich. Naming-Conventions vor dem ersten Event setzen.
Fehler 2 — Schema-Drift ohne Dokumentation. Jede Datenquelle ändert sich — neue Felder, geänderte Semantik. Ohne Schema-Registry und Change-Log produzieren die Analysten irgendwann Unsinn, ohne es zu merken.
Fehler 3 — Offline-Blindstelle. Retailer mit Filialen oder B2B-Unternehmen mit Field-Sales ignorieren oft offline-Daten, weil die Integration aufwändig ist. Damit verliert man die Hälfte des Profils.
Fehler 4 — Kein Monitoring auf Datenqualität. Dublettenquote, Fehlerrate, Freshness müssen in Dashboards sichtbar sein. Wer das nicht monitort, bemerkt Pipeline-Brüche erst, wenn die Kampagne schlecht läuft.
Was du zuerst machen solltest
- Ein Audit deiner aktuellen Daten-Quellen — welche werden erfasst, welche nicht, mit welcher Qualität.
- Ein Consent-Audit — was habt ihr pro Zweck, wo sind Lücken.
- Ein Identity-Audit — welche Identifier kennt ihr pro Profil, wie gut sind sie verknüpft.
- Eine Priorisierung nach Impact — welche Lücke schließt am meisten Use Cases?
Nächster Schritt in der Kette: Understand. Für das Gesamtframework: 5-Phasen-Prozess. Für die Tiefe bei Profil-Technologie: CDP-Definition.