KI-ROI-Messung ist die am häufigsten halb-durchgezogene Disziplin im KI-Marketing. Die meisten Berichte vermischen Attribution mit Incrementality und verkaufen Scheinwerte. Dieser Artikel zeigt, wie ehrlich gemessen wird.
Der Unterschied zwischen Attribution und Incrementality
Attribution: Welchem System/Modell wird eine Conversion zugerechnet? Antwort: „15 Prozent unserer Conversions gingen über die Recommendation-Engine."
Incrementality: Welche Conversions gäbe es ohne das System nicht? Antwort: „Ohne Recommendation-Engine hätten wir 8 Prozent weniger Conversions gehabt."
Die beiden Zahlen können stark abweichen. Eine Engine kann 15 Prozent Attribution haben, aber nur 3 Prozent Incrementality — weil die meisten Kunden die Produkte auch ohne Engine gefunden hätten.
Für ROI-Entscheidungen zählt nur Incrementality. Wer Attribution misst und als ROI verkauft, macht Selbstbetrug.
Das 3-Stufen-ROI-Framework
Stufe 1 — Zeiteinsparung. Die einfachste, direkt messbare ROI-Quelle. Wenn ein Tool einen Task von 2 Stunden auf 20 Minuten kürzt, ist das messbar:
- Anzahl Tasks pro Monat × eingesparte Zeit × interner Stundensatz = Monats-Einsparung
- Minus Lizenz- und Setup-Kosten
- Ergibt Netto-Zeitwert
Typische Gen-AI-Einsparungen liegen bei 30–80 Prozent je nach Task. Realistisch: Ein Marketing-Mitarbeiter gewinnt 4–10 Stunden pro Woche durch Gen-AI-Tools.
Stufe 2 — Conversion-Uplift. Messbar durch A/B-Tests oder Holdout-Gruppen. Beispiel:
- Holdout-Gruppe (10 Prozent der Nutzer) ohne Personalisierung
- Rest mit Personalisierung
- Conversion-Delta = Incrementality der Personalisierung
Stufe 3 — Strategischer Wert. Schwer messbar, oft missbraucht. „KI-Kompetenz aufbauen" ist selten ausreichend als ROI-Argument. Konkreter: Welche strategische Entscheidung fällt mit KI leichter?
Das Holdout-Test-Design
Die robusteste Incrementality-Messung.
Setup:
- Zufallsstichprobe von z. B. 10 Prozent der Nutzer → Holdout-Gruppe
- Rest (90 Prozent) → Treatment-Gruppe mit KI-Anwendung
- Laufzeit: mindestens ein Business-Zyklus
- Vergleichsmetrik: Conversion-Rate / Umsatz / Retention
Statistische Signifikanz: Je kleiner der erwartete Effekt, desto größer die nötige Stichprobe. Bei 1-Prozent-Uplift brauchst du deutlich mehr Daten als bei 10 Prozent.
Fallen:
- Netzwerk-Effekte zwischen Gruppen (z. B. Word-of-Mouth)
- Saisonalität nicht berücksichtigen
- Holdout-Gruppe zu klein (Konfidenz-Intervall unbrauchbar)
Geo-Experimente als Alternative
Wenn Holdouts nicht möglich sind (z. B. bei großflächigen Kampagnen), funktionieren Geo-Experimente:
- Zwei vergleichbare Regionen identifizieren
- Eine bekommt das KI-System, eine nicht
- Over-time Vergleich der Business-KPIs
Nachteil: Regionen sind nie perfekt vergleichbar. Matched-Market-Tests mit statistischer Gewichtung helfen.
Marketing Mix Modeling als Reinforcement
Für strategische Fragen (Budget-Verteilung über Kanäle inkl. KI-Kanäle) ist MMM (Marketing Mix Modeling) wertvoll. Es ist independent von Cookies, arbeitet auf aggregierten Daten und isoliert die Beiträge einzelner Kanäle.
MMM plus Incrementality-Tests gibt ein robustes Bild:
- MMM: relative Beiträge über langen Zeithorizont
- Incrementality: Validierung der MMM-Schätzungen
Typische KI-Investment-Buckets
Setup-Kosten:
- Tool-Lizenzen (einmalig oder laufend)
- Implementierungs-Aufwand (interne Zeit + ggf. externe Agentur)
- Daten-Aufbereitung (oft unterschätzt)
Laufende Kosten:
- Lizenzen / API-Calls
- Rechenzeit (bei Self-Hosted)
- Pflege und Retraining (typisch 20 Prozent einer FTE für relevante Modelle)
- Monitoring und Debugging
Versteckte Kosten:
- Lernkurve der Nutzer (erste 3 Monate oft -30 Prozent Produktivität)
- Compliance-Aufwand (EU AI Act)
- Legal-Reviews
Realistische Benchmarks
Content-Produktion (Gen-AI):
- ROI oft 3:1 bis 10:1 bei hohem Volumen
- Breakeven typisch nach 3–6 Monaten
Personalisierung:
- Incrementality 3–12 Prozent Conversion-Uplift
- ROI 2:1 bis 5:1 in E-Commerce
Predictive Analytics (Churn):
- ROI 5:1 bis 20:1 bei Subscription-Geschäften mit hohem CAC
- Breakeven nach 6–12 Monaten
Chatbots/Agents:
- ROI oft negativ in ersten 12 Monaten
- Nach Skalierung 2:1 bis 4:1
Die Zahlen sind Indikatoren, keine Garantien. Jedes Unternehmen muss für sich messen.
Häufige ROI-Fehler
Fehler 1 — Attribution als ROI. Siehe oben. Der häufigste Fehler.
Fehler 2 — Keine Baseline. Wenn du nicht weißt, was ohne KI passiert wäre, kannst du keinen Uplift messen.
Fehler 3 — Zu kurze Beobachtungszeit. 2 Wochen sind zu kurz, 3 Monate meist genug.
Fehler 4 — Versteckte Kosten ignorieren. Lizenz + Setup gerechnet, laufende Pflege vergessen.
Fehler 5 — Lernkurve nicht einkalkulieren. Die ersten Monate sind weniger produktiv. Das gehört ins ROI-Modell.
Fehler 6 — Zu globale Betrachtung. „KI-Einsatz insgesamt" ist schwer zu messen. Pro Use-Case und Tool messen.
Das ROI-Report-Template
Ein seriöser KI-ROI-Report enthält:
- Use-Case-Definition. Was genau wurde eingesetzt?
- Baseline. Was war vorher? Welche Metrik, welche Zahlen?
- Intervention. Was wurde geändert? Über welchen Zeitraum?
- Messmethode. Holdout? Attribution? MMM? Mit welcher Stichprobengröße?
- Ergebnisse. Konkrete Zahlen, nicht Marketing-Claims.
- Kosten. Einmalig + laufend.
- ROI. Ergebnis-Delta durch Kosten, über welchen Zeitraum.
- Annahmen und Limitationen. Was ist unsicher, was nicht robust?
Reports, die diese Punkte nicht haben, sind keine seriösen ROI-Reports.
Verbindungen: Alle Use-Case-Cluster in diesem Pillar — Gen-AI, Predictive, Personalisierung, Agenten — produzieren die Daten, die hier gemessen werden.