JDKRUEGER&COAcademyAnmelden
Modul 2 von 8 · A/B-Testing Mastery

Signifikanz verstehen

15 Min · Statistische Signifikanz, p-Werte, Konfidenzintervalle und Stichprobengröße richtig deuten, um valide Testentscheidungen zu treffen und typische Fehlinterpretationen zu vermeiden.
← A/B-Testing Mastery Signifikanz verstehen 1 / 22
Start

Signifikanz verstehen

Wann ist ein Testergebnis wirklich sicher — und wann täuscht es nur?

Von Uplift zur validen Entscheidung
Lernziel

Lernziel

Sie deuten p-Werte, Konfidenzintervalle und Stichprobengröße richtig.

Sie unterscheiden statistische von praktischer Signifikanz.

Sie erkennen gängige Fehlinterpretationen, bevor sie teuer werden.

1 p-Wert prüfen 2 Konfidenzintervall lesen 3 MDE bewerten 4 Entscheidung treffen
Konzept

Der p-Wert: ein Wahrscheinlichkeitsstatement

Der p-Wert sagt: Wahrscheinlichkeit, den beobachteten Unterschied zu sehen, wenn in Wahrheit keiner existiert.

Ein p-Wert von null Komma null drei bedeutet drei Prozent Wahrscheinlichkeit für einen Zufallseffekt.

Niedrig bedeutet: Der Effekt ist wahrscheinlich echt.

15 p = 0,15 5 p = 0,05 1 p = 0,01
Je kleiner der p-Wert, desto geringer die Zufallswahrscheinlichkeit
Konzept

Warum 95 Prozent das JDKRUEGER-Minimum sind

Ninety-five Prozent Signifikanz entsprechen einem p-Wert von null Komma null fünf oder kleiner.

Das bedeutet: In nur fünf von hundert Fällen täuscht uns der Zufall.

Darunter halten wir den Test für nicht entscheidungsreif.

95% — Sicher 5% — Zufall
Fünfundneunzig Prozent Sicherheit, fünf Prozent Restrisiko
Konzept

Konfidenzintervalle: wo die Wahrheit wahrscheinlich liegt

Ein 95-Prozent-Konfidenzintervall gibt eine Bandbreite für den wahren Effekt an.

Beispiel: plus drei Prozent mit Intervall minus eins bis plus sieben Prozent.

Wenn die Null drin liegt, ist der Effekt nicht signifikant.

-1 Untergrenze 3 Schätzwert 7 Obergrenze
Konfidenzintervall, das die Null überlappt
Beispiel

Beispiel: zwei Varianten, unterschiedliche Sicherheit

Variante A: 2,00 Prozent Conversion, tausend Conversions.

Variante B: 2,24 Prozent Conversion, elfhundert Conversions.

Ergebnis: plus zwölf Prozent Uplift, aber p = null Komma null acht — noch nicht signifikant.

2 Variante A 2.24 Variante B
Zwölf Prozent Uplift ohne ausreichende Signifikanz
Konzept

Statistisch signifikant heißt nicht automatisch wichtig

Ein plus ein Prozent Uplift kann bei genügend Daten signifikant sein.

Wenn die Implementierung tausend Euro kostet und der Effekt fünfhundert Euro bringt, ist er wirtschaftlich unsinnig.

Statistische Signifikanz sagt nur, dass ein Effekt wahrscheinlich echt ist — nicht, dass er groß ist.

VORHER NACHHER +
Statistische Sicherheit vs. Geschäftsrelevanz
Konzept

Praktische Signifikanz: ab wann zählt es wirklich?

Praktische Signifikanz fragt: Rechtfertigt der Effekt den Aufwand und das Risiko?

Ein MDE von fünf Prozent definiert die kleinste wirtschaftlich relevante Veränderung.

Unterhalb des MDE wird selbst ein signifikanter Winner nicht ausgerollt.

1 Effekt berechnen 2 Kosten schätzen 3 Risiko bewerten 4 MDE vergleichen
Konzept

Häufige Fehlinterpretationen

Fehler eins: Signifikanz ist die Wahrscheinlichkeit, dass die Hypothese wahr ist.

Fehler zwei: Ein nicht signifikantes Ergebnis beweist, dass nichts passiert.

Fehler drei: Je kleiner der p-Wert, desto größer der Effekt.

Drei gefährliche Irrtümer über Signifikanz
Konzept

Was Signifikanz definitiv nicht bedeutet

Sie bedeutet nicht, dass Variante B bei neunundneunzig Prozent aller Nutzer besser funktioniert.

Sie bedeutet nicht, dass der Effekt in sechs Monaten noch genauso groß ist.

Sie bedeutet nicht, dass der Gewinn garantiert im nächsten Quartal wiederholt wird.

VORHER NACHHER +
Signifikanz ist keine Zukunftsgarantie
Konzept

Stichprobengröße: warum mehr Conversions mehr Sicherheit bringen

Mit zunehmender Stichprobengröße schrumpft das Konfidenzintervall.

Bei hundert Conversions pro Variante ist die Aussagekraft gering.

Bei tausend Conversions pro Variante wird der Schätzwert stabiler.

100 100 Conversions 500 500 Conversions 1000 1.000 Conversions
Wachsende Stichprobe, schrumpfendes Intervall
Konzept

One-tailed vs. Two-tailed: welche Richtung testen Sie?

Two-tailed prüft beide Richtungen: Besser oder schlechter als die Kontrolle.

One-tailed prüft nur eine Richtung und erfordert eine klare Vorhersage vor dem Test.

Für die meisten Geschäftsentscheidungen ist two-tailed sicherer.

VORHER NACHHER +
Zweiseitige vs. einseitige Hypothese
Szenario

Szenario: achtundachtzig Prozent Signifikanz

Ein Test zeigt plus fünfzehn Prozent Uplift bei achtundachtzig Prozent Signifikanz.

Das Management will sofort ausrollen.

Richtige Entscheidung: Test fortsetzen, bis fünfundneunzig Prozent oder das Intervall klar wird.

88 Jetzt 95 Ziel
Achtundachtzig Prozent sind noch keine Entscheidungsgrundlage
Beispiel

Beispiel: MDE, Kosten und ROI im Blick

Baseline-Conversion: drei Prozent. MDE: fünfzehn Prozent relativ.

Das Ziel ist also ein absoluter Anstieg auf drei Komma fünfundvierzig Prozent.

Entwicklung und QA kosten achttausend Euro — der erwartete jährliche Mehrumsatz muss das mindestens verdreifachen.

3 Baseline 3.45 Ziel nach MDE
Minimum Detectable Effect als wirtschaftliche Hürde
Konzept

Alpha, Beta und Power kurz erklärt

Alpha ist das Fehlerrisiko bei fünf Prozent — also die fünfundneunzig-Prozent-Grenze.

Beta ist das Risiko, einen echten Effekt zu übersehen, typischerweise zwanzig Prozent.

Power von achtzig Prozent bedeutet: Wir finden einen echten Effekt in vier von fünf Fällen.

1 Alpha: falscher Alarm 2 Beta: verpasste Chance 3 Power: Trefferwahrscheinlichkeit
Konzept

Der Peeking-Effekt: warum tägliches Hinschauen teuer wird

Wer jeden Tag auf das Ergebnis schaut und bei Signifikanz stoppt, erhöht das Fehlerrisiko massiv.

Bei zwanzig Blicken auf laufende Daten steigt das Alpha-Niveau deutlich über fünf Prozent.

Feste Laufzeiten und vorher festgelegte Stopp-Regeln schützen vor diesem Fehler.

512231 Blick5 Blicke20 Blicke
Mehr Blicke erhöhen das Fehlerrisiko über fünf Prozent
Übung

Ihre Übung: bewerten Sie ein Testergebnis

Gegeben: Variante B zeigt plus acht Prozent Uplift, p = null Komma null drei, n = achthundert Conversions pro Variante.

Prüfen Sie: Ist das Ergebnis statistisch signifikant?

Prüfen Sie: Was fehlt, um die praktische Relevanz zu beurteilen?

Entscheidungscheckliste anwenden
Konzept

Wann ist ein Test entscheidungsreif?

Mindestens fünfundneunzig Prozent Signifikanz.

Mindestens hundert Conversions pro Variante, besser mehr.

Konfidenzintervall liegt vollständig auf der gewünschten Seite der Null.

1 Signifikanz >= 95 % 2 Conversions >= 100 3 Intervall klar 4 MDE erreicht
Zusammenfassung

Zusammenfassung: Signifikanz richtig lesen

Der p-Wert misst die Zufallswahrscheinlichkeit, nicht die Wahrscheinlichkeit der Hypothese.

Fünfundneunzig Prozent Signifikanz und ausreichend Conversions sind das JDKRUEGER-Minimum.

Statistische Signifikanz ohne praktische Relevanz rechtfertigt keinen Rollout.

1 p-Wert lesen 2 Intervall prüfen 3 MDE bewerten 4 Diszipliniert entscheiden
Zwischenschritt

Das JDKRUEGER-Versprechen

Wir validieren jeden Test mit fünfundneunzig Prozent Signifikanz, klaren Konfidenzintervallen und einem dokumentierten Business Case — bevor etwas ausgerollt wird.

Messbar. Belegt. Skalierbar.
Quiz

Quiz

Testen Sie Ihr Wissen.

Ein A/B-Test zeigt einen p-Wert von 0,03. Was sagt diese Zahl korrekt aus?

Ein 95 %-Konfidenzintervall für den Uplift liegt bei -1 % bis +7 %. Was folgt daraus?

Ein Test erreicht 99 % Signifikanz bei einem Uplift von +1 %. Implementierung und QA kosten 10.000 EUR, der erwartete jährliche Mehrumsatz liegt bei 4.000 EUR. Wie entscheiden Sie?

Was beschreibt das Alpha-Niveau in einem A/B-Test?

Ein Team prüft jeden Morgen die laufenden Testdaten und stoppt, sobald die Signifikanz erreicht ist. Welches Problem entsteht dadurch?

Transkript dieser Folie

Signifikanz verstehen