A/B-Testing für Nicht-Statistiker

Start

A/B-Testing für Nicht-Statistiker

Entscheidungen treffen, die der Wirklichkeit standhalten — nicht dem Bauchgefühl.

Lernziel

Sie erkennen, was einen echten A/B-Test auszeichnet.

Sie verstehen, warum paralleles Testen unter gleichen Bedingungen zuverlässiger ist als Vorher-Nachher.

Sie formulieren eine eigene, überprüfbare Testhypothese.

Konzept

Das Geschäftsproblem: siebzig Prozent Abbruch

Das Baymard Institute ermittelte aus über 100.000 Checkout-Prozessen eine durchschnittliche Warenkorbabbruchrate von 69,8 Prozent.

Jeder zweite Shop-Betreiber unterschätzt diesen Wert, weil er im Tagesgeschäft nicht sichtbar ist.

Die Folge: Tausende Besucher verlassen die Seite kurz vor dem Kauf.

Durchschnittliche Warenkorbabbruchrate im E-Commerce

Konzept

Warum mehr Traffic kein Hebel ist

Bei einer Conversion Rate von drei Prozent und einem Abbruch von siebzig Prozent brauchen Sie dreißig Klicks für einen Kauf.

Mehr bezahlter Traffic bei gleicher Conversion-Rate frisst nur Marge und verschärft den Druck auf die Kosten.

Der echte Hebel liegt im bestehenden Traffic, nicht in neuem.

10.000 Besucher → 3.000 Warenkörbe → 900 Käufe

Konzept

Was ein echter A/B-Test tut

Der vorhandene Traffic wird nach dem Zufallsprinzip in zwei gleich große Gruppen aufgeteilt.

Gruppe A sieht die aktuelle Version, Gruppe B sieht die veränderte Version.

Beide Gruppen surfen zur gleichen Zeit unter denselben Bedingungen.

Konzept

Was ein A/B-Test nicht ist

Es ist kein Designwettbewerb, bei dem die schönere Variante gewinnt.

Es ist keine Plattform für Meinungen wie „bei mir klickt niemand auf Grün“.

Es ist auch keine Methode, um jede Woche eine neue Idee durchzuwirbeln.

Daten vs. Meinung

Konzept

Anatomie eines Experiments: die Hypothese

Eine Hypothese sagt, welche Änderung Sie warum testen und welche Auswirkung Sie erwarten.

Schwach: „Wir testen einen neuen Button.“

Stark: „Wenn wir den CTA-Button im Warenkorb vergrößern, steigt die Conversion Rate um fünf Prozent, weil die Handlung deutlicher wird.“

Konzept

Kontrolle, Variante und Randomisierung

Die Kontrolle ist die aktuelle Version — Ihr Status quo, gemessen unter den aktuellen Bedingungen.

Die Variante enthält genau eine gezielte Änderung.

Randomisierung sorgt dafür, dass Nutzer nicht selbst wählen, sondern zufällig zugeordnet werden.

Kontrolle vs. Variante

Konzept

Metrik und Traffic-Split

Die Primärmetrik ist die eine Kennzahl, an der Sie Erfolg oder Misserfolg messen — meist Conversion Rate oder Umsatz pro Besucher.

Der Traffic-Split bestimmt, welcher Anteil der Besucher welche Variante sieht, typischerweise fünfzig zu fünfzig.

Eine ungleiche Aufteilung verlängert die Testlaufzeit oder schwächt die Aussagekraft.

Typischer 50/50 Traffic-Split

Beispiel

Warum Vorher-Nachher lügt: ein konkretes Szenario

Montag: Regen, dreitausend Besucher, Conversion Rate 2,1 Prozent.

Dienstag: Sonne, dreitausend Besucher, neuer Header live, Conversion Rate 2,4 Prozent.

Schlussfolgerung: Der Header bringt fünfzehn Prozent mehr Umsatz.

Wahrscheinlichkeit: Das Wetter und der Wochentag haben das Ergebnis verzerrt.

Vorher-Nachher mit externem Störfaktor

Szenario

Kampagnen, Feiertage und Werbeaktionen

Am Black Friday steigt die Conversion Rate fast überall — unabhängig davon, was Sie am Shop ändern.

Eine Retargeting-Kampagne kann die Kontrollgruppe anders ansprechen als die Variante.

Wer Vorher-Nachher misst, blendet diese Störfaktoren aus statt sie zu kontrollieren.

Störfaktoren wirken ungleich auf Zeitvergleiche

Konzept

Paralleles Testen eliminiert Störfaktoren

Bei einem A/B-Test laufen beide Varianten zur gleichen Zeit.

Wetter, Wochentag, Kampagnen und saisonale Effekte wirken sich auf beide Gruppen gleich aus.

Der einzige systematische Unterschied bleibt die getestete Änderung.

Konzept

Primärmetrik vs. Guardrail-Metriken

Die Primärmetrik entscheidet, ob die Variante gewinnt — zum Beispiel Umsatz pro Besucher.

Guardrail-Metriken schützen vor Nebenwirkungen: Rücklaufquote, Support-Anfragen, durchschnittlicher Bestellwert.

Eine Variante kann die Conversion steigern und gleichzeitig den Bestellwert senken.

Primärmetrik und Guardrails im Blick

Beispiel

Geschäftsmetriken, die Sinn ergeben

Conversion Rate: Anteil der Besucher, die kaufen.

Umsatz pro Besucher: Kombiniert Conversion und Bestellwert.

Customer Lifetime Value: Zeigt langfristige Wirkung, besonders bei Abonnements.

Beispielhafte Geschäftsmetriken

Konzept

Qualität einer Hypothese

Falsifizierbar: Das Gegenteil muss theoretisch möglich sein.

Eine Variable: Ändern Sie nur ein Element pro Variante.

Erwartete Wirkung: Nennen Sie Richtung und Größenordnung der erwarteten Veränderung.

Konzept

Häufige Fehler, die Tests ungültig machen

Peeking: Sie schauen täglich auf das Ergebnis und beenden den Test, sobald etwas Signifikantes blinkt.

Zu früh stoppen: Varianten schwanken zufällig, bis genügend Daten vorliegen.

Zu viele Varianten: Bei zehn Varianten gewinnt fast immer zufällig eine.

Peeking, Frühstoppen, Varianten-Inflation

Übung

Ihre Übung: eine falsifizierbare Hypothese

Wählen Sie eine Seite oder ein Element in Ihrem Shop.

Formulieren Sie: Wenn wir X ändern, dann steigt/sinkt Y um Z, gemessen an Metrik M.

Prüfen Sie: Ist nur eine Variable verändert? Ist das Gegenteil denkbar?

Hypothese für den eigenen Shop entwerfen

Zusammenfassung

Zusammenfassung: die wichtigsten Punkte

Siebzig Prozent aller Warenkörbe werden online nicht gekauft — mehr Traffic löst das Problem nicht.

Ein echter A/B-Test teilt Traffic zufällig auf und testet parallel unter gleichen Bedingungen.

Vorher-Nachher wird durch Wetter, Wochentag und Kampagnen verzerrt.

Zusammenfassung

Was Sie mitnehmen

Definieren Sie vor dem Test eine klare Primärmetrik und passende Guardrails.

Formulieren Sie Hypothesen so, dass das Gegenteil möglich ist und nur eine Variable verändert wird.

Vermeiden Sie Peeking, Frühstoppen und zu viele Varianten.

Von der Vermutung zur validen Entscheidung

Zwischenschritt

Das JDKRUEGER-Versprechen

Wir führen in DACH mehr A/B-Tests durch als klassische Agenturen verkaufen — und beweisen jede Empfehlung mit Daten.

Quiz

Testen Sie Ihr Wissen.

Ein Shop hat eine Conversion Rate von 3 % und eine Warenkorbabbruchrate von etwa 70 %. Was ist die sinnvollste Schlussfolgerung für die Strategie?

Mehr bezahlten Traffic kaufen, um die fehlenden Käufe auszugleichen. Die Warenkorbabbruchrate ist ein Einzelfall, der nur bei schlechten Shops auftritt. Der größte Hebel liegt darin, den bestehenden Traffic effektiver zu konvertieren. Die Conversion Rate ist so hoch, dass keine Optimierung nötig ist.

Warum müssen Besucher in einem validen A/B-Test zufällig und parallel auf die Varianten verteilt werden?

Damit die optisch ansprechendere Variante automatisch häufiger angezeigt wird. Weil so beide Gruppen denselben externen Faktoren ausgesetzt sind und nur die getestete Änderung systematisch unterscheidet. Damit jeder Besucher beide Versionen sieht und sich selbst entscheiden kann. Weil die Testsoftware ausschließlich zufällige Zuordnungen verarbeiten kann.

Welche Hypothese ist für einen A/B-Test am besten geeignet?

Wir testen einen neuen Button, weil der alte uns nicht gefällt. Mehr Vertrauen im Shop führt langfristig zu mehr Umsatz. Wenn wir den CTA-Button im Warenkorb vergrößern, steigt die Conversion Rate um 5 %, weil die Handlung deutlicher wird. Wir verändern gleichzeitig Headline, Buttonfarbe und Preisdarstellung, um mehr zu verkaufen.

Eine Variante steigert die Conversion Rate um 8 %, senkt aber den durchschnittlichen Bestellwert um 20 %. Was zeigt dies?

Die Primärmetrik ist irrelevant, solange die Conversion Rate steigt. Guardrail-Metriken sind nur für statistische Experten relevant. Guardrail-Metriken können Nebenwirkungen aufdecken, die den scheinbaren Erfolg zunichtemachen. Der Test sollte sofort gestoppt und die Variante ausgerollt werden.

Welches Verhalten macht einen A/B-Test besonders anfällig für falsche Gewinner?

Die Primärmetrik vor dem Test festzulegen. Täglich auf das Ergebnis zu schauen und beim ersten Signifikanz-Hinweis zu stoppen. Den Traffic im Verhältnis 50:50 auf beide Varianten aufzuteilen. Eine Hypothese mit genau einer Variablen zu testen.

Abschluss

Modul abgeschlossen

Nächstes Modul: Signifikanz verstehen — wann ist ein Test wirklich sicher?