Ob ein Test erfolgreich ist oder nicht, hängt im Prinzip von zwei Faktoren ab:
- Zum einen davon, ob es messbare Unterschiede zwischen unseren Varianten gibt und
- zum anderen davon, ob diese Unterschiede am Ende auch signifikant, sprich nicht nur zufällig entstanden, sind.
Ersteres machen wir an unseren Webseitenzielen (Bestellung, Lead, Newsletteranmeldung, etc.) fest. Genau genommen entscheidet also nicht der Traffic über die Testlaufzeit, sondern die Anzahl an Conversions. Und hier ist die allgemeine Annahme: Wer wenig Traffic hat, hat auch wenig Conversions. Dadurch wird insgesamt mehr Zeit benötigt, um einen statistisch signifikanten Unterschied zwischen zwei oder mehreren Varianten zu ermitteln.
Was kann also getan werden, um auch bei Seiten mit geringem Traffic A/B-Tests durchführen zu können?
1. Auf kontrastreiche Testelemente achten.
Um die Wahrscheinlichkeit für ein signifikantes Ergebnis zu erhöhen, sollte eine Testvariante mit einem deutlichen Kontrast zur Ursprungsvariante getestet werden. D.h. die Testvariante weist gegenüber dem Original solch deutliche Unterschiede auf, dass der Nutzer diese auch wahrnimmt (was nicht heißt, dass er weiß, dass er sich in einem A/B-Test befindet). Wer also nur eine Button-Farbe irgendwo am Ende der Seite testen will, wird dies auf einer Seite mit geringem Traffic auch in mehreren Monaten nicht statistisch belegbar hinbekommen. Wer hingegen mehrere Elemente gleichzeitig anpasst – also den Kontrast erhöht-, wird die Testlaufzeit deutlich reduzieren können. Der einzige Nachteil: Werden mehrere Elemente auf der Seite gleichzeitig geändert, kann am Ende nicht mehr eindeutig zugeordnet werden, welche Anpassung den größten Einfluss auf die Conversion(s) hatte.
2. Konzentration auf Mikro-Conversions
Spricht man mit Entscheidungsträgern, soll ein A/B-Test vor allem mehr Bestellungen, mehr Umsatz oder mehr Leads generieren. Auch dann, wenn zwischen der getesteten Seite und der tatsächlichen Conversion noch viele weitere Seiten stehen und somit jede weitere Seite die Möglichkeit für einen Abbruch erhöht. Werden pro Tag generell nur wenige Bestellungen/Leads generiert, lässt sich ein signifikanter Unterschied zwischen zwei Varianten meist nur über einen sehr langen Zeitraum hinweg feststellen (wenn er am Ende überhaupt feststellbar ist).
Anstatt also auf eine übergeordnete Metrik zu setzen, sollte man sich auf kleinere Schritt hin zur Conversion konzentrieren, also auf Mikro-Conversions, die im direkten Zusammenhang zur getesteten Seite stehen, wie etwa Bounces, Click-Through-Rates oder die Add To Carts auf Produktdetailseiten. Dadurch wird die Distanz zwischen der Änderung und dem gemessenen Ziel reduziert und der Einfluss des Testelements auf das Ziel deutlich erhöht. Zudem gewinnt man so weitere wertvolle Erkenntnisse zum Nutzerverhalten auf der Testseite.
3. Auf multivariate Tests verzichten
Wer sowieso schon wenig Traffic auf einer Seite hat, sollte auf multivariate Tests, also das Testen mit mehreren Varianten, verzichten und stattdessen lediglich eine Testvariante ins Rennen schicken. Andernfalls müsste sich der eh schon geringe Traffic auf mehrere Varianten verteilen, was somit die Testlaufzeit bis zum signifikanten Ergebnis erhöht. Wer weitere Testideen hat, sollte diese daher nacheinander testen.
4. Nischen-Tests vermeiden
Nischen-Tests, also Tests, die nur für einzelne Nutzergruppen interessant sind, sollten ebenfalls vermieden werden. Stattdessen sollten die Targeting-Bedingungen möglichst weit gefasst werden und eine breite Nutzerbasis ansprechen. Statt also auf einer einzigen Artikeldetailseite zu testen, sollten Testszenarios entwickelt werden, die seiten- oder templateweit durchgeführt werden können.
Dann noch zwei Tipps, die häufig gegeben werden, die aber nicht zu empfehlen sind:
5. Signifikanzniveau reduzieren
„Können wir nicht einfach das Signifikanzniveau reduzieren, um früher einen Sieger zu küren?“ Könnte man, allerdings verringert sich dann auch die Verlässlichkeit der Testergebnisse und die Chance einen falschen Sieger zu küren, steigt.
Die meisten Experten und A/B-Testingtools sprechen ab einer Wahrscheinlichkeit von 95% von einer statistischen Signifikanz, also davon, dass die Ergebnisse nicht nur zufällig entstanden sind. Das A/B-Testingtool Optimizely geht standardmäßig sogar nur von 90% aus und lässt zudem die Möglichkeit, das Signifikanzniveau anzupassen. Dadurch könnte man natürlich auf die Idee kommen, dieses Niveau für Tests auf Seiten mit geringem Traffic zu reduzieren. Auf diese Weise würde eine geringere Stichprobengröße benötigt werden, um ein statistisch signifikantes Ergebnis zu erreichen. Aber genau darin liegt, auch schon der Grund, warum man das genau nicht tun sollte. Ein Signifikanz-Niveau von bspw. 80% hört sich zwar erstmal nach viel an, allerdings bedeutet das im Umkehrschluss, dass es zu 20% nur zufällig entstanden sein kann.
6. Mehr Traffic im Testzeitraum einkaufen
„Wir können im Testzeitraum ja unsere Marketingaktivitäten erhöhen und mehr Traffic einkaufen.“ Ja könnte man und die Testlaufzeit würde sich dadurch vermutlich verringern, allerdings sind die Ergebnisse nicht valide.
Der Grund hierfür ist recht einfach: „Künstlich“ eingekaufter Traffic, bei denen User ggbfs. sogar mit Sonderaktionen auf die Webseite gelockt werden, kann sich anders verhalten als Traffic, von Besuchern, die üblicherweise meine Webseite besuchen. Eingekaufter Traffic kann daher das gesamte Testergebnis verfälschen und ist somit nicht zu empfehlen.