Waarom een Bayesiaanse A/B-test evaluatie meer oplevert

De traditionele – en meest gebruikte – methode om A/B-testen te analyseren is met de zogenaamde frequentistische t-toets.  Dit is een wetenschappelijk valide methode, maar deze methode heeft twee groot nadelen: de uitkomst van een A/B-test is lastig te begrijpen zonder gedegen statistische kennis en door te adviseren om enkel significante testresultaten te implementeren laat je een hoop geld liggen! Een Bayesiaanse testevaluatie biedt uitkomst in beide gevallen.

Wat zegt een frequentistische testuitslag?

Bij een frequentistische A/B-test evaluatie vergelijk je de gemiddelden van twee onafhankelijke groepen om te zien of deze significant van elkaar verschillen. Het uitgangspunt bij dit type toets is dat er geen verschil is tussen de conversiepercentages van groep A en B (de nulhypothese). Deze hypothese probeer je te verwerpen. Je wilt namelijk aantonen dat B beter werkt dan A. Met een vooraf vastgesteld significantieniveau (vaak 90 of 95%) wordt bepaald hoe onwaarschijnlijk het gevonden verschil in de test is tussen variant A en variant B. Dit beoordeel je op basis van de zogenaamde p-waarde.

Voorbeeld frequentistische testuitslag

Stel dat Bedrijf X een A/B-test heeft uitgevoerd. Elke variant heeft 25.000 bezoekers gehad en de B variant kende een gemeten conversiestijging van +4,17%. De p-waarde van deze test is dan 0,150.

frequentistische testuitslag

Bovenstaande grafiek laat zien wat het gemeten verschil is in conversiepercentage tussen B en A en wat voor beide variaties het 90% betrouwbaarheidsinterval is. Dit wordt aangeduid met de stippellijntjes. Als het bolletje van variant B buiten het betrouwbaarheidsinterval ligt van A dan is er een significant verschil. Op basis van een significantieniveau van 90% is de uitslag dat de B variant niet significant verschilt van de A variant (immers 0,150 is groter dan de kritieke grens van 0,1).

Advies bij deze frequentistische testuitslag

De variant neigt wel naar de positieve kant, maar het verschil is niet groot genoeg om statistisch significant aan te kunnen tonen. Het advies op basis van deze uitslag is om de variant niet te implementeren. Er is onvoldoende bewijs gevonden dat het testidee significant bijdraagt aan omzetstijging. Het A/B-test team zal daarom een nieuwe testrichting inslaan.

Wat zegt een Bayesiaanse testuitslag?

Binnen de Bayesiaanse statistiek ligt e.e.a. meer genuanceerd. Op basis van een testuitslag wordt bepaald hoe groot de kans is dat de variant beter presteert dan de huidige situatie. Een testuitslag heeft daardoor geen binaire uitslag (winnaar of geen winnaar), maar een kans van 0% tot 100%. Dit is een stuk makkelijker te communiceren dan ‘hoe onwaarschijnlijk het gevonden verschil is als je ervan uitgaat dat er geen verschil is’ (de conclusie op basis van de frequentistische t-toets).

Voorbeeld Bayesiaanse testuitslag

Als we naar dezelfde voorbeeld case kijken en er een Bayesiaanse testevaluatie op los laten dan zien we het volgende: de kans dat variant B beter presteert dan het origineel is 85,1%. Als gekeken wordt naar de grafiek ‘difference in conversion rate between B and A’, dan is af te lezen dat het verschil in conversie in 85,1% van de gevallen groter is dan 0%, met de grootste kansen tussen +1% en +6%.

Bayesiaanse testuitslag

Advies bij deze Bayesiaanse testuitslag

De vraag of de variant geïmplementeerd moet worden bij een kans van 85,1% leidt tot een weloverwogen risico inschatting. Weegt een risico van 14,9% op tegen een kans op omzetstijging van 85,1%? Er kan beargumenteerd worden dat elke testuitslag met een kans groter dan 50% geïmplementeerd zou moeten worden, omdat de kans groter is dat B beter is dan A. Echter, de kosten voor testen (kosten voor testprogramma en implementatie van testen)  worden dan niet meegenomen in de beslissing.

Als de gemiddelde orderwaarde bekend is en de minimaal gewenste opbrengst van een test (voor een goede ROI), kan ook de kans worden berekend dat de B variant dit daadwerkelijk zal opbrengen na implementatie. In dit voorbeeld is de gemiddelde orderwaarde €75,- en de minimale opbrengst van €25.000 euro. Dit bedrag moet binnen 6 maanden worden terugverdiend na implementatie.

Bayesiaanse testuitslag 2

De kans hierop is in dit voorbeeld 77,9% (dit komt neer op een verschil in conversie van minimaal 1,08%). Deze cijfers bieden meer houvast bij het nemen van een beslissing voor het al dan niet doorvoeren van de variant. In dit geval zal de beslissing waarschijnlijk positief uitvallen om de variant te implementeren. Het testidee is weliswaar niet significant bewezen, maar deze uitslag wijst er wel op dat de testrichting de juiste was. In vervolgtesten kan verder worden geborduurd op dit idee.

Conclusie: stap over!

Door over te stappen naar een Bayesiaanse test evaluatie kunnen A/B-test conclusies en acties zonder statistisch jargon worden overgebracht. Een Bayesiaanse testevaluatie geeft een simpeler antwoord op de vraag of variant B beter is dan de huidige situatie, namelijk met een kans van 0 tot 100%. Dit is voor iedereen begrijpelijk.

Daarnaast implementeer je met een Bayesiaanse testevaluatie niet alleen de overduidelijke winnaars (waar je ook echt iets van leert), maar ook varianten die indicatief de omzet verhogen (maar waar je geen harde gedragsinzichten uit haalt). Bij elke testuitslag doe je de afweging of de verwachte kans op extra omzet opweegt tegen het risico dat je loopt. Gevolg hiervan is dat er meer varianten zullen worden doorgevoerd, wat uiteindelijk zal zorgen voor een hogere omzetgroei.

Wij analyseren en visualiseren al onze A/B-testen bij onze klanten ondertussen via een Bayesiaande testevaluatie. Deze overgang beschreven we in dit Engelstalige document (PDF), die je hier gratis kunt downloaden.

Sluit Menu