12 Greșeli de testare A / B Văd tot timpul

Publicat: 2021-07-22

Testarea A / B este distractivă. Cu atât de multe instrumente ușor de utilizat, oricine poate - și ar trebui - să o facă. Cu toate acestea, există mai multe lucruri decât simpla configurare a unui test. Tone de companii își pierd timpul și banii.

Iată cele 12 greșeli de testare A / B pe care le văd oamenii făcând iar și iar.

  1. Apelarea testelor A / B devreme;
  2. Nu se efectuează teste săptămâni întregi;
  3. Efectuarea testelor A / B fără suficient trafic (sau conversii);
  4. Nu se bazează testele pe o ipoteză;
  5. Nu trimiteți date de testare la Google Analytics;
  6. Pierderea timpului și traficului la teste stupide;
  7. Renunțarea după primul test eșuează;
  8. Nu înțelege falsurile pozitive;
  9. Rularea mai multor teste în același timp pentru traficul suprapus;
  10. Ignorând câștigurile mici;
  11. Nu rulați testele tot timpul;
  12. Nefiind conștienți de amenințările de validitate.

Ești vinovat că ai făcut aceste erori? Citiți mai departe pentru a afla.

1. Apelarea testelor A / B devreme

Semnificația statistică este cea mai bună dovadă că versiunea A este de fapt mai bună decât versiunea B - dacă dimensiunea eșantionului este suficient de mare. 50% din semnificația statistică este o aruncare de monede. Dacă chemați teste la 50%, ar trebui să vă schimbați profesia. Și nu, nici 75% încrederea statistică nu este suficientă.

Orice tester experimentat a avut o mulțime de experiențe în care o variație „câștigătoare” la o încredere de 80% ajunge să piardă prost după ce a fost împins în direct pe un site și expus la mai mult trafic.

Ce zici de 90%? E destul de bine, nu? Nu. Nu indeajuns de bun. Efectuați un experiment științific. Da, vrei să fie adevărat. Vrei ca 90% să câștige, dar obținerea adevărului este mai importantă decât declararea unui câștigător.

Adevăr> „câștigător”

În calitate de optimizator, treaba ta este să descoperi adevărul. Trebuie să-ți lași ego-ul deoparte. Este uman să te atașezi de ipoteza sau de tratamentul de proiectare și te poate răni atunci când cele mai bune ipoteze nu reușesc să fie semnificativ diferite. Am fost acolo, am făcut asta. Adevărul mai presus de toate, sau totul își pierde sensul.

Planificarea testului A / B: Cum se construiește un proces care funcționează

De Jaan Matti-Saul

Un plan puternic de testare A / B vă va permite să vă creșteți veniturile și să aflați informații valoroase despre clienții dvs.

  • Acest câmp este destinat validării și ar trebui lăsat neschimbat.

Iată un scenariu comun, chiar și pentru companiile care testează foarte mult: efectuează un test după altul timp de 12 luni, declară o grămadă de câștigători și le lansează. Un an mai târziu, rata de conversie a site-ului lor este aceeași ca atunci când au început. Se întâmplă tot timpul.

De ce? Deoarece testele sunt numite prea devreme și / sau dimensiunile eșantionului sunt prea mici. Iată o explicație mai lungă pentru când să opriți un test A / B, dar pe scurt trebuie să îndepliniți trei criterii înainte de a putea declara efectuat un test:

  1. Dimensiune suficientă a eșantionului. Avem suficiente date pentru a efectua un apel. Trebuie să calculați în prealabil dimensiunea eșantionului cu un calculator de mărime a eșantionului de test A / B.
  2. Cicluri multiple de vânzare (2 - 4 săptămâni). Dacă opriți testul în câteva zile (chiar și după ce ați atins dimensiunea necesară a eșantionului), luați un eșantion convenabil , nu un eșantion reprezentativ .
  3. Semnificație statistică de cel puțin 95% (valoarea p de 0,05 sau mai puțin) . Notă: Valoarea p nu ne indică probabilitatea ca B să fie mai bună decât A. Aflați aici totul despre valorile p.

Iată un exemplu vechi pentru a ilustra punctul meu de vedere. La două zile după începerea unui test, acestea au fost rezultatele:

variația are o performanță slabă cu o dimensiune foarte mică a eșantionului.

Variația pe care am construit-o pierdea grav - cu peste 89% (fără suprapunere în marja de eroare). Unele instrumente l-ar numi deja și ar spune că semnificația statistică este de 100%. Software-ul pe care l-am folosit a spus că Variația 1 are 0% șanse să bată controlul. Clientul meu a fost gata să renunțe.

Cu toate acestea, deoarece dimensiunea eșantionului era prea mică (puțin peste 100 de vizite pe variantă), am persistat. Iată ce arată rezultatele 10 zile mai târziu:

variația testului devine câștigătoare după ce a lovit dimensiunea eșantionului

Așa este, variația care avea o șansă de „0%” de a bate controlul câștiga acum cu încredere de 95%.

Aveți grijă la instrumentele de testare A / B care „îl numesc devreme”. Verificați întotdeauna numerele. Cel mai rău lucru pe care îl puteți face este să aveți încredere în datele inexacte. Veți pierde bani și puteți pierde luni de muncă.

Cât de mare este dimensiunea eșantionului de care aveți nevoie?

Nu doriți să faceți concluzii pe baza unei dimensiuni mici a eșantionului. Un stadion bun este să urmărești cel puțin 350-400 de conversii pe variație .

Poate fi mai puțin în anumite circumstanțe - cum ar fi atunci când discrepanța dintre control și tratament este foarte mare - dar nu există numere magice. Nu te bloca cu un număr. Aceasta este știință, nu magie.

Trebuie calculați din timp dimensiunea necesară a eșantionului utilizând calculatoare de dimensiune a eșantionului ca acesta sau altele similare.

Ce se întâmplă dacă încrederea este încă sub 95%?

După ce ați atins dimensiunea eșantionului necesar și ați testat pentru un ciclu complet de afaceri (sau două), înseamnă că nu există nicio diferență semnificativă între variații.

Verificați rezultatele testelor pe segmente pentru a vedea dacă s-a obținut semnificația unui anumit segment. Perspectivele minunate se află în segmente, dar aveți nevoie și de o dimensiune suficientă a eșantionului pentru fiecare segment.

În orice caz, va trebui să vă îmbunătățiți ipoteza și să efectuați un nou test.

2. Nu se efectuează teste săptămâni întregi

Să presupunem că aveți un site cu trafic mare. Obțineți încredere de 98% și 350 de conversii pe variație în trei zile. Se face testul? Nu.

Trebuie să excludem sezonul și să testăm săptămâni întregi. Ai început testul luni? Apoi, trebuie să o încheiați și într-o zi de luni. De ce? Deoarece rata de conversie poate varia foarte mult în funcție de ziua săptămânii.

Dacă nu testați o săptămână întreagă la un moment dat, vă înclinați rezultatele. Rulați un raport „conversii pe zi din săptămână” pe site-ul dvs. pentru a vedea câtă fluctuație există.

Iată un exemplu:

exemplu de rate de conversie în funcție de ziua săptămânii.

Ce vezi aici? Joi câștigă de 2 ori mai mulți bani decât sâmbăta și duminica, iar rata de conversie de joi este de aproape 2 ori mai bună decât sâmbăta.

Dacă nu am testa timp de săptămâni întregi, rezultatele ar fi inexacte. Trebuie să rulați teste timp de șapte zile la rând. Dacă încrederea nu este atinsă în primele șapte zile, rulați-o încă șapte zile. Dacă nu se realizează cu 14 zile, rulați-l până în ziua 21.

Desigur, oricum trebuie să rulați testele pentru cel puțin două săptămâni. (Minimul meu personal este de patru săptămâni, deoarece două săptămâni sunt deseori inexacte.) Apoi, aplicați regula de șapte zile dacă trebuie să o prelungiți.

Singura dată când puteți încălca această regulă este când datele istorice spun - cu încredere - că rata de conversie este aceeași în fiecare zi. Dar, chiar și atunci, este mai bine să testați o săptămână întreagă la rând.

Acordați atenție factorilor externi

Este Crăciunul? Testul dvs. câștigător în timpul sărbătorilor ar putea să nu fie câștigător în ianuarie. Dacă aveți teste care câștigă în timpul sezoanelor de cumpărături precum Crăciunul, cu siguranță doriți să rulați teste repetate după încheierea sezonului de cumpărături.

Faceți o mulțime de publicitate TV sau derulați alte campanii masive? Și asta vă poate distorsiona rezultatele. Trebuie să fii conștient de ceea ce face compania ta. Factorii externi afectează cu siguranță rezultatele testelor. Când aveți dubii, efectuați un test de urmărire.

3. Efectuarea testelor A / B fără trafic suficient (sau conversii)

Dacă obțineți una sau două vânzări pe lună și efectuați un test în care B convertește cu 15% mai bine decât A, cum ați ști? Nimic nu se schimba!

Îmi place la fel ca următorul tip de testare A / B split, dar nu este ceva pe care ar trebui să-l folosiți pentru optimizarea conversiei dacă aveți foarte puțin trafic. Motivul este că, chiar dacă versiunea B este mult mai bună, ar putea dura câteva luni pentru a obține semnificație statistică.

Dacă testul a durat 5 luni pentru a rula - și nu a fost un câștigător - ați irosit mulți bani. În schimb, ar trebui să alegeți schimbări masive, radicale. Treceți doar la B. Fără testare, comutați - și urmăriți contul dvs. bancar.

Ideea de aici este că te orientezi către ascensoare masive, cum ar fi 50% sau 100%. Ar trebui să observați imediat acest tip de impact asupra contului dvs. bancar (sau a numărului de clienți potențiali). Timpul inseamna bani. Nu-l pierdeți așteptând un rezultat al testului care va dura luni de zile.

4. Nu se bazează testele pe o ipoteză

Îmi plac spaghetele. Dar testarea spaghetelor - aruncarea pe perete pentru a vedea dacă se lipeste? Nu atat de mult. Testarea ideilor aleatorii are o cheltuială imensă. Pierzi timp și trafic prețios. Nu face asta niciodată. Trebuie să aveți o ipoteză. Ce este o ipoteză?

O ipoteză este o declarație propusă făcută pe baza unor dovezi limitate care pot fi dovedite sau respinse și este utilizată ca punct de plecare pentru investigații ulterioare.

Nici aceasta nu ar trebui să fie o „ipoteză a spaghetelor” (adică elaborarea unei declarații aleatorii). Aveți nevoie de o cercetare adecvată a conversiei pentru a descoperi unde se află problemele, apoi veniți cu o ipoteză pentru a le depăși.

Dacă testați A vs. B fără o ipoteză clară, iar B câștigă cu 15%, este frumos, dar ce ați învățat ? Nimic. Vrem să aflăm despre publicul nostru. Acest lucru ne ajută să ne îmbunătățim teoria clienților și să venim cu teste și mai bune.

5. Nu trimiteți date de testare la Google Analytics

Mediile mint. Amintiți-vă întotdeauna asta. Dacă A bate B cu 10%, aceasta nu este imaginea completă. Trebuie să segmentați datele de testare. Multe instrumente de testare au segmentarea încorporată a rezultatelor, dar încă nu se potrivește cu ceea ce puteți face în Google Analytics.

Cu Dimensiuni personalizate sau Evenimente, puteți trimite datele de testare la Google Analytics și le puteți segmenta după cum doriți. Puteți rula segmente avansate și rapoarte personalizate pe acesta. Este foarte util și este modul în care înveți de fapt din testele A / B (inclusiv testele de pierdere și fără diferențe).

Concluzie: trimiteți întotdeauna datele de testare la Google Analytics. Și segmentează prostia din rezultate. Iată o postare despre cum să o faci.

6. Pierderea timpului și traficului la teste stupide

Deci testezi culorile, nu? Stop.

Nu există cea mai bună culoare. Este întotdeauna vorba de ierarhie vizuală. Sigur, puteți găsi teste online în care cineva a găsit câștiguri prin testarea culorilor, dar toate sunt nebănuite. Nu pierdeți vremea testând nebunii; doar pune în aplicare.

Nu aveți suficient trafic pentru a testa totul. Nimeni nu face. Folosiți-vă traficul pentru lucruri cu impact ridicat. Testați ipoteze bazate pe date.

7. Renunțarea după ce primul test eșuează

Ați configurat un test și nu a reușit să producă un lift. Bine. Să încercăm să rulăm teste pe altă pagină?

Nu asa de repede! Majoritatea primelor teste eșuează. E adevarat. Știu că ești nerăbdător, la fel și eu, dar adevărul este că testarea iterativă este acolo. Rulați un test, învățați de la acesta și vă îmbunătățiți teoria și ipotezele clienților. Rulați un test de urmărire, învățați de la acesta și îmbunătățiți-vă ipotezele. Rulați un test de urmărire și așa mai departe.

Iată un studiu de caz în care a fost nevoie de șase teste (pe aceeași pagină) pentru a obține un ascensor cu care am fost mulțumiți. Așa este testarea în viața reală. Oamenii care aprobă testarea bugetelor - șefii dvs., clienții dvs. - trebuie să știe acest lucru.

Dacă se așteaptă ca primul test să-l scoată din stadion, banii vor fi risipiți și oamenii vor fi concediați. Nu trebuie să fie așa. În schimb, pot fi mulți bani pentru toată lumea. Doar rulați teste iterative. Acolo sunt banii.

8. Nu înțelege falsurile pozitive

Semnificația statistică nu este singurul lucru la care trebuie să fim atenți. Trebuie să înțelegeți și falsurile pozitive. Testerii nerăbdători doresc să omită testarea A / B și să treacă la testarea A / B / C / D / E / F / G / H. Da, acum vorbim!

De ce să ne oprim aici? Google a testat 41 de nuanțe de albastru! Dar asta nu este o idee bună. Cu cât testați mai multe variante, cu atât sunt mai mari șansele unui fals pozitiv. În cazul a 41 de nuanțe de albastru, chiar și la un nivel de încredere de 95%, șansa unui fals pozitiv este de 88%.

Urmăriți acest videoclip. Veți învăța un lucru sau trei:

Principala plată: Nu testați prea multe variante simultan. Este mai bine să faceți teste simple A / B oricum. Veți obține rezultate mai repede și veți învăța mai repede - îmbunătățindu-vă ipoteza mai devreme.

9. Rularea mai multor teste în același timp pe traficul suprapus

Ați găsit o modalitate de a tăia colțurile efectuând mai multe teste în același timp: unul pe pagina produsului, unul pe pagina coșului de cumpărături, unul pe pagina de pornire (în timp ce măsurați același obiectiv). Economisește timp, nu?

Acest lucru poate distorsiona rezultatele dacă nu sunteți atent. Probabil că este bine dacă:

  • Bănuiți interacțiuni puternice între teste.
  • Există o suprapunere mare de trafic între teste.

Lucrurile devin mai complicate dacă interacțiunile și traficul se suprapun sunt probabil acolo.

Dacă doriți să testați o nouă versiune a mai multor aspecte în același flux simultan - de exemplu, să efectuați teste pe toți cei trei pași ai plății - este mai bine să folosiți experimente pe mai multe pagini sau teste multivariate pentru a măsura interacțiunile și a atribui rezultatele în mod corespunzător .

Dacă decideți să rulați teste A / B cu trafic suprapus, rețineți că traficul ar trebui să fie întotdeauna împărțit uniform. Dacă testați pagina produsului A vs. B și verificați pagina C. vs. D, asigurați-vă că traficul din B este împărțit 50/50 între C și D (nu, să zicem, 25/75).

10. Ignorând câștigurile mici

Tratamentul dumneavoastră a depășit controlul cu 4%. „Bhh, asta este un câștig prea mic! Nici măcar nu mă voi chinui să-l implementez ”, am auzit spunând oameni.

Iată chestia. Dacă site-ul dvs. este destul de bun, nu veți obține ascensoare masive tot timpul. De fapt, ascensoare masive sunt foarte rare. Dacă site-ul dvs. este prost, este ușor să rulați teste care obțin o creștere de 50% tot timpul. Dar chiar și asta se va epuiza.

Majoritatea testelor câștigătoare vor da câștiguri mici - 1%, 5%, 8%. Uneori, o creștere de 1% poate însemna venituri de milioane. Totul depinde de cifrele absolute cu care avem de-a face. Dar punctul principal este acesta: trebuie să-l priviți dintr-o perspectivă de 12 luni.

Un test este doar un test. O să faci multe, multe teste. Dacă creșteți rata de conversie cu 5% în fiecare lună, va fi o creștere de 80% în decurs de 12 luni. Asta crește dobânda. Așa funcționează matematica. Optzeci la sută este mult.

Deci, continuă să obții acele victorii mici. Totul se va adăuga la final.

11. Nu rulați testele tot timpul

Fiecare zi fără test este o zi irosită. Testarea înseamnă învățare - învățarea despre publicul tău, învățarea a ceea ce funcționează și de ce. Toate informațiile pe care le obțineți pot fi utilizate în marketing (de exemplu, anunțuri PPC).

Nu știi ce funcționează până nu îl testezi. Testele au nevoie de timp și trafic (mult din ele). A avea un test în funcțiune în orice moment nu înseamnă că ar trebui să efectuați teste de gunoi. Absolut nu. Încă aveți nevoie de cercetări adecvate, de o ipoteză bună și așa mai departe.

Dar nu încetați niciodată să optimizați.

12. A nu fi conștient de amenințările de validitate

Doar pentru că aveți o dimensiune decentă a eșantionului, un nivel de încredere și durata testului nu înseamnă că rezultatele testului dvs. au fost valide. Există mai multe amenințări la adresa validității testului.

Efect de instrumentare

Aceasta este cea mai frecventă problemă. Atunci când instrumentele (sau instrumentele) de testare cauzează date defecte în test. De multe ori se datorează implementării greșite a codului pe site, care va distorsiona toate rezultatele

Trebuie să te uiți la asta. Când configurați un test, respectați fiecare obiectiv și valoare înregistrată. Dacă o valoare nu trimite date (de exemplu, date de clic „adăugare în coș”), opriți testul, găsiți și remediați problema și începeți din nou prin resetarea datelor.

Efect de istorie

Ceva se întâmplă în lumea exterioară care cauzează date eronate în test. Acesta ar putea fi un scandal în legătură cu afacerea dvs. sau cu unul dintre directorii săi. Ar putea fi un sezon special de sărbători (Crăciun, Ziua Mamei etc.). Poate că o poveste media îi influențează pe oameni împotriva unei variații a testului. Tot ceea ce. Fii atent la ceea ce se întâmplă în lume.

Efect de selecție

Acest lucru se întâmplă atunci când presupunem în mod greșit că o parte din trafic reprezintă totalitatea traficului.

De exemplu, trimiteți trafic promoțional din lista dvs. de e-mail către o pagină pe care efectuați un test. Persoanele care se abonează la lista dvs. vă plac mult mai mult decât vizitatorul dvs. mediu. Dar acum optimizați pagina pentru a lucra cu traficul dvs. loial, crezând că reprezintă traficul total. Rareori este cazul!

Efect de cod defect

Creați un tratament și îl împingeți în direct. Cu toate acestea, nu câștigă sau nu are nicio diferență. Ce nu știți este că tratamentul dvs. a fost afișat slab pe unele browsere și / sau dispozitive.

Ori de câte ori creați un tratament nou sau două, asigurați-vă că efectuați teste de asigurare a calității pentru a vă asigura că acestea se afișează corect în toate browserele și dispozitivele. În caz contrar, vă judecați variația pe baza datelor defecte.

Concluzie

Există atât de multe instrumente grozave disponibile care facilitează testarea, dar nu se gândesc pentru tine. Este posibil ca statisticile să nu fi fost subiectul tău preferat la facultate, dar a venit timpul să te descurci.

Aflați din aceste 12 greșeli. Dacă le puteți evita, veți începe să faceți progrese reale cu testarea.

Credit de imagine recomandat