내가 항상 보는 12가지 A/B 테스트 실수
게시 됨: 2021-07-22A/B 테스트는 재미있습니다. 사용하기 쉬운 도구가 너무 많아 누구나 할 수 있고 해야 합니다. 그러나 테스트를 설정하는 것보다 더 중요한 것이 있습니다. 수많은 기업들이 시간과 돈을 낭비하고 있습니다.
여기 사람들이 반복해서 저지르는 12가지 A/B 테스트 실수가 있습니다.
- A/B 테스트를 일찍 호출합니다.
- 몇 주 동안 테스트를 실행하지 않습니다.
- 트래픽(또는 전환)이 충분하지 않은 A/B 테스트 수행
- 가설에 근거한 테스트가 아닙니다.
- 테스트 데이터를 Google 애널리틱스로 전송하지 않음
- 어리석은 테스트에 시간과 트래픽을 낭비합니다.
- 첫 번째 테스트가 실패한 후 포기합니다.
- 가양성을 이해하지 못함;
- 겹치는 트래픽에서 동시에 여러 테스트를 실행합니다.
- 작은 이익을 무시합니다.
- 항상 테스트를 실행하지 않습니다.
- 유효성 위협을 인식하지 못합니다.
이러한 오류를 범한 죄가 있습니까? 알아 보려면 계속 읽으십시오.
1. A/B 테스트를 조기에 호출
통계적 유의성은 샘플 크기가 충분히 큰 경우 버전 A가 실제로 버전 B보다 낫다는 가장 좋은 증거입니다. 50%의 통계적 유의성은 동전 던지기입니다. 50%에서 테스트를 호출하는 경우 직업을 변경해야 합니다. 그리고 75%의 통계적 신뢰도도 충분하지 않습니다.
노련한 테스터라면 누구나 80% 신뢰도의 "우승" 변형이 사이트에 실시간으로 푸시되고 더 많은 트래픽에 노출된 후 심하게 패배하는 경험을 많이 했습니다.
90%는 어떻습니까? 꽤 좋은데요? 아니. 충분하지. 과학 실험을 하고 있습니다. 예, 당신은 그것이 사실이기를 원합니다. 당신은 그 90%가 이기기를 원하지만, 진실을 얻는 것이 승자를 선언하는 것보다 더 중요합니다.
진실 > "승리"
옵티마이저로서 당신의 임무는 진실을 파악하는 것입니다. 자존심을 버려야 합니다. 당신의 가설이나 디자인 처리에 집착하는 것은 인간이며, 당신의 최고의 가설이 크게 다르지 않을 때 상처를 입을 수 있습니다. 거기에 있었어. 무엇보다 진실, 그렇지 않으면 모든 것이 의미를 잃습니다.
A/B 테스트 계획: 작동하는 프로세스를 구축하는 방법
강력한 A/B 테스트 계획을 통해 수익을 늘리고 고객에 대한 귀중한 통찰력을 얻을 수 있습니다.
테스트를 많이 하는 회사의 경우에도 일반적인 시나리오는 다음과 같습니다. 12개월 동안 하나의 테스트를 차례로 실행하고 다수의 승자를 선언하고 출시합니다. 1년 후, 사이트의 전환율은 시작했을 때와 동일합니다. 모든 빌어먹을 시간에 발생합니다.
왜? 테스트가 너무 일찍 호출되거나 샘플 크기가 너무 작기 때문입니다. 다음은 A/B 테스트를 중단해야 하는 시기에 대한 자세한 설명입니다. 하지만 간단히 말해서 테스트 완료를 선언하려면 세 가지 기준을 충족해야 합니다.
- 충분한 샘플 크기. 전화를 걸기에 충분한 데이터가 있습니다. A/B 테스트 샘플 크기 계산기로 샘플 크기를 미리 계산해야 합니다.
- 여러 판매 주기(2 – 4주). 며칠 이내에 검사를 중단하면(필요한 표본 크기에 도달한 후에도) 대표적인 표본이 아닌 편리한 표본을 취하는 것입니다.
- 95% 이상의 통계적 유의성(p-값 0.05 이하) . 참고: p-값은 B가 A보다 나을 확률을 알려주지 않습니다. 여기에서 p-값에 대해 자세히 알아보세요.
여기 내 요점을 설명하기 위한 오래된 예가 있습니다. 테스트를 시작한 지 이틀 만에 결과는 다음과 같습니다.
내가 만든 변형은 89% 이상으로 심하게 손실되었습니다(오차 범위에 중복 없음). 일부 도구는 이미 이를 호출하고 통계적 유의성이 100%라고 말합니다. 내가 사용한 소프트웨어는 변형 1이 대조군을 이길 확률이 0%라고 말했습니다. 내 고객은 종료라고 부를 준비가 되었습니다.
그러나 표본 크기가 너무 작았기 때문에(변이당 방문 수가 100회를 약간 넘음) 계속했습니다. 10일 후 결과는 다음과 같습니다.
맞습니다. 컨트롤을 이길 확률이 "0%"였던 변형이 이제 95%의 신뢰도로 승리했습니다.
"일찍 호출"하는 A/B 테스트 도구를 조심하십시오. 항상 숫자를 다시 확인하십시오. 당신이 할 수 있는 최악의 일은 부정확한 데이터를 신뢰하는 것입니다. 돈을 잃고 몇 달 동안 일을 낭비할 수 있습니다.
얼마나 큰 샘플 크기가 필요합니까?
작은 표본 크기를 기반으로 결론을 내리고 싶지 않습니다. 좋은 야구장은 변형당 최소 350~400회의 전환 을 목표로 하는 것입니다.
통제와 치료 사이의 불일치가 매우 큰 경우와 같은 특정 상황에서는 더 적을 수 있지만 마법의 숫자는 존재하지 않습니다. 숫자에 얽매이지 마십시오. 이것은 마술이 아니라 과학입니다.
이와 유사한 샘플 크기 계산기를 사용하여 필요한 샘플 크기를 미리 계산 해야 합니다 .
신뢰도가 여전히 95% 미만이면 어떻게 됩니까?
필요한 샘플 크기에 도달하고 전체 비즈니스 주기(또는 2개)에 대해 테스트하면 변형 간에 큰 차이가 없음을 의미합니다.
세그먼트 전체의 테스트 결과를 확인하여 특정 세그먼트에서 유의미한 결과를 얻었는지 확인하십시오. 훌륭한 통찰력은 세그먼트에 있지만 각 세그먼트에 대한 충분한 샘플 크기도 필요 합니다.
어쨌든 가설을 개선하고 새로운 테스트를 실행해야 합니다.
2. 몇 주 동안 테스트를 실행하지 않음
트래픽이 많은 사이트가 있다고 가정해 보겠습니다. 3일 만에 대안당 98%의 신뢰도와 350회의 전환을 달성했습니다. 테스트가 완료되었습니까? 아니.
계절성을 배제하고 몇 주 동안 테스트해야 합니다. 월요일에 시험 시작하셨나요? 그런 다음 월요일에도 종료해야 합니다. 왜? 전환율은 요일에 따라 크게 달라질 수 있기 때문입니다.
한 번에 일주일 내내 테스트하지 않으면 결과가 왜곡됩니다. 사이트에서 '요일별 전환수' 보고서를 실행하여 변동폭을 확인하세요.
다음은 예입니다.
여기에서 무엇을 볼 수 있습니까? 목요일은 토요일과 일요일보다 2배 더 많은 돈을 벌고 목요일의 전환율은 토요일보다 거의 2배 더 좋습니다.
몇 주 동안 테스트하지 않으면 결과가 정확하지 않을 것입니다. 한 번에 7일 동안 테스트를 실행해야 합니다. 처음 7일 이내에 신뢰를 얻지 못하면 7일 더 실행하십시오. 14일 이내에 달성되지 않으면 21일까지 실행하십시오.
물론 어쨌든 최소 2주 동안 테스트를 실행해야 합니다. (개인적으로 최소 4주는 정확하지 않은 경우가 많습니다.) 그런 다음 연장해야 하는 경우 7일 규칙을 적용합니다.
이 규칙을 어길 수 있는 유일한 경우는 과거 데이터에서 전환율이 매일 동일하다고 확신할 때입니다. 그러나 그때라도 한 번에 한 주씩 테스트하는 것이 좋습니다.
외부 요인에 주의
크리스마스인가요? 휴일 동안의 테스트에서 이기는 테스트가 1월의 우승자가 아닐 수도 있습니다. 크리스마스와 같은 쇼핑 시즌에 이기는 테스트가 있다면 쇼핑 시즌이 끝난 후 반복 테스트를 실행하고 싶을 것입니다.
TV 광고를 많이 하거나 다른 대규모 캠페인을 진행하고 있습니까? 결과도 왜곡될 수 있습니다. 당신은 당신의 회사가 무엇을하고 있는지 알고 있어야합니다. 외부 요인은 확실히 테스트 결과에 영향을 미칩니다. 의심스러운 경우 후속 테스트를 실행하십시오.
3. 트래픽(또는 전환)이 충분하지 않은 A/B 테스트 수행
한 달에 한두 건의 매출이 발생하고 B가 A보다 전환율이 15% 더 높은 테스트를 실행하면 어떻게 알 수 있습니까? 아무것도 변경되지 않습니다!
나는 다음 사람만큼 A/B 분할 테스트를 좋아하지만 트래픽이 매우 적은 경우 전환 최적화에 사용해야 하는 항목은 아닙니다. 그 이유는 버전 B가 훨씬 더 우수하더라도 통계적 유의성을 달성하는 데 몇 달이 걸릴 수 있기 때문입니다.
테스트를 실행하는 데 5개월이 걸렸지만 승자가 되지 않았다면 많은 돈을 낭비한 것입니다. 대신, 당신은 거대하고 급진적인 변화를 추구해야 합니다. B로 전환하기만 하면 됩니다. 테스트 없이 전환하고 은행 계좌를 살펴보세요.
여기서 아이디어는 50% 또는 100%와 같은 대규모 리프트를 하려는 것입니다. 은행 계좌(또는 수신 리드 수)에 이러한 영향이 있음을 즉시 알아차리셔야 합니다. 시간은 돈이다. 몇 달이 걸릴 테스트 결과를 기다리느라 시간을 낭비하지 마십시오.
4. 가설에 기반하지 않는 테스트
나는 스파게티를 좋아한다. 그러나 스파게티 테스트 - 그것이 붙어 있는지 확인하기 위해 벽에 던져? 별로. 무작위 아이디어를 테스트하려면 막대한 비용이 듭니다. 당신은 소중한 시간과 교통을 낭비하고 있습니다. 절대 그렇게 하지 마세요. 가설을 세워야 합니다. 가설이 무엇입니까?
가설 은 입증되거나 반증될 수 있는 제한된 증거에 기초하여 작성된 제안된 진술이며 추가 조사를 위한 출발점으로 사용됩니다.
이것은 "스파게티 가설"(즉, 임의의 진술을 만드는 것)도 되어서는 안 됩니다. 문제가 어디에 있는지 발견하고 이를 극복하기 위한 가설을 세우려면 적절한 전환 연구가 필요합니다.
명확한 가설 없이 A 대 B를 테스트하고 B가 15%로 이기는 것은 좋은 일 이지만 무엇을 배웠 습니까? 아무것도. 우리는 청중에 대해 배우고 싶습니다. 이는 고객 이론을 개선하고 더 나은 테스트를 수행하는 데 도움이 됩니다.
5. 테스트 데이터를 Google Analytics로 보내지 않음
평균은 거짓말을 합니다. 항상 기억하세요. A가 B를 10% 앞서는 경우 전체 그림이 아닙니다. 테스트 데이터를 분할해야 합니다. 많은 테스트 도구에는 결과 분류 기능이 내장되어 있지만 여전히 Google Analytics에서 수행할 수 있는 작업과 일치하지 않습니다.
맞춤 측정기준 또는 이벤트를 사용하면 테스트 데이터를 Google 애널리틱스로 보내고 원하는 방식으로 분류할 수 있습니다. 고급 세그먼트 및 맞춤 보고서를 실행할 수 있습니다. 그것은 매우 유용하며 A/B 테스트(손실 및 무차이 테스트 포함)에서 실제로 배우는 방법입니다.
결론: 항상 테스트 데이터를 Google Analytics로 보내십시오. 그리고 결과에서 쓰레기를 분류하십시오. 하는 방법에 대한 포스팅입니다.
6. 어리석은 테스트에 시간과 트래픽 낭비
그래서 당신은 색상을 테스트하는거야, 응? 중지.
최고의 색상은 없습니다. 항상 시각적 계층 구조에 관한 것입니다. 물론, 누군가가 색상 테스트를 통해 이득을 얻은 온라인 테스트를 찾을 수 있지만 모두 간단합니다. 간단한 테스트에 시간을 낭비하지 마십시오. 구현하면 됩니다.
모든 것을 테스트하기에 충분한 트래픽이 없습니다 . 아무도하지 않습니다. 영향력이 큰 항목에 트래픽을 사용하십시오. 데이터 기반 가설을 테스트합니다.
7. 첫 번째 테스트 실패 후 포기
테스트를 설정했지만 리프트를 생성하지 못했습니다. 오 글쎄. 다른 페이지에서 테스트를 실행해 볼까요?
그렇게 빠르지 않아! 대부분의 첫 번째 테스트는 실패합니다. 사실이야 당신이 참을성이 없다는 것을 압니다. 저도 마찬가지입니다. 그러나 진실은 반복적인 테스트가 있는 곳이라는 것입니다. 테스트를 실행하고 테스트를 통해 배우고 고객 이론과 가설을 개선합니다. 후속 테스트를 실행하고, 이를 통해 배우고, 가설을 개선하십시오. 후속 테스트 등을 실행합니다.
다음은 우리가 만족하는 리프트를 달성하기 위해 6가지 테스트(같은 페이지에서)를 거친 사례 연구입니다. 실제 테스트가 그렇죠. 테스트 예산을 승인하는 사람들(상사, 고객)은 이것을 알아야 합니다.
첫 번째 테스트가 야구장에서 탈락할 것이라는 기대가 있다면 돈은 낭비되고 사람들은 해고될 것입니다. 그렇게 될 필요는 없습니다. 대신 모두에게 많은 돈이 될 수 있습니다. 반복 테스트를 실행하면 됩니다. 돈이 있는 곳입니다.
8. 가양성을 이해하지 못함
통계적 유의성은 주목해야 할 유일한 것이 아닙니다. 거짓 긍정도 이해해야 합니다. 참을성이 없는 테스터는 A/B 테스트를 건너뛰고 A/B/C/D/E/F/G/H 테스트로 넘어가기를 원합니다. 예, 지금 우리는 이야기하고 있습니다!
왜 거기서 멈춰? Google은 41개의 파란색 음영을 테스트했습니다! 그러나 그것은 좋은 생각이 아닙니다. 테스트하는 변형이 많을수록 오탐 가능성이 높아집니다. 41개의 파란색 음영의 경우 95% 신뢰 수준에서도 위양성 확률은 88%입니다.
이 동영상을 시청하세요. 다음 세 가지를 배우게 됩니다.
주요 내용: 한 번에 너무 많은 변형을 테스트하지 마십시오. 어쨌든 간단한 A/B 테스트를 하는 것이 좋습니다. 더 빨리 결과를 얻고 더 빨리 배우게 되어 가설을 더 빨리 개선할 수 있습니다.
9. 겹치는 트래픽에서 동시에 여러 테스트 실행
제품 페이지, 장바구니 페이지, 홈페이지(동일한 목표를 측정하는 동안)에서 동시에 여러 테스트를 실행하여 모서리를 줄이는 방법을 찾았습니다. 시간이 절약되겠죠?
주의하지 않으면 결과가 왜곡될 수 있습니다. 다음과 같은 경우가 아니면 괜찮을 것입니다.
- 테스트 간의 강력한 상호 작용이 의심됩니다.
- 테스트 간에 트래픽이 많이 겹칩니다.
상호 작용과 트래픽 중첩이 있을 가능성이 있는 경우 상황이 더 까다로워집니다.
동일한 흐름에서 여러 레이아웃의 새 버전을 한 번에 테스트하려는 경우(예: 체크아웃의 세 단계 모두에서 테스트 실행) 상호작용 및 속성 결과를 적절하게 측정하기 위해 다중 페이지 실험 또는 다변수 테스트를 사용하는 것이 더 나을 수 있습니다. .
트래픽이 겹치는 A/B 테스트를 실행하기로 결정했다면 트래픽은 항상 균등하게 분할되어야 합니다. 제품 페이지 A 대 B 및 체크아웃 페이지 C 대 D를 테스트하는 경우 B의 트래픽이 C와 D 간에 50/50으로 분할되는지 확인하십시오(예: 25/75가 아님).
10. 작은 이익 무시
귀하의 치료가 대조군을 4% 앞섰습니다. “Bhh, 이익이 너무 적습니다! 나는 그것을 구현하는 것을 귀찮게하지 않을 것입니다.”라고 사람들이 말하는 것을 들었습니다.
여기 문제가 있습니다. 귀하의 사이트가 꽤 좋은 경우, 항상 엄청난 상승을 얻지는 못할 것입니다. 사실, 거대한 리프트는 매우 드뭅니다. 사이트가 쓰레기라면 항상 50% 상승을 가져오는 테스트를 실행하기 쉽습니다. 하지만 그마저도 소진될 것입니다.
대부분의 승리 테스트는 1%, 5%, 8%의 작은 이득을 줄 것입니다. 때로는 1% 상승이 수백만 달러의 수익을 의미할 수 있습니다. 그것은 모두 우리가 다루는 절대 숫자에 달려 있습니다. 그러나 요점은 이것입니다. 12개월의 관점에서 바라봐야 합니다.
하나의 테스트는 하나의 테스트일 뿐입니다. 많은 테스트를 하게 됩니다. 매월 전환율을 5% 증가시키면 12개월 동안 80% 증가합니다. 복리 이자입니다. 그것이 바로 수학이 작동하는 방식입니다. 80퍼센트는 많습니다.
그러니 계속해서 작은 승리를 거두세요. 그것은 결국 모두 더할 것입니다.
11. 항상 테스트를 실행하지 않음
시험이 없는 매일은 낭비된 하루입니다. 테스트는 학습입니다. 청중에 대해 배우고, 효과가 있는 것과 그 이유를 배우는 것입니다. 얻은 모든 통찰력은 마케팅(예: PPC 광고) 전반에 걸쳐 사용될 수 있습니다.
테스트하기 전에는 무엇이 작동하는지 모릅니다. 테스트에는 시간과 트래픽이 필요합니다(많음). 항상 하나의 테스트를 실행하고 실행한다고 해서 가비지 테스트를 수행해야 하는 것은 아닙니다. 절대적으로하지. 여전히 적절한 조사, 좋은 가설 등이 필요합니다.
그러나 최적화를 멈추지 마십시오.
12. 유효성 위협을 인식하지 못함
적절한 표본 크기, 신뢰 수준 및 테스트 기간이 있다고 해서 테스트 결과가 유효했다는 의미는 아닙니다. 시험의 유효성에 대한 몇 가지 위협이 있습니다.
계측 효과
이것은 가장 일반적인 문제입니다. 테스트 도구(또는 도구)가 테스트에서 결함 있는 데이터를 발생시키는 경우입니다. 종종 사이트의 잘못된 코드 구현으로 인해 모든 결과가 왜곡됩니다.
이건 정말 조심하셔야 합니다. 테스트를 설정할 때 기록되는 모든 단일 목표와 메트릭을 관찰하십시오. 측정항목이 데이터를 전송하지 않는 경우(예: "장바구니에 추가" 클릭 데이터) 테스트를 중지하고 문제를 찾아 수정한 다음 데이터를 재설정하여 다시 시작하십시오.
히스토리 효과
테스트에서 결함이 있는 데이터를 유발하는 외부 세계에서 어떤 일이 발생합니다. 이것은 당신의 사업이나 그 경영진에 대한 스캔들일 수 있습니다. 특별한 휴가철(크리스마스, 어버이날 등)이 될 수 있습니다. 아마도 미디어 기사가 테스트의 변형에 대해 사람들을 편향시킬 수 있습니다. 도대체 무엇이. 세상에서 일어나는 일에 주의를 기울이십시오.
선택 효과
이것은 트래픽의 일부가 전체 트래픽을 나타낸다고 잘못 가정할 때 발생합니다.
예를 들어 이메일 목록에서 테스트를 실행 중인 페이지로 프로모션 트래픽을 보냅니다. 귀하의 목록을 구독하는 사람들은 귀하의 일반 방문자보다 훨씬 더 귀하를 좋아합니다. 그러나 이제 충성도가 높은 트래픽이 전체 트래픽을 대표한다고 생각하여 페이지를 최적화하여 충성도가 높은 트래픽을 처리합니다. 그런 경우는 거의 없습니다!
깨진 코드 효과
치료를 만들고 라이브로 푸시합니다. 그러나 이기지 못하거나 차이가 없습니다. 당신이 모르는 것은 당신의 치료가 일부 브라우저 및/또는 장치에서 제대로 표시되지 않는다는 것입니다.
새로운 치료법을 한두 개 만들 때마다 품질 보증 테스트를 수행하여 모든 브라우저와 장치에서 제대로 표시되는지 확인하십시오. 그렇지 않으면 결함이 있는 데이터를 기반으로 변형을 판단하게 됩니다.
결론
테스팅을 쉽게 만들어주는 훌륭한 도구들이 많이 있지만, 그것들은 당신을 위해 생각하지 않습니다. 통계는 대학에서 가장 좋아하는 과목이 아니었을지 모르지만 이제 이를 닦을 때입니다.
이 12가지 실수에서 배우십시오. 당신이 그들을 피할 수 있다면, 당신은 테스트와 함께 진정한 진전을 시작하게 될 것입니다.
추천 이미지 크레딧