私がいつも目にする12のA / Bテストの間違い
公開: 2021-07-22A / Bテストは楽しいです。 非常に多くの使いやすいツールを使用して、誰でもそれを実行できます。 ただし、テストを設定するだけではありません。 多くの企業が時間とお金を浪費しています。
これが、人々が何度も何度も犯している12のA / Bテストの間違いです。
- A / Bテストを早期に呼び出す。
- 丸1週間テストを実行していません。
- 十分なトラフィック(またはコンバージョン)なしでA / Bテストを実行する。
- 仮説に基づいてテストを行うのではありません。
- テストデータをGoogleAnalyticsに送信しません。
- 愚かなテストで時間とトラフィックを浪費する。
- 最初のテストが失敗した後、あきらめます。
- 誤検知を理解できない;
- 重複するトラフィックに対して同時に複数のテストを実行する。
- 小さな利益を無視します。
- 常にテストを実行しているわけではありません。
- 妥当性の脅威を認識していない。
あなたはこれらの誤りを犯した罪を犯していますか? 調べるために読んでください。
1. A / Bテストを早期に呼び出す
統計的有意性は、サンプルサイズが十分に大きい場合、バージョンAがバージョンBよりも実際に優れていることを示す最良の証拠です。 50%の統計的有意性はコイントスです。 50%でテストを呼び出す場合は、職業を変更する必要があります。 いいえ、75%の統計的信頼性も十分ではありません。
経験豊富なテスターなら誰でも、80%の信頼度での「勝利」のバリエーションが、サイトにライブでプッシュされ、より多くのトラフィックにさらされた後、ひどく失われるという経験がたくさんあります。
90%はどうですか? それはかなり良いですよね? いいえ。 十分じゃない。 あなたは科学実験を行っています。 はい、あなたはそれが真実であることを望みます。 あなたはその90%が勝つことを望んでいますが、勝者を宣言するよりも真実を知ることが重要です。
真実>「勝利」
オプティマイザーとしてのあなたの仕事は、真実を理解することです。 あなたは自分のエゴを脇に置く必要があります。 あなたの仮説やデザインの治療に執着するのは人間であり、あなたの最良の仮説が大幅に異なっていない場合、それは傷つく可能性があります。 そこに行って、それをしました。 何よりも真実、またはそれはすべて意味を失います。
A / Bテストの計画:機能するプロセスを構築する方法
強力なA / Bテスト計画により、収益を増やし、顧客に関する貴重な洞察を学ぶことができます。
多くのテストを行う企業でも、一般的なシナリオは次のとおりです。12か月間、次々とテストを実行し、多数の勝者を宣言して、展開します。 1年後、彼らのサイトのコンバージョン率は彼らが始めたときと同じです。 いまいましい時間に起こります。
どうして? テストの呼び出しが早すぎたり、サンプルサイズが小さすぎたりするためです。 A / Bテストをいつ停止するかについてのより長い説明がありますが、簡単に言えば、テストの完了を宣言する前に3つの基準を満たす必要があります。
- 十分なサンプルサイズ。 電話をかけるのに十分なデータがあります。 A / Bテストのサンプルサイズ計算機を使用してサンプルサイズを事前に計算する必要があります。
- 複数の販売サイクル( 2〜4週間)。 数日以内に(必要なサンプルサイズに達した後でも)テストを停止すると、代表的なサンプルではなく、便利なサンプルを取得していることになります。
- 少なくとも95%の統計的有意性(0.05以下のp値) 。 注:p値は、BがAよりも優れている確率を示していません。p値の詳細については、こちらをご覧ください。
これが私の主張を説明するための古い例です。 テストを開始してから2日後、次の結果が得られました。
私が作成したバリエーションは、89%以上(許容誤差の重複なし)、ひどく失われていました。 一部のツールはすでにそれを呼び出し、統計的有意性は100%であると言います。 私が使用したソフトウェアによると、バリエーション1は0%の確率でコントロールを打ち負かしました。 私のクライアントはそれをやめると呼ぶ準備ができていました。
ただし、サンプルサイズが小さすぎるため(バリエーションごとに100回を超える訪問)、私は固執しました。 10日後の結果は次のようになります。
そうです、コントロールを破る可能性が「0%」だったバリエーションは、95%の信頼度で勝っていました。
「早期に呼び出す」A / Bテストツールに注意してください。 常に番号を再確認してください。 あなたができる最悪のことは、不正確なデータに自信を持つことです。 あなたはお金を失い、何ヶ月もの仕事を無駄にするかもしれません。
どのくらいのサンプルサイズが必要ですか?
小さなサンプルサイズに基づいて結論を出したくはありません。 優れたボールパークは、バリエーションごとに少なくとも350〜400回のコンバージョンを目指すことです。
対照群と治療群の不一致が非常に大きい場合など、特定の状況ではそれは少なくなる可能性がありますが、マジックナンバーは存在しません。 数字にとらわれないでください。 これは科学であり、魔法ではありません。
このようなサンプルサイズ計算機または同様のものを使用して、事前に必要なサンプルサイズを計算する必要があります。
信頼度がまだ95%を下回っている場合はどうなりますか?
必要なサンプルサイズに達し、ビジネスサイクル全体(または2つ)をテストしたら、バリエーション間に有意差がないことを意味します。
セグメント全体のテスト結果をチェックして、特定のセグメントで有意性が達成されたかどうかを確認します。 優れた洞察はセグメントにありますが、各セグメントに十分なサンプルサイズも必要です。
いずれにせよ、仮説を改善し、新しいテストを実行する必要があります。
2.丸1週間テストを実行しない
トラフィックの多いサイトがあるとします。 3日間で、バリエーションごとに98%の信頼度と350回のコンバージョンを達成します。 テストは完了しましたか? いいえ。
季節性を除外し、丸1週間テストする必要があります。 月曜日にテストを開始しましたか? 次に、月曜日にも終了する必要があります。 どうして? コンバージョン率は曜日によって大きく異なる可能性があるためです。
一度に丸1週間テストしないと、結果が歪んでしまいます。 サイトで「曜日ごとのコンバージョン」レポートを実行して、変動の程度を確認します。
次に例を示します。
ここに何が見えますか? 木曜日は土曜日と日曜日の2倍の収益を上げ、木曜日のコンバージョン率は土曜日のほぼ2倍になります。
丸1週間テストしなかった場合、結果は不正確になります。 一度に7日間テストを実行する必要があります。 最初の7日以内に自信が得られない場合は、さらに7日実行します。 14日で達成できない場合は、21日目まで実行してください。
もちろん、とにかく最低2週間はテストを実行する必要があります。 (2週間は不正確であることが多いため、私の個人的な最小値は4週間です。)次に、延長する必要がある場合は7日間のルールを適用します。
このルールを破ることができるのは、履歴データが、コンバージョン率が毎日同じであると自信を持って示している場合のみです。 ただし、それでも、一度に1週間テストすることをお勧めします。
外的要因に注意を払う
クリスマスですか? 休暇中の当選テストは、1月の当選者ではない可能性があります。 クリスマスのようなショッピングシーズン中に勝つテストがある場合は、ショッピングシーズンが終了した後にテストを繰り返し実行することをお勧めします。
あなたはたくさんのテレビ広告をしているのですか、それとも他の大規模なキャンペーンを実行していますか? それもあなたの結果を歪めるかもしれません。 あなたはあなたの会社が何をしているのかを知っている必要があります。 外的要因は間違いなくあなたのテスト結果に影響を与えます。 疑わしい場合は、フォローアップテストを実行してください。
3.十分なトラフィック(またはコンバージョン)なしでA / Bテストを実行する
1か月に1つか2つの売り上げを獲得し、BがAよりも15%変換率が高いテストを実行した場合、どのようにしてわかりますか? 何も変わりません!
私は次の人と同じくらいA / B分割テストが大好きですが、トラフィックが非常に少ない場合は、変換の最適化に使用する必要はありません。 その理由は、バージョンBの方がはるかに優れていても、統計的有意性を達成するのに数か月かかる場合があるためです。
テストの実行に5か月かかり、勝者ではなかった場合は、多くのお金を無駄にしました。 代わりに、大規模で根本的な変更を行う必要があります。 Bに切り替えるだけです。テストは必要ありません。切り替えるだけで、銀行口座を監視できます。
ここでの考え方は、50%や100%のような大規模なリフトを目指すということです。 あなたはすぐにあなたの銀行口座(または入ってくるリードの数)へのその種の影響に気付くはずです。 時は金なり。 数ヶ月かかるテスト結果を待って無駄にしないでください。
4.仮説に基づいてテストを行わない
スパゲッティが好きです。 しかし、スパゲッティのテスト-壁にぶつけて、くっつくかどうかを確認しますか? それほど多くはありません。 ランダムなアイデアのテストには莫大な費用がかかります。 あなたは貴重な時間とトラフィックを無駄にしています。 絶対にしないでください。 あなたは仮説を立てる必要があります。 仮説は何ですか?
仮説は、証明または反証できる限られた証拠に基づいて作成された提案されたステートメントであり、さらなる調査の開始点として使用されます。
これも「スパゲッティ仮説」であってはなりません(つまり、ランダムなステートメントを作成する)。 問題がどこにあるかを発見するために適切な変換研究が必要であり、次にそれらを克服するための仮説を考え出します。
明確な仮説を立てずにAとBをテストし、Bが15%勝った場合、それは素晴らしいことですが、何を学びましたか? 何もありません。 私達は私達の聴衆について学びたいです。 これは、顧客理論を改善し、さらに優れたテストを考案するのに役立ちます。
5.テストデータをGoogleAnalyticsに送信しない
平均は嘘をつきます。 常にそれを覚えておいてください。 AがBを10%上回る場合、それは全体像ではありません。 テストデータをセグメント化する必要があります。 多くのテストツールには結果のセグメンテーションが組み込まれていますが、それでもGoogleAnalyticsで実行できることとは一致しません。
カスタムディメンションまたはイベントを使用すると、テストデータをGoogleアナリティクスに送信して、好きなようにセグメント化できます。 高度なセグメントとカスタムレポートを実行できます。 これは非常に便利で、A / Bテスト(負けテストと無差テストを含む)から実際に学ぶ方法です。
結論:常にテストデータをGoogleアナリティクスに送信します。 そして、結果からがらくたをセグメント化します。 これがその方法に関する投稿です。
6.愚かなテストで時間とトラフィックを浪費する
それで、あなたは色をテストしていますね? やめる。
最高の色はありません。 それは常に視覚的な階層についてです。 確かに、誰かが色をテストすることで利益を見つけたオンラインのテストを見つけることができますが、それらはすべて簡単です。 簡単なテストに時間を無駄にしないでください。 実装するだけです。
すべてをテストするのに十分なトラフィックがありません。 誰もしません。 影響の大きいものにトラフィックを使用します。 データ駆動型の仮説をテストします。
7.最初のテストが失敗した後にあきらめる
テストを設定しましたが、リフトを生成できませんでした。 しかたがない。 別のページでテストを実行してみましょう。
そんなに早くない! ほとんどの最初のテストは失敗します。 それは本当です。 私はあなたがせっかちであることを知っています、私もそうです、しかし真実は反復テストがそれがどこにあるかということです。 テストを実行し、そこから学び、顧客の理論と仮説を改善します。 フォローアップテストを実行し、そこから学び、仮説を改善します。 フォローアップテストなどを実行します。
これは、満足のいくリフトを達成するために(同じページで)6つのテストを行ったケーススタディです。 それが実際のテストのようなものです。 テスト予算を承認する人(上司、クライアント)はこれを知る必要があります。
最初のテストが球場からそれをノックアウトすることが期待される場合、お金は無駄になり、人々は解雇されます。 そのようにする必要はありません。 代わりに、それは誰にとってもたくさんのお金になる可能性があります。 反復テストを実行するだけです。 そこにお金があります。
8.誤検知を理解できない
注意すべきことは統計的有意性だけではありません。 誤検知についても理解する必要があります。 せっかちなテスターは、A / Bテストをスキップして、A / B / C / D / E / F / G / Hテストに進みたいと考えています。 ええ、今話しているのです!
なぜそこで止まるのですか? Googleは41色の青をテストしました! しかし、それは良い考えではありません。 テストするバリエーションが多いほど、誤検知の可能性が高くなります。 41の青の色合いの場合、95%の信頼水準でも、誤検知の可能性は88%です。
このビデオを見て。 あなたは1つか3つのことを学びます:
主なポイント:一度に多くのバリエーションをテストしないでください。 とにかく単純なA / Bテストを行う方が良いです。 結果が早く得られ、学習も速くなり、仮説がより早く改善されます。
9.重複するトラフィックに対して同時に複数のテストを実行する
複数のテストを同時に実行することで、手抜きをする方法を見つけました。1つは製品ページ、1つはカートページ、もう1つはホームページです(同じ目標を測定しながら)。 時間を節約できますよね?
注意しないと、結果が歪む可能性があります。 次の場合を除いて、おそらく問題ありません。
- テスト間の強い相互作用が疑われます。
- テスト間でトラフィックの重なりが大きくなります。
相互作用とトラフィックの重複が発生する可能性が高い場合、事態はさらに複雑になります。
同じフローで複数のレイアウトの新しいバージョンを一度にテストする場合(たとえば、チェックアウトの3つのステップすべてでテストを実行する場合)、相互作用と属性の結果を適切に測定するために、複数ページの実験または多変量テストを使用する方がよい場合があります。 。
トラフィックが重複しているA / Bテストを実行する場合は、トラフィックを常に均等に分割する必要があることに注意してください。 製品ページAとB、およびチェックアウトページCとDをテストする場合は、BからのトラフィックがCとDの間で50/50に分割されていることを確認してください(たとえば、25/75ではありません)。
10.小さな利益を無視する
あなたの治療はコントロールを4%上回りました。 「ああ、それはあまりにも小さな利益です! わざわざ実装することすらしません」と人々が言うのを聞いたことがあります。
つまりね。 あなたのサイトがかなり良いなら、あなたはいつも大規模なリフトを得るつもりはありません。 実際、大規模なリフトは非常にまれです。 あなたのサイトががらくたであるならば、常に50%のリフトを得るテストを実行するのは簡単です。 しかし、それでも尽きます。
ほとんどの勝利テストでは、1%、5%、8%のわずかな増加が見られます。 1%の伸びは、数百万の収益を意味する場合があります。 それはすべて、私たちが扱っている絶対数に依存します。 しかし、要点はこれです:あなたはそれを12ヶ月の視点から見る必要があります。
1つのテストは1つのテストです。 あなたはたくさんの、たくさんのテストをするつもりです。 コンバージョン率を毎月5%上げると、12か月で80%上昇します。 それは複利です。 それが数学の仕組みです。 80パーセントはたくさんあります。
だから、それらの小さな勝利を得続けてください。 最終的にはすべて合計されます。
11.常にテストを実行していない
テストなしの毎日は無駄な日です。 テストとは学習です。視聴者について学び、何が効果的で、その理由を学びます。 得られたすべての洞察は、マーケティング全体で使用できます(PPC広告など)。
テストするまで、何が機能するかわかりません。 テストには時間とトラフィックが必要です(多くの場合)。 常に1つのテストを実行しているからといって、ガベージテストを実行する必要があるわけではありません。 絶対違う。 あなたはまだ適切な研究、良い仮説などを必要としています。
ただし、最適化を停止しないでください。
12.有効性の脅威を認識していない
適切なサンプルサイズ、信頼水準、およびテスト期間があるからといって、テスト結果が有効であったとは限りません。 テストの有効性にはいくつかの脅威があります。
計装効果
これは最も一般的な問題です。 それは、テストツール(または機器)がテストで欠陥のあるデータを引き起こすときです。 多くの場合、サイトでのコードの実装が間違っていることが原因で、すべての結果が歪められます
あなたは本当にこれに注意しなければなりません。 テストを設定するときは、記録されているすべての目標と指標を観察してください。 指標がデータを送信していない場合(「カートに追加」クリックデータなど)、テストを停止し、問題を見つけて修正し、データをリセットして最初からやり直します。
歴史効果
テストで欠陥のあるデータを引き起こす何かが外の世界で起こります。 これはあなたのビジネスまたはその幹部の一人についてのスキャンダルである可能性があります。 特別なホリデーシーズン(クリスマス、母の日など)になる可能性があります。 たぶん、メディアの話はあなたのテストの変化に対して人々を偏らせます。 なんでも。 世界で何が起こっているかに注意を払ってください。
選択効果
これは、トラフィックの一部がトラフィックの全体を表していると誤って想定した場合に発生します。
たとえば、メーリングリストからテストを実行しているページにプロモーショントラフィックを送信します。 あなたのようなあなたのリストを購読している人々は、あなたの平均的な訪問者よりもはるかに多いです。 しかし今、あなたは彼らが総トラフィックを表していると考えて、あなたの忠実なトラフィックで動作するようにページを最適化します。 それはめったにありません!
壊れたコード効果
あなたは治療法を作成し、それをライブでプッシュします。 ただし、勝てないか、違いはありません。 あなたが知らないのは、あなたの治療がいくつかのブラウザやデバイスでうまく表示されないということです。
新しい治療法を1つか2つ作成するときはいつでも、品質保証テストを実施して、すべてのブラウザーとデバイスで正しく表示されることを確認してください。 それ以外の場合は、欠陥のあるデータに基づいてバリエーションを判断しています。
結論
テストを簡単にする優れたツールはたくさんありますが、それらはあなたのために考えをしません。 統計は大学であなたの好きな科目ではなかったかもしれませんが、それはブラッシュアップする時が来ました。
これらの12の間違いから学びましょう。 それらを回避できれば、テストを実際に進めることができます。
注目の画像クレジット