我经常看到的 12 个 A/B 测试错误

已发表: 2021-07-22

A/B 测试很有趣。 有了这么多易于使用的工具,任何人都可以——也应该——做到这一点。 然而,它不仅仅是设置测试。 大量公司正在浪费他们的时间和金钱。

以下是我看到人们一次又一次犯的 12 个 A/B 测试错误。

  1. 尽早调用 A/B 测试;
  2. 整周没有运行测试;
  3. 在没有足够流量(或转换)的情况下进行 A/B 测试;
  4. 不基于假设进行测试;
  5. 不向 Google Analytics 发送测试数据;
  6. 在愚蠢的测试上浪费时间和流量;
  7. 第一次测试失败后放弃;
  8. 无法理解误报;
  9. 在重叠流量上同时运行多个测试;
  10. 忽视小收获;
  11. 不是一直运行测试;
  12. 没有意识到有效性威胁。

你犯了这些错误吗? 请仔细阅读,找出答案。

1. 尽早调用 A/B 测试

如果样本量足够大,统计显着性是版本 A 实际上优于版本 B 的最佳证据。 50% 的统计显着性是抛硬币。 如果你以 50% 的比例要求测试,你应该改变你的职业。 不,75% 的统计置信度也不够好。

任何经验丰富的测试人员都有过很多经验,其中 80% 置信度的“获胜”变体在被实时推送到网站并暴露于更多流量后最终失败。

90% 怎么样? 这很好,对吧? 不。 还不够好。 你在做一个科学实验。 是的,你希望它是真的。 你希望那 90% 获胜,但了解真相比宣布胜利更重要。

真相>“胜利”

作为优化者,您的工作是找出真相。 你必须把你的自我放在一边。 依附于您的假设或设计处理是人性的,当您的最佳假设未能显着不同时,它会受到伤害。 去过也做过。 真理高于一切,否则一切都会失去意义。

A/B 测试计划:如何构建有效的流程

通过 Jaan Matti-Saul

强大的 A/B 测试计划将使您增加收入并了解有关客户的宝贵见解。

  • 此字段用于验证目的,应保持不变。

这是一个常见的场景,即使对于进行大量测试的公司也是如此:他们在 12 个月内进行一个又一个的测试,宣布一批优胜者,然后将它们推出。 一年后,他们网站的转化率与他们开始时的转化率相同。 该死的时间都在发生。

为什么? 因为测试调用太早和/或样本量太小。 以下是关于何时停止 A/B 测试的详细解释,但简而言之,您需要满足三个条件才能宣布测试完成:

  1. 足够的样本量。 我们有足够的数据来打电话。 您需要使用 A/B 测试样本量计算器预先计算样本量。
  2. 多个销售周期(24 周)。 如果您在几天内停止测试(即使在达到所需的样本量后),您正在获取一个方便的样本,而不是具有代表性的样本。
  3. 至少 95% 的统计显着性(p 值为 0.05 或更小) 。 注意:p 值不会告诉我们 B 优于 A 的概率。在此处了解有关 p 值的所有信息。

这是一个古老的例子来说明我的观点。 开始测试两天后,结果如下:

变异在样本量非常小的情况下表现不佳。

我构建的变体损失惨重——损失超过 89%(误差幅度没有重叠)。 有些工具已经称它为统计显着性为 100%。 我使用的软件说变体 1 有 0% 的机会击败对照。 我的客户准备退出。

但是,由于样本量太小(每个变体仅超过 100 次访问),我坚持了下来。 这是 10 天后的结果:

达到样本量后,测试变体成为赢家。

没错,有“0%”机会击败控制的变体现在以 95% 的信心获胜。

注意“提前调用”的 A/B 测试工具。 始终仔细检查数字。 你能做的最糟糕的事情就是对不准确的数据充满信心。 你会赔钱,可能会浪费几个月的工作。

您需要多大的样本量?

您不想根据小样本量得出结论。 一个好的目标是每个变体至少有 350-400 次转换

在某些情况下它可能会更少——比如当控制和治疗之间的差异非常大时——但幻数不存在。 不要被数字困住。 这是科学,不是魔法。

必须使用此类或类似的样本量计算器提前计算必要的样本量。

如果置信度仍然低于 95% 怎么办?

一旦达到必要的样本量并针对整个商业周期(或两个)进行测试,这意味着变化之间没有显着差异。

检查跨段的测试结果以查看特定段是否达到了显着性。 伟大的洞察力在于细分市场,但您还需要为每个细分市场提供足够的样本量

在任何情况下,您都需要改进您的假设并运行新的测试。

2. 整周没有运行测试

假设您有一个高流量的网站。 您在三天内实现了 98% 的置信度和每个变体 350 次转化。 测试完成了吗? 不。

我们需要排除季节性并测试整周。 你星期一开始考试了吗? 然后你也需要在星期一结束它。 为什么? 因为您的转化率可能会因一周中的哪一天而有很大差异。

如果你没有一次测试整整一周,你就会歪曲你的结果。 在您的网站上运行“一周中每天的转化次数”报告,看看有多少波动。

下面是一个例子:

按星期几的转换率示例。

你在这里看到什么? 周四比周六和周日多赚 2 倍的钱,周四的转化率几乎是周六的 2 倍。

如果我们整周不进行测试,结果就会不准确。 您必须一次运行测试 7 天。 如果在前 7 天内没有达到信心,请再运行 7 天。 如果在 14 天后仍未实现,请运行到第 21 天。

当然,无论如何,您都需要至少运行两周的测试。 (我个人的最低限度是四个星期,因为两个星期通常是不准确的。)然后,如果您需要延长它,请应用 7 天规则。

您唯一可以打破此规则的时间是当您的历史数据充满信心地表明转化率每天都相同时。 但是,即便如此,最好一次测试一整周。

关注外部因素

是圣诞节吗? 您在假期期间的获胜测试可能不是一月份的获胜者。 如果您的测试在圣诞节等购物季获胜,您肯定希望在购物季结束后进行重复测试。

你是在做大量的电视广告还是在开展其他大规模的活动? 这也可能会扭曲您的结果。 您需要了解您的公司在做什么。 外部因素肯定会影响您的测试结果。 如有疑问,请进行后续测试。

3. 在没有足够流量(或转化)的情况下进行 A/B 测试

如果您每月获得一两个销售额并进行测试,其中 B 的转化率比 A 高 15%,您怎么知道? 没有什么变化!

我和下一个人一样喜欢 A/B 拆分测试,但是如果您的流量很少,则不应该使用它来进行转换优化。 原因是即使版本 B 好得多,也可能需要数月时间才能达到统计显着性。

如果您的测试运行了 5 个月——而且没有获胜——那么你就浪费了很多钱。 相反,你应该进行大规模的、彻底的改变。 只需切换到 B。无需测试,只需切换——并注意您的银行账户。

这里的想法是你要进行大量的举重,比如 50% 或 100%。 您应该立即注意到这种对您的银行帐户(或潜在潜在客户数量)的影响。 时间就是金钱。 不要浪费时间等待需要数月的测试结果。

4. 不基于假设进行测试

我喜欢意大利面。 但是意大利面测试——把它扔到墙上看是否能粘住? 没那么多。 测试随机的想法需要付出巨大的代价。 您正在浪费宝贵的时间和流量。 永远不要那样做。 你需要有一个假设。 什么是假设?

假设是根据有限的证据提出的、可以被证明或反驳的陈述,并用作进一步调查的起点。

这也不应该是“意大利面假设”(即制作随机陈述)。 您需要适当的转换研究来发现问题所在,然后提出一个假设来克服它们。

如果您在没有明确假设的情况下测试 A 与 B,并且 B 以 15% 的优势获胜,那很好,但是您学到了什么? 没有什么。 我们想了解我们的观众。 这有助于我们改进我们的客户理论并提出更好的测试。

5. 不向 Google Analytics 发送测试数据

平均值在撒谎。 永远记住这一点。 如果 A 以 10% 的优势击败 B,那还不是全貌。 您需要对测试数据进行分段。 许多测试工具都内置了结果细分功能,但它仍然无法与您在 Google Analytics 中的功能相提并论。

使用自定义维度或事件,您可以将测试数据发送到 Google Analytics,并以您喜欢的任何方式对其进行细分。 您可以在其上运行高级细分和自定义报告。 它非常有用,它是您从 A/B 测试(包括失败和无差异测试)中实际学习的方式。

底线:始终将您的测试数据发送到 Google Analytics。 并从结果中剔除废话。 这是一篇关于如何做到这一点的帖子。

6. 在愚蠢的测试上浪费时间和流量

所以你在测试颜色,是吧? 停止。

没有最好的颜色。 它总是关于视觉层次结构。 当然,您可以在网上找到有人通过测试颜色发现收益的测试,但它们都是不费脑筋的。 不要浪费时间在简单的测试上; 只是实施。

您没有足够的流量来测试所有内容。 没有人做。 将您的流量用于高影响力的内容。 测试数据驱动的假设。

7.第一次测试失败后放弃

你设置了一个测试,但它没有产生提升。 那好吧。 让我们尝试在另一个页面上运行测试?

没那么快! 大多数第一次测试都失败了。 这是真的。 我知道你不耐烦,我也是,但事实是迭代测试就是它的所在。 您运行测试,从中学习,并改进您的客户理论和假设。 运行后续测试,从中学习并改进您的假设。 运行后续测试,等等。

这是一个案例研究,其中进行了六次测试(在同一页面上)才能实现我们满意的提升。 这就是现实生活中的测试。 批准测试预算的人——你的老板、你的客户——需要知道这一点。

如果期望第一次测试将其击垮,那么金钱就会被浪费,人们会被解雇。 不必如此。 对于每个人来说,这可能是一大笔钱。 只需运行迭代测试。 这就是钱的所在。

8. 无法理解误报

统计显着性并不是唯一需要注意的事情。 您也需要了解误报。 不耐烦的测试人员希望跳过 A/B 测试并继续进行 A/B/C/D/E/F/G/H 测试。 是的,现在我们在说话!

为什么要停在那里? 谷歌测试了 41 种蓝色! 但这不是一个好主意。 您测试的变体越多,误报的可能性就越大。 在 41 种蓝色阴影的情况下,即使在 95% 的置信水平下,误报的几率也是 88%。

看这个视频。 你会学到一三件事:

主要要点:不要一次测试太多变体。 无论如何,最好进行简单的 A/B 测试。 你会更快地得到结果,你会学得更快——更快地改进你的假设。

9. 在重叠流量上同时运行多个测试

您已经找到了一种通过同时运行多个测试来偷工减料的方法:一个在产品页面上,一个在购物车页面上,一个在主页上(同时衡量相同的目标)。 它节省了时间,对吧?

如果您不小心,这可能会扭曲结果。 除非:

  • 您怀疑测试之间存在强相互作用。
  • 测试之间的流量有很大的重叠。

如果可能存在交互和流量重叠,事情就会变得更加棘手。

如果您想在同一流程中同时测试多个布局的新版本(例如在结账的所有三个步骤上运行测试),您可能最好使用多页实验或多变量测试来正确衡量交互和属性结果.

如果您决定使用重叠流量运行 A/B 测试,请记住流量应始终平均分配。 如果您测试产品页面 A 与 B 以及结帐页面 C 与 D,请确保来自 B 的流量在 C 和 D 之间分配 50/50(而不是 25/75)。

10.忽视小收获

你的治疗比对照组高 4%。 “哼,这收益太小了! 我什至不会费心去实施它,”我听到人们说。

事情是这样的。 如果您的网站非常好,您就不会一直获得大量提升。 事实上,大规模的升降机是非常罕见的。 如果您的网站很烂,那么很容易运行测试,始终获得 50% 的提升。 但即使这样也会用完。

大多数获胜的测试都会带来小的收益——1%、5%、8%。 有时,1% 的提升可能意味着数百万的收入。 这一切都取决于我们正在处理的绝对数字。 但重点是:你需要从 12 个月的角度来看待它。

一项测试只是一项测试。 你要做很多很多的测试。 如果您每月将转化率提高 5%,那么在 12 个月内将提高 80%。 这就是复利。 这就是数学的运作方式。 百分之八十很多。

所以继续获得那些小胜利。 这一切最终都会加起来。

11. 不是一直运行测试

没有考试的每一天都是浪费的一天。 测试就是学习——了解你的受众,了解什么有效,以及为什么。 您获得的所有见解都可以用于您的营销(例如 PPC 广告)。

你不知道什么是有效的,直到你测试它。 测试需要时间和流量(很多)。 始终启动并运行一项测试并不意味着您应该进行垃圾测试。 绝对不。 你仍然需要适当的研究,一个好的假设,等等。

但永远不要停止优化。

12. 没有意识到有效性威胁

仅仅因为您有合适的样本量、置信水平和测试持续时间并不意味着您的测试结果是有效的。 您的测试的有效性存在多种威胁。

仪表效果

这是最常见的问题。 这是测试工具(或仪器)在测试中导致有缺陷的数据的时候。 往往是由于网站上的代码实现错误,会歪曲所有的结果

你真的要注意这一点。 设置测试时,请观察记录的每个目标和指标。 如果指标未发送数据(例如“添加到购物车”点击数据),请停止测试,查找并解决问题,然后通过重置数据重新开始。

历史效应

外部世界发生了一些事情,导致测试中的数据有缺陷。 这可能是关于您的企业或其中一位高管的丑闻。 这可能是一个特殊的假期(圣诞节、母亲节等)。 也许媒体报道会使人们对测试中的变体产生偏见。 任何。 关注世界上正在发生的事情。

选择效果

当我们错误地假设某部分流量代表了全部流量时,就会发生这种情况。

例如,您将促销流量从您的电子邮件列表发送到您正在运行测试的页面。 订阅您列表的人比普通访问者更喜欢您。 但是现在您优化页面以处理您的忠实流量,认为它们代表总流量。 这种情况很少见!

断码效果

您创建了一种治疗方法并进行了推广。 但是,它不会获胜或没有任何区别。 您不知道的是,您的处理在某些浏览器和/或设备上显示不佳。

每当您创建一两个新处理时,请确保进行质量保证测试,以确保它们在所有浏览器和设备中正确显示。 否则,您将根据有缺陷的数据判断您的变化。

结论

有很多很棒的工具可以使测试变得容易,但它们并不能为您思考。 统计学可能不是你在大学里最喜欢的科目,但现在是复习的时候了。

从这 12 个错误中学习。 如果您可以避免它们,您将开始在测试方面取得真正的进展。

特色图片来源