A/B测试执行时间多长效果最好

本文长度为5174字,预估阅读时间12分钟。引言:本文通过几个方面来展示如何执行A/B测试已达到最好效果。

译者 | Nic

审校 | Sarah

编辑 | CiCi

A/B测试恐怕是有史以来最有争议的营销策略之一。每个人对其是否有效都有自己的意见。我的看法是,如果所采用的方法不当,会浪费时间;但如果方法得当,它对转化可以产生很大影响。现实是只有28%的营销人员对转化率感到满意,这个数值看上去可不那么乐观。但好消息是,如果正确理解了如何有效地进行A / B测试,那么提高转化率将指日可待。

问题在于,许多营销人员不确定A/B测试应该执行多长时间,甚至不知道如何设置才能获取准确的结果。

谢天谢地,这一切并不是完全无迹可寻。许多人已经从A/B测试中受益,我们可以从他们的成功中学习。此外,还有一些工具可以帮助您完成大部分工作。

接下来将介绍A/B测试应该运行多长时间,同时提供一些简单有效的规则,以帮助您每次都能获得准确的结果。

https://www.youtube.com/embed/HxBAeweP6Fs?feature=oembed

 

一、A/B测试真的可以提高转化率吗?

让我们从头开始吧。 那么,到底什么是A / B测试?

A/B测试只是一种比较两个不同概念的方法,看看哪个更好。

以下是来自于Optimizely的一个简单A / B测试示例。

AB测试

A/B测试有助于针对网站、应用或期望改进的任何内容来源的更改需求,提出正确的问题。

更重要的是,它让受众来给出答案。

它也不是一个新概念。 事实上,A/B测试实际上已经存在了近100年。

在农业方面,农民通过不断尝试比较,以了解在田地上使用多少肥料最为合适;更近代来说,它以临床试验的形式进入医学领域。

那对我们有什么好处?

首先,A/B测试提供了支持假设的数据,避免漫无边际的猜测。

我们相信没有一个财务部门在设定和预算方面会喜欢这样的猜测。

看看这个例子,通过简单地添加常见问题解答,一些统计数据和一些社会证据,网站kiva.org的转化率提高了11.5%。

你看,只要付出小小投资就可以得倒正向的回报了。

甚至奥巴马总统的竞选也使用了A / B测试。 他的团队分开测试他们的竞选网站,他们收集到了280万个电子邮件地址。这转化为大量的竞选资金(达到6000万美元)。 当选举日终于结束时,证明他们的竞选活动取得了巨大成功。

既然这么有效,为什么没有更多的营销人员采取行动?

在许多情况下,营销人员根本不把它作为优先事项来考虑。

尽管大多数网站通过A / B测试增加了13.2%的响应,但61%的营销人员没有测试主题行。 即使在执行了这一测试的人群中,74%的人所花的时间还不到一个小时。

他们错误地认为改变只会提供微不足道的结果,只因为他们没有衡量正确开始所需要的事项。

实际研究表明,A / B测试为B2B网站创造了多达40%的潜在客户,为电子商务网站创造了25%的潜在客户。

一些企业不进行A / B测试也有一个很好的理由:他们知道他们还没准备好做。

现实情况是,并非所有企业都处在适合执行A / B测试的时机中。 那么,怎么能确定是否准备好了?

如果转化量低于每月1,000,测试结果无太大统计学意义,暂时还不是恰当的时机。

当转化量达到了每月1,000以上,这时可以放心地开始A / B测试。

我们将在本文后面深入探讨。

如果测试已经进行了一段时间,但是觉得努力没有得到应有回报,那么可以从以下几点查看A / B测试失败的可能原因:

  • 从错误的假设开始。
  • 没有考虑统计意义。
  • 实验中没有足够的转化来验证有效性。
  • 测试执行的时间太短。
  • 以下来说说如何预防这四个破坏因素,以确保A / B测试不是白费时间。

二、进行调研

在开始任何其他事情之前,就需要决定测试的内容。

每个好的实验都于“有思考”的假设开始。 A / B测试也不例外。

不幸的是,许多网站所有者都依赖“直觉”进行测试,而不是根据数据和深思熟虑的假设进行测试。

2014年的饼图显示了电子商务公司选择实施新变化的方式。

正如将在本文的其余部分中看到的那样,案例研究证明了A / B测试的强大功能。对任何人来说都没有任何借口了。

你可自行运行精准测试,并根据数据反馈实施响应更改。

首先,看看哪些不适合你的公司。 是缺乏转化? 还是新的电子邮件注册数太低?

现在,将这些不足转化为可实现的目标,使其具体和可衡量。

接下来,看看您的买家角色。 如果有一段时间没有看过它们,是时候认真检视一下了。

如果你还没有创建买家角色,不用慌张。

HubSpot提供了一个简单的模板,有助于开始使用角色库。

仔细研究手中有关受众的信息,从客户体验角度上,分析有哪些地方不够友好。

要从花费大量精力而建立起的内容中找到故障并不容易,但这一步非常重要。

尝试与部分受众一起,进行一个5秒钟的测试,看看会产生什么样的启发。

一旦对如何改进有了更好的了解,把假设写在纸上。

将注意力集中在可以实际改变的事物上。Wishpond建议使用以下三个步骤:

  • Step1: 转化问题 – 为什么人们不愿意被转化
    Step2: 潜在解决方案 – 什么样测试可能解决问题
    Step3: 影响声明 – 预测解决方案会对转化产生什么样的影响
  • 到这,一个有效的A/B测试假设基本成形了。

也许做出假设不是问题,它引导你关注优先级最高的问题,从而帮助你确定首要测试任务。

Conversion XL有一个非常好的优先级工作表,有助于决定在哪里集中精力。

既然假设已有,是时候开始测试了。

三、统计显著性是关键

统计显著性反映了所测量变量带入的风险等级,也是对你作出选择的信心指数。

根据Optimizely的说法,“统计显著性是一种在数学上证明某个统计量是可靠的方法。 当根据正在运行的实验结果做出决策时,需要确认它们之间确实存在相关性。“

要获得有意义的数据关系的结果,请坚持运行测试,直到达到95%-99%的统计显著性,这意味着对结果有效率有95%-99%的信心。

ConversionXL上有个例子。

从数据中可以看出,一开始变量1(Variation1)似乎是一个失败的命题。 但当测试执行达到95%的统计显著性时,结果开始完全不同,变量1(Variation1)赢得了超过25%的领先。

如果测试提前终止,整个结果就可能会完全不同,而测试也就失去了意义。

这是在线网站建设公司BaseKit的另一个例子。

由于他们的大部分流量都是付费的,因此他们可以安全地假设他们的受众对他们的产品有着独特的兴趣。 因此,他们将测试重点放在定价页面上也是有道理的。

他们在24小时内达到了95%的统计显著性,通过重新设计定价页面,总体转化率提高了25%。

这些工具帮助你减少花在确定统计意义的功夫。

 

如果在某些时候您想要运行的不仅仅是分离测试(仅比较两个变量),那么此工具允许您添加尽可能多的变量,以分析每个变量的重要性。

只需输入访问者数量和变量的总体转化次数,该工具就会比较两种转化率,来告诉你测试是否具有统计意义。

如果统计显著性达不到95%,请继续测试。

需要再次强调:即使达到你认为具有足够统计意义的水平,也不能放弃;在达到95%之前永远不要停止,最终目标是99%统计显著性。

其他任何东西都只是不靠谱的猜测。

达到统计学意义并不是成功进行A / B测试的唯一因素。 样本量也会对结果产生巨大影响。

四、样本量也很重要

样本量或转化池太小,都会造成误差幅度的增加。道理不难理解,对吧?

这样想吧:假设有一袋100个软糖,我们想看看是否有可能从袋中取出各不同味道的软糖。

随机拿了三个软糖,三个都是甘草味的。如果就只用这三个软糖来预测拿出其他味道甘草软糖的可能性,结果不太会很准确。

假设整个袋子里可能只有四到五个甘草味软糖,而恰好都被取出了;但事实也有可能其中一半是甘草味,另一半是樱桃味的。

无论情况如何,如果只使用这三个软糖来假设我们取出更多甘草味软糖,其几率会远高于实际值。

又或者,如果我抽出三个都是山豆果味的,没有一个是甘草,就可能错误地认为永远不会从袋子中取出甘草味的。

这是两个不同的假设,都是错误的,因为测试的样本量太小,无法得出合理的结论。

那么,测试所需要的转化次数或个体数量多少才是合适的?

显然,我们不能一概而论,具体需要取决于总访问次数和转化次数。但是,一个比较普遍采用的指南是在实验中至少有1,000个的个体数(或转化,客户,访客等),以便克服样本污染达到正常工作。

一些营销专家甚至建议样本量为5,000人。

请记住,如果您正在运行A / B测试(两个变量),样本量会被平分。你不会想要低于500个的样本量来进行测试,对吧?

在A / B测试中,很容易被忽略的另一个考虑因素是需要确保样本受众实际上代表转化领域中的每一个个体。如果不小心产生样本污染,结果将会不准确。

以下是样本污染的常见示例:

许多访问者是通过桌面电脑,平板电脑,笔记本电脑甚至是电视机来访问你的内容。

 

他们从不同的设备访问你的网站和内容。

如果将每一次的访问都包括在数据中(就好像他们是唯一的访问者),这就会引入设备污染:同一访问者被多次重复计算。

有其他因素需要考虑,例如使用相同设备的不同用户,公共访问的计算机等。 关键在于,当可能涉及到样本污染带来的弊端时,需要全面考虑并提前做好准备。

该怎样做呢? 一种方法是针对特定设备和浏览器单独运行A / B测试。

当然,这需要更长的时间才能达到健康有效的样本量。但是这么做的样本量将更准确。

如果仍然不确定你应该有多大的样品量,Optimizely有一个简单的计算器,可以用来帮助你确定理想的样本量。 它甚至考虑到统计意义!

现在,让我们来看看A / B测试的核心,测试执行多长时间才是合理的?

五、足够的耐心永远不会错

营销人员经常会错误地过早结束他们的A / B测试,因为他们认为已经知道了答案。如果草率得出哪种变化将“胜出”的结论,结果会被扭曲,测试因此无效。

静下心来想想。

如果答案那么显而易见,进行测试还有什么意义? 一个真实有效的测试,必须让整个过程发挥作用。

还记得我们关于统计意义的讨论? 关键是:始终坚持95%+规则,在达到那个水平之前不要停止你的测试。借助于工具来帮助您查看统计显著性的位置,静待最佳时机的来到。

现在让我们谈谈时机。

为了保证数据的真实性,理想情况需要至少运行两周的测试。为什么? 转化和网络流量会因为几个关键变量而有很大差异。

Conversion XL提供了这些数据。

周四的转化率远高于周末。 在这种情况下,短于一周的测试将严重扭曲结果。

通常,您应该测试至少七天,确保达到统计显著性,然后再测试七天。

在数据方面,更充分的数据总是更好。 在开始时将测试时间考虑在您的A / B计划中,避免感到仓促或想要过早地缩短它。

我们可以进行超过两周的测试吗? 当然!

看看TruckersReport的例子。这是他们原来的网页:

 

乍一看,似乎没有任何不妥。 但没有得到想要的反馈,而且转化率低于为12%。

现在将其与修改后的设计进行比较:

 

通过采用新的页面布局,他们的转化率达到了79.3%。

惊讶吧,这是如何做到的?

首先,他们没有将他们的A / B测试视为“一劳永逸”。他们在六个月的时间里共进行了六次迭代测试。同时他们确保不仅具有95%以上的统计显著性,而且也追踪每一个不同的流量模式,无论卡车司机们使用何种设备进行访问。

另一个因为耐心等待而得到回报的例子。 Copy Hacker在他们的主页上进行了A / B测试。

  

在前几天,没能得出任何结论。 在第六天之后,统计显著性达到了95%。 这时也许你会停下来,

但他们没有。

由于还不够一周,他们又坚持进行了另一天的测试。 这时他们取得了完全不同的结果,创造了近24%的转化次数。 等待额外的一天,显著性水平从95%上升到99.6%。

 

耐心得到了回报。

但是,如果时间被拖延(在这里指的是几个月,而不是几天),你该怎么做?

当所有步骤都已完成,但没有明显的决定因素时,需要考虑使用一组新的变量重新开始。

convert.com 上有一个很棒的A / B测试持续时间计算器,可帮助您确定运行测试的时间,以保留数据的完整性。

  

它不仅考虑了现有的转化率,还使你有机会直接针对花费了大量时间构建的智能、可衡量的假设展开测试。

六、结论

在营销领域中,你可能会看到有关A / B测试的截然不同的观点,但很难对在本文中展示的组织机构所取得的成果提出质疑。

有些组织完全忽略了A / B测试。公司通常只会在经过一些看似浪费时间的错误测试后决定走这条路。

不要让你也成为这样的。不要因为组织中的一些反对者,错失可靠的A / B测试带来的转化率提升和有效数据。

如果从未尝试过A / B测试,那么是时候开始了。

你并不孤单。先行者已经完成了大量基础工作和早期实验。

并且计算器都可以在正确数量的基础上帮助你增加合适因素,最终你的A / B测试几乎可以确保转化率提升。

只需记住A / B测试的“三大显著”因素,并在测试过程中从头到尾坚持下去:

建立正确的假设 – 避免无根据的猜测或直觉。

不随意中断,直至达到95-99%的统计显著性。

确保样本量足够大(例如至少1,000次转化)。不要过早停止运行测试。目标为1-2周。

根据我在A / B测试中的实际经验,如果必须用四个字总结最好的建议,我会这样说:精准,耐心。

哪些A / B测试技巧为您带来了转化中最大的提升?

掌握方法非常重要,但是也必须拥有好的工具,所谓“工欲善其事,必先利其器“,在此也隆重推荐国内罕有的用户增长良心之作:

数极客是国内新一代用户行为分析平台,支持无埋点采集、前端代码埋点采集、后端代码埋点采集等多种混合数据采集方式, 自动监测网站推广、APP推广、小程序推广等多种推广渠道,30多种数据可视化效果,是增长黑客必备的大数据分析工具,支持APP数据分析网站分析用户画像,独创了6大转化率分析模型,是用户行为分析领域首家应用定量分析与定性分析方法的数据分析产品,运用数极客用户行为录屏系统,可以分析并优化用户体验的细节,基于用户行为分析系统,提供了会员营销系统A/B测试工具两大数据智能应用解决方案,使得企业可以快速的实现数据驱动增长。

关于作者

Neil Patel, 他是纽约时报最畅销的作家。 华尔街日报称他是网络中的顶级影响者,福布斯称他是十大营销人员之一,而企业家杂志称他创造了100家最杰出的公司之一。 他被奥巴马总统评为30岁以下的前100名企业家,并被联合国评为35岁以下的前100名企业家。

译者简介

Nic, 尼克周,混迹IT行业十多年,仍然不会编程。经历过传统制造业、传统广告媒体,也涉足于新媒体传播及新兴电商平台。目前在某外资银行从事项目管理工作。兴趣爱好比较繁杂,对心理学和行为以及数字分析较有兴趣。

审校简介

Sarah, 广告人一枚,iCDO原创及翻译志愿者。