数极客首页

数据训练营|BAT都在用的方法,详解A/B测试的那些坑!

Sean Ellis 是增长黑客模型(AARRR)之父,增长黑客模型中提到的一个重要思想就是“AB实验”-即:A/B测试。从某种意义上讲,自然界早就给了我们足够多的启示。为了顺应
多变的环境,生物群体每天都在发作
基因的变异,最终物竞天择,适者生存,留下了最好的基因。这个精巧绝伦的生物算法恐怕是造物者布置的最胜利

的AB实验吧。
将眼光

转到互联网世界,AB实验的受注重
水平

正在绝后
进步

我们来看两个著名案例

案例1 :奥巴马宣传团队用AB实验帮其取得

更高的支持率2008年,奥巴马在竞选中胜出,出任美国第44任总统,这离不开其个人人格魅力,但他的竞选宣传团队的作用也是不可疏忽

的,在总统竞选页面上,他的团队就用AB实验在16种计划

中找到了最佳计划

,将竞选页面"change"的转化率提升40.6%。
AB测试
实验这样设计的:图一中的图片或视频与图二中的不同文案按钮恣意
组合,构成
4*4共16种不同计划

组合,每个计划

都取得

一定比例的流量,察看

一段时间后,从当选

择转化率最高的计划

,推行
到全部用户。

最终如下计划

胜出:
其团队事后给出的解释是:视频播放给用户很大压力,且当时的网络环境不能保证播放效果,故视频不如图片,且美国人崇尚家庭文化,一副温馨的全家福图片能拉近与选民的距离

。至于按钮文案,则是由于
美国选民的独立思索

认识
高,“join us”、“sign up”等文案让人觉得
十分

简单粗暴,有鼓动

的嫌疑,所以大家更接受

平和一点的“learn more”。

案例2 :Facebook用AB实验挽救了20%的亏损

2012年,Facebook的产品vp Sam Lessin在扎克伯克的鼎力
支持下,亲率30人团队破费

大半年时间开发了一款新的版本。在上线前约请
的一些外部用户与内部员工的评价中,新版本酷炫时兴

,比老版本美观
的多。如图:

Facebook不愧是一家世界一流的互联网公司,严重
的迭代一定会中止

AB实验。他们先分配1%的流量给新版本,然后逐步

增加
到2%,5%......实验的结果出乎大家预料

,新版本在用户参与度、在线时长、广告展示

数、营收等四个中心
指标的表现上严重落后老版本,刚开端
大家觉得可能是用户不习气
,但随着新版本流量放大到12%,察看

的时间也拉长到3个月,但状况

同样很糟,新版本直接招致
了20%的营收降落
。最终Facebook勇士
断腕,让一切
用户回滚到老版本,这才恢复了之前的数据。而在国内,一家知名的大学生社交网站由于
看到了正在中止

小流量实验的B计划

,就直接copy并快速全流量上线,结果你们都知道

的。到往常

,这家网站曾经
彻底沦为了三流互联网产品。
由此可见失败的产品计划

不可怕,可怕的是没有经过AB实验就直接上线的公司制度和文化。

我们再来看国内一线公司内的一个AB实验case吧!

如上是不同的引导卡片样式

的AB实验,最终结果样式

2比样式

1的CTR提升24.8%。

你的团队能否
有这样的问题?

1、不经过AB实验就直接全流量上线,成员在上线后拼命找数据证明自己

正确,即便

证据牵强,只需
向外发布声明都千篇一概
##指标又提升了##,众人纷繁
点赞。要知道

Google、Facebook、Microsoft做AB实验的阅历

是——90%的新设计都不如线上版本。及时你的团队也很牛,但也不至于把谷哥、face哥、微软哥吊打吧?2、你的团队十分

有想法,但大家各执己见,谁也不能压服
谁,招致
团队决策变得很艰难


团队的改动
从第一个AB实验开端
——谁的计划

好,谁的计划

能推全,与其吵吵吵,不如布置个AB实验,用数据来PK。下文为你细致
解释下AB实验的基本

概念和常踩之坑。

什么是AB实验?

举个例子,你提出了一个产品改进

计划

(假定
叫B),但不肯定
能否
效果比线上版本(假定
叫A)好,于是就将线上用户1%的流量分到B,99%的流量分到A,持续察看

一段时间,假定

B比A好,就将B推到100%的流量,假定

A比B好,那就重新修正
你的设计计划

,重新再做实验。而假定

不做AB实验直接上线新计划

,如Facebook的例子,新计划

致使

可能会毁掉你的产品。这里的计划

可能是一组算法、一组文案、一组运营活动、一组UI样式

,同时实验的并不一定是AB两种计划

,很可能是ABCDE...实验。

AB实验会遇到的问题

AB实验的完成
当然不会像上面的例子一样简单,比如

你会遇到下面的问题:1、怎样
确保1%的流量与99%的流量用户群特征散布

是分歧
的?2、假定

在实验的过程中有新的计划

想法C,能否直接发布到线上同时实验?3、怎样
同时并行所需总流量超越
100%的多组实验?4、怎样
选取指标权衡
AB计划

,假定

多个指标数据表现不一,怎样
决策?5、怎样
肯定
计划

B与A的指标数值不同是随机误差构成

还是统计可信的?

......

AB实验的基本

原理是“控制变量法”。设指标数值=F({隐变量列}、{显变量列(含计划

变量)})。一个指标的数据表现是由函数F和多个变量取值共同决议
,所以指标权衡
结果不能简单归因于计划

的差别

,特别是其中还有很多我们永远无法知道

的隐变量在施加影响。那么我们能否
要知道

F和一切
的变量才干
下结论么?还有愈加
烦琐
的办法

。我们能够

确保两个计划

中其他的变量坚持
分歧
,那么A、B计划

的指标结果差别

就只能归结为版本的差别

。AB实验就是应用
控制变量法的思想,保证各个产品计划

针对同质人群(特征散布

相同)、同一时间中止

实验,确保了除计划

变量外其他变量分歧
,故能判定

指标差别

是计划

不同构成

的,从而选择出优胜版本全流量上线,完成
数据增长。

AB实验的作用很大,但是AB实验的完成
并不简单,常常
会踩坑无数。

AB实验的坑有哪些?

1、人群不同质AB实验需求
切分流量到不同计划

,假定

不能正确切分,使得分到不同计划

的用户群体特征散布

分歧
,那么实验将没有任何意义。为了便于了解

,我们来看一个例子:

假定

我们要对人群G做一个AB实验来找到发放什么礼品才干
运用
户的注册转化率更高?
A、B分别代表发放不同的奖品BB霜与剃须刀,G由子群G1与G2构成(G1、G2分别代表女生、男生,且各占50%)。依照

同质用户的央求

,分给这两计划

的用户流量中男女比例必需
与总体分歧
,也即女:男=1:1。这时,发作
了一些不测
......实验中分给计划

A的群体不幸都是G1(女生),分给计划

B的群体是G2(男生),最终一种奖品比另外一种奖品有更高的注册转化率,比如

A高于B,那么这时能下结论“奖品A比奖品B更受用户喜欢,应该给一切
用户发放奖品A”么?肯定是不能的。这个决策相当于以为
女生喜欢的就是男生喜欢的,依据

实验结论,你应该对一切
的用户G都发放注册转化率更高的礼品A。试想下男生领到BB霜时他们内心是何种感受?
这里的问题就是不同计划

分得的人群是不同质带来的。上述举的例子为了便于了解

,故比较

绝对,理论

过程中遇到更多的是A计划

、B计划

都是男女混合的群体,但是比例却与总体1:1的散布

不同,这样同样带来错误的实验结论。所以设计合理的分流算法,确保分流到每个计划

的都是同一特征散布

的人群是AB实验结论可信的前提。达尔文AB实验系统经过一年多的探求

,已构成
一套相对牢靠

的分流算法。

2、实验不同时在上面的例子中,假定

计划

A与计划

B都是分到同一特征散布

的群体G,那么数据一定具有可比性么?不一定。还是用极端的例子辅佐

了解

。假定
第一天,A计划

分到100万个用户流量,B计划

分到0个用户流量,第二天A计划

分到0个流量,B计划

分到100万个用户流量,从整体看,这两天的A计划

与B计划

的累计实验流量都是100万,且人群是同质的,实验结果应该可信,但适得其反
,假定

这是一个社交网站,实验是为了察看

不同产品版本A和B下用户的主动加好友数据量
,则A计划

显然
优势大很多,毕竟用户多了一整天的时间去添加好友,这种状况

下任何时间截面数据B都处于优势
,且这种优势
并不是计划

不同构成

的。同理,一个博客网站,假定

对比

不同计划

下用户的博客开通率、撰写率,也可能犯同样的错误。另外一种状况

是,在一些特殊日子中,用户的生动

度会暂时性增高,假定

A计划

的作用时间刚好是节日,计划

B的作用时间非节日,那么显然这种比较

关于
B计划

是不公平的。上文提到的公式:“指标结果=F({隐变量列}、{显变量列(含计划

变量)})”,隐变量、显变量中很大一部分

跟时间相关,时间不同,这些变量的取值也不同,从而就破坏

了控制变量法的前提,得不出正确的实验结论。最终
罗列
一个我们参与的一个case让大家感受下:
样式

1的文案:《葵花宝典》带你轻松运用
XXX样式

2的文案:哪些功用
最抢手
,我来通知
你由于早期未规范

实验管理规范

,两个样式

的实验并非同时开端
:1、样式

1,在4月7日的10:00开端
实验2、样式

2,在4月7日的0:00开端
实验

最终统计的表现不一:假定

看4月7日10:00之后进入实验的用户数据,样式

2比样式

1的CTR只提升了大约0.3%,契合
实验同时的前提条件,因而

结论可信;但假定

看4月7日全天的数据,样式

2比样式

1的CTR提升了大约1%,这个不契合
我们提到的实验同时做的条件,结论不可信;

此处也通知
我们:
1、中止

对比

的各个实验版本(上文的样式

1与样式

2)一定要同时开启实验2、实验过程中不能随意修正
每个版本的流量,这也会间接招致
上述问题

3、没有AA实验的认识

AA实验是AB实验的孪生兄弟,有的互联网公司也叫空转实验。AA指的是实验中的各个计划

都是分歧
的。
这么做的目的是啥?这是为了测试埋点、分流、实验统计的正确性,增加AB实验的实验结论可信度。设命题1为:“假定

实验的埋点、分流和统计都没有问题,那么AA实验中各个计划

的数据表现一定分歧
”,若命题1成立,则其逆否命题2:“假定

AA实验中各个计划

的数据表现存在显著差别

,则实验的埋点、分流和统计肯定至少一项有问题。”也必定成立。

严厉
意义上讲AA实验的经过
并不能证明上述三项(埋点、分流、统计)绝对没有问题,但是AA实验不经过
一定能证明上述三项至少一项存在问题。
所以具备AB实验素养的团队,一定会在AB实验前布置AA实验。

4、实验反转

假定

一个实验布置到线上第一天,计划

A比如

案B好,能否代表第二天,第三天的数据表现还是如此?用户进入到新计划

中,很可能由于
猎奇
而表现的愈加
生动

,但随着时间推移,逐步

趋于冷静,数据表现回到本该有的水平

,假定

实验察看

期设置的过早,则容易得出错误的结论。反过来也如此,有的改版用户很不习气
,但用了熟练

之后发现比老版更便利
,数据会逐步

回暖。另外一方面,做实验的样本量太少,也可能呈现
反转,抛100次硬币和抛100万次硬币正面的频次很可能不一样,依据

大数定律,随着随机实验的次数增加,随机变量的频次散布

趋向于其概率散布

。在这里,假定
实验的第一天只需

100个用户进入,由于样本量太少,实验结果的随机性太强,随着天数增加,实验样本也增加,实验结果可能会反转。

普通
状况

下,我们不倡议

样本量小于1000用户的产品中止

AB实验,由于
实验结果很难得到保证。

5、延滞效应记得我们在上化学实验课时,教员

一定是先让你把试管洗洁净

吧?这么做可不只是为了卫生。待实验的化学药剂假定

与试管中残留的药剂混合,则理论

实验的则是这种“被混合的药剂”,实验结果当然不可信。上述说的问题就是carry over——延滞效应。
同样在互联网产品实验中,也存在这样的问题。举个例子,编号为00001-10000与编号10001-20000的用户之前被分到不同的实验计划

(A和B)中止

实验,这个实验终了

后团队开端
要中止

一个新的实验,假定

没有特殊处置
,则可能00001-10000及10001-20000的用户也是被分到两个计划

中(A1,B1),此时实验结果可信么?00001-10000的用户之前阅历
过计划

A,往常

全部落在了计划

A1上,10001-20000的用户之前阅历
了计划

B,往常

全部落在了计划

B1上,或许
在做第一个实验前两个用户群是同质的,但做了第一个实验后,这两个群体曾经
不同质,要中止

第二个实验则必需
采用一定的算法将两个用户群重新打散,取得

一个新的编号排列,再切分出两个同质人群中止

第二个实验,或者重新拿出新的号段出来实验,比如

20001-30000,30001-40000。

以上罗列
的只是一些常识性的坑,理论

过程中还会遇到更多.....在国内的顶级互联网公司BAT中,AB实验已十分

普遍,百度同时有上千个AB实验并行,阿里巴巴和腾讯也有自己

的AB实验系统用以支持多业务大范围
并行的AB实验。关于
大型互联网公司,都具有
比较

强大的数据团队和工程团队,但关于
中小型互联网公司以及传统大中型企业的互联网业务部门而言,a/b测试的办法

和理念都很好,但是很难执行,国外的Optimizely和中国的数极客均是成熟的第三方A/B测试产品,使得更多中小型企业也能具备A/B测试的才干

“怎样
把AB实验文化根植到公司的基因中去?”,时期
正在向一切
的互联网公司发起


作者|蚂蚁金服人工智能部产品经理 范磊

发表评论

评论已关闭。

相关文章