数极客首页

A/B测试中的因果推断——潜在结果模型

A/B测试中的因果推断——潜在结果模型

摘要:

重度雾霾天,你出门可能戴口罩,也可能没戴。假定

没戴口罩,今天痛苦地咳嗽了 100 分钟(会不会挂掉?),你会很后悔

地想:要是我今天记得戴口罩,那么我可能只会咳嗽 10 分钟。戴口罩的话你会咳嗽 10 分钟,不戴口罩的话你会咳嗽 100 分钟,咳嗽 10 分钟和 100 分钟分别就是这两个处置
所对应的潜在结果。由于
你理论

上没戴口罩而咳嗽了 100 分钟,所以,这戴口罩只咳嗽 10 分钟的潜在结果只是你想象的结果,不是理论

发作
和察看

到的。

听起来是不是有点反事实 (Counterfactual) 推断的滋味
?是的,潜在结果就是这种想象中的:假定

我这几年买的是美股,而不是 A 股,那结果就是赚 100 万,而不是赔 100 万了(捶胸顿足)。

有点意义
?那继续……下面才是正菜。

对 A/B 测试有了解

的读者都知道

,A/B 测试经过
用户分组中止

在线实验
,能够

对比

产品两个版本的计划

找出哪一个更好。但是很多人可能会问:我为什么一定要用 A/B Testing?Google Analytics 这么强大,我的产品的用户访问了如指掌
,经过
数据剖析

不难找到问题所在,A/B 测试还有必要吗?

这篇文章里,作者将从因果关系方面认真
剖析

为什么在关键的产品决策时,您需求
A/B Testing,而不只
仅是像 GA 这种察看

性的数据剖析

工具。

相关性与因果关系

前面问题的回答

从统计学上看很简单,GA 这种察看

性的数据剖析

工具主要用于探求

性的研讨
,它擅长

发现问题,而不是处置

问题;它能够

用来发现事物之间的相关性,但是很难用来确认因果关系。

在概率论和统计学中,相关(Correlation,或称相关系数),显现
两个随机变量之间线性关系的强度和方向。

——维基百科

相关性在探求

性的研讨
中是很有用的,它能够

在理论
中预示某种关系,指明进一步研讨
的方向。相关性的典型例子是产品的需求和价钱
的关系,空气质量和汽车数据量
的关系。这两个相关性的例子都暗示了更进一步的因果关系,由于
从经济学上看价钱
降落
会提升需求,汽车数据量
增加使得尾气排放量增加而招致
空气质质变
差。但是,不是一切
的相关性都有因果关系,相关并不意味着因果。

15 Insane Things That Correlate With Each Other?这个网站搜集
了很多看起来很荒唐
的相关性例子。

A/B测试中的因果推断——潜在结果模型

上面的例子中,美国缅因州的离婚率和人均黄油耗费

量在 2000 年至 2009 年间抵达

了极强的相关性(相关系数 0.9926)。吃黄油和离婚显然
是没有因果关系的两件事,由于
依据

我们的常识,吃多点黄油不至于让人性情大变而招致
离婚,离婚之后也不太可能由于
心情懊丧
而多吃黄油。

假定

我们的研讨
目的是找出缅因州离婚率降落
的主因,人均黄油耗费

量和离婚率之间的相关性有用吗?显然这个相关性的作用是很有限的,你不能据此得出结论:少吃黄油有助于婚姻调和
我们希望得到的是和离婚率之间的因果关系,这就需求
针对性的调查或实验
。吃黄油和离婚两者表面

上的相关性顶多起到提示性的作用(假定

有的话),例如,研讨
人员可能会想到,能否
有一个第三要素
,招致
了缅因州离婚率和黄油耗费

量的共同降落
,如经济形势?

因果关系在很多应用场所
是我们的中心
关注点,例如产品的优化计划

更醒目的 Call to Action 按钮能否
会促进着陆页的转化?什么样的表单用户更愿意去完成?这些问题的背后都是一些 PM 需求
去确证的因果关系,正是 A/B 测试能够

大展身手的中央

A/B 测试也称为在线对照实验
(Online Controlled Experiments) ,是一种科学地中止

统计因果推断的研讨
办法

,它和其他统计研讨
办法

(如察看

性研讨
)的主要区别在于它能够

经过
针对性的实验
简单高效地对所调查
的要素
和变量间的因果关系中止

科学地推断。

那到底什么是因果关系呢?

因果关系是一个事情
(即“因”)和第二个事情
(即“果”)之间的关系,其中后一事情
被以为
是前一事情
的结果。普通
来说,因果还能够

指一系列要素
(因)和一个现象(果)之间的关系。对某个结果产生影响的任何事情
都是该结果的一个要素

——维基百科

A/B 测试要研讨
的就是这种简单逻辑上的因果关系,而不是先有鸡还是先有蛋这种近乎哲学上的因果。确切地说,我们经过
实验
要证明的是:某个要素
/处置
能否
会对某个现象/结果产生作用。

A/B测试中的因果推断——潜在结果模型

下面我们将依据

统计学上的潜在结果模型,认真
剖析

因果关系的定义和推断过程。

潜在结果

第一
明白
一下统计学上因果关系的定义。在实验
的上下文中,我们讨论的因果关系是和某个处置
(treatment) 关联在一同
的,作用的目的
主体是参与
实验
的个体。

一个或多个处置
作用在个体上产生的预期效果我们称之为潜在结果 (Potential outcome)。
之所以称为潜在结果是由于
在一个个体上最终只需

一个结果会呈现
并被察看

到,也就是和个体所接受

的处置
相对应的那个结果。另外的潜在结果是察看

不到的,由于
它们所对应的处置
并没有理论

作用在该个体上。

举个例子,今天北京是重度雾霾天(很正常),你出门可能戴口罩了,也可能没戴口罩(忘了,很不幸!)。这个小实验
的个体就是你,戴口罩和不戴口罩就是两个不同的处置
。戴或者不戴,当然只能选一个,结果也只能察看

到一个。

A/B测试中的因果推断——潜在结果模型

假定

你没有戴口罩,今天痛苦地咳嗽了 100 分钟(会不会挂掉?),你会很后悔

地想:要是我今天记得戴口罩,那么我可能只会咳嗽 10 分钟。戴口罩的话你会咳嗽 10 分钟,不戴口罩的话你会咳嗽 100 分钟,咳嗽 10 分钟和 100 分钟分别就是这两个处置
所对应的潜在结果。

由于
你理论

上没戴口罩而咳嗽了 100 分钟,所以,这戴口罩只咳嗽 10 分钟的潜在结果只是你想象的结果,不是理论

发作
和察看

到的。

听起来是不是有点反事实 (Counterfactual) 推断的滋味
?是的,潜在结果就是这种想象中的:假定

我这几年买的是美股,而不是 A 股,那结果就是赚 100 万,而不是赔 100 万了(捶胸顿足)。

因果效果

在定义了潜在结果之后,不同的处置
产生的因果效果 (Causal effect)就很分明

了,它就是不同潜在结果的比较

A/B测试中的因果推断——潜在结果模型

在上面的例子中,作用在个体“你”上的因果效果就是戴口罩咳嗽 10 分钟 – 不戴口罩咳嗽 100 分钟 = 少咳嗽 90 分钟。我们用符号 Y 来表示潜在结果,Y(不戴口罩) 和 Y(戴口罩) 分别表示两个不同处置
(戴 or 不戴口罩)状况

下的潜在结果。

我们能够

看出,因果效果的定义依赖于潜在结果,但是它并不依赖于哪一个潜在结果理论

发作
无论你今天戴了口罩(观测到咳嗽 10 分钟)还是没戴口罩(观测到咳嗽 100 分钟),个体的因果效果都是不变的(戴口罩少咳嗽 90 分钟)。

可能你会问了:事实上我今天没戴口罩,我知道

我咳嗽了 100 分钟,但是我怎样
知道

假定

我戴了口罩,只会咳嗽 10 分钟呢?这的确

是个问题,戴或者不戴口罩,你只能选择一个,观测到一个结果。聪明的读者可能会想到一个处置

办法

:你能够

今天不戴口罩,明天戴口罩,对比

一下,不就知道

了吗?这个办法

在逻辑和推断上不是那么严谨的,由于
今天和明天,固然

只隔了一天,但是很多状况

会发作
变化,招致
今天戴口罩和明天戴口罩察看

到的咳嗽时间是不一样的。

例如,固然
北京的雾霾每天都很醇,但是今天和明天还是有差别

的,可能今天和燕京啤酒一样醇,明天和茅台一样醇,那么你今天戴口罩会咳嗽10次,明天戴还是要咳嗽 100 次。很显然
,有雾霾时段这个另外的要素
影响的话,我们就不知道

戴口罩的效果是多少了,由于
第二天的醇如茅台的雾霾完好

抵消了你戴口罩的效果,让你误以为戴口罩没有用。

A/B测试中的因果推断——潜在结果模型

我们都知道

A/B 测试是隔绝了其他影响要素
条件下对某个要素
的效果中止

比较

,而把今天的结果和明天的结果中止

直接比较

的做法曾经
不是严谨的对照实验
了。从潜在结果模型的观念
来看,今天的“你”和明天的“你”曾经
不是同一个统计个体了 (⊙o⊙)(固然
从物理上看,明天的你还是原来的你),而个体级别的因果效果是对同一个统计个体而言的。因而

,对比

个体在不同时段得到的潜在结果不再能够

反映个体的因果效果,据此决策将招致
逻辑上错误的结论。

难道就没有办法

了吗?是的,时光

不能倒流,你不可能在不戴口罩观测一次之后再回退然后戴口罩重来一次。关于
作用在个体上的因果效果而言,我们的确

没有太好的办法

。从因果效果的定义上来看,由于
两个潜在结果你必定
只能观测到其中一个,所以你不能只靠一个理论

观测结果就知道

比较

的效果,这是统计因果推断要处置

的一个基本

问题。

不过好音讯

是在 A/B 测试中我们关怀

的是怎样
“估量
”总体中一切
个体上的平均

因果效果,没必要精确

知道

每一个个体的因果效果。因而

,和上面相似

的办法

在恰当的统计模型下也是可行的。

这里我们要留意
到因果效果的“定义”和“估量
”的区别。大家都知道

统计是一门以概率为基础

的科学,统计推断得到的结论不是绝对正确的独一
结果,而是有一定概率散布

的多种可能结果。我们中止

因果推断的主要任务是要得到有一定概率保证的“估量
”,而不是绝对契合
“定义”的正确结果。

因果效果的“估量
”和“定义”相比所要中止

的潜在结果的比较

是不同的。因果效果的定义不央求

多个个体,而关于
估量
和推断,我们需求
比较

理论

观测到的潜在结果,我们不得不思索
多个个体的状况

。由于
单个个体我们只能观测到一个潜在结果,我们必需
观测多个个体,其中一部分

和另外一部分

分别接受

不同的处置
,观测到不同的潜在结果。我们前面说的同一个人在不同时段的比较

,以及不同人在同一时段的比较

,都属于多个个体的状况

。这样的比较

固然

不严厉
契合
因果效果的定义,却是估量
因果效果的关键办法

SUTVA 假定

有了多个个体中止

观测就万事大吉了吗?统计学家常用的一招还没使出来呢,那就是把复杂的理想
世界简化为理想数学模型的强力伎俩

——假定 (Assumption)。

在因果推断的潜在结果模型中,我们需求
一个十分

重要的 SUTVA (stable unit treatment value assumption) 假定,它包括两个部分

  1. 任何个体的潜在结果不受其他个体所接受

    处置
    的影响;

  2. 每一个个体所接受

    的处置
    水平

    是独一
    的,所招致
    的潜在结果也是独一
    的。

我们先看看 SUTVA 假定的第一部分

无干扰准绳
:某个体所接受

的处置
不会影响到其他个体的潜在结果。
以上面的例子来说,就是假定你戴口罩与否不会影响你的朋友小强和小明的咳嗽时间。在我们的雾霾小实验
中,这显然是一个很合理的假定。由于
个人的力气
是有限的,即便

你不戴口罩鼎力
呼吸,为北京的空气净化作出了很大个人牺牲,这点微薄贡献

和整个北京的雾霾相比是微缺乏
道的,小强和小明吸入的雾霾不会因而

变少,当然咳嗽时间也不会有变化。(不过,假定

咳嗽能够

传染,而你和小明在一同
的话,这种状况

下无干扰准绳
可能就不能成立了:你不戴口罩用力
咳嗽传染了带口罩的小明,小明的咳嗽时间也增加了。)

无干扰准绳
是很重要的,假定

个体之间相互

干扰,干扰的效果难以肯定
,那么潜在效果的比较

就不精确

,不同处置
构成

的因果效果就很难肯定
了。在理论

应用中,我们通常依据

实验
的内容及相关的学问
来判别
这个准绳
能否
成立。在大多数状况

下,这个准绳
是成立或者说近似成立的。但是在某些特殊实验
状况

下,这个准绳
能否
成立就要谨慎

思索
了。

例如,在社交类产品如微信的 A/B 测试中,假定

产品经理要测试新版的红包设计能否
会促运用
户发送更多的红包,无干扰准绳
很可能就不成立了。由于
即便

看到新版红包的用户很喜欢这个设计从而发送了更多的红包,但是没看到新版红包的用户可能由于
收到朋友更多的红包,出于回赠心理也发送了更多的红包,这样新版的用户和老版的用户之间的效果就难以比较

了。

SUTVA 假定的第二部分

是指一切
处置
水平

都是已知和明白
定义的,没有躲藏
的不同之处。
以我们的雾霾小实验
为例,处置
水平

只需

两个:戴口罩和不戴口罩。这里我们以为
,戴口罩的作用对个人是相同的,没有不同牌子的口罩带来过滤效果不同诸如此类的影响。假定

你戴的口罩是 3M 牌子,他戴的口罩是 9M 牌子,是 3M 牌子效果的 3 倍,SUTVA 假定的第二部分

就不成立了。

我们必需
留意
到,SUTVA 假定的第二部分

并没有央求

每个个体所受处置
的潜在结果是相同的,它只央求

指定个体及处置
水平

的潜在结果是明白
不变的。

SUTVA 假定是运用
潜在结果模型中止

因果推断的前提,因而

,我们在中止

实验
前,必需
认真思索
实验
的状况

,检查该假定能否
成立。假定

假定不成立,据此中止

推断很难得到可信的结果。

此文中我们引见
了用于 A/B 测试因果推断的潜在结果模型,包括潜在结果的定义,因果效果和 SUTVA 假定等重要的概念。

发表评论

评论已关闭。

相关文章