数极客首页

为什么数据科学家都钟情于最常见的正态分布?

为什么数据科学家都钟情于最常见的正态散布?

大数据文摘出品

编译:JonyKai、元元、云舟

关于
深度学习机器学习工程师们来说,正态散布

是世界上一切
概率模型中最重要的一个。即便

你没有参与过任何人工智能项目,也一定遇到过高斯模型,今天就让我们来看看高斯过程为什么这么受欢送

高斯散布

(Gaussian distribution),也称正态散布

,最早由A.棣莫弗在求二项散布

的渐近公式中得到。C.F.高斯在研讨
丈量
误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研讨
了它的性质。是一个在数学、物理及工程等范畴
都十分

重要的概率散布

,在统计学的许多方面有着严重
的影响力。

正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因而

人们又经常称之为钟形曲线。

为什么数据科学家都钟情于最常见的正态散布?

若随机变量X服从一个数学希冀
为μ、方差为σ^2的正态散布

,记为N(μ,σ^2)。其概率密度函数为正态散布

的希冀
值μ决议
了其位置,其规范

差σ决议
了散布

的幅度。当μ = 0,σ = 1时的正态散布

是规范

正态散布

为什么数据科学家都钟情于最常见的正态散布?

高斯概率散布

的数学表达式

在自然现象中随处可见

一切
模型都是错的,但有些是有用的

—George Box

为什么数据科学家都钟情于最常见的正态散布?

正在扩散的粒子的位置能够

用正态散布

来描画

正态散布

有极端
普遍
的理论

背景,消费
与科学实验中很多随机变量的概率散布

都能够

近似地用正态散布

来描画

。例如,在消费
条件不变的状况

下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;丈量
同一物体的误差;弹着点沿某一方向的倾向

;某个地域
的年降水量;以及理想气体分子的速度重量
,等等。

普通
来说,假定

一个量是由许多微小的独立随机要素
影响的结果,那么就能够

以为
这个量具有正态散布

。从理论上看,正态散布

具有很多良好的性质,许多概率散布

能够

用它来近似;还有一些常用的概率散布

是由它直接导出的,例如对数正态散布

、t散布

、F散布

等。

数学缘由
:中心极限定理

为什么数据科学家都钟情于最常见的正态散布?

二维空间上中止

200万步的随机游走之后得到的图案

中心极限定理的内容为:大量独立随机变量的和经过恰当
规范

化之后趋近于正态散布

,与这些变量原本

的散布

无关。比如

,随机游走的总距离

就趋近于正态散布

。下面我们引见
三种方式
的中心极限定理:

独立同散布

的中心极限定理

设随机变量X1,X2,……Xn,……独立同散布

,并且具有有限的数学希冀
和方差:E(Xi)=μ,D(Xi)=σ^2 (i=1,2….),则对恣意
x,散布

函数为

为什么数据科学家都钟情于最常见的正态散布?

满足

为什么数据科学家都钟情于最常见的正态散布?

该定理阐明

,当n很大时,随机变量

为什么数据科学家都钟情于最常见的正态散布?

近似地服从规范

正态散布

N(0,1)。因而

,当n很大时,

为什么数据科学家都钟情于最常见的正态散布?

近似地服从正态散布

N(nμ,nσ^2).该定理是中心极限定理最简单又最常用的一种方式
,在理论

工作中,只需
n足够大,便能够

把独立同散布

的随机变量之和当作正态变量。这种办法

在数理统计中用得很普遍,当处置
大样本时,它是重要工具。

棣莫佛-拉普拉斯定理

设随机变量X(=1,2,…,)服从参数为n,p(0<p<1)的二项散布

,则关于
恣意
有限区间(a,b)有

为什么数据科学家都钟情于最常见的正态散布?

该定理标明
,正态散布

是二项散布

的极限散布

,当数充沛

大时,我们能够

应用
上式来计算二项散布

的概率。

不同散布

的中心极限定理

设随机变量X1,X2,……Xn,……独立同散布

,它们的概率密度分别为fxk(x),并有E(Xk)=μk,D(Xk)= σk^2,(k=1,2……)

为什么数据科学家都钟情于最常见的正态散布?

若对恣意
正数τ,有:

为什么数据科学家都钟情于最常见的正态散布?

对恣意
x,随机变量Yn的散布

函数Fn(x),满足:

为什么数据科学家都钟情于最常见的正态散布?

该定理阐明

:所研讨
的随机变量假定

是有大量独立的而且平均

的随机变量相加而成,那么它的散布

将近似于正态散布

万变不离其宗

与其他很多散布

不同,正态散布

中止

恰当
的变换之后,仍是正态散布

  • 两个正态散布

    之积仍是正态散布

  • 两个独立的服从正态散布

    的随机变量之和服从正态散布

  • 对一个正态散布

    中止

    高斯卷积还是正态散布

  • 正态散布

    经过傅立叶变换之后仍是正态散布

简约

为什么数据科学家都钟情于最常见的正态散布?

奥卡姆剃刀强调一个哲学准绳
:在其他条件都相同下,最简单的解就是最好的解。

关于
任何一个用正态散布

拟合的随机散布

,都可能存在一个多参数,更复杂,更精确

的解法。但是我们依然

会倾向于选用正态散布

,由于
它在数学上很简约

  • 它的均值(mean)、中值(median)和众数(mode)都相同
  • 只需求
    用两个参数就能够

    肯定
    整个散布

图形特性:

  • 集中性:正态曲线的高峰

    位于正中央,即均数所在的位置。

  • 对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
  • 平均

    变动性:正态曲线由均数所在处开端
    ,分别向左右两侧逐步

    平均

    降落

  • 曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无量
    到负无量
    积分的概率为1。即频率的总和为100%。

相关报道:

https://towardsdatascience.com/why-data-scientists-love-gaussian-6e7a7b726859

发表评论

评论已关闭。

相关文章