数极客首页

如何让你的数据直觉更敏锐

怎样让你的数据直觉更敏锐

  • 大数据文摘出品
  • 编辑:李馨瑜、Yanruo

AlphaGo打败李世乭、南京大学设立人工智能学院、百度无人车批量消费
….

每当人工智能和机器学习取得

一些停顿
时,这些停顿
一定占领
着各大媒体的头版头条。

媒体对其有如此高的关注度,这意味着,往常

科技界主流的兴味
范畴
数据科学

关于
有大局认识
的人来说,这无疑是一个很好的创业机遇

和职业选择。要想抓住职业机遇

,你需求
超强的“码力”和深化
的专业学问

但是
,每个想在数据范畴
有所成就的数据科学家应该十分

熟习
,在吸睛的神经网络和散布

式计算名词背后是一些基本

的统计理论

你能够

为特定的项目去学习最新的代码框架或者阅读该范畴
最新成果的科研论文。但是,没有捷径能够

取得

数据科学家所需的基础

统计学问

所以,只需

不停地耐烦
练习,再加上一些学习过程中的迂回

,才干
真正进步
你的“数据直觉”。

简约准绳

简约准绳
在引见
性的统计课程中重复

强调,但英国统计学家乔治·博克斯今天说的话可能比之前更有意义:

“一切
模型都错了,但有些模型很有用”

这句话想阐明

什么?

它的意义
是说:在寻求对理想
世界中止

系统建模时,必需
以牺牲易了解

性为代价来简化和概括。

怎样让你的数据直觉更敏锐

理想
世界纷乱喧哗

,我们无法了解

每一个细节。因而

,统计建模并不是为了取得

圆满
的预测才干

,而是用最小的必要的模型来完成
最大的预测才干

关于
那些刚接触数据世界的人来说,这个概念看起来可能违犯

直觉。但为什么不在模型中包含尽可能多的条件项呢?多余的条件项仅仅只能为模型增加压服
力吗?

嗯,是的……不能够

。你只需关怀

那些会显著增加模型解释力的条件项。

思索
将给定的数据集拟合不同类型的模型。

最基本

的是null模型,它只需

一个参数—响应变量的总体平均

值(加上一些随机散布

的错误)。

该模型假定响应变量不依赖于任何解释变量。相反,它的值完好

由关于整体均值的随机动摇
来解释。这显然限制了模型的解释力。

在完好

相反的饱和模型中,每个数据点都有一个参数。这样,你会有一个圆满
的模型,但是假定

你试图将新的数据用于模型,它没有任何解释力。

每个数据点包括一个特征的同时也疏忽

了任何有意义的简化方式。理论

上用处

并不大。

怎样让你的数据直觉更敏锐

如上图左边是一个空模型,右边是一个饱和模型。两种模型都不会提供有力的压服
力。

显然,这些是极端的状况

。你应该在两者之间寻觅
一个模型—一个能很好地拟合数据并具有良好解释力的模型。 您能够

尝试拟合最大模型。 该模型包括所思索
的一切
要素
和限制
条件。

例如,假定
您有一个响应变量y,您希望将其作为解释变量x 1和x 2的函数中止

建模,乘以系数β。 最大模型看起来像这样:

y = intercept + β₁x₁ + β₂x₂ + β₃(x₁x₂) + error

这个最大模型能够

很好地拟合数据,并提供良好的解释力。它包括每个解释变量项和一个交互项x₁x₂。

从模型中删除条件项将增加整体剩余倾向

,或者察看

到的预测模型未能将自身

的变化思索
进来。

但是,并非一切
条件项都一样重要。 您能够

删除一个(或多个)条件项,但并不会发现统计结果上的显著倾向

这些条件项能够

被以为
是无关紧要的,并从模型中删除。 您能够

逐一
删除无关紧要的项(记住重新计算每一步的剩余倾向

)。 重复

此操作,直到一切
项坚持
良好的统计性。

往常

你曾经
抵达

了最小的合适

模型。每一项的系数β的估量
值显然
不同于0。得出此模型的逐步

消弭
办法

称为“逐步

”回归。

支持这种简化模型的哲学原理被称为简约准绳

它与中世纪哲学家威廉的奥卡姆着名的启示
式奥卡姆的剃刀有一些相似

之处。 这个准绳
是这样的:“给出两个或多个同样可接受

的现象解释,选择引入假定
最少的那一个。”

换句话说:你能以最简单的方式解释一些复杂的东西吗? 能够

说,这是数据科学的决议
性追求 – 有效地将复杂性转化为可见性。

永远持狐疑

态度

怎样让你的数据直觉更敏锐

假定
检验(如A / B检验)是一个重要的数据科学概念。

简单地说,假定
检验将问题转化为两个相互

排斥

的假定
,并且在哪个假定
下讯问
检验统计量的察看

值是最可能的。当然,检验统计量是从一组恰当
的实验或察看

数据中计算出来的。

当触及
到假定
检验时,通常会讯问
你是接受

还是拒绝

零假定

通常,你会听到人们将零假定
描画

为令人失望

的东西,致使

是实验失败的证据。

或许
它源于怎样
向初学者进步

假定
检验,但似乎许多研讨
人员和数据科学家对零假定
有潜认识
成见
。他们试图拒绝

它,支持所谓更令人兴奋,更有趣,另类的假定

这不只
仅是一个奇闻乐事。目前曾经
有人撰写了完好
的论文去研讨
科学文献中公开的学术成见
问题。人们仅仅想知道

一点:这种倾向在商业环境下有什么影响。

但是
事实是:关于
任何设计合理的实验或完好
的数据集,接受

零假定
应该与接受

替代计划

一样有趣。

理论

上,零假定
是推论统计的基石。它定义了我们作为数据科学家所做的工作,行将
数据转化为洞察力。假定

我们没有过多地地干预
统计结果的可能性,那么洞察力是没有价值的,正是由于这个缘由
,在任何时分
都持狐疑

态度是值得的。

特别是思索
到“不测
地”拒绝

零假定
(至少在天真地应用频率论办法

时)是多么容易时,狐疑

态度更是不可短少

数据挖掘

(或“p-hacking”)能够

抛出各种无意义的结果,但这些结果有着十分

重要的统计学意义。在无法避免

多次

比较

的状况

下,有必要采取措施减少I型错误(误报,或者说“看不到真正存在的效果”)。

  • 第一
    ,在统计测试方面,选择一个实质

    上谨慎

    的测试。检查能否
    正确满足了测试对数据的假定

  • 研讨
    校正办法

    也很重要,例如Bonferroni校正。 但是
    ,这些办法

    有时因过于谨慎

    而遭到
    批判
    。 它们可能产生太多的II型错误(假阴性,或者说“疏忽

    理论

    存在的效应”)从而降低统计的效果。

  • 查找结果的“null”解释。 您的数据采集程序能否
    满足假定
    条件? 你能扫除
    任何系统错误吗? 幸存者倾向

    ,自相关或趋中心回归会有什么影响吗?

  • 最终
    ,您发现的任何潜在关系有多可信? 无论正确率多低,都不要拿看起来美观
    的数据来糊弄。

狐疑

主义是有益的,普通
来说,不时

留意
对数据的空解释是一种好习气

但要避免

偏执! 假定

您曾经
很好地设计了实验,并谨慎

地剖析

了您的数据,那么请将你的发现视为是真实的!

了解

你的办法

怎样让你的数据直觉更敏锐

最近技术和理论的进步为数据科学家提供了一系列强大的新工具,用于处置

十年前致使

是两年前还无法处置

的复杂问题。

机器学习的这些进步有理由让人万分激动

。但是,当将其应用于特定问题时可能存在的限制很容易被疏忽

例如,神经网络在图像分类和手写辨认

方面可能十分

出色,但它绝不是处置

一切
问题的圆满
处置

计划

。第一
,神经网络很容易过拟合—即对锻炼
数据过度拟合,无法推行
到新数据中。

如神经网络的不透明性。神经网络的预测才干

通常以牺牲模型透明度为代价。由于特征选择的内化,即便

网络中止

了精确

预测,你也不一定了解

它是怎样
得出答案的。

在许多业务和商业应用中,了解

“为什么和怎样
做”通常是剖析

项目最重要的。为了预测精确

性而放弃可了解

性或许是值得做出的权衡。

同样,依托
复杂机器学习算法的精确

性很吸收
人,但它们绝不是百分百牢靠

的。

例如, 令人深化

的Google Cloud Vision API 也很容易被图像中的少量噪音诈骗
。相反地,另一篇有趣的论文展示

了深度神经网络怎样
“看到”那些基本

不存在的图像。

怎样让你的数据直觉更敏锐

怎样让你的数据直觉更敏锐

这不只
仅是需求
谨慎

运用
的前沿机器学习办法

即便

采用更传统的建模办法

,也需求
留意
满足关键假定
。每次都留意
运用
到锻炼
数据以为的数据时,如不狐疑

也至少要谨慎

运用
。每次得到的结论都需求
检验办法

能否
合理。

这并不是说基本

不置信
任何办法

—只是要知道

在任何时分
为什么运用
这种办法

而不是另一种办法

,以及其相对利害

普通
地,假定

你不能想出至少一个正思索
运用
办法

的缺陷
,那么在中止

下一步之前深化
研讨
它。不时

运用
最简单的工具来完成工作。

了解

何时适合

运用
给定办法

能否
适合

数据科学是一项关键技艺
。 这是一种随着阅历

和对办法

的真正了解

而进步
的技艺

沟通

怎样让你的数据直觉更敏锐

沟通是数据科学的精髓

。不同于学校的科目,你的目的
受众将是你研讨
范畴
中受过专业锻炼
的专家,商业数据科学家的观众可能会成为其他范畴
的专家。

假定

沟通不畅,即便

是世界上最好的洞察力也没什么价值。许多来自学术/研讨
范畴
有志向
的数据科学家会与技术专业的受众中止

沟通。

但是
,在商业环境中,不能过火
强调以普通
受众能了解

和可运用
的方式来解释你的调查结果是多么重要。

例如,你的调查结果可能与机构内的一系列不同的部门(从营销,运营到产品开发)都相关。其中每个成员都将成为各自工作范畴
的专家,并将从长篇大论
的相关调查结果的总结中受益。

与理论

结果一样重要的是知道

调查结果的局限性。确保你的受众了解

工作流程中的任何关键假定
、缺失数据或不肯定
水平

老生常谈

的“一张图片胜过千言万语”在数据科学中特别
如此。因而

,数据可视化工具十分

重要。

应用软件例如Tableau、程序库ggplot2 for R和D3.js等都是有效表达复杂数据的好办法

,与任何技术概念一样值得控制

恰当
了解

图形设计准绳
将大大有助于让你的图表看起来愈加
专业和出彩。

写作一定要明晰
。生物进化曾经
将我们塑构成

充溢
潜认识
成见
的和易受影响的生物,我们固有地倾向于置信
更好的展示

和写得好的资料

有时,了解

概念的最好方式是互动—因而

学习一些前端网络技术来制造
观众能够

玩的交互可视化特效是值得的。我们没有必要重新造轮子,像D3.js和R’s Shiny这样的库和工具可使任务变得愈加
容易。

相关报道:

https://medium.freecodecamp.org/how-to-develop-your-data-instincts-95d4d7fad9ba

发表评论

评论已关闭。

相关文章