数极客首页

百度数据分析之道

摘要:百度《数据分析之道主要》内容

 

内容摘要:

1)数据分析是什么?

字面拆解: 数据 + 分析

有骨有肉方成一个人

–分析是骨架(主)

–数据是血肉(附)

常见错误

–只有数据:机器报表不行么?

–只有分析:你是瞎猜的吧?

2)什么是做好数据分析的关键?

数据分析的核心:思路 > 方法

–思路:业务调研+逻辑思考+创新灵感+可行建议

–方法:汇总统计,Make it Simple(切忌喧兵夺主)

数据分析的价值与定位

–百度的T序列不重视数据分析数据分析的能力难以评价)

–麦肯锡一个分析报告卖了上千万(仅有简单统计)

数据分析对一个企业有巨大价值,作用于业务发展的前(探索)期或阶段性改进期(颠覆创新),先有数据分析,才能定业务模型,再后是建模优化(机器学习

数据分析人才

–同样的数据,仁者见仁智者见智,分析人才的不可复制性

–做好数据分析的人不一定能当老大,但至少能当军师

 

 

 

字面拆解: 数据 + 分析
有骨有肉方成一个人
–分析是骨架(主)
–数据是血肉(附)
常见错误
–只有数据:机器报表不行么?
–只有分析:你是瞎猜的吧?

 

 

数据分析的核心:思路 > 方法
–思路:业务调研+逻辑思考+创新灵感+可行建议
–方法:汇总统计,Make it Simple(切忌喧兵夺主)
数据分析的价值与定位
–百度的T序列不重视数据分析数据分析的能力难以评价)
–麦肯锡一个分析报告卖了上千万(仅有简单统计)
数据分析对一个企业有巨大价值,作用于业务发展的前(探索)期或阶段性改进期(颠覆创新),先有数据分析,才能定业务模型,再后是建模优化(机器学习)
数据分析人才
–同样的数据,仁者见仁智者见智,分析人才的不可复制性
–做好数据分析的人不一定能当老大,但至少能当军师

 

 

数据分析要轻方法,重调研
–方法上,基本统计即可
–调研上,亲临一线去询问、了解实际情况,切近“数据空想”
–只有熟悉业务,才能提供有价值的分析和建议

 

 

 

数据分析,我们真的是仅仅想分析么? 价值
–分析报告的及格线是“言之有物” — 事实
–优秀线是“振聋发聩”或“醍醐灌顶” — 分析
–满分线是产生了切实有效的行动方案 — 建议
分析实例:我们处于市场领先地位,针对次位的竞争对手近期发展进行数据分析
–及格线:竞争对手发展势头很猛,市场份额怎样变化
–优秀线:虽然竞争对手近期势头发展很猛,但实际上他突出的优势在X,劣势在Y,未来可能会采取什么行动,同时市场上的其它竞争对手也不容忽视
–满分线:针对于竞争对手的可能动作,我们有如下方面需要改进:加强优势A、B、C,与X达成进一步战略合作关系,并收购Y等等

 

 

 

起源:用单个数或者数的小集合捕获可能很大值集的各种特征
–频率度量:众数
–位置度量:均值和中位数
–散度度量:极差和方差
–数据分布:频率表、直方图
–多元汇总统计:相关矩阵、协方差矩阵

 

 

标准差:想设计一个指标,可以用来衡量数据集合的发散性,经过如下思考
–每个样本的偏差累加就可以衡量 (real num – mean)加和
–偏差较大的值应该具有更大的权重 (real num – mean)^2
–集合中数字越多,方差越大,应该与集合大小无关 Mean((real num – mean)^2)
–量纲与原始数据不同,无法比 Sqrt(Mean((real num – mean)^2))
–最终结果,RMSE

 

 

在美国总统选举的各种民意测验中,关于支持率的一个常用标准是置信度为95%(误差在+-2.5%以内,置信区间宽度为5%),那么要达到这样的标准需要多少人呢?

 

计算出N=1067,至少要一千个样本以上,才能满足需求
–Z0.025=1.96, 通过R语句 qnorm(0.025, low=F)得到
–n是样本数量,n越大,置信区间越小
–p是真实的概率,p=0.5时候,p(1-p)最小,所需n最大

 

 

在数据量充足的时候,加一些维度、拆的更细,使得每个小格里的样本更加类似,结论更加准确但数据不足或分拆未带来结论改变,就不能再拆,以免结果失去统计意义。

 

 

 

为什么存在实例“毛泽东抽烟比林彪不抽烟活的久”,还要劝人不要抽烟?
–概率分布问题,“人事”与“天命”
–虽然选择健康的生活方式(尽人事),我们也得听天命(自己是正态曲线的好尾巴,还是坏尾巴),但是天命整体分布可以变得更好(正态曲线的中轴向好的一面偏移)
如果没有附加的抽烟信息,如何从一组寿龄数据中作预测?
–目标:MSE做为评价指标,MSE越小越好
–方法:数据为正态分布的话,中位数(即波峰)做为预测值使得MSE最小
通过如上两点,证明抽烟信息对预测是有效的,如果一个人抽烟,那么我们预测他活到70岁,否则75岁
如果再多一个酗酒的信息呢?

 

 

 

 

实例:小区业主申请减税 vs 卖房子
当数据分布呈现正态分布特点(钟形的曲线)时,均值、中位数、众数都落在相同的点上。而数据分布成有偏差的特征(类似于滑梯)时,那么均值、众数、中位数就相差甚远了。
以书思今,学以致用
–分布与平均数一样重要
–两个特例往往使得数据的统计结果产生很大的变化

 

 

同样一份数据,2010年的前6个月,使用产品的客户数量由最初的2w,以每个月100个的速度增长。

 

 

实例1(缺失的比较)
–临床显示,本药品在10分钟内可以杀死5w个感冒病毒
–数据因为缺失了比较对象,而毫无意义
实例2(不匹配的比较)
–美国海军的死亡率是0.9%, 而同时期纽约市民的死亡率是1.6%,得出结论参军是很安全的。
–比较对象不明确、或者根本不可比,也是常见的
以书思今,学以致用
–为什么评估策略效果要有对照组?

 

 

实例
–10个硬币抛1000次,总会出现10个正面或9个正面的情况
–全国人民喜闻乐见油价上涨,水价听证会大家纷纷反馈价格上涨影响不大
–采用有偏差的样本,可以产生任何人需要的任何结果
在抽样统计的时候,要充分思考抽样的过程对样本造成了怎样的偏差,以及这个偏差对我们的结论有什么影响
以书思今,学以致用
–分层抽样

 

 

实例
–公司与工会发生了摩擦,于是公司进行了一项“调查”来统计多少职员对工会不满。公司公布了这样的结论:“大多数(78%)的职员反对工会,所以有必要取消工会。”
–360打官司老败诉,腾讯打官司总胜诉,周鸿祎:“真的是东方不败!与腾讯强大的法务相比,我们实力不济,自愧不如!”
最普遍的表现是将看上去极像,而完全不同的两件事混淆在一起,得出了似是而非的推理。
笑一下
–小品《卖拐》中“脚麻”的桥段