数极客首页

为什么数据挖掘很难成功?

大数据时期
数据挖掘

变得越加重要,曾经做了很多,胜利

有之,失败的却更多,举一些例子,探求
其失败缘由
,或许
于大家都有启示吧。

数据缺失总是存在。

为什么数据挖掘

的数据准备工作要这么长时间,能够

了解

成取数时间很长、转换成所需的数据方式
和格式时间很长,毕竟只需

这样做,才干
喂给数据挖掘

引擎处置

但数据准备的真正目的,其实是要从特定业务的角度去获取一个真实的数据世界,数据的获取比处置
重要,技巧倒是第二
了。

离网预测不时

是很多业务范畴
关注的焦点,特别是电信行业,但这么多年做下来,其构建的离网模型却难言胜利

,为什么?

由于
数据获取太难了。

离网预测希望用客户历史的行为数据来判定

未来

一段时间离网的可能性,但国内的电信市场并不稳定,不只
资费套餐复杂,大量的促销政策时时轰炸眼球,大家看得是繁华
,但关于
数据挖掘

人员来讲,却是业务了解

和数据准备的凶讯
了。

由于
业务的了解

很艰难

,数据完好

被业务扭曲,假定

要预测精确

,不只
自身

业务促销的要素
要思索
进去,还要思索
竞争对手策反政策、地域影响等等,你锻炼
时看到的是一个简单的离网结果数据,但诱导要素
异常复杂,这类要素
相关的数据基本

取不到或者难以量化。

比如

电信离网很大水平

是竞争对手策反、客户迁移
离网等等,你知道

竞争对手何时推出的促销政策吗?你知道

客户什么时分
搬的家吗?你怎样
用数据来表达这种影响?你的数据能顺应
市场变化的节拍
吗?

因而

,假定

某个协作
同伴
来跟你说,我能够

做电信行业的离网模型,那是个伪命题,离网模型曾经
被电信行业做烂了,简直

没有胜利

的案例,即便

一时胜利

也持续不了多久,只需
业务不统一,就不大可能呈现
一个基本

适用的离网模型,你无法想象全国10万个电信资费政策会对预测建模构成

怎样的影响。

与互联网大一统的数据相比,其搞的风控模型显然要简单的多了,由于
数据的获取难度和稳定度不在一个量级上。

数据挖掘

,难就难在要为预测的业务提供跟这个业务相关的数据环境,因而

,有时离网模型做不好,并不是模型师的错,也不是算法的问题,而是业务惹的祸,是数据问题。

你让开发出Alphgo的DEEP MIND团队来做离网模型,也是一个死字,这可能也是传统行业数据挖掘

很难出效果的一个缘由

阿里的蚂蚁金服,所以能算法取胜,一个缘由
是它天生具有线上的资金往来数据,假定

让它去剖析

传统银行的线下数据,估量
难度也很大。

数据挖掘

师特别强调要了解

业务,就是希望你基于业务的了解

能找到所需的解释数据,外来的和尚所以做不好,也是这个要素
,由于
打一枪换一个中央
的方式,跟扎根了解

业务的建模文化南辕北辙

数据准备,不肯定
性总是存在,因而

一定水平

上讲,这个世界是不可预测的,预测的才干

,跟我们采集数据的才干

成一定的正相关关系。

大数据的意义,就在于能够

采集到更多的数据,这个决议
了我们用机器解释世界的可能水平

假数据真剖析

还是拿离网的例子,你就知道

很多时分
,所谓的解释数据,都是假数据,固然
你不是故意

的,你还很认真,但由于
受限于业务才干

,决议
了你只能运用
假数据,结果不可思议

以前新手,在做离网预测的时分
,总喜欢拿订购胜利

的数据作为锻炼
的数据,但这个显然是个大错误

要知道

,大量的业务订购是套餐附带订购的,并不能反映用户的真实意愿,拿这个数据去锻炼
,能锻炼
出什么东西?这就是业务才干

不够构成

的现象。

往常

互联网上估量
这个现象很严重,比如

刷单,这些假数据严重扰乱了模型,去伪存真是数据挖掘

师的一个必修课。

但这个,可惜又跟业务才干

相关,依赖于理论
和阅历

,假定

让市场部经理转行去做数据挖掘

师,估量
也很牛逼。

数据挖掘

,难就难在这里,其是业务、数据致使

是技术的分别

体,在大数据时期
,这个趋向
会越加显然

缺乏关于
“常理”的觉得

以下是一个社交网络的案例,场景是需求
关于
两个通话(或其它)交往圈中止

重合度判定

,以辨认

两个手机号码能否
属于同一个人。

为什么数据挖掘很难胜利?

规则似乎很简单,但挖掘

出来的结果却不尽如人意,精确

率只需

12%,百思不得其解。

后来发现判定

重合度的阈值是30%,这个也不能阐明

有问题,但问题出在关于
基数的判定

上,大量的用户总的交往圈只需

3-4个,也就是说,重合1个就可能抵达

这个阈值,很多新手或者过于迷信技巧的人,常常
忽视

业务实质

的认识。

数据挖掘

不只
仅是一门挖掘

言语
,还要有足够的生活认知和数据觉得
,这个很难短期能够

提升,依赖于长期理论
,致使

以为
,这个跟情商相关,有些人就是有觉得
,一眼能发现问题。

缺乏迭代的才干

很多传统企业,数据挖掘

效果不好,跟企业的组织、机制、流程等相关,举个例子:

曾经给外呼部门做了一个外呼偏好模型,就是关于
一切
客户的外呼偏好排个序,在外呼资源有限的条件下,依照

这个排序中止

外呼,能够

提升外呼效率,然后发布到标签库,然后让外呼部门去用,等候
反响

的时间总是很长,大家都懂的,然后就杳无音信
了。

最近想起来,再去要结果,发现效果很不错,能真正提升10个百分点啊,但曾经
2个月过去了。

这还算一个较为胜利

的挖掘

,但又有多少模型由于线下流程的缘由

被放弃了,谁都知道

,数据挖掘

靠的是迭代,很难第一次就胜利

,但有多少星星在开端
之时,就被掐灭了。

传统企业冗长的线下流程,的确

成为了模型优化的大杀器,互联网公司天生的在线性让其算法发挥出庞大

的价值,而传统企业的建模,常常
还在为取得

反响

数据而努力,组织、系统和运营上的差距很大。

推行
是永远的痛。

很多传统企业不同地域上的业务差别

,不只
仅构成

管理难度加大、体验不分歧
、系统过于复杂、运营本钱
昂扬

,也让模型的树立

和推行
异常艰难

从模型自身

的角度,不同地域的数据差别

有时很大,在一个中央
胜利

的模型,在另一个中央
则完好

失败,过拟合现象比比皆是。

从业务了解

的角度,建模团队要面对几个致使

十多个做相似

业务的团队,各个团队的业务了解

上的差别

和关于
建模的央求

各不相同,构成

了建模团队的无所适从。

模型推行
,成为了建模团队庞大

的担负
,复制模型,常常
变成了重做模型,搜集结果数据也难上加难,数据挖掘

,曾经
不是一项地道
的活。

提了以上五点,只是为了阐明

数据挖掘

所以难,是综合多种要素
的结果,可能不是靠树立
一个平台,懂得一些算法,控制
一个工具就能简单处置

的,常常
具有更深层次的缘由

我们在努力控制
好“器”的同时,也要抬起头来,更全面的看待

数据挖掘

这个事情,量体裁衣
的制定适合

自己

企业特性
的数据挖掘

机制和流程。

当然,大数据时期
的到来,让平台,工具和算法也变得越加重要,这对数据建模师的学问
结构

也带来了新的冲击。

发表评论

评论已关闭。

相关文章