数极客首页

浙江移动大数据核心建模能力自我掌控之路

浙江移动大数据核心建模能力自我掌控之路

“大数据建模就是将原始数据加工成信息和知识的过程,好比采油炼油过程,光有数据而没有采集分析能力,就像躺在地底下的石油却没法开采加工一样毫无价值”。这是对于大数据建模价值的通俗解释。这里的建模较传统意义上的建模概念更为广泛,特指大数据领域的数据采集(ETL)+融合建模(DW)+数据挖掘(DM)完整的过程。举个例子,给出两行数据“100, 100, 95, 100, 95”和“1, 1, 0, 1, 0”,我们认为这是数据。如果我们加了解释,第一行代表周一至周五的浙江移动用户的通话时长总和(比如M分钟),第二行代表周一至周五的天气(1代表晴天,0代表雨天),这个加了解释的数据我们认为就是信息。最后,通过关联挖掘我们找到了两行数据的关系,就是每到下雨天通话时长会降低5%,业务上的解释即是下雨天会影响用户出行和情绪,进而影响用户的打电话时长,且这个影响程度为5%,这个挖掘出来的规律就是知识,整个过程就是建模过程。然而纵观传统行业,特别是在运营商,数据建模外包仍是普遍现象,一方面数据建模在传统行业并不是主流,因为以前数据主要用来做报表和指标,OLAP已经是很高端的分析了,业务也不需要那么精细化,大家对于数据建模价值的认识还比较低。另一方面,数据建模人才的引入和培养代价较大,也没那个环境,其效益在当时也并不那么明显。

中国移动自2002年开始建设经分系统,培养了一批数据建模师。10多年过去了,当初的很多同事大多去了业务部门,当前甚至是刚刚进公司几年的算法工程师,也开始有跳槽到互联网公司的,几年前一位离职去支付宝的同事离开前说得话也代表了一定的无奈“我倒真不是缺钱,就是觉得没有环境,总是在做报表和取数,希望出去闯闯吧。”浙江移动大数据核心建模能力自我掌控之路

“数据使流程更加透明,有助于推动管理的扁平化,提升管理效率”“数据使视野更为全局,有助于合理调配企业资源,提升管理效益”“数据可以是一种产品,满足客户的信息消费需求,换取商业利润”“数据可以是一种服务,以数据能力汇聚商业资源,形成竞争优势”“大数据使得我们更加重视各类事物的关联关系,不仅仅局限于因果关系,更加重视快速预测,立即采取行动而不是等一个精确的结论”

这些思想对于很多传统企业的影响非常大,使得传统企业的管理层对于大数据价值有了重新的审视,特别是像运营商这类具有先天大数据优势的企业,在传统语音短信市场饱和,流量经营一条腿难以破局,迫切需要寻找新的蓝海市场背景下。
在传统通信领域,网络和市场能力是运营商的抓手,而大数据的抓手是什么呢。一方面当然是硬实力即大数据平台能力,而另一方面则是软实力,挖掘数据价值的能力,即建模能力。“没有一家大数据公司通过大数据建模工作外包而获得成功”,“大数据建模能力需要自我掌控”,这是浙江移动敏锐的观察到建模之于大数据运营意义之后,对于大数据软实力提出的期望,更是大数据运营要实现创新突破的重要前提。进入DT时代,运营商想在大数据上有所作为,为什么数据建模核心能力需要自我掌控呢? 这是有其原因的:

1、数据是战略:在话务经营时代,运营商拥有庞大的用户和网络优势,但在移动互联网及大数据时代,传统优势不再明显,而运营商天然的大数据是未来形成差异化竞争的优势所在,当前国家政府提出了大数据发展的战略,运营商更需要提前布局,进行数据建模等核心能力储备。

2、数据是资产:只要企业真得将数据作为核心资产,就不会将数据价值挖掘和运营假手于人,总不能让一个外人帮你数钱吧。企业需要清楚的知道如何进行数据规划,如何进行开采利用,要对自己的数据资产“如数家珍”。

3、数据是积淀:数据的价值是随着维度周期的拓展而几何级的增长的,是非常讲究内在联系的一类资产,数据和运用数据的人都需要长时间积淀,“要理解一个行业的数据,首先要有一定的业务积淀,这样做成的数据模型才可能有效。”数据建模领域,外来和尚无法念好经这是一个根本制约因素,传统的外包是厂家年年有,人头年年换,有多少合作伙伴的数据分析师通过运营商的经分系统建设成长起来,然后跳槽到了阿里和腾讯。

4、数据是迭代:传统的外包项目式的数据建模周期冗长,而且总是毕其功于一役,想象着建设一套海纳百川的模型系统,实际上迭代才是大数据时代的建模之道。数据建模往往跟随着业务在探索中逐步逼近实用,即时当前达到了既定目标,后续也要持续的优化,这是传统项目外包解决不了的问题。所谓人走茶凉,留下的摊子谁能继续经营。

5、数据是体验:数据不会说谎,其总是忠实的记录下每个人的操作过程,只有通过数据分析和建模,才能真正的理解用户的诉求,企业才能以此为依据为用户提供合适的产品和服务,创造出极致的体验。这个能力需要依靠自己,当前互联网公司在这个方面的投入是巨大的,比如支付宝,投入的数据分析或建模师就不下200人。

6、数据是创新:数据的无限性使得想象无限,创新是数据领域永恒的主题。做大数据也是一种文化,需要对于数据建模有狂热的信仰,DT时代运营商也许什么都可以外包,但数据建模不能外包,没有一家大数据公司能通过数据建模外包成功。

当然,由于运营商数据的稀缺性,也许当前直接基于裸数据也可以有很大的市场,暂时也许不需要自身有什么挖掘能力。但这个是短期之见,当所有的应用都由第三方来包办的时候,运营商又会沦为新的数据管道,无法碰触到客户意味着你始终处于产业链的下游,离开了用户,就意味着失去了大多数机会。况且,运营商的数据本身也具有较大的局限,比如在征信需要的100多种数据中,运营商的数据仅占6%,不建立数据生态,没有整合能力和平台能力,未来也没法生存。正如GOOGLE所做的,“创新首先要考虑的是用户和规模,即发展潜力,而不应该将当前利润作为首要目标。”

当前不仅是BAT,大量的大数据公司如雨后春笋般的发展起来,所有的公司都在疯狂的搜集数据,运营商的数据也许几年之后就可能大量贬值。即使是现在,运营商的数据优势可能也仅在于全面性,就以位置数据为例,运营商的位置数据由于基站精度问题与GPS等数据相比没有更多优势,只有与运营商客户数据的整合才能体现出差异化优势。举例来说,百度的基于GPS信息形成的客流图精度也许远高于运营商的客流图。但当前,百度也许还无法形成基于客户细分的客流图,其无法精确分析30-40岁商务人士的客流图,而这一点运营商却能做到。但随着未来互联网信息共享与交换体系的形成,也许优势也不会存在,但运营商如果当前连基于自身的数据进行建模和整合的能力都没有,谈何差异化优势。况且,三家运营商数据割裂,同一个运营商还区分为30多个经营实体数据的情况下,对于数据建模的要求又是何其之高。

浙江移动大数据核心建模能力自我掌控之路
1、组织保障大数据是一把手工程没错,任何战略性的措施没有最高层的支持不太可能成功。基于这个目的,2015年浙江公司大数据中心单独成立了数据管理部,专注于企业级大数据统一采集、建模及挖掘,从而为大数据运营奠定基础。组织上的设置也体现了公司对于建模工作专业性和重要性的认可,IT部门的数据建模师在运营商内部内获得了真正的身份,归属感对于数据人员讲,还是非常重要的,你的公司会有这个岗位吗?浙江移动大数据核心建模能力自我掌控之路浙江移动大数据核心建模能力自我掌控之路

2、团队建设数据建模对于人员的综合素质要求较高,一般来说,人员专业跨度越大,越有利于数据创新。因此,数据管理部从成立伊始,就采取社会招聘、内部人才流动、全员推荐等方式广纳人才。得益于当前浙江移动内部的人才交流市场和管理层对于大数据社会人才引进的优惠政策(不设限制),当前迅速汇聚了网络、计费、通信、经分、其他行业等各专业人才,人才梯队初具规模,硕士以上学历100%,博士占比达到60%。同时,联合在数据建模领域的顶尖合作伙伴,制定了数据建模师的培养路径图,为建模师创造良好的成长和交流环境。同时尝试采用“大数据分享日”和“创新积分”等形式,鼓励数据建模师进行创新,正如GOOGLE所说,未来的创新公司要给员工赋能。浙江移动大数据核心建模能力自我掌控之路浙江移动大数据核心建模能力自我掌控之路

3、数据采集在公司的支持下,我们打破部门壁垒,联手网络部等部门,以企业级的视野对于O/B/M三域系统和数据进行全面的盘点。盘点的系统超过50个,涉及的数据接口超过3000个,涉及的字段超过6万个,形成了较为完整的企业级数据字典。以O域(网络域)为例,虽然系统错综复杂,我们的数据建模师还是以钉子精神最终完成了系统盘点。我们从B域做到O域,从O域做到M域,所有的工作100%由我们的建模师完成,为后续大数据平台数据实际采集奠定了坚实的基础。浙江移动大数据核心建模能力自我掌控之路浙江移动大数据核心建模能力自我掌控之路O域系统图

浙江移动大数据核心建模能力自我掌控之路

如果把数据当成自己的资产,就要像管账本一样管好它。依托于建成的大数据平台,我们当前已经实现公司90%的大数据资产采集和管理了,关于大数据资产管理体系如何构建以及平台如何高效运营将在另外一篇技术文章中阐述。整体来讲,浙江公司依托于经营分析系统建设的经验,当前已经打造了以DACP平台为核心的数据管理体系,毫不夸张的讲,在业界也处于领先地位。因为我们的数据自动化管理已经能从源系统贯穿到大数据平台,从数据开发贯穿到运维整个生命周期。

通过研究各类数据特点,我们明确了数据在三大资源池部署规范(包括HADOOP、 MPP及流处理资源池),实时的数据进入流处理资源池,静态的数据全部进HADOOP,其中交叉关联的核心数据也让它进入MPP吧,只读数据按照不同特点进入不同的技术池,不同类型的数据只有在不同的资源池中,才能发挥出应有的价值。数据部署的合理性很大程度依赖于数据库(也许说资源池更好一点)的特点及特定的的应用场景,这些将在以后的文章中另行阐述。

浙江移动大数据核心建模能力自我掌控之路
4、建模标准无论是传统报表系统、还是数据仓库或是现今的大数据平台,如果你有幸从头开始建设一个系统,那么数据标准化是需要核心解决的问题。人类通过定义了标准语言来有效传递信息,那么在数据领域,模型标准化就起到同样的作用。我们花大力气制定了数据建模的基本规范,标准化规则超过500条,其对于数据分类、定义、命名等各个方面做了大量标准化定义,不再会出现一个数据的要素有两个名字等情况出现,这个工作意义巨大,只有做到数据的“书同文,车同轨”,我们数据沟通效率就会更好,管理成本就会越低。任何做数据建模工作的人都清楚,数据的定义如果事先不规范好,其后面带来的传承成本和沟通成本是巨大的,下面简要的摘录了规范的一页,各个企业都应该有这样一本法典。浙江移动大数据核心建模能力自我掌控之路浙江移动大数据核心建模能力自我掌控之路数据建模规范示例

5、数据建模关于建模方式专业书籍很多,这类就不再详细阐述,但我们在数据建模中也确立了一些原则,供参考:
(1)总体设计原则与方法:高层级可以从低层级获取数据,但低层级不允许从高层级获取数据。浙江移动大数据核心建模能力自我掌控之路浙江移动大数据核心建模能力自我掌控之路(2)数据整合层的设计思路浙江移动大数据核心建模能力自我掌控之路浙江移动大数据核心建模能力自我掌控之路(3)统一视图层的设计思路浙江移动大数据核心建模能力自我掌控之路浙江移动大数据核心建模能力自我掌控之路在主题层面,我们尝试着突破传统通信领域,以客户为核心来构建融合模型体系,同时,基于流处理构建实时模型。因为对外运营需要我们的模型更加客户化和实时化,大数据时代的建模挑战完全不同于以往。当前,我们的建模师正在进行融合模型体系的构建,到2016年,将实现融合建模工作的完全自主化,以下是简要的示例。

浙江移动大数据核心建模能力自我掌控之路
浙江移动大数据核心建模能力自我掌控之路
6、数据挖掘有了数据模型,我们的数据挖掘也就有了有源之水,健壮的数据模型可以有效提升数据挖掘的效率。以下简要的说说我们在数据挖掘方面的创新突破。我们开创了浙江移动大数据中心的微信公众号“大数据梦工场”。我们的建模师会基于社会热点和自身的思考,采用数据建模的手段来挖掘客户特征,揭示社会规律,我们陆续发布了“你来我往-揭秘交通”、“大数据窥探俄罗土风波”、“揭秘双11狂欢节”、“数说国际(杭州)毅行大会”、“大数据帮你解析疯狂的科技园”、“杭州人在路上”、“寻找未来的霸道总裁”、“大数据与星座”、“大数据揭秘儿童医院”等系列文章,在实践中我们也沉淀下来大量的模型标签,比如轨迹模型、身份模型(大学生、白领、医生、护士等)、偏好模型(比如爱好跑步)、社交模型(比如亲密度)等,成为我们宝贵的标签资产。浙江移动大数据核心建模能力自我掌控之路浙江移动大数据核心建模能力自我掌控之路

杭州人在路上示例

浙江移动大数据核心建模能力自我掌控之路

疯狂加班科技园示例

浙江移动大数据核心建模能力自我掌控之路
7、数据产品我们的建模师也积极参与大数据产品的研发,展现出浙江移动与众不同的大数据能力。在世界互联网大会上,浙江公司推出了“客流产品”,帮助实时掌握区域内的人流情况。在光鲜的图像后面,是建模师的算法在进行基站位置的拟合和人流实时的计算,通过历史规律的把握来判定告警的阀值。浙江移动大数据核心建模能力自我掌控之路浙江移动大数据核心建模能力自我掌控之路
面向未来,浙江移动大数据中心建模团队将更进一步,致力于基础建模、融合建模、挖掘建模的三位一体能力的完全掌控,在业务层面,我们首先对内,致力于提升公司在精确营销、风险控制、网络优化、客户服务等方面的能力,我们也将更多的面向外部,在广告、金融、零售、旅游、医疗、交通等方面为各个各业提供新的动力。

发表评论

评论已关闭。

相关文章