数极客首页

宋洪鑫:美团点评数据仓库开发模式演进

本文根据【2016 第七届中国数据库技术大会】现场演讲嘉宾宋洪鑫老师分享内容整理而成。录音整理及文字编辑IT168@田晓旭@老鱼。

嘉宾介绍:

正文:

大家好,我今天的演讲主题是美团点评数据仓库开发模式演进,将美团从零开始一点一滴去建设数据仓库的全部过程展现出来。

近几年,美团团购业务在飞速发展,已经向外卖、电影等多个业务领域实现了横向拓展,之前由单一的数据组统一构建数据仓库的开发模式已经不能满足业务的快速发展需求了,所以我们数据仓库的开发模式由数据组主导转变到了业务方自治。在这个转变过程中我们遇到了诸多问题,比如数据资源隔离、权限控制、数据治理、开发平台等等,我想分享一下我们是如何解决这些问题的,为后来的公司提供一些参考经验。

我先对开发模式这个概念做一个解释,它主要是想表达的是数据仓库开发过程中,数据需求方分析师, 业务方数据RD,以及数据平台RD是之间是如何协作的,角色定位是怎样的,以及这个过程中平台机制上是如何支持的?

用一句话来概括近代模式那就是由RD包办开始转向RD和数据分析师的协作。

这里面我们主要采用了一些新技术,引入Hadoop系统进行了分布式仓库的建设,解决了数据存储不宜扩展的问题。在数据收集层,进行了实时统一收集管理,提高了数据源接入效率,并且为需要实时计算业务场景提供了实时的数据源。在业务计算引擎上引入了Hive、Spark这些现在比较主流的引擎,提高任务执行效率。

第二是平台服务的业务RD的人数猛增,现在我们已经增加到了两百多人,半年就翻了一倍。

第三个就是ETL任务数增多,现在已经达到了三千八百多个,而且还在随着业务的增长而成倍增长。

除了我们平台自身的窘境外,我们还面临着业务方的不断吐槽。任务开发之后,提交给RD,如果不符合规范就要打回去重新开发,导致了开发效率低。还有就是任务执行慢,每一个业务方都说自己ETL没有问题,但是他们相互之间影响,排查问题的难度非常大。

第一点是提升效率,业务方经常吐槽ETL审批效率低,我们就从提升效率入手,大体思路是我们把审批的权限下放给业务方,让业务方自己审批自己的业务。

第二点是要做好安全可控,如果我们把权利下放了,但是不进行安全控制的话,那么后果比之前的开发模式更严重。开放之后就意味着平台各个业务方可以随意的使用我们数据平台的存储和计算资源,长时间下去的话,ETL管理会变得更加混乱,

第三点要做到管理透明,每一个业务方对自己的ETL管理都是非常清晰的,他可以看到他们的业务下有哪些ETL,每个ETL使用了多少资源,这样也可以为后续的评估资源成本做依据。

基于这三点我们最后对开发结果做了一个权衡。开放后数据仓库的建设会变成什么样,对突发情况是否做好了应对措施。最后决定开发与否的判断依据是满足业务需求才是第一位的。

下面我们详细介绍一下每个步骤。

我们借着这个图再来简单回顾一下仓库开发模式演进过程中都有哪些技术?第一个是史前模式,是RD手写报表工具的时代,第二个时代我们引入了ETL系统,第三时代是我们的分布式数据仓库,当代模式主要是ETL分组开放。

最后我们针对过程中遇到的问题进行总结,同时展望一下未来。

第二个是平台要足够的开放,在仓库规范和数据安全可控的条件下要足够开放,这样的话才能让业务方能够更灵活的使用平台,才能够更快的满足业务需求,

第三个是降低业务成本,我们要保证资源的合理分配,降低数据的管理成本,

第四个是技术上要与时俱进,拥抱开源,关注最新的技术,选择适合我们业务场景的技术,然后进行技术迭代。

最后一点是勇敢决策,我们要果断的迭代仓库开发模式,适应业务的发展需求,最重要的是要及时的回顾和调整之前的模式。

第一是加强数据治理,自上而下带来了数据整合问题;权限开放给各个业务方之后,他可以根据业务量去申请资源,但是在使用过程中可能会存在存储和计算资源浪费;业务在发展初期都不重视数据质量问题。所以我们要从这几方面入手加强数据治理。

第二是要建设好协同开发平台,业务变更频繁导致了分组管理出现了问题,

因为业务变更后,任务,资源,权限和对应负责人之间容易出现混乱,要做好及时调整也不是件易事。另外工具链环节过多,使用成本变高,数据源接入、任务开发、生产、运维环节还要提升效率。

推荐阅读:美团数据仓库的演进

来源:IT168

链接:http://tech.it168.com/a2016/0810/2846/000002846224.shtml

发表评论

评论已关闭。

相关文章