数极客首页

品《阿里巴巴大数据实践-大数据之路》一书(下)

今天继续谈阿里的这本书,包括数据效劳
平台、数据挖掘

平台、数据建模、数据管理及数据应用,希望于你有启示。

1、数据效劳
平台

数据效劳
平台能够

叫数据开放平台,数据部门产出海量数据,怎样
能便当
高效地开放进来
,是我们不时

要处置

的难题,在没有数据效劳
的年代,阿里的数据开放的方式简单、粗暴,普通
是直接将数据导出给对方,我想,往常

大多公司的开放应该也是如此吧,固然
PaaS喊了这么多年,但真正成就的又有几个?

即便

如阿里,在数据开放这个方向上的探求

和理论
,至今也有7个年头了,任何关于数据开放毕其功于一役的做法都将失败,任何一次数据开放的改进

都是随同

着关于
业务了解

的深化
而生长
起来的。

阿里的数据开放阅历
四个阶段,DWSOA、OpenAPI、SmartDQ和OneService:

品《阿里巴巴大数据理论-大数据之路》一书(下)

DWSOA:是数据效劳
的第一个阶段,也就是将业务方对数据的需求经过
SOA效劳
的方式暴露进来
,由需求驱动,一个需求开发一个或者几个接口,编写接口文档,开放给业务方调用。

这种架构简单,但接口粒度很粗,灵活

性不高,扩展性差,复用率低,随着业务需求的增加,接口的数据量
大幅增加,维护本钱
高企,同时,开发效率不高,一个接口从需求开发到上线,按阿里说法至少1天,其实远远不止,假定

要变卦
1-2个字段,也要走一整套流程,这应是大多数公司的常态。

OpenAPI:DWSOA的显然
问题是烟囱式开发,很难沉淀共性数据,OpenAPI将数据依照

统计粒度中止

聚合,同样维度的数据,构成
一张逻辑表,采用同样的接口描画

,针对某一类的查询,只需求
调用一个接口即成,这种方式
能够

有效收敛接口,笔者公司对外效劳
很多也是这种方式
,比如

经过
封装几十个位置效劳
API,统一对外提供灵活

查询才干

,但其实复杂逻辑的接口还是需求
采用一事一议的方式,即第一种方式。

SmartDQ:数据维度是非可控的,随着数据的深度运用
,OpenAPI显然会急剧增加,维护映射的压力会很大,阿里于是再笼统
一层,用DSL(Domain Specific Language,范畴
专用言语
)来描画

取数需求,支撑规范

的SQL,至此,一切
的简单查询效劳
减少到另一个接口,这降低了数据效劳
的维护本钱

品《阿里巴巴大数据理论-大数据之路》一书(下)

传统的方式查询
题需求
查源码,确认逻辑,而SmartDQ只需求
检查SQL的工作量,并能够

开放给业务方经过
写SQL的方式对外提供效劳
,SmartDQ封装了跨域数据源和散布

式查询功用
,经过
逻辑表屏蔽了底层的物理表细节,不论

是HBASE还是MySQL,是单表还是分库分表,这极大简化了操作的复杂度。

其实中国移动

运营
剖析

规范

很早就提出了即席查询、伪代码等的封装方式,笔者企业也经过
自助取数的方式在理论
,阿里在落地上做的比较

好,其是集大成者,传统企业的大数据类产品常常
只能在单点完成
突破

,无法用一只团队不时

如一的坚持做一个产品,比如

企业的自助取数平台在设计时没想到需求
支撑大数据时期
的跨异构数据库,由于当初的自助取数团队和当前的DACP的团队完好

是两拨人,很难完成
既有才干

的传承。

阿里的思绪
说不上很超前,但它不只
落地了,而且在不停演进,这或许
就是企业自主研发的价值,它的产品不时

流着同样的血液。

OneService:SQL显然无法处置

复杂的业务逻辑,SmartDQ其实只能满足简单的查询效劳
需求,正如我们的自助取数也仅能满足50-60%的暂时
取数一样,企业遇到的场景还有以下几类:个性化的垂直业务场景、实时数据推送效劳
、定时任务效劳
,OneService主要是提供多种效劳
类型来满足客户需求,分别是OneService-SmartDQ、OneService-Lego、OneService-iPush、OneService-uTiming。

Lego被设计成一个面向中度和高度定制化数据查询需求,支持插件机制的效劳
容器,笔者了解

就是提供定制环境和暴露接口,你要怎样
做就怎样
做。

iPush应用产品是一个面向TT、MetaQ等不同音讯

源,经过
定制过滤规则,向Web、无线等终端推送音讯

的中间件平台。

Utiming是基于在云端的任务调度应用,提供批量数据处置
效劳
,支撑用户辨认

、用户画像、人群圈选三类效劳
的离线计算以及效劳
数据预处置
、入库,这个觉得
是十分

个性化的一个应用。

2、数据挖掘

阿里构建了一套架构于阿里云MaxConpute、GPU等计算集群之上,集聚

了阿里大量优质的散布

式算法,包括数据处置
、特征工程、机器学习算法、文本算法等,可高效完成海量、亿级维度数据的复杂计算,同时提供一套极易操作的可视化编辑页面,大大降低了数据挖掘

的门槛,进步
了建模效率。

其选择的计算框架是MPI,其中心
算法都是基于阿里云的MaxCompute的MPI完成
的。

品《阿里巴巴大数据理论-大数据之路》一书(下)

其算法平台也集成了绝大部分

业界主流的机器学习算法。

品《阿里巴巴大数据理论-大数据之路》一书(下)

让笔者有点吃惊的是阿里还搞了数据挖掘

中台,这个笔者以前也想做过,但后来发现跟数据仓库的融合

模型(比如

宽表)有很多相似

之处,因而

没坚持下去。

阿里将数据中台分为三层:特征层(FDM)、中间层和应用层(ADM),其中中间层包括个体中间层(IDM)和关系中间层(RDM),如下图所示:

品《阿里巴巴大数据理论-大数据之路》一书(下)

FDM层:用于存储在模型锻炼
常用的特征指标,这个跟融合

模型的宽表相似

,笔者很猎奇
阿里的数据仓库的DWS仅仅是集聚

层还是包括了宽表,否则跟这个FDM是有很大相同
的。

IDM层:个体挖掘

指标中间层,面向个体挖掘

场景,用于存储通用性强的结果数据,其真实
笔者看来就是通用标签库的源表,那个ADM就是个性标签的源表,不知道

有没了解

对。

数据挖掘

这一章很短,缺乏一些细节,想来跟部门的定位有关,数据挖掘

普通
应用导向,中心
的东西大多可能控制
在各类业务部门的挖掘

师手中,笔者关于
数据挖掘

中台的理论

价值还是有疑问的,毕竟挖掘

千变万化,数据仓库建模好了解

,但数据挖掘

搞中台怎样
能跟得上变化?

3、数据模型

数据建模在这本书占领
了三分之一篇幅,可见其重要性,第一
谈谈阿里数据模型的历史吧,其实跟笔者还有很多渊源,由于
2005-2007年间为公司效劳
的某协作
同伴
大量BI人员跳槽到了阿里,听说
构建了阿里的一代数据仓库系统,这些人员很多跟笔者同事
过,往常

读来,还是有点慨叹

(1) s 历史展开

第一阶段:完好

应用驱动的时期
,数据完好

以满足报表需求为目的,将数据以与源结构

相同的方式同步到Oracle,这跟笔者当年刚进公司的状况

相似

第二阶段:随着阿里业务的快速展开

,数据量飞速增长,性能成为一个较大问题,需求
经过
一些模型技术改动
烟囱式的开发模型,消弭
数据冗余,提升数据分歧
性,来自传统行业的数据仓库工程师开端
尝试架构工程范畴
比较

盛行
的ER模型+维度模型方式应用到阿里巴巴集团,构建出一个四层的模型架构,即ODL(数据操作层)+BDL(基础

数据层)+IDL(接口数据层)+ADL(应用数据层)。ODL与源系统分歧
,BDL希望引入ER模型,增强

数据的整合,构建分歧
的基础

数据模型,IDL基于维度模型办法

构建集市层,ADL完成应用的个性化和基于展示

需求的数据组装,这个对应笔者所在企业的当前的ODS,DWD,DWA/DWI及ST层,但阿里在构建ER时碰到了较大的应战
,主要是业务快速展开

,人员快速变化、业务学问
功底的不够全面,招致
ER模型产出艰难

阿里得出了一个结论:在不太成熟、快速变化的业务层面,构建ER模型的风险很大,不太适合

去构建ER模型,说的有点道理,比如

运营商业务相对比

稳定,国际上也有一些最佳理论
,从概念-范畴
-逻辑-物理的全局把控上还能应对,但面对变化,的确

有其限制。

第三个阶段:阿里业务和数据飞速展开

,迎来了hadoop为代表的分部署存储计算的快速展开

,同时阿里自主研发的散布

式计算平台MaxCompute也在中止

,因而

开端
树立

自己

的第三代模型架构,其选择了以Kimball的维度建模为中心
理念的模型办法

论,同时中止

了一定的升级

和扩展,构建了阿里巴巴集团的公共层模型数据架构体系。

阿里模型分为三层:操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS),模型层包括明细数据层(DWD)和汇总数据层(DWS)。

ODS:把操作系统数据简直

无处置
的寄存

到数据仓库系统中。

CDM:又细分为DWD和DWS,分别是明细数据层和汇总数据层,采用维度模型办法

作为理论基础

,更多采用一些维度退化办法

,将维度退化至事实表中,减少事实表和维表的关联,进步
明细数据表的易用性,同时在汇总数据层,增强

指标的维度退化,采取更多的宽表化伎俩

构建公共指标数据层,提升公共指标的复用性。

ADS:寄存

数据产品个性化的统计指标数据,依据

CDM与ODS加工生成。

细致

见如下模型架构图:

品《阿里巴巴大数据理论-大数据之路》一书(下)

关于模型的分层每个行业都能够

基于自己

的理论

去划分,没有所谓的最佳理论
,比如

笔者所在的企业,源端维度分歧
性十分

好,DWD主要做规范

化工作,屏蔽ODS变化招致
的上层改动,关于维度建模的理念更多体往常

DWA/DWI层中。

(2) s 模型实施

OneData是阿里的模型设计理论,我觉得写得很好,你看完这个过程,基本

会搞分明

维度建模的各个步骤,猛烈

倡议

分别

后面的维度和事实表建模中止

精读,主要步骤如下:

数据调研:业务调研需求
对业务系统的业务中止

了解

,需求剖析

则是搜集
剖析

师运营人员对数据或者报表的需求,报表需务实
际是最理想
的建模需求的基础

架构设计:分为数据域划分和构建总线矩阵,数据域划分是指面向业务剖析

,将业务过程或者维度中止

笼统
的汇合

,业务过程能够

概括为一个个不可拆分的行为事情
,如下单、支付等。构建总线矩阵需求
明白
每个数据域下游哪些业务过程,业务过程与哪些维度相关,并定义每个数据域下的业务过程和维度。

品《阿里巴巴大数据理论-大数据之路》一书(下)

品《阿里巴巴大数据理论-大数据之路》一书(下)

规范

定义:规范

定义主要定义指标体系,包括原子指标、修饰词、时间周期和派生指标,关于指标的规范

定义阿里有单独的一节描画

,大家能够

好好学习一下,很多时分
细节决议
成败。

模型设计:模型设计主要包括维度及属性的规范

定义、维表、明细事实表和汇总事实表的模型设计。

最终
,用一张图镇楼,这张图可值回书价哦。

品《阿里巴巴大数据理论-大数据之路》一书(下)

本书后面用两大节来引见
维度设计和事实表设计,由于过于细节,笔者就不再展开了,假定

你是建模人员,一定要好美观
看,也能够

参考《数据仓库工具箱-维度建模权威指南》这本书,普通
在建模过程中你碰到的很多问题它都有处置

战略
,你未来

可能碰到的建模问题,这本书也提及了很多,是建模人员的宝贵

的实战参考资料

4、数据管理

数据管理触及
的东西很多,这本书细致

提到了元数据、计算管理、存储和本钱
管理和数据质量,相对内容比较

单薄

,我挑两点说一下:

不时

听说阿里财大气粗,一切
数据都永世
保管

,其实是谬传,人家也是节约过日子的,看下图你就知道

了:

品《阿里巴巴大数据理论-大数据之路》一书(下)

品《阿里巴巴大数据理论-大数据之路》一书(下)

应对层出不穷的数据和应用,数据工程师其实很难确认哪些数据是最重要的,需求
优先保证
,阿里巴巴提出了数据资产等级的计划

,旨在处置

消费场景知晓的问题,其将数据划分为五个等级,消灭
性质、全局性质、部分

性质、普通
性质及未知性质,代号从A1到A5。

那么怎样
个每份资产打上等级标签呢,就是借助强大的元数据才干

,了解

哪些表效劳
于哪些数据产品,基于血缘剖析

能够

讲整个消费链路上打上某一类资产的标签,假定

将阿里巴巴生意顾问

定位等级A2,则一切
相关链路的表的等级都是A2,从而启动对应的保证
措施,这个跟笔者企业的大数据保证
办法

相似

,从应用重要水平

肯定
表的保证
等级。

5、数据应用

阿里主要引见
了对外的数据产品平台生意顾问

和效劳
于内部的数据产品平台。

生意顾问

实质

上就是为自己

的渠道提供的增值效劳
,是很胜利

的一款决策支持产品,表现
了一个产品怎样
从小做起,逐步

长成一个庞然大物的过程:

品《阿里巴巴大数据理论-大数据之路》一书(下)

品《阿里巴巴大数据理论-大数据之路》一书(下)

对内数据产品的演进简直

是每一个公司BI系统的展开

翻版,但显然它曾经
长成大树了,从暂时
取数阶段,到自动化报表阶段(比如

BIEE),再到自主研发BI阶段(第三方满足不了自己

了),最终
到数据产品平台(愈加
体系化)。

当前阿里的数据产品平台,包括PC和APP版本,共有四个层次,即数据监控、专题剖析

、应用剖析

及数据决策。

品《阿里巴巴大数据理论-大数据之路》一书(下)

到这里,基本

就读完了,整本书都是阅历

之谈,读下来闪光频现,倡议

能够

多读几遍。

这本书也引发了笔者一些思索

,为什么他们能做成?我们传统企业大数据的差距在哪里?是机制流程问题?数据产品的传承问题?协作
同伴
的问题?中心
才干

自控问题?业务关于
数据产品的驱动力问题?小步快跑落地问题?企业产品的规划问题?

有些遗憾的是,这本书更多是就技术谈技术,鲜有数据内容方面的深度论述

,跟直接的价值发明

还有距离

,比如

标签库的管理,中心
算法研讨
,DMP怎样
做的等等,当然这个可能跟阿里的大数据管理组织分工有关系,也触及
企业的一些商业秘密

其实要想了解

的东西还有很多,包括机制流程,团队分工,部门协同,中台战略在大数据的落地等等,希望有机遇

学习。

期盼有更多的企业能分享他们在大数据方面的理论
阅历

,这对提升国内整体大数据管理水平

很重要。

发表评论

评论已关闭。

相关文章