数极客首页

部署大数据,请参考大数据分析平台架构!

怎样
部署大数据?请参考下面的案例,大数据剖析

平台架构(BIg Data Analytics Platform)。

一、数据剖析

平台层次解析

部署大数据,请参考大数据剖析平台架构!

数据源: 除该种办法

之外,还能够

分为离线数据、近似实时数据和实时数据。依照

图中的分类其实就是阐明

了数据存储的结构

,而特别要说的是流数据,它的中心
就是数据的连续性和快速剖析

性;

计算层: 内存计算中的Spark是UC Berkeley的最新作品,思绪
是应用
集群中的一切
内存将要处置
的数据加载其中,省掉很多I/O开支
和硬盘拖累,从而加快计算。而Impala思想来源 于Google Dremel,充沛

应用
散布

式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实时查询;底层的文件系统当然是HDFS独大, 也就是Hadoop的底层存储,往常

大数据的技术除了微软系的不测
,基本

都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二 版,和在一同
就是Hadoop最新版本。基于之上的应用有Hive,Pig Latin,这两个是应用
了SQL的思想来查询Hadoop上的数据。

关键: 应用
大数据做决策支持。R能够

帮你在大数据上做统计剖析

,应用
R言语
和框架能够

完成
很专业的统计剖析

功用
,并且能应用
图形的方式展示

;而Mahout就是 一个集数据挖掘

、决策支持等算法于一身的工具,其中包含的都是基于Hadoop来完成
的经典算法,拿这个作为数据剖析

的中心
算法集来参考还是很好的。

如此一个决策支持系统要怎样
展示

呢?其实这个和数据挖掘

过程中的展示

一样,无非就是经过
表格和图标图形来中止

展示

,其实一份分类细致
、颜色艳丽、数 据权威的数据图标报告就是呈现给客户的最好方式!至于用什么工具来完成
,有两个是最好的数据展示

工具,Tableau和Pentaho,应用
他们最为数据 展示

层绝对是最好的选择。

二、规划的数据平台产品AE(Accelerate Engine)

支持下一代企业计算关键技术的大数据处置
平台:包括计算引擎、开发工具、管理工具及数据效劳
。计算引擎是AE的中心
部分

,提供支持从多数据源的异构 数据中止

实时数据集成、提供散布

式环境下的音讯

总线、经过
Service Gateway能够

与第三方系统中止

效劳
整合访问;设计了一个散布

式计算框架,能够

处置
结构

化和非结构

化数据,并提供内存计算、规划计算、数据挖掘

、流计 算等各种企业计算效劳
。Data Studio包括了数据建模、开发、测试等集成开发环境。管理工具包括了实施

、客户化及系统管理类工具。AE平台还能够

经过
UAP开发者社区提供丰厚
的数 据效劳

部署大数据,请参考大数据剖析平台架构!

AE架构图

新规划将BAP平台拆分为两部分

,底层技术平台展开

内存计算和数据处置
,上层BI展示

端重点展开

仪表盘、web和移动

设备展示

两大产品经过
数据处置
接口和嵌入式应用效劳
于业务系统。

部署大数据,请参考大数据剖析平台架构!

生态系统图

大数据处置
平台担负着为BI系统提供语义层/OLAP引擎等底层技术支撑、BI及ERP系统的性能提升、以及数据挖掘

、非结构

化数据处置
等系列数据整合与处置
的处置

计划

细致

模块包括:

语义层:为统一的查询建模平台和数据访问接口。除提供规范

的查询建模才干

外,还有语义驱动、语义规则、语义函数、描画

器等等扩展方式,满足不同层面的扩展央求

OLAP引擎:OLAP引擎提供全面的多维建模与剖析

才干

。多维模型包括维度、层次、级别、属性、指标、计算成 员等;同时预置系列剖析

函数,包括同比/环比/期比/基比等时间序列剖析

、占比/排名/方差等统计剖析

、指数回归和线性回归剖析

等;提供规范

的MDX解析 与执行,与数据仓库等模块分别

,提供针对海量数据的实时剖析

和处置
才干

数据集成:能够

胜任在大数据量、高并发、多维剖析

等环境背景下的实时剖析

。经过
实时数据集成(RDI)提供的数据实时复制与DW的列式存储引擎,处置

了以往在传统架构方式

下,普通行式存储引擎无法完成
的业务场景。

数据挖掘

:支持运转
于散布

式文件系统和散布

式计算平台之上的散布

式数据挖掘

算法,细致

包括:逻辑斯特回归、朴素 贝叶斯分类算法及其散布

式完成
;K均值、谱聚类算法及其散布

式完成
;潜在狄利克雷分配语义挖掘

算法及其散布

式完成
;频繁方式

挖掘

剖析

算法及其散布

式完成
; 协同过滤、概率矩阵合成
举荐

算法及其散布

式完成
;提供散布

式挖掘

算法的统一操作原语和执行引擎。

数据仓库:数据仓库提供针对海量数据中止

高效的查询和剖析

。包括同时支持关系数据库、NoSQL数据库、以及散布

式文件系统中止

数据存储和加载的多存储引擎,基于MapReduce框架针对海量数据的高性能查询和剖析

,以及MapReduce 框架自身

具有的高扩展性和容错性。

非结构

化数据管理:非结构

化数据不包含内嵌的语义结构

描画

信息,而信息系统需求
分别

其“内容”而不只
仅是数据本 身中止

查询、检索、剖析

与挖掘

,因而

非结构

化数据管理系统需求
完成
非结构

化数据的数据提取,提取的非结构

化数据是中止

后续处置
的基础

,细致

包括结构

化信息 和底层/高层特征的提取两个。非结构

化数据提取组件依赖于散布

式文件系统和非结构

化数据存储提供的原始数据作为数据源数据,依赖于非结构

化数据存储来存储 提取的元数据或者特征数据,依赖于并行计算框架来散布

化执行过程,加快执行速度。

音讯

总线:包括主数据管理、集中身份管理、应用集成开发环境、集成监控管理等。满足集成平台的应用需求,支持界面集成、信息集成、效劳
集成、流程集成等集成方式。

散布

式计算系统:包括散布

式文件系统和散布

式计算框架。散布

式文件系统以高牢靠

的容错机制为中心
,系统架构包括 多元数据效劳
器、多数据存储效劳
器、多监管者、多客户端,支持大文件和大数据块的散布

式存储与管理;散布

式计算框架基于MapReduce与MPI计算模 型,提供了一套并行计算框架;并应用
物理机以及虚拟机的监控信息,完成
对计算资源的合理分配,支持对大量工作任务的灵活

切分和散布

式调度。

流计算引擎:流计算引擎是为处置

系统的实时性和分歧
性的高央求

的实时数据处置
框架,具备高可拓展性,能处置
高频数据和大范围
数据,实时流计算处置

计划

被应用于实时搜索、高频买卖
大数据系统上。

参考文献

怎样
应用
大数据中止

辅助决策?

规划的数据平台产品AE(Accelerate Engine)

作者:Joe Jiang

来自:深度开源

链接:http://www.open-open.com/lib/view/open1428030448865.html

发表评论

评论已关闭。

相关文章