数极客首页

如何利用数据仓库优化数据分析?

在整个数据剖析

流程中,数据处置
的时间常常
要占领
70%以上!这个数字有没有让你震惊呢?为了进步
剖析

效率和质量,借用数据仓库中止

数据剖析

是一个很好的选择,细致
的工作办法

本文都有所引见

第一
,我们来了解

一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对稳定的、反响
历史变化的数据汇合

。那数据剖析

又是干什么的呢?笔者仰仗

个人的阅历

以为
,基于业务需求,分别

历史数据,应用
相关统计学办法

和某些数据挖掘

工具对数据中止

整合、剖析

,并构成
一套最终处置

某个业务场景的计划

就是数据剖析

的过程。

数据剖析

大致包括以下流程:

业务了解

– 数据了解

– 数据准备 – 建模 – 评价
– 部署

由于数据剖析

对数据质量、格式的央求

自然
就比较

高,对数据的了解

也必需
十分

深化

,使得数据契合业务需求也要一定的过程,这样,依据

我们的阅历

,在整个数据剖析

流程中,用于数据处置
的时间常常
要占领
70%以上。

因而

,怎样
高效、快速地中止

数据了解

和处置
,常常
决议
数据剖析

项目的进度和质量。而数据仓库具有集成、稳定、高质量等特性
,基于数据仓库为数据剖析

提供数据,常常
能够

愈加
保证数据质量和数据完好
性。

应用
数据仓库中止

数据剖析

无疑能够

给我们的工作带来很大便利,那么,究竟

要怎样
操作呢?我们第一
需求
了解

数据仓库的优势,数据仓库至少能够

从如下三个方面提升数据剖析

效率:

1. 数据了解

数据仓库是面向主题的,所以其自身

与业务分别

就相对紧密

和完善,更便当
数据剖析

师基于数据了解

业务。下图是Teradata关于金融行业的成熟模型:

怎样应用数据仓库优化数据剖析?

我们能够

看到,整个数据仓库被分为十大主题,而金融行业一切
的数据、业务都会被这十大主题涵盖。当我们需求
找某个信誉
卡账户信息时,我们就去协议(AGREEMENT)主题,需求
某次存款买卖
信息时就去探寻事情
(EVENT)主题,需求
某个理财富
品相关信息就挖掘

产品(PRODUCT)主题,如此类推,我们就会发现十大主题将整个金融行业的数据划分得十分

明晰
,我们需求
做的就是拿到业务需求,了解

数据仓库的模型,数据了解

也就瓜熟蒂落

了。

2. 数据质量

数据剖析

央求

数据是洁净

、完好
的,而数据仓库最中心
的一项工作就是ETL过程,流程如下:

怎样应用数据仓库优化数据剖析?

而数据仓库曾经
对源系统的数据中止

了业务契合的转换,以及脏数据的清洗,这就为数据剖析

的数据质量做了较好的保证

3. 数据跨系统关联

怎样应用数据仓库优化数据剖析?

上图是数据仓库的一个简单架构,能够

看到,各业务源系统的数据经过ETL过程后流入数据仓库,当不同系统数据整合到数据仓库之后,至少处置

数据剖析

中的两个问题:

第一,跨系统数据搜集
问题,同一个客户的储蓄买卖
和理财买卖
我们在同一张事情
表就能够

找到;

第二,跨系统关联问题,同一个客户可能在不同系统中记载
了不同的客户号,致使

存在不同的账号,中止

数据整合时,总是需求
找到共同的“纽带”来关联来自不同系统的信息,而数据仓库在ETL过程中就会整合相关客户信息,圆满
处置

跨系统关联问题。

可见,数据仓库是整合的、面向主题的、数据质量高的、跨系统的优质数据源,那么,我们该怎样
充沛

应用
这些优势呢?笔者总结了如下阅历

1.? 研讨
数据仓库模型
:数仓的精髓

就是面向主题的模型,能了解

各大主题域范畴,熟习
不同主题间的关系,基本

就控制
了数仓的架构;

2. 学习数据仓库设计文档:设计文档是业务与数据,数仓与源系统的桥梁,熟习
表间mapping映射,就能快速定位需求变量的来源和处置
逻辑,全面了解

相关业务;

3. 熟习
数据字典表
:数据字典是数据仓库物理存储的信息库,能够

经过
数据字典了解

库、表、字段不同层级的关系、存储、类型等信息;

4. 研讨
ETL脚本
:学习几个数据仓库ETL加工脚本,能更细致的探求

数据加工处置
逻辑,更分明

的了解

数仓加工方式

,快速控制
数据加工技巧;

5. 察看

明细数据:想要真正了解

数据,就必需
对细致

数据中止

不同维度和层次的察看

;比如

事情
表,从买卖
类型、时间、渠道、业务种类

等多个维度捞几条数据,察看

某个相同条件下不同维度的买卖
变化,了解

银行买卖
的全景信息,辅佐

了解

业务,熟习
数据。

事实上,除此之外,数据处置
人员还应该从中学习到数据仓库的思想:面向主题,逐层加工。

面向主题是指让杂乱的数据分别

业务划分,更容易着手处置
原本

杂乱的数据,数据处置
人员只需知道

哪些数据属于哪个主题,然后基于主题再进一步处置
;逐层加工则是指让细粒度的数据走向宽表的过程明晰
,有层次,数据处置
过程中分明

每一步的产出是什么。

其实,每一个数据剖析

师或者数据处置
师都会有自己

的工作习气
和阅历

,以上是笔者阅历
两年多数据仓库开发、三年数据仓库和数据剖析

兼职者的阅历

总结的一些心得,希望对大家有所辅佐

发表评论

评论已关闭。

相关文章