数极客首页

如何提高数据质量?

大数据时期
带来了海量、多样、非结构

化的数据,我们得以中止

愈加
普遍
且深化
的剖析

,但这必需
树立
在高质量的数据上才有意义。本期以企业级的视角,引见
数据质量的评价、提升与监控。

大数据的时期
,数据资产及其价值应用
才干

逐步

成为构成企业中心
竞争力的关键要素;但是
大数据应用必需
树立
在质量牢靠

的数据之上才有意义,树立
在低质量致使

错误数据之上的应用有可能与其初心南辕北辙

南辕北辙

。因而

,数据质量正是企业应用数据的瓶颈,高质量的数据能够

决议
数据应用的上限,而低质量的数据则必然拉低数据应用的下限。

数据质量普通
指数据能够

真实、完好
反映运营
管理理论

状况

的水平

,通常可在以下几个方面权衡
和评价:

  • 精确

    性:数据在系统中的值与真实值相比的契合
    状况

    ,数据应契合
    业务规则和统计口径。常见数据精确

    性问题如:

1. 与理论

状况

不符:数据来源存在错误,难以经过
规范

中止

判别
与约束;

2. 与业务规范

不符:在数据的采集、运用
、管理、维护过程中,业务规范

缺乏或执行不力,招致
数据缺乏精确

性。

  • 完好
    性:数据的完备水平

    。常见数据完好
    性问题如:

1. 系统已设定字段,但在理论

业务操作中并未完好
采集该字段数据,招致
数据缺失或不完好

2. 系统未设定字段:存在数据需求,但未在系统中设定对应的取数字段。

  • 分歧
    性:
    系统内外部数据源之间的数据分歧
    水平

    ,数据能否
    遵照
    了统一的规范

    ,数据汇合

    能否
    坚持
    了统一的格式。常见分歧
    性问题如:

缺乏系统联动或联动出错:系统间应该相同的数据却不分歧
,缺乏必要的联动和核对。

  • 及时性:数据在采集、传送、处置
    等环节快速支持应用的水平

    ,调查
    数据的时间特性对应用的满足水平

    。及时性关系到系统能否在规则
    的时间内获取到系统需求
    的特定时间产生的数据,以完成系统功用
    。常见及时性问题如:

缺乏时效性:未依照

规则
的数据更新时间央求

对数据中止

更新。

  • 可用性:用来权衡
    数据项整合和应用的可用水平

    。常见可用性问题如:

1. 缺乏应用功用
,没有相关的数据处置
、加工规则或数据模型的应用功用
,获取目的
数据;

2. 缺乏整合共享,数据分散,不易有效整合和共享。

其他权衡
规范

再如有效性可思索
对数据格式、类型、规范

的服从
水平

合理性可思索
数据契合
逻辑约束的水平

。此前一项对某企业数据质量问题中止

的调研显现
常见数据质量问题中精确

性问题占33%,完好
性问题占28%,可用性问题占24%,分歧
性问题占8%,在一定水平

上代表了国内企业面临的数据问题。

进步
数据质量的首要任务是定义一套规范

化的数据规范

,对细致

数据项的定义、口径、格式、取值、单位等中止

规范

阐明

,构成
对该数据项的细致

质量央求

。依托这套规范

作为权衡
和进步
数据质量的标尺,可在数据采集、加工和应用的各环节对关键数据项中止

预防性或监测性的核检。广义的企业级数据字典能够

作为数据规范

化规范

的载体,对企业运营过程中触及
的数据项称号
、业务定义和规则等要素中止

收录、规范

和编制,对数据项描画

信息中止

规范

化处置
,统一定义对安全

性和数据质量的央求

,进而为业务运营提供牢靠

的数据效劳
、进步
整体数据质量奠定基础

。理想状况

下广义的企业级数据字典是完备的,企业各系统全部数据项都被数据字典收录,不存在同名不同义或同义不同名的状况

。与此相对,狭义的数据字典通常是针对单一系统的技术属性规范

,为单一系统的开发和应用效劳

企业级数据字典通常分为三层:数据项、值域和域取值。数据项层面的规范

主要包括称号
、业务规则定义、数据安全

央求

和数据质量央求

等。

  • 数据项称号
    :包括数据项的中文称号
    、英文称号
    和英文简称,含义不同的数据项称号
    不同,物理数据库应沿用数据字典定义的全局独一
    的英文简称对字段命名
  • 业务规则定义:包括数据的业务含义、转换规则、加工规则等安全

    元数据:包含数据来源、一切
    者和访问权限等安全

    央求

    的定义

  • 数据质量央求

    :在数据规范

    定义基础

    之上,提出满足业务需求
    的数据长度、格式、取值、数据处置
    、勾稽关系等央求

    ,以此作为数据质量管理的落脚点

值域可细分为代码域、编码域、文本域、金额域、数值域、时间域等。例如“出生地”数据项对应值域为“行政区划”代码域,援用
国度
规范

GB-T2260-2016《中华人民共和国行政区划代码》,对应的域取值为该国标定义的代码表。再如“借记卡号”数据项对应值域为“19位卡号”编码域,定义16位卡号和19位卡号两种编码方式,不需罗列
对应细致

的域取值。

数据质量管理是指在数据创建

、加工、运用
和迁移等过程中,经过
展开
数据质量定义、过程控制、监测、问题剖析

和整改、评价
与考核等一系列管理活动,进步
数据质量以满足业务央求

。数据质量管理工作遵照
业务引领的准绳
,肯定
重点质量管控范围,并动态调整阶段性管控重点,持续优化。可依照

“谁创建

、谁担任
;谁加工、谁担任
;谁提供、谁担任
”的准绳
界定数据质量管理义务
,由数据流转环节的各义务
方对管辖范围内的数据质量担任
。对数据质量规则优先采取系统程序的自动化控制措施,并尽可能前移管控点,从源头上控制数据质量。

数据质量监控点通常针对关键数据项设置实施

,定义数据质量监控规则,生成监控报警,按严重性等级分级报告,由相应层级中止

处置
和响应。关键数据项依据

阅历

判别
,普通
影响较广如触及
多业务条线,或应用于关键业务环节如合约签署
、会计核算、绩效剖析

、产品定价、资金收付等,或应用于内部运营
管理、对外信息披露和行业监管央求

,例如财务报告数据和新资本协议实施

中明白
提出的重要指标项。

数据质量监控点的控制伎俩

分为预防型和监测型:

  • 预防性控制避免

    错误数据的产生,普通
    部署在数据采集点,用于控制手工输入的源数据,以及批量导入的源数据校验:

1. 数据输入校验:例如贷款利率的输入校验;

2. 数据阈值:例如数据非空,数据取值超出值域定义合理范围,数据格式不契合
规范

等;

3. 质量控制方式:系统自动校验/双人手工复核;

4. 系统校验方式:强迫
,如不契合
规则无法经过

  • 监测型控制监测错误数据,发现数据质量问题中止

    报警。普通
    部署在数据加工和应用环节,考证
    数据完好
    性、分歧
    性和精确

    性等:

1. 数据输出校验:例如贷款余额总分核对

2. 数据分歧
性:例如买卖
头寸与总帐系统记载
的买卖
头寸分歧

3. 质量控制方式:系统自动校验

4. 系统校验方式:非强迫
,错误及差别

提示

对选定的关键数据项,需定义数据质量规则以及数据质量等级。数据质量等级可应用
“阈值”和“容忍度”中止

分级:

  • 良好:数据项质量评分高于“阈值”
  • 可容忍:数据项质量评分低于“阈值”,但高于“容忍度”
  • 报警:数据项质量评分低于“容忍度”
  • 严重报警:数据项的质量问题将带来十分

    严重的影响,人工阅历

    判别

关键数据项监控点的细致
信息应在企业级数据字典中维护更新,与其开发、实施

和测试状况

坚持
同步。

在中止

数据质量分等级报告及响应纠错时应恪守

如下准绳

  • 及时性。对招致
    数据质量等级进入“可容忍”、“报警”和“严重报警”状态的数据质量事情
    能够

    及时发现、报告和处置

  • 规范

    性:针对分级别的数据质量问题,汇报至利益相关方,配置相应资源;

  • 高效性:数据质量问题,在分级别规则
    时间内被处置

    。应依照

    “可容忍”、“报警”和“严重报警”酌情规则
    响应时间;

  • 有序性。在展开
    数据质量分等级报告工作时,应有序上报、统一指导
    、分级担任

部署在UDP层面的数据质量监控程序实时或定期监测关键数据项的质量,对其数据质量中止

评分,经过
比较

该监控点的“阈值”和“容忍度”,将数据质量中止

分级,关于
非“良好”的评价结果,数据质量监控程序将发送报警音讯

通知数据质量管理人员。报警音讯

内容包括问题定位头文件和细致

描画

。数据质量管理人员依据

报警信息调查询
题数据项,考证
报警内容,生成预警信息通知下游用户,同时填制纠错工单通知相关义务
人员。相关义务
人员依据

纠错通知提示的细致

内容,展开
数据质量问题调查,提出数据质量改进

需求和处置

计划

,由实施

运维团队在数据应用层面修正,或在数据采集和集成层面修正。若纠错告警问题由数据质量央求

过于严苛或控制规则错误惹起
,应修正
关键数据项清单及其相关监控规则,并由实施

运维团队修正
或取消已部署的对应监控点。

发表评论

评论已关闭。

相关文章