大数据时代,我们该如何保障数据质量
浏览:280次 作者:小编大数据时代,数据在无时无刻的产生,企业会使用数据工具来收集并利用数据,但是如果原始数据中包含错误数据,不加以处理的话会导致错误的结果。因此企业数据管理人员必须要保障数据的质量。以下介绍了5种方法,以供相关人员参考。
1设置质量标准
想要保障数据质量,建立一套质量标准是必不可少的,需要明确定义标准,在数据收集过程中过滤掉“脏数据”,通常可以定义以下几个条件。
数据约束:有多种类型的数据约束可确保收集的数据具有最佳质量,例如:
◆数据类型约束:仅限于注册值的范围,例如布尔值,数字,日期等。
◆范围限制:数值不是绝对的,而是具有最小和/或最大允许值。
◆强制性约束:必须填写所有列。
◆唯一性约束:每个字段或字段组合在整个数据集中都必须是唯一的。
◆成员资格约束:每列中的一组离散值或代码。
◆外键约束:子值可以通过一组允许值添加到其他列。
◆正则表达式模式:设置允许的模式,例如电话号码,站号,密码等模式。
设置数据约束有助于在数据收集过程的一开始就保持数据质量。
2确保准确性
虽然数据约束在一定程度上能够确保正确的数据值,但考虑到该领域的主观方面,准确性仍是一个挑战。我们可以通过以下方法来提高准确性。
◆检验:执行检验以检测整个质量标准中数据的不准确性
◆清理:从数据集中删除异常
◆验证:对清洁过程进行交叉验证,以确保消除了每个方面的不准确性和不一致性
◆报告:创建有关所做的更改以及有关系统中记录的数据的当前质量的报告。
数据质量管理是一个持续的过程,因为时间的变化,可能会影响到数据的质量。定期的进行数据质量管理助于业务决策的开展。
3删除重复数据
当组合多个数据集以生成洞察力时,数据集中就会出现重复。
重复的数据可能是数据不完整的结果,也可能是数据结构中的问题。
4仅接受完整数据
绝大多数软件不接受不完整的数据,使用电子表格或是基于纸张的表格会导致数据不完整。
5保持统一性和一致性
数据的统一性和一致性对于获得准确的结果非常重要,当不同字段的两个值互相矛盾时,数据会不一致。合并多个部门或时间范围的数据时也可能出现这种情况。
为了解决社会对数据管理人才的紧迫需求,规范化数字要素市场,推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护三项要求,DAMA中国特决定建立一个长期的“数据人才”成长计划,面向个人开展培训认证。
为了便于国内广大数据从业者学习相关认证,DAMA中国以DAMA数据管理知识体系为基础,结合国内实际需求,对DAMA国际组织的CDMP数据管理专业人员认证的考试语言、考试形式、考试内容、证书类型等进行了适当本地化重构。重构后认证考试分为CDGA(数据治理工程师)和CDGP( 数据治理专家 )。
中培IT学院是DAMA授权的专业培训机构,提供CDGA、CDGP、CDMP等30余项国内外资质认证服务。培训采用线下面授+线上培训的形式,打通多维度学习场景。并赠送超全教辅、365天回放、题库实时更新、考前冲刺、全流程报考等服务。让学员考证更轻松,取证更省心。
- 标签: 数据治理 CDGA CDMP