[数据质量管理EsDataClean] 你的数据也需要进行数据质量管理

1639
0

辰哥 管理员

发表于2019-6-19 15:52

楼主
越来越多的企业领导者开始意识到大数据对企业的巨大影响,但是,有一个重要的提醒:如果企业的数据不准确,不完整且不一致,则在做出业务决策时可能会导致重大失误。实际上,Gartne估计数据质量不佳对企业的平均财务影响为每年1,500万美元,这意味着数据质量发挥着重要作用。
在大数据时代的当下,数据分析为企业的决策提供强有力支撑,然而,数据质量却是数据分析准确性的前提,因此,我们对数据质量的管控必不可少。

数据存在哪些质量问题
准确性问题:数据记录可能出现错误或者数据本身存在异常,比如字符型数据在数据库中存取时可能出现乱码现象;年龄一般介于1-100之间;概率性的取值需要在0-1之间或使用百分比表示。然而,有些错误数据在没有表现出明显异常时,是很难被直观发现的。
完整性问题:数据量大时很可能出现数据行或某行数据的某些字段的缺失,而数据的完整性是数据质量的基础。
一致性问题:同类数据的编码和格式是否一致,比如网站中用户id设置为15位数,图书馆设置图书的编码格式为一个大写英文字母表示分类,加上4位数字表示摆放位置,一致性问题是数据质量检测中相对复杂的部分。
及时性问题:对分析师来说,需要第二天就能看到数据,如果数据过了几天才生成,那这些数据再准确,也丧失了意义。所以数据的及时性也是数据质量检测的重要组成部分。

有效检测数据的质量问题


13种检查规则
子曰:工欲善其事,必先利其器。作为一款数据治理产品,如何能够“慧眼”诊断出数据中存在的各类问题,离不开质量管理平台内置的核心“武器”——质量评估算法。
亿信华辰数据质量管理平台提供了13种检查规则,从各方位对数据的质量问题进行检测。其中值域检查、规范检查、逻辑检查、重复数据检查、离群值检查、波动检查、平衡性检查和sql脚本等规则能有效检测数据的准确性;空值检查、记录缺失检查和引用完整性检查能有效检测数据的完整性;规范检查和数据集检查能有效检测数据的一致性;及时性检查能有效检测数据的及时性。
面对不同的数据用途,我们可以针对性选取一种或多种不同规则结合进行检查,对于不需要检查的特殊字段可以采用例外处理,从而突出其他字段的检查效果。最终形成的检查结果也能有效定位到具体错误的数据行,便于进行修改,提高数据的质量。

不同维度的质检结果分析与展示

质检报告展示图
数据质量报告是通过图文并茂的报告形式将数据质量问题进行周期性的说明,可供主管领导查看及对外发布。用户可使用生成的质检结果表、规则情况以及错误数据量等,制作自定义分析报表,更简单、明了的查看数据的质量。

亿信华辰数据质量管理平台就能针对提供数据质量检查报告,例如上图报告中显示了不同机构的数据质量评分情况以及各级次检查错误情况,还能查看各机构使用的各个规则分别产生的错误数据量,明确指出具体哪个部分数据在某规则下的错误数据量最大,引起重视;除了分机构展示,用户还能查看在某个数据级次下不同数据期的数据质量变化趋势以及在不同规则检查下的数据质量比较情况。




最近看过此主题的会员

xiaolinzi

wxw

esen_52IK9ILVVR

binshi

esen_4VMU4XR8VE

dongying

jrjrjr

yzyz

本喵是大侠

0个回答

只看楼主

登录后可回答问题,请登录注册

快速回复 返回顶部 返回列表

小时

全天响应

分钟

快速处理问题

工程师强势助力

明星产品
解决方案
联系合作

400咨询:400-0011-866

技术支持QQ:400-0011-866(工作日9:00-18:00)

产品建议邮箱yixin@esensoft.com

关注我们

扫TA学习更多干货

一对一专家交流

版权所有© 2006-2024 北京亿信华辰软件有限责任公司 京ICP备07017321号 京公网安备11010802016281号