随着各行各业信息化的普及,各类信息化业务系统时刻都在收集或产生着数据,经过长时间的积累,形成了海量的数据。而由于业务系统差异与隔离,这些系统中的数据往往存在完整性、准确性、有效性等诸多方面的问题。
针对上述问题,数据质量模块依托大数据技术,从数据的完整性、唯一性、准确性、有效性、及时性和连续性六个维度对数据质量进行检测与评估,对问题数据快速发现和分析,以可视化方式实现了数据质量的全局掌控和精细管理,为后续的数据分析和处理提供可靠的数据保障。
数据质量提供了数据的质量检查和评估功能,并支持生成质量检查报告和质量评估报告,可以使用户对数据状况有全面了解,方便用户进行有针对性的数据治理。
在数据运营平台中,数据质量架构如图1所示,同时支持对数据质量进行检测,或对指定数据源直接进行整体质量评估。
数据质量检查:根据实际规划创建数据质量检测规则,将规则与数据字段(支持设置过滤条件筛选)结合形成质量规则,将一组质量规则作为任务执行和调度,形成质量检查方案,实现对数据质量的监控。质量检查方案运行完成后,系统还会根据运行结果生成质量检查报告,包括明细报告和趋势报告。
数据源质量评估:直接对数据源配置对应的评估方案,根据任务中配置的各检测维度权重及数据倾斜度,得出数据源的整体评估情况,生成质量评估报告。
为方便用户理解数据质量的相关概念,基本术语说明如表-1所示。
术语 |
描述 |
规则模型 |
对数据进行质量校验时,使用的规则。通过设定条件或关系,即可生成规则模型 |
质量规则 |
指定数据字段与质量规则绑定,形成的可量化的、能够衡量数据质量好坏的规则对象 |
质量检查方案 |
由一个或多个质量规则组合构成的,可以按调度配置自动周期性执行,对数据持续进行检测,实现对数据质量的监控 |
质量评估 |
横向对比数据表各个评估项的错误率,以柱状图展示,方便查看错误率最高的评估项等信息 |
趋势报告 |
纵向对比数据字段在不同任务执行周期的检测结果变化,帮助了解数据在某方面的变化趋势 |
数据倾斜度 |
对各字段在数据表中的分布情况进行统计,得出的统计结果,展示数据表中的数据倾向(即哪类数据占更多比重) |
健康分 |
质量评估可以对数据源进行检测,根据各评估项检查评估问题情况,综合得出数据源的质量健康度得分 |
数据治理方案制定
在数据治理场景中,往往存在大量的历史数据,这些数据普遍有内容不规范、格式不统一、数据不完整等影响数据质量的问题,此时可以通过数据质量功能对这些数据的质量状况进行检查,生成数据表质量报告及数据源质量评估报告,以便了解数据中存在的质量相关问题,为制定数据整改或清洗等治理策略提供参考。
业务数据质量检查
在部分业务场景中,需要对业务产生的数据进行质量检测,检验数据是否符合要求。此时可以通过数据质量功能,针对需要检测的数据字段配置质量检查方案,并生成质量趋势报告,方便用户了解业务数据状况,及时发现问题。