• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C 绿洲数据运营平台 数据质量 配置指导-5W101

01-正文

本章节下载  (1.28 MB)

docurl=/cn/Service/Document_Software/Document_Center/Big_Data/Catalog/H3C_LZRH/H3C_LZSJ/Configure/Operation_Manual/H3C-3878/202206/1639623_30005_0.htm

01-正文


1 概述

说明

本文以E5202版本为例,介绍数据质量的主要功能及整体操作流程。其他版本类似,但页面和操作可能存在差异,请以实际情况为准。

 

数据质量是绿洲数据运营平台中用于对系统中数据进行质量检测和评估的功能模块。

通过构建的质量规则对数据进行检测并生成质量报告,或通过对数据源中的数据进行数据质量评估,可以有效帮助用户掌握数据质量方面的情况。

1.1  简介

随着各行各业信息化的普及,各类信息化业务系统时刻都在收集或产生着数据,经过长时间的积累,形成了海量的数据。而由于业务系统差异与隔离,这些系统中的数据往往存在完整性、准确性、有效性等诸多方面的问题。

针对上述问题,可以对数据的质量进行检查评估,了解数据的具体情况,然后进行数据治理,最终可以实现更好地使用数据。

数据质量提供了数据的质量检测和评估功能,并支持生成质量报告和评估报告,可以使用户对数据状况有全面了解,方便用户进行有针对性的数据治理。

在数据运营平台中,数据质量架构如1-1所示。

图1-1 数据质量架构

 

数据质量模块支持对数据质量进行监控,并支持对指定数据源直接进行整体质量评估,简要说明如下:

·     数据质量检测:根据实际规划创建数据质量检测规则,将规则与数据字段(支持设置过滤条件筛选)结合形成指标,将一组指标作为任务执行和调度,形成质量监控任务,实现对数据质量的监控。质量监控任务运行完成后,系统还会根据运行结果生成数据表级的质量报告和指标变化趋势报告。

·     数据源质量评估:对数据源配置对应的评估任务,根据任务中配置的各检测维度权重及数据倾斜度,得出数据源的整体评估情况,生成质量评估报告。

1.2  功能使用前提条件

·     已明确需要质量监控或评估的数据范围和质量维度。

·     已完成数据源的添加。对于质量监控功能,如涉及对数据源中非本系统中创建的数据表进行质量监控,还需要完成对数据源的元数据采集。

1.3  使用场景

1. 数据治理方案制定

在数据治理场景中,往往存在大量的历史数据,这些数据普遍有内容不规范、格式不统一、数据不完整等影响数据质量的问题,此时可以通过数据质量功能对这些数据的质量状况进行检查,生成数据表质量报告及数据源质量评估报告,以便了解数据中存在的质量相关问题,为制定数据整改或清洗等治理策略提供参考。

2. 业务数据质量监控

在部分业务场景中,需要对业务产生的数据进行质量检测,检验数据是否符合要求。此时可以通过数据质量功能,针对需要检测的数据字段配置质量监控任务,并生成质量趋势报告,方便用户了解业务数据状况,及时发现问题。

1.4  依赖关系

本节介绍了数据质量对其他模块的依赖,以及被其他模块依赖的情况。

1. 依赖情况

数据质量的指标管理需要使用数据源中的数据表(含其中字段),还可使用标准管理中的代码;质量评估功能需要使用数据源。详细情况如表1-1所示。

表1-1 本模块对其他模块功能或数据的使用

本模块功能

依赖关系

其他模块功能或数据

使用说明

指标管理

必须

数据源管理

创建质量指标时,需要指定数据源中数据表的字段。因此,需要先将数据源加入数据源管理中,然后于创建质量指标过程中指定数据源中的数据表及字段

指标管理

非必须,可选用

标准管理-代码管理

在指标管理中创建值域校验类指标时,如果“约束类型”参数选择“多值约束”或“代码表约束”,则可以选择码表作为校验值,检查数据值是否在选定的代码范围内,校验数据质量

指标管理

非必须,可选用

数据资产-血缘管理

新建质量指标时,指标配置校验通过后,可以查看血缘关系;质量指标的详情页面中,也提供了查看血缘关系的功能。查看血缘关系功能由数据资产中的血缘管理提供。该功能不影响指标的创建和被质量监控任务引用

质量监控

非必须,可选用

数据资产-血缘管理

质量监控任务执行结果的详情中,提供了查看血缘关系的功能,该功能由数据资产中的血缘管理提供。但该功能不影响质量监控任务的运行

质量评估

必须

数据源管理

质量评估是针对指定数据源进行整体质量评估。因此,需要先将待评估的数据源加入数据源管理中,才可在配置质量评估任务时指定数据源

 

2. 被依赖情况

表管理功能对数据质量中的规则、指标等存在依赖关系,详细情况如表1-2所示。

表1-2 其他模块对本模块功能或数据的使用

其他模块功能

依赖关系

本模块功能或数据

使用说明

数据开发-表管理

非必须,可选配

规则模型、指标管理、质量监控

创建/编辑数据表时,可以选择配置质量检测指标(会选用表中字段和质量检测规则),并生成对应的质量检测任务,以实现对表中数据质量的持续监控

 

1.5  术语和定义

为方便用户理解数据质量的相关概念,基本术语说明如表1-3所示。

表1-3 产品术语

术语

描述

规则模型

对数据进行质量校验时,使用的规则。通过设定条件或关系,即可生成规则模型

质量指标

指定数据与指定质量规则绑定,形成的可量化的、能够衡量数据质量好坏的对象

质量监控任务

由一个或多个质量指标组合构成的,可以按调度配置自动周期性执行,对数据持续进行检测,实现对数据质量的监控

数据质量评估

横向对比数据表各个指标的错误率,以柱状图展示,方便查看错误率最高的指标等信息

指标趋势评估

纵向对比数据字段在不同任务执行周期的检测结果变化,帮助了解数据在某方面的变化趋势

数据倾斜度

对各字段在数据表中的分布情况进行统计,得出的统计结果,展示数据表中的数据倾向(即哪类数据占更多比重)

质量评级

质量评估可以对数据源进行检测,根据设定的各项质量指标权重,综合得出数据源的质量评估等级

表活跃度

根据数据源中各数据表的更新情况等,评估数据源中数据表的活跃度

 


2 功能介绍

数据质量模块通过制定各类数据质量校验规则,再绑定规则与数据表中的字段,形成质量指标,然后将质量指标组合成质量监控任务,形成数据质量监控方案。

数据质量模块可以根据质量监控任务的执行结果形成基于数据表和指标质量报告,还支持直接对数据源进行质量评估。

2.1  规则模型

规则模型指数据质量检测中使用的规则,是进行质量检测与监控的基础。在构建数据质量监控方案时,需要针对数据对象的特点,制定各类检测所需的规则模型。

系统内置了6条规则模型,是完整性、准确性、有效性、唯一性维度的通用质量检测规则。用户还可以根据实际的数据特点,创建自定义规则模型。

说明

规划自定义规则模型时,通常可以从完整性、准确性、有效性、唯一性、及时性、连续性维度,考虑数据需要进行的质量检测,六种维度详细说明请参见表2-2

在创建自定义校验规则时,需注意定义关系中的条件需为不合格数据的匹配条件。系统会将匹配自定义规则的数据识别为不合格数据

 

规则模型页面中提供的各项功能说明如表2-1所示。

表2-1 规则模型各功能说明

功能

说明

创建规则模型

新增

普通用户新建自定义规则,通过配置名称、维度和定义关系,可以生成匹配或筛选特定数据的规则模型。在涉及新增少量规则模型时,可通过该方式录入

导入

规则模型提供了批量导入功能:

·     通过下载模板表格并按模板中格式等要求录入规则模型信息之后,即可批量导入

·     直接导入已创建好的符合系统要求的表格(通常为预先准备的,或从其他系统中导出的)

在涉及新增大量规则模型时(如新建一整套质量监控方案时),可通过导入方式批量录入

管理规则模型

编辑

用于修改需要变更配置的规则模型。系统内置的规则模型不支持编辑

删除

用于删除已不再需要的规则模型。系统内置的规则模型不可删除

共享

用于将规则模型共享给其他用户及组织使用。规则模型的共享能够方便系统中其他用户使用,也可以减少不同组织中相同规则的重复创建

普通用户可以对自己创建的规则模型进行共享。超级管理员可以共享所有的规则模型,组织管理员可以共享本组织内的规则模型

查看详情

支持点击自定义规则模型名称查看规则模型详细配置

导出

规则模型可以导出用于批量编辑替换、不同环境间复用等。支持超级管理员或组织管理员对规则模型进行批量导出、全部导出

导出记录

记录导出操作,并提供导出文件下载。支持超级管理员或组织管理员查看规则模型的导出记录

 

对于质量规则维度的说明如表2-2所示。

表2-2 质量规则维度介绍

维度

说明

完整性

衡量数据完整程度,如空值校验,通常用于检查必须有值的数据列中是否存在空值(如名称等)

唯一性

衡量数据在某数据项或某组中的重复情况,如唯一性约束校验,通常用于检查需要具备唯一性的数据列中是否存在重复值(例如ID等)

准确性

衡量数据是否能够反映真实的内容,如值域校验、SQL条件检验等,通常用于检查必须符合某种限制条件的数据列是否存在不合格的值(如城市名称等)

有效性

衡量数据是否符合数据定义或业务定义的要求,如格式校验等,通常用于检查有格式、构成要求的数据列是否存在不合格的值

及时性

衡量数据的更新频率是否满足要求,如时间戳数据间隔校验等,通常用于检查记录数据生成时间的列是否存在与前一值间隔过长的值

连续性

衡量数据元素的类型与含义等方面的一致性,保证数据连续可用,如数据表一致性校验,通常用于检查数据迁移或加工前后数据表的一致性

 

2.2  指标管理

指标是由检测规则与数据结合组成的,用于衡量数据质量情况。

说明

指标被质量监控任务引用后,不可再对其进行删除操作。

 

指标管理中提供的各项功能说明如表2-3所示。

表2-3 指标管理功能说明

功能

说明

创建指标

新增

新建指标,通过选择规则模型与类型、指定数据字段、配置过滤条件、及告警条件等配置,生成数据质量检测指标

说明:对于值域校验指标,可以选用标准管理中的码表;对于指标字段配置,可以预览表数据,以便于核对校验规则是否恰当;当指标字段配置完成并校验通过后,可以预览该指标执行的具体SQL语句和数据的血缘关系

在涉及新增少量指标时,可以通过该方式录入

导入

指标管理提供了批量导入的功能:

·     通过下载模板表格并按模板中格式等要求录入指标信息之后,即可批量导入

·     直接导入已创建好的符合系统要求的表格(通常为预先准备的,或从其他系统中导出的)

在涉及新增大量指标(如新建一整套质量监控方案时),可通过导入方式批量录入,但须注意导入文件中,配置的数据源、模式、数据表和字段必须为本系统中已存在的数据源

保存草稿

在新增指标时,如指标还未编辑完成,需要离开新增页面,则可以使用保存草稿功能

管理指标

编辑

用于修改需要变更配置的指标

普通用户对自己创建的指标进行编辑,以调整配置内容。超级管理员可以编辑所有的指标,组织管理员可以编辑本组织内的指标

草稿

用于对新建指标时保存的草稿进行管理,支持恢复编辑、查看详情和删除操作

删除

用于删除已不再需要的指标

已被使用的指标不允许删除。普通用户对自己创建的指标进行单个删除、批量删除。超级管理员可以删除所有的指标,组织管理员可以删除本组织内的指标

共享

用于将指标共享给其他用户及组织使用。指标的共享能够方便系统中其他用户使用,也可以减少不同组织中相同指标的重复创建

普通用户可以对自己创建的已审批通过的指标进行共享。超级管理员可以共享所有审批通过的指标,组织管理员可以共享本组织内的审批通过的指标

版本

指标创建及每次编辑后即会生成一条版本记录,记通过选择指标的两个版本进行对比,可以查看描述、指标编号、告警配置、过滤条件的差异信息

详情

支持查看指标详细配置,可以在详情页面中预览表数据,执行质量检测SQL语句查看执行结果,查看数据字段的血缘关系

导出

指标可以导出用于批量编辑替换、不同环境间复用等。支持超级管理员或组织管理员对指标进行批量导出、全部导出

导出记录

记录导出操作,并提供导出文件下载。支持超级管理员或组织管理员查看指标的导出记录

 

2.3  质量监控

质量监控任务是由一组指标组合,配合调度配置,形成的对数据进行持续质量检测的监控任务,是形成数据质量报告的基础。

质量监控页面中提供的各项功能说明如表2-4所示。

表2-4 质量监控管理功能说明

功能

说明

创建质量监控

新增

通过选择指标,配置调度策略,创建质量监控任务

在涉及新增少量质量监控任务时,可通过该方式录入

导入

质量监控提供了批量导入功能:

·     通过下载模板表格并按模板中格式等要求录入质量监控任务之后,即可批量导入

·     直接导入已创建好的符合系统要求的表格(通常为预先准备的,或从其他系统中导出的)

在涉及新增大量质量监控任务(如新建一整套质量监控方案时),可通过导入方式批量录入

管理质量监控任务

编辑

用于修改需要变更配置的质量监控任务

普通用户对自己创建的质量监控任务进行编辑,以调整配置内容。超级管理员可以编辑所有的质量监控任务,组织管理员可以编辑本组织内的质量监控任务

删除

用于删除已不再需要的质量监控任务

普通用户对自己创建的质量监控任务进行单个删除、批量删除。超级管理员可以删除所有的质量监控任务,组织管理员可以删除本组织内的质量监控任务

共享

用于将质量监控任务共享给其他用户及组织使用。监控任务的共享能够方便系统中其他用户使用,也可以减少不同组织中相同任务的重复创建

普通用户对自己创建的质量监控任务进行共享。超级管理员可以共享所有的质量监控任务,组织管理员可以共享本组织内的质量监控任务

启动/结束

支持对质量监控任务手动启动或结束

对于手动调度的任务,仅能通过立即执行/批量启动,或停止任务/批量结束操作,进行控制;对于自动调度的任务,需要先结束调度,才可手动执行启动或结束操作

查看执行结果

支持查看任务的执行记录列表,并可以查看每次执行的详细信息

查看任务

支持点击质量监控任务名称查看质量监控任务中的调度配置和所有指标

导出

质量监控任务可以导出用于批量编辑替换、不同环境间复用等。支持超级管理员或组织管理员对质量监控任务进行批量导出、全部导出

导出记录

记录导出操作,并提供导出文件下载。支持超级管理员或组织管理员查看质量监控任务的导出记录

 

2.4  质量报告

质量报告是基于质量监控任务执行结果生成的,包括数据表质量报告和指标趋势报告。

质量报告中提供的各项功能说明如表2-5所示。

表2-5 质量报告功能说明

功能

说明

数据表质量报告

查看数据表质量报告

·     支持选取数据表,查看在该数据表相关的所有指标情况

·     支持选取数据表和某一指标,查看该数据表中该指标的情况

导出质量报告

支持导出当前正在查看的数据表质量报告

指标趋势报告

查看指标趋势报告

支持选取任务和任务下的指标,查看在任务多次执行后,该指标的变化趋势情况

 

2.5  质量评估

数据质量模块支持直接对特定数据源中的数据进行质量评估,通过按配置对数据源中的数据进行扫描检测,可以统计出数据源的信息,给出质量评级和活跃度,综合呈现数据源的质量。

·     质量评级是根据配置中设定的各项质量指标权重计算出评分,划分入对应的等级。

·     表活跃度:根据数据源中个数据表的更新情况等,评估出各数据表的活跃情况。

质量评估中提供的各项功能说明如表2-6所示。

表2-6 质量评估功能说明

功能

说明

创建质量评估任务

新建

支持选取特定的数据源,配置质量权重、数据倾斜度和告警设置,对数据源中的数据质量进行评估,形成质量评估报告

评估任务支持调度配置,可以手动执行或自动调度执行

导入

质量评估提供了批量导入版本功能:

·     通过下载模板表格并按模板中格式等要求录入质量评估任务信息之后,即可批量导入

·     直接导入已创建好的符合系统要求的表格(通常为预先准备的,或从其他系统中导出的)

在涉及新增大量数据源的质量评估配置时,可通过导入方式批量录入

管理质量评估任务

编辑

用于修改需要变更配置的质量评估任务

普通用户对自己创建的质量评估任务进行编辑,以调整配置内容。超级管理员可以编辑所有的质量评估任务,组织管理员可以编辑本组织内的质量评估任务

删除

用于删除已不再需要的质量评估任务

普通用户对自己创建的质量评估任务进行单个删除、批量删除。超级管理员可以删除所有的质量评估任务,组织管理员可以删除本组织内的质量评估任务

共享

用于将质量评估任务共享给其他用户及组织使用。评估配置任务的共享能够方便系统中其他用户使用,也可以减少不同组织中相同质量评估配置的重复创建

普通用户对自己创建的质量评估任务进行共享。超级管理员可以共享所有的质量评估任务,组织管理员可以共享本组织内的质量评估任务

启动/结束

支持对质量评估任务手动启动或结束

对于手动调度的任务,仅能通过立即执行/批量启动,或停止任务/批量结束操作,进行控制;对于自动调度的任务,需要先结束调度,才可手动执行启动或结束操作

查看执行结果

支持查看任务的执行记录列表,并可以查看每次执行的详细日志信息

查看任务

支持点击质量评估任务名称查看质量评估任务中的调度配置、数据源配置、质量权重配置、数据倾斜度配置及告警条件设置

导出

质量评估任务可以导出用于批量编辑替换、不同环境间复用等。支持超级管理员或组织管理员对质量评估任务进行批量导出、全部导出

导出记录

记录导出操作,并提供导出文件下载。支持超级管理员或组织管理员查看质量评估任务的导出记录

评估报告

查看评估报告

支持选取数据源,查看针对该数据源的质量评估报告,评估内容包括:数据源内容统计信息、质量评级、表活跃度、表详情信息

导出报告

支持导出当前正在查看的数据源质量评估报告

 

 


3 配置介绍

3.1  使用流程

在数据运营平台中,数据质量支持对数据表中的字段进行质量监控,还支持对数据源进行整体质量评估。

说明

在表管理功能中新建数据表时,可以使用数据质量模块中的规则,直接创建针对该数据表的质量检测配置,相关配置请参见联机帮助,本文不详细介绍。

 

图3-1 使用流程图

 

1. 数据质量监控

数据质量模块支持使用规则创建针对数据字段的指标,并构成质量监控任务,按调度配置持续执行检测,从而实现对数据质量的持续监控,形成数据质量监控方案。常规步骤如表3-1所示。

表3-1 数据质量监控使用流程说明

操作

说明

开始

-

准备数据

将待检测数据所属的数据源加入数据源管理中,并识别其中的数据表、字段等。相关操作为数据源管理、数据运营-数据资产模块的功能,相关配置请参见对应联机帮助中的内容

3.2.2  创建规则模型

根据规划录入质量检测规则模型

3.2.3  创建质量检测指标

将规则模型与数据表中字段相结合,构建质量检测指标

3.2.4  创建质量监控任务

将一组质量检测指标汇总成一个任务,并调度配置,形成对数据质量的监控任务

3.2.5  查看质量报告

质量监控任务运行完成后,可以查看基于数据表的质量报告,还可以查看基于指标的多次检测结果变化趋势

结束

-

 

2. 数据质量评估

数据质量模块还支持对数据源进行整体的质量评估,常规步骤如表3-2所示。

表3-2 数据质量评估使用流程说明

操作

说明

开始

-

3.3.1  创建质量评估任务

创建质量评估任务,指定数据源,设置选择调度参数,配置质量权重、数据倾斜度和告警设置

3.3.2  查看评估报告

质量评估任务运行完成后,可以查看指定数据源整体的质量评估报告

结束

-

 

3.2  数据质量监控

本章顺序介绍了以创建数据质量监控任务为目标的常规操作。

3.2.1  配置说明

本章节中各配置以同一个示例进行展示,以便帮助用户了解不同配置的顺序和关联性。

本章使用的示例为,在某购物相关的业务场景中,需要针对业务相关的数据(顾客基本信息),制定质量监控方案,实现对业务数据的监控,帮助用户了解数据状况,及时发现数据问题。

顾客基本信息表中包含的字段及需要进行的质量检测,如表3-3所示。

表3-3 各字段需要的质量检查

字段名称

字段含义

需要进行的质量检测

inner_id

顾客内部编号

唯一约束校验、空值校验

name

姓名

空值校验

account_id

账户ID

长度校验、空值校验

phone_num

电话号码

格式校验、空值校验

address

地址

空值校验

active

是否激活

值域校验、空值校验

checkout_times

消费次数

空值校验

balance

余额

特殊字符校验(检查字符$)、空值校验

 

3.2.2  创建规则模型

在本示例的场景中,需要使用的校验规则包括:唯一约束校验、空值校验、长度校验、格式校验、值域校验和特殊字符校验。其中仅特殊字符校验需要新建,其他均为系统内置的规则模型。

因只有一条规则模型需要新建,因此建议通过新建功能直接创建。

1. 新建质量检测规则模型

本节介绍特定字符校验规则的新建步骤。

新建规则模型的操作步骤如下:

(1)     在[数据质量]模块中,选择左侧导航树中的[规则模型]菜单项,进入规则模型页面。

(2)     在页面中,单击右上角<新增>按钮,进行规则模型的新增操作,如图3-2所示。

图3-2 新增规则模型

 

(3)     配置规则模型的基本参数,如图3-3所示。

支持对配置的定义关系SQL语句进行语义校验,可以帮助了解语句的语法是否正确及适用的数据源类型。其中,“balance”为目标表中的字段,需要使用反引号(``)。

图3-3 配置规则参数

 

(4)     单击<确定>按钮,操作完成。

2. 导入质量检测规则模型

系统中内置的规则模型即可满足常见的质量检测需求,本例中也仅涉及新增一个规则模型,通过新建功能即可创建。

但当业务场景中需要创建大量自定义规则时,可以通过导入功能,批量填写并导入,提高效率。

导入质量检测规则模型的步骤如下:

(1)     在规则模型页面中,单击页面右上角<模板下载>按钮,下载规则模型模板。

(2)     在本地打开下载的规则模型模板,根据规则模型模板的要求,填入相关的规则模型信息。

图3-4 规则模型模板

 

(3)     规则模型信息全部填写完成后,保存该文件。

                                                                                                            

(4)     返回数据运营平台的[数据质量/规则模型]页面,单击页面列表上方的<导入>按钮,弹出导入窗口。

图3-5 导入规则模型

 

(5)     单击<选择文件>按钮,选择待导入的规则模型文件,并选择是否更新重复的数据内容。

(6)     单击<确定>按钮,系统开始导入规则模型,等待导入完成即可。

3.2.3  创建质量检测指标

1. 新建质量检测指标

少数几条质量检测指标可以通过新建功能进行创建。

新建质量检测指标的步骤如下:

(1)     在[数据质量]模块中,选择左侧导航树中的[指标管理]菜单项,进入指标管理页面。

(2)     在页面中,单击右侧列表由上角<新增>按钮,进行新增指标页面,如下图所示。

图3-6 新增指标

 

(3)     配置指标参数,如下图中所示,指标参数说明如表3-4所示。

图3-7 配置指标参数

 

表3-4 指标参数说明

属性

说明

指标类型

必选,指标使用的规则模型

规则类型

必选,选择规则检测的范围。对于特殊类型字符检测规则,选择表级;对于其他检测规则,使用系统默认值即可

长度校验

仅账户ID字段涉及的长度校验指标需要指定长度,需配置为=10

校验类型

仅电话号码字段涉及的格式校验需要指定校验类型为“手机号”

约束类型

仅是否激活字段涉及的值域校验需要指定约束值,需配置为多值约束,值为“是”和“否”

指标字段配置

必选,请根据表3-3中的规划,分别在配置唯一约束校验指标、空值校验指标、长度校验指标、格式校验指标、值域校验指标、特殊字符校验指标时,对应选择字段

告警条件设置

可选,配置产生告警的条件,当错误数据的比例高于或等于设定值时,将产生所制定级别的告警

 

(4)     单击<确定>按钮,指标增加完成。其他各指标新建步骤相似,不再重复。

2. 导入质量检测指标

对于大量指标的创建,可以通过导入功能,批量填写并导入,提高效率。

导入质量检测指标的步骤如下:

(1)     在指标管理页面中,单击页面右上角<模板下载>按钮,下载指标模板。

(2)     在本地打开下载的指标模板,根据指标模板的要求,填入相关的指标信息。各参数的说明请参见表3-4

图3-8 指标模板

 

(3)     指标信息全部填写完成后,保存该文件。

(4)     返回数据运营平台的[数据质量/指标管理]页面,单击页面列表上方的<导入>按钮,弹出导入窗口。

图3-9 导入指标

 

(5)     单击<选择文件>按钮,选择待导入的质量指标文件。

(6)     单击<下一步>按钮,配置重复数据是否更新,本例选择不更新。

图3-10 配置是否更新

 

(7)     单击<确定>按钮,系统开始导入质量指标,等待导入完成即可。

图3-11 导入完成

 

3.2.4  创建质量监控任务

将本例中各指标汇总成一个质量监控任务,对目标数据进行检测并持续监控。

1. 新建质量监控任务

少数几条质量监控任务可以通过创建任务功能进行创建。

创建质量监控任务的步骤如下:

(1)     在[数据质量]模块中,选择左侧导航树中的[质量监控]菜单项,进入质量监控页面。

(2)     在页面中,单击右侧列表由上角<创建任务>按钮,进行质量监控任务的新增操作,如下图所示。

图3-12 创建任务

 

(3)     配置任务名称、调度方式,并选择需要包含的指标。

图3-13 配置名称

 

图3-14 配置调度周期

 

图3-15 选择指标

 

表3-5 质量监控任务参数说明

参数

说明

任务名称

必填,质量监控任务的名称,通常以检测对象+监控任务后缀命名,需要有唯一标识作用,方便识别

调度方式

必选,任务支持手动调度和自动调度,手动调度即手动执行任务的启动操作;自动调度即任务在配置的有效时间范围内,按设定周期自动运行

选择指标

选择监控任务需要包含的质量检测指标

 

(4)     单击<保存>按钮,数据质量监控任务创建完成。

2. 导入质量监控任务

对于大批量数据监控任务的创建,可以通过导入功能,批量填写并导入,提高效率。

导入质量监控任务的步骤如下:

(1)     在质量监控页面中,单击页面右上角<模板下载>按钮,下载质量监控任务模板。

(2)     在本地打开质量监控任务模板,根据质量监控任务模板要求,填入相关质量监控任务信息。当一个任务包含多个质量检测指标时,请分多行填写,需保证多行中,任务名称、调度方式、设置调度周期的配置值一致。

图3-16 质量监控任务模板

 

(3)     质量监控任务信息全部填写完成后,保存该文件。

(4)     返回数据运营平台的[数据质量/质量监控]页面,单击列表上方的<导入>按钮,弹出导入窗口。

图3-17 导入质量监控任务

 

(5)     单击<选择文件>按钮,选择待导入的质量监控任务文件。

(6)     单击<下一步>按钮,配置重复数据是否更新,本例选择不更新。

图3-18 配置是否更新

 

(7)     单击<确定>按钮,系统开始导入质量监控任务,待导入完成即可。

图3-19 导入完成

 

3.2.5  查看质量报告

1. 查看数据表质量报告

质量监控任务运行完成后,可以查看指定数据表的质量检测报告。

本例中,质量监控任务的对象为顾客基本信息表(custom_basic_info),所以需要查看该表的数据质量报告。

查看数据表质量报告的操作步骤如下:

(1)     在[数据质量]模块中,选择左侧导航树中的[质量报告/数据表质量报告]菜单项,进入数据表质量报告页面。

(2)     在页面上方选择数据源、模式、数据表参数,页面下方会显示该数据表的质量报告,如下图所示。

图3-20 查看数据表质量报告

 

报告说明:

¡     页面上部以柱状图(折线图)的方式展示了数据表基于各个指标的检测数据统计情况,并使用折线图展示了不同指标的错误数据比例,方便用户直观了解各指标错误率的情况。

¡     页面下部以表格的方式展示了各指标的详情,包括对应的字段(数据列)、检查数据的统计值、错误率等信息。

(3)     数据表质量报告支持导出查看,单击页面右上角的<导出质量报告>按钮,弹出导出数据表质量报告窗口。

图3-21 导出数据表质量报告

 

(4)     选择日期范围及数据表,并设置数据高亮显示(即背景显示为黄色)的错误率阈值。

(5)     单击<生成报告文件>按钮,即可导出数据表质量报告(XLS格式)。

图3-22 导出的数据表质量报告

 

2. 查看指标趋势报告

指标趋势报告展示了质量监控任务中某一指标在多次检测中的变化趋势。

查看指标趋势报告的步骤如下:

(1)     在[数据质量]模块中,选择左侧导航树中的[质量报告/指标趋势报告]菜单项,进入指标趋势报告页面。

(2)     在页面上方选择质量监控任务,并选择指标项,页面下方会显示该指标的变化趋势报告,如下图所示。

图3-23 指标趋势报告

 

报告说明:报告以柱状图(折线图)和列表这两种方式,展示了指标在各次检测中的检查数据量和错误数据量,以及错误率。在柱状图中,还通过折线的形式展示了错误数据量占比的变化情况。

3.3  数据质量评估

本章介绍了数据质量评估任务的创建操作,以及质量评估报告内容。

3.3.1  创建质量评估任务

在数据质量中,用户通过新建针对特定数据源的评估配置,形成评估任务,即可实现对数据源进行质量评估,了解数据源的整体质量情况。

1. 新建质量评估配置

对于少量数据源增加评估配置,可以通过新建功能完成。

新建质量评估配置的操作步骤如下:

(1)     在[数据质量]模块中,选择左侧导航树中的[质量评估/评估配置]菜单项,进入评估配置页面。

(2)     单击页面右上角的<新建>按钮,进入评估配置的新建页面。

图3-24 新建评估配置

 

(3)     设置质量评估配置的各项参数,各参数说明如表3-6所示。

表3-6 评估参数说明

类别

参数

说明

评估参数配置

任务名称

必填,通常使用评估对象数据源+评估任务后缀命名,如数据源A评估任务

调度方式

必选,任务支持手动调度和自动调度,手动调度即手动执行任务的启动操作;自动调度即任务在配置的有效时间范围内,按设定周期自动运行

数据源配置

数据源

必选,选择目标数据源即可。每个数据源仅能有一个对应的手动评估配置和一个对应的自动评估配置

数据源类型

不可配置,选择数据源之后,本参数会自动填充

质量权重配置

非空表率权重、非空字段率权重、表活跃度权重、有备注表数量权重、有备注字段数量权重

必填,针对数据源的关注点,分配质量评估五个维度的权重。各权重之和不可超过100%。对于Vertica类型数据源,需要将表活跃度权重设置为0,因Vertica无表更新记录,该评估维度无效

数据倾斜度配置

模式、数据表、字段

可选,指定数据源中数据表的字段,在评估时统计其中的字段分布,明确数据的倾斜度(即哪种数据较多)

告警条件设置

级别

配置数据源质量评估的评级阈值,当等于或低于该级别时,产生告警

 

(4)     配置完成后,单击<保存>按钮,针对所选数据源的评估任务配置完成。

(5)     调度方式为手动的评估任务,需要单击<立即执行>按钮,手动执行;调度方式为自动,并配置了有效时间段和周期的评估任务,会按配置自动运行。

2. 导入质量评估配置

当需要对大量数据源进行整体质量评估时,可通过导入功能,批量录入针对各数据源的评估配置,以提高效率。

导入质量评估配置的步骤如下:

(1)     在评估配置页面中,单击页面右上角<模板下载>按钮,下载评估配置模板。

(2)     在本地打开下载的评估配置模板,根据评估配置模板的要求,填入相关的评估配置信息。

图3-25 评估配置模板

 

(3)     评估配置信息全部填写完成后,保存该文件。

(4)     返回数据运营平台的[数据质量/质量评估/评估配置]页面,单击页面列表上方的<导入>按钮,弹出导入窗口。

图3-26 导入评估配置

 

(5)     单击<选择文件>按钮,选择待导入的评估配置文件,并选择是否更新相同的数据内容。

(6)     单击<确定>按钮,系统开始导入评估配置,等待导入完成即可。

3.3.2  查看评估报告

评估任务配置运行完成后,即可查看评估报告。

(1)     在[数据质量]模块中,选择左侧导航树中的[质量评估/评估报告]菜单项,进入评估报告页面。

(2)     在页面右上角中,选择待查看的数据源,页面下方会显示详细的评估报告,如下如所示。

 

图3-27 评估报告

 

报告说明如下:

¡     上部展示了数据源中数据表、字段、记录数的统计信息。其中过多的空表数量、空字段数量等均会导致质量评级的降低。

¡     中部展示了质量评级与表活跃度信息。质量评级是根据评估配置中的权重综合计算得出;表活跃度是根据数据表中记录的最近更新时间判定。

¡     下部展示了表详情信息,即数据源中各数据表的基本信息(名称、备注、模式),统计信息(字段数量、空字段数量、记录数量、倾斜度),更新信息(表活是否活跃、上次更新时间)等信息。

(3)     评估报告支持导出,单击页面右上角的<导出报告>按钮,即可导出数据源质量评估报告(XLS格式)。

 

 


4 常见问题

4.1  对某一数据源创建质量评估配置为何失败

评估配置中,对同一数据源,系统仅支持创建一个手动调度任务和一个自动调度任务,请优先排查是否已存在针对该数据源的评估配置。

(1)     在[数据质量]模块中,选择左侧导航树中的[质量评估/评估配置]菜单项,进入评估配置页面。

(2)     查看各已存在任务,确认是否存在该数据源的评估配置:

¡     如已存在,请基于该已存在评估任务进行配置。

¡     如不存在,请联系H3C技术支持人员协助处理。

4.2  自定义类型的规则模型为何无法删除

规则模型被指标引用后,为保证指标的可用性,系统会禁止删除该规则模型。因此,请在指标管理页面中,确认是否有指标引用了该规则模型:

·     如果是,请确认是否可删除指标,然后再删除规则模型。

·     如果否,请联系H3C技术支持人员协助处理。

4.3  质量指标为何无法删除

质量指标被质量监控任务引用后,为保证监控任务的可用性,系统会禁止删除该质量指标。因此,请在质量监控页面中,确认是否有质量监控任务引用了该指标:

·     如果是,请确认是否可以从任务中删除该指标,然后再从指标管理中删除该指标。

·     如果否,请联系H3C技术支持人员协助处理。

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们