通过选择规则模型与类型、指定数据字段、配置过滤条件、及告警条件等配置,生成数据质量检查规则。
新增质量规则包括单条新增质量规则或批量新增质量规则两种方式,根据实际需要任意选择一种即可。
进入“质量规则”页签的步骤如下:
在顶部导航栏中选择[数据运营/数据质量],进入数据质量模块。
单击左侧导航树中的[质量检查]菜单项,质量检查页面。
在页面中,选择“质量规则”页签。该页签中提供了多种新建质量规则的方式。
当实际业务场景中需要新增同一类型的一条或少量质量规则时,可使用单条新建质量规则功能。
在“质量规则”页签中,单击列表上方的<新建>按钮,跳转到新建质量规则页面。
配置质量规则参数,参数说明见下表。
表-1 质量规则参数说明
字段 |
说明 |
规则模型 |
指定需要配置的规则模型,包括:空值校验、值域校验、格式校验、长度校验、唯一约束校验和SQL条件校验六种内置规则模型,及自定义规则模型 |
规则类型 |
选择规则的类型。部分规则类型为固定规则类型,不可选择。规则类型包括行级和表级:
|
条件语句 |
仅SQL条件校验需配置该参数 配置SQL条件语句,用于校验指定对象是否满足条件要求 |
长度校验 |
仅长度校验需配置该参数 |
校验类型 |
仅格式校验需配置该参数 选择格式类型,系统预置了多种常见的格式类型,用于校验指定对象是否符合格式类型要求 |
约束类型 |
仅值域校验需配置该参数 选择约束的类型,用于校验对象值是否属于约束范围内。约束类型包括:
|
描述 |
输入该质量规则的描述信息 |
配置规则模型绑定的字段。
在规则字段配置区域中选择数据源、模式、数据表和字段,并单击<添加>按钮,即可完成规则字段添加。如需同时增加多个同类型的规则字段,可重复此步骤。
此处指定的每个字段均会和选择的规则模型形成一条质量规则,在后续形成质量检查后,系统会使用规则对字段中的数据进行检测。
规则字段添加完成后支持以下可选操作:
在下方的规则字段列表中,配置规则的编号,还可以配置表别名。规则的编号需要在组织中唯一。
在操作列中,可以对字段设置过滤条件,进一步缩小规则检查数据的范围。单击操作列中的<设置过滤条件>按钮 ,在弹出的过滤条件窗口中配置过滤条件,并单击<校验>按钮进行校验,校验无问题后,单击<确定>按钮。
单击操作列中的<移除>按钮,可删除对应的字段。
单击操作列中的“更多”链接,并从下拉菜单中选择“表数据预览”可以查看表数据预览。
SQL执行预览和查看血缘关系,需要在执行检验操作(参见步骤3)后,才可查看。两项功能可分别预览SQL执行结果及查看字段的血缘关系。
告警条件配置
在告警条件设置区域中配置错误率及对应的告警级别,当检测的数据中错误数据达到告警条件时,会产生对应级别的告警。
配置完成后,可执行以下操作:
单击<校验>按钮,可校验规则字段是否能全部检核通过,校验通过的质量规则才可保存。校验操作执行后,在规则字段配置区域中的字段列表中可查看每个规则字段的校验状态。
单击<保存>按钮,会先对质量规则进行字段校验,在规则字段配置区域中的字段列表中可查看每个规则字段的校验状态。此时:
若规则字段校验全部通过,则直接保存该质量规则,即完成新建质量规则。
若规则字段校验未全部通过,则需要调整规则参数配置或删除不通过的校验字段后,重新进行校验和保存。
单击<保存为草稿>按钮,可以将配置不完整的质量规则保存至草稿箱中,后续可以直接在草稿箱中找回并继续编辑。
单击<取消>按钮,表示放弃新建质量规则操作,且相关配置不保存。
当实际业务场景中需要新增大量不同类型的质量规则时(如新建一整套质量检查方案时),可使用批量导入质量规则功能,提高效率。
在“质量规则”页签,单击页面右上角的<模板下载>按钮,即可将批量导入质量规则时需要的模板文件下载至本地。
根据模板文件中参数要求,批量录入质量规则的相关信息。相关参数的说明可参见单条新建质量规则。
在模板文件中将待批量录入的质量规则相关参数配置完成之后,保存文件。然后单击列表右上角的<导入>按钮,选择待导入文件并配置文件中数据源与系统数据源的对应关系(提高识别的准确性)后,单击<下一步>按钮可选择是否更新重复的数据内容,然后单击<确定>按钮即可执行导入操作。
文件导入成功后,在“上传文件”窗口的“导入记录”页签可查看导入记录的详情,并可下载查看导入明细。
导入记录的详情
导入人:提交导入操作的用户名。
文件原名:导入文件的名称。
导入时间:导入开始执行的时间。
结束时间:导入完成的时间。
状态:导入操作的执行结果状态。
操作:文件导入完成后,支持下载导入明细,导入明细中展示每一条质量规则的导入结果,若导入结果失败还可以直接查看失败原因。
返回列表,通过批量导入方式上传成功的所有质量规则均会在质量规则列表中显示。
除手动创建质量规则外,系统还支持自动生成质量检测规则。通过该方式自动生成规则的前提为,目标数据的字段已关联了数据标准。
在“质量规则”页签中,单击右上角的<智能生成规则>按钮,弹出智能生成规则窗口。
选择目录类型:
业务系统:选择业务系统,即在[工程配置/标签管理]中创建的业务系统标签。如选择该类型并选择具体的业务系统时,请确保已有数据表关联了所选的业务系统标签,且表中的字段关联了数据标准,否则会无法自动生成的规则。
业务部门:选择业务部门,即本系统中的组织。对于根组织下的工作空间中,可选择所有组织;对于其他组织下的工作空间,则仅可选择所属组织及其下子组织。如选择该类型并选择具体的业务部门时,请确保已有数据表中字段关联了所选的业务部门,且字段也关联了数据标准,否则会无法自动生成的规则。
责任人:选择责任人,即当前工作空间所属组织中的用户。如选择该类型并选择具体的责任人时,请确保已有数据表关联了所选的责任人(用户),且表中的字段关联了数据标准,否则会无法自动生成的规则。
数据源:选择数据字段所在的数据源,系统会针对该数据源中所有数据表内已关联了数据标准的字段,自动生成对应的规则。
选择具体的目录,支持多选。
配置单次生成的规则条数上限,默认限制为1000条,范围为10~10000。
单击<确定>按钮,系统会开始自动生成质量规则。