规则模型指数据质量检测中使用的规则,是进行质量检测与监控的基础。在构建数据质量检查方案时,需要针对数据对象的特点,制定各类检测所需的规则模型。
无论是系统内置的规则模型,还是用户自定义的规则模型,均需要满足数据的完整性、唯一性、准确性、有效性、及时性和连续性六个维度要求,并且每个规则模型仅能针对一个维度。
维度 |
说明 |
完整性 |
衡量数据完整程度,如空值校验,通常用于检查必须有值的数据列中是否存在空值(如名称等) |
唯一性 |
衡量数据在某数据项或某组中的重复情况,如唯一性约束校验,通常用于检查需要具备唯一性的数据列中是否存在重复值(例如ID等) |
准确性 |
衡量数据是否能够反映真实的内容,如值域校验、SQL条件检验等,通常用于检查必须符合某种限制条件的数据列是否存在不合格的值(如城市名称等) |
有效性 |
衡量数据是否符合数据定义或业务定义的要求,如格式校验等,通常用于检查有格式、构成要求的数据列是否存在不合格的值 |
及时性 |
衡量数据的更新频率是否满足要求,如时间戳数据间隔校验等,通常用于检查记录数据生成时间的列是否存在与前一值间隔过长的值 |
连续性 |
衡量数据元素的类型与含义等方面的一致性,保证数据连续可用,如数据表一致性校验,通常用于检查数据迁移或加工前后数据表的一致性 |
[规则模型]页面展示系统中已创建的规则模型,包括系统内置的规则模型、自定义新创建的规则模型,同时支持对新创建的规则模型执行编辑、删除等操作。
系统内置的规则模型,用户可直接使用,但不支持编辑、删除等操作。 |
系统内置了6条规则模型,是完整性、准确性、有效性、唯一性维度的通用质量检查规则。
模型名称 |
维度 |
描述 |
使用说明 |
空值校验 |
完整性 |
检核表的检核列是否为空。包含空数据的行被认定为错误数据 |
常用于检测表中某列(字段)的空值情况 |
值域校验 |
准确性 |
检核表的检核列值是否在配置的值域范围内。不在值域范围内的行被认定为错误数据 |
常用于检测表中某列(字段)的数据值是否符合特定的取值范围 |
格式校验 |
有效性 |
检核表的检核列值是否满足指定的格式,如邮箱、手机号、身份证号、IP地址等。不满足指定格式的行被认定为错误数据 |
常用于检测表中某列(字段)的数据值是否符合特定的格式要求 |
长度校验 |
准确性 |
检核表的检核列的值长度是否满足要求。不满足长度要求的行被认定为错误数据 |
常用于检测表中某列(字段)的数据值是否符合长度要求 |
唯一约束校验 |
唯一性 |
检核表的检核列数据值是否唯一。不唯一的行被认定为错误数据 |
常用于检测表中某列(字段)的数据值在该列中是否唯一 |
SQL条件校验 |
准确性 |
用户输入SQL条件语句部分生成规则。按照这个规则生成的SQL查询出的数据被认定为错误数据 |
常用于检测表中某列(字段)的是否存在匹配SQL条件的问题数据 |
在“规则模型”页签,可查看系统中的规则模型列表及相关信息,包括系统内置规则模型和自定义规则模型。
在页签右上角的搜索区域中,输入模型名称(支持关键字模糊适配),单击图标可模糊搜索目标规则模型。
列表中部分参数说明如下:
模型名称:规则模型的名称。
描述:规则模型的描述信息。
模型种类:规则模型的类型,包括内置模型和自定义模型。
维度:规则模型的维度。
创建人:创建规则模型的用户。
创建时间:规则模型的创建时间。
修改时间:规则模型的最后修改时间。
操作:提供规则模型的编辑、删除、共享操作链接。系统内置规则模型不支持编辑、删除、共享操作,被质量规则引用的规则模型不支持删除操作。