不同数据库自身限制不一样,为适配不同数据源类型,数据运营平台中不会做过多限制。在新建数据表时,若建表信息超出数据库本身的限制,系统会直接返回数据库自身的报错信息。 |
新建表的步骤如下:
在表管理页面中,单击列表左上方的<新建>按钮,进入新建表页面。
在基本信息页面配置“选择类型”区域中的参数。
数据源类型:选择数据源类型,目前平台支持的数据源类型包括:HBase、Kafka、ES、MySQL、PostgreSQL、达梦、Greenplum、Hive、Oracle、Vertica、STDB、DLH等共计12种。
数据源名:选择数据源名。
存储集群:选择存储集群,也即数据保存的集群组件,包括HBase、Kafka、Redis。仅当数据源类型选择STDB时,才需要配置该参数。
表配置项 |
参数说明 |
基本属性 |
|
物理模型设计 |
不同类型数据源需要配置的参数不同,请参考后续表-2中的说明,共有参数如下: 分层:可选,选择该表所属的分层 |
数据源类型 |
表特有属性 |
HBase |
|
Kafka |
|
Elasticsearch |
|
达梦 |
|
STDB |
|
Greenplum |
|
Hive |
|
Postgresql |
|
Vertica |
|
DLH |
|
基本信息配置完成后,单击<下一步>按钮,进入数据结构配置页面。
在表结构设计区域中添加字段。表结构设计区域通过列表展示了表中的字段,并提供了添加数据字段或导入等表结构设计操作(例外:在Kafka类型数据源中新建message类型的表时,为Json编辑器)。列表上方提供了如下操作按钮:
添加数据:单击该按钮可以在列表中添加一个空字段。
添加5条:单击该按钮可以在列表中批量添加5个空字段。
清除添加:单击该按钮可以清除列表中添加的所有字段。
文件导入:单击该按钮,可以导入按模板填写的文件,从而批量向表中导入字段。
模板下载:单击该按钮可以下载模板。按模板规范填写内容后,可以批量向表中导入字段。
选择标准:单击该按钮,在弹出窗口中选择数据表,选择部分字段导入或将整表导入。
添加数据字段后,列表中出现新的空字段,需填写字段内容:
字段名:输入字段名,由数字字母下划线组成,必须以字母开头,且不能是SQL关键字。
中文名称:输入字段的中文名。
字段类型:在下拉框选择对应数据源的字段类型。
类型长度:设置字段类型的精度,仅部分字段类型需要配置。
主键:点击控件,可选择是否将该字段设置成表主键。
描述:填写字段的描述信息。
操作:提供了删除字段的操作图标。
在Kafka类型数据源中创建message类型的表时,其表结构设计输入框是一个标准的Json编辑器,其中key是字段名,value必须是Kafka支持的字段类型。Kafka支持的基本字段类型包括:string、boolean、integer、bigint、float、double、timestamp。 支持复合类型对象和数组,其中当数组元素类型为基本类型elementType时,写法为: "arrayName":"array[elementType]" 示例如下: { "k1": "string", "map1": { "map2": { "m2k1": "string" }, "m1k1": "string" }, "array1": "array[string]", "array2": [ { "a2k1": "string", "a2k2": "boolean" } ] } |
配置完成后,执行后续操作:
对于MySQL、PostgreSQL、达梦、Vertica、Greenplum、Oracle类型数据源,支持配置质量规则和数据脱敏,单击<下一步>按钮,可依次为各字段配置质量规则和脱敏规则,规则配置均为可选,规则的配置说明请参见下表。
对于HBase和Elasticsearch类型数据源,支持配置脱敏规则,单击<下一步>按钮,可为各字段配置脱敏规则,规则配置为可选,规则的配置说明请参见下表。
对于其他类型数据源,请跳过此步。
表-3 规则参数配置说明
表配置项 |
参数说明 |
质量规则 |
质量规则用于为表中的字段配置数据质量规则,为可选配置 1. 在指标参数配置区域配置参数。
2. 单击<添加到规则列表>按钮,将该字段配置的指标规则添加到下方的指标规则列表中。列表中支持如下操作:
如果新建表时配置了质量规则,则在表新建完成时,系统会在[数据质量/质量监控]中对应创建以“质量检测_数据源名称_模式_表名”格式命名的质量监控任务。该任务在表创建完成5分钟后开始周期性调度执行,调度有效期为一年,每天执行一次 |
数据脱敏 |
数据脱敏用于为表中的字段配置识别规则,并进行脱敏处理 在列表中,为字段选择识别规则和对应的分级 |