新建表

不同数据库自身限制不一样,为适配不同数据源类型,数据运营平台中不会做过多限制。在新建数据表时,若建表信息超出数据库本身的限制,系统会直接返回数据库自身的报错信息。

 

新建表的步骤如下:

  1. 在表管理页面中,单击列表左上方的<新建>按钮,进入新建表页面。

  1. 在基本信息页面配置“选择类型”区域中的参数。

  1. 配置其他参数。在不同类型的数据源中新建表,需要配置的参数不同,如下述-1-2所示。各数据源类型中,MySQLOracle只涉及通用参数。具体配置请以实际页面为准。

表-1 基本信息参数配置说明

表配置项

参数说明

基本属性

  • 主数据:仅选择MySQLOracle类型且已在[数据资产/主数据管理/主数据维护]中配置为主数据源的数据源时,需要配置该参数。开启后,创建的数据表将成为主数据表,相关详细介绍请参见主数据管理

  • 表名:除STDB外的其他类型数据源需配置该参数。必填,表英文名,由数字、字母、下划线组成,必须以字母开头,且不能是SQL关键字

  • catalog:仅STDB类型数据源需配置该参数。可输入或选择数据集的属性和数据集的位置

  • 时空表名:仅STDB类型数据源需配置该参数。同通用参数中的表名

  • 中文表名:可选,以中文开头,可包含字母、数字、下划线

  • 主题:可选,选择该表所属的主题,最多有三级主题

  • 标签:可选,选择该表所属的标签

  • 描述:可选,输入表描述信息

物理模型设计

不同类型数据源需要配置的参数不同,请参考后续-2中的说明,共有参数如下:

分层:可选,选择该表所属的分层

 

表-2 表特有参数配置说明

数据源类型

表特有属性

HBase

  • 建表周期:可下拉选择按天(DAY)、月(MONTH)、年(YEAR)或无周期(NONE),默认为NONEHBase集群上存储的真实表名与该建表周期有关,可以通过hbase shell连接到服务器上查看

  • 分区字段:从物理模型设计字段名中选择一个指定为分区字段,且分区字段必须为long类型。若建表周期为NONE,则无分区字段

  • 数据生命周期:自定义设定数据保存在HBase表中的最长时间,到期则清理旧数据

  • 分区大小:单个分区存储最大值(单位GB),如果超过该值,hbase会自动创建新的region

  • 预分区数量:建表时预先创建的region个数,避免写数据热点问题和集群I/O资源的消耗

  • 分隔符:数据分隔符,往hbase批量输入数据时字段间的分隔符

  • 多值列:一个字段中存在多个值,例如Array类型的字段

Kafka

  • 表类型:table类型定义简单的表结构字段无多层嵌套,并且会在Kafka集群上创建对应的topicmessage类型是针对融合集成平台Kafka数据源中已有的topic定义其结构,表结构设计以json格式呈现,字段可以多层嵌套

  • 分区数:Kafka 主题的分区数,对应KafkaPartition

  • 副本数: Kafkareplica,该数量包含原始数据,默认值为3(即数据在Kafka中包括原始数据总共保存3份)

  • 消息保留时长:超过消息保留时长,就会清除旧数据

  • 类型(仅table):JSONCSVBLOB(二进制长对象)

  • 分隔符:类型为CSV时,数据分隔符必填

  • 工作空间(仅message):融合集成平台中该topic所属工作空间

  • 用户名(仅message):工作空间的用户名

  • 密码(仅message):工作空间的密码

Elasticsearch

  • 全文检索:开启时中所有支持(查询/查询+聚合)场景的字段内容,均可以在[全文检索/数据搜索]界面使用关键字不指定字段检索。关闭时表中所有字段内容,均无法在[全文检索/数据搜索]界面不指定字段检索

  • 刷新时间:执行刷新操作的频率(数据的变更在执行完刷新操作之后才会对搜索可见)

  • 数据分片数:指定ES索引数据分片数,即ES索引配置项number_of_shards的值

  • 数据备份数:ES索引数据备份数,即配置项number_of_replicas的值

  • 建表周期:下拉选择按天(Day)、月(Month)、年(Year)或无周期(None)建表,缺省为None

达梦

  • 模式:一个表的集合,一个模式可以包含视图、索引、数据类型、函数和操作符等

STDB

  • 数据分区:可下拉选择按天(Day)、月(Month)、年(Year)或无周期(None)建表,缺省为NoneSTDB分区表名与该建表周期有关

  • 地理坐标系:坐标系统类型,目前只支持WGS84

Greenplum

  • 数据分布字段:指定分布键

  • 模式:一个表的集合,一个模式可以包含视图、索引、数据类型、函数和操作符等

Hive

  • 外部表:指定是否是外部表

  • 分区字段:指定Hive表的分区字段

  • 存储方式:包括TEXTFILESEQUENCEFILERCFILEORCFILEPARQUETHUDI存储方式。其中选择Hudi方式时,表示创建Hudi类型的数据表

  • hdfs路径:外部表的存储路径

  • 字段分隔符:表数据中字段间的分隔符,存储方式为TEXTFILE时需要配置

  • 元素间分隔符:array类型字段的元素间分隔符,存储方式为TEXTFILE时需要配置

  • kv分隔符:map类型字段keyvalue之间的分隔符,存储方式为TEXTFILE时需要配置

  • 表类型:Hudi的表类型,包括COWMOR

  • COW:仅使用专门的列式文件格式(例如Parquet)存储数据。写入数据会更新版本并重写文件(生成新的数据存储文件),在写入过程中数据会进行同步合并。特点是结构简单、数据延迟较高、查询延迟低、更新时开销较高(需要生成新数据存储文件)、写放大较高(生成新文件)等

  • MOR:使用列式文件格式(例如Parquet,数据存储文件)和行式文件格式(例如Avro,数据增量文件)组合存储数据。写入数据时会将更新记录到增量文件中,然后压缩以同步或者异步生成新的列式文件。特点是数据延迟较低、查询延迟较高(涉及数据存储文件与增量文件合并)、更新时开销较低(进写入增量,受增量大小影响)、写放大较低(仅写入增量文件)

  • 重组字段:更新数据时的重组字段,如果不指定则默认使用主键字段

Postgresql

  • 模式:一个表的集合,一个模式可以包含视图、索引、数据类型、函数和操作符等

Vertica

  • 模式:一个表的集合,一个模式可以包含视图、索引、数据类型、函数和操作符等

DLH

  • 外部表:指定是否是外部表

  • 分区字段:指定DLH表的分区字段

  • 存储方式:包括TEXTFILESEQUENCEFILERCFILEORCFILEPARQUETHUDI存储方式

  • hdfs路径:外部表的存储路径

  • 字段分隔符:表数据中字段间的分隔符,存储方式为TEXTFILE时需要配置

  • 元素间分隔符:array类型字段的元素间分隔符,存储方式为TEXTFILE时需要配置

  • kv分隔符:map类型字段keyvalue之间的分隔符,存储方式为TEXTFILE时需要配置

  • 表类型:Hudi的表类型,包括COWMOR

  • COW:仅使用专门的列式文件格式(例如Parquet)存储数据。写入数据会更新版本并重写文件(生成新的数据存储文件),在写入过程中数据会进行同步合并。特点是结构简单、数据延迟较高、查询延迟低、更新时开销较高(需要生成新数据存储文件)、写放大较高(生成新文件)等

  • MOR:使用列式文件格式(例如Parquet,数据存储文件)和行式文件格式(例如Avro,数据增量文件)组合存储数据。写入数据时会将更新记录到增量文件中,然后压缩以同步或者异步生成新的列式文件。特点是数据延迟较低、查询延迟较高(涉及数据存储文件与增量文件合并)、更新时开销较低(进写入增量,受增量大小影响)、写放大较低(仅写入增量文件)

  • 重组字段:更新数据时的重组字段如果不指定则默认使用主键

 

  1. 基本信息配置完成后,单击<下一步>按钮,进入数据结构配置页面。

  1. 在表结构设计区域中添加字段。表结构设计区域通过列表展示了表中的字段,并提供了添加数据字段或导入等表结构设计操作(例外:在Kafka类型数据源中新建message类型的表时,为Json编辑器)。列表上方提供了如下操作按钮:

添加数据字段后,列表中出现新的空字段,需填写字段内容:

Kafka类型数据源中创建message类型的表时,其表结构设计输入框是一个标准的Json编辑器,其中key是字段名,value必须是Kafka支持的字段类型。Kafka支持的基本字段类型包括:stringbooleanintegerbigintfloatdoubletimestamp

支持复合类型对象和数组,其中当数组元素类型为基本类型elementType时,写法为:

"arrayName":"array[elementType]"

示例如下:

{

  "k1": "string",

  "map1": {

    "map2": {

      "m2k1": "string"

    },

    "m1k1": "string"

  },

  "array1": "array[string]",

  "array2": [

    {

      "a2k1": "string",

      "a2k2": "boolean"

    }

  ]

}

 

  1. 配置完成后,执行后续操作:

表-3 规则参数配置说明

表配置项

参数说明

质量规则

质量规则用于为表中的字段配置数据质量规则,为可选配置

1.     在指标参数配置区域配置参数。

  • 字段名:选择表中字段

  • 指标类型:指定需要配置的规则模型

  • 描述:配置质量指标描述信息

2.     单击<添加到规则列表>按钮,将该字段配置的指标规则添加到下方的指标规则列表中。列表中支持如下操作:

  • 清空:清空指标规则列表中的所有配置

  • 设置过滤条件:对字段设置过滤条件,可进一步缩小检核数据的范围

  • 指标编辑:对字段所配置的指标规则进行编辑

  • 移除:移除字段所配置的指标规则

如果新建表时配置了质量规则,则在表新建完成时,系统会在[数据质量/质量监控]中对应创建以“质量检测_数据源名称_模式_表名”格式命名的质量监控任务。该任务在表创建完成5分钟后开始周期性调度执行,调度有效期为一年,每天执行一次

数据脱敏

数据脱敏用于为表中的字段配置识别规则,并进行脱敏处理

在列表中,为字段选择识别规则和对应的分级

 

  1. 配置完成后,单击<确定>按钮,表新建完成。