新建表

不同数据库自身限制不一样，为适配不同数据源类型，数据运营平台中不会做过多限制。在新建数据表时，若建表信息超出数据库本身的限制，系统会直接返回数据库自身的报错信息。

新建表的步骤如下：

在表管理页面中，单击列表左上方的<新建>按钮，进入新建表页面。

在基本信息页面配置“选择类型”区域中的参数。

数据源类型：选择数据源类型，目前平台支持的数据源类型包括：HBase、Kafka、ES、MySQL、PostgreSQL、达梦、Greenplum、Hive、Oracle、Vertica、STDB、DLH等共计12种。

数据源名：选择数据源名。

存储集群：选择存储集群，也即数据保存的集群组件，包括HBase、Kafka、Redis。仅当数据源类型选择STDB时，才需要配置该参数。

配置其他参数。在不同类型的数据源中新建表，需要配置的参数不同，如下述表-1和表-2所示。各数据源类型中，MySQL、Oracle只涉及通用参数。具体配置请以实际页面为准。

表-1 基本信息参数配置说明

表配置项

参数说明

基本属性

主数据：仅选择MySQL和Oracle类型且已在[数据资产/主数据管理/主数据维护]中配置为主数据源的数据源时，需要配置该参数。开启后，创建的数据表将成为主数据表，相关详细介绍请参见主数据管理

表名：除STDB外的其他类型数据源需配置该参数。必填，表英文名，由数字、字母、下划线组成，必须以字母开头，且不能是SQL关键字

catalog：仅STDB类型数据源需配置该参数。可输入或选择数据集的属性和数据集的位置

时空表名：仅STDB类型数据源需配置该参数。同通用参数中的表名

中文表名：可选，以中文开头，可包含字母、数字、下划线

主题：可选，选择该表所属的主题，最多有三级主题

标签：可选，选择该表所属的标签

描述：可选，输入表描述信息

物理模型设计

不同类型数据源需要配置的参数不同，请参考后续表-2中的说明，共有参数如下：

分层：可选，选择该表所属的分层

表-2 表特有参数配置说明

数据源类型	表特有属性
HBase	建表周期：可下拉选择按天（DAY）、月（MONTH）、年（YEAR）或无周期（NONE），默认为NONE。HBase集群上存储的真实表名与该建表周期有关，可以通过hbase shell连接到服务器上查看分区字段：从物理模型设计字段名中选择一个指定为分区字段，且分区字段必须为long类型。若建表周期为NONE，则无分区字段数据生命周期：自定义设定数据保存在HBase表中的最长时间，到期则清理旧数据分区大小：单个分区存储最大值（单位GB），如果超过该值，hbase会自动创建新的region 预分区数量：建表时预先创建的region个数，避免写数据热点问题和集群I/O资源的消耗分隔符：数据分隔符，往hbase批量输入数据时字段间的分隔符多值列：一个字段中存在多个值，例如Array类型的字段
Kafka	表类型：table类型定义简单的表结构字段无多层嵌套，并且会在Kafka集群上创建对应的topic；message类型是针对融合集成平台Kafka数据源中已有的topic定义其结构，表结构设计以json格式呈现，字段可以多层嵌套分区数：Kafka 主题的分区数，对应Kafka的Partition 副本数： Kafka的replica，该数量包含原始数据，默认值为3（即数据在Kafka中包括原始数据总共保存3份）消息保留时长：超过消息保留时长，就会清除旧数据类型（仅table）：JSON、CSV、BLOB（二进制长对象）分隔符：类型为CSV时，数据分隔符必填工作空间（仅message）：融合集成平台中该topic所属工作空间用户名（仅message）：工作空间的用户名密码（仅message）：工作空间的密码
Elasticsearch	全文检索：开启时中所有支持（查询/查询+聚合）场景的字段内容，均可以在[全文检索/数据搜索]界面使用关键字不指定字段检索。关闭时表中所有字段内容，均无法在[全文检索/数据搜索]界面不指定字段检索刷新时间：执行刷新操作的频率（数据的变更在执行完刷新操作之后才会对搜索可见）数据分片数：指定ES索引数据分片数，即ES索引配置项number_of_shards的值数据备份数：ES索引数据备份数，即配置项number_of_replicas的值建表周期：下拉选择按天（Day）、月（Month）、年（Year）或无周期（None）建表，缺省为None
达梦	模式：一个表的集合，一个模式可以包含视图、索引、数据类型、函数和操作符等
STDB	数据分区：可下拉选择按天（Day）、月（Month）、年（Year）或无周期（None）建表，缺省为None。STDB分区表名与该建表周期有关地理坐标系：坐标系统类型，目前只支持WGS84
Greenplum	数据分布字段：指定分布键模式：一个表的集合，一个模式可以包含视图、索引、数据类型、函数和操作符等
Hive	外部表：指定是否是外部表分区字段：指定Hive表的分区字段存储方式：包括TEXTFILE、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET、HUDI存储方式。其中选择Hudi方式时，表示创建Hudi类型的数据表 hdfs路径：外部表的存储路径字段分隔符：表数据中字段间的分隔符，存储方式为TEXTFILE时需要配置元素间分隔符：array类型字段的元素间分隔符，存储方式为TEXTFILE时需要配置 kv分隔符：map类型字段key和value之间的分隔符，存储方式为TEXTFILE时需要配置表类型：Hudi的表类型，包括COW和MOR。 COW：仅使用专门的列式文件格式（例如Parquet）存储数据。写入数据会更新版本并重写文件（生成新的数据存储文件），在写入过程中数据会进行同步合并。特点是结构简单、数据延迟较高、查询延迟低、更新时开销较高（需要生成新数据存储文件）、写放大较高（生成新文件）等 MOR：使用列式文件格式（例如Parquet，数据存储文件）和行式文件格式（例如Avro，数据增量文件）组合存储数据。写入数据时会将更新记录到增量文件中，然后压缩以同步或者异步生成新的列式文件。特点是数据延迟较低、查询延迟较高（涉及数据存储文件与增量文件合并）、更新时开销较低（进写入增量，受增量大小影响）、写放大较低（仅写入增量文件）重组字段：更新数据时的重组字段，如果不指定则默认使用主键字段
Postgresql	模式：一个表的集合，一个模式可以包含视图、索引、数据类型、函数和操作符等
Vertica	模式：一个表的集合，一个模式可以包含视图、索引、数据类型、函数和操作符等
DLH	外部表：指定是否是外部表分区字段：指定DLH表的分区字段存储方式：包括TEXTFILE、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET、HUDI存储方式 hdfs路径：外部表的存储路径字段分隔符：表数据中字段间的分隔符，存储方式为TEXTFILE时需要配置元素间分隔符：array类型字段的元素间分隔符，存储方式为TEXTFILE时需要配置 kv分隔符：map类型字段key和value之间的分隔符，存储方式为TEXTFILE时需要配置表类型：Hudi的表类型，包括COW和MOR。 COW：仅使用专门的列式文件格式（例如Parquet）存储数据。写入数据会更新版本并重写文件（生成新的数据存储文件），在写入过程中数据会进行同步合并。特点是结构简单、数据延迟较高、查询延迟低、更新时开销较高（需要生成新数据存储文件）、写放大较高（生成新文件）等 MOR：使用列式文件格式（例如Parquet，数据存储文件）和行式文件格式（例如Avro，数据增量文件）组合存储数据。写入数据时会将更新记录到增量文件中，然后压缩以同步或者异步生成新的列式文件。特点是数据延迟较低、查询延迟较高（涉及数据存储文件与增量文件合并）、更新时开销较低（进写入增量，受增量大小影响）、写放大较低（仅写入增量文件）重组字段：更新数据时的重组字段如果不指定则默认使用主键

基本信息配置完成后，单击<下一步>按钮，进入数据结构配置页面。

在表结构设计区域中添加字段。表结构设计区域通过列表展示了表中的字段，并提供了添加数据字段或导入等表结构设计操作（例外：在Kafka类型数据源中新建message类型的表时，为Json编辑器）。列表上方提供了如下操作按钮：

添加数据：单击该按钮可以在列表中添加一个空字段。

添加5条：单击该按钮可以在列表中批量添加5个空字段。

清除添加：单击该按钮可以清除列表中添加的所有字段。

文件导入：单击该按钮，可以导入按模板填写的文件，从而批量向表中导入字段。

模板下载：单击该按钮可以下载模板。按模板规范填写内容后，可以批量向表中导入字段。

选择标准：单击该按钮，在弹出窗口中选择数据表，选择部分字段导入或将整表导入。

添加数据字段后，列表中出现新的空字段，需填写字段内容：

字段名：输入字段名，由数字字母下划线组成，必须以字母开头，且不能是SQL关键字。

中文名称：输入字段的中文名。

字段类型：在下拉框选择对应数据源的字段类型。

类型长度：设置字段类型的精度，仅部分字段类型需要配置。

主键：点击控件，可选择是否将该字段设置成表主键。

关联标准：点击关联标准列的图标，在弹出的窗口中选择对应的数据项，可以将该字段与标准管理中的数据项关联，方便后续查看该字段的来源。

描述：填写字段的描述信息。

操作：提供了删除字段的操作图标。

在Kafka类型数据源中创建message类型的表时，其表结构设计输入框是一个标准的Json编辑器，其中key是字段名，value必须是Kafka支持的字段类型。Kafka支持的基本字段类型包括：string、boolean、integer、bigint、float、double、timestamp。

支持复合类型对象和数组，其中当数组元素类型为基本类型elementType时，写法为：

"arrayName":"array[elementType]"

示例如下：

{

"k1": "string",

"map1": {

"map2": {

"m2k1": "string"

"m1k1": "string"

"array1": "array[string]",

"array2": [

{

"a2k1": "string",

"a2k2": "boolean"

}

]

}

配置完成后，执行后续操作：

对于MySQL、PostgreSQL、达梦、Vertica、Greenplum、Oracle类型数据源，支持配置质量规则和数据脱敏，单击<下一步>按钮，可依次为各字段配置质量规则和脱敏规则，规则配置均为可选，规则的配置说明请参见下表。

对于HBase和Elasticsearch类型数据源，支持配置脱敏规则，单击<下一步>按钮，可为各字段配置脱敏规则，规则配置为可选，规则的配置说明请参见下表。

对于其他类型数据源，请跳过此步。

表-3 规则参数配置说明

表配置项

参数说明

质量规则

质量规则用于为表中的字段配置数据质量规则，为可选配置

1. 在指标参数配置区域配置参数。

字段名：选择表中字段

指标类型：指定需要配置的规则模型

描述：配置质量指标描述信息

2. 单击<添加到规则列表>按钮，将该字段配置的指标规则添加到下方的指标规则列表中。列表中支持如下操作：

清空：清空指标规则列表中的所有配置

设置过滤条件：对字段设置过滤条件，可进一步缩小检核数据的范围

指标编辑：对字段所配置的指标规则进行编辑

移除：移除字段所配置的指标规则

如果新建表时配置了质量规则，则在表新建完成时，系统会在[数据质量/质量监控]中对应创建以“质量检测_数据源名称_模式_表名”格式命名的质量监控任务。该任务在表创建完成5分钟后开始周期性调度执行，调度有效期为一年，每天执行一次

数据脱敏

数据脱敏用于为表中的字段配置识别规则，并进行脱敏处理

在列表中，为字段选择识别规则和对应的分级

配置完成后，单击<确定>按钮，表新建完成。