新建表

表管理提供了全界面化操作的新建表功能，适合需要全新创建单个表的情况。

· 不同数据库自身限制不一样，为适配不同数据源类型，数据运营平台中不会做过多限制。在新建数据表时，若建表信息超出数据库本身的限制，系统会直接返回数据库自身的报错信息。

· Hive和DLH数据源中存储方式为Hudi的数据表目前仅支持Parquet格式的文件。当需要写入数据时，如果直接通过insert语句插入数据或者直接上传数据文件，则该表将会从Parquet格式的文件变为一个普通的Parquet表，影响系统使用。因此，请使用对应的实时作业写入数据。

· 如果要在Hive和DLH数据源中新建存储方式为HUDI类型的表，则需要确保该工作空间分配的集群HBase库中已经创建了名为“hudi”的命名空间，并且数据源中配置的用户在HBase中有建表权限，否则将不会创建对应的HBase索引，进而影响查询效率。

在表管理页面中，单击列表左上方的<新建>按钮，进入新建表页签。

1. 配置基本参数

在基本信息页面配置“数据源信息”区域中的公共参数。

数据源类型：选择数据源类型，目前支持的数据源类型包括：HBase、Kafka、Elasticsearch、MySQL、PostgreSQL、达梦、Greenplum、Hive、Oracle、Vertica、DLH、DRDS、SeaSQL MPP、SQL Server、ClickHouse。

数据源名：选择数据源名。对于Hive、DLH、HBase、Elasticsearch、Kafka类型数据源，系统会在向该工作空间分配资源时，创建默认的数据源，也可以选择使用此类默认数据源。

配置“数据源信息”区域中的特有参数和“基本属性”区域中的参数。

模式：指定表所属的模式，对于Greenplum、Oracle、PostgreSQL、SeaSQL MPP、SQL Server、Vertica、达梦类型数据源需要指定其中的模式。模式是一个表的集合，一个模式可以包含视图、索引、数据类型、函数和操作符等。系统屏蔽了部分系统模式，详细说明请参见[数据开发/数据开发常见问题/表管理场景问题]中的“表管理屏蔽了哪些数据源下的哪些系统模式”

数据库：指定表所属的数据库。在下拉框中选择数据库名，表将创建到所选的数据库下。对于Hive、DLH类型数据源需要指定其中的数据库。

命名空间：选择数据表所属的命名空间。在下拉框中选择HBase数据库现有的命名空间，表将会创建到所选的命名空间下。对于HBase类型数据源需要指定其中的命名空间。

配置“基本属性”区域中的参数，如下述表-1所示。

表-1 基本属性参数配置说明

属性配置项	参数说明
表名	必填，表英文名，由数字、字母、下划线组成，必须以字母开头，且不能是SQL关键字在Hive和DLH类型数据源中建表时，如果表名输入大写字母，表创建完成并保存后，系统会自动将表名转换为小写字母
中文表名	可选，必须包含中文，还可包含字母、数字、下划线
责任人	必选，选择数据表的责任人，默认为执行新建操作的用户，可以选择当前工作空间所属组织下的其他用户。最多配置4个责任人，用户的角色仅限普通用户、组织管理员和超级管理员
数据目录	可选，选择数据表管理的目录，可以选择多个目录
主题	可选，选择该表所属的主题，可以选择多个主题目录。主题目录统一在[数据资产/数据目录]中管理
分层	可选，选择该表所属的分层目录，只能选择一个。分层目录统一在[数据资产/数据目录]中管理
标签	可选，选择该表适合的标签，可以选择多个标签。标签需先在[工程配置/标签管理]中创建
主数据	仅选择MySQL和Oracle类型且已在[主数据管理/主数据维护]中配置为主数据源的数据源时，需要配置该参数。开启后，创建的数据表将成为主数据表，相关详细介绍请参见[主数据管理]对应的联机帮助
描述	可选，输入表描述信息

配置“物理模型设计”区域中的参数，各类型数据源中表格的参数不同，参数介绍请参见如下各表格。各数据源类型中，DRDS、MySQL、Oracle、PostgreSQL、SQL Server、Vertica、达梦不涉及物理模型设计参数配置。具体配置请以实际页面为准。

表-2 HBase物理模型设计参数配置说明

特有参数	说明
建表周期	可下拉选择按天（DAY）、月（MONTH）、年（YEAR）或无周期（NONE），默认为NONE。HBase集群上存储的真实表名与该建表周期有关，可以通过hbase shell连接到服务器上查看
分区字段	从表结构设计字段名中选择一个字段指定为分区字段，该字段必须为long类型（即该字段中的值需是时间）。若建表周期为NONE，则无分区字段
数据生命周期	自定义设定数据保存在HBase表中的最长时间，到期则清理旧数据
分区大小	单个分区存储最大值（单位GB），如果超过该值，hbase会自动创建新的region
预分区数量	建表时预先创建的region个数，避免写数据热点问题和集群I/O资源的消耗
分隔符	数据分隔符，往hbase批量输入数据时字段间的分隔符
多值列	一个字段中存在多个值，例如Array类型的字段

表-3 Kafka物理模型设计参数配置说明

特有参数	说明
表类型	table类型定义简单的表结构字段无多层嵌套，并且会在Kafka集群上创建对应的topic message类型是针对融合集成平台Kafka数据源中已有的topic定义其结构，在下一步设计表结构时需在页面的json编辑器中使用json代码完成，编辑json代码的说明请参见[数据开发/数据开发常见问题/表管理场景问题]中的“在Kafka类型数据源中新建message类型的表时，如何编辑json语句”
分区数	Kafka主题的分区数，对应Kafka的Partition
副本数	Kafka的replica，该数量包含原始数据，默认值为3（即数据在Kafka中包括原始数据总共保存3份）
消息保留时长	超过消息保留时长，就会清除旧数据
类型（仅table）	JSON、CSV、BLOB（二进制长对象）
分隔符	类型为CSV时，数据分隔符必填
工作空间（仅message）	融合集成平台中该topic所属工作空间
用户名（仅message）	工作空间的用户名
密码（仅message）	工作空间的密码

表-4 Elasticsearch物理模型设计参数配置说明

特有参数	说明
全文检索	开启时，表中所有支持（查询/查询+聚合）场景的字段内容，均可以在[数据资产]的[数据搜索/ES搜索]界面中使用关键字（不指定字段）检索。关闭时，表中所有字段内容，均无法在[数据资产]的[数据搜索/ES搜索]界面不指定字段检索
刷新时间	执行刷新操作的频率（数据的变更在执行完刷新操作之后才会对搜索可见）
数据分片数	指定ES索引数据分片数，即ES索引配置项number_of_shards的值
数据备份数	ES索引数据备份数，即配置项number_of_replicas的值
建表周期	下拉选择按天（Day）、月（Month）、年（Year）或无周期（None）建表，缺省为None

表-5 Greenplum/SeaSQL MPP物理模型设计参数配置说明

特有参数	说明
数据分布字段	指定分布键
存储模式	支持heap（普通表）、row（行存储AO表）、column（列存储AO表）三种存储模式，仅heap模式的表支持指定主键
添加分区	数据表会根据分区配置创建分区表分区字段：指定分区的基准字段。该字段的数据类型有限制：分区类型为range时，仅能选择date类型的字段；分区类型为list时，仅能选择varchar和int类型的字段分区类型：指定分区的类型，包括range（范围）和list（列表）。需要按一段时间范围进行分区时，可以选择range；需要按匹配特定值分区时，可以选择list 时间：选在时间范围，精确到某天。仅分布类型为range时才可配置间隔时间：选择间隔时间长度，包括year（年）、month（月）、day（天）。仅分布类型为range时才可配置 list：单击按钮配置定分区的值，可以指定多个，匹配值（多个时，匹配任意一个即可）的数据会归类到一个分区中。单击图标，可以增加分区。仅分布类型为list时才可配置

表-6 Hive/DLH物理模型设计参数配置说明

特有参数	说明
外部表	指定是否是外部表
分区字段	指定表的分区字段，不能是表结构设计中的字段
存储方式	包括TEXTFILE、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET、HUDI存储方式。其中选择HUDI方式时，表示创建Hudi类型的数据表，该表如后续需使用Spark引擎执行写入或查询操作，请在下一步设计表结构时，注意字段类型的配置（字段类型的说明请参见[数据开发/数据开发常见问题/表管理场景问题]中的“在Hive或DLH类型数据源中创建存储类型为Hudi的数据表时，有哪些注意事项”）
hdfs路径	外部表的存储路径
字段分隔符	表数据中字段间的分隔符，存储方式为TEXTFILE时需要配置
元素间分隔符	array类型字段的元素间分隔符，存储方式为TEXTFILE时需要配置
kv分隔符	map类型字段key和value之间的分隔符，存储方式为TEXTFILE时需要配置
表类型	Hudi的表类型，包括COW和MOR COW：仅使用专门的列式文件格式（例如Parquet）存储数据。写入数据会更新版本并重写文件（生成新的数据存储文件），在写入过程中数据会进行同步合并。特点是结构简单、数据延迟较高、查询延迟低、更新时开销较高（需要生成新数据存储文件）、写放大较高（生成新文件）等 MOR：使用列式文件格式（例如Parquet，数据存储文件）和行式文件格式（例如Avro，数据增量文件）组合存储数据。写入数据时会将更新记录到增量文件中，然后压缩以同步或者异步生成新的列式文件。特点是数据延迟较低、查询延迟较高（涉及数据存储文件与增量文件合并）、更新时开销较低（进写入增量，受增量大小影响）、写放大较低（仅写入增量文件）
重组字段	更新数据时的重组字段，如果不指定则默认使用主键字段

表-7 ClickHouse物理模型设计参数配置说明

特有参数	说明
表引擎	选择表引擎，支持ReplicatedMergeTree或ReplicatedCollapsingMergeTree。使用这两种引擎的表（普通表或折叠表）支持数据副本
状态列	指定表中作为状态的列，仅选择ReplicatedCollapsingMergeTree表引擎时需要配置该项
分区字段	指定对表进行分区的依据字段以及分区的时间单位。该表会基于指定的字段，以设定的时间单位为时间段进行对表进行分区
表ttl	设定表中数据的TTL，参数包含三个值，分别为指定表中的时间字段，并配置生命周期时间（值+单位）
排序字段	指定表中作为排序依据的字段，支持指定多个

基本信息配置完成后，单击<下一步>按钮，进入表结构设计页面。

2. 配置表结构

在表结构设计区域中添加字段。表结构设计区域通过列表展示了表中的字段，并提供了添加数据字段或导入等表结构设计操作（例外：在Kafka类型数据源中新建message类型的表时，为Json编辑器，其说明请参见[数据开发/数据开发常见问题/表管理场景问题]中的“在Kafka类型数据源中新建message类型的表时，如何编辑json语句”）。列表上方提供了如下操作按钮：

新建：单击<新建>按钮，可以在列表中添加一行。

批量删除：勾选需要删除的字段，单击该按钮，即可删除。

自动生成质量规则：当数据源类型选择为MySQL、PostgreSQL、达梦、Vertica、Greenplum、Oracle、Hive、DRDS、DLH、ClickHouse时会显示该项配置。当打开后，为字段关联标准，在创建表完成后，会根据标准自动生成质量规则和检查任务；当关闭时，则不会生成。表创建完成后，再修改表时，该配置不能再修改。

文件导入：单击该按钮，可以导入按模板填写的文件，从而批量向表中导入字段。

模板下载：单击该按钮可以下载模板。按模板规范填写内容后，可以批量向表中导入字段。

选择标准：单击该按钮，在弹出窗口中选择数据表，选择部分字段导入或将整表导入。选择标准后，字段与标准会建立关联关系，当该表创建成功后，[数据质量/质量检查]中会对应生成一条质量规则。

添加数据字段后，列表中出现新的空字段，需填写字段内容：

字段名：输入字段名，由数字字母下划线组成，必须以字母开头，且不能是SQL关键字。在Hive和DLH类型数据源中建表时，如果字段输入大写字母，表创建完成并保存后，系统会自动将字段名转换为小写字母。

中文名称：输入字段的中文名。

字段类型：在下拉框选择对应数据源的字段类型。对于Hive或DLH类型数据源中存储方式为HUDI的表，如后续需使用Spark引擎执行写入或查询操作，则其字段类型的配置需要参见[数据开发/数据开发常见问题/表管理场景问题]中的“在Hive或DLH类型数据源中创建存储类型为Hudi的数据表时，有哪些注意事项”。

类型长度：设置字段类型的精度，仅部分字段类型需要配置。

非空：设置字段的值是否允许为空。

主键：点击控件，可选择是否将该字段设置成表主键。

关联标准：点击关联标准列的图标，在弹出的窗口中选择对应的数据项，可以将该字段与标准管理中的数据项关联，方便后续查看该字段的来源。

描述：填写字段的描述信息。

业务部门：选择系统中已存在的组织作为数据的归属部门。

操作：提供了删除字段的操作。

配置完成后，可以单击<确定>按钮，完成新建操作。

如暂时未编辑完成，需离开当前配置页面，可单击<保存为草稿>按钮，将未编辑完成的表保存为草稿。草稿会被放入在表管理的草稿箱中，可在草稿箱中重新编辑。表结构至少有一个字段才可以保存为草稿。