新建表

表管理提供了全界面化操作的新建表功能,适合需要全新创建单个表的情况。

·          不同数据库自身限制不一样,为适配不同数据源类型,数据运营平台中不会做过多限制。在新建数据表时,若建表信息超出数据库本身的限制,系统会直接返回数据库自身的报错信息。

·          HiveDLH数据源中存储方式为Hudi的数据表目前仅支持Parquet格式的文件。当需要写入数据时,如果直接通过insert语句插入数据或者直接上传数据文件,则该表将会从Parquet格式的文件变为一个普通的Parquet表,影响系统使用。因此,请使用对应的实时作业写入数据。

·          如果要在HiveDLH数据源中新建存储方式为HUDI类型的表,则需要确保该工作空间分配的集群HBase库中已经创建了名为“hudi”的命名空间,并且数据源中配置的用户在HBase中有建表权限,否则将不会创建对应的HBase索引,进而影响查询效率。

 

在表管理页面中,单击列表左上方的<新建>按钮,进入新建表页签。

1.      配置基本参数

  1. 在基本信息页面配置“数据源信息”区域中的公共参数。

  1. 配置“数据源信息”区域中的特有参数和“基本属性”区域中的参数。

  1. 配置“基本属性”区域中的参数,如下述-1所示。

表-1 基本属性参数配置说明

属性配置项

参数说明

表名

必填,表英文名,由数字、字母、下划线组成,必须以字母开头,且不能是SQL关键字

HiveDLH类型数据源中建表时,如果表名输入大写字母,表创建完成并保存后,系统会自动将表名转换为小写字母

中文表名

可选,必须包含中文,还可包含字母、数字、下划线

责任人

必选,选择数据表的责任人,默认为执行新建操作的用户,可以选择当前工作空间所属组织下的其他用户。最多配置4个责任人,用户的角色仅限普通用户、组织管理员和超级管理员

数据目录

可选,选择数据表管理的目录,可以选择多个目录

主题

可选,选择该表所属的主题,可以选择多个主题目录。主题目录统一在[数据资产/数据目录]中管理

分层

可选,选择该表所属的分层目录,只能选择一个。分层目录统一在[数据资产/数据目录]中管理

标签

可选,选择该表适合的标签,可以选择多个标签。标签需先在[工程配置/标签管理]中创建

主数据

仅选择MySQLOracle类型且已在[主数据管理/主数据维护]中配置为主数据源的数据源时,需要配置该参数。开启后,创建的数据表将成为主数据表,相关详细介绍请参见[主数据管理]对应的联机帮助

描述

可选,输入表描述信息

 

  1. 配置“物理模型设计”区域中的参数,各类型数据源中表格的参数不同,参数介绍请参见如下各表格。各数据源类型中,DRDSMySQLOraclePostgreSQLSQL ServerVertica、达梦不涉及物理模型设计参数配置。具体配置请以实际页面为准。

表-2 HBase物理模型设计参数配置说明

特有参数

说明

建表周期

可下拉选择按天(DAY)、月(MONTH)、年(YEAR)或无周期(NONE),默认为NONEHBase集群上存储的真实表名与该建表周期有关,可以通过hbase shell连接到服务器上查看

分区字段

从表结构设计字段名中选择一个字段指定为分区字段,该字段必须为long类型(即该字段中的值需是时间)。若建表周期为NONE,则无分区字段

数据生命周期

自定义设定数据保存在HBase表中的最长时间,到期则清理旧数据

分区大小

单个分区存储最大值(单位GB),如果超过该值,hbase会自动创建新的region

预分区数量

建表时预先创建的region个数,避免写数据热点问题和集群I/O资源的消耗

分隔符

数据分隔符,往hbase批量输入数据时字段间的分隔符

多值列

一个字段中存在多个值,例如Array类型的字段

 

表-3 Kafka物理模型设计参数配置说明

特有参数

说明

表类型

  • table类型定义简单的表结构字段无多层嵌套,并且会在Kafka集群上创建对应的topic

  • message类型是针对融合集成平台Kafka数据源中已有的topic定义其结构,在下一步设计表结构时需在页面的json编辑器中使用json代码完成,编辑json代码的说明请参见[数据开发/数据开发常见问题/表管理场景问题]中的“在Kafka类型数据源中新建message类型的表时,如何编辑json语句”

分区数

Kafka主题的分区数,对应KafkaPartition

副本数

Kafkareplica,该数量包含原始数据,默认值为3(即数据在Kafka中包括原始数据总共保存3份)

消息保留时长

超过消息保留时长,就会清除旧数据

类型(仅table

JSONCSVBLOB(二进制长对象)

分隔符

类型为CSV时,数据分隔符必填

工作空间(仅message

融合集成平台中该topic所属工作空间

用户名(仅message

工作空间的用户名

密码(仅message

工作空间的密码

 

表-4 Elasticsearch物理模型设计参数配置说明

特有参数

说明

全文检索

  • 开启时,表中所有支持(查询/查询+聚合)场景的字段内容,均可以在[数据资产][数据搜索/ES搜索]界面中使用关键字(不指定字段)检索。

  • 关闭时,表中所有字段内容,均无法在[数据资产][数据搜索/ES搜索]界面不指定字段检索

刷新时间

执行刷新操作的频率(数据的变更在执行完刷新操作之后才会对搜索可见)

数据分片数

指定ES索引数据分片数,即ES索引配置项number_of_shards的值

数据备份数

ES索引数据备份数,即配置项number_of_replicas的值

建表周期

下拉选择按天(Day)、月(Month)、年(Year)或无周期(None)建表,缺省为None

 

表-5 Greenplum/SeaSQL MPP物理模型设计参数配置说明

特有参数

说明

数据分布字段

指定分布键

存储模式

支持heap(普通表)、row(行存储AO表)、column(列存储AO表)三种存储模式,仅heap模式的表支持指定主键

添加分区

数据表会根据分区配置创建分区表

  • 分区字段:指定分区的基准字段。该字段的数据类型有限制:分区类型为range时,仅能选择date类型的字段;分区类型为list时,仅能选择varcharint类型的字段

  • 分区类型:指定分区的类型,包括range(范围)和list(列表)。需要按一段时间范围进行分区时,可以选择range;需要按匹配特定值分区时,可以选择list

  • 时间:选在时间范围,精确到某天。仅分布类型为range时才可配置

  • 间隔时间:选择间隔时间长度,包括year(年)、month(月)、day(天)。仅分布类型为range时才可配置

  • list:单击按钮配置定分区的值,可以指定多个,匹配值(多个时,匹配任意一个即可)的数据会归类到一个分区中。单击图标,可以增加分区。仅分布类型为list时才可配置

 

表-6 Hive/DLH物理模型设计参数配置说明

特有参数

说明

外部表

指定是否是外部表

分区字段

指定表的分区字段,不能是表结构设计中的字段

存储方式

包括TEXTFILESEQUENCEFILERCFILEORCFILEPARQUETHUDI存储方式。其中选择HUDI方式时,表示创建Hudi类型的数据表,该表如后续需使用Spark引擎执行写入或查询操作,请在下一步设计表结构时,注意字段类型的配置(字段类型的说明请参见[数据开发/数据开发常见问题/表管理场景问题]中的“在HiveDLH类型数据源中创建存储类型为Hudi的数据表时,有哪些注意事项”)

hdfs路径

外部表的存储路径

字段分隔符

表数据中字段间的分隔符,存储方式为TEXTFILE时需要配置

元素间分隔符

array类型字段的元素间分隔符,存储方式为TEXTFILE时需要配置

kv分隔符

map类型字段keyvalue之间的分隔符,存储方式为TEXTFILE时需要配置

表类型

Hudi的表类型,包括COWMOR

  • COW:仅使用专门的列式文件格式(例如Parquet)存储数据。写入数据会更新版本并重写文件(生成新的数据存储文件),在写入过程中数据会进行同步合并。特点是结构简单、数据延迟较高、查询延迟低、更新时开销较高(需要生成新数据存储文件)、写放大较高(生成新文件)等

  • MOR:使用列式文件格式(例如Parquet,数据存储文件)和行式文件格式(例如Avro,数据增量文件)组合存储数据。写入数据时会将更新记录到增量文件中,然后压缩以同步或者异步生成新的列式文件。特点是数据延迟较低、查询延迟较高(涉及数据存储文件与增量文件合并)、更新时开销较低(进写入增量,受增量大小影响)、写放大较低(仅写入增量文件)

重组字段

更新数据时的重组字段,如果不指定则默认使用主键字段

 

表-7 ClickHouse物理模型设计参数配置说明

特有参数

说明

表引擎

选择表引擎,支持ReplicatedMergeTreeReplicatedCollapsingMergeTree。使用这两种引擎的表(普通表或折叠表)支持数据副本

状态列

指定表中作为状态的列,仅选择ReplicatedCollapsingMergeTree表引擎时需要配置该项

分区字段

指定对表进行分区的依据字段以及分区的时间单位。该表会基于指定的字段,以设定的时间单位为时间段进行对表进行分区

ttl

设定表中数据的TTL,参数包含三个值,分别为指定表中的时间字段,并配置生命周期时间(值+单位)

排序字段

指定表中作为排序依据的字段,支持指定多个

 

  1. 基本信息配置完成后,单击<下一步>按钮,进入表结构设计页面。

2.      配置表结构

  1. 在表结构设计区域中添加字段。表结构设计区域通过列表展示了表中的字段,并提供了添加数据字段或导入等表结构设计操作(例外:在Kafka类型数据源中新建message类型的表时,为Json编辑器,其说明请参见[数据开发/数据开发常见问题/表管理场景问题]中的“在Kafka类型数据源中新建message类型的表时,如何编辑json语句”)。列表上方提供了如下操作按钮:

添加数据字段后,列表中出现新的空字段,需填写字段内容:

  1. 配置完成后,可以单击<确定>按钮,完成新建操作。

如暂时未编辑完成,需离开当前配置页面,可单击<保存为草稿>按钮,将未编辑完成的表保存为草稿。草稿会被放入在表管理的草稿箱中,可在草稿箱中重新编辑。表结构至少有一个字段才可以保存为草稿。