表管理提供了全界面化操作的新建表功能,适合需要全新创建单个表的情况。
|
· 不同数据库自身限制不一样,为适配不同数据源类型,数据运营平台中不会做过多限制。在新建数据表时,若建表信息超出数据库本身的限制,系统会直接返回数据库自身的报错信息。 · Hive和DLH数据源中存储方式为Hudi的数据表目前仅支持Parquet格式的文件。当需要写入数据时,如果直接通过insert语句插入数据或者直接上传数据文件,则该表将会从Parquet格式的文件变为一个普通的Parquet表,影响系统使用。因此,请使用对应的实时作业写入数据。 · 如果要在Hive和DLH数据源中新建存储方式为HUDI类型的表,则需要确保该工作空间分配的集群HBase库中已经创建了名为“hudi”的命名空间,并且数据源中配置的用户在HBase中有建表权限,否则将不会创建对应的HBase索引,进而影响查询效率。 |
在表管理页面中,单击列表左上方的<新建>按钮,进入新建表页签。
在基本信息页面配置“数据源信息”区域中的公共参数。
数据源类型:选择数据源类型,目前支持的数据源类型包括:HBase、Kafka、Elasticsearch、MySQL、PostgreSQL、达梦、Greenplum、Hive、Oracle、Vertica、DLH、DRDS、SeaSQL MPP、SQL Server、ClickHouse。
数据源名:选择数据源名。对于Hive、DLH、HBase、Elasticsearch、Kafka类型数据源,系统会在向该工作空间分配资源时,创建默认的数据源,也可以选择使用此类默认数据源。
配置“数据源信息”区域中的特有参数和“基本属性”区域中的参数。
模式:指定表所属的模式,对于Greenplum、Oracle、PostgreSQL、SeaSQL MPP、SQL Server、Vertica、达梦类型数据源需要指定其中的模式。模式是一个表的集合,一个模式可以包含视图、索引、数据类型、函数和操作符等。系统屏蔽了部分系统模式,详细说明请参见[数据开发/数据开发常见问题/表管理场景问题]中的“表管理屏蔽了哪些数据源下的哪些系统模式”
数据库:指定表所属的数据库。在下拉框中选择数据库名,表将创建到所选的数据库下。对于Hive、DLH类型数据源需要指定其中的数据库。
命名空间:选择数据表所属的命名空间。在下拉框中选择HBase数据库现有的命名空间,表将会创建到所选的命名空间下。对于HBase类型数据源需要指定其中的命名空间。
配置“基本属性”区域中的参数,如下述表-1所示。
|
属性配置项 |
参数说明 |
|
表名 |
必填,表英文名,由数字、字母、下划线组成,必须以字母开头,且不能是SQL关键字 在Hive和DLH类型数据源中建表时,如果表名输入大写字母,表创建完成并保存后,系统会自动将表名转换为小写字母 |
|
中文表名 |
可选,必须包含中文,还可包含字母、数字、下划线 |
|
责任人 |
必选,选择数据表的责任人,默认为执行新建操作的用户,可以选择当前工作空间所属组织下的其他用户。最多配置4个责任人,用户的角色仅限普通用户、组织管理员和超级管理员 |
|
数据目录 |
可选,选择数据表管理的目录,可以选择多个目录 |
|
主题 |
可选,选择该表所属的主题,可以选择多个主题目录。主题目录统一在[数据资产/数据目录]中管理 |
|
分层 |
可选,选择该表所属的分层目录,只能选择一个。分层目录统一在[数据资产/数据目录]中管理 |
|
标签 |
可选,选择该表适合的标签,可以选择多个标签。标签需先在[工程配置/标签管理]中创建 |
|
主数据 |
仅选择MySQL和Oracle类型且已在[主数据管理/主数据维护]中配置为主数据源的数据源时,需要配置该参数。开启后,创建的数据表将成为主数据表,相关详细介绍请参见[主数据管理]对应的联机帮助 |
|
描述 |
可选,输入表描述信息 |
配置“物理模型设计”区域中的参数,各类型数据源中表格的参数不同,参数介绍请参见如下各表格。各数据源类型中,DRDS、MySQL、Oracle、PostgreSQL、SQL Server、Vertica、达梦不涉及物理模型设计参数配置。具体配置请以实际页面为准。
表-2 HBase物理模型设计参数配置说明
|
特有参数 |
说明 |
|
建表周期 |
可下拉选择按天(DAY)、月(MONTH)、年(YEAR)或无周期(NONE),默认为NONE。HBase集群上存储的真实表名与该建表周期有关,可以通过hbase shell连接到服务器上查看 |
|
分区字段 |
从表结构设计字段名中选择一个字段指定为分区字段,该字段必须为long类型(即该字段中的值需是时间)。若建表周期为NONE,则无分区字段 |
|
数据生命周期 |
自定义设定数据保存在HBase表中的最长时间,到期则清理旧数据 |
|
分区大小 |
单个分区存储最大值(单位GB),如果超过该值,hbase会自动创建新的region |
|
预分区数量 |
建表时预先创建的region个数,避免写数据热点问题和集群I/O资源的消耗 |
|
分隔符 |
数据分隔符,往hbase批量输入数据时字段间的分隔符 |
|
多值列 |
一个字段中存在多个值,例如Array类型的字段 |
表-3 Kafka物理模型设计参数配置说明
|
特有参数 |
说明 |
|
表类型 |
|
|
分区数 |
Kafka主题的分区数,对应Kafka的Partition |
|
副本数 |
Kafka的replica,该数量包含原始数据,默认值为3(即数据在Kafka中包括原始数据总共保存3份) |
|
消息保留时长 |
超过消息保留时长,就会清除旧数据 |
|
类型(仅table) |
JSON、CSV、BLOB(二进制长对象) |
|
分隔符 |
类型为CSV时,数据分隔符必填 |
|
工作空间(仅message) |
融合集成平台中该topic所属工作空间 |
|
用户名(仅message) |
工作空间的用户名 |
|
密码(仅message) |
工作空间的密码 |
表-4 Elasticsearch物理模型设计参数配置说明
|
特有参数 |
说明 |
|
全文检索 |
|
|
刷新时间 |
执行刷新操作的频率(数据的变更在执行完刷新操作之后才会对搜索可见) |
|
数据分片数 |
指定ES索引数据分片数,即ES索引配置项number_of_shards的值 |
|
数据备份数 |
ES索引数据备份数,即配置项number_of_replicas的值 |
|
建表周期 |
下拉选择按天(Day)、月(Month)、年(Year)或无周期(None)建表,缺省为None |
表-5 Greenplum/SeaSQL MPP物理模型设计参数配置说明
|
特有参数 |
说明 |
|
数据分布字段 |
指定分布键 |
|
存储模式 |
支持heap(普通表)、row(行存储AO表)、column(列存储AO表)三种存储模式,仅heap模式的表支持指定主键 |
|
添加分区 |
数据表会根据分区配置创建分区表
|
表-6 Hive/DLH物理模型设计参数配置说明
|
特有参数 |
说明 |
|
外部表 |
指定是否是外部表 |
|
分区字段 |
指定表的分区字段,不能是表结构设计中的字段 |
|
存储方式 |
包括TEXTFILE、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET、HUDI存储方式。其中选择HUDI方式时,表示创建Hudi类型的数据表,该表如后续需使用Spark引擎执行写入或查询操作,请在下一步设计表结构时,注意字段类型的配置(字段类型的说明请参见[数据开发/数据开发常见问题/表管理场景问题]中的“在Hive或DLH类型数据源中创建存储类型为Hudi的数据表时,有哪些注意事项”) |
|
hdfs路径 |
外部表的存储路径 |
|
字段分隔符 |
表数据中字段间的分隔符,存储方式为TEXTFILE时需要配置 |
|
元素间分隔符 |
array类型字段的元素间分隔符,存储方式为TEXTFILE时需要配置 |
|
kv分隔符 |
map类型字段key和value之间的分隔符,存储方式为TEXTFILE时需要配置 |
|
表类型 |
Hudi的表类型,包括COW和MOR
|
|
重组字段 |
更新数据时的重组字段,如果不指定则默认使用主键字段 |
表-7 ClickHouse物理模型设计参数配置说明
|
特有参数 |
说明 |
|
表引擎 |
选择表引擎,支持ReplicatedMergeTree或ReplicatedCollapsingMergeTree。使用这两种引擎的表(普通表或折叠表)支持数据副本 |
|
状态列 |
指定表中作为状态的列,仅选择ReplicatedCollapsingMergeTree表引擎时需要配置该项 |
|
分区字段 |
指定对表进行分区的依据字段以及分区的时间单位。该表会基于指定的字段,以设定的时间单位为时间段进行对表进行分区 |
|
表ttl |
设定表中数据的TTL,参数包含三个值,分别为指定表中的时间字段,并配置生命周期时间(值+单位) |
|
排序字段 |
指定表中作为排序依据的字段,支持指定多个 |
基本信息配置完成后,单击<下一步>按钮,进入表结构设计页面。
在表结构设计区域中添加字段。表结构设计区域通过列表展示了表中的字段,并提供了添加数据字段或导入等表结构设计操作(例外:在Kafka类型数据源中新建message类型的表时,为Json编辑器,其说明请参见[数据开发/数据开发常见问题/表管理场景问题]中的“在Kafka类型数据源中新建message类型的表时,如何编辑json语句”)。列表上方提供了如下操作按钮:
新建:单击<新建>按钮,可以在列表中添加一行。
批量删除:勾选需要删除的字段,单击该按钮,即可删除。
自动生成质量规则:当数据源类型选择为MySQL、PostgreSQL、达梦、Vertica、Greenplum、Oracle、Hive、DRDS、DLH、ClickHouse时会显示该项配置。当打开后,为字段关联标准,在创建表完成后,会根据标准自动生成质量规则和检查任务;当关闭时,则不会生成。表创建完成后,再修改表时,该配置不能再修改。
文件导入:单击该按钮,可以导入按模板填写的文件,从而批量向表中导入字段。
模板下载:单击该按钮可以下载模板。按模板规范填写内容后,可以批量向表中导入字段。
选择标准:单击该按钮,在弹出窗口中选择数据表,选择部分字段导入或将整表导入。选择标准后,字段与标准会建立关联关系,当该表创建成功后,[数据质量/质量检查]中会对应生成一条质量规则。
添加数据字段后,列表中出现新的空字段,需填写字段内容:
字段名:输入字段名,由数字字母下划线组成,必须以字母开头,且不能是SQL关键字。在Hive和DLH类型数据源中建表时,如果字段输入大写字母,表创建完成并保存后,系统会自动将字段名转换为小写字母。
中文名称:输入字段的中文名。
字段类型:在下拉框选择对应数据源的字段类型。对于Hive或DLH类型数据源中存储方式为HUDI的表,如后续需使用Spark引擎执行写入或查询操作,则其字段类型的配置需要参见[数据开发/数据开发常见问题/表管理场景问题]中的“在Hive或DLH类型数据源中创建存储类型为Hudi的数据表时,有哪些注意事项”。
类型长度:设置字段类型的精度,仅部分字段类型需要配置。
非空:设置字段的值是否允许为空。
主键:点击控件,可选择是否将该字段设置成表主键。
描述:填写字段的描述信息。
业务部门:选择系统中已存在的组织作为数据的归属部门。
操作:提供了删除字段的操作。
配置完成后,可以单击<确定>按钮,完成新建操作。
如暂时未编辑完成,需离开当前配置页面,可单击<保存为草稿>按钮,将未编辑完成的表保存为草稿。草稿会被放入在表管理的草稿箱中,可在草稿箱中重新编辑。表结构至少有一个字段才可以保存为草稿。