表操作

在本组织表页签的表列表中,提供了对不同主题和分层下表的操作。

·          编辑表、删除表、注册离线表、取消注册离线表、索引管理等操作均只有表的创建者和管理员有权限。如果表数据被共享,则组织内所有用户有权限操作。

·          Hive数据源以两个或以上符号作为字段分隔符不支持添加字段。

·          被同步任务所使用的表,请勿修改表结构。如需修改,建议先取消对表的使用,再进行修改。

 

表操作包括:

查看表列表

编辑表

如果数据表已被注册为离线表,则编辑该表时将同时更新离线表。更新离线表用于在源表结构被修改时更新离线表注册信息,请根据该表在离线分析中的使用情况,确认是否需要更新离线表。

 

编辑表的步骤如下:

  1. 在表管理页面的表列表中,单击待编辑表对应操作列中的<编辑>按钮,进入编辑表页面。

如该表已被注册为离线表,且在业务流程中被使用,则将展示该表的使用信息(该使用信息以调度中心保存的数据为准),用户需确认后方可进行下一步操作。

  1. 编辑表的配置参数,包括基本属性、物理模型设计和表结构设计中的参数,可修改参数的编辑规则与新增表时一致,请参见新建表

目前仅GreenplumHiveVerticaMySQLOraclePostgreSQL,达梦支持字段删除和修改字段(字段名、字段类型、字段备注),Kafka表的message类型可以随意修改表结构。

  1. 编辑完成后,单击<确定>按钮,表编辑完成。

扩展表

STDB类型的表支持扩展,步骤如下:

  1. 在表管理页面的表列表中,单击待扩展表对应操作列中的<更多>按钮,并在下拉菜单中选择[扩展表]菜单项,弹出扩展表窗口。

  1. 选择扩展类型。

  1. 单击<确定>按钮,可以对表的存储集群进行扩展。

文件上传

·          仅支持Kafka类型数据源中的表,且表的类型为table

·          文件上传推荐使用TXTCSV文件格式。

·          当文件内容中包含双引号特殊字符时,对于JSONCSV类型的Topic,不支持使用CSV解析方式对文件进行处理,推荐使用TXT解析方式进行处理。

 

  1. 在表管理页面的表列表中,单击待上传数据表对应操作列中的<更多>按钮,并在下拉菜单中选择[文件上传]菜单项,弹出文件上传窗口。

  1. 在窗口中配置参数信息:

仅支持Tab、英文逗号(,)或Tab+英文逗号,不支持其他转义字符。Tab+英文逗号仅支持TXT解析方式,文本每一行解析完之后需比定义的字段个数多一个,而且多余字段置于行尾(主要用于数据查询导出的文件进行导入新增的特定功能)。

 

  1. 配置完成后,单击<确定>按钮。

修复表

STDB类型的表支持修复,步骤如下:

在表管理页面的表列表中,单击待修复表对应操作列中的<更多>按钮,并在下拉菜单中选择[修复表]菜单项,即可针对物理表创建失败的情况,重新创建物理表。

删除表

删除表操作不可逆,一旦执行,不仅会删除表的元数据信息,同时也会删除对应的物理表。表会被销毁,表中数据不可恢复,表也无法继续使用。该操作可能会造成生产数据丢失,风险极高,请谨慎执行。

如该操作不可避免,请务必确认表中无数据或数据已不再需要,且无作业(包括已运行的作业)或用户使用该表,待充分确认无影响后再删除表。

 

在表管理页面的表列表中,单击待删除表对应操作列中的<删除>按钮,弹出删除表确认对话框。根据表是否被使用,可执行的操作不同:

  1. 输入字符串“DELETE”(不区分大小写),确认执行删除。

  1. 单击<确定>按钮。

共享表

共享表可以将表的编辑、删除等权限共享给组织内的其他用户。

在表管理页面的表列表中,单击待共享表对应操作列中的<更多>按钮,并在下拉菜单中选择[共享]菜单项,即可将该表共享。

  1. 在表管理页面的表列表中,勾选待共享表左侧的复选框。

  1. 单击列表上方的<批量操作>按钮,在弹出菜单中选择[批量共享]菜单项,即可将所选的表共享。

共享成功后,[共享]菜单项变为[取消共享]菜单项。选择[取消共享]菜单项,可以将该表取消共享。

注册/取消注册离线表

注册离线表的过程为在Hive数据源中创建一个与源表对应的外部表。注册离线表成功后,可以被[调度中心]中业务流程的SparkSQL节点使用,也可以在[SQL调试]选择SparkSQL执行引擎时作为数据源表使用。

支持注册离线表的数据源类型有:HBaseESMySQLPostgreSQL、达梦、GreenplumOracleVerticaSTDB(存储集群需包含HBase)。Kafka数据源中的表不支持注册为离线表。

对于部分数据库,如果表中包含特定的数据类型,则不能注册为离线表,详见下表。

表-1 不支持注册为离线表的数据类型

数据源表类型

注册离线表时不支持的数据类型

Oracle

BFILE

Vertica

UUID

STDB

  • Bytes

  • UUID

Elasticsearch

attachment

 

  1. 在表管理页面的表列表中,单击待注册的表对应操作列中的<更多>按钮,并在下拉菜单中选择[离线表注册]菜单项,弹出离线表注册窗口。

  1. 填写离线表名并配置schema参数。schema参数的值可以从下拉框中选择,也可以通过后方的<新建目录>按钮创建新的schema并选择。参数的含义为:

  1. 单击<确定>按钮,即可将该表注册成离线表。

在业务流程的SparkSQL节点等SparkSQL相关功能中引用该离线表时,需使用步骤2中配置的“'schema'.'注册表名'”为格式指代该表。

对于已注册为离线表的数据表,如果需要取消注册为离线表,单击待取消注册的表对应操作列中的<更多>按钮,并在下拉菜单中选择[取消离线表注册]菜单项,即可将该表取消注册离线表。

清空表

Kafka类型的表不支持清空表操作。

清空表操作会对表的物理表进行数据清除,且数据不可恢复。该操作可能会造成生产数据丢失,风险极高,请谨慎执行。如该操作不可避免,请务必确认表中数据已不再需要,且无作业(包括已运行的作业)或用户使用该表,待充分确认无影响后再清空表。

 

  1. 在表管理页面的表列表中,单击待发布的表对应操作列中的<更多>按钮,并在下拉菜单中选择[发布表]菜单项,弹出清空表对话框。

  1. 输入字符串“CLEAN”(不区分大小写),确认执行清空。

  1. 单击<确定>按钮,执行清空表操作。

发布表

在表管理页面的表列表中,单击待发布的表对应操作列中的<更多>按钮,并在下拉菜单中选择[发布表]菜单项,可以将该表进行发布。

  1. 在表管理页面的表列表中,勾选待共享表左侧的复选框。

  1. 单击列表上方的<批量操作>按钮,在弹出菜单中选择[批量发布]菜单项,即可将所选的表发布。

数据上架

通过数据上架功能,可以将表中的数据作为资产发布到资产市场,供用户申请、预览。

支持数据上架的表所属的数据源类型:MySQLPostgreSQLVerticaGreenplumOracleHiveDLH

  1. 在表管理页面的表列表中,单击待上架的表对应操作列中的<更多>按钮,并在下拉菜单中选择[数据上架]菜单项,弹出数据上架窗口。

  1. 配置待上架数据的基础属性,包括:

  1. 勾选需要上架的字段。数据关联区域展示了待上架数据的信息,包括所属数据源类型、数据源、Schema和数据表信息,并展示了表中的字段(即表中的列)列表,在列表中勾选需要上架的字段。

  1. 单击<上架>按钮,数据上架完成。数据上架后,可以在已上架表类别的列表中查看,详细说明请参见表上架管理。同时,已上架的数据也会显示在资产市场中。

对于未完成的数据上架配置,可以临时保存草稿,并可在表上架管理的列表中继续编辑。对于已上架的数据,可以修改配置,重新上架。

数据管理

数据管理操作,是为了更精细化的控制HBase类型表中的数据,以可视化的方式让用户维护HBase表中的数据。

·          HBase类型的表支持数据管理操作。

·          HBase表上创建了全文索引,则不支持进行数据管理操作。

·          TTLTime to Live)是HBase中控制数据生命周期的参数,用于限定数据的超时时间,数据库会自动清理超时数据。

·          TTL同步操作会修改HBase表中的TTL,若减少TTL并同步,该操作可能会造成生产数据丢失,风险极高,请谨慎执行。

·          清空表数据操作会对表的物理表进行数据清除,且数据不可恢复。该操作可能会造成生产数据丢失,风险极高,请谨慎执行。

 

数据管理页面中,可以对数据设置周期,进行TTL同步及清空表数据,说明如下:

批量订阅表

对于需要关注的表,可以将其加入订阅,以方便查看。

  1. 在表管理页面的表列表中,勾选待订阅表左侧的复选框。

  1. 单击列表上方的<批量操作>按钮,在弹出菜单中选择[批量订阅]菜单项,即可订阅所选的表。

对于已订阅的表,可以在已订阅表中查看,详细说明请参见已订阅表

批量删除元数据

对于不在需要保留元数据的数据表,可以对其元数据进行删除。

  1. 在表管理页面的表列表中,勾选待删除元数据表左侧的复选框。

  1. 单击列表上方的<批量操作>按钮,在弹出菜单中选择[删除元数据]菜单项,弹出确认窗口。

  1. 单击<确定>按钮,操作完成。

模板下载

在表管理页面中,单击页面右上角的<更多菜单>按钮,选择[模板下载]菜单项,即可下载表模板。根据模板录入表后,可以通过导入功能,批量快速导入数据表。

导入表

  1. 在表管理页面的列表中,单击页面右上角的<导入>按钮,弹出导入窗口。

  1. 窗口默认展示导入文件页签,单击<点击上传>按钮,选择xlszip文件。系统对导入文件的内容格式有要求,请严格按照模板填充内容。zip文件必须是由一个或多个xls文件直接压缩而成。

文件选择后,会自动解析,符合导入要求时,文件右侧会出现图标。当导入的表与列表中已有的表重复时,需要重新为导入的表选择数据源。

  1. 单击<下一步>按钮,自动跳转至导入记录页签。该页签中包含了如下信息:

导出表

  1. 在表管理页面的列表中,勾选待导出的表左侧的复选框。

  1. 单击列表右上方的<导出>,即可提交导出表操作。导出的表需要在导出记录中下载,操作请参见查看导出记录

STDB类型数据源中的表不支持导出,如果选择导出的表中包含了该类型的表,会跳过该类型的表。

 

全部导出

在表管理页面中,单击页面右上角的<更多菜单>按钮,选择[全部导出]菜单项即可提交导出表操作。导出的表需要在导出记录中下载,操作请参见查看导出记录

STDB类型数据源中的表不支持导出,如果包含了该类型的表,会跳过该类型的表。

 

查看导出记录

  1. 在表管理页面中,单击页面右上角的<更多菜单>按钮,选择[导出记录]菜单项,弹出导出记录窗口。

  1. 窗口中以列表的形式展示了导出操作记录,表中包含如下字段: