在本组织表页签的表列表中,提供了对不同主题和分层下表的操作。
· 编辑表、删除表、注册离线表、取消注册离线表、索引管理等操作均只有表的创建者和管理员有权限。如果表数据被共享,则组织内所有用户有权限操作。 · Hive数据源以两个或以上符号作为字段分隔符不支持添加字段。 · 被同步任务所使用的表,请勿修改表结构。如需修改,建议先取消对表的使用,再进行修改。 |
表操作包括:
如果数据表已被注册为离线表,则编辑该表时将同时更新离线表。更新离线表用于在源表结构被修改时更新离线表注册信息,请根据该表在离线分析中的使用情况,确认是否需要更新离线表。 |
编辑表的步骤如下:
在表管理页面的表列表中,单击待编辑表对应操作列中的<编辑>按钮,进入编辑表页面。
如该表已被注册为离线表,且在业务流程中被使用,则将展示该表的使用信息(该使用信息以调度中心保存的数据为准),用户需确认后方可进行下一步操作。
编辑表的配置参数,包括基本属性、物理模型设计和表结构设计中的参数,可修改参数的编辑规则与新增表时一致,请参见新建表。
目前仅Greenplum,Hive,Vertica,MySQL,Oracle,PostgreSQL,达梦支持字段删除和修改字段(字段名、字段类型、字段备注),Kafka表的message类型可以随意修改表结构。
编辑完成后,单击<确定>按钮,表编辑完成。
仅STDB类型的表支持扩展,步骤如下:
在表管理页面的表列表中,单击待扩展表对应操作列中的<更多>按钮,并在下拉菜单中选择[扩展表]菜单项,弹出扩展表窗口。
选择扩展类型。
单击<确定>按钮,可以对表的存储集群进行扩展。
· 仅支持Kafka类型数据源中的表,且表的类型为table。 · 文件上传推荐使用TXT、CSV文件格式。 · 当文件内容中包含双引号特殊字符时,对于JSON和CSV类型的Topic,不支持使用CSV解析方式对文件进行处理,推荐使用TXT解析方式进行处理。 |
在表管理页面的表列表中,单击待上传数据表对应操作列中的<更多>按钮,并在下拉菜单中选择[文件上传]菜单项,弹出文件上传窗口。
在窗口中配置参数信息:
跳过首行:选择是否跳过首行。
解析方式:可以选择CSV、TXT两种方式解析。
分隔符:输入用户指定的分隔符。
仅支持Tab、英文逗号(,)或Tab+英文逗号,不支持其他转义字符。Tab+英文逗号仅支持TXT解析方式,文本每一行解析完之后需比定义的字段个数多一个,而且多余字段置于行尾(主要用于数据查询导出的文件进行导入新增的特定功能)。 |
选择文件:单击<文件上传>按钮,选择用户需要上传的文件,且推荐文件使用UTF-8的编码格式。
配置完成后,单击<确定>按钮。
仅STDB类型的表支持修复,步骤如下:
在表管理页面的表列表中,单击待修复表对应操作列中的<更多>按钮,并在下拉菜单中选择[修复表]菜单项,即可针对物理表创建失败的情况,重新创建物理表。
删除表操作不可逆,一旦执行,不仅会删除表的元数据信息,同时也会删除对应的物理表。表会被销毁,表中数据不可恢复,表也无法继续使用。该操作可能会造成生产数据丢失,风险极高,请谨慎执行。 如该操作不可避免,请务必确认表中无数据或数据已不再需要,且无作业(包括已运行的作业)或用户使用该表,待充分确认无影响后再删除表。 |
在表管理页面的表列表中,单击待删除表对应操作列中的<删除>按钮,弹出删除表确认对话框。根据表是否被使用,可执行的操作不同:
如果该表被已经被注册或被数据同步作业引用,<确定>按钮为灰色,不可操作。此时可以单击<使用详情>按钮,在弹出的表使用详情窗口中查看使用当前表的服务信息,包括服务名和备注说明信息。
如果该表没有被注册使用,则可执行如下步骤删除表:
输入字符串“DELETE”(不区分大小写),确认执行删除。
单击<确定>按钮。
共享表可以将表的编辑、删除等权限共享给组织内的其他用户。
共享单个表
在表管理页面的表列表中,单击待共享表对应操作列中的<更多>按钮,并在下拉菜单中选择[共享]菜单项,即可将该表共享。
批量共享表
在表管理页面的表列表中,勾选待共享表左侧的复选框。
单击列表上方的<批量操作>按钮,在弹出菜单中选择[批量共享]菜单项,即可将所选的表共享。
共享成功后,[共享]菜单项变为[取消共享]菜单项。选择[取消共享]菜单项,可以将该表取消共享。
注册离线表的过程为在Hive数据源中创建一个与源表对应的外部表。注册离线表成功后,可以被[调度中心]中业务流程的SparkSQL节点使用,也可以在[SQL调试]选择SparkSQL执行引擎时作为数据源表使用。
支持注册离线表的数据源类型有:HBase、ES、MySQL、PostgreSQL、达梦、Greenplum、Oracle、Vertica、STDB(存储集群需包含HBase)。Kafka数据源中的表不支持注册为离线表。
对于部分数据库,如果表中包含特定的数据类型,则不能注册为离线表,详见下表。
数据源表类型 |
注册离线表时不支持的数据类型 |
Oracle |
BFILE |
Vertica |
UUID |
STDB |
|
Elasticsearch |
attachment |
在表管理页面的表列表中,单击待注册的表对应操作列中的<更多>按钮,并在下拉菜单中选择[离线表注册]菜单项,弹出离线表注册窗口。
填写离线表名并配置schema参数。schema参数的值可以从下拉框中选择,也可以通过后方的<新建目录>按钮创建新的schema并选择。参数的含义为:
注册表名:Hive数据源中离线表的名称。
schema:Hive数据源中数据库的名称。
单击<确定>按钮,即可将该表注册成离线表。
在业务流程的SparkSQL节点等SparkSQL相关功能中引用该离线表时,需使用步骤2中配置的“'schema'.'注册表名'”为格式指代该表。
对于已注册为离线表的数据表,如果需要取消注册为离线表,单击待取消注册的表对应操作列中的<更多>按钮,并在下拉菜单中选择[取消离线表注册]菜单项,即可将该表取消注册离线表。
Kafka类型的表不支持清空表操作。 清空表操作会对表的物理表进行数据清除,且数据不可恢复。该操作可能会造成生产数据丢失,风险极高,请谨慎执行。如该操作不可避免,请务必确认表中数据已不再需要,且无作业(包括已运行的作业)或用户使用该表,待充分确认无影响后再清空表。 |
在表管理页面的表列表中,单击待发布的表对应操作列中的<更多>按钮,并在下拉菜单中选择[发布表]菜单项,弹出清空表对话框。
输入字符串“CLEAN”(不区分大小写),确认执行清空。
单击<确定>按钮,执行清空表操作。
发布单个表
在表管理页面的表列表中,单击待发布的表对应操作列中的<更多>按钮,并在下拉菜单中选择[发布表]菜单项,可以将该表进行发布。
批量发布表
在表管理页面的表列表中,勾选待共享表左侧的复选框。
单击列表上方的<批量操作>按钮,在弹出菜单中选择[批量发布]菜单项,即可将所选的表发布。
通过数据上架功能,可以将表中的数据作为资产发布到资产市场,供用户申请、预览。
支持数据上架的表所属的数据源类型:MySQL、PostgreSQL、Vertica、Greenplum、Oracle、Hive、DLH。
在表管理页面的表列表中,单击待上架的表对应操作列中的<更多>按钮,并在下拉菜单中选择[数据上架]菜单项,弹出数据上架窗口。
配置待上架数据的基础属性,包括:
名称:配置数据上架后的数据集名称。
分层:配置数据的分层。如表已配置了分层,则使用该表的分层,不可再修改。
主题:配置数据的主题。如表已配置了主题,则使用该表的主题,不可再修改。
描述:输入数据集的描述信息。
勾选需要上架的字段。数据关联区域展示了待上架数据的信息,包括所属数据源类型、数据源、Schema和数据表信息,并展示了表中的字段(即表中的列)列表,在列表中勾选需要上架的字段。
单击<上架>按钮,数据上架完成。数据上架后,可以在已上架表类别的列表中查看,详细说明请参见表上架管理。同时,已上架的数据也会显示在资产市场中。
对于未完成的数据上架配置,可以临时保存草稿,并可在表上架管理的列表中继续编辑。对于已上架的数据,可以修改配置,重新上架。
数据管理操作,是为了更精细化的控制HBase类型表中的数据,以可视化的方式让用户维护HBase表中的数据。
· 仅HBase类型的表支持数据管理操作。 · 若HBase表上创建了全文索引,则不支持进行数据管理操作。 · TTL(Time to Live)是HBase中控制数据生命周期的参数,用于限定数据的超时时间,数据库会自动清理超时数据。 · TTL同步操作会修改HBase表中的TTL,若减少TTL并同步,该操作可能会造成生产数据丢失,风险极高,请谨慎执行。 · 清空表数据操作会对表的物理表进行数据清除,且数据不可恢复。该操作可能会造成生产数据丢失,风险极高,请谨慎执行。 |
数据管理页面中,可以对数据设置周期,进行TTL同步及清空表数据,说明如下:
周期设置:修改元数据中HBase表的TTL参数。对于分区表,后建的数据使用更新后的TTL参数创建物理表。该操作不影响已创建的HBase物理表及表中数据。
TTL同步:将元数据中的TTL参数,同步到已创建的物理表,即修改已创建物理表的TTL参数。对于HBase分区表,支持全表同步和按分区同步两种粒度的操作,用户可以根据自身业务选择相应操作。
清空表数据:清理物理表中的数据。对于HBase分区表,支持全表同步和按分区同步两种粒度的操作,用户可以根据自身业务选择相应操作。
对于需要关注的表,可以将其加入订阅,以方便查看。
在表管理页面的表列表中,勾选待订阅表左侧的复选框。
单击列表上方的<批量操作>按钮,在弹出菜单中选择[批量订阅]菜单项,即可订阅所选的表。
对于已订阅的表,可以在已订阅表中查看,详细说明请参见已订阅表。
对于不在需要保留元数据的数据表,可以对其元数据进行删除。
在表管理页面的表列表中,勾选待删除元数据表左侧的复选框。
单击列表上方的<批量操作>按钮,在弹出菜单中选择[删除元数据]菜单项,弹出确认窗口。
单击<确定>按钮,操作完成。
在表管理页面中,单击页面右上角的<更多菜单>按钮,选择[模板下载]菜单项,即可下载表模板。根据模板录入表后,可以通过导入功能,批量快速导入数据表。
在表管理页面的列表中,单击页面右上角的<导入>按钮,弹出导入窗口。
窗口默认展示导入文件页签,单击<点击上传>按钮,选择xls或zip文件。系统对导入文件的内容格式有要求,请严格按照模板填充内容。zip文件必须是由一个或多个xls文件直接压缩而成。
文件选择后,会自动解析,符合导入要求时,文件右侧会出现图标。当导入的表与列表中已有的表重复时,需要重新为导入的表选择数据源。
单击<下一步>按钮,自动跳转至导入记录页签。该页签中包含了如下信息:
序号:导入操作在当前列表中的序号。
名称:导入操作的名称,格式为:导入操作的创建者-YYYYMMDDHHMMSS。
创建者:提交导出操作的用户。
提交时间:导入操作的提交时间。
结束时间:导入任务的完成时间。
状态:导入操作的当前状态。
操作:提供了导入失败的失败原因查看链接。单击链接,弹出失败原因窗口,显示导入失败的具体原因。
在表管理页面的列表中,勾选待导出的表左侧的复选框。
单击列表右上方的<导出>,即可提交导出表操作。导出的表需要在导出记录中下载,操作请参见查看导出记录。
|
STDB类型数据源中的表不支持导出,如果选择导出的表中包含了该类型的表,会跳过该类型的表。 |
在表管理页面中,单击页面右上角的<更多菜单>按钮,选择[全部导出]菜单项即可提交导出表操作。导出的表需要在导出记录中下载,操作请参见查看导出记录。
STDB类型数据源中的表不支持导出,如果包含了该类型的表,会跳过该类型的表。 |
在表管理页面中,单击页面右上角的<更多菜单>按钮,选择[导出记录]菜单项,弹出导出记录窗口。
窗口中以列表的形式展示了导出操作记录,表中包含如下字段:
序号:导出操作在当前列表中的序号。
名称:导出操作的名称,格式为:导出操作的创建者-YYYYMMDDHHMMSS。
创建者:提交导出操作的用户。
状态:导出的当前状态。
提交时间:导出操作的提交时间。
结束时间:导出任务的完成时间。
操作:对于成功的导出操作,提供了导出对象的下载链接,单击链接,即可下载该导出操作所导出的对象。对于失败的导出操作,提供了失败原因查看链接,单击链接,即可在弹出窗口中查看导入失败的具体原因。