离线作业组件配置参数介绍

数据源组件

SQL-画布作业提供了九种注册离线表时所选数据源表类型,包括table-postgresqltable-mysqltable-hbasetable-elasticsearchtable-hivetable-greenplumtable-oracletable-dmtable-vertica

各类型数据源组件需配置的基本属性参数相同,说明如下:

操作组件

SQL-画布作业提供了七种操作,包括过滤、分组、排序、连接、集合、落地、导出,各操作的配置参数不同,详细说明请参见下表。

表-1 操作组件配置参数介绍

操作组件

说明

过滤

该组件可以对所选离线表的记录进行过滤操作。该组件在画布作业生成的SQL语句中对应where条件子句

支持设置多个过滤条件,点击图标可以添加新的过滤条件,点击图标可以删除多余的过滤条件

在画布中,该组件节点有且只能有一个上级节点

过滤配置参数的说明如下:

  • 字段名:选择所选源表中的字段名

  • 类型:配置过滤条件的判别类型

  • 条件:输入过滤条件。目前HBase数据源对于整型类型的字段进行过滤计算时,需要在所填写的条件数值后加上L

  • 组合方式:选择多个过滤条件的组合过滤关系

注意:离线作业过滤时,time需输入'1970-01-01 01:00:00'格式,bit需输入10,如果输入truefalse作业会运行失败。

分组

该组件可以对所选离线表的记录进行分组操作,按照字段进行分组,并可结合having表达式一起使用。该组件在画布作业生成的SQL语句中对应group by等分组子句

分组配置参数的说明如下:

  • groupBy字段:选择分组字段,查询结果会按照该字段进行分组。单击下方的<全选>按钮,可选择全部字段;单击<清空>按钮,可清空所有已选字段

  • having表达式:输入having条件表达式

排序

该组件可以对离线表的记录进行排序计算。该组件在画布作业生成的SQL语句对应的是Order by Sort by等排序子句

如排序组件后还需要继续接排序组件,则配置参数中的“排序类型”需选择SORT BYDISTRIBUTE BY

在画布中,该组件节点有且只能有一个上级节点

排序配置参数的说明如下:

  • 排序类型:配置排序的类型

  • sort表达式:排序的参照字段和类型,支持设置多个字段,点击图标可以添加新的字段,点击图标可以删除多余的字段。不同的排序类型,可选的字段范围不同,Order by类型和Sort by类型可选字段范围是表中的所有字段,并分别在类型列配置正序(ASC)或逆序(DESC)排序;Cluster by类型和Distribute by类型可选字段范围必须是该查询所选字段

连接

该组件可以对离线表的记录进行连接计算,提供了内部连接、左侧连接、右侧连接、全连接、普通连接、左半连接等连接计算类型。该组件在画布作业生成的SQL语句中对应的是join子句,如inner joinleft outer joinright outer joinfull outer joinjoinleft semi join语句

在画布中,该组件节点有且只能有两个上级节点

连接配置参数的说明如下:

  • 基本属性

  • 名称:配置该组件名称

  • 关联方式:选择连接的关联方式

  • 关联条件:配置两个上级节点的关联规则。支持设置多个关联条件,点击图标可以添加新的关联条件,点击图标可以删除多余的关联条件。每个条件需选择左表字段、右表字段,及类型

  • 输出属性

  • 左表名:选择左侧上级数据源中的表

  • 右表名:选择右侧上级数据源中的表

  • 左表输出字段:选择左侧上级节点表的输出字段。单击下方的<全选>按钮,可选择全部字段;单击<清空>按钮,可清空所有已选字段

  • 右表输出字段:选择右侧上级节点表的输出字段。单击下方的<全选>按钮,可选择全部字段;单击<清空>按钮,可清空所有已选字段

集合

该组件可以对离线表的记录提供集合运算,提供了IntersectUnionUnion AllExcept四种集合运算类型、分别对应的计算类型是求交集、求并集并去重、求并集不去重、求差。该组件在画布作业生成的SQL语句中对应的是intersectunionunion allexcept等集合运算子句

在画布中,该组件节点有且只能有两个上级节点

集合配置参数的说明如下:

  • 基本属性

  • 名称:配置该组件名称

  • 类型:选择集合操作类型

  • 输出属性

  • 左表名:选择左侧上级数据源中的表

  • 右表名:选择右侧上级数据源中的表

  • 左表输出字段:选择左侧上级节点表的字段。单击下方的<全选>按钮,可选择全部字段;单击<清空>按钮,可清空所有已选字段

  • 右表输出字段:选择右侧上级节点表的字段。单击下方的<全选>按钮,可选择全部字段;单击<清空>按钮,可清空所有已选字段

落地

该组件用于保存SQL-画布作业的离线分析结果到Hive中,生成落地表

导出

该组件用于将离线分析计算结果导出到HDFS或其他类型数据源中

在画布中,该组件节点只能作为最终节点,且其上级节点只能为落地组件或单个数据源组件

导出配置参数的说明如下:

  • 导出类型:选择导出的类型,包括HDFSTable。选择不同的导出类型,需要配置的参数不同

  • HDFS目录:如果选择HDFS,才需配置该参数。选择HDFS的目录。点击输入框,弹出HDFS目录窗口,在窗口的列表中选择目标文件夹,并单击<确定>按钮即可。窗口中提供了图标,可在当前目录下新增子目录;提供了图标,可以返回上层目录;提供了图标,可以刷新窗口;列表中还提供了文件夹和文件删除操作链接,以及文件的下载链接。

  • 数据分隔符:如果选择HDFS,才需配置该参数。选择分隔数据的标识符

  • 表类型:如果选择Table,才需配置该参数。选择表所属数据源的类型

  • 数据源:如果选择Table,才需配置该参数。选择数据源

  • schema:如果选择Table,且“表类型”参数选择PostgreSQLGreenplum、达梦、Vertica时,才需配置该参数。选择数据库

  • 表名:如果选择Table,才需配置该参数。选择或者输入表名称

  • 写入模式:选择写入目录的模式。覆盖模式会覆盖掉原有的内容,请谨慎选择。为保证作业可以直接多次运行,新建模式的作业运行时会被适配为追加模式

  • 作业导出到HDFS的写入方式有追加、覆盖。追加指追加查询数据文件到所选的HDFS目录下;覆盖指清空选择的HDFS目录并将查询结果导出到所选的HDFS目录下

  • 作业导出到Table的写入方式有新建、追加、覆盖。新建指新建表并将查询数据导出到该表中;追加指追加查询数据文件到所选的表中,如该表不存在,则会首先新建表;覆盖指清空所选的表并将查询结果导出到该表中

导出数据类型的支持情况,请参见离线作业查看结果

 

数据转换组件

SQL-画布作业提供了一种数据转换组件,即数据转换。

该组件可以将源表数据转换为不同的数据存储格式,包括TEXTFILESEQUENCEFILEORCPARQUETAVRORCFILE、和JSONFILE共七种。

在画布中,该组件节点有且只能有一个上级节点,且上级节点必须为数据源组件。

数据转换组件配置参数的说明如下: