离线作业组件配置参数介绍

数据源组件

SQL-画布作业提供了九种注册离线表时所选数据源表类型，包括table-postgresql、table-mysql、table-hbase、table-elasticsearch、table-hive、table-greenplum、table-oracle、table-dm、table-vertica。

各类型数据源组件需配置的基本属性参数相同，说明如下：

表名：从下拉框中选择表，可选的表为注册的离线表中该数据源类型的表。下拉框中展示的表名由注册时所用schema与表名拼接组成。

表别名：为所选表配置别名，在SQL语句中使用。

操作组件

SQL-画布作业提供了七种操作，包括过滤、分组、排序、连接、集合、落地、导出，各操作的配置参数不同，详细说明请参见下表。

表-1 操作组件配置参数介绍

操作组件	说明
过滤	该组件可以对所选离线表的记录进行过滤操作。该组件在画布作业生成的SQL语句中对应where条件子句支持设置多个过滤条件，点击图标可以添加新的过滤条件，点击图标可以删除多余的过滤条件在画布中，该组件节点有且只能有一个上级节点过滤配置参数的说明如下：字段名：选择所选源表中的字段名类型：配置过滤条件的判别类型条件：输入过滤条件。目前HBase数据源对于整型类型的字段进行过滤计算时，需要在所填写的条件数值后加上L 组合方式：选择多个过滤条件的组合过滤关系注意：离线作业过滤时，time需输入'1970-01-01 01:00:00'格式，bit需输入1、0，如果输入true、false作业会运行失败。
分组	该组件可以对所选离线表的记录进行分组操作，按照字段进行分组，并可结合having表达式一起使用。该组件在画布作业生成的SQL语句中对应group by等分组子句分组配置参数的说明如下： groupBy字段：选择分组字段，查询结果会按照该字段进行分组。单击下方的<全选>按钮，可选择全部字段；单击<清空>按钮，可清空所有已选字段 having表达式：输入having条件表达式
排序	该组件可以对离线表的记录进行排序计算。该组件在画布作业生成的SQL语句对应的是Order by 、Sort by等排序子句如排序组件后还需要继续接排序组件，则配置参数中的“排序类型”需选择SORT BY或DISTRIBUTE BY 在画布中，该组件节点有且只能有一个上级节点排序配置参数的说明如下：排序类型：配置排序的类型 sort表达式：排序的参照字段和类型，支持设置多个字段，点击图标可以添加新的字段，点击图标可以删除多余的字段。不同的排序类型，可选的字段范围不同，Order by类型和Sort by类型可选字段范围是表中的所有字段，并分别在类型列配置正序（ASC）或逆序（DESC）排序；Cluster by类型和Distribute by类型可选字段范围必须是该查询所选字段
连接	该组件可以对离线表的记录进行连接计算，提供了内部连接、左侧连接、右侧连接、全连接、普通连接、左半连接等连接计算类型。该组件在画布作业生成的SQL语句中对应的是join子句，如inner join、left outer join、right outer join、full outer join、join、left semi join语句在画布中，该组件节点有且只能有两个上级节点连接配置参数的说明如下：基本属性名称：配置该组件名称关联方式：选择连接的关联方式关联条件：配置两个上级节点的关联规则。支持设置多个关联条件，点击图标可以添加新的关联条件，点击图标可以删除多余的关联条件。每个条件需选择左表字段、右表字段，及类型输出属性左表名：选择左侧上级数据源中的表右表名：选择右侧上级数据源中的表左表输出字段：选择左侧上级节点表的输出字段。单击下方的<全选>按钮，可选择全部字段；单击<清空>按钮，可清空所有已选字段右表输出字段：选择右侧上级节点表的输出字段。单击下方的<全选>按钮，可选择全部字段；单击<清空>按钮，可清空所有已选字段
集合	该组件可以对离线表的记录提供集合运算，提供了Intersect、Union、Union All、Except四种集合运算类型、分别对应的计算类型是求交集、求并集并去重、求并集不去重、求差。该组件在画布作业生成的SQL语句中对应的是intersect、union、union all、except等集合运算子句在画布中，该组件节点有且只能有两个上级节点集合配置参数的说明如下：基本属性名称：配置该组件名称类型：选择集合操作类型输出属性左表名：选择左侧上级数据源中的表右表名：选择右侧上级数据源中的表左表输出字段：选择左侧上级节点表的字段。单击下方的<全选>按钮，可选择全部字段；单击<清空>按钮，可清空所有已选字段右表输出字段：选择右侧上级节点表的字段。单击下方的<全选>按钮，可选择全部字段；单击<清空>按钮，可清空所有已选字段
落地	该组件用于保存SQL-画布作业的离线分析结果到Hive中，生成落地表
导出	该组件用于将离线分析计算结果导出到HDFS或其他类型数据源中在画布中，该组件节点只能作为最终节点，且其上级节点只能为落地组件或单个数据源组件导出配置参数的说明如下：导出类型：选择导出的类型，包括HDFS和Table。选择不同的导出类型，需要配置的参数不同 HDFS目录：如果选择HDFS，才需配置该参数。选择HDFS的目录。点击输入框，弹出HDFS目录窗口，在窗口的列表中选择目标文件夹，并单击<确定>按钮即可。窗口中提供了图标，可在当前目录下新增子目录；提供了图标，可以返回上层目录；提供了图标，可以刷新窗口；列表中还提供了文件夹和文件删除操作链接，以及文件的下载链接。数据分隔符：如果选择HDFS，才需配置该参数。选择分隔数据的标识符表类型：如果选择Table，才需配置该参数。选择表所属数据源的类型数据源：如果选择Table，才需配置该参数。选择数据源 schema：如果选择Table，且“表类型”参数选择PostgreSQL、Greenplum、达梦、Vertica时，才需配置该参数。选择数据库表名：如果选择Table，才需配置该参数。选择或者输入表名称写入模式：选择写入目录的模式。覆盖模式会覆盖掉原有的内容，请谨慎选择。为保证作业可以直接多次运行，新建模式的作业运行时会被适配为追加模式作业导出到HDFS的写入方式有追加、覆盖。追加指追加查询数据文件到所选的HDFS目录下；覆盖指清空选择的HDFS目录并将查询结果导出到所选的HDFS目录下作业导出到Table的写入方式有新建、追加、覆盖。新建指新建表并将查询数据导出到该表中；追加指追加查询数据文件到所选的表中，如该表不存在，则会首先新建表；覆盖指清空所选的表并将查询结果导出到该表中导出数据类型的支持情况，请参见离线作业查看结果。

数据转换组件

SQL-画布作业提供了一种数据转换组件，即数据转换。

该组件可以将源表数据转换为不同的数据存储格式，包括TEXTFILE、SEQUENCEFILE、ORC、PARQUET、AVRO、RCFILE、和JSONFILE共七种。

在画布中，该组件节点有且只能有一个上级节点，且上级节点必须为数据源组件。

数据转换组件配置参数的说明如下：

目标Schema：选择Hive中的Schema。

目标表名：配置目标表名。

存储格式：选择数据的存储格式。