业务流程组件配置参数介绍

配置各类组件参数的步骤如下：

将组件拖拽到画布中后，双击该组件，右侧边栏会弹出编辑窗口。

配置组件的相关参数，参数说明请参见后续各组件介绍中的表格。

单击<确定>按钮，组件配置完成。

数据集成组件

数据集成组件是业务流程画布中用来关联数据集成作业的组件，包含同步DI、异步DI和数据同步三种组件。

数据集成的作用是通过集成服务，将本系统外的数据经过一定的处理后存入本系统相关的数据存储系统中。

表-1 数据集成组件配置参数介绍

组件

说明

同步DI、异步DI

DI组件用来关联[融合集成平台/数据集成/作业管理]模块下的DI作业。关于DI作业和新增方法的介绍可参见[融合集成平台/数据集成/作业管理]的联机帮助。该组件配置参数说明如下：

节点名称：配置数据集成节点的名称

DI作业：选择DI作业

节点类型不可编辑；其他参数会根据DI作业自动加载，不可编辑

数据同步

数据同步组件用来关联数据同步任务。关于数据同步任务的介绍和新建，请参见数据同步管理。该组件配置参数说明如下：

节点名称：配置数据同步节点的名称

KAFKA数据源：选择Kafka数据源

管道名称：选择管道

任务名称：选择数据同步任务

节点类型不可编辑；其他参数会根据数据同步任务自动加载，不可编辑

离线分析组件

离线分析组件是业务流程画布中用来关联离线作业的组件，包含MR、SparkJar、HiveSQL、Java、Sqoop、Shell、SparkSQL、PySpark和监控节点类型。

数据集成	说明
MR、SparkJar、Java、Shell及PySpark	可以选择任务管理下对应类型的类型的任务作为模板，加载后适当修改参数，即可为完成配置（参数是非必要的）
HiveSQL	可以配置作业名称、Hive SQL语句、Hive源和JDBC URL，即可完成（其他参数是非必要的）。该组件配置参数说明如下：节点名称：配置作业节点的名称作业名称：必填，配置作业的名称描述：配置作业的描述信息 prepare：对应Oozie中的prepare标签元素，用于创建或者删除指定的HDFS目录 configuration：指定Mapper类和Reducer类等MapReduce客户端配置参数，鼠标悬于后方的图标上，可以查看该参数的说明。支持配置多项，点击后方的图标可以新增一项，点击图标可以删除一项 sql：必填，单击<编辑SQL>按钮，在弹出窗口中输入SQL语句，输入完成后单击<确定>按钮 jdbcUrl：必填，配置连接Hive的JDBC URL passWord：配置连接Hive所需的密码 param：指定执行所需的环境变量。支持配置多条，点击后方的图标可以新增一条，点击图标可以删除一条
Sqoop	节点名称：配置作业节点的名称作业名称：必填，配置作业的名称描述：配置作业的描述信息 prepare：对应Oozie中的prepare标签元素，用于创建或者删除指定的HDFS目录 configuration：指定Mapper类和Reducer类等MapReduce客户端配置参数。支持配置多项，点击后方的图标可以新增一项，点击图标可以删除一项功能：选择Sqoop组件的功能，即从HDFS向RDB转换，从RDB向HDFS转换，以及手动配置命令等 RDB：在弹出窗口中配置RDB类型数据源中的表名 HDFS：在弹出窗口中选择HDFS目录 COMMAND：手动配置命令
SparkSQL	是用来关联需要到Hadoop集群上以SparkSQL方式运行的Spark任务。其参数说明如下：节点名称：配置作业节点的名称作业名称：必填，配置作业的名称描述：配置作业的描述信息 sql：单击<编辑SQL>按钮，可以在弹出窗口中编辑SQL语句。编辑SQL语句的操作介绍请参见编辑SQL sparkOpts：配置SparkSQL作业节点的规格参数。输入框中存在缺省的配置值，可以根据实际需求调整。缺省值的介绍如下： num-executors：配置执行实例数 executor-cores：配置执行核心数 executor-memory：配置执行内存大小 driver-cores：配置驱动核心数 driver-memory：配置驱动内存大小 conf spark.yarn.executor.memoryOverhead：配置执行内存开销 conf spark.yarn.driver.memoryOverhead：配置驱动内存开销参数配置：配置作业的时间范围参数 configuration：指定Mapper类和Reducer类等MapReduce客户端配置参数，鼠标悬于后方的图标上，可以查看该参数的说明。支持配置多项，点击后方的图标可以新增一项，点击图标可以删除一项
监控节点	用于对数据集成和离线分析作业节点进行监控。其配置参数说明如下：节点名称：配置作业节点的名称类型：选择监控的作业类型描述：配置该作业节点的描述信息组织名称：选择该作业所属的组织作业名称：配置该作业的名称

对于SparkSQL组件，其计算结果可能会出现精度有误情况，如表-3所示。

表-2 运行结果中精度有误类型列表

数据源表类型	精度有误类型
PostgreSQL	time、bit、real
Greenplum	decimal、numeric、real、time、bit
达梦	time、timestamp、bit、binary
MySQL	time、year、bit、boolean、tinyint
Oracle	number、float
Vertica	time、timetz、geography、geometry

MySQL的tinyint(1)类型的字段在注册离线表后，非0和1的值将被转换为true，造成数据失真。

编辑SQL

SparkSQL组件的编辑SQL功能提供了SQL语句编辑、执行和校验等功能。在弹出的SQL窗口中：

左上角提供了选择Hive源功能，用于选择SQL语句执行的目标。编辑SQL语句前，需要先选择Hive源。

左侧下方分别展示了表信息和字段信息：

表信息：展示了所有Hive数据源下的数据表信息，点击右上角的刷新图标，可以根据最新的表信息。通过在搜索区域输入表名关键字，可以筛选出符合条件的表。

字段信息：在表信息区域中选择某表，该区域中即可展示表中的字段信息。

右侧顶部提供了执行、SQL上传、选中执行、格式化、语法校验的功能按钮。

右侧中部的SQL语句编辑区域展示了SQL语句内容。在SQL语句编辑区域中输入的SQL语句中所包含的表名需使用离线表表名。SQL语句支持通过SQL上传功能导入，或者手动编辑：

导入文件：单击工具栏中的<SQL上传>按钮，弹出文件选择窗口。选择本地的SQL文件后，单击<打开>按钮，即可将文件中的SQL语句导入到编辑区域中。导入的SQL语句还可以在编辑区域修改。

手动编辑：在编辑区域中，手动输入SQL语句。编辑区域支持对SQL关键字和表名的联想功能，可以方便输入；还支持从表信息中拖拽表名至编辑区域。

右侧下方执行结果区域展示了SQL语句的执行结果。

当前SQL编辑器中对查询返回的数据条数进行了限制，查询结果最大返回1000条数据，因在SQL智能编辑器执行SQL是通过Spark Thrift Server的方式，主要目的为调试SQL语法，因此强烈建议用户不要执行逻辑复杂、计算数据量过大的SQL。

如果执行了逻辑复杂、计算数据量过大的SQL，或者对数据量过大、逻辑复杂的SQL进行了语法校验，可能会导致超时或者执行失败，并影响Spark Thrift Server的稳定性。

1. 执行SQL

SQL语句编辑完成后，可以执行SQL并查看执行结果，以确认SQL语句是否符合作业要求。

SQL编辑区域中提供了对选中的SQL语句和完整SQL语句的执行的功能。执行选中SQL时，仅支持管理员用户进行删除操作。查询结果默认返回最多1000条结果。

执行：单击编辑区域上方的<执行>按钮，此时会执行编辑区域中所有SQL语句内容。执行完成后，会在执行结果区域中显示执行的结果。

执行选中：选中编辑区域中需要执行验证的部分SQL语句，单击编辑区域上方的<执行选中>按钮，此时会执行选中的SQL语句内容。执行完成后，会在执行结果区域中显示执行的结果。

2. SQL上传

单击编辑区域上方的<SQL上传>按钮，选择已经编辑好的SQL语句文件，可以快速生成SQL语句。

3. 格式化

单击编辑区域上方的<格式化>按钮，可以将编辑区域的SQL语句格式进行标准化，以方便查看。

4. 语法校验

SQL语句编辑完成后，可以校验SQL语句语法，以检查SQL语句是否符合语法要求。

SQL编辑区域中提供了对选中的SQL语句和完整SQL语句的语法校验功能。

校验全部SQL语句语法：单击编辑区域上方的<语法校验>按钮，此时会在弹框中展示所有SQL语句的语法校验结果。

校验选中SQL语句语法：选中编辑区域中需要进行语法校验的部分SQL语句，单击编辑区域上方的<语法校验>按钮，此时会在弹框中展示选中SQL语句的语法校验结果。

实时计算组件

实时计算组件是业务流程画布中用来关联实时作业的组件，包含StreamingJob组件。实时计算组件可以选取实时作业管理下的实时作业。

StreamingJob组件是用来关联需要到Hadoop集群上运行的Flink任务。

该组件配置参数说明如下：

作业名称：选择实时作业。

节点类型不可编辑；其他参数会根据实时作业任务自动加载，不可编辑。

控制节点组件

控制节点组件是用于对业务中作业的运行进行控制的组件，包括Fork组件和Join组件。组件自身不会参与任何作业的数据处理。Fork组件与Join组件在业务流程中需成对出现。

Fork组件：业务流程中某作业的后续作业需要并行执行时，需添加该组件以连接前序作业和后续的并行作业。

Join组件：业务流程中某几个并行作业需全部完成后才执行后续的作业，需添加该组件以连接前序的并行作业和后续作业。

例如，在业务流程画布中，当某个作业A的后续为两个需要并行执行的作业B和作业C，且两个作业均执行完成后才可继续执行后续作业D时，需要在作业A后添加Fork组件节点，然后从Fork组件节点连接至作业B和作业C，之后将作业B与作业C连接至Join组件节点，再将Join组件连接至作业D。