业务流程组件配置参数介绍

配置各类组件参数的步骤如下:

  1. 将组件拖拽到画布中后,双击该组件,右侧边栏会弹出编辑窗口。

  1. 配置组件的相关参数,参数说明请参见后续各组件介绍中的表格。

  1. 单击<确定>按钮,组件配置完成。

数据集成组件

数据集成组件是业务流程画布中用来关联数据集成作业的组件,包含同步DI、异步DI和数据同步三种组件。

数据集成的作用是通过集成服务,将本系统外的数据经过一定的处理后存入本系统相关的数据存储系统中。

表-1 数据集成组件配置参数介绍

组件

说明

同步DI、异步DI

DI组件用来关联[融合集成平台/数据集成/作业管理]模块下的DI作业。关于DI作业和新增方法的介绍可参见[融合集成平台/数据集成/作业管理]的联机帮助。该组件配置参数说明如下:

  • 节点名称:配置数据集成节点的名称

  • DI作业:选择DI作业

节点类型不可编辑;其他参数会根据DI作业自动加载,不可编辑

数据同步

数据同步组件用来关联数据同步任务。关于数据同步任务的介绍和新建,请参见数据同步管理。该组件配置参数说明如下:

  • 节点名称:配置数据同步节点的名称

  • KAFKA数据源:选择Kafka数据源

  • 管道名称:选择管道

  • 任务名称:选择数据同步任务

节点类型不可编辑;其他参数会根据数据同步任务自动加载,不可编辑

 

离线分析组件

离线分析组件是业务流程画布中用来关联离线作业的组件,包含MRSparkJarHiveSQLJavaSqoopShellSparkSQLPySpark和监控节点类型。

数据集成

说明

MRSparkJarJavaShellPySpark

可以选择任务管理下对应类型的类型的任务作为模板,加载后适当修改参数,即可为完成配置(参数是非必要的)

HiveSQL

可以配置作业名称、Hive SQL语句、Hive源和JDBC URL,即可完成(其他参数是非必要的)。该组件配置参数说明如下:

  • 节点名称:配置作业节点的名称

  • 作业名称:必填,配置作业的名称

  • 描述:配置作业的描述信息

  • prepare:对应Oozie中的prepare标签元素,用于创建或者删除指定的HDFS目录

  • configuration:指定Mapper类和Reducer类等MapReduce客户端配置参数,鼠标悬于后方的图标上,可以查看该参数的说明。支持配置多项,点击后方的图标可以新增一项,点击图标可以删除一项

  • sql:必填,单击<编辑SQL>按钮,在弹出窗口中输入SQL语句,输入完成后单击<确定>按钮

  • jdbcUrl:必填,配置连接HiveJDBC URL

  • passWord:配置连接Hive所需的密码

  • param:指定执行所需的环境变量。支持配置多条,点击后方的图标可以新增一条,点击图标可以删除一条

Sqoop

  • 节点名称:配置作业节点的名称

  • 作业名称:必填,配置作业的名称

  • 描述:配置作业的描述信息

  • prepare:对应Oozie中的prepare标签元素,用于创建或者删除指定的HDFS目录

  • configuration:指定Mapper类和Reducer类等MapReduce客户端配置参数。支持配置多项,点击后方的图标可以新增一项,点击图标可以删除一项

  • 功能:选择Sqoop组件的功能,即从HDFSRDB转换,从RDBHDFS转换,以及手动配置命令等

  • RDB:在弹出窗口中配置RDB类型数据源中的表名

  • HDFS:在弹出窗口中选择HDFS目录

  • COMMAND:手动配置命令

SparkSQL

是用来关联需要到Hadoop集群上以SparkSQL方式运行的Spark任务。其参数说明如下:

  • 节点名称:配置作业节点的名称

  • 作业名称:必填,配置作业的名称

  • 描述:配置作业的描述信息

  • sql:单击<编辑SQL>按钮,可以在弹出窗口中编辑SQL语句。编辑SQL语句的操作介绍请参见编辑SQL

  • sparkOpts:配置SparkSQL作业节点的规格参数。输入框中存在缺省的配置值,可以根据实际需求调整。缺省值的介绍如下:

  • num-executors:配置执行实例数

  • executor-cores:配置执行核心数

  • executor-memory:配置执行内存大小

  • driver-cores:配置驱动核心数

  • driver-memory:配置驱动内存大小

  • conf spark.yarn.executor.memoryOverhead:配置执行内存开销

  • conf spark.yarn.driver.memoryOverhead:配置驱动内存开销

  • 参数配置:配置作业的时间范围参数

  • configuration:指定Mapper类和Reducer类等MapReduce客户端配置参数,鼠标悬于后方的图标上,可以查看该参数的说明。支持配置多项,点击后方的图标可以新增一项,点击图标可以删除一项

监控节点

用于对数据集成和离线分析作业节点进行监控。其配置参数说明如下:

  • 节点名称:配置作业节点的名称

  • 类型:选择监控的作业类型

  • 描述:配置该作业节点的描述信息

  • 组织名称:选择该作业所属的组织

  • 作业名称:配置该作业的名称

 

对于SparkSQL组件,其计算结果可能会出现精度有误情况,如-3所示。

表-2 运行结果中精度有误类型列表

数据源表类型

精度有误类型

PostgreSQL

timebitreal

Greenplum

decimalnumericrealtimebit

达梦

timetimestampbitbinary

MySQL

timeyearbitbooleantinyint

Oracle

numberfloat

Vertica

timetimetzgeographygeometry

 

MySQLtinyint(1)类型的字段在注册离线表后,非01的值将被转换为true,造成数据失真。

 

 

 

编辑SQL

SparkSQL组件的编辑SQL功能提供了SQL语句编辑、执行和校验等功能。在弹出的SQL窗口中:

当前SQL编辑器中对查询返回的数据条数进行了限制,查询结果最大返回1000条数据,因在SQL智能编辑器执行SQL是通过Spark Thrift Server的方式,主要目的为调试SQL语法,因此强烈建议用户不要执行逻辑复杂、计算数据量过大的SQL

如果执行了逻辑复杂、计算数据量过大的SQL,或者对数据量过大、逻辑复杂的SQL进行了语法校验,可能会导致超时或者执行失败,并影响Spark Thrift Server的稳定性。

 

1.      执行SQL

SQL语句编辑完成后,可以执行SQL并查看执行结果,以确认SQL语句是否符合作业要求。

SQL编辑区域中提供了对选中的SQL语句和完整SQL语句的执行的功能。执行选中SQL时,仅支持管理员用户进行删除操作。查询结果默认返回最多1000条结果。

2.      SQL上传

单击编辑区域上方的<SQL上传>按钮,选择已经编辑好的SQL语句文件,可以快速生成SQL语句。

3.      格式化

单击编辑区域上方的<格式化>按钮,可以将编辑区域的SQL语句格式进行标准化,以方便查看。

4.      语法校验

SQL语句编辑完成后,可以校验SQL语句语法,以检查SQL语句是否符合语法要求。

SQL编辑区域中提供了对选中的SQL语句和完整SQL语句的语法校验功能。

 

 

实时计算组件

实时计算组件是业务流程画布中用来关联实时作业的组件,包含StreamingJob组件。实时计算组件可以选取实时作业管理下的实时作业。

StreamingJob组件是用来关联需要到Hadoop集群上运行的Flink任务。

该组件配置参数说明如下:

节点类型不可编辑;其他参数会根据实时作业任务自动加载,不可编辑。

 

控制节点组件

控制节点组件是用于对业务中作业的运行进行控制的组件,包括Fork组件和Join组件。组件自身不会参与任何作业的数据处理。Fork组件与Join组件在业务流程中需成对出现。

例如,在业务流程画布中,当某个作业A的后续为两个需要并行执行的作业B和作业C,且两个作业均执行完成后才可继续执行后续作业D时,需要在作业A后添加Fork组件节点,然后从Fork组件节点连接至作业B和作业C,之后将作业B与作业C连接至Join组件节点,再将Join组件连接至作业D