配置各类组件参数的步骤如下:
将组件拖拽到画布中后,双击该组件,右侧边栏会弹出编辑窗口。
配置组件的相关参数,参数说明请参见后续各组件介绍中的表格。
单击<确定>按钮,组件配置完成。
数据集成组件是业务流程画布中用来关联数据集成作业的组件,包含同步DI、异步DI和数据同步三种组件。
数据集成的作用是通过集成服务,将本系统外的数据经过一定的处理后存入本系统相关的数据存储系统中。
表-1 数据集成组件配置参数介绍
组件 |
说明 |
同步DI、异步DI |
DI组件用来关联[融合集成平台/数据集成/作业管理]模块下的DI作业。关于DI作业和新增方法的介绍可参见[融合集成平台/数据集成/作业管理]的联机帮助。该组件配置参数说明如下:
节点类型不可编辑;其他参数会根据DI作业自动加载,不可编辑 |
数据同步 |
数据同步组件用来关联数据同步任务。关于数据同步任务的介绍和新建,请参见数据同步管理。该组件配置参数说明如下:
节点类型不可编辑;其他参数会根据数据同步任务自动加载,不可编辑 |
离线分析组件是业务流程画布中用来关联离线作业的组件,包含MR、SparkJar、HiveSQL、Java、Sqoop、Shell、SparkSQL、PySpark和监控节点类型。
数据集成 |
说明 |
MR、SparkJar、Java、Shell及PySpark |
可以选择任务管理下对应类型的类型的任务作为模板,加载后适当修改参数,即可为完成配置(参数是非必要的) |
HiveSQL |
可以配置作业名称、Hive SQL语句、Hive源和JDBC URL,即可完成(其他参数是非必要的)。该组件配置参数说明如下:
|
Sqoop |
|
SparkSQL |
是用来关联需要到Hadoop集群上以SparkSQL方式运行的Spark任务。其参数说明如下:
|
监控节点 |
用于对数据集成和离线分析作业节点进行监控。其配置参数说明如下:
|
对于SparkSQL组件,其计算结果可能会出现精度有误情况,如表-3所示。
数据源表类型 |
精度有误类型 |
PostgreSQL |
time、bit、real |
Greenplum |
decimal、numeric、real、time、bit |
达梦 |
time、timestamp、bit、binary |
MySQL |
time、year、bit、boolean、tinyint |
Oracle |
number、float |
Vertica |
time、timetz、geography、geometry |
MySQL的tinyint(1)类型的字段在注册离线表后,非0和1的值将被转换为true,造成数据失真。 |
SparkSQL组件的编辑SQL功能提供了SQL语句编辑、执行和校验等功能。在弹出的SQL窗口中:
左上角提供了选择Hive源功能,用于选择SQL语句执行的目标。编辑SQL语句前,需要先选择Hive源。
左侧下方分别展示了表信息和字段信息:
字段信息:在表信息区域中选择某表,该区域中即可展示表中的字段信息。
右侧顶部提供了执行、SQL上传、选中执行、格式化、语法校验的功能按钮。
右侧中部的SQL语句编辑区域展示了SQL语句内容。在SQL语句编辑区域中输入的SQL语句中所包含的表名需使用离线表表名。SQL语句支持通过SQL上传功能导入,或者手动编辑:
导入文件:单击工具栏中的<SQL上传>按钮,弹出文件选择窗口。选择本地的SQL文件后,单击<打开>按钮,即可将文件中的SQL语句导入到编辑区域中。导入的SQL语句还可以在编辑区域修改。
手动编辑:在编辑区域中,手动输入SQL语句。编辑区域支持对SQL关键字和表名的联想功能,可以方便输入;还支持从表信息中拖拽表名至编辑区域。
右侧下方执行结果区域展示了SQL语句的执行结果。
当前SQL编辑器中对查询返回的数据条数进行了限制,查询结果最大返回1000条数据,因在SQL智能编辑器执行SQL是通过Spark Thrift Server的方式,主要目的为调试SQL语法,因此强烈建议用户不要执行逻辑复杂、计算数据量过大的SQL。 如果执行了逻辑复杂、计算数据量过大的SQL,或者对数据量过大、逻辑复杂的SQL进行了语法校验,可能会导致超时或者执行失败,并影响Spark Thrift Server的稳定性。 |
SQL语句编辑完成后,可以执行SQL并查看执行结果,以确认SQL语句是否符合作业要求。
SQL编辑区域中提供了对选中的SQL语句和完整SQL语句的执行的功能。执行选中SQL时,仅支持管理员用户进行删除操作。查询结果默认返回最多1000条结果。
执行:单击编辑区域上方的<执行>按钮,此时会执行编辑区域中所有SQL语句内容。执行完成后,会在执行结果区域中显示执行的结果。
执行选中:选中编辑区域中需要执行验证的部分SQL语句,单击编辑区域上方的<执行选中>按钮,此时会执行选中的SQL语句内容。执行完成后,会在执行结果区域中显示执行的结果。
单击编辑区域上方的<SQL上传>按钮,选择已经编辑好的SQL语句文件,可以快速生成SQL语句。
单击编辑区域上方的<格式化>按钮,可以将编辑区域的SQL语句格式进行标准化,以方便查看。
SQL语句编辑完成后,可以校验SQL语句语法,以检查SQL语句是否符合语法要求。
SQL编辑区域中提供了对选中的SQL语句和完整SQL语句的语法校验功能。
校验全部SQL语句语法:单击编辑区域上方的<语法校验>按钮,此时会在弹框中展示所有SQL语句的语法校验结果。
校验选中SQL语句语法:选中编辑区域中需要进行语法校验的部分SQL语句,单击编辑区域上方的<语法校验>按钮,此时会在弹框中展示选中SQL语句的语法校验结果。
实时计算组件是业务流程画布中用来关联实时作业的组件,包含StreamingJob组件。实时计算组件可以选取实时作业管理下的实时作业。
StreamingJob组件是用来关联需要到Hadoop集群上运行的Flink任务。
该组件配置参数说明如下:
作业名称:选择实时作业。
节点类型不可编辑;其他参数会根据实时作业任务自动加载,不可编辑。
控制节点组件是用于对业务中作业的运行进行控制的组件,包括Fork组件和Join组件。组件自身不会参与任何作业的数据处理。Fork组件与Join组件在业务流程中需成对出现。
Fork组件:业务流程中某作业的后续作业需要并行执行时,需添加该组件以连接前序作业和后续的并行作业。
Join组件:业务流程中某几个并行作业需全部完成后才执行后续的作业,需添加该组件以连接前序的并行作业和后续作业。
例如,在业务流程画布中,当某个作业A的后续为两个需要并行执行的作业B和作业C,且两个作业均执行完成后才可继续执行后续作业D时,需要在作业A后添加Fork组件节点,然后从Fork组件节点连接至作业B和作业C,之后将作业B与作业C连接至Join组件节点,再将Join组件连接至作业D。