定时作业是指按照预定的时间和频率执行的批处理任务。这些作业通常是在特定时间点或日期触发并执行,例如每天晚上12点执行数据备份或每周一执行报表生成。
作业由一个或多个任务环节组成(ETL任务、Sqoop任务、Shell任务、SQL任务等多种类型)。新建作业后,需进行作业设计,将任务添加到作业设计页面,然后根据需要对任务进行配置。
图-1 实时作业配置流程
表-1 数据集成作业配置流程说明
|
操作 |
说明 |
|
开始 |
/ |
|
工作空间是为了让用户更好的将项目相关资源进行统一管理。用户可根据实际需要在工程配置模块下的[工作空间]页面新增工作空间,也可直接使用组织内用户已经创建好的工作空间 |
|
|
数据源提供作业执行时的数据来源库和数据目的库,部分任务创建时必须连接到指定数据库。默认情况下,数据集成中没有数据源,需要用户手动在系统中添加数据源 |
|
|
作业由若干任务环节构成,用户可根据实际需要将各类型任务添加到作业设计画布中进行组合。作业支持ETL任务、Sqoop任务、Shell任务、SQL任务等多种类型任务,不同类型任务配置不同,用户可根据业务需要对任务进行配置 |
|
|
作业配置完成后可进行上线,只有上线后的实时作业才能运行 |
|
|
作业上线后,用户可立即运行作业,用户可根据实际需要为作业配置定时调度策略,定时运行作业 |
|
|
作业运行后可在作业实例页面进查看作业实例的运行情况,并可根据实际情况对作业实例执行重跑、失败恢复、停止等操作 |
|
|
结束 |
/ |
工作空间是为了让用户更好的将项目相关资源进行统一管理。比如用户可以新建工作空间,然后将同一项目的相关资源创建在一个工作空间下,方便后续查看及操作。当用户登录系统后,如果系统中没有工作空间,页面会提示用户创建工作空间;如果同组织下的用户已创建了工作空间,也可以直接使用。
在工程配置模块下,选择左侧的导航树中的[工作空间],进入工作空间页面。
工作空间页面单击<新增>按钮,弹出新增工作空间页面,用户可根据实际进行新增。
图-2 新增工作空间
根据提示配置对应参数项的值,参数说明如下:
工作空间ID:必填,4-128位,仅支持以英文字母开头,可包含英文字母、数字、点号及下划线,注意:创建的工作空间ID区分大小写。
工作空间名:必填,4-128位,可包含汉字、英文字母、数字、点号及下划线,注意:创建的工作空间名称区分大小写。
认证类型:必选,支持私钥认证。
描述:非必填,长度0~128个字符。
单击<确定>按钮完成工作空间的新建。
|
用户可根据需要在系统中新建数据源,如果用户配置的作业不涉及数据源,则无需配置。 |
数据源提供作业执行时的数据来源库和数据目的库,部分任务创建时必须连接到指定数据库。默认情况下,数据集成中没有数据源,需要手动在系统中添加数据源。
登录绿洲平台,在[工程配置/数据源管理]页面单击<新增>按钮,弹出新增数据源窗口。
图-3 新增数据源
根据实际情况,选择需要的数据源类型进行配置,配置完相关参数后,单击<提交>按钮,完成数据源新增。支持MySQL、SQL Server、Oracle、PostgreSQL、GreenPlum、HBase等多种数据源类型。
作业由若干任务环节构成,用户可根据需要将各类型任务添加到作业设计画布中进行组合。
[融合集成/数据集成/作业管理/作业定义]页面,单击<新建作业>按钮,进入新建作业页面。
图-4 新建作业
新建作业页面部分参数说明如下:
作业名称:作业的名称,支持2-128位的字符,仅可输入中文、数字、字母和特殊字符#、-、_。作业名称要求在同一工作空间中唯一。
作业描述:作业的描述信息。
超时告警:是否开启超时告警,开启超时告警后需配置超时时间,当作业运行时间超过该时间后,系统会发送超时告警。
作业标签:配置该作业的标签,用户可在输入框中选择本组织内已存在的标签,或者直接输入一个新标签,支持一次为作业配置多个标签。
配置完成后,单击<确定>按钮,作业即可添加到页面左侧目录树中,双击作业名称,即可进入作业设计画布页面。
图-5 作业画布
用户可根据实际需要在作业画布中设计需要的作业。作业由一个或多个任务环节组成,任务环节可通过右键单击作业设计器画布,然后选择不同类型任务进行添加。作业设计器目前支持普通ETL任务、Sqoop任务、Shell任务、SQL任务等多种类型任务,任务添加到作业设计页面上后,需要根据各任务类型配置要求进行参数配置。作业设计画布说明如下:
将任务添加到作业设计画布中并建立连接。建立连接有两种方法:一是将鼠标放置在连线的起始组件上单击鼠标中键,拖拽连线至目标组件即可;二是右键单击连线起始组件,选择建立连接选项,拖拽连线至目标组件单击鼠标左键即可。
通过单击任务连接轴线上的圆圈图标可设置下一任务的触发机制。圆圈图标为绿色√,触发机制为父环节正常完成后执行子环节;圆圈图标为红色×,触发机制为父环节异常后执行子环节;圆圈图标为黄色锁,触发机制为无论父环节成功失败均执行子环节。
作业设计器中针对每个任务环节可以设置当前环节的执行方式。双击任务组件,页面会弹出任务节点信息配置页面,用户可根据实际需要配置各任务节点的参数。目前系统支持普通ETL任务、Sqoop任务、Shell任务、SQL任务、Flume任务和DataX任务。
双击作业画布上的任务节点,可进入对应任务的设计页面,不用任务配置界面不同,用户可根据实际需要进行配置。如图-6为ETL任务设计页面。
图-6 ETL任务设置页面
配置完作业各任务节点信息后,单击<保存>按钮,即可保存该作业。
作业编辑完成后,在作业定义页面左侧的作业目录树中,鼠标右键单击作业名称,在弹出列表中选择上线,可将作业进行上线,作业只有上线之后才能运行。
图-7 作业上线
作业上线后,用户可右键单击作业目录中作业名称,在弹出的列表中选择“运行”立即运行作业;或者选择“设置定时”为作业配置定时调度策略,通过定时调度和时间间隔循环调度实现自动化运行作业。
选择“运行”,弹出作业运行设置窗口。配置作业失败策略、流程策略、通知策略等,然后单击<运行>按钮,作业即可按照配置好的策略进行运行。
图-8 作业运行设置
选择“设置定时”,弹出定时设置窗口。用户可为作业配置定时策略,指定作业的调度类型,包括立刻执行、简单调度和高级调度。参数配置完成后,单击<确定>按钮,作业即可按照配置好的策略进行运行。
图-9 定时设置
作业运行后会在[作业监控/作业实例]页面进行展示。作业实例页面是对系统中作业实例的运行情况进行展示,并对可作业实例执行重跑、失败恢复、停止等操作。