创建任务

用户可以创建自定义任务,步骤如下:

  1. 在任务管理页面的目录区域中,将鼠标悬于自定义目录后的图标上,在弹出菜单中选择[新建任务]菜单项,进入创建任务页面。

  1. 选择任务的类型,任务类型包括:SparkJarJavaMRShell,各类型任务需要配置的参数不同,详细说明请参见:

  1. 参数配置完成后,单击<保存>按钮,任务创建完成。

SparkJar任务

新建任务时,任务类型选择SparkJar,需配置的参数说明如下表所示。

表-1 SparkJar任务参数说明

参数名

描述

任务名称

配置SparkJar任务的名称

主类

配置SparkJar任务的驱动类类名,含包路径

主类Jar

配置SparkJar任务主类所在Jar包名称

依赖文件

上传SparkJar任务的依赖文件,也即资源文件,需要为ZIP格式的压缩包,压缩包中需内部包括conflib两个目录

描述

配置SparkJar任务的描述信息

模式

配置模式,模式是对主类入参的说明,例如对scalamain方法的入参进行说明

模式中可以配置多条说明,包括字段名、描述、key、类型和是否必填,点击后方的图标可以新增一条,点击图标可以删除一条

可以配置三种模式,三种模式间是或关系,只能同时使用三种模式的一种

高级参数

单击<高级参数>按钮后,页面中出现配置项、Preparespark-opts参数:

  • 配置项:指定Mapper类和Reducer类等MapReduce客户端配置参数。支持配置多项,点击后方的图标可以新增一项,点击图标可以删除一项

  • Prepare:对应Oozie中的prepare标签元素,用于创建或者删除指定的HDFS目录

  • spark-opts:为SparkJar任务执行指定的环境变量。支持配置多条,点击后方的图标可以新增一条,点击图标可以删除一条

 

Java任务

新建任务时,任务类型选择Java,需配置的参数说明如下表所示。

表-2 Java任务参数说明

参数名

描述

任务名称

配置Java任务的名称

主类

配置Java任务的驱动类类名,含包路径

依赖文件

上传Java任务的依赖文件,也即资源文件,需要为ZIP格式的压缩包,压缩包中需内部包括conflib两个目录

描述

配置Java任务的描述信息

模式

配置模式,模式是对主类入参的说明,例如对Javamain方法的入参进行说明

模式中可以配置多条说明,包括字段名、描述、key、类型和是否必填,点击后方的图标可以新增一条,点击图标可以删除一条

可以配置三种模式,三种模式间是或关系,只能同时使用三种模式的一种

高级参数

单击<高级参数>按钮后,页面中出现配置项、Preparejava-opts参数:

  • 配置项:指定Mapper类和Reducer类等MapReduce客户端配置参数。支持配置多项,点击后方的图标可以新增一项,点击图标可以删除一项

  • Prepare:对应Oozie中的prepare标签元素,用于创建或者删除指定的HDFS目录

  • java-opts:为Java任务执行指定的环境变量。支持配置多条,点击后方的图标可以新增一条,点击图标可以删除一条

 

MR任务

新建任务时,任务类型选择MR,需配置的参数说明如下表所示。

表-3 MR任务参数说明

参数名

描述

任务名称

配置MR任务的名称

configClass

通过Java配置MapReduce任务时,需要实现OozieActionConfigurator接口,在工作流的config-class元素下,配置该实现类。此处参数配置即填写实现了OozieActionConfigurator接口的类全名

依赖文件

上传MapReduce任务的依赖文件,也即资源文件,需要为ZIP格式的压缩包,压缩包中需内部包括conflib两个目录

描述

配置MR任务的描述信息

配置项

指定Mapper类和Reducer类等MapReduce客户端配置参数。支持配置多项,点击后方的图标可以新增一项,点击图标可以删除一项

Prepare

对应Oozie中的prepare标签元素,用于创建或者删除指定的HDFS目录

 

Shell任务

新建任务时,任务类型选择Shell,需配置的参数说明如下表所示。

表-4 Shell任务参数说明

参数名

描述

任务名称

配置Shell任务的名称

主文件名称

配置Shell脚本执行的入口文件名称,包含后缀

依赖文件

上传Shell任务的依赖文件,也即资源文件,需要为ZIP格式的压缩包,压缩包中需内部包括conflib两个目录

描述

配置Shell任务的描述信息

模式

配置模式,模式是对主执行文件入参的说明

模式中可以配置多条说明,包括字段名、描述、key、类型和是否必填,点击后方的图标可以新增一条,点击图标可以删除一条

可以配置三种模式,三种模式间是或关系,只能同时使用三种模式的一种

高级参数

单击<高级参数>按钮后,页面中出现配置项和Prepare参数:

  • 配置项:指定Mapper类和Reducer类等MapReduce客户端配置参数。支持配置多项,点击后方的图标可以新增一项,点击图标可以删除一项

  • Prepare:对应Oozie中的prepare标签元素,用于创建或者删除指定的HDFS目录

 

PySpark任务

新建任务时,任务类型选择PySpark,需配置的参数说明如下表所示。

表-5 PySpark任务参数说明

参数名

描述

任务名称

配置PySpark任务的名称

主文件名称

配置待执行的Python脚本文件名称,包含后缀

依赖文件

上传PySpark任务的依赖文件,也即资源文件,需要为ZIP格式的压缩包

描述

配置PySpark任务的描述信息

模式

配置模式,模式是对主执行文件入参的说明

模式中可以配置多条说明,包括字段名、描述、key、类型和是否必填,点击后方的图标可以新增一条,点击图标可以删除一条

可以配置三种模式,三种模式间是或关系,只能同时使用三种模式的一种

高级参数

单击<高级参数>按钮后,页面中出现配置项和Prepare参数:

  • 配置项:指定Mapper类和Reducer类等MapReduce客户端配置参数。支持配置多项,点击后方的图标可以新增一项,点击图标可以删除一项

  • Prepare:对应Oozie中的prepare标签元素,用于创建或者删除指定的HDFS目录