内置任务

内置任务是任务管理下内置的一些常用Java任务或SparkJar任务等。内置作业随数据开发服务部署而加载到服务中，并可在创建业务流程时引用，可以方便用户快速的处理数据。各内置作业任务的说明如下表所示。

当任务涉及指定目标数据表作为任务执行结果的输出对象时，请务必保证选取的为本组织内数据表（可通过在[表管理]中本组织表的列表中查找确认），不可选择申请表。因为申请表通常为申请了查看权限的其他组织中的表，并不具备写入权限，所以将申请表作为输出对象，会导致写入错误。

表-1 内置任务任务说明

任务名	任务描述
HBaseBulkLoad	该作业可以使用离线方式将数据原文件（HDFS文件）写入HBase。批量写入会直接覆盖主键相同的数据
HBaseStatistic	使用该作业统计HBase数据源的相关统计值
STDB_EXPORT_DATALOAD	时空引擎批量导入导出
HudiIngestionOfflineJob	使用SparkAPI方式将存储在HDFS上的Json/CSV/Parquet/Orc格式的数据写入Hudi并同步Hive表
HudiIngestOnlineJob	使用Hudi DeltaStreamer工具将Kafka中的JSON格式数据实时写入Hudi数据集.
Column_Max_Value_Calc	用于静态脱敏的增量脱敏任务，计算增量字段当前的最大值，作为下一次数据抽取时的起始位置
SQL_AGGREGATE_QUERY	聚合统计分析任务，用于对关系型数据库（当前仅支持Vertica与MySQL）中的数据进行聚合统计并将统计结果写入到同数据源下的另外一张表中

表-2 HBaseBulkLoad作业任务参数说明

模式	参数	说明	值类型	示例	是否必填
模式1	表名	目标表名，该参数不能手动输入，需要在弹出窗口中选取HBase类型数据源下的数据表	数据源.表名	hbase.user_info	是
模式1		关联输出作业，单击该图标，在弹出窗口中选择作业节点	--	--	否
模式2	表名	目标表名，该参数不能手动输入，需要在弹出窗口中选取HBase类型数据源下的数据表	数据源.表名	hbase.user_info	是
	路径	数据源文件的路径	字符串	/data/test/	是
	生产日期	数据源文件的产生日期	字符串	2022.03.03 16:00:00	是
	文件过滤正则	通过正则表达式对数据源文件过滤	字符串	[a?+]	否
		关联输出作业，单击该图标，在弹出窗口中选择作业节点	--	--	否

表-3 STDB_EXPORT_DATALOAD作业任务参数说明

模式	参数	说明	值类型	示例	是否必填
模式1 （数据导入）	loadtype	任务类型	import	import	是
	table	表名	数据源.表名	st_db.china_maps	是
	converter	转换配置	HDFS上路径文件	/ste/ingest/china_csv.conf	是
	files	文件	HDFS上路径文件	/ste/ingest/china_map.csv	是
模式2 （数据导出）	loadtype	任务类型	export	export	是
	table	表名	数据源.表名	st_db.china_maps	是
	cql	查询语句	CQL语句	INCLUDE	是
	attributes	需要导出的属性列名称	列名称，输入多个时，以","隔开	adcode,name,level,geometry	是
	oformat	导出文件格式	csv\tsv\gml\json\avro\leaflet\orc\parquet\arrow	csv	是
	output	导出路径	HDFS上路径(该路径不为空时将会强制覆盖)	/ste/export/csv	是
	sortby	排序字段	属性名称	adcode	是
	desc	是否逆序	true\false	false	是
	noheader	是否保留文件头	true\false	false	是
	name	文件名称	文件名称	china_map	是

表-4 HudiIngestionOfflineJob作业任务参数说明

模式	参数	说明	值类型	示例	是否必填
模式1	tableName	Hudi表名	字符串类型，格式为：数据源.表名	hive_db.hudi_bloom_table	是
	srcDataDir	待写入Hudi的原始数据集在HDFS中的绝对路径。支持单个文件或单个目录	字符串类型	/tmp/srcdatadir	是
	opType	Hudi写操作类型。包括： UPSERT：适用于数据存在更新的场景 INSERT：仅支持数据插入操作 BULK_INSERT：提供与INSERT相同的语义，支持TB级别负载	枚举值：INSERT/BULK_INSERT/UPSERT	UPSERT	是
	hudiConfig	Hudi支持的系统参数设置。一般用于Hudi调优参数设置	字符串类型，由键值对构成，格式为key1=value1;key2=value2;...	hoodie.upsert.shuffle.parallelism=10	否

表-5 HudiIngestOnlineJob作业任务参数说明

模式	参数	说明	值类型	示例	是否必填
模式1	kafkaSrc	Kafka数据源与topic名称	字符串类型，格式为：数据源.表名	kafka211_nokrb.test_hudi	是
	hudiConfig	Hudi支持的系统参数设置。一般用于Hudi调优参数设置	字符串类型，由键值对构成，格式为key1=value1;key2=value2;...	hudi_write_operation_shuffle_parallel=2	是
	hiveSrc	Hive数据源与Hudi表名称	TABLE类型，数据源.表名	hive_nokrb_211.t_www_hudi_online	是
	indexType	Hudi索引类型	字符串类型，值为可枚举的选项：BLOOM/GLOBAL_BLOOM/HBASE	HBASE	是
	offsetConf	Kafka reset偏移量策略	字符串类型，值为可枚举的选项：earliest/latest	earliest	是
	groupId	Kafka消费者组ID,唯一标识一个consumer group	字符串类型	2021-12-08	是
	isDebug	是否开启Debug模式提交任务	字符串类型，值为可枚举的选项：false/true	false	是
	opType	Hudi写入操作类型	字符串类型，值为可枚举的选项：INSERT/BULK_INSERT/UPSERT	UPSERT	是
	sparkOpts	配置driver、executor资源	字符串类型，由键值对构成，格式为,--key1=value1;--key2=value2;...	--driver-memory=1g;--driver-cores=1;--executor-memory=1g;--executor-cores=1;--num-executors=2	是
	minSyncSec	连续模式下每次同步的最小同步间隔（单位：秒），建议设置为60	字符串类型	60	是

表-6 Column_Max_Value_Calc作业任务参数说明

模式	参数	说明	值类型	示例	是否必填
模式1	filePath	记录目标数据源和增量字段信息文件在HDFS上路径	HDFS上路径文件	/hdfs/example/folders/	是
	tableName	目标表名	TABLE类型，数据源.表名	datasource.tablename	是
	columnName	增量列名	字符串类型	examplecolumn	是

表-7 SQL_AGGREGATE_QUERY作业任务参数说明

参数	说明	值类型	示例	是否必填
数据源类型	聚合统计任务分析的数据源类型，当前仅支持Vertica和MySQL	枚举值	MYSQL	是
数据源名称	聚合统计分析的数据源名称	字符串	datasource	是
新增任务	聚合统计任务列表，单个任务详情说明参见表-8	-	-	-

表-8 聚合统计任务项参数说明

参数	说明	值类型	示例	是否必填
源schema	数据源类型为Vertica时，显示该选项，否则不显示，该选项为所分析源表所在schema	枚举值	public	数据源为Vertica时必填
源表	聚合分析所分析的表	枚举值	vertica_test	是
目标schema	存储聚合统计分析结果的表所在的schema可与源schema 不同	枚举值	test	数据源为Vertica时必填
目标表	存储聚合统计分析结果的表	枚举值	vertica_target	是
统计维度	聚合统计每次统计同时长，当前支持：近一日、近三日、近一候（五天）、近一旬（十天）、近一月、近一年、全表、自然年、自然月等9种维度	枚举值	近一日	是
时间字段	紧跟统计维度，为源表中的时间字段，配合统计维度设定每次统计数据的时间范围，例如：统计维度选择近一日，时间字段为tm,当前时间为 2022-02-29，则聚合统计分析的数据满足：2022-02-28 00:00:00<=tm< 2022-02-29 00:00:00	枚举值	tm	统计不为全表时，必须填写
分组字段	聚合统计分组字段，也即SQL中的group by 字段	枚举值	id	是
补录数据	对于某些场景，如存在需要补充计算一些遗留数据的情况，需将该功能打开，否则关闭	布尔	关	是
周期数	默认情况下，只统计一个时段的数据。但对于需要计算多个时段的情况，就需要通过添加周期来实现，周期数范围1～5。补录数据为开的情况下本参数不显示当统计维度为近一段时间（如近一天、近一年等）时，周期需要配合任务所在的业务流程的节点或者节点组所设的调度配置高级调度，完成多周期任务的统计。配合方式说明：以当前时间为终点，寻找周期数个高级调度的触发时间点，以此为基准作为选择的统计维度参考时间点，统计这些时间点的近一天（三天，一候、一旬、一月、一年）的数据，示例：周期数为2，统计周期为近一月，节点所设高级调度为：0 2 1 * ?，也即每月的1号2点整执行，当前时间为2022-03-29，则该任务会在2022-04-01 02:00:00 触发，向前寻找两个触发时间点依次是：2022-04-01 02:00:00、2022-03-01 02:00:00，以这两个时间点作为参考时间点，统计这两个时间的近一月的数据，第一个周期统计时间范围为2022-03-01至2022-04-01，第二个周期统计时间范围为：2022-02-01至2022-03-01 当统计维度为全表时，不支持多周期，此时周期数大于1时，会按照1周期执行当统计维度为自然月/自然年，周期数大于1时，以当前月/年为终点向前推周期数个月/年，作为多周期统计范围，示例：统计周期：2，统计维度：自然月，当前月为2022-03-29，则第一个周期为：2022-3-1 至 2022-4-1，第二周期为：2022-2-1 至2022-3-1	数值	1	是
补录周期	同业务流程节点或者节点组所设置的调度配置的高级配置，当补录周期值为开时，该字段显示，否则不显示	字符串	2 1 1 * ?	统计维度为近一天、近三天、近一候、近一旬、近一月，近一年且补录数据值为开时，必填
补录时间	当统计维度为近一段时间（如近一天、近一年等）时，配合补录周期完成对于这段时间内数据的统计，配合方式：以补录时间所圈定的时间范围内，补录周期cron的触发时间点为参考时间点，统计其近（一天、一周、一旬、一候、一月、一年）的数据示例：补录周期为0 2 2 * ?，补录时间为：2022-01-01 00:00:00到2022-04-01 00:00:00，统计维度为：近一天。则在补录时间所圈定的时间范围内，补录周期触发时间点为：2022-01-02 02:00:00、2022-02-02 02:00:00、2022-03-02 02:00:00。统计维度为近一天，则统计的三个周期时间范围为（统计最小粒度为天）：周期1：2022-01-01 00:00:00至2022-01-02 00:00:00、周期2：2022-02-01 00:00:00至2022-02-02 00:00:00、周期3：2022-03-01 00:00:00至2022-03-02 00:00:00 若统计维度为自然月或者自然年，则统计周期确定规则为，在补录时间范围内的自然月或者自然年示例：补录时间为2022-02-01 00:00:00至2022-03-02 00:00:00，统计维度为：自然月。由于补录时间范围落在两个月上，因此补录两个周期分别为，2022-02-01 00:00:00至2022-03-01 00:00:00、2022-03-01 00:00:00至2022-04-01 00:00:00	字符串	2022-03-01 00:00:00 至 2022-03-02 00:00:00	补录数据值为开的情况下为必填
写入方式	插入：直接将聚合统计分析数据插入结果表更新：以分组字段，统计维度，统计时段（若存在）为更新的条件覆盖：清空目标表中的数据后写入	单选	插入	是
源目标表字段（列）映射关系	关于源表与目标字段（列）映射关系，在此处主要说明数据来源、函数、极值时间字段数据来源可选项有以下几种： NONE：此类目标列不做任何处理，一般用于自动生成值如自增ID一类不用聚合统计任务赋值的目标列聚合函数：目标列的值由源表列通过聚合函数计算得到自动填充：当前支持时间字段自动填充为当前时间以及字符串类型填充为uuid 统计时段：统计时间范围起始时间统计维度：将上文所选统计维度写入目标表分组字段：分组字段的值值拷贝：将源表中列的值copy到目标表对应的列，该列也参与分组函数：数据来源为聚合统计或者自动填充的情况下需要选择函数聚合统计下有以下函数：最大值统计、最小值统计、求均值、求和、数量计算自动填充下有以下函数：NOW()、UUID() 极值时间字段：在数据来源为自动填充且所选函数为最大值或者最小值统计时，需要标记该值所在源表数据行所对应的时间时，将该值存储于目标表对应选择的列	-	-	-