内置任务

内置任务是任务管理下内置的一些常用Java任务及监控任务。内置作业随数据开发服务部署而加载到服务中。可以方便用户快速的处理数据。各内置作业任务的说明如下表所示。

表-1 内置任务任务说明

任务名	任务描述
HBaseBulkLoad	该作业可以使用离线方式将数据原文件（HDFS文件）写入HBase。批量写入会直接覆盖主键相同的数据
HBaseStatistic	使用该作业统计HBase数据源的相关统计值
STDB_EXPORT_DATALOAD	时空引擎批量导入导出
HudiIngestionOfflineJob	使用SparkAPI方式将存储在HDFS上的Json/CSV/Parquet/Orc格式的数据写入Hudi并同步Hive表
HudiIngestOnlineJob	使用Hudi DeltaStreamer工具将Kafka中的JSON格式数据实时写入Hudi数据集
Column_Max_Value_Calc	用于静态脱敏的增量脱敏任务，计算增量字段当前的最大值，作为下一次数据抽取时的起始位置

表-2 STDB_EXPORT_DATALOAD作业任务参数说明

模式	参数	说明	值类型	示例	是否必填
模式1 （数据导入）	loadtype	任务类型	import	import	是
	table	表名	数据源.表名	st_db.china_maps	是
	converter	转换配置	HDFS上路径文件	/ste/ingest/china_csv.conf	是
	files	文件	HDFS上路径文件	/ste/ingest/china_map.csv	是
模式2 （数据导出）	loadtype	任务类型	export	export	是
	table	表名	数据源.表名	st_db.china_maps	是
	cql	查询语句	CQL语句，参考STDB类型表查询页面	INCLUDE	是
	attributes	需要导出的属性列名称	列名称，输入多个时，以","隔开	adcode,name,level,geometry	是
	oformat	导出文件格式	csv\tsv\gml\json\avro\leaflet\orc\parquet\arrow	csv	是
	output	导出路径	HDFS上路径(该路径不为空时将会强制覆盖)	/ste/export/csv	是
	sortby	排序字段	属性名称	adcode	是
	desc	是否逆序	true\false	false	是
	noheader	是否保留文件头	true\false	false	是
	name	文件名称	文件名称	china_map	是

表-3 HudiIngestionOfflineJob作业任务参数说明

模式	参数	说明	值类型	示例	是否必填
模式1	tableName	Hudi表名	字符串类型，格式为：数据源.表名	hive_db.hudi_bloom_table	是
	srcDataDir	待写入Hudi的原始数据集在HDFS中的绝对路径。支持单个文件或单个目录	字符串类型	/tmp/srcdatadir	是
	opType	Hudi写操作类型。包括： UPSERT：适用于数据存在更新的场景 INSERT：仅支持数据插入操作 BULK_INSERT：提供与INSERT相同的语义，支持TB级别负载	字符串类型，值为可枚举的选项：INSERT/BULK_INSERT/UPSERT	UPSERT	是
	hudiConfig	Hudi支持的系统参数设置。一般用于Hudi调优参数设置	字符串类型，由键值对构成，格式为key1=value1;key2=value2;...	hoodie.upsert.shuffle.parallelism=10	否

表-4 HudiIngestOnlineJob作业任务参数说明

模式	参数	说明	值类型	示例	是否必填
模式1	kafkaSrc	Kafka数据源与topic名称	字符串类型，格式为：数据源.表名	kafka211_nokrb.test_hudi	是
	parallel	hoodie.(upsert/insert/bulk_insert/delete).shuffle.parallelism配置参数	字符串类型	2	是
	hiveSrc	Hive数据源与Hudi表名称	TABLE类型，数据源.表名	hive_nokrb_211.t_www_hudi_online	是
	indexType	Hudi索引类型	字符串类型，值为可枚举的选项：BLOOM/GLOBAL_BLOOM/HBASE	HBASE	是
	offsetConf	Kafka reset偏移量策略	字符串类型，值为可枚举的选项：earliest/latest	earliest	是
	groupId	Kafka消费者组ID,唯一标识一个consumer group	字符串类型	2021-12-08	是
	isDebug	是否开启Debug模式提交任务	字符串类型，值为可枚举的选项：false/true	false	是
	opType	Hudi写入操作类型	字符串类型，值为可枚举的选项：INSERT/BULK_INSERT/UPSERT	UPSERT	是
	sparkOpts	配置driver、executor资源	字符串类型，由键值对构成，格式为,--key1=value1;--key2=value2;...	--driver-memory=1g;--driver-cores=1;--executor-memory=1g;--executor-cores=1;--num-executors=2	是
	minSyncSec	连续模式下每次同步的最小同步间隔（单位：秒），建议设置为60	字符串类型	60	是

表-5 Column_Max_Value_Calc作业任务参数说明

模式	参数	说明	值类型	示例	是否必填
模式1	filePath	记录目标数据源和增量字段信息文件在HDFS上路径	HDFS上路径文件	/hdfs/example/folders/	是
	tableName	目标表名	TABLE类型，数据源.表名	datasource.tablename	是
	columnName	增量列名	字符串类型	examplecolumn	是