内置任务是任务管理下内置的一些常用Java任务及监控任务。内置作业随数据开发服务部署而加载到服务中。可以方便用户快速的处理数据。各内置作业任务的说明如下表所示。
表-1 内置任务任务说明
任务名 |
任务描述 |
HBaseBulkLoad |
该作业可以使用离线方式将数据原文件(HDFS文件)写入HBase。批量写入会直接覆盖主键相同的数据 |
HBaseStatistic |
使用该作业统计HBase数据源的相关统计值 |
STDB_EXPORT_DATALOAD |
时空引擎批量导入导出 |
HudiIngestionOfflineJob |
使用SparkAPI方式将存储在HDFS上的Json/CSV/Parquet/Orc格式的数据写入Hudi并同步Hive表 |
HudiIngestOnlineJob |
使用Hudi DeltaStreamer工具将Kafka中的JSON格式数据实时写入Hudi数据集 |
Column_Max_Value_Calc |
用于静态脱敏的增量脱敏任务,计算增量字段当前的最大值,作为下一次数据抽取时的起始位置 |
表-2 STDB_EXPORT_DATALOAD作业任务参数说明
模式 |
参数 |
说明 |
值类型 |
示例 |
是否必填 |
模式1 (数据导入) |
loadtype |
任务类型 |
import |
import |
是 |
table |
表名 |
数据源.表名 |
st_db.china_maps |
是 |
|
converter |
转换配置 |
HDFS上路径文件 |
/ste/ingest/china_csv.conf |
是 |
|
files |
文件 |
HDFS上路径文件 |
/ste/ingest/china_map.csv |
是 |
|
模式2 (数据导出) |
loadtype |
任务类型 |
export |
export |
是 |
table |
表名 |
数据源.表名 |
st_db.china_maps |
是 |
|
cql |
查询语句 |
CQL语句,参考STDB类型表查询页面 |
INCLUDE |
是 |
|
attributes |
需要导出的属性列名称 |
列名称,输入多个时,以","隔开 |
adcode,name,level,geometry |
是 |
|
oformat |
导出文件格式 |
csv\tsv\gml\json\avro\leaflet\orc\parquet\arrow |
csv |
是 |
|
output |
导出路径 |
HDFS上路径(该路径不为空时将会强制覆盖) |
/ste/export/csv |
是 |
|
sortby |
排序字段 |
属性名称 |
adcode |
是 |
|
desc |
是否逆序 |
true\false |
false |
是 |
|
noheader |
是否保留文件头 |
true\false |
false |
是 |
|
name |
文件名称 |
文件名称 |
china_map |
是 |
表-3 HudiIngestionOfflineJob作业任务参数说明
模式 |
参数 |
说明 |
值类型 |
示例 |
是否必填 |
模式1 |
tableName |
Hudi表名 |
字符串类型,格式为:数据源.表名 |
hive_db.hudi_bloom_table |
是 |
srcDataDir |
待写入Hudi的原始数据集在HDFS中的绝对路径。支持单个文件或单个目录 |
字符串类型 |
/tmp/srcdatadir |
是 |
|
opType |
Hudi写操作类型。包括:
|
字符串类型,值为可枚举的选项:INSERT/BULK_INSERT/UPSERT |
UPSERT |
是 |
|
hudiConfig |
Hudi支持的系统参数设置。一般用于Hudi调优参数设置 |
字符串类型,由键值对构成,格式为key1=value1;key2=value2;... |
hoodie.upsert.shuffle.parallelism=10 |
否 |
表-4 HudiIngestOnlineJob作业任务参数说明
模式 |
参数 |
说明 |
值类型 |
示例 |
是否必填 |
模式1 |
kafkaSrc |
Kafka数据源与topic名称 |
字符串类型,格式为:数据源.表名 |
kafka211_nokrb.test_hudi |
是 |
parallel |
hoodie.(upsert/insert/bulk_insert/delete).shuffle.parallelism配置参数 |
字符串类型 |
2 |
是 |
|
hiveSrc |
Hive数据源与Hudi表名称 |
TABLE类型,数据源.表名 |
hive_nokrb_211.t_www_hudi_online |
是 |
|
indexType |
Hudi索引类型 |
字符串类型,值为可枚举的选项:BLOOM/GLOBAL_BLOOM/HBASE |
HBASE |
是 |
|
offsetConf |
Kafka reset偏移量策略 |
字符串类型,值为可枚举的选项:earliest/latest |
earliest |
是 |
|
groupId |
Kafka消费者组ID,唯一标识一个consumer group |
字符串类型 |
2021-12-08 |
是 |
|
isDebug |
是否开启Debug模式提交任务 |
字符串类型,值为可枚举的选项:false/true |
false |
是 |
|
opType |
Hudi写入操作类型 |
字符串类型,值为可枚举的选项:INSERT/BULK_INSERT/UPSERT |
UPSERT |
是 |
|
sparkOpts |
配置driver、executor资源 |
字符串类型,由键值对构成,格式为,--key1=value1;--key2=value2;... |
--driver-memory=1g;--driver-cores=1;--executor-memory=1g;--executor-cores=1;--num-executors=2 |
是 |
|
minSyncSec |
连续模式下每次同步的最小同步间隔(单位:秒),建议设置为60 |
字符串类型 |
60 |
是 |
表-5 Column_Max_Value_Calc作业任务参数说明
模式 |
参数 |
说明 |
值类型 |
示例 |
是否必填 |
模式1 |
filePath |
记录目标数据源和增量字段信息文件在HDFS上路径 |
HDFS上路径文件 |
/hdfs/example/folders/ |
是 |
tableName |
目标表名 |
TABLE类型,数据源.表名 |
datasource.tablename |
是 |
|
columnName |
增量列名 |
字符串类型 |
examplecolumn |
是 |