内置任务是任务管理下内置的一些常用Java任务或SparkJar任务等。内置作业随数据开发服务部署而加载到服务中,并可在创建业务流程时引用,可以方便用户快速的处理数据。各内置作业任务的说明如下表所示。
当任务涉及指定目标数据表作为任务执行结果的输出对象时,请务必保证选取的为本组织内数据表(可通过在[表管理]中本组织表的列表中查找确认),不可选择申请表。因为申请表通常为申请了查看权限的其他组织中的表,并不具备写入权限,所以将申请表作为输出对象,会导致写入错误。 |
表-1 内置任务任务说明
任务名 |
任务描述 |
HBaseBulkLoad |
该作业可以使用离线方式将数据原文件(HDFS文件)写入HBase。批量写入会直接覆盖主键相同的数据 |
HBaseStatistic |
使用该作业统计HBase数据源的相关统计值 |
STDB_EXPORT_DATALOAD |
时空引擎批量导入导出 |
HudiIngestionOfflineJob |
使用SparkAPI方式将存储在HDFS上的Json/CSV/Parquet/Orc格式的数据写入Hudi并同步Hive表 |
HudiIngestOnlineJob |
使用Hudi DeltaStreamer工具将Kafka中的JSON格式数据实时写入Hudi数据集. |
Column_Max_Value_Calc |
用于静态脱敏的增量脱敏任务,计算增量字段当前的最大值,作为下一次数据抽取时的起始位置 |
SQL_AGGREGATE_QUERY |
聚合统计分析任务,用于对关系型数据库(当前仅支持Vertica与MySQL)中的数据进行聚合统计并将统计结果写入到同数据源下的另外一张表中 |
表-2 HBaseBulkLoad作业任务参数说明
模式 |
参数 |
说明 |
值类型 |
示例 |
是否必填 |
模式1 |
表名 |
目标表名,该参数不能手动输入,需要在弹出窗口中选取HBase类型数据源下的数据表 |
数据源.表名 |
hbase.user_info |
是 |
关联输出作业,单击该图标,在弹出窗口中选择作业节点 |
-- |
-- |
否 |
||
模式2 |
表名 |
目标表名,该参数不能手动输入,需要在弹出窗口中选取HBase类型数据源下的数据表 |
数据源.表名 |
hbase.user_info |
是 |
路径 |
数据源文件的路径 |
字符串 |
/data/test/ |
是 |
|
生产日期 |
数据源文件的产生日期 |
字符串 |
2022.03.03 16:00:00 |
是 |
|
文件过滤正则 |
通过正则表达式对数据源文件过滤 |
字符串 |
[a?+] |
否 |
|
关联输出作业,单击该图标,在弹出窗口中选择作业节点 |
-- |
-- |
否 |
表-3 STDB_EXPORT_DATALOAD作业任务参数说明
模式 |
参数 |
说明 |
值类型 |
示例 |
是否必填 |
模式1 (数据导入) |
loadtype |
任务类型 |
import |
import |
是 |
table |
表名 |
数据源.表名 |
st_db.china_maps |
是 |
|
converter |
转换配置 |
HDFS上路径文件 |
/ste/ingest/china_csv.conf |
是 |
|
files |
文件 |
HDFS上路径文件 |
/ste/ingest/china_map.csv |
是 |
|
模式2 (数据导出) |
loadtype |
任务类型 |
export |
export |
是 |
table |
表名 |
数据源.表名 |
st_db.china_maps |
是 |
|
cql |
查询语句 |
CQL语句 |
INCLUDE |
是 |
|
attributes |
需要导出的属性列名称 |
列名称,输入多个时,以","隔开 |
adcode,name,level,geometry |
是 |
|
oformat |
导出文件格式 |
csv\tsv\gml\json\avro\leaflet\orc\parquet\arrow |
csv |
是 |
|
output |
导出路径 |
HDFS上路径(该路径不为空时将会强制覆盖) |
/ste/export/csv |
是 |
|
sortby |
排序字段 |
属性名称 |
adcode |
是 |
|
desc |
是否逆序 |
true\false |
false |
是 |
|
noheader |
是否保留文件头 |
true\false |
false |
是 |
|
name |
文件名称 |
文件名称 |
china_map |
是 |
表-4 HudiIngestionOfflineJob作业任务参数说明
模式 |
参数 |
说明 |
值类型 |
示例 |
是否必填 |
模式1 |
tableName |
Hudi表名 |
字符串类型,格式为:数据源.表名 |
hive_db.hudi_bloom_table |
是 |
srcDataDir |
待写入Hudi的原始数据集在HDFS中的绝对路径。支持单个文件或单个目录 |
字符串类型 |
/tmp/srcdatadir |
是 |
|
opType |
Hudi写操作类型。包括:
|
枚举值:INSERT/BULK_INSERT/UPSERT |
UPSERT |
是 |
|
hudiConfig |
Hudi支持的系统参数设置。一般用于Hudi调优参数设置 |
字符串类型,由键值对构成,格式为key1=value1;key2=value2;... |
hoodie.upsert.shuffle.parallelism=10 |
否 |
表-5 HudiIngestOnlineJob作业任务参数说明
模式 |
参数 |
说明 |
值类型 |
示例 |
是否必填 |
模式1 |
kafkaSrc |
Kafka数据源与topic名称 |
字符串类型,格式为:数据源.表名 |
kafka211_nokrb.test_hudi |
是 |
hudiConfig |
Hudi支持的系统参数设置。一般用于Hudi调优参数设置 |
字符串类型,由键值对构成,格式为key1=value1;key2=value2;... |
hudi_write_operation_shuffle_parallel=2 |
是 |
|
hiveSrc |
Hive数据源与Hudi表名称 |
TABLE类型,数据源.表名 |
hive_nokrb_211.t_www_hudi_online |
是 |
|
indexType |
Hudi索引类型 |
字符串类型,值为可枚举的选项:BLOOM/GLOBAL_BLOOM/HBASE |
HBASE |
是 |
|
offsetConf |
Kafka reset偏移量策略 |
字符串类型,值为可枚举的选项:earliest/latest |
earliest |
是 |
|
groupId |
Kafka消费者组ID,唯一标识一个consumer group |
字符串类型 |
2021-12-08 |
是 |
|
isDebug |
是否开启Debug模式提交任务 |
字符串类型,值为可枚举的选项:false/true |
false |
是 |
|
opType |
Hudi写入操作类型 |
字符串类型,值为可枚举的选项:INSERT/BULK_INSERT/UPSERT |
UPSERT |
是 |
|
sparkOpts |
配置driver、executor资源 |
字符串类型,由键值对构成,格式为,--key1=value1;--key2=value2;... |
--driver-memory=1g;--driver-cores=1;--executor-memory=1g;--executor-cores=1;--num-executors=2 |
是 |
|
minSyncSec |
连续模式下每次同步的最小同步间隔(单位:秒),建议设置为60 |
字符串类型 |
60 |
是 |
表-6 Column_Max_Value_Calc作业任务参数说明
模式 |
参数 |
说明 |
值类型 |
示例 |
是否必填 |
模式1 |
filePath |
记录目标数据源和增量字段信息文件在HDFS上路径 |
HDFS上路径文件 |
/hdfs/example/folders/ |
是 |
tableName |
目标表名 |
TABLE类型,数据源.表名 |
datasource.tablename |
是 |
|
columnName |
增量列名 |
字符串类型 |
examplecolumn |
是 |
表-7 SQL_AGGREGATE_QUERY作业任务参数说明
参数 |
说明 |
值类型 |
示例 |
是否必填 |
数据源类型 |
聚合统计任务分析的数据源类型,当前仅支持Vertica和MySQL |
枚举值 |
MYSQL |
是 |
数据源名称 |
聚合统计分析的数据源名称 |
字符串 |
datasource |
是 |
新增任务 |
聚合统计任务列表,单个任务详情说明参见表-8 |
- |
- |
- |
参数 |
说明 |
值类型 |
示例 |
是否必填 |
源schema |
数据源类型为Vertica时,显示该选项,否则不显示,该选项为所分析源表所在schema |
枚举值 |
public |
数据源为Vertica时必填 |
源表 |
聚合分析所分析的表 |
枚举值 |
vertica_test |
是 |
目标schema |
存储聚合统计分析结果的表所在的schema可与源schema 不同 |
枚举值 |
test |
数据源为Vertica时必填 |
目标表 |
存储聚合统计分析结果的表 |
枚举值 |
vertica_target |
是 |
统计维度 |
聚合统计每次统计同时长,当前支持:近一日、近三日、近一候(五天)、近一旬(十天)、近一月、近一年、全表、自然年、自然月等9种维度 |
枚举值 |
近一日 |
是 |
时间字段 |
紧跟统计维度,为源表中的时间字段,配合统计维度设定每次统计数据的时间范围,例如:统计维度选择近一日,时间字段为tm,当前时间为 2022-02-29,则聚合统计分析的数据满足:2022-02-28 00:00:00<=tm< 2022-02-29 00:00:00 |
枚举值 |
tm |
统计不为全表时,必须填写 |
分组字段 |
聚合统计分组字段,也即SQL中的group by 字段 |
枚举值 |
id |
是 |
补录数据 |
对于某些场景,如存在需要补充计算一些遗留数据的情况,需将该功能打开,否则关闭 |
布尔 |
关 |
是 |
周期数 |
默认情况下,只统计一个时段的数据。但对于需要计算多个时段的情况,就需要通过添加周期来实现,周期数范围1~5。补录数据为开的情况下本参数不显示
|
数值 |
1 |
是 |
补录周期 |
同业务流程节点或者节点组所设置的调度配置的高级配置,当补录周期值为开时,该字段显示,否则不显示 |
字符串 |
2 1 1 * ? |
统计维度为近一天、近三天、近一候、近一旬、近一月,近一年且补录数据值为开时,必填 |
补录时间 |
|
字符串 |
2022-03-01 00:00:00 至 2022-03-02 00:00:00 |
补录数据值为开的情况下为必填 |
写入方式 |
|
单选 |
插入 |
是 |
源目标表字段(列)映射关系 |
关于源表与目标字段(列)映射关系,在此处主要说明数据来源、函数、极值时间字段
|
- |
- |
- |