内置任务

内置任务是任务管理下内置的一些常用Java任务及监控任务。内置作业随数据开发服务部署而加载到服务中。可以方便用户快速的处理数据。各内置作业任务的说明如下表所示。

表-1 内置任务任务说明

任务名

任务描述

HBaseBulkLoad

该作业可以使用离线方式将数据原文件(HDFS文件)写入HBase。批量写入会直接覆盖主键相同的数据

HBaseStatistic

使用该作业统计HBase数据源的相关统计值

STDB_EXPORT_DATALOAD

时空引擎批量导入导出

HudiIngestionOfflineJob

使用SparkAPI方式将存储在HDFS上的Json/CSV/Parquet/Orc格式的数据写入Hudi并同步Hive

HudiIngestOnlineJob

使用Hudi DeltaStreamer工具将Kafka中的JSON格式数据实时写入Hudi数据集

Column_Max_Value_Calc

用于静态脱敏的增量脱敏任务,计算增量字段当前的最大值,作为下一次数据抽取时的起始位置

 

表-2 STDB_EXPORT_DATALOAD作业任务参数说明

模式

参数

说明

值类型

示例

是否必填

模式1 (数据导入)

loadtype

任务类型

import

import

table

表名

数据源.表名

st_db.china_maps

converter

转换配置

HDFS上路径文件

/ste/ingest/china_csv.conf

files

文件

HDFS上路径文件

/ste/ingest/china_map.csv

模式2 (数据导出)

loadtype

任务类型

export

export

table

表名

数据源.表名

st_db.china_maps

cql

查询语句

CQL语句,参考STDB类型表查询页面

INCLUDE

attributes

需要导出的属性列名称

列名称,输入多个时,以","隔开

adcode,name,level,geometry

oformat

导出文件格式

csv\tsv\gml\json\avro\leaflet\orc\parquet\arrow

csv

output

导出路径

HDFS上路径(该路径不为空时将会强制覆盖)

/ste/export/csv

sortby

排序字段

属性名称

adcode

desc

是否逆序

true\false

false

noheader

是否保留文件头

true\false

false

name

文件名称

文件名称

china_map

 

表-3 HudiIngestionOfflineJob作业任务参数说明

模式

参数

说明

值类型

示例

是否必填

模式1

tableName

Hudi表名

字符串类型,格式为:数据源.表名

hive_db.hudi_bloom_table

srcDataDir

待写入Hudi的原始数据集在HDFS中的绝对路径。支持单个文件或单个目录

字符串类型

/tmp/srcdatadir

opType

Hudi写操作类型。包括:

  • UPSERT:适用于数据存在更新的场景

  • INSERT:仅支持数据插入操作

  • BULK_INSERT:提供与INSERT相同的语义,支持TB级别负载

字符串类型,值为可枚举的选项:INSERT/BULK_INSERT/UPSERT

UPSERT

hudiConfig

Hudi支持的系统参数设置。一般用于Hudi调优参数设置

字符串类型,由键值对构成,格式为key1=value1;key2=value2;...

hoodie.upsert.shuffle.parallelism=10

表-4 HudiIngestOnlineJob作业任务参数说明

模式

参数

说明

值类型

示例

是否必填

模式1

kafkaSrc

Kafka数据源与topic名称

字符串类型,格式为:数据源.表名

kafka211_nokrb.test_hudi

parallel

hoodie.(upsert/insert/bulk_insert/delete).shuffle.parallelism配置参数

字符串类型

2

hiveSrc

Hive数据源与Hudi表名称

TABLE类型,数据源.表名

hive_nokrb_211.t_www_hudi_online

indexType

Hudi索引类型

字符串类型,值为可枚举的选项:BLOOM/GLOBAL_BLOOM/HBASE

HBASE

offsetConf

Kafka reset偏移量策略

字符串类型,值为可枚举的选项:earliest/latest

earliest

groupId

Kafka消费者组ID,唯一标识一个consumer group

字符串类型

2021-12-08

isDebug

是否开启Debug模式提交任务

字符串类型,值为可枚举的选项:false/true

false

opType

Hudi写入操作类型

字符串类型,值为可枚举的选项:INSERT/BULK_INSERT/UPSERT

UPSERT

sparkOpts

配置driverexecutor资源

字符串类型,由键值对构成,格式为,--key1=value1;--key2=value2;...

--driver-memory=1g;--driver-cores=1;--executor-memory=1g;--executor-cores=1;--num-executors=2

minSyncSec

连续模式下每次同步的最小同步间隔(单位:秒),建议设置为60

字符串类型

60

 

表-5 Column_Max_Value_Calc作业任务参数说明

模式

参数

说明

值类型

示例

是否必填

模式1

filePath

记录目标数据源和增量字段信息文件在HDFS上路径

HDFS上路径文件

/hdfs/example/folders/

tableName

目标表名

TABLE类型,数据源.表名

datasource.tablename

columnName

增量列名

字符串类型

examplecolumn