内置任务

内置任务是任务管理下内置的一些常用Java任务或SparkJar任务等。内置作业随数据开发服务部署而加载到服务中,并可在创建业务流程时引用,可以方便用户快速的处理数据。各内置作业任务的说明如下表所示。

当任务涉及指定目标数据表作为任务执行结果的输出对象时,请务必保证选取的为本组织内数据表(可通过在[表管理]中本组织表的列表中查找确认),不可选择申请表。因为申请表通常为申请了查看权限的其他组织中的表,并不具备写入权限,所以将申请表作为输出对象,会导致写入错误。

 

表-1 内置任务任务说明

任务名

任务描述

HBaseBulkLoad

该作业可以使用离线方式将数据原文件(HDFS文件)写入HBase。批量写入会直接覆盖主键相同的数据

HBaseStatistic

使用该作业统计HBase数据源的相关统计值

STDB_EXPORT_DATALOAD

时空引擎批量导入导出

HudiIngestionOfflineJob

使用SparkAPI方式将存储在HDFS上的Json/CSV/Parquet/Orc格式的数据写入Hudi并同步Hive

HudiIngestOnlineJob

使用Hudi DeltaStreamer工具将Kafka中的JSON格式数据实时写入Hudi数据集.

Column_Max_Value_Calc

用于静态脱敏的增量脱敏任务,计算增量字段当前的最大值,作为下一次数据抽取时的起始位置

SQL_AGGREGATE_QUERY

聚合统计分析任务,用于对关系型数据库(当前仅支持VerticaMySQL)中的数据进行聚合统计并将统计结果写入到同数据源下的另外一张表中

 

表-2 HBaseBulkLoad作业任务参数说明

模式

参数

说明

值类型

示例

是否必填

模式1

表名

目标表名,该参数不能手动输入,需要在弹出窗口中选取HBase类型数据源下的数据表

数据源.表名

hbase.user_info

关联输出作业,单击该图标,在弹出窗口中选择作业节点

--

--

模式2

表名

目标表名,该参数不能手动输入,需要在弹出窗口中选取HBase类型数据源下的数据表

数据源.表名

hbase.user_info

路径

数据源文件的路径

字符串

/data/test/

生产日期

数据源文件的产生日期

字符串

2022.03.03 16:00:00

文件过滤正则

通过正则表达式对数据源文件过滤

字符串

[a?+]

关联输出作业,单击该图标,在弹出窗口中选择作业节点

--

--

 

表-3 STDB_EXPORT_DATALOAD作业任务参数说明

模式

参数

说明

值类型

示例

是否必填

模式1 (数据导入)

loadtype

任务类型

import

import

table

表名

数据源.表名

st_db.china_maps

converter

转换配置

HDFS上路径文件

/ste/ingest/china_csv.conf

files

文件

HDFS上路径文件

/ste/ingest/china_map.csv

模式2 (数据导出)

loadtype

任务类型

export

export

table

表名

数据源.表名

st_db.china_maps

cql

查询语句

CQL语句

INCLUDE

attributes

需要导出的属性列名称

列名称,输入多个时,以","隔开

adcode,name,level,geometry

oformat

导出文件格式

csv\tsv\gml\json\avro\leaflet\orc\parquet\arrow

csv

output

导出路径

HDFS上路径(该路径不为空时将会强制覆盖)

/ste/export/csv

sortby

排序字段

属性名称

adcode

desc

是否逆序

true\false

false

noheader

是否保留文件头

true\false

false

name

文件名称

文件名称

china_map

 

表-4 HudiIngestionOfflineJob作业任务参数说明

模式

参数

说明

值类型

示例

是否必填

模式1

tableName

Hudi表名

字符串类型,格式为:数据源.表名

hive_db.hudi_bloom_table

srcDataDir

待写入Hudi的原始数据集在HDFS中的绝对路径。支持单个文件或单个目录

字符串类型

/tmp/srcdatadir

opType

Hudi写操作类型。包括:

  • UPSERT:适用于数据存在更新的场景

  • INSERT:仅支持数据插入操作

  • BULK_INSERT:提供与INSERT相同的语义,支持TB级别负载

枚举值:INSERT/BULK_INSERT/UPSERT

UPSERT

hudiConfig

Hudi支持的系统参数设置。一般用于Hudi调优参数设置

字符串类型,由键值对构成,格式为key1=value1;key2=value2;...

hoodie.upsert.shuffle.parallelism=10

表-5 HudiIngestOnlineJob作业任务参数说明

模式

参数

说明

值类型

示例

是否必填

模式1

kafkaSrc

Kafka数据源与topic名称

字符串类型,格式为:数据源.表名

kafka211_nokrb.test_hudi

hudiConfig

Hudi支持的系统参数设置。一般用于Hudi调优参数设置

字符串类型,由键值对构成,格式为key1=value1;key2=value2;...

hudi_write_operation_shuffle_parallel=2

hiveSrc

Hive数据源与Hudi表名称

TABLE类型,数据源.表名

hive_nokrb_211.t_www_hudi_online

indexType

Hudi索引类型

字符串类型,值为可枚举的选项:BLOOM/GLOBAL_BLOOM/HBASE

HBASE

offsetConf

Kafka reset偏移量策略

字符串类型,值为可枚举的选项:earliest/latest

earliest

groupId

Kafka消费者组ID,唯一标识一个consumer group

字符串类型

2021-12-08

isDebug

是否开启Debug模式提交任务

字符串类型,值为可枚举的选项:false/true

false

opType

Hudi写入操作类型

字符串类型,值为可枚举的选项:INSERT/BULK_INSERT/UPSERT

UPSERT

sparkOpts

配置driverexecutor资源

字符串类型,由键值对构成,格式为,--key1=value1;--key2=value2;...

--driver-memory=1g;--driver-cores=1;--executor-memory=1g;--executor-cores=1;--num-executors=2

minSyncSec

连续模式下每次同步的最小同步间隔(单位:秒),建议设置为60

字符串类型

60

 

表-6 Column_Max_Value_Calc作业任务参数说明

模式

参数

说明

值类型

示例

是否必填

模式1

filePath

记录目标数据源和增量字段信息文件在HDFS上路径

HDFS上路径文件

/hdfs/example/folders/

tableName

目标表名

TABLE类型,数据源.表名

datasource.tablename

columnName

增量列名

字符串类型

examplecolumn

 

表-7 SQL_AGGREGATE_QUERY作业任务参数说明

参数

说明

值类型

示例

是否必填

数据源类型

聚合统计任务分析的数据源类型,当前仅支持VerticaMySQL

枚举值

MYSQL

数据源名称

聚合统计分析的数据源名称

字符串

datasource

新增任务

聚合统计任务列表,单个任务详情说明参见-8

-

-

-

 

表-8 聚合统计任务项参数说明

参数

说明

值类型

示例

是否必填

schema

数据源类型为Vertica时,显示该选项,否则不显示,该选项为所分析源表所在schema

枚举值

public

数据源为Vertica时必填

源表

聚合分析所分析的表

枚举值

vertica_test

目标schema

存储聚合统计分析结果的表所在的schema可与源schema 不同

枚举值

test

数据源为Vertica时必填

目标表

存储聚合统计分析结果的表

枚举值

vertica_target

统计维度

聚合统计每次统计同时长,当前支持:近一日、近三日、近一候(五天)、近一旬(十天)、近一月、近一年、全表、自然年、自然月等9种维度

枚举值

近一日

时间字段

紧跟统计维度,为源表中的时间字段,配合统计维度设定每次统计数据的时间范围,例如:统计维度选择近一日,时间字段为tm,当前时间为 2022-02-29,则聚合统计分析的数据满足:2022-02-28 00:00:00<=tm< 2022-02-29 00:00:00

枚举值

tm

统计不为全表时,必须填写

分组字段

聚合统计分组字段,也即SQL中的group by 字段

枚举值

id

补录数据

对于某些场景,如存在需要补充计算一些遗留数据的情况,需将该功能打开,否则关闭

布尔

周期数

默认情况下,只统计一个时段的数据。但对于需要计算多个时段的情况,就需要通过添加周期来实现,周期数范围15。补录数据为开的情况下本参数不显示

  • 当统计维度为近一段时间(如近一天、近一年等)时,周期需要配合任务所在的业务流程的节点或者节点组所设的调度配置高级调度,完成多周期任务的统计。配合方式说明:

  • 以当前时间为终点,寻找周期数个高级调度的触发时间点,以此为基准作为选择的统计维度参考时间点,统计这些时间点的近一天(三天,一候、一旬、一月、一年)的数据,示例:周期数为2,统计周期为近一月,节点所设高级调度为:0 2 1 * ?,也即每月的12点整执行,当前时间为2022-03-29,则该任务会在2022-04-01 02:00:00 触发,向前寻找两个触发时间点依次是:2022-04-01 02:00:002022-03-01 02:00:00,以这两个时间点作为参考时间点,统计这两个时间的近一月的数据,第一个周期统计时间范围为2022-03-012022-04-01,第二个周期统计时间范围为:2022-02-012022-03-01

  • 当统计维度为全表时,不支持多周期,此时周期数大于1时,会按照1周期执行

  • 当统计维度为自然月/自然年,周期数大于1时,以当前月/年为终点向前推周期数个月/年,作为多周期统计范围,示例:

  • 统计周期:2,统计维度:自然月,当前月为2022-03-29,则第一个周期为:2022-3-1 2022-4-1,第二周期为:2022-2-1 2022-3-1

数值

1

补录周期

同业务流程节点或者节点组所设置的调度配置的高级配置,当补录周期值为开时,该字段显示,否则不显示

字符串

2 1 1 * ?

统计维度为近一天、近三天、近一候、近一旬、近一月,近一年且补录数据值为开时,必填

补录时间

  • 当统计维度为近一段时间(如近一天、近一年等)时,配合补录周期完成对于这段时间内数据的统计,配合方式:以补录时间所圈定的时间范围内,补录周期cron的触发时间点为参考时间点,统计其近(一天、一周、一旬、一候、一月、一年)的数据

  • 示例:补录周期为0 2 2 * ?,补录时间为:2022-01-01 00:00:002022-04-01 00:00:00,统计维度为:近一天。则在补录时间所圈定的时间范围内,补录周期触发时间点为:2022-01-02 02:00:002022-02-02 02:00:002022-03-02 02:00:00。统计维度为近一天,则统计的三个周期时间范围为(统计最小粒度为天):周期12022-01-01 00:00:002022-01-02 00:00:00、周期22022-02-01 00:00:002022-02-02 00:00:00、周期32022-03-01 00:00:002022-03-02 00:00:00

  • 若统计维度为自然月或者自然年,则统计周期确定规则为,在补录时间范围内的自然月或者自然年

  • 示例:补录时间为2022-02-01 00:00:002022-03-02 00:00:00,统计维度为:自然月。由于补录时间范围落在两个月上,因此补录两个周期分别为,2022-02-01 00:00:002022-03-01 00:00:002022-03-01 00:00:002022-04-01 00:00:00

字符串

2022-03-01 00:00:00 2022-03-02 00:00:00

补录数据值为开的情况下为必填

写入方式

  • 插入:直接将聚合统计分析数据插入结果表

  • 更新:以分组字段,统计维度,统计时段(若存在)为更新的条件

  • 覆盖:清空目标表中的数据后写入

单选

插入

源目标表字段(列)映射关系

关于源表与目标字段(列)映射关系,在此处主要说明数据来源、函数、极值时间字段

  • 数据来源可选项有以下几种:

  • NONE:此类目标列不做任何处理,一般用于自动生成值如自增ID一类不用聚合统计任务赋值的目标列

  • 聚合函数:目标列的值由源表列通过聚合函数计算得到

  • 自动填充:当前支持时间字段自动填充为当前时间以及字符串类型填充为uuid

  • 统计时段:统计时间范围起始时间

  • 统计维度:将上文所选统计维度写入目标表

  • 分组字段:分组字段的值

  • 值拷贝:将源表中列的值copy到目标表对应的列,该列也参与分组

  • 函数:数据来源为聚合统计或者自动填充的情况下需要选择函数

  • 聚合统计下有以下函数:最大值统计、最小值统计、求均值、求和、数量计算

  • 自动填充下有以下函数:NOW()UUID()

  • 极值时间字段:在数据来源为自动填充且所选函数为最大值或者最小值统计时,需要标记该值所在源表数据行所对应的时间时,将该值存储于目标表对应选择的列

-

-

-