当前实时计算支持Kafka、STDB、Hudi类型数据源表,即使用Kafka类型数据源中的表、STDB类型数据源中的表、Hive类型数据源中Hudi类型的表,作为数据源输入。
将组件拖入画布中后,双击节点,页面右侧会弹出节点概览,可配置节点参数,这几种数据源输入参数说明如下表所示。
目前,采用数据源表组件Hudi作为输入源时,在画布中暂不支持与join、windowJoin、overAggreate、cep数据处理组件相连。 |
表-1 数据源表组件配置参数介绍
数据源表 |
说明 |
kafka |
该组件可以从Kafka类型的数据源中读取数据,并作为实时作业的输入。该组件配置参数说明如下:
|
STDB |
该组件可以从STDB类型的数据源中读取数据,并作为实时作业的输入。该组件配置参数说明如下:
|
hudi |
该组件可以从Hive类型的数据源中Hudi类型的数据表内读取数据,并作为实时作业的输入。该组件配置参数说明如下:
|
当前实时计算支持PostgreSQL、达梦、Vertica、MySQL、HBase数据维表,分别代表PostgreSQL类型、达梦类型、Vertica类型、MySQL类型、HBase类型的数据源输入。这几种数据源输入参数说明如下表所示。
表-2 数据维表组件配置参数介绍
数据维表 |
说明 |
PostgreSQL、达梦、Vertica、MySQL、HBase |
可以从PostgreSQL、达梦、Vertica、MySQL、HBase数据源读取数据,并进行数据处理 当前版本只支持HBase原生数据维表,且该维表的列族名必须为F
|
数据处理可以对数据进行逻辑运算操作,具体数据处理组件说明如下表所示。
表-3 数据处理组件配置参数介绍
聚合组件(aggregate)的函数有五种,分别为:求和(SUM)、求平均值(AVG)、最大值(MAX)、最小值(MIN)、统计(COUNT)。 |
数据结果表用于存储FLINK_GRAPH作业的的运算结果。目前支持将结果存储到Kafka、Hive、PostgreSQL、达梦、Vertica、MySQL、Elasticsearch数据源的数据表中,以及Hive数据源中Hudi类型的数据表内。
各数据结果表组件的参数说明如下表所示。
PostgreSQL数据库9.5以上版本支持upsert流;upsert操作数据写入HBase、MySQL、PostgreSQL、达梦、Vertica,sink表需要有主键。 如果实时作业需要写入Hive数据源中Hudi类型的数据表内,则需要先在[表管理]中选择Hive数据源下创建Hudi数据表(即创建数据表时,选择Hive类型数据源,并配置存储方式为Hudi),并确保选择的表在创建时,分区字段类型不能选择date,表结构中的字段类型不包括char、varchar、tinyint、smallint、timestamp类型,否则,会导致Hudi数据同步至Hive失败。 |
表-4 数据结果表组件配置参数介绍
参数 |
说明 |
节点类型 |
所选组件节点的类型 |
表类型 |
均为数据结果表,表示为输出 |
表名称 |
根据所选的节点类型,选择对应的在流表管理中已注册的流表。此名称按照数据源名.表名规则进行展开(以区分不同的数据源下的同名表) |
字段映射 |
输入字段向数据结果表字段映射。输入字段为其父节点的输出字段(不可编辑),数据结果表的字段只能选同类型的且未被选择的字段 |
时间分区字段 |
配置Timestamp类型字段分区依据。当数据结果表为Elasticsearch,且有建周期表,才有此配置项。要求该Timestamp类型字段不为空。若为空,则会导致生成*.null形式的索引(其中*为通配符),该情况下可进入对应DataEngine大数据集群后台执行如下命令,删除该不受全文索引管理的索引: curl --negotiate -u : -XDELETE http://DataEngine大数据集群IP:9200/索引名 |