实时同步作业(OracleVertica

1.      场景描述

A公司基于Vertica的数仓建设,需要将Oracle数据库中历史数据和增量数据实时同步至Vertica数仓用于数据分析。

2.      场景分析

通常数仓建设会将源库中的所有业务表同步至数仓,源CDC组件可以模糊匹配某个模式下的所有表,通过源CDC可以方便配置并监控Oracle库下的所有表,指定并行度后实现全量并行抽取历史数据并且无缝转增量抽取。

3.      实时作业设计方案

通过源CDC组件抽取Oracle数据库中历史数据和增量数据,然后通过目标端加载组件将数据实时同步至Vertica数仓。

图-1 实时作业图示

 

4.      示例前置条件

5.      示例详细步骤

  1. 配置源CDC相关参数

  1. 将需要进行数据同步的源数据源和目标数据源拖入作业设计画布,配置源端抽取组件的基本信息,抽取方式选择“增量+全量”,选择Oracle数据库中要抽取的数据表。

图-2 基本配置

 

  1. 在高级配置页签下根据抽取的数据量选择推荐的批量大小和并行度配置,如果抽取的表中包含blobclobxmltype等大字段时建议调小批量大小,批量大小建议不超过100

图-3 高级配置

 

  1. 配置转换组件相关参数

  1. 字段转换页签:获取从源CDC组件输出的表,用户可根据实际的业务需求对表中的字段进行处理。

图-4 字段转换配置

 

  1. 数据标签页签:对源库中抽取出来的数据增加标签字段。

表达式各配置项含义:

图-5 数据标签配置

 

  1. 配置目标端加载组件配置参数

  1. 表名映射页签:当源库中模式名和表名与目标库中模式名和表名不一致时,需使用该配置项配置映射关系。

图-6 表名映射配置

 

  1. 高级配置页签:配置增量并行度、提交间隔等参数。

图-7 高级配置页签

 

  1. 配置完成后,保存作业,对作业进行上线、最后进行作业运行,任务即可开始抽取数据。