Oracle数据库需要开启归档日志,启用LogMiner后,才能使用Oracle CDC组件。启用的具体操作步骤参见:Oracle数据库启用。 |
Oracle CDC组件使用LogMiner解析Oracle归档日志,获取数据库的数据变化信息,解析出相应数据并发送到Kafka Topic,进行后续处理。
双击画布中的Oracle CDC组件,弹出Oracle CDC窗口。
输入步骤名称,名称要求为非空,2到50个字符。
设置基础配置、JDBC、抽取的表及高级配置。
单击<确定>按钮完成配置。
Topic名称:必填项,将Oracle CDC抽取的实时数据存储的Kafka主题名(用户指定主题名会自动添加任务id进行实际主题名拼装)。
压缩类型:抽取数据到Kafka时消息的压缩模式,默认是none,可选值none、gzip、snappy。
大小写敏感:非必选,标识“抽取的表”页签中模式、表以及正则表达式(排除)三个选框中的数据是否区分大小写;默认不选择,即不区分大小写,统一转换为大写;当选择该项后,以上三个选框中的数据严格区分大小写。
起始位置:必填项,任务启动时的开始抽取的位置,分为三类:最新系统SCN、起始日期以及起始SCN。
最新系统SCN:表示任务从CDC任务启动时刻开始CDC抽取。
起始时间:表示从指定的时间开始CDC抽取。
起始SCN:表示从指定SCN开始CDC抽取。
当topic中存在已抽取过的数据时,以上三种起始位置均不生效,默认从topic中最新的数据的SCN处开始抽取。
操作类型:必填项,支持抽取的数据库DML类型,包括:INSERT(插入)、UPDATE(更新)以及DELETE(删除)。
字典来源:必填项,分为“Online Catalog”和“Redo Logs”两种,前者在表结构变化后不能抽取表结构变化前的数据,后者能同时处理表结构变化前后的数据;同时,“Online Catalog”比“Redo Logs”的抽取速度快。
最长事务(秒):必填项,用户指定的最大事务时长,如果事务长度大于该值,则丢弃该事务;该项默认值(最小值)为3600秒,即一小时。
LogMiner会话窗口:必填项,LogMiner会话窗口的时长,必须大于“最长事务”值,默认(最小)值为7200秒;当一个LogMiner会话窗口结束后,会重新开启一个新的会话窗口继续抽取。
数据源连接:必填项,选择要抽取的数据源连接。
PDB:非必填项,适用于Oracle 12c版本数据库的CDB容器模式。
增加:单击该按钮,会增加一条要抽取的表的配置,分为模式、表和正则表达式(排除)三项。
模式:必填项,要抽取的表所属数据库模式名
表:必填项,要抽取的表名,可通过模糊匹配多张表,例如:“CDCTEST%”可匹配对应模式下所有“CDCTEST”开头的表名
正则表达式(排除):非必填项,过滤符合该正则表达式的表名