生成血缘关系

血缘管理支持的数据源类型为:KafkaHBaseMySQLPostgreSQLES、达梦、VerticaGreenplumHiveOracle。如果使用了其他数据源,不会生成血缘关系。

对于DI作业,业务流程中的SparkSQL作业节点、HiveSQL作业节点和RDSSQL作业节点,实时作业,以及数据同步作业,在配置完成并保存后,血缘管理会自动解析作业的信息生成血缘关系。如果解析失败,可通过血缘管理界面的添加血缘或导入功能来手动生成血缘关系。

RDSSQL作业节点中,与DLH数据源相关的SQL不会生成血缘。

 

创建作业生成血缘

各类型作业生成血缘关系说明如下:

DI作业

在融合集成的数据集成中,创建DI作业并配置画布后,系统即可生成血缘关系,参考操作步骤如下:

  1. 在顶部导航栏中选择[融合集成/数据集成],进入数据集成页面。

  1. 在左侧导航树中选择[作业管理/作业定义]项,进入作业定义页面。

  1. 单击<新建作业>按钮,在弹出窗口中配置作业的名称、顺序、所属作业集等信息。配置详细说明请参见[融合集成/数据集成/作业管理/作业定义/新建作业]

  1. 打开新创建的作业,并在作业画布上新建ETL任务,并选择数据抽取组件和数据加载组件(血缘管理支持的组件见-1)。

  1. 配置完成DI作业任务后,单击<保存>按钮,系统即可自动解析生成血缘关系。

DI作业中,如果包含SQL语句,会通过解析SQL获取血缘关系,需要关联支持的SQL解析能力请参见DI任务的SQL解析能力

表-1 血缘管理支持的DI组件

组件类型

组件

数据抽取组件

表抽取,Kafka抽取,HBase抽取

数据加载组件

加载至表,加载至ES,加载至HBase GPLoad,插入更新,Oracle批量加载,MySQL批量加载,PostgreSQL批量加载

 

业务流程-SparkSQL作业节点

[数据运营/数据开发]的调度中心中,创建业务流程,并在画布中添加并配置SparkSQL作业节点后,系统即可生成血缘关系,参考操作步骤如下:

  1. 在顶部导航栏中选择[数据运营/数据开发],进入数据开发页面。

  1. 在左侧导航树中选择[调度中心]项,进入调度中心页面。

  1. 创建业务流程,并编辑业务画布,画布中增加SparkSQL业务节点,编辑SQL语句并配置各参数。

  1. 配置完成后,单击<保存>按钮,系统即可自动解析生成血缘关系。

血缘管理支持的SQL解析能力与当前SparkSQL版本所支持的SQL能力相同。

业务流程-HiveSQL作业节点

[数据运营/数据开发]的调度中心中,创建业务流程,并在画布中添加并配置HiveSQL作业节点后,系统即可生成血缘关系,参考操作步骤如下:

  1. 在顶部导航栏中选择[数据运营/数据开发],进入数据开发页面。

  1. 在左侧导航树中选择[调度中心]项,进入调度中心页面。

  1. 创建业务流程,并编辑业务画布,画布中增加HiveSQL业务节点,编辑SQL语句并配置各参数。

  1. 配置完成后,单击<保存>按钮,系统即可自动解析生成血缘关系。

血缘管理支持的SQL解析能力与当前Hive版本所支持的SQL能力相同。

业务流程-RDSSQL节点任务

[数据运营/数据开发]的调度中心中,创建业务流程,并在画布中添加并配置RDSSQL作业节点后,系统即可生成血缘关系,参考操作步骤如下:

  1. 在顶部导航栏中选择[数据运营/数据开发],进入数据开发页面。

  1. 在左侧导航树中选择[调度中心]项,进入调度中心页面。

  1. 创建业务流程,并编辑业务画布,画布中增加RDSSQL业务节点,编辑SQL语句并配置各参数。

  1. 配置完成后,单击<保存>按钮,系统即可自动解析生成血缘关系。

血缘管理支持的SQL解析能力与当前RDSSQL版本所支持的SQL能力相同。

实时作业

[数据运营/数据开发]的作业开发中,创建实时作业并保存配置后,系统即可生成血缘关系,参考操作步骤如下:

  1. 在顶部导航栏中选择[数据运营/数据开发],进入数据开发页面。

  1. 在左侧导航树中选择[作业开发/作业管理]项,进入作业管理页面。

  1. 创建实时作业,并根据不同类型的实时作业编辑业务画布或编辑SQL语句,并配置各参数。

  1. 配置完成后,单击<保存>按钮,系统即可自动解析生成血缘关系。

同步任务

[数据运营/数据开发]的作业开发中,创建数据同步作业并保存配置后,系统即可生成血缘关系,参考操作步骤如下:

  1. 在顶部导航栏中选择[数据运营/数据开发],进入数据开发页面。

  1. 在左侧导航树中选择[作业开发/作业管理]项,进入作业管理页面。

  1. 创建数据同步作业,配置字段映射等参数。

  1. 配置完成后,单击<保存>按钮,系统即可自动解析生成血缘关系。

导入血缘

血缘管理支持用户使用Excel配置血缘数据,并导入到系统中,生成对应的血缘关系。

导入血缘的操作步骤如下:

  1. 下载模板并编辑血缘数据。

  1. 在血缘管理页面中,单击右上角的<模板下载>按钮,下载血缘Excel模板文件。

  1. 根据模板编辑血缘数据。模板文件中表头中包含“可空”,表示该项为选填项,可以不填写。对于PostgreSQL,达梦,GreenplumVertica数据源,数据源模式为必填项,其他数据源可以不填。

  1. 导入编辑好的血缘数据,生成血缘关系。

  1. 在血缘管理页面中,单击右上角的<导入>按钮,弹出导入窗口。

  1. 单击<上传文件>按钮,上传Excel文件,文件大小不能超过200MB

  1. 单击<确定>按钮,即可导入血缘数据。

关于导入文件的说明:

表-2 不同类型的作业名称格式如下

作业类型

名称格式

示例

DI任务

工作空间名”_”作业名”_”任务名

defaultWorkpsace_job1_task1

同步作业

作业名

job1

实时作业

作业名

job1

业务流程-SparkSQL节点任务

业务流程名”-“节点名

sparksql-taks1

业务流程-HiveSQL节点任务

业务流程名”-“节点名

hivesql-task1

业务流程-RDSSQL节点任务

业务流程名”-“节点名

rdssql-task1

数据开发任务

任务名称”-“版本

devtask-1.1

 

添加血缘

在血缘管理的血缘展示区域中提供了添加血缘功能,可以手动修改表的血缘关系。手动修改后,通过作业自动创建的血缘不再更新。

当搜索类型为“表”时,点击添加血缘图标,在弹出窗口中,选择数据源类型,数据源名称,表名和作业来源,然后单击<确定>按钮,保存该血缘。

搜索类型为“作业”时,点击添加血缘图标,在弹出窗口中,选择数据源类型,数据源名称和表名,然后单击<确定>按钮,保存该血缘。