血缘管理支持的数据源类型为:Kafka、HBase、MySQL、PostgreSQL、ES、达梦、Vertica、Greenplum、Hive、Oracle。如果使用了其他数据源,不会生成血缘关系。
对于DI作业,业务流程中的SparkSQL作业节点、HiveSQL作业节点和RDSSQL作业节点,实时作业,以及数据同步作业,在配置完成并保存后,血缘管理会自动解析作业的信息生成血缘关系。如果解析失败,可通过血缘管理界面的添加血缘或导入功能来手动生成血缘关系。
RDSSQL作业节点中,与DLH数据源相关的SQL不会生成血缘。 |
各类型作业生成血缘关系说明如下:
在融合集成的数据集成中,创建DI作业并配置画布后,系统即可生成血缘关系,参考操作步骤如下:
在顶部导航栏中选择[融合集成/数据集成],进入数据集成页面。
在左侧导航树中选择[作业管理/作业定义]项,进入作业定义页面。
单击<新建作业>按钮,在弹出窗口中配置作业的名称、顺序、所属作业集等信息。配置详细说明请参见[融合集成/数据集成/作业管理/作业定义/新建作业]。
打开新创建的作业,并在作业画布上新建ETL任务,并选择数据抽取组件和数据加载组件(血缘管理支持的组件见表-1)。
配置完成DI作业任务后,单击<保存>按钮,系统即可自动解析生成血缘关系。
DI作业中,如果包含SQL语句,会通过解析SQL获取血缘关系,需要关联支持的SQL解析能力请参见DI任务的SQL解析能力。
组件类型 |
组件 |
数据抽取组件 |
表抽取,Kafka抽取,HBase抽取 |
数据加载组件 |
加载至表,加载至ES,加载至HBase, GPLoad,插入更新,Oracle批量加载,MySQL批量加载,PostgreSQL批量加载 |
在[数据运营/数据开发]的调度中心中,创建业务流程,并在画布中添加并配置SparkSQL作业节点后,系统即可生成血缘关系,参考操作步骤如下:
在顶部导航栏中选择[数据运营/数据开发],进入数据开发页面。
在左侧导航树中选择[调度中心]项,进入调度中心页面。
创建业务流程,并编辑业务画布,画布中增加SparkSQL业务节点,编辑SQL语句并配置各参数。
配置完成后,单击<保存>按钮,系统即可自动解析生成血缘关系。
血缘管理支持的SQL解析能力与当前SparkSQL版本所支持的SQL能力相同。
在[数据运营/数据开发]的调度中心中,创建业务流程,并在画布中添加并配置HiveSQL作业节点后,系统即可生成血缘关系,参考操作步骤如下:
在顶部导航栏中选择[数据运营/数据开发],进入数据开发页面。
在左侧导航树中选择[调度中心]项,进入调度中心页面。
创建业务流程,并编辑业务画布,画布中增加HiveSQL业务节点,编辑SQL语句并配置各参数。
配置完成后,单击<保存>按钮,系统即可自动解析生成血缘关系。
血缘管理支持的SQL解析能力与当前Hive版本所支持的SQL能力相同。
在[数据运营/数据开发]的调度中心中,创建业务流程,并在画布中添加并配置RDSSQL作业节点后,系统即可生成血缘关系,参考操作步骤如下:
在顶部导航栏中选择[数据运营/数据开发],进入数据开发页面。
在左侧导航树中选择[调度中心]项,进入调度中心页面。
创建业务流程,并编辑业务画布,画布中增加RDSSQL业务节点,编辑SQL语句并配置各参数。
配置完成后,单击<保存>按钮,系统即可自动解析生成血缘关系。
血缘管理支持的SQL解析能力与当前RDSSQL版本所支持的SQL能力相同。
在[数据运营/数据开发]的作业开发中,创建实时作业并保存配置后,系统即可生成血缘关系,参考操作步骤如下:
在顶部导航栏中选择[数据运营/数据开发],进入数据开发页面。
在左侧导航树中选择[作业开发/作业管理]项,进入作业管理页面。
创建实时作业,并根据不同类型的实时作业编辑业务画布或编辑SQL语句,并配置各参数。
配置完成后,单击<保存>按钮,系统即可自动解析生成血缘关系。
在[数据运营/数据开发]的作业开发中,创建数据同步作业并保存配置后,系统即可生成血缘关系,参考操作步骤如下:
在顶部导航栏中选择[数据运营/数据开发],进入数据开发页面。
在左侧导航树中选择[作业开发/作业管理]项,进入作业管理页面。
创建数据同步作业,配置字段映射等参数。
配置完成后,单击<保存>按钮,系统即可自动解析生成血缘关系。
血缘管理支持用户使用Excel配置血缘数据,并导入到系统中,生成对应的血缘关系。
导入血缘的操作步骤如下:
下载模板并编辑血缘数据。
在血缘管理页面中,单击右上角的<模板下载>按钮,下载血缘Excel模板文件。
根据模板编辑血缘数据。模板文件中表头中包含“可空”,表示该项为选填项,可以不填写。对于PostgreSQL,达梦,Greenplum,Vertica数据源,数据源模式为必填项,其他数据源可以不填。
导入编辑好的血缘数据,生成血缘关系。
在血缘管理页面中,单击右上角的<导入>按钮,弹出导入窗口。
单击<上传文件>按钮,上传Excel文件,文件大小不能超过200MB。
单击<确定>按钮,即可导入血缘数据。
关于导入文件的说明:
对于导入的血缘关系,除DI任务外,系统会校验其他类型的作业是否已在系统中创建。
对于导入文件中,作业的名称格式请参照表-2所示录入,以便于系统正确识别。
作业类型 |
名称格式 |
示例 |
DI任务 |
“工作空间名”_”作业名”_”任务名” |
defaultWorkpsace_job1_task1 |
同步作业 |
“作业名” |
job1 |
实时作业 |
“作业名” |
job1 |
业务流程-SparkSQL节点任务 |
“业务流程名”-“节点名” |
sparksql-taks1 |
业务流程-HiveSQL节点任务 |
“业务流程名”-“节点名” |
hivesql-task1 |
业务流程-RDSSQL节点任务 |
“业务流程名”-“节点名” |
rdssql-task1 |
数据开发任务 |
“任务名称”-“版本” |
devtask-1.1 |
在血缘管理的血缘展示区域中提供了添加血缘功能,可以手动修改表的血缘关系。手动修改后,通过作业自动创建的血缘不再更新。
当搜索类型为“表”时,点击添加血缘图标,在弹出窗口中,选择数据源类型,数据源名称,表名和作业来源,然后单击<确定>按钮,保存该血缘。
搜索类型为“作业”时,点击添加血缘图标,在弹出窗口中,选择数据源类型,数据源名称和表名,然后单击<确定>按钮,保存该血缘。