生成血缘关系

血缘管理支持的数据源类型为：Kafka、HBase、MySQL、PostgreSQL、ES、达梦、Vertica、Greenplum、Hive、Oracle。如果使用了其他数据源，不会生成血缘关系。

对于DI作业，业务流程中的SparkSQL作业节点、HiveSQL作业节点和RDSSQL作业节点，实时作业，以及数据同步作业，在配置完成并保存后，血缘管理会自动解析作业的信息生成血缘关系。如果解析失败，可通过血缘管理界面的添加血缘或导入功能来手动生成血缘关系。

RDSSQL作业节点中，与DLH数据源相关的SQL不会生成血缘。

创建作业生成血缘

导入血缘

添加血缘

创建作业生成血缘

各类型作业生成血缘关系说明如下：

DI作业

在融合集成的数据集成中，创建DI作业并配置画布后，系统即可生成血缘关系，参考操作步骤如下：

在顶部导航栏中选择[融合集成/数据集成]，进入数据集成页面。

在左侧导航树中选择[作业管理/作业定义]项，进入作业定义页面。

单击<新建作业>按钮，在弹出窗口中配置作业的名称、顺序、所属作业集等信息。配置详细说明请参见[融合集成/数据集成/作业管理/作业定义/新建作业]。

打开新创建的作业，并在作业画布上新建ETL任务，并选择数据抽取组件和数据加载组件（血缘管理支持的组件见表-1）。

配置完成DI作业任务后，单击<保存>按钮，系统即可自动解析生成血缘关系。

DI作业中，如果包含SQL语句，会通过解析SQL获取血缘关系，需要关联支持的SQL解析能力请参见DI任务的SQL解析能力。

表-1 血缘管理支持的DI组件

组件类型	组件
数据抽取组件	表抽取，Kafka抽取，HBase抽取
数据加载组件	加载至表，加载至ES，加载至HBase， GPLoad，插入更新，Oracle批量加载，MySQL批量加载，PostgreSQL批量加载

业务流程-SparkSQL作业节点

在[数据运营/数据开发]的调度中心中，创建业务流程，并在画布中添加并配置SparkSQL作业节点后，系统即可生成血缘关系，参考操作步骤如下：

在顶部导航栏中选择[数据运营/数据开发]，进入数据开发页面。

在左侧导航树中选择[调度中心]项，进入调度中心页面。

创建业务流程，并编辑业务画布，画布中增加SparkSQL业务节点，编辑SQL语句并配置各参数。

配置完成后，单击<保存>按钮，系统即可自动解析生成血缘关系。

血缘管理支持的SQL解析能力与当前SparkSQL版本所支持的SQL能力相同。

业务流程-HiveSQL作业节点

在[数据运营/数据开发]的调度中心中，创建业务流程，并在画布中添加并配置HiveSQL作业节点后，系统即可生成血缘关系，参考操作步骤如下：

在顶部导航栏中选择[数据运营/数据开发]，进入数据开发页面。

在左侧导航树中选择[调度中心]项，进入调度中心页面。

创建业务流程，并编辑业务画布，画布中增加HiveSQL业务节点，编辑SQL语句并配置各参数。

配置完成后，单击<保存>按钮，系统即可自动解析生成血缘关系。

血缘管理支持的SQL解析能力与当前Hive版本所支持的SQL能力相同。

业务流程-RDSSQL节点任务

在[数据运营/数据开发]的调度中心中，创建业务流程，并在画布中添加并配置RDSSQL作业节点后，系统即可生成血缘关系，参考操作步骤如下：

在顶部导航栏中选择[数据运营/数据开发]，进入数据开发页面。

在左侧导航树中选择[调度中心]项，进入调度中心页面。

创建业务流程，并编辑业务画布，画布中增加RDSSQL业务节点，编辑SQL语句并配置各参数。

配置完成后，单击<保存>按钮，系统即可自动解析生成血缘关系。

血缘管理支持的SQL解析能力与当前RDSSQL版本所支持的SQL能力相同。

实时作业

在[数据运营/数据开发]的作业开发中，创建实时作业并保存配置后，系统即可生成血缘关系，参考操作步骤如下：

在顶部导航栏中选择[数据运营/数据开发]，进入数据开发页面。

在左侧导航树中选择[作业开发/作业管理]项，进入作业管理页面。

创建实时作业，并根据不同类型的实时作业编辑业务画布或编辑SQL语句，并配置各参数。

配置完成后，单击<保存>按钮，系统即可自动解析生成血缘关系。

同步任务

在[数据运营/数据开发]的作业开发中，创建数据同步作业并保存配置后，系统即可生成血缘关系，参考操作步骤如下：

在顶部导航栏中选择[数据运营/数据开发]，进入数据开发页面。

在左侧导航树中选择[作业开发/作业管理]项，进入作业管理页面。

创建数据同步作业，配置字段映射等参数。

配置完成后，单击<保存>按钮，系统即可自动解析生成血缘关系。

导入血缘

血缘管理支持用户使用Excel配置血缘数据，并导入到系统中，生成对应的血缘关系。

导入血缘的操作步骤如下：

下载模板并编辑血缘数据。

在血缘管理页面中，单击右上角的<模板下载>按钮，下载血缘Excel模板文件。

根据模板编辑血缘数据。模板文件中表头中包含“可空”，表示该项为选填项，可以不填写。对于PostgreSQL，达梦，Greenplum，Vertica数据源，数据源模式为必填项，其他数据源可以不填。

导入编辑好的血缘数据，生成血缘关系。

在血缘管理页面中，单击右上角的<导入>按钮，弹出导入窗口。

单击<上传文件>按钮，上传Excel文件，文件大小不能超过200MB。

单击<确定>按钮，即可导入血缘数据。

关于导入文件的说明：

对于导入的血缘关系，除DI任务外，系统会校验其他类型的作业是否已在系统中创建。

对于导入文件中，作业的名称格式请参照表-2所示录入，以便于系统正确识别。

表-2 不同类型的作业名称格式如下

作业类型	名称格式	示例
DI任务	“工作空间名”_”作业名”_”任务名”	defaultWorkpsace_job1_task1
同步作业	“作业名”	job1
实时作业	“作业名”	job1
业务流程-SparkSQL节点任务	“业务流程名”-“节点名”	sparksql-taks1
业务流程-HiveSQL节点任务	“业务流程名”-“节点名”	hivesql-task1
业务流程-RDSSQL节点任务	“业务流程名”-“节点名”	rdssql-task1
数据开发任务	“任务名称”-“版本”	devtask-1.1

添加血缘

在血缘管理的血缘展示区域中提供了添加血缘功能，可以手动修改表的血缘关系。手动修改后，通过作业自动创建的血缘不再更新。

当搜索类型为“表”时，点击添加血缘图标，在弹出窗口中，选择数据源类型，数据源名称，表名和作业来源，然后单击<确定>按钮，保存该血缘。

搜索类型为“作业”时，点击添加血缘图标，在弹出窗口中，选择数据源类型，数据源名称和表名，然后单击<确定>按钮，保存该血缘。