各类型数据源的统计方式

各类型的数据源为:MySQLOraclePostgreSQLGreenplumHBaseElasticsearchHive2(Embedded Http)DLHDRDSSQL ServerSeaSQL_MPP、达梦、VerticaClickHouse,各数据源统计方式说明如下。

部分类型数据源的统计周期需要在数据资产模块下概览页面中,单击右上角的<统计管理>按钮,在统计管理页面中配置,该配置需要使用超级管理员admin用户进行配置。

对于名称中包含某些特殊字符的表,不支持进行数据统计。特殊字符包括:斜杠“/,反斜杠“\”,连续多个斜杠(例如“//”),连续多个反斜杠(例如“\\”)。建议在建表时按照通用标识符规范建表,即表名和字段名只包含英文字母,数字,下划线,以免数据无法被统计。

 

MySQL

支持MySQL作为数据源进行统计。在创建MySQL数据源时,不建议使用mysql系统库作为该数据源连接的数据库,因为系统不支持对该库进行数据统计。如需使用该库作为数据源连接的数据库,则该库的数据不会被统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

Oracle

支持Oracle作为数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

PostgreSQL

支持PostgreSQL作为数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

Greenplum

支持Greenplum作为数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

达梦

支持达梦作为数据源进行统计。

统计该数据源所属数据库连接下所有库中的数据,按照表维度进行统计,数据字段、数据存储量是查询字典表的结果,数据条数是使用count(*)进行统计的,结果较准确,但存在统计耗时时间长,影响性能等问题。

统计周期:需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

Vertica

支持Vertica作为数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据存储量、数据条数均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

Elasticsearch

支持Elasticsearch作为数据源进行统计。

统计该数据源下表管理的所有表的数据,数据字段根据元数据存储的表字段汇总得到,数据条数、数据存储量是通过esClient的连接去对应的es数据库拿到返回的统计结果。

统计周期:需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

HBase

支持HBase作为数据源进行统计。

通过[数据开发/作业开发/任务管理]中的内置作业:Hbase数据统计,可对HBase数据源进行统计。数据字段通过元数据存储的表字段进行统计,数据条数是通过执行MR任务统计获取的,数据存储量是通过统计HBaseHDFS上创建的文件的大小获取的。

统计周期:可以通过在业务流程中对包含Hbase数据统计的作业配置调度周期进行周期统计。

Hive2(Embedded Http)

支持Hive2(Embedded Http)作为数据源进行统计。

统计该数据源下表管理的所有表的数据,数据字段根据元数据存储的表字段汇总得到,数据条数、数据存储量是通过查询Hive元数据库得到统计结果。

统计周期:需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

Hive元数据表中的统计结果是通过执行相关SQL进行统计的。当“HIVE/DLH元数据是否统计”配置为true时,由于Hive元数据进行统计时会在YARN上启动MapReduce任务,会对数据开发中查看作业日志造成一定影响,为避免此问题,可在设置“HIVE/DLH元数据统计周期”时适当延长该统计周期。

 

DLH

支持DLH作为数据源进行统计。

统计该数据源下表管理的所有表的数据,数据字段根据元数据存储的表字段汇总得到,数据条数、数据存储量是通过查询DLH元数据库得到统计结果。

统计周期:需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

DLH元数据表中的统计结果是通过执行相关SQL进行统计的。当“HIVE/DLH元数据是否统计”配置为true时,由于DLH元数据进行统计时会在YARN上启动MapReduce任务,会对数据开发中查看作业日志造成一定影响,为避免此问题,可在设置“HIVE/DLH元数据统计周期”时适当延长该统计周期。

 

DRDS

支持DRDS作为数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

SQLServer

支持SQLServer作为数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

SeaSQL_MPP

支持SeaSQL_MPP作为数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。

ClickHouse

支持ClickHouse作为数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计。ClickHouse数据源的表分为分布式表和本地表:分布式表数据条数是count(*)查询的结果,数据存储量是本地表存储量相加的结果,数据字段是查询字典表的结果;本地表的数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。