各类型数据源的统计方式

十种类型的数据源为:MySQLOraclePostgreSQLGreenplumKafkaHBaseElasticsearchHive2(Embedded Http)、达梦和Vertica5,各数据源统计方式说明如下。

MySQL

支持MySQL作为外部数据源及内部数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

在对该数据源没有进行元数据采集时,仅对表管理所有的表进行数据统计,若执行元数据采集任务后,则对采集到该数据源下的所有表进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

Oracle

支持Oracle作为外部数据源及内部数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

在对该数据源没有进行元数据采集时,仅对表管理所有的表进行数据统计,若执行元数据采集任务后,则对采集到该数据源下的所有表进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

PostgreSQL

支持PostgreSQL作为外部数据源及内部数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

在对该数据源没有进行元数据采集时,仅对表管理所有的表进行数据统计,若执行元数据采集任务后,则对采集到该数据源下的所有表进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

Greenplum

支持Greenplum作为外部数据源及内部数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

在对该数据源没有进行元数据采集时,仅对表管理所有的表进行数据统计,若执行元数据采集任务后,则对采集到该数据源下的所有表进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。

统计周期:统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

达梦

仅支持达梦作为内部数据源进行统计。

在对该数据源没有进行元数据采集时,仅对表管理所有的表进行数据统计,若执行元数据采集任务后,则对采集到该数据源下的所有表进行统计,数据字段、数据存储量是查询字典表的结果,数据条数是使用count(*)进行统计的,结果较准确,但存在统计耗时时间长,影响性能等问题。

统计周期:统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

Vertica5

支持Vertica5作为外部数据源及内部数据源进行统计。

统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据存储量是查询字典表的结果,数据条数是使用count(*)进行统计的,结果较准确,但存在统计耗时时间长,影响性能等问题。

统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

统计周期:统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置关系型数据库统计周期,周期的间隔时间单位为分钟。

Elasticsearch

仅支持Elasticsearch作为内部数据源进行统计。

统计该数据源下表管理的所有表的数据,数据字段根据元数据存储的表字段汇总得到,数据条数、数据存储量是通过esClient的连接去对应的es数据库拿到返回的统计结果。

统计周期:统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置非关系型数据库统计周期,周期的间隔时间单位为分钟。

Kafka

仅支持Kafka作为内部数据源进行统计。

统计该数据源下表管理的所有表的数据,数据字段根据元数据存储的表字段汇总得到,数据条数是通过Kafka Consumer以及分区Partition拿到Kafka的偏移数据量获取的,Kafka无法获取数据存储量的统计结果,所以kafka无该统计指标。

统计周期:统计周期需要在数据运营平台的[系统管理/参数配置]页面中配置非关系型数据库统计周期,周期的间隔时间单位为分钟。

HBase

仅支持HBase作为内部数据源进行统计。

通过[数据开发/作业开发/任务管理]中的内置作业:Hbase数据统计,可对HBase数据源进行统计。数据字段通过元数据存储的表字段进行统计,数据条数是通过执行MR任务统计获取的,数据存储量是通过统计HBaseHDFS上创建的文件的大小获取的。

统计周期:统计周期可以通过对业务开发中的作业添加调度周期进行周期统计。

Hive2(Embedded Http)

仅支持Hive2(Embedded Http)作为内部数据源进行统计。

通过[数据开发/作业开发/任务管理]中的内置作业: Hive数据统计,可对Hive数据源进行统计。数据字段通过元数据存储的表字段进行统计,数据条数是通过执行count(*)统计获取的,数据存储量是通过统计HiveHDFS上创建的文件的大小获取的。

统计周期:统计周期可以通过对业务开发中的作业添加调度周期进行周期统计。