各类型的数据源为:MySQL、Oracle、PostgreSQL、Greenplum、HBase、Elasticsearch、Hive2(Embedded Http)、DLH、DRDS、SQL Server、SeaSQL_MPP、达梦、Vertica、ClickHouse,各数据源统计方式说明如下。
部分类型数据源的统计周期需要在数据资产模块下概览页面中,单击右上角的<统计管理>按钮,在统计管理页面中配置,该配置需要使用超级管理员admin用户进行配置。 对于名称中包含某些特殊字符的表,不支持进行数据统计。特殊字符包括:斜杠“/”,反斜杠“\”,连续多个斜杠(例如“//”),连续多个反斜杠(例如“\\”)。建议在建表时按照通用标识符规范建表,即表名和字段名只包含英文字母,数字,下划线,以免数据无法被统计。 |
支持MySQL作为数据源进行统计。在创建MySQL数据源时,不建议使用mysql系统库作为该数据源连接的数据库,因为系统不支持对该库进行数据统计。如需使用该库作为数据源连接的数据库,则该库的数据不会被统计。
统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。
统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
支持Oracle作为数据源进行统计。
统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。
统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
支持PostgreSQL作为数据源进行统计。
统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。
统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
支持Greenplum作为数据源进行统计。
统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。
统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
支持达梦作为数据源进行统计。
统计该数据源所属数据库连接下所有库中的数据,按照表维度进行统计,数据字段、数据存储量是查询字典表的结果,数据条数是使用count(*)进行统计的,结果较准确,但存在统计耗时时间长,影响性能等问题。
统计周期:需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
支持Vertica作为数据源进行统计。
统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据存储量、数据条数均是查询字典表的结果。
统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
支持Elasticsearch作为数据源进行统计。
统计该数据源下表管理的所有表的数据,数据字段根据元数据存储的表字段汇总得到,数据条数、数据存储量是通过esClient的连接去对应的es数据库拿到返回的统计结果。
统计周期:需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
支持HBase作为数据源进行统计。
通过[数据开发/作业开发/任务管理]中的内置作业:Hbase数据统计,可对HBase数据源进行统计。数据字段通过元数据存储的表字段进行统计,数据条数是通过执行MR任务统计获取的,数据存储量是通过统计HBase在HDFS上创建的文件的大小获取的。
统计周期:可以通过在业务流程中对包含Hbase数据统计的作业配置调度周期进行周期统计。
支持Hive2(Embedded Http)作为数据源进行统计。
统计该数据源下表管理的所有表的数据,数据字段根据元数据存储的表字段汇总得到,数据条数、数据存储量是通过查询Hive元数据库得到统计结果。
统计周期:需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
Hive元数据表中的统计结果是通过执行相关SQL进行统计的。当“HIVE/DLH元数据是否统计”配置为true时,由于Hive元数据进行统计时会在YARN上启动MapReduce任务,会对数据开发中查看作业日志造成一定影响,为避免此问题,可在设置“HIVE/DLH元数据统计周期”时适当延长该统计周期。 |
支持DLH作为数据源进行统计。
统计该数据源下表管理的所有表的数据,数据字段根据元数据存储的表字段汇总得到,数据条数、数据存储量是通过查询DLH元数据库得到统计结果。
统计周期:需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
DLH元数据表中的统计结果是通过执行相关SQL进行统计的。当“HIVE/DLH元数据是否统计”配置为true时,由于DLH元数据进行统计时会在YARN上启动MapReduce任务,会对数据开发中查看作业日志造成一定影响,为避免此问题,可在设置“HIVE/DLH元数据统计周期”时适当延长该统计周期。 |
支持DRDS作为数据源进行统计。
统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。
统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
支持SQLServer作为数据源进行统计。
统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。
统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
支持SeaSQL_MPP作为数据源进行统计。
统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计,数据字段、数据条数、数据存储量均是查询字典表的结果。
统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。
支持ClickHouse作为数据源进行统计。
统计该数据源所属数据库连接下的所有库的数据,按照表维度进行统计。ClickHouse数据源的表分为分布式表和本地表:分布式表数据条数是count(*)查询的结果,数据存储量是本地表存储量相加的结果,数据字段是查询字典表的结果;本地表的数据字段、数据条数、数据存储量均是查询字典表的结果。
统计周期:在建立数据源时会立即统计一次数据,之后的统计周期需要在绿洲平台的[数据运营/数据资产]模块下概览页面的统计管理功能中配置“支持的数据库类型统计周期”,周期的配置格式为cron表达式。