Grafana监控大盘监控指标说明

表-1 Grafana监控大盘监控指标说明

监控类别

所属Row

监控指标

说明

ELASTICSEARCH

Summary

磁盘存储空间

展示集群磁盘总空间、磁盘已使用空间

集群当前查询请求

展示集群两分钟内总查询请求数

实例2分钟查询请求

展示各Elasticsearch实例最近2分钟查询请求数量的最大值、最小值、平均值

集群当前写入请求

展示集群两分钟内总写入请求数

实例2分钟写入请求

展示各Elasticsearch实例最近2分钟写入请求数量的最大值、最小值、平均值

堆内存使用

展示堆内存使用的最大值、最小值、平均值

HDFS

Summary

HDFS DataNode状态统计

展示HDFS DataNode良好、故障个数

HDFS容量

展示HDFS配置总容量、HDFS已使用容量

HDFS文件数量

展示HDFS文件和文件夹总数

HDFS

展示HDFS丢失块数、HDFS损坏块数、HDFS块总数

HDFS读取速率

展示HDFS每分钟读取字节的最大值、最小值、平均值

HDFS写入速率

展示HDFS每分钟写入字节的最大值、最小值、平均值

HDFS总读取块

展示集群DataNode总读取块

HDFS总写入块

展示集群DataNode总写入块

HDFS磁盘刷新时间

展示集群各DataNode平均磁盘刷新时间

HDFS发送数据包传输的平均时间

展示集群各DataNode发送数据包传输的平均时间

HDFS进程CPU负载

展示HDFS CPU用户时间的最大值、最小值、平均值

HDFS进程CPU负载分布

展示集群各DataNode CPU用户时间分布情况

HDFS系统CPU负载

展示HDFS CPU系统时间的最大值、最小值、平均值

HDFS系统CPU负载分布

展示集群各DataNode CPU系统时间分布情况

HDFS已使用堆内存

展示HDFS已使用堆内存的最大值、最小值、平均值

HDFS已使用堆内存分布

展示集群各节点堆内存分布情况

HDFS JVM GC操作数

展示HDFS JVM GC操作数的最大值、最小值、平均值

HDFS JVM GC操作数分布

展示集群各节点HDFS JVM GC操作数分布情况

HDFS JVM GC持续时间分布

展示集群各节点HDFS JVM GC持续时间分布情况

RPC请求处理时间

展示集群RPC请求处理时间的最大值、最小值、平均值

平均RPC处理时间分布

展示集群各节点的平均RPC处理时间分布情况

打开的RPC连接数

展示集群打开的RPC连接数的最大值、最小值、平均值

打开的RPC连接分布

展示集群各节点打开的RPC连接分布情况

RPC每秒接收字节数

展示集群RPC每秒接收字节数的最大值、最小值、平均值

RPC每秒接收字节数的分布

展示集群各节点RPC每秒接收字节数的分布情况

RPC每秒发送字节数

展示集群RPC每秒发送字节数的最大值、最小值、平均值

RPC每秒发送字节数的分布

展示集群各节点RPC每秒发送字节数的分布情况

NameNode已使用堆内存

展示集群NameNode已使用堆内存的最大值、最小值

DataNode IO

Read IO

展示集群各DataNode Read IO

Write IO

展示集群各DataNode Write IO

NameNode JVM

Eden Usage

  • NamenodeEden区使用量

  • NameNodeEden区峰值使用量

Survivor Usage

  • NameNodeSurvivor区使用量

  • NameNodeSurvivor区峰值使用量

Old Usage

  • NameNode的老年代使用量

  • NameNode的老年代峰值使用量

Metaspace Usage

  • NameNodeMetaspace区使用量

  • NameNodeMetaspace区峰值使用量

Gc Count

  • NameNodeYgc次数

  • NameNodeFullGc次数

  • NameNodeGc总次数

DataNode JVM

Eden Usage

  • DataNodeEden区使用量

  • DataNodeEden区峰值使用量

Survivor Usage

  • DataNodeSurvivor区使用量

  • DataNodeSurvivor区峰值使用量

Old Usage

  • DataNodeOld代使用量

  • DataNodeOld代峰值使用量

Metaspace Usage

  • DataNodeMetaspace区使用量

  • DataNodeMetaspace区峰值使用量

Gc Count

  • DataNodeYgc次数

  • DataNodeFullGc次数

  • DataNodeGc总次数

YARN

Summary

Yarn NodeManager状态统计

展示集群YARN NodeManager良好、故障、关闭的个数

Yarn JVM GC总操作数

展示集群各节点YARN JVM GC总操作数分布情况

YARN Container信息

展示集群YARN Container正在运行和待分配资源情况

YARN 启动Container

展示集群YARN启动Container数目

YARN内存信息

展示集群YARN总内存、Yarn已使用内存

YARN已分配的内存

展示集群YARN已分配内存的最大值、最小值、平均值

YARN VCore数量

展示集群YARN可使用Vcore数量、Yarn已使用Vcore数量

YARN Vcore分配情况

展示集群YARN Vcore分配情况

Yarn平均使用JVM堆内存

展示集群YARN平均使用JVM堆内存的最大值、最小值、平均值

Yarn总使用JVM内存

展示集群所有NodeManager中已使用总堆内存

Yarn JVM GC操作数

展示集群YARN JVM GC操作数的最大值、最小值、平均值

YARN Application信息

展示集群YARN Application运行中、等待中、失败个数

ResourceManager JVM

Eden Usage

  • ResourceManagerEden区使用量

  • ResourceManagerEden区峰值使用量

Survivor Usage

  • ResourceManagerSurvivor区使用量

  • ResourceManagerSurvivor区峰值使用量

Old Usage

  • ResourceManager的老年代使用量

  • ResourceManager的老年代峰值使用量

Metaspace Usage

  • ResourceManagerMetaspace区峰值使用量

  • ResourceManagerMetaspace区峰值使用量

Gc Count

  • ResourceManagerYgc次数

  • ResourceManagerFullGc次数

  • ResourceManagerGc总次数

NodeManager JVM

Eden Usage

  • NodeManagerEden区使用量

  • NodeManagerEden区峰值使用量

Survivor Usage

  • NodeManagerSurvivor区使用量

  • NodeManagerSurvivor峰值使用量

Old Usage

  • NodeManager的老年代使用量

  • NodeManager的老年代峰值使用量

Metaspace Usage

  • NodeManagerMetaspace区使用量

  • NodeManagerMetaspace区峰值使用量

Gc Count

  • NodeManagerYgc次数

  • NodeManagerFullGc次数

  • NodeManagerGc总次数

HIVE

Summary

Hive表分区数TOP5

展示分区数最多的5张表

平均使用JVM堆内存

展示各HiveServer实例使用堆内存最大值、最小值、平均值

总使用JVM堆内存

展示各个HiveServer实例使用堆内存总和

HiveMetaStore

Metastore使用内存统计

展示集群 hiveMetaStore内存使用量

Metastore Api执行次数统计

展示集群使用过程中调用MetaStore Api的总次数

Add_partitions_req_api执行情况

展示集群使用过程中调用添加分区接口的总次数

Create_table_api执行情况

展示集群使用过程中调用创建表接口的总次数

Drop_partitions_req_api执行情况

展示集群使用过程中调用删除分区接口的总次数

Metastore连接数统计

展示集群所有MetaStore的总连接数

HiveServer

Background线程数

展示集群Background 的总线程数

Hiveserver进程使用的内存统计

展示集群HiveServer的内存使用量

Hive执行成功的HQL命令数

展示集群执行HQL时执行成功的总命令数

Hive执行成功的HQL百分比

展示集群执行HQL时执行成功的百分比

Hiveserversession数统计

展示集群所有HiveServer的会话总数

Hiveserver的连接数统计

展示集群所有HiveServer的总连接数

Mapreduce任务数统计

展示集群运行过程中的mapreduce任务数

Hive on Spark任务数统计

展示集群运行过程中的hive on spark任务数

HiveServer JVM

Eden Usage

  • HiveServerEden区使用量

  • HiveServerEden区峰值使用量

Survivor Usage

  • HiveServerSurvivor区使用量

  • HiveServerSurvivor区峰值使用量

Old Usage

  • HiveServer的老年代使用量

  • HiveServer的老年代峰值使用量

Metaspace Usage

  • HiveServerMetaspace区使用量

  • HiveServerMetaspace区峰值使用量

ZOOKEEPER

Summary

ZooKeeper总打开连接

展示集群所有Server总打开连接数

Server打开连接

展示集群打开连接数的最大值、最小值、平均值

FILNK

Summary

Flink执行任务数统计

展示集群Flink执行任务数总和

Flink任务使用内存统计

展示集群link任务使用内存总和

Flink任务使用内存百分比

展示集群Flink任务使用内存占用全部内存的百分比

Flink任务使用CPU统计

展示集群Flink任务使用CPU总和

Flink任务使用CPU百分比

展示集群Flink任务使用CPU占用全部CPU的百分比

HBASE

Summary

HBase 存储空间

展示集群HBase表占用总存储空间

HBase Region数量

展示集群HBase Region数量的最大值、最小值、平均值

HBase Region总数量

展示集群HBase Region总数量

HBase存储文件数量

展示集群HBase存储文件总个数

HBase5分钟Get请求数

展示各RegionServer最近5分钟Get请求数的最大值、最小值、平均值

HBase5分钟写入请求数

展示各RegionServer最近5分钟写入请求数的最大值、最小值、平均值

HBaseRegionTOP5

展示Region数最多的5张表及其Region数量

HBase5分钟DELETE操作数

RegionServer最近5分钟DELETE操作数的最大值、最小值、平均值

HBase 平均使用JVM堆内存

展示集群HBase 平均使用JVM堆内存

HBase 总使用JVM堆内存

展示集群所有RegionServer中已使用总堆内存

HBase5分钟JVM GC操作数

展示各RegionServer最近5分钟JVM GC操作数的最大值、最小值、平均值

HBase5分钟JVM GC时间

展示各RegionServer最近5分钟JVM GC时间最大值、最小值、平均值

HBase Master5分钟JVM GC操作数

展示HBase Master最近5分钟JVM GC操作数

HBase Master5分钟JVM GC时间

展示HBase Master最近5分钟JVM GC时间

HBase 平均块缓存大小

展示集群HBase 平均块缓存大小的最大值、最小值、平均值

HBase 总块缓存大小

展示集群所有RegionServer的总块缓存大小

HBase 平均块缓存命中计数

展示集群HBase 平均块缓存命中计数的最大值、最小值、平均值

HBase 总块缓存命中数

展示集群所有RegionServer的总块缓存命中数

HBase 平均块缓存命中率

展示集群HBase 平均块缓存命中率的最大值、最小值、平均值

System

SystemCpuLoad

HBaseRegionServerSystemCpuLoad

ProcessCpuLoad

HBaseRegionServerProcessCpuLoad

PauseTimeWithGc_max

HBaseRegionServer的最大Gc停顿时间

ThreadCount

HBaseRegionServerThreadCount

ThreadsNew

HBaseRegionServerThreadsNew

Queue

CompactionQueueLength

HBaseRegionServercompactionQueue长度

SmallCompactionQueueLength

HBaseRegionServersmallCompactionQueue长度

SplitQueueLength

HBaseRegionServersplitQueue长度

CompactionTime_max

HBaseRegionServer的最大CompactionTime

FlushQueueLength

HBaseRegionServerflushQueue长度

LargeCompactionQueueLength

HBaseRegionServerlargeCompactionQueueLength

RegionServer IO

FsPReadTime_max

HBaseRegionServer的最大FsPReadTime

FsWriteTime_max

HBaseRegionServer的最大+FsWriteTime

FsReadTime_max

HBaseRegionServer的最大FsReadTime

ScanTime_max

HBaseRegionServer的最大ScanTime

IPC

NumActiveHandler

HBaseRegionServerActiveHandler

NumActiveReadHandler

HBaseRegionServerActiveReadHandler

NumActiveWriteHandler

HBaseRegionServerActiveWriteHandler

NumActiveScanHandler

HBaseRegionServerActiveScanHandler

NumCallsInGeneralQueue

HBaseRegionServerCallsInGeneralQueue

QueueCallTime_max

HBaseRegionServer的最大QueueCallTime

TotalCallTime_max

HBaseRegionServer的最大TotalCallTime

ProcessCallTime_max

HBaseRegionServer的最大ProcessCallTime

ResponseSize_max

HBaseRegionServer的最大ResponseSize

NumOpenConnections

HBaseRegionServerOpenConnections

NumOpenConnections

HBaseRegionServerOpenConnections

NumCallsInReadQueue

HBaseRegionServerCallsInReadQueue

NumCallsInScanQueue

HBaseRegionServerCallsInScanQueue

ResponseSize_max

HBaseRegionServer的最大ResponseSize

NumCallsInGeneralQueue

HBaseRegionServerCallsInGeneralQueue

NumGeneralCallsDropped

HBaseRegionServerGeneralCallsDropped

NumCallsInWriteQueue

HBaseRegionServerCallsInWriteQueue

Request

ReadRequestCount_persec

HBaseRegionServer的每秒readRequest

WriteRequestCount_persec

HBaseRegionServer的每秒writeRequest

TotalRequestCount_persec

HBaseRegionServer的每秒totalRequest

HBase Master JVM

Eden Usage

  • HBaseMasterEden区使用量

  • HBaseMasterEden区峰值使用量

Survivor Usage

  • HBaseMasterSurvivor区使用量

  • HBaseMasterSurvivor区峰值使用量

Old Usage

  • HBaseMaster中老年代使用量

  • HBaseMaster中老年代峰值使用量

Metaspace Usage

  • HBaseMasterMetaspace区使用量

  • HBaseMasterMetaspace区峰值使用量

Gc Count

  • HBaseMasterYgc次数

  • HBaseMasterFullGc次数

  • HBaseMasterGc总次数

RegionServer JVM

Eden Usage

  • HBaseRegionServerEden区使用量

  • HBaseRegionServerEden区峰值使用量

Survivor Usage

  • HBaseRegionServerSurvivor区使用量

  • HBaseRegionServerSurvivor区峰值使用量

Old Usage

  • HBaseRegionServer的老年代使用量

  • HBaseRegionServer的老年代峰值使用量

Metaspace Usage

  • HBaseRegionServerMetaspace区使用量

  • HBaseRegionServerMetaspace区峰值使用量

Gc Count

  • HBaseRegionServerYgc次数

  • HBaseRegionServerFullGc次数

  • HBaseRegionServerGc总次数

SPARK

Summary

Spark执行任务数统计

展示集群Spark执行任务的总数

Spark任务使用内存统计

展示集群Spark任务使用内存总和

Spark任务使用内存百分比

展示集群Spark任务使用内存占用全部内存的百分比

Spark任务使用CPU统计

展示集群Spark任务使用CPU总和

Spark任务使用CPU百分比

展示集群Spark任务使用CPU占用全部CPU的百分比

REDIS

Summary

集群键个数

展示集群Redis集群键总数

实例平均使用内存

展示集群Redis实例平均使用内存

集群使用内存

展示集群Redis内存使用总量

Redis客户端活跃连接总数

展示Redis集群客户端活跃连接总数

Redis各实例2分钟内每秒命令处理数

展示Redis集群各实例2分钟内平均每秒命令处理数

Redis Fork时间

展示Redis集群持久化时间

KAFKA

Summary

平均每秒消息写入数

展示集群kafka平均每秒消息写入数的最大值、最小值、平均值

从客户端输入流量

展示集群从客户端输入流量的最大值、最小值、平均值

向客户端输出流量

展示集群向客户端输出流量的最大值、最小值、平均值

平均每秒Fetch请求失败数

展示集群kafka平均每秒Fetch请求失败数的最大值、最小值、平均值

平均每秒生产请求失败数

展示集群平均每秒生产请求失败数的最大值、最小值、平均值

平均每秒需转换格式的消息数

展示集群平均每秒需转换格式的消息数的最大值、最小值、平均值

平均每秒Fetch请求数

展示集群平均每秒Fetch请求数的最大值、最小值、平均值

平均每秒生产请求数

展示集群平均每秒生产请求数的最大值、最小值、平均值

从其它broker输入流量

展示集群从其它broker输入流量的最大值、最小值、平均值

向其它broker输出流量

展示集群向其它broker输出流量的最大值、最小值、平均值

ClickHouse

Summary

上下文锁等待的个数

展示ClickHouse上下文等待锁的线程个数

HTTP 连接个数

展示连接至ClickHouse HTTP服务端的连接个数

TCP 连接个数

展示连接至ClickHouse TCP服务端的连接个数,包含server间分布式查询的连接

Insert 执行个数

展示ClickHouse Server服务端每分钟插入数据的条数

Merge 消耗时间

展示ClickHouse Server后台每分钟Merge任务花费的总时间

Query 个数

展示ClickHouse Server每分钟处理查询的个数

查询线程数

展示ClickHouse Server当前时间的查询线程数

副本块合并个数

展示ClickHouse ReplicatedMergeTree表副本数据块合并的个数

副本块修改个数

展示ClickHouse ReplicatedMergeTree表副本数据块修改的个数

插入失败数

展示ClickHouse insert语句每分钟执行失败的条数

查询失败数

展示ClickHouse Select语句每分钟执行失败的条数

合并数

展示ClickHouse后台Merge任务花费的总时间

ZK 请求数

展示ClickHouse当前时间请求ZK请求数

ZK session 个数

展示ClickHouse当前时间节点连接ZKsession个数

Zk watch 个数

展示ClickHouse当前时间节点连接ZKwatch个数

NODE

Usage

CPU Usage

展示主机CPU使用率

Memory Usage

展示主机内存使用率

NETWORK

NETWORK IO

  • 主机网络每秒发送字节数

  • 主机网络每秒接收字节数

NETWORK ERR

  • 主机网络每秒发送错误数

  • 主机网络每秒接收数

DISK

磁盘IOPS

  • 主机磁盘读iops

  • 主机磁盘写iops

磁盘带宽

  • 主机磁盘读吞吐量

  • 主机磁盘写吞吐量

磁盘IO延迟

  • 主机磁盘读延迟

  • 主机磁盘写延迟

主机磁盘数量

展示各主机的磁盘数量