表-1 Grafana监控大盘监控指标说明
|
监控类别 |
所属Row |
监控指标 |
说明 |
|
ELASTICSEARCH |
Summary |
磁盘存储空间 |
展示集群磁盘总空间、磁盘已使用空间 |
|
集群当前查询请求 |
展示集群两分钟内总查询请求数 |
||
|
实例2分钟查询请求 |
展示各Elasticsearch实例最近2分钟查询请求数量的最大值、最小值、平均值 |
||
|
集群当前写入请求 |
展示集群两分钟内总写入请求数 |
||
|
实例2分钟写入请求 |
展示各Elasticsearch实例最近2分钟写入请求数量的最大值、最小值、平均值 |
||
|
堆内存使用 |
展示堆内存使用的最大值、最小值、平均值 |
||
|
HDFS |
Summary |
HDFS DataNode状态统计 |
展示HDFS DataNode良好、故障个数 |
|
HDFS容量 |
展示HDFS配置总容量、HDFS已使用容量 |
||
|
HDFS文件数量 |
展示HDFS文件和文件夹总数 |
||
|
HDFS块 |
展示HDFS丢失块数、HDFS损坏块数、HDFS块总数 |
||
|
HDFS读取速率 |
展示HDFS每分钟读取字节的最大值、最小值、平均值 |
||
|
HDFS写入速率 |
展示HDFS每分钟写入字节的最大值、最小值、平均值 |
||
|
HDFS总读取块 |
展示集群DataNode总读取块 |
||
|
HDFS总写入块 |
展示集群DataNode总写入块 |
||
|
HDFS磁盘刷新时间 |
展示集群各DataNode平均磁盘刷新时间 |
||
|
HDFS发送数据包传输的平均时间 |
展示集群各DataNode发送数据包传输的平均时间 |
||
|
HDFS进程CPU负载 |
展示HDFS CPU用户时间的最大值、最小值、平均值 |
||
|
HDFS进程CPU负载分布 |
展示集群各DataNode CPU用户时间分布情况 |
||
|
HDFS系统CPU负载 |
展示HDFS CPU系统时间的最大值、最小值、平均值 |
||
|
HDFS系统CPU负载分布 |
展示集群各DataNode CPU系统时间分布情况 |
||
|
HDFS已使用堆内存 |
展示HDFS已使用堆内存的最大值、最小值、平均值 |
||
|
HDFS已使用堆内存分布 |
展示集群各节点堆内存分布情况 |
||
|
HDFS JVM GC操作数 |
展示HDFS JVM GC操作数的最大值、最小值、平均值 |
||
|
HDFS JVM GC操作数分布 |
展示集群各节点HDFS JVM GC操作数分布情况 |
||
|
HDFS JVM GC持续时间分布 |
展示集群各节点HDFS JVM GC持续时间分布情况 |
||
|
RPC请求处理时间 |
展示集群RPC请求处理时间的最大值、最小值、平均值 |
||
|
平均RPC处理时间分布 |
展示集群各节点的平均RPC处理时间分布情况 |
||
|
打开的RPC连接数 |
展示集群打开的RPC连接数的最大值、最小值、平均值 |
||
|
打开的RPC连接分布 |
展示集群各节点打开的RPC连接分布情况 |
||
|
RPC每秒接收字节数 |
展示集群RPC每秒接收字节数的最大值、最小值、平均值 |
||
|
RPC每秒接收字节数的分布 |
展示集群各节点RPC每秒接收字节数的分布情况 |
||
|
RPC每秒发送字节数 |
展示集群RPC每秒发送字节数的最大值、最小值、平均值 |
||
|
RPC每秒发送字节数的分布 |
展示集群各节点RPC每秒发送字节数的分布情况 |
||
|
NameNode已使用堆内存 |
展示集群NameNode已使用堆内存的最大值、最小值 |
||
|
DataNode IO |
Read IO |
展示集群各DataNode Read IO |
|
|
Write IO |
展示集群各DataNode Write IO |
||
|
NameNode JVM |
Eden Usage |
|
|
|
Survivor Usage |
|
||
|
Old Usage |
|
||
|
Metaspace Usage |
|
||
|
Gc Count |
|
||
|
DataNode JVM |
Eden Usage |
|
|
|
Survivor Usage |
|
||
|
Old Usage |
|
||
|
Metaspace Usage |
|
||
|
Gc Count |
|
||
|
YARN |
Summary |
Yarn NodeManager状态统计 |
展示集群YARN NodeManager良好、故障、关闭的个数 |
|
Yarn JVM GC总操作数 |
展示集群各节点YARN JVM GC总操作数分布情况 |
||
|
YARN Container信息 |
展示集群YARN Container正在运行和待分配资源情况 |
||
|
YARN 启动Container数 |
展示集群YARN启动Container数目 |
||
|
YARN内存信息 |
展示集群YARN总内存、Yarn已使用内存 |
||
|
YARN已分配的内存 |
展示集群YARN已分配内存的最大值、最小值、平均值 |
||
|
YARN VCore数量 |
展示集群YARN可使用Vcore数量、Yarn已使用Vcore数量 |
||
|
YARN Vcore分配情况 |
展示集群YARN Vcore分配情况 |
||
|
Yarn平均使用JVM堆内存 |
展示集群YARN平均使用JVM堆内存的最大值、最小值、平均值 |
||
|
Yarn总使用JVM内存 |
展示集群所有NodeManager中已使用总堆内存 |
||
|
Yarn JVM GC操作数 |
展示集群YARN JVM GC操作数的最大值、最小值、平均值 |
||
|
YARN Application信息 |
展示集群YARN Application运行中、等待中、失败个数 |
||
|
ResourceManager JVM |
Eden Usage |
|
|
|
Survivor Usage |
|
||
|
Old Usage |
|
||
|
Metaspace Usage |
|
||
|
Gc Count |
|
||
|
NodeManager JVM |
Eden Usage |
|
|
|
Survivor Usage |
|
||
|
Old Usage |
|
||
|
Metaspace Usage |
|
||
|
Gc Count |
|
||
|
HIVE |
Summary |
Hive表分区数TOP5 |
展示分区数最多的5张表 |
|
平均使用JVM堆内存 |
展示各HiveServer实例使用堆内存最大值、最小值、平均值 |
||
|
总使用JVM堆内存 |
展示各个HiveServer实例使用堆内存总和 |
||
|
HiveMetaStore |
Metastore使用内存统计 |
展示集群 hiveMetaStore内存使用量 |
|
|
Metastore Api执行次数统计 |
展示集群使用过程中调用MetaStore Api的总次数 |
||
|
Add_partitions_req_api执行情况 |
展示集群使用过程中调用添加分区接口的总次数 |
||
|
Create_table_api执行情况 |
展示集群使用过程中调用创建表接口的总次数 |
||
|
Drop_partitions_req_api执行情况 |
展示集群使用过程中调用删除分区接口的总次数 |
||
|
Metastore连接数统计 |
展示集群所有MetaStore的总连接数 |
||
|
HiveServer |
Background线程数 |
展示集群Background 的总线程数 |
|
|
Hiveserver进程使用的内存统计 |
展示集群HiveServer的内存使用量 |
||
|
Hive执行成功的HQL命令数 |
展示集群执行HQL时执行成功的总命令数 |
||
|
Hive执行成功的HQL百分比 |
展示集群执行HQL时执行成功的百分比 |
||
|
Hiveserver的session数统计 |
展示集群所有HiveServer的会话总数 |
||
|
Hiveserver的连接数统计 |
展示集群所有HiveServer的总连接数 |
||
|
Mapreduce任务数统计 |
展示集群运行过程中的mapreduce任务数 |
||
|
Hive on Spark任务数统计 |
展示集群运行过程中的hive on spark任务数 |
||
|
HiveServer JVM |
Eden Usage |
|
|
|
Survivor Usage |
|
||
|
Old Usage |
|
||
|
Metaspace Usage |
|
||
|
ZOOKEEPER |
Summary |
ZooKeeper总打开连接 |
展示集群所有Server总打开连接数 |
|
各Server打开连接 |
展示集群打开连接数的最大值、最小值、平均值 |
||
|
FILNK |
Summary |
Flink执行任务数统计 |
展示集群Flink执行任务数总和 |
|
Flink任务使用内存统计 |
展示集群link任务使用内存总和 |
||
|
Flink任务使用内存百分比 |
展示集群Flink任务使用内存占用全部内存的百分比 |
||
|
Flink任务使用CPU统计 |
展示集群Flink任务使用CPU总和 |
||
|
Flink任务使用CPU百分比 |
展示集群Flink任务使用CPU占用全部CPU的百分比 |
||
|
HBASE |
Summary |
HBase 存储空间 |
展示集群HBase表占用总存储空间 |
|
HBase Region数量 |
展示集群HBase Region数量的最大值、最小值、平均值 |
||
|
HBase Region总数量 |
展示集群HBase Region总数量 |
||
|
HBase存储文件数量 |
展示集群HBase存储文件总个数 |
||
|
HBase5分钟Get请求数 |
展示各RegionServer最近5分钟Get请求数的最大值、最小值、平均值 |
||
|
HBase5分钟写入请求数 |
展示各RegionServer最近5分钟写入请求数的最大值、最小值、平均值 |
||
|
HBase表Region数TOP5 |
展示Region数最多的5张表及其Region数量 |
||
|
HBase5分钟DELETE操作数 |
各RegionServer最近5分钟DELETE操作数的最大值、最小值、平均值 |
||
|
HBase 平均使用JVM堆内存 |
展示集群HBase 平均使用JVM堆内存 |
||
|
HBase 总使用JVM堆内存 |
展示集群所有RegionServer中已使用总堆内存 |
||
|
HBase5分钟JVM GC操作数 |
展示各RegionServer最近5分钟JVM GC操作数的最大值、最小值、平均值 |
||
|
HBase5分钟JVM GC时间 |
展示各RegionServer最近5分钟JVM GC时间最大值、最小值、平均值 |
||
|
HBase Master5分钟JVM GC操作数 |
展示HBase Master最近5分钟JVM GC操作数 |
||
|
HBase Master5分钟JVM GC时间 |
展示HBase Master最近5分钟JVM GC时间 |
||
|
HBase 平均块缓存大小 |
展示集群HBase 平均块缓存大小的最大值、最小值、平均值 |
||
|
HBase 总块缓存大小 |
展示集群所有RegionServer的总块缓存大小 |
||
|
HBase 平均块缓存命中计数 |
展示集群HBase 平均块缓存命中计数的最大值、最小值、平均值 |
||
|
HBase 总块缓存命中数 |
展示集群所有RegionServer的总块缓存命中数 |
||
|
HBase 平均块缓存命中率 |
展示集群HBase 平均块缓存命中率的最大值、最小值、平均值 |
||
|
System |
SystemCpuLoad |
HBase中RegionServer的SystemCpuLoad |
|
|
ProcessCpuLoad |
HBase中RegionServer的ProcessCpuLoad |
||
|
PauseTimeWithGc_max |
HBase中RegionServer的最大Gc停顿时间 |
||
|
ThreadCount |
HBase中RegionServer的ThreadCount |
||
|
ThreadsNew |
HBase中RegionServer的ThreadsNew |
||
|
Queue |
CompactionQueueLength |
HBase中RegionServer的compactionQueue长度 |
|
|
SmallCompactionQueueLength |
HBase中RegionServer的smallCompactionQueue长度 |
||
|
SplitQueueLength |
HBase中RegionServer的splitQueue长度 |
||
|
CompactionTime_max |
HBase中RegionServer的最大CompactionTime |
||
|
FlushQueueLength |
HBase中RegionServer的flushQueue长度 |
||
|
LargeCompactionQueueLength |
HBase中RegionServer的largeCompactionQueueLength |
||
|
RegionServer IO |
FsPReadTime_max |
HBase中RegionServer的最大FsPReadTime |
|
|
FsWriteTime_max |
HBase中RegionServer的最大+FsWriteTime |
||
|
FsReadTime_max |
HBase中RegionServer的最大FsReadTime |
||
|
ScanTime_max |
HBase中RegionServer的最大ScanTime |
||
|
IPC |
NumActiveHandler |
HBase中RegionServer的ActiveHandler数 |
|
|
NumActiveReadHandler |
HBase中RegionServer的ActiveReadHandler数 |
||
|
NumActiveWriteHandler |
HBase中RegionServer的ActiveWriteHandler数 |
||
|
NumActiveScanHandler |
HBase中RegionServer的ActiveScanHandler数 |
||
|
NumCallsInGeneralQueue |
HBase中RegionServer的CallsInGeneralQueue数 |
||
|
QueueCallTime_max |
HBase中RegionServer的最大QueueCallTime |
||
|
TotalCallTime_max |
HBase中RegionServer的最大TotalCallTime |
||
|
ProcessCallTime_max |
HBase中RegionServer的最大ProcessCallTime |
||
|
ResponseSize_max |
HBase中RegionServer的最大ResponseSize |
||
|
NumOpenConnections |
HBase中RegionServer的OpenConnections数 |
||
|
NumOpenConnections |
HBase中RegionServer的OpenConnections数 |
||
|
NumCallsInReadQueue |
HBase中RegionServer的CallsInReadQueue数 |
||
|
NumCallsInScanQueue |
HBase中RegionServer的CallsInScanQueue数 |
||
|
ResponseSize_max |
HBase中RegionServer的最大ResponseSize |
||
|
NumCallsInGeneralQueue |
HBase中RegionServer的CallsInGeneralQueue数 |
||
|
NumGeneralCallsDropped |
HBase中RegionServer的GeneralCallsDropped数 |
||
|
NumCallsInWriteQueue |
HBase中RegionServer的CallsInWriteQueue数 |
||
|
Request |
ReadRequestCount_persec |
HBase中RegionServer的每秒readRequest数 |
|
|
WriteRequestCount_persec |
HBase中RegionServer的每秒writeRequest数 |
||
|
TotalRequestCount_persec |
HBase中RegionServer的每秒totalRequest数 |
||
|
HBase Master JVM |
Eden Usage |
|
|
|
Survivor Usage |
|
||
|
Old Usage |
|
||
|
Metaspace Usage |
|
||
|
Gc Count |
|
||
|
RegionServer JVM |
Eden Usage |
|
|
|
Survivor Usage |
|
||
|
Old Usage |
|
||
|
Metaspace Usage |
|
||
|
Gc Count |
|
||
|
SPARK |
Summary |
Spark执行任务数统计 |
展示集群Spark执行任务的总数 |
|
Spark任务使用内存统计 |
展示集群Spark任务使用内存总和 |
||
|
Spark任务使用内存百分比 |
展示集群Spark任务使用内存占用全部内存的百分比 |
||
|
Spark任务使用CPU统计 |
展示集群Spark任务使用CPU总和 |
||
|
Spark任务使用CPU百分比 |
展示集群Spark任务使用CPU占用全部CPU的百分比 |
||
|
REDIS |
Summary |
集群键个数 |
展示集群Redis集群键总数 |
|
实例平均使用内存 |
展示集群Redis实例平均使用内存 |
||
|
集群使用内存 |
展示集群Redis内存使用总量 |
||
|
Redis客户端活跃连接总数 |
展示Redis集群客户端活跃连接总数 |
||
|
Redis各实例2分钟内每秒命令处理数 |
展示Redis集群各实例2分钟内平均每秒命令处理数 |
||
|
Redis Fork时间 |
展示Redis集群持久化时间 |
||
|
KAFKA |
Summary |
平均每秒消息写入数 |
展示集群kafka平均每秒消息写入数的最大值、最小值、平均值 |
|
从客户端输入流量 |
展示集群从客户端输入流量的最大值、最小值、平均值 |
||
|
向客户端输出流量 |
展示集群向客户端输出流量的最大值、最小值、平均值 |
||
|
平均每秒Fetch请求失败数 |
展示集群kafka平均每秒Fetch请求失败数的最大值、最小值、平均值 |
||
|
平均每秒生产请求失败数 |
展示集群平均每秒生产请求失败数的最大值、最小值、平均值 |
||
|
平均每秒需转换格式的消息数 |
展示集群平均每秒需转换格式的消息数的最大值、最小值、平均值 |
||
|
平均每秒Fetch请求数 |
展示集群平均每秒Fetch请求数的最大值、最小值、平均值 |
||
|
平均每秒生产请求数 |
展示集群平均每秒生产请求数的最大值、最小值、平均值 |
||
|
从其它broker输入流量 |
展示集群从其它broker输入流量的最大值、最小值、平均值 |
||
|
向其它broker输出流量 |
展示集群向其它broker输出流量的最大值、最小值、平均值 |
||
|
ClickHouse |
Summary |
上下文锁等待的个数 |
展示ClickHouse上下文等待锁的线程个数 |
|
HTTP 连接个数 |
展示连接至ClickHouse HTTP服务端的连接个数 |
||
|
TCP 连接个数 |
展示连接至ClickHouse TCP服务端的连接个数,包含server间分布式查询的连接 |
||
|
Insert 执行个数 |
展示ClickHouse Server服务端每分钟插入数据的条数 |
||
|
Merge 消耗时间 |
展示ClickHouse Server后台每分钟Merge任务花费的总时间 |
||
|
Query 个数 |
展示ClickHouse Server每分钟处理查询的个数 |
||
|
查询线程数 |
展示ClickHouse Server当前时间的查询线程数 |
||
|
副本块合并个数 |
展示ClickHouse ReplicatedMergeTree表副本数据块合并的个数 |
||
|
副本块修改个数 |
展示ClickHouse ReplicatedMergeTree表副本数据块修改的个数 |
||
|
插入失败数 |
展示ClickHouse insert语句每分钟执行失败的条数 |
||
|
查询失败数 |
展示ClickHouse Select语句每分钟执行失败的条数 |
||
|
合并数 |
展示ClickHouse后台Merge任务花费的总时间 |
||
|
ZK 请求数 |
展示ClickHouse当前时间请求ZK请求数 |
||
|
ZK session 个数 |
展示ClickHouse当前时间节点连接ZK的session个数 |
||
|
Zk watch 个数 |
展示ClickHouse当前时间节点连接ZK的watch个数 |
||
|
NODE |
Usage |
CPU Usage |
展示主机CPU使用率 |
|
Memory Usage |
展示主机内存使用率 |
||
|
NETWORK |
NETWORK IO |
|
|
|
NETWORK ERR |
|
||
|
DISK |
磁盘IOPS |
|
|
|
磁盘带宽 |
|
||
|
磁盘IO延迟 |
|
||
|
主机磁盘数量 |
展示各主机的磁盘数量 |