· 监控状态为“监控中”状态,可以查看告警页签下内容。 · 仅支持修改集群状态为“运行中且监控中”的集群的告警配置信息。 |
数据库集群的告警功能提供秒级监控频率,方便掌握集群的运行状态并通过细粒度的监控数据快速定位运维问题,还提供告警组管理以及个性化的告警管理与配置。
在PostgreSQL服务管理页面的左侧导航树中选择[集群管理],进入集群管理页面。
在集群详情页面,选中[告警]页签,可查看未恢复告警统计信息、告警列表等,页面右上方刷新按钮可手动刷新页面数据。部分参数说明如下:
未恢复告警统计信息
未恢复告警总数:集群的所有未恢复告警总数。
致命数:集群的未恢复告警为致命级别的数量。
严重数:集群的未恢复告警为严重级别的数量。
一般数:集群的未恢复告警为一般级别的数量。
告警列表,部分参数说明如下:
告警信息:告警的详细描述信息。
告警级别:告警信息的级别,包括一般、严重、致命。
告警状态:告警的状态信息,包括未恢复、自动恢复、手动恢复。
告警节点:告警信息所属的节点名称。
告警IP:告警信息所属节点的IP地址。
首次告警时间:告警第一次产生的时间。
最近告警时间:告警最新的告警时间。
告警恢复时间:告警信息恢复的时间。
告警次数:告警产生的总次数。
在集群管理页面,选择[集群列表]页签,单击集群名称/ID可进入集群详情页面。
在集群详情页面,选中[告警]页签,单击<告警配置>那按钮,进入告警配置页面。
在告警配置页面,可以配置告警的相关信息。部分配置参数说明如下:
告警通知组:告警信息通知的组列表,组内的人员接收告警信息。
重复告警通知间隔:接收告警通知的间隔时间。
通知方式:邮件和短信,可以多选。
告警保留期限:告警信息保留的期限,只会清除自动恢复和手动恢复的告警信息。
告警规则:每个服务独有的告警规则,当任一规则不满足条件时,产生告警。同时,可以自定义修改启动状态和部分告警项阈值。
数据库可用性:当数据库服务不可用时,产生告警。
数据库连接数:当数据库连接数超过配置的阈值后,产生告警。
主从复制延时:集群主从模式下,当从节点同步主节点数据超过阈值后,产生告警。
内存使用率:当数据库服务所在的节点内存超过阈值后,产生告警。
CPU使用率:当数据库服务所在的节点CPU使用率超过阈值后,产生告警。
磁盘使用率:当数据库服务所在的节点磁盘使用率超过阈值后,产生告警。