· 监控状态为“监控中”状态下,可以查看告警页签下内容。 · 仅支持修改集群状态为“运行中且监控中”的集群的告警配置信息。 |
在Kafka服务管理页面的左侧导航树中选择[集群管理],进入集群管理页面。
在集群管理页面,选择[集群列表]页签,单击集群名称可进入集群详情页面。
在集群详情页面,选中[告警]页签,可查看未恢复告警统计信息、告警列表等。部分参数说明如下:
未恢复告警统计信息
未恢复告警总数:集群的所有未恢复告警总数。
致命数:集群的未恢复告警为致命级别的数量。
严重数:集群的未恢复告警为严重级别的数量。
一般数:集群的未恢复告警为一般级别的数量。
告警列表,部分参数说明如下:
告警信息:告警的详细描述信息。
告警级别:告警信息的级别,包括一般、严重、致命。
告警状态:告警的状态信息,包括未恢复、自动恢复、手动恢复。
告警主机/实例:告警信息所属的主机或实例名称。
告警IP:告警信息所属主机的IP地址。
首次告警时间:告警第一次产生的时间。
最近告警时间:告警最新的告警时间。
告警恢复时间:告警信息恢复的时间。
告警次数:告警产生的总次数。
在Kafka服务管理页面的左侧导航树中选择[集群管理],进入集群管理页面。
在集群管理页面,选择[集群列表]页签,单击集群名称可进入集群详情页面。
在集群详情页面,选中[告警]页签,单击<告警配置>那按钮,进入告警配置页面。
在告警配置页面,可以配置告警的相关信息。部分配置参数说明如下:
告警通知组:告警信息通知的组列表,组内的人员接收告警信息。
重复告警通知间隔:接收告警通知的间隔时间。
通知方式:邮件和短信,可以多选。
告警保留期限:告警信息保留的期限,只会清除自动恢复和手动恢复的告警信息。
告警规则:每个服务独有的告警规则,当任一规则不满足条件时,产生告警。同时,可以自定义修改启动状态和部分告警项阈值。
Broker数量:当Broker数量低于阈值后,产生告警。单击<修改>按钮,可自定义设置该阈值。
无Leader的Partition:当集群存在无Leader的Partition时,产生告警。
消息数据量:当消息数据量超过配置的阈值后,产生告警。单击<修改>按钮,可自定义设置该阈值。
Topic数量:当Topic数量超过配置的阈值后,产生告警。单击<修改>按钮,可自定义设置该阈值。
Active Controller:当Active Controller异常时,产生告警。
失效副本数量:当失效副本数量超过配置的阈值后,产生告警。单击<修改>按钮,可自定义设置该阈值。
CPU使用率:当Kafka虚拟机或裸金属集群所在的主机CPU使用率超过阈值后,产生告警。单击<修改>按钮,可自定义设置该阈值。
内存使用率:当Kafka虚拟机或裸金属集群所在的主机内存超过阈值后,产生告警。单击<修改>按钮,可自定义设置该阈值。
磁盘使用率:当Kafka虚拟机或裸金属集群所在的主机磁盘使用率超过阈值后,产生告警。单击<修改>按钮,可自定义设置该阈值。
实例CPU使用率:当Kafka容器集群所在的实例CPU使用率超过阈值后,产生告警。单击<修改>按钮,可自定义设置该阈值。
实例内存使用率:当Kafka容器集群所在的实例内存超过阈值后,产生告警。单击<修改>按钮,可自定义设置该阈值。