告警操作

  • 监控状态为“监控中”状态,可以查看告警页签下内容。

  • 仅支持修改集群状态为“运行中且监控中”的集群的告警配置信息。

数据库集群的告警功能提供秒级监控频率,方便掌握集群的运行状态并通过细粒度的监控数据快速定位运维问题,还提供告警组管理以及个性化的告警管理与配置。

导出告警信息

  1. ‍在集群管理页面,选择[集群列表]页签,单击集群名称/ID可进入集群详情页面。

  2. 在集群详情页面,选中[告警]页签。

  3. 单击列表上方的<导出>按钮,可将告警信息导出为Excel表格。

查看告警统计信息

  1. ‍在PostgreSQL服务管理页面的左侧导航树中选择[集群管理],进入集群管理页面。

  2. 在集群详情页面,选中[告警]页签,可查看未恢复告警统计信息、告警列表等,页面右上方刷新按钮可手动刷新页面数据。部分参数说明如下:

    • 未恢复告警统计信息

      • 总数:集群的所有未恢复告警总数。

      • 紧急数:集群的未恢复告警为紧急级别的数量。

      • 重要数:集群的未恢复告警为重要级别的数量。

      • 次要数:集群的未恢复告警为次要级别的数量。

      • 通知数:集群的未恢复告警为通知级别的数量。

    • 告警列表,部分参数说明如下:

      • 告警来源:告警信息所属的集群。

      • 描述:告警的详细描述信息。

      • 告警级别:告警信息的级别,包括通知、次要、重要、紧急。

      • 告警状态:告警的状态信息,包括未恢复、自动恢复、手动恢复。

      • 告警节点:告警信息所属的节点名称。

      • 告警IP:告警信息所属节点的IP地址。

      • 首次告警时间:告警第一次产生的时间。

      • 最近告警时间:告警最新的告警时间。

告警配置

  1. ‍在集群管理页面,选择[集群列表]页签,单击集群名称/ID可进入集群详情页面。

  2. 在集群详情页面,选中[告警]页签,单击<告警配置>那按钮,进入告警配置页面。

  3. 在告警配置页面,可以配置告警的相关信息。部分配置参数说明如下:

    • 通知方式:非必配置项,当前支持通过邮件和短信通知,可单选、可多选。

    • 告警通知组:告警信息通知的组列表,组内的人员接收告警信息。

      配置告警通知组时,需注意以下事项:

      • 若已选择通知方式,则此项为必配置项;若未选择通知方式,则此项不显示。

      • 若未提前配置告警通知组,可单击下拉框右侧的“告警管理”跳转至告警管理页面,在[告警联系组]页签下创建接收告警信息的联系组即可。

      • 创建联系组之前,需先在[告警联系人]页签下创建接受告警信息的联系人。

    • 告警级别:选择发送通知的告警级别,支持选择多个。

    • 重复告警通知间隔:接收告警通知的间隔时间。若已选择通知方式,则此项为必配置项;若未选择通知方式,则此项不显示。

    • 告警保留期限:告警信息保留的期限,只会清除自动恢复和手动恢复的告警信息。

    • 告警规则:每个服务独有的告警规则,当满足任一规则时,产生告警。同时,可以自定义修改启动状态、部分告警项阈值、持续时间(触发阈值但未达到持续时间不产生告警)。

      • 数据库可用性:当数据库服务不可用时,产生告警。

      • 数据库连接率:当数据库连接数超过配置的阈值后,产生告警。

      • Pgpool连接使用率:当主从模式数据库Pgpool连接使用率超过配置的阈值后,产生告警。

      • 主从复制延迟:集群主从模式下,当从节点同步主节点数据超过阈值后,产生告警。

      • 节点可用性:当节点可用性等于0时,表示该节点宕机,产生告警。

      • 内存使用率:当数据库服务所在的节点内存超过阈值后,产生告警。

      • CPU使用率:当数据库服务所在的节点CPU使用率超过阈值后,产生告警。

      • 磁盘使用率:当数据库服务所在的节点磁盘使用率超过阈值后,产生告警。

  4. 单击<确认>按钮,完成告警配置。