图-1 磁盘采集预警流程逻辑
当前版本中,关于磁盘采集预警的策略说明如下:
开启磁盘采集预警
磁盘采集任务:开启磁盘采集预警会触发磁盘采集任务。触发采集后,系统会定时执行磁盘采集任务(目前定时周期为24h),磁盘采集任务会采集集群节点的所有磁盘日志数据,采集的数据会存放在所采集节点的本地路径下,用户在[磁盘采集预警管理]页面可查看磁盘采集任务的状态等信息。磁盘采集任务的采集状态仅包含成功和失败两种。
磁盘预警任务:磁盘采集预警开启且执行集群巡检操作会触发磁盘预警任务。触发预警后,系统会执行磁盘预警任务,磁盘预警任务会读取磁盘采集任务采集的日志数据进行分析预警,并将预警结果写入对应集群节点的本地路径。在[运维管理/巡检管理]页面执行集群巡检操作后,通过巡检报告即可查看磁盘预警任务的结果信息,对应巡检项为“主机磁盘预警”。主机磁盘预警的结果状态有三种,说明如下:
错误:开启磁盘采集预警后,若磁盘采集任务的采集状态为失败或磁盘采集任务的采集状态为成功但磁盘预警任务读取不到关于磁盘的采集信息,则主机磁盘预警的结果状态为错误,可在备注列查看对应说明信息。
合格/告警:开启磁盘采集预警后,当磁盘采集任务的采集状态为成功时,磁盘预警任务会根据采集任务的采集信息,检查集群节点所有磁盘的状态。若对应集群节点所有磁盘均正常,则主机磁盘预警的结果状态为合格;若对应集群节点存在任一磁盘状态异常,则显示状态为告警;此时在对应的巡检结果可查看所有磁盘的状态、检测时间等。
关闭磁盘采集预警
关闭磁盘采集预警时,系统会清空历史所有磁盘日志采集数据和磁盘预警结果数据,在[磁盘采集预警管理]页面的列表也会清空磁盘采集任务的执行信息。同时也无法再触发磁盘预警任务,在[运维管理/巡检管理]页面,执行集群巡检操作后,在巡检报告中对应的“主机磁盘预警”会显示为“未开启”。
集群缩容
若在磁盘采集预警开启的过程中,执行集群缩容操作,则缩容节点的磁盘日志采集数据会被清空,磁盘预警任务会获取最新的磁盘采集日志数据进行分析预警。
集群扩容
若从未开启磁盘采集预警,执行集群扩容操作后,对应的扩容节点也不会执行磁盘采集预警。
若开启过磁盘采集预警但当前处于已关闭状态,执行集群扩容操作后,对应的扩容节点也不会执行磁盘采集预警,但后续再为集群开启磁盘采集预警后,扩容节点也会执行磁盘采集预警。
若在磁盘采集预警开启的过程中,执行集群扩容操作后,对应的扩容节点也会执行磁盘采集预警。
删除集群
若磁盘采集预警开启时,执行删除集群操作,集群节点的磁盘日志采集数据不会清空。