网络亚健康功能通过检测主机间的网卡硬件状况(可检测crc_error、端口震荡和光模块功率异常)、IP地址是否冲突以及数据包发送情况等指标,实时监控管理平台中网络状态。当检测到这些指标达到阈值时,系统会每半小时对一个聚合组进行处理。若聚合组中的所有网卡均出现异常,会触发告警但不进行隔离操作。若聚合组中仅部分网卡异常,则会将这些异常网卡全部隔离。隔离的优先级为管理网>存储网>业务网。
为了便于快速排查硬件故障,还支持对网卡点灯来快速定位网卡的位置。要使用该功能需要先在[管理/参数配置/系统参数]中开启网络亚健康检测才有此菜单项。此外,对网卡进行隔离时,需满足以下条件:
虚拟交换机和物理交换机端口均配置为动态聚合。
物理交换机LACP超时时间设置为短超时(例如:H3C交换机可以使用命令lacp period short进行配置,详情请参见交换机相关手册)。
网络类型为DPDK的虚拟交换机不支持网络亚健康功能。
在管理平台中新增虚拟交换机、修改虚拟交换机、扩容主机或增加子集群时,管理平台将会在半小时内进行自动更新配置。如需手动更新配置,请在[管理/参数配置/系统参数]中重新开启网络亚健康检测。
该功能可以查看管理平台中已使用的网卡信息、网络亚健康问题概况以及出现网络亚健康的告警事件。
选择顶部“网络”页签,选择左侧导航树[网络亚健康]菜单项,进入网络亚健康页面。
可查看到集群中出现亚健康的问题概况、网络异常事件以及虚拟交换机的网络信息。
在网络异常事件栏中单击待消除告警列的<消除>按钮,弹出确认对话框,单击<确认>按钮,确认消除告警。
在网络异常事件栏中单击已消除待删除告警列的<删除>按钮,弹出确认对话框,单击<确认>按钮,确认删除告警。
问题概况:提供管理平台内主机网卡出现亚健康告警问题的总体视图。包括问题总量及各类型问题数量(硬件、丢包、时延和IP冲突等)。
网络异常事件:记录管理平台内主机网卡出现亚健康异常情况而触发的告警事件,用户可以通过告警事件快速响应并处理异常情况。
网络信息:展示管理平台内主机网卡的详细使用情况。包括物理网卡关联的虚拟交换机、主机、主机接口、网卡实时状态、时延异常、丢包异常和硬件异常等。
该功能用于为管理平台配置网络亚健康检测策略,检测集群中每台主机已使用的网卡是否处于亚健康状态,并根据策略执行相应的策略操作。用户也可以通过此按钮修改配置参数。
隔离策略:主机网卡出现亚健康时,配置的隔离策略,包括不隔离(缺省值)、存储健康时隔离和自动隔离。
不隔离:检测到网卡异常时,不进行隔离。
存储健康时隔离:当检测到超融合场景中存储集群处于健康状态时,再进行隔离。
自动隔离:检测到网卡异常时,立即隔离。
硬件检测隔离:是否对管理平台中的主机网卡开启硬件检测隔离功能。开启该功能后,系统会检测网卡状态,发现网卡异常,将触发告警,并结合隔离策略决定是否对异常网卡进行隔离。不开启则不做任何处理。
硬件检测灵敏度:单个周期内判断物理网卡是否存在网卡异常的阈值以及对连续异常的周期数的响应程度。设置为高时,误报的概率也会相应增加。
硬件检测间隔时间:对主机硬件检测的时间周期。
低:检测的时间周期较长,系统的检测频率较低。周期为16s。
中:正常检测的时间周期。周期为12s。
高:检测的时间周期较短,系统的检测频率较高。周期为8s。
发包检测隔离:通过向主机动态聚合网卡发包检测网络链路是否存在丢包和延迟。开启该功能后,系统会检测网卡状态,发现网卡异常,将触发告警,并结合隔离策略决定是否对异常网卡进行隔离。不开启则不做任何处理。需注意的是,若管理平台中仅有一个主机或其他主机的动态聚合网卡都已被隔离,只剩一个主机时,发包检测功能将不会生效。
丢包灵敏度:主机网卡丢包情况的响应程度。
时延灵敏度:主机网卡通信时延情况的响应程度。
当确定已隔离的网卡无故障时,可通过恢复按钮将隔离的网卡重新加入到聚合组中。
选择顶部“网络”页签,单击左侧导航树[网络亚健康]菜单项,进入网络亚健康页面。
选择网络信息栏已隔离待恢复的网卡,单击图标。
通过该功能用户可以使网卡指示灯规律闪烁,以便快速识别和定位网卡。在同一台主机上,用户只能同时点亮一张网卡的指示灯。
选择顶部“网络”页签,单击左侧导航树[网络亚健康]菜单项,进入网络亚健康页面。
单击异常的主机网卡列的图标,弹出确认对话框。
单击<确定>按钮,完成操作。
功能用于关闭已开启的网卡指示灯。
选择顶部“网络”页签,单击左侧导航树[网络亚健康]菜单项,进入网络亚健康页面。
完成网卡更换后,单击待关闭网卡指示灯列的图标,弹出确认对话框。
单击<确定>按钮,完成操作。