03-硬件资源管理配置
本章节下载: 03-硬件资源管理配置 (308.06 KB)
目 录
通过硬件资源管理功能,用户能够查看CPU、内存的使用情况,电源和风扇的工作状态,配置设备运行的相关参数,实现对设备硬件资源的日常维护和管理。
设备管理的所有配置任务均为可选配置,配置时无先后顺序要求,请根据实际需要选择配置。设备管理配置任务如下:
· 监控CPU
¡ CPU显示和维护
· 监控内存
¡ 配置内存告警门限
¡ 监控DMA内存
¡ 内存显示和维护
· 监控磁盘利用率
· 监控设备温度
¡ 配置温度告警门限
¡ 显示设备温度信息
· 监控风扇
¡ 显示风扇信息
· 显示设备硬件信息
系统每隔1分钟会对CPU的利用率进行采样,并将采样值和用户配置的CPU利用率告警门限比较。
· 当采样值大于低级别告警门限时,则CPU进入低级别告警状态,会周期发送CPU低级别告警通知,直到CPU进入高级别告警状态或者低级别告警状态解除。
· 当采样值大于高级别告警门限时,则CPU进入高级别告警状态,会周期发送CPU高级别告警通知,直到高级别告警状态解除。
· 当采样值回落,小于CPU利用率恢复门限时,则认为CPU利用率已经恢复到正常范围,并发送恢复告警通知。
CPU告警通知会同时向NETCONF、SNMP、信息中心三个方向输出,通过配置NETCONF、SNMP、信息中心功能,CPU告警最终能以NETCONF事件、SNMP Trap或Inform消息、日志的形式发送给用户。NETCONF和SNMP的详细介绍请参见“网络管理和监控配置指导”中的“NETCONF”和“SNMP”。信息中心的详细介绍请参见“设备管理配置指导”中的“信息中心”。
图1-1 CPU告警示意图
(1) 进入系统视图。
system-view
(2) 配置CPU利用率阈值。
monitor cpu-usage threshold severe-threshold [ minor-threshold minor-threshold recovery-threshold recovery-threshold ] [ slot slot-number [ cpu cpu-number ] ]
缺省情况下,CPU利用率阈值为99%。
CPU利用率高级别告警门限如果设置过低,可能导致设备提前进入门限状态,不再进行正常业务处理。
(3) 配置发送CPU告警事件的间隔。
monitor resend cpu-usage { minor-interval minor-interval | severe-interval severe-interval } * [ slot slot-number [ cpu cpu-number ] ]
缺省情况下,持续300秒超过低级别告警门限则上报一次CPU低级别告警事件,持续60秒超过高级别告警门限则上报一次CPU高级别告警事件。
开启CPU利用率历史记录功能后,系统会每隔一定时间对CPU的利用率进行采样,并把采样结果保存到历史记录区。这些记录可通过display cpu-usage history命令查看,以便用户监控设备近期的运行情况。
(1) 进入系统视图。
system-view
(2) 配置CPU利用率历史记录的采样周期。
monitor cpu-usage interval interval [ slot slot-number [ cpu cpu-number ] ]
缺省情况下,CPU使用率历史记录采样周期为1分钟。
(3) 开启CPU利用率历史记录功能。
monitor cpu-usage enable [ slot slot-number [ cpu cpu-number ] ]
缺省情况下,CPU使用率历史记录功能处于开启状态。
可在任意视图下执行以下命令:
· 显示CPU监控功能的相关配置。
display cpu-usage configuration [ slot slot-number [ cpu cpu-number ] ]
· 显示CPU利用率的统计信息。
display cpu-usage [ control-plane] [ summary ] [ slot slot-number [ cpu cpu-number ] ]
· 以图表方式显示CPU利用率的历史记录。
display cpu-usage history [ job job-id ] [ slot slot-number [ cpu cpu-number ] ]
系统实时监控剩余空闲内存大小,当条件达到一级、二级、三级告警门限或者恢复正常状态门限时,就产生相应的告警/告警解除通知,通知关联的业务模块/进程采取相应的措施,以便最大限度的利用内存,又能保证设备的正常运行。
一级(minor)、二级(severe)和三级(critical)门限,对应的剩余空闲内存越来越少,紧急程度越来越严重。
设备监控的是系统内存中剩余空闲内存的大小,使用display memory命令可以查看系统内存的使用情况。
· 当剩余空闲内存值从大于变成小于等于一级告警门限时,产生一级告警。
· 当剩余空闲内存值从大于变成小于等于二级告警门限时,产生二级告警。
· 当剩余空闲内存值从大于变成小于等于三级告警门限时,产生三级告警。
· 当剩余空闲内存值从小于等于变成大于二级告警门限时,产生三级告警解除通知。
· 当剩余空闲内存值从小于等于变成大于一级告警门限时,产生二级告警解除通知。
· 当剩余空闲内存值从小于等于变成大于正常内存大小时,产生一级告警解除通知。
同一级别的告警/告警解除通知是交替进行的:当剩余空闲内存值小于等于某级告警门限,设备产生相应级别的告警,后续只有该告警解除了,剩余空闲内存值再次小于等于某级告警门限时,才会再次生成该级别的告警。
当剩余空闲内存大小如图1-2中曲线所示时,会生成如图1-2所示的告警和解除告警通知。
内存告警事件的发送周期如下:持续1小时超过预告警门限则上报一次预告警事件通知,持续12小时超过一级告警门限则上报一次一级告警事件通知,持续3小时超过二级告警门限则上报一次二级告警事件通知,持续1小时超过三级告警门限则上报一次三级告警事件通知。
当设备出现内存告警时,可删除暂时不用的配置或关闭部分功能来释放内存。但因为内存不足,部分配置可能删除失败。
满足以下条件时,系统会重启单板。
· 产生三级告警后,剩余空闲内存值持续小于三级告警门限,其时长到达30秒,则系统会重启单板。
· 如果连续产生两次三级告警的时间间隔小于30秒,则系统会重启单板。
· 如果3分钟内产生三次三级告警,则系统会重启单板。
· 产生三级告警后,系统将会周期采样,预测剩余空闲内存是否会在30秒之内耗尽,如果预测结果为会在30秒之内耗尽,则系统会重启单板。
系统监控到剩余空闲内存值达到一级、二级、三级告警门限以及预告警门限后,用户在Console或Telnet登录设备,以及执行每条命令时,都会显示当前内存使用情况。
(1) 进入系统视图。
system-view
(2) 配置内存利用率阈值。
memory-threshold [ slot slot-number [ cpu cpu-number ] ] usage memory-threshold
缺省情况下,内存利用率阈值为100%。
(3) 配置空闲内存告警的门限值。
memory-threshold [ slot slot-number [ cpu cpu-number ] ] [ ratio ] minor minor-value severe severe-value critical critical-value normal normal-value
缺省情况下,一级告警门限为256MB,二级告警门限为192MB,三级告警门限为128MB,系统恢复到正常的内存门限为320MB。
部分业务的运行需要使用DMA(Direct Memory Access,直接内存存取)内存,如果DMA内存不足,会导致业务模块功能异常。系统周期监控DMA空闲内存大小:当DMA空闲内存小于或等于告警阈值,产生告警事件,表示DMA内存可能不足;当DMA空闲内存大于告警恢复阈值,产生告警解除事件,表示DMA内存充足。
DMA内存告警通知会同时向NETCONF、SNMP和信息中心三个方向输出,通过配置NETCONF、SNMP、信息中心功能,告警最终能以NETCONF事件、SNMP Trap或Inform消息、日志的形式发送给用户。NETCONF、SNMP、信息中心的详细介绍请参见“网络管理和监控配置指导”中的“NETCONF”、“SNMP”、“信息中心”。
(1) 进入系统视图。
system-view
(2) 配置DMA内存告警阈值。
memory-threshold dma [ slot slot-number [ cpu cpu-number ] ] [ ratio ] critical critical-value normal normal-value
缺省情况下,告警阈值为2048KB,告警恢复阈值为4096KB。
(3) 配置发送DMA内存告警事件的间隔。
monitor resend memory-threshold dma critical-interval critical-interval [ slot slot-number [ cpu cpu-number ] ]
undo monitor resend memory-threshold dma critical-interval [ slot slot-number [ cpu cpu-number ] ]
缺省情况下,DMA内存告警事件的间隔为300秒。
可在任意视图下执行以下命令:
· 显示设备的内存使用状态。
display memory [ summary ] [ slot slot-number [ cpu cpu-number ] ]
· 显示DMA内存的使用情况。
display memory dma [ slot slot-number [ cpu cpu-number ] ]
· 显示内存告警门限相关信息。
display memory-threshold [ slot slot-number [ cpu cpu-number ] ]
· 显示DMA内存告警相关信息
display memory-threshold dma [ slot slot-number [ cpu cpu-number ] ]
配置本功能后,系统会按照指定周期对磁盘利用率进行采样,并将采样值和用户配置的告警门限比较。当采样值大时,则认为磁盘利用率过高,系统会发送告警通知。
磁盘利用率告警通知会同时向NETCONF和信息中心两个方向输出,通过配置NETCONF、信息中心功能,告警最终能以NETCONF事件、日志的形式发送给用户。NETCONF、信息中心的详细介绍请参见“网络管理和监控配置指导”中的“NETCONF”、“信息中心”。
(1) 进入系统视图。
system-view
(2) 配置磁盘利用率的采样周期。
monitor disk-usage interval interval
缺省情况下,磁盘利用率的采样周期为300秒。
(3) 配置磁盘利用率告警门限。
monitor disk-usage [ slot slot-number ] disk disk-name threshold threshold-value
缺省情况下,磁盘利用率告警门限为90%。
该功能可实现将指定的ACL业务匹配规则通过EM引擎下发,从而扩大设备支持的ACL业务匹配规则的数量。当前支持通过EM引擎下发的ACL业务匹配规则包含IP Source Guard、MQC目的IPv4地址、INOF、静态AC、动态AC、MAC-VLAN和IPFIX,业务匹配规则的具体介绍请见“ACL和QoS命令参考”中的“ACL”。
当业务匹配规则被绑定到EM资源池时,则ACL将使用EM资源(设备中的一种转发表项资源,和MAC地址,路由表存放在相同的硬件存储空间中)进行报文匹配处理。使用EM资源进行报文匹配处理可以提升设备进行报文匹配的规格数量。
例如,IPFIX业务匹配规则包含“IPv4承载的协议类型 + 源IPv4地址 + 目的IPv4地址 + 源端口号 + 目的端口号”。如果设备上仅配置了“IPv4承载的协议类型 + 源IPv4地址 + 目的IPv4地址 + 源端口号 + 目的端口号”ACL业务匹配规则,未将IPFIX业务匹配规则绑定到EM资源池,则ACL匹配规则使用TCAM(ternary content addressable memory)进行报文匹配,但TCAM的匹配规格数量有限,因此可以在完成“IPv4承载的协议类型 + 源IPv4地址 + 目的IPv4地址 + 源端口号 + 目的端口号”ACL业务匹配规则配置后,将IPFIX绑定到EM资源池。这样,设备将使用EM资源对此类业务进行报文匹配。
如果需要清除指定EM资源池中绑定的所有业务匹配规则,请执行hardware-resource { EM0 | EM1 } null命令。
通过EM资源匹配的MQC目的IPv4地址业务仅支持应用在二层端口入方向,且仅适合于不区分ACL规则或CB对顺序优先级的场景。
EM1暂不支持绑定业务匹配规则。
在IRF模式下,绑定EM0资源池后需手动将配置保存到从设备中,以确保设备重启后配置不丢失。
(1) 进入系统视图。
system-view
(2) 绑定使用EM资源的业务匹配规则。
hardware-resource { EM0 | EM1 } { null | ipsg | mqc-dstipv4 | inof | static-ac | dynamics-ac | mac-vlan | ipfix } slot slot-number
可在任意视图下执行以下命令,显示绑定到EM资源的业务匹配规则。
display hardware-resource [ EM0 | EM1 ] slot slot-number
通过以下配置任务,用户可以根据实际应用的需要配置不同的温度告警门限,来监控设备上不同位置温度传感器的温度。
设备可配置的温度告警门限包括:低温告警门限、一般级(Warning)高温告警门限、严重级(Alarm)高温告警门限。
如果温度低于低温告警门限、高于一般级或严重级高温门限,系统均会生成相应的日志信息和告警信息提示用户,并通过设备面板上的指示灯来告警,以便用户及时进行处理。
(1) 进入系统视图。
system-view
(2) 配置设备的温度告警门限。
temperature-limit slot slot-number { hotspot } sensor-number lowlimit warninglimit [ alarmlimit ]
不同温度传感器的温度门限可能不同,请先使用undo temperature-limit命令恢复缺省情况后,再通过display environment命令查看设备的缺省温度告警门限。
高温告警门限必须大于低温告警门限;Alarm高温告警门限必须大于Warning高温告警门限。
可在任意视图下执行以下命令,显示设备的温度信息。
display environment [ slot slot-number ]
仅S5580X-EI系列交换机支持通过display device manuinfo fan命令查看风扇的电子标签信息。
可在任意视图下执行以下命令:
· 显示风扇的工作状态。
display fan [ slot slot-number [ fan-id ] ]
· 显示指定风扇的电子标签信息。
display device manuinfo slot slot-number fan fan-id
在开启环路检测功能或生成树协议的网络中,某些协议模块(比如STP、DLDP等)会自动关闭某个端口。在协议自动关闭端口的同时,系统会启动一个检测端口状态的定时器。当定时器超时,如果该端口仍处于关闭状态,则系统自动将端口恢复到真实的物理状态。本功能用于配置系统检测端口状态定时器的时长。
(1) 进入系统视图。
system-view
(2) 配置端口状态检测定时器的时长。
shutdown-interval time
缺省情况下,端口状态检测定时器时长为30秒。
可以通过显示可插拔接口模块的主要特征参数或者电子标签信息来识别可插拔接口模块。
· 可插拔接口模块的主要特征参数包括:模块型号、连接器类型、发送激光的中心波长、信号的有效传输距离、模块生产厂商名称等信息。
· 电子标签信息也可以称为永久配置数据或档案信息,在光模块或者设备的调试、测试过程中被写入到光模块或者设备的存储器件中,包括光模块或者设备的名称、生产序列号、MAC地址、制造商等信息。
另外,当设备上插入的光模块的生产厂商不是H3C时,设备会打印Log信息提醒用户,要求用户更换成H3C的光模块,以便管理和维护光模块。关于Log输出规则的配置请参见“设备管理配置指导”中的“信息中心”。
请在任意视图下执行以下命令。
· 显示可插拔接口模块的主要特征参数。
display transceiver interface [ interface-type interface-number ]
· 显示可插拔接口模块的电子标签信息。
display transceiver manuinfo interface [ interface-type interface-number ]
系统提供故障告警信息描述了可插拔接口模块的故障来源,以便用户诊断和解决故障。系统还提供了数字诊断功能,其原理是对影响光模块工作的关键参数进行监控(这些关键参数包括:温度、电压、激光偏置电流、发送光功率和接收光功率等),当这些参数的值异常时,用户可以采取相应的措施,预防故障发生。
请在任意视图下执行以下命令。
· 显示可插拔接口模块的当前故障告警信息。
display transceiver alarm interface [ interface-type interface-number ]
· 显示可插拔光模块的数字诊断参数的当前测量值。
display transceiver diagnosis interface [ interface-type interface-number ]
光模块健康度是系统根据光模块的5个诊断参数各自的权重值计算得出的。诊断参数分别为温度、电压、偏置电流、发送光功率和接收光功率。
配置光模块健康度检测功能后,设备会自动检测光模块的状态,根据配置光模块健康度的计算权重,计算出光模块的健康度信息,以及各诊断参数对应的健康度信息。
用户在开启光模块健康度检查功能,并配置光模块健康度的计算权重之后,可使用display transceiver health命令用来查看光模块的健康度信息。健康度的数值越高表示光模块越健康。
配置光模块健康度的计算权重,即配置光模块的温度、电压、偏置电流、发送光功率和接收光功率在健康度中的计算权重值,各计算权重值之和必须为100。
(1) 进入系统视图。
system-view
(2) 开启光模块健康度检测功能。
transceiver health check enable
缺省情况下,光模块健康度检测功能处于关闭状态。
(3) 配置光模块健康度的计算权重。
transceiver health weight temp temp-weight voltage volage-weight bias bias-weight rxpower rxpower-weight txpower txpower-weight
缺省情况下,光模块健康度的计算权重如下:temp权重值为15,voltage权重值为5,bias权重值为30,rxpower权重值为10,txpower权重值为40。
可在任意视图下执行以下命令,显示光模块的健康度信息。
display transceiver health interface [ interface-type interface-number ]
可在任意视图下执行以下命令,显示设备的硬件信息。
display device [flash | usb ] [ slot slot-number [ subslot subslot-number ] | verbose ]
可在任意视图下执行以下命令,显示设备的电子标签信息。
display device manuinfo [ slot slot-number ]
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!