06-例行维护
本章节下载: 06-例行维护 (367.97 KB)
本文档介绍维护人员在设备例行维护中应该注意的事项,以及例行维护的项目、参考标准和操作步骤。
例行维护是指维护人员定期对设备进行系统检查和维护,是一种以预防和保养为主的维护。
例行维护可以帮助维护人员及时发现并消除设备存在的缺陷或隐患、维持设备的健康水平,从而使设备能够长期稳定地运行。
根据维护实施的周期长短,可将例行维护分为日常例行维护和定期例行维护。
日常维护是指每天进行的、维护过程相对简单、并可由一般维护人员实施的维护操作,如机房环境检查、供电系统检查、告警系统检查、设备运行检查等。
日常维护的目的包括:
· 及时发现设备所发出的告警或已存在的缺陷,并采取适当的措施进行恢复和处理,维持设备的健康水平,降低设备的故障率。
· 及时发现业务运行过程中各链路状态或连接状态的异常现象,并采取适当的措施进行恢复和处理,确保业务正常运行。
· 及时掌握设备和网络的运行状况,了解设备或网络的运行趋势,提高维护人员对突发事件的处理效率。
定期维护是指按一定周期进行的、维护过程相对复杂、且多数情况下须由经过专门培训的维护人员实施的维护操作,如定期检查接地系统、定期进行设备除尘等。
定期维护的目的包括:
· 通过定期维护和保养设备,使其健康水平长期处于良好状态,确保系统能够持续稳定运行。
· 通过定期检查、备份、测试、清洁等手段,及时发现设备在运行过程中所出现的自然老化、功能失效、性能下降等缺陷,并采取适当的处理措施,以消除潜在的隐患和预防事故的发生。
· 系统管理员应妥善保管好管理级密码,并定期修改。
· 严格控制不同用户角色的使用权限,确保权限最小化。
· 定期备份系统数据。
· 数据的修改应授权、受控进行。
· 维护人员在修改数据前必须进行数据备份,并对修改的内容进行记录。
· 维护人员应对重大操作(如倒换单板、复位系统等)做好记录,并在操作前仔细确认操作的可行性,进行相应的数据备份,做好应急恢复和安全措施。
· 对设备硬件进行操作前应佩戴防静电腕带,并确保防静电腕带可靠接地。
· 替换下来的硬件部件应装入防静电袋妥善保管。
· 维护人员在上岗前必须接受必要的维护培训,学习必要的设备维护知识,掌握设备的基本操作技能和应急处理技能,并严格遵守操作规程和行业安全规程,确保人身安全与设备安全。
· 维护人员应充分重视例行维护的重要性,参照本手册的例行维护建议,定期对设备进行检查与测试,并做好记录。
· 在维护过程中如果遇到疑难问题,请先详细记录各种原始信息,然后及时联系H3C技术支持。
· 严禁维护人员在维护终端上安装或运行非标准软件(如防火墙软件、防病毒软件、盗版软件等),否则可能导致不可预料的后果。
设备的稳定运行不仅依赖于完备的网络规划,同时需要平时的维护、监测和及时发现设备运行隐患。
例行维护项目提供了对设备日常、月度和年度维护工作的基本参考和建议,包括机房环境、设备及单板运行状态、端口状态、路由协议等。
根据实际维护需求,可按照每日、每周、每月、每年度等周期进行例行维护。
维护周期 |
维护项目 |
日 |
机房温度,湿度状况 |
告警、日志 |
|
设备温度、电压状态 |
|
设备风扇、电源状态 |
|
系统稳定状态 |
|
CPU占用状态、内存占用状态 |
|
单板运行状态 |
|
路由信息 |
|
BFD会话信息 |
|
月 |
配置变化情况检查 |
系统时间 |
|
端口光功率检查 |
|
接口流量及错误报文统计 |
|
OSPF/ISIS/BGP/PIM/LDP邻居状态 |
|
LSP(Label Switched Path,标签交换路径)信息 |
|
NTP服务信息状态 |
|
管理级用户控制 |
|
Telnet登录控制 |
|
SSH登录控制 |
|
配置备份 |
|
通风口检查 |
|
接地系统维护 |
|
年 |
标签状况检查 |
表2 例行维护项目操作
维护项目 |
建议维护周期 |
操作指导 |
参考标准 |
机房状况 |
|||
机房温度状况 |
日 |
观测机房内温度计指示 |
· 长期工作环境温度:冷通道或机柜进风区域的温度:18℃~27℃ · 若机房的环境温度长期不能满足要求,应考虑检修或更换机房的空调系统 · 检查空调制冷度、开关情况等,空调制冷应完好无损,开关接触良好 |
机房湿度状况 |
日 |
观测机房内湿度计指示 |
· 在正常情况下,机房的长期工作环境相对湿度:冷通道或机柜进风区域的相对湿度应小于60%RH · 若机房的相对湿度过大,应考虑为机房安装除湿设备;若机房的相对湿度过小,应考虑为机房安装加湿设备 |
通风口检查 |
|||
检查通风口通畅情况 |
月 |
观察设备入风口和出风口通畅,无异物堵塞 |
- |
清洁除尘 |
|||
防尘部件除尘、风扇框除尘、单板除尘 |
· 季度 防尘部件除尘 · 年 风扇框除尘 · 每两年 单板除尘 |
· 防尘部件除尘:拆掉防尘网,轻拍掉防尘网上较多的灰尘,然后用清水清洗防尘网或用软毛刷、吸尘器将防尘网上的灰尘清理、吸净 · 风扇框除尘:用干净、干燥的棉纱布、防静电软毛刷或吸尘器等工具将风扇框的风扇叶片、控制电路板上的灰尘清理、吸净 · 单板除尘:用干净、干燥的防静电软毛刷轻刷掉单板表面灰尘,同时将吸尘器的吸嘴对准毛刷,即边刷边吸;或使用专用的无水、无腐蚀、不导电、高挥发性的电路板清洗剂对单板进行除尘 |
- |
接地系统维护 |
|||
检查接地系统 |
月 |
· 保证机柜内的金属结构件与机架体之间电气的良好连接 · 检查接地电缆已良好连接,接地螺钉无松动 |
- |
标签状况检查 |
|||
检查线缆及设备上的物理标签状况 |
年 |
· 对于线缆及设备上的重要信息,应该悬挂物理标签,进行标识 · 保证物理标签信息正确,且字迹清晰 |
- |
基本信息 |
|||
告警 |
日 |
执行display alarm命令 |
· 无告警信息 · 如果有告警,需要记录 |
日志 |
日 |
执行display logbuffer命令 |
· 没有大量重复的日志信息 · 没有异常的日志信息 · 如果出现大量重复或异常的日志信息,需要立即分析并处理 |
配置变化情况检查 |
月 |
· 执行display current-configuration命令查看设备生效的配置 · 执行display saved-configuration命令查看下次启动配置文件的内容 |
· 设备生效的配置与下次启动配置文件的内容相同 · 配置必须与用户的要求保持一致 |
月 |
执行display current-configuration diff命令查看下次启动配置文件与运行配置之间的差异 |
下次启动配置文件应该与当前运行配置保持一致 |
|
运行状况 |
|||
设备温度 |
日 |
执行display environment命令 |
各模块的当前温度(Temperature)应该大于低温告警门限(LowerLimit),小于一般级高温告警门限(WarningLimit) |
设备电压 |
日 |
执行display voltage 命令 |
· 单板的当前电压值(Voltage)应该大于低压告警门限(LowLimit),小于高压告警门限(HighLimit) · 单板的电压状态(Status)应为正常状态(Normal) |
风扇状态 |
日 |
执行display fan命令 |
风扇工作状态(State)应为正常状态(Normal) |
电源状态 |
日 |
执行display power命令 |
电源工作状态(State)应为正常状态(Normal) |
系统时间 |
月 |
执行display clock命令 |
· 通过该命令查询系统日期和时间。时间应与当地实际时间一致(时间差不大于5分钟) · 如果不一致,请配置系统时钟,详细配置请参见《基础命令参考》中“设备管理管理” |
系统稳定状态 |
日 |
执行display system stable state命令 |
· 系统状态(System state)应为稳定运行(Stable),如果系统状态未处于稳定运行状态,不能进行ISSU升级 · 主备状态(Redundancy state)应为主备状态稳定(Stable),如果主备状态未处于状态稳定,不能进行主备倒换 · 单板状态(State)应为稳定运行状态(Stable) |
CPU和内存 使用情况 |
日 |
执行display health命令 |
· CPU的利用率应低于70%,内存利用率应低于90% · 如果利用率长时间过高或持续增长,应检查设备,查询原因 |
单板运行状态 |
日 |
执行display device verbose命令 |
单板状态(Status)应处于正常工作状态(Normal) |
端口光功率检查 |
月 |
执行display transceiver diagnosis interface命令 |
RX power(dBm)表示接收光功率,TX power(dBm)表示发送光功率,Alarm thresholds表示告警门限,正常情况下,接收光功率和发送光功率应当处于低告警门限(Low)与高告警门限(High)范围之内 |
接口流量及 错误报文统计 |
月 |
执行display interface link-info命令 |
· 显示最近一个统计周期内接收和发送报文的流量。把当前流量和接口带宽比较,如果利用率超过端口带宽的80%,需要记录并确认 · 并检查接口下的入方向InErrs和出方向OutErrs是否有错误统计,重点关注错误统计的增长情况,并且参考出现错误包的时间间隔 |
业务运行项 |
|||
OSPF邻居状态 |
月 |
执行display ospf peer命令 |
· 正常情况下,邻居状态(State)为“2-Way”或“FULL” · 正常情况下,要求该邻居建立状态稳定,不频繁反复建立 |
IS-IS邻居状态 |
月 |
执行display isis peer命令 |
邻居状态(State)为“UP” |
BGP邻居状态 |
月 |
执行display bgp peer命令 |
邻居状态(State)为“Established” |
PIM邻居状态 |
月 |
执行display pim neighbor命令 |
PIM邻居总数(Total Number of Neighbors)与预期结果相同 |
LDP邻居状态 |
月 |
执行display mpls ldp peer命令 |
邻居状态(State)为“Operational” |
LSP信息 |
月 |
执行display mpls lsp |
LSP(Label Switched Path,标签交换路径)信息与预期结果相同 |
路由信息 |
日 |
执行display ip routing-table和display ipv6 routing-table命令,进行如下操作: · 与前一次记录的路由信息比较,检查是否有明显变化 · 并可抽样对其中的路由项进行ping或者tracert操作 |
· 正常情况下,路由表中有默认路由 · 对于处于一个网络中同一层次的设备,如果运行相同的路由协议,各设备上的路由条目应该相差不大(因为静态路由的配置差异,路由条目上可能存在一定差异) |
BFD会话信息 |
日 |
执行display bfd session命令 |
会话状态(State)应处于“UP” |
NTP服务信息状态 |
月 |
执行display ntp-service status命令 |
系统时间的状态(Clock status)应处于时间未同步状态(synchronized) |
用户及安全管理 |
|||
管理级用户控制 |
月 |
执行display local-user命令 |
· 查看设备上的用户配置,保证用户配置正确且符合安全标准 · 查看设备上的用户配置,如果设备上存在不需要的用户配置,请删除 |
Telnet登录控制 |
月 |
1. 根据设备上配置telnet server acl或telnet server ipv6 acl命令,使用ACL限制IPv4 Telnet或IPv6 Telnet客户端 2. 执行display acl命令,查看设备上ACL限制IPv4 Telnet或IPv6 Telnet客户端的配置 |
· 保证ACL限制IPv4 Telnet或IPv6 Telnet客户端的配置正确,且符合安全标准 · 如果设备上存在不需要的ACL限制IPv4 Telnet或IPv6 Telnet客户端的配置,请删除 |
SSH登录控制 |
月 |
1. 根据设备上配置ssh server acl或ssh server ipv6 acl命令,设置对IPv4 SSH或IPv6 SSH客户端的访问控制 2. 执行display acl命令,查看设备上对IPv4 SSH或IPv6 SSH客户端的访问控制 |
· 保证对IPv4 SSH或IPv6 SSH客户端的访问控制正确,且符合安全标准 · 如果设备上存在不需要的对IPv4 SSH或IPv6 SSH客户端的访问控制,请删除 |
配置备份 |
|||
备份、恢复配置文件 |
月 |
· 在命令行界面上,执行display current-configuration命令,直接拷贝所有显示信息到TXT文本文件中,从而将配置文件备份到维护终端的硬盘中 · 在用户视图下,使用backup startup-configuration命令将设备的主用下次启动配置文件备份到TFTP服务器 · 在用户视图下,使用restore startup-configuration命令从TFTP服务器上下载配置文件并设置为设备的主用下次启动配置文件 |
配置文件必须每日进行备份 |
本章介绍设备在维护过程中常用的命令。
表3 常用维护命令表
命令 |
功能描述 |
display alarm active |
显示设备当前仍未恢复的告警信息 |
display bgp peer |
显示BGP对等体或对等体组的状态和统计信息 |
display bfd session |
显示BFD会话信息 |
display current-configuration diff |
显示下次启动配置文件与运行配置之间的差异 |
display device verbose |
显示设备的详细信息 |
display environment |
显示设备上温度传感器的温度信息 |
display fan |
显示风扇的工作状态 |
display health |
显示CPU和内存的使用情况 |
display igmp group |
显示IGMP组播组(即通过IGMP加入的组播组)的信息 |
display interface link-info |
显示接口的状态和报文统计等信息 |
display isis peer |
显示IS-IS的邻居信息 |
display link-aggregation verbose |
显示已有聚合接口所对应聚合组的详细信息 |
display logbuffer |
显示日志缓冲区的状态和日志缓冲区记录的日志信息 |
display mpls ldp peer |
显示LDP对等体和LDP会话信息 |
display msdp brief |
显示MSDP对等体的简要信息 |
display non-stop-routing status |
显示所有支持NSR(Nonstop Routing,不间断路由)功能模块的NSR状态信息 |
display ntp-service status |
显示NTP服务的状态信息 |
display ospf peer |
显示OSPF中各区域邻居的信息 |
display ospfv3 peer |
显示OSPFv3的邻居信息 |
display pim neighbor |
显示PIM邻居信息 |
display power |
显示设备电源的信息 |
display transceiver diagnosis |
显示可插拔光模块的数字诊断参数的当前测量值 |
display system stable state |
显示系统的稳定状态 |
ping |
检查指定IP地址是否可达,并输出相应的统计信息 |
ping ipv6 |
检查指定IPv6地址是否可达,并输出相应的统计信息 |
tracert |
查看IPv4报文从源端传到目的端所经过的路径 |
tracert ipv6 |
查看IPv6报文从源端传到目的端所经过的路径 |
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!