• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C SR8800-F路由器 维护宝典-R838x-6W101

06-例行维护

本章节下载 06-例行维护  (367.97 KB)

06-例行维护


1 简介

本文档介绍维护人员在设备例行维护中应该注意的事项,以及例行维护的项目、参考标准和操作步骤。

1.1  例行维护的目的

例行维护是指维护人员定期对设备进行系统检查和维护,是一种以预防和保养为主的维护。

例行维护可以帮助维护人员及时发现并消除设备存在的缺陷或隐患、维持设备的健康水平,从而使设备能够长期稳定地运行。

1.2  例行维护的分类

根据维护实施的周期长短,可将例行维护分为日常例行维护和定期例行维护。

1.2.1  日常例行维护

日常维护是指每天进行的、维护过程相对简单、并可由一般维护人员实施的维护操作,如机房环境检查、供电系统检查、告警系统检查、设备运行检查等。

日常维护的目的包括:

·     及时发现设备所发出的告警或已存在的缺陷,并采取适当的措施进行恢复和处理,维持设备的健康水平,降低设备的故障率。

·     及时发现业务运行过程中各链路状态或连接状态的异常现象,并采取适当的措施进行恢复和处理,确保业务正常运行。

·     及时掌握设备和网络的运行状况,了解设备或网络的运行趋势,提高维护人员对突发事件的处理效率。

1.2.2  定期例行维护

定期维护是指按一定周期进行的、维护过程相对复杂、且多数情况下须由经过专门培训的维护人员实施的维护操作,如定期检查接地系统、定期进行设备除尘等。

定期维护的目的包括:

·     通过定期维护和保养设备,使其健康水平长期处于良好状态,确保系统能够持续稳定运行。

·     通过定期检查、备份、测试、清洁等手段,及时发现设备在运行过程中所出现的自然老化、功能失效、性能下降等缺陷,并采取适当的处理措施,以消除潜在的隐患和预防事故的发生。

1.3  例行维护注意事项

在维护本设备之前,请仔细阅读并遵守以下注意事项。

系统安全

·     系统管理员应妥善保管好管理级密码,并定期修改。

·     严格控制不同用户角色的使用权限,确保权限最小化。

数据安全

·     定期备份系统数据。

·     数据的修改应授权、受控进行。

·     维护人员在修改数据前必须进行数据备份,并对修改的内容进行记录。

·     维护人员应对重大操作(如倒换单板、复位系统等)做好记录,并在操作前仔细确认操作的可行性,进行相应的数据备份,做好应急恢复和安全措施。

操作安全

·     对设备硬件进行操作前应佩戴防静电腕带,并确保防静电腕带可靠接地。

·     替换下来的硬件部件应装入防静电袋妥善保管。

维护规范

·     维护人员在上岗前必须接受必要的维护培训,学习必要的设备维护知识,掌握设备的基本操作技能和应急处理技能,并严格遵守操作规程和行业安全规程,确保人身安全与设备安全。

·     维护人员应充分重视例行维护的重要性,参照本手册的例行维护建议,定期对设备进行检查与测试,并做好记录。

·     在维护过程中如果遇到疑难问题,请先详细记录各种原始信息,然后及时联系H3C技术支持。

·     严禁维护人员在维护终端上安装或运行非标准软件(如防火墙软件、防病毒软件、盗版软件等),否则可能导致不可预料的后果。

2 例行维护项目

设备的稳定运行不仅依赖于完备的网络规划,同时需要平时的维护、监测和及时发现设备运行隐患。

例行维护项目提供了对设备日常、月度和年度维护工作的基本参考和建议,包括机房环境、设备及单板运行状态、端口状态、路由协议等。

2.1  例行维护项目列表

根据实际维护需求,可按照每日、每周、每月、每年度等周期进行例行维护。

表1 建议例行维护项目

维护周期

维护项目

机房温度,湿度状况

告警、日志

设备温度、电压状态

设备风扇、电源状态

系统稳定状态

CPU占用状态、内存占用状态

单板运行状态

路由信息

BFD会话信息

配置变化情况检查

系统时间

端口光功率检查

接口流量及错误报文统计

OSPF/ISIS/BGP/PIM/LDP邻居状态

LSP(Label Switched Path,标签交换路径)信息

NTP服务信息状态

管理级用户控制

Telnet登录控制

SSH登录控制

配置备份

通风口检查

接地系统维护

标签状况检查

 

2.2  例行维护项目及操作

表2 例行维护项目操作

维护项目

建议维护周期

操作指导

参考标准

机房状况

机房温度状况

观测机房内温度计指示

·     长期工作环境温度:冷通道或机柜进风区域的温度:18℃~27℃

·     若机房的环境温度长期不能满足要求,应考虑检修或更换机房的空调系统

·     检查空调制冷度、开关情况等,空调制冷应完好无损,开关接触良好

机房湿度状况

观测机房内湿度计指示

·     在正常情况下,机房的长期工作环境相对湿度:冷通道或机柜进风区域的相对湿度应小于60%RH

·     若机房的相对湿度过大,应考虑为机房安装除湿设备;若机房的相对湿度过小,应考虑为机房安装加湿设备

通风口检查

检查通风口通畅情况

观察设备入风口和出风口通畅,无异物堵塞

-

清洁除尘

防尘部件除尘、风扇框除尘、单板除尘

·     季度

防尘部件除尘

·     年

风扇框除尘

·     每两年

单板除尘

·     防尘部件除尘:拆掉防尘网,轻拍掉防尘网上较多的灰尘,然后用清水清洗防尘网或用软毛刷、吸尘器将防尘网上的灰尘清理、吸净

·     风扇框除尘:用干净、干燥的棉纱布、防静电软毛刷或吸尘器等工具将风扇框的风扇叶片、控制电路板上的灰尘清理、吸净

·     单板除尘:用干净、干燥的防静电软毛刷轻刷掉单板表面灰尘,同时将吸尘器的吸嘴对准毛刷,即边刷边吸;或使用专用的无水、无腐蚀、不导电、高挥发性的电路板清洗剂对单板进行除尘

-

接地系统维护

检查接地系统

·     保证机柜内的金属结构件与机架体之间电气的良好连接

·     检查接地电缆已良好连接,接地螺钉无松动

-

标签状况检查

检查线缆及设备上的物理标签状况

·     对于线缆及设备上的重要信息,应该悬挂物理标签,进行标识

·     保证物理标签信息正确,且字迹清晰

-

基本信息

告警

执行display alarm命令

·     无告警信息

·     如果有告警,需要记录

日志

执行display logbuffer命令

·     没有大量重复的日志信息

·     没有异常的日志信息

·     如果出现大量重复或异常的日志信息,需要立即分析并处理

配置变化情况检查

·     执行display current-configuration命令查看设备生效的配置

·     执行display saved-configuration命令查看下次启动配置文件的内容

·     设备生效的配置与下次启动配置文件的内容相同

·     配置必须与用户的要求保持一致

执行display current-configuration diff命令查看下次启动配置文件与运行配置之间的差异

下次启动配置文件应该与当前运行配置保持一致

运行状况

设备温度

执行display environment命令

各模块的当前温度(Temperature)应该大于低温告警门限(LowerLimit),小于一般级高温告警门限(WarningLimit)

设备电压

执行display voltage 命令

·     单板的当前电压值(Voltage)应该大于低压告警门限(LowLimit),小于高压告警门限(HighLimit)

·     单板的电压状态(Status)应为正常状态(Normal)

风扇状态

执行display fan命令

风扇工作状态(State)应为正常状态(Normal)

电源状态

执行display power命令

电源工作状态(State)应为正常状态(Normal)

系统时间

执行display clock命令

·     通过该命令查询系统日期和时间。时间应与当地实际时间一致(时间差不大于5分钟)

·     如果不一致,请配置系统时钟,详细配置请参见《基础命令参考》中“设备管理管理”

系统稳定状态

执行display system stable state命令

·     系统状态(System state)应为稳定运行(Stable),如果系统状态未处于稳定运行状态,不能进行ISSU升级

·     主备状态(Redundancy state)应为主备状态稳定(Stable),如果主备状态未处于状态稳定,不能进行主备倒换

·     单板状态(State)应为稳定运行状态(Stable)

CPU和内存

使用情况

执行display health命令

·     CPU的利用率应低于70%,内存利用率应低于90%

·     如果利用率长时间过高或持续增长,应检查设备,查询原因

单板运行状态

执行display device verbose命令

单板状态(Status)应处于正常工作状态(Normal)

端口光功率检查

执行display transceiver diagnosis interface命令

RX power(dBm)表示接收光功率,TX power(dBm)表示发送光功率,Alarm thresholds表示告警门限,正常情况下,接收光功率和发送光功率应当处于低告警门限(Low)与高告警门限(High)范围之内

接口流量及

错误报文统计

执行display interface link-info命令

·     显示最近一个统计周期内接收和发送报文的流量。把当前流量和接口带宽比较,如果利用率超过端口带宽的80%,需要记录并确认

·     并检查接口下的入方向InErrs和出方向OutErrs是否有错误统计,重点关注错误统计的增长情况,并且参考出现错误包的时间间隔

业务运行项

OSPF邻居状态

执行display ospf peer命令

·     正常情况下,邻居状态(State)为“2-Way”或“FULL”

·     正常情况下,要求该邻居建立状态稳定,不频繁反复建立

IS-IS邻居状态

执行display isis peer命令

邻居状态(State)为“UP”

BGP邻居状态

执行display bgp peer命令

邻居状态(State)为“Established”

PIM邻居状态

执行display pim neighbor命令

PIM邻居总数(Total Number of Neighbors)与预期结果相同

LDP邻居状态

执行display mpls ldp peer命令

邻居状态(State)为“Operational”

LSP信息

执行display mpls lsp

LSP(Label Switched Path,标签交换路径)信息与预期结果相同

路由信息

执行display ip routing-tabledisplay ipv6 routing-table命令,进行如下操作:

·     与前一次记录的路由信息比较,检查是否有明显变化

·     并可抽样对其中的路由项进行ping或者tracert操作

·     正常情况下,路由表中有默认路由

·     对于处于一个网络中同一层次的设备,如果运行相同的路由协议,各设备上的路由条目应该相差不大(因为静态路由的配置差异,路由条目上可能存在一定差异)

BFD会话信息

执行display bfd session命令

会话状态(State)应处于“UP”

NTP服务信息状态

执行display ntp-service status命令

系统时间的状态(Clock status)应处于时间未同步状态(synchronized)

用户及安全管理

管理级用户控制

执行display local-user命令

·     查看设备上的用户配置,保证用户配置正确且符合安全标准

·     查看设备上的用户配置,如果设备上存在不需要的用户配置,请删除

Telnet登录控制

1.     根据设备上配置telnet server acltelnet server ipv6 acl命令,使用ACL限制IPv4 Telnet或IPv6 Telnet客户端

2.     执行display acl命令,查看设备上ACL限制IPv4 Telnet或IPv6 Telnet客户端的配置

·     保证ACL限制IPv4 Telnet或IPv6 Telnet客户端的配置正确,且符合安全标准

·     如果设备上存在不需要的ACL限制IPv4 Telnet或IPv6 Telnet客户端的配置,请删除

SSH登录控制

1.     根据设备上配置ssh server aclssh server ipv6 acl命令,设置对IPv4 SSH或IPv6 SSH客户端的访问控制

2.     执行display acl命令,查看设备上对IPv4 SSH或IPv6 SSH客户端的访问控制

·     保证对IPv4 SSH或IPv6 SSH客户端的访问控制正确,且符合安全标准

·     如果设备上存在不需要的对IPv4 SSH或IPv6 SSH客户端的访问控制,请删除

配置备份

备份、恢复配置文件

·     在命令行界面上,执行display current-configuration命令,直接拷贝所有显示信息到TXT文本文件中,从而将配置文件备份到维护终端的硬盘中

·     在用户视图下,使用backup startup-configuration命令将设备的主用下次启动配置文件备份到TFTP服务器

·     在用户视图下,使用restore startup-configuration命令从TFTP服务器上下载配置文件并设置为设备的主用下次启动配置文件

配置文件必须每日进行备份

3 常用维护命令

本章介绍设备在维护过程中常用的命令。

表3 常用维护命令表

命令

功能描述

display alarm active

显示设备当前仍未恢复的告警信息

display bgp peer

显示BGP对等体或对等体组的状态和统计信息

display bfd session

显示BFD会话信息

display current-configuration diff

显示下次启动配置文件与运行配置之间的差异

display device verbose

显示设备的详细信息

display environment

显示设备上温度传感器的温度信息

display fan

显示风扇的工作状态

display health

显示CPU和内存的使用情况

display igmp group

显示IGMP组播组(即通过IGMP加入的组播组)的信息

display interface link-info

显示接口的状态和报文统计等信息

display isis peer

显示IS-IS的邻居信息

display link-aggregation verbose

显示已有聚合接口所对应聚合组的详细信息

display logbuffer

显示日志缓冲区的状态和日志缓冲区记录的日志信息

display mpls ldp peer

显示LDP对等体和LDP会话信息

display msdp brief

显示MSDP对等体的简要信息

display non-stop-routing status

显示所有支持NSR(Nonstop Routing,不间断路由)功能模块的NSR状态信息

display ntp-service status

显示NTP服务的状态信息

display ospf peer

显示OSPF中各区域邻居的信息

display ospfv3 peer

显示OSPFv3的邻居信息

display pim neighbor

显示PIM邻居信息

display power

显示设备电源的信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display system stable state

显示系统的稳定状态

ping

检查指定IP地址是否可达,并输出相应的统计信息

ping ipv6

检查指定IPv6地址是否可达,并输出相应的统计信息

tracert

查看IPv4报文从源端传到目的端所经过的路径

tracert ipv6

查看IPv6报文从源端传到目的端所经过的路径

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们