手册下载
H3C SeerEngine-Campus故障处理手册-E61XX-5W101-整本手册.pdf (611.69 KB)
故障处理手册
资料版本:5W101-20211126
Copyright © 2021 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
目 录
本文档介绍H3C SeerEngine-Campus常见故障的诊断及处理措施。
当出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。
· 记录您所使用的SeerEngine-Campus版本、Linux操作系统版本、统一数字底盘版本、EIA版本、DHCP Server版本。
· 记录具体的故障现象、故障时间、配置信息。
· 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
· 收集日志信息和诊断信息(收集方法见1.2 收集故障诊断信息)。
· 记录现场采取的故障处理措施及实施后的现象效果。
您可以通过如下步骤,查看SeerEngine-Campus的诊断信息。
(1) 在浏览器(如Chrome)中输入统一数字底盘 GUI的登录地址(格式为:http://统一数字底盘_ip_address:30000/portal/),回车后打开GUI的登录界面。输入用户名和密码后,单击<登录>按钮进入统一数字底盘 GUI首页。
(2) 在统一数字底盘的系统设置界面中,单击[系统>日志管理]菜单项,进入日志信息页面,单击操作日志信息、系统日志信息和运行日志信息子菜单,可以查看系统的对应日志信息,如图1-1所示。在各个页面中都可以按照时间来过滤显示指定信息,通过单击高级搜索菜单,可以显示高级搜索选项,支持按照用户名称、用户IP、节点名称、服务名称、模块名称、操作结果、操作描述、失败原因等条件进行过滤。单击日志信息列表中左上角的<导出>按钮,即可将当前过滤的日志信息导出并保存到本地。
当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。
用户支持邮箱:[email protected]
技术支持热线电话:400-810-0504(手机、固话均可拨打)
集群中所有控制器全部重启后,与License server成功建立连接,并且在License server上显示License已安装,但控制器或集群获取不到远端License的授权信息。
造成故障的原因可能为控制器或集群重启后,与License server的连接中断,而License server上会等待老化时间结束后再回收授权数据。在老化时间结束前,即使与License server成功建立连接也不会获取到授权信息。
故障处理步骤如下:
(1) 登录License server的管理界面,在客户端管理的连接管理页面中将对应的客户端强制下线。
(2) 登录统一数字底盘,然后单击[系统>License管理>License信息]菜单项,进入License信息页面,在远端License页面断开与License server的连接,并重新建立连接。
Matrix集群中的某个节点因为硬件故障无法恢复,需要更换新的节点服务器。
造成故障的原因可能为Matrix集群节点服务器的硬件出现故障,导致节点服务器运行异常,且无法恢复。
故障处理步骤如下:
(1) 在正常运行的Master节点服务器上,通过手动执行脚本来释放故障节点上容器所占用的IP地址。故障节点的主机名以matrix02为例,命令如下:
[root@matrix01 ~]# sh /opt/matrix/k8s/disaster-recovery/recovery.sh matrix02
(2) 更换新节点服务器,并确保新节点服务器的IP地址、用户名及密码与故障节点相同。
(3) 请从当前集群的主用Master节点中将/opt/matrix/app/install文件夹拷贝至新服务器的对应目录下。
(4) 在新节点服务器中安装Matrix软件安装包,安装过程请参见《H3C Matrix容器化应用部署平台安装指导》。
(5) 登录Matrix集群Master界面,在[部署/集群]页面下单击故障节点右上角的按钮,选择[禁用]菜单项禁用节点,等待节点禁用完成后,再单击[启用]菜单项启用该节点,等待节点启用完成后,即可完成更换服务器的操作。
在OpenFlow设备(只支持Spine、Leaf设备)上配置好OpenFlow连接,但在控制器上,单击[保障/控制器信息]菜单项,单击指定控制器的Region信息链接,进入的Region详细信息页面中无法监控到该网络设备的相关信息。
造成故障的原因可能有如下几种:
· OpenFlow设备配置的控制器IP地址错误。
· 控制器与OpenFlow设备IP地址不可达。
故障处理步骤为:
(1) 登录OpenFlow设备,检查设备上的配置是否正确,确保配置的控制器IP地址是正确的,如果不正确,请在设备上重新配置控制器IP地址,方法如图4-1所示。
图4-1 设备上的OpenFlow基本配置示意图
(2) 确保OpenFlow设备到控制器的IP地址是可达的,如果不可达,请排查网络故障。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
控制器和OpenFlow设备建立好OpenFlow连接后,出现控制器与网络设备连接时断时续的现象。
造成故障的原因可能有如下几种:
· 当前网络不通畅。
· 单个Region中流量过大。
故障处理步骤为:
(1) 检查当前网络配置,确保当前网络环境稳定。网络不通畅,可导致连接不稳定。
(2) 单个Region中流量过大,可导致网络拥塞,OpenFlow保活报文不能正常交互。请检查当前OpenFlow连接的TCP通道是否繁忙,在控制器所在的操作系统上通过root用户权限执行netstat -anp | grep 6633命令,如图4-2所示。如果第1列(recive buff)和第2列(send buff)都持续保持较高的状态(200K~250K),请将本台控制器上连接的部分OpenFlow设备迁移到其它控制器上,尽量保持流量均匀。
图4-2 TCP通道状态示意图
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
控制器和OpenFlow设备建立OpenFlow连接后,在控制器GUI界面上,单击[基础网络/资源/设备资源]菜单项,在进入的物理设备页签可以查看到设备信息,但无法查看设备概要、端口等信息。
造成故障的原因可能有如下几种:
· OpenFlow连接异常。
· 同步控制器的Region配置异常。
故障处理步骤为:
(1) 登录OpenFlow设备,通过display openflow instance instance-id controller(以instance 1为例)命令查看OpenFlow连接是否正常,控制器角色是否下发正常,如图4-3所示。如果都是equal状态,请在控制器上创建一个Region或者将OpenFlow设备连接到Region中。
(2) 确保设备同步的控制器的Region配置正常,查看[基础网络/Fabrics/Fabric[xx]/交换设备[yy]网元-详情]中详情信息中“已选Region”是否存在,如图4-4所示,如果不存在,请参考1.2 收集故障诊断信息,查看RegionInfo文件夹下的日志,在Global Master Cache项中查看是否存在该设备MAC地址对应的记录。如果没有,在OpenFlow设备上断开与控制器的连接后重新连接(如果业务流量可以正常处理,只是无法查看设备的概要、端口、流表和组表信息,不建议进行本操作)。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
上层应用下发NETCONF配置失败,例如添加物理网元后,新增的物理网元状态为Inactive,并提示“OpenFlow连接失败”或“NETCONF连接失败”。
(1) 确认网络设备与控制器端物理连接是否中断。分别登录控制器和网络设备,查看物理端口的网线连接是否正常,链路状态是否UP。
(2) 确认网络设备和控制器的NETCONF相关配置是否一致。如网络设备是否开启了基于HTTPS的NETCONF over SOAP功能;控制器使用的NETCONF用户名和密码与网络设备上的NETCONF用户名和密码是否一致。若不一致,请修改网络设备或控制器的NETCONF配置。
(3) 确认网络设备和其它设备建立的NETCONF会话数是否已达上限。因为网络设备能够建立的NETCONF会话数有限,如果网络设备和其它设备建立的NETCONF会话已达上限,就无法再和控制器建立NETCONF会话,此时需要删除网络设备和其它设备建立的NETCONF会话或调整网络设备的NETCONF会话上限。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
Access设备应用下发配置失败,例如添加Access物理网元后,新增的物理网元状态为Inactive,并提示“配置未下发完成”。
(1) Access设备应用下发配置失败,例如添加Access物理网元后,新增的物理网元状态为Inactive,并提示“配置未下发完成”确认网络设备与控制器端物理连接是否中断。分别登录控制器和网络设备,查看物理端口的网线连接是否正常,链路状态是否UP。
(2) 确认网络设备和控制器的SNMP相关配置是否一致。如网络设备是否开启了基于SNMP的功能;控制器使用的SNMP读写团体字与网络设备上的SNMP的读写团体字是否一致。若不一致,请修改网络设备或控制器的SNMP配置。
(3) 以上步骤需要在Leaf和Access上都做排查。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
Access设备应用下发配置失败,例如添加Access物理网元后,新增的物理网元状态为Inactive,并提示“配置未下发完成”。
(1) Access设备应用下发配置失败,例如添加Access物理网元后,新增的物理网元状态为Inactive,并提示“配置未下发完成”确认网络设备与控制器端物理连接是否中断。分别登录控制器和网络设备,查看物理端口的网线连接是否正常,链路状态是否UP。
(2) 确认网络设备和其直连Leaf/Access的LLDP相关配置是否正确。如网络设备是否开启了全局LLDP的功能;和其直连的Leaf/Access设备的接口下LLDP配置是否已开启。若没有启用,请打开上述功能。
(3) 以上步骤需要在网络设备和其直连的Leaf和Access上都做排查。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
物理网元创建后一直是Inactive状态,无法激活。
造成故障的原因可能有如下几种:
· 受限于License规格。
· 物理网元与控制器网络不通。
· 控制器与物理网元之间的NETCONF通信失败。
· 控制器与物理网元之间的MIB通信失败
· 集群模式下,Region自动配置失败。
· 单机模式下,未配置单机控制器IP地址。
· 物理网元的LLDP配置被关闭。
故障解决办法:
(1) 控制器能够激活的物理网元数分别受Campus物理网元License控制,请检查对应License规格是否已达上限。如果是,建议进行License扩容;如果否,请继续进行下一步。
(2) 检查物理网元管理IP地址与控制器IP地址是否能够ping通。如果否,请排查网络故障;如果是,请继续进行下一步。
(3) 检查设备角色,确认设备实际角色和控制器上的设备角色是否一致。
(4) 检查控制器与物理网元之间的NETCONF通信是否正常,具体方法可以参见“5 NETCONF故障处理”。
(5) 检查控制器与物理网元之间的SNMP通信是否正常,具体方法可以参见“6 6 SNMP故障处理”。
(6) 检查物理网元之间的LLDP通信是否正常,具体方法可以参见“7 LLDP故障处理”。
(7) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。