• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C SeerEngine-Campus故障处理手册-E61XX-5W101

手册下载

H3C SeerEngine-Campus故障处理手册-E61XX-5W101-整本手册.pdf  (611.69 KB)

  • 发布时间:2021/12/4 20:29:23
  • 浏览量:
  • 下载量:

H3C SeerEngine-Campus

故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W101-20211126

 

Copyright © 2021 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



1 简介

本文档介绍H3C SeerEngine-Campus常见故障的诊断及处理措施。

1.1  故障处理注意事项

当出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

·     记录您所使用的SeerEngine-Campus版本、Linux操作系统版本、统一数字底盘版本、EIA版本、DHCP Server版本。

·     记录具体的故障现象、故障时间、配置信息。

·     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

·     收集日志信息和诊断信息(收集方法见1.2  收集故障诊断信息)。

·     记录现场采取的故障处理措施及实施后的现象效果。

1.2  收集故障诊断信息

您可以通过如下步骤,查看SeerEngine-Campus的诊断信息。

(1)     在浏览器(如Chrome)中输入统一数字底盘 GUI的登录地址(格式为:http://统一数字底盘_ip_address:30000/portal/),回车后打开GUI的登录界面。输入用户名和密码后,单击<登录>按钮进入统一数字底盘 GUI首页。

(2)     在统一数字底盘的系统设置界面中,单击[系统>日志管理]菜单项,进入日志信息页面,单击操作日志信息、系统日志信息和运行日志信息子菜单,可以查看系统的对应日志信息,如1-1所示在各个页面中都可以按照时间来过滤显示指定信息,通过单击高级搜索菜单,可以显示高级搜索选项,支持按照用户名称、用户IP、节点名称、服务名称、模块名称、操作结果、操作描述、失败原因等条件进行过滤。单击日志信息列表中左上角的<导出>按钮,即可将当前过滤的日志信息导出并保存到本地。

 

图1-1 运行日志信息页面

 

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:[email protected]

技术支持热线电话:400-810-0504(手机、固话均可拨打)


2 产品授权的故障处理

2.1  集群重启后获取不到远端License信息

2.1.1  故障描述

集群中所有控制器全部重启后,与License server成功建立连接,并且在License server上显示License已安装,但控制器或集群获取不到远端License的授权信息。

2.1.2  故障处理步骤

造成故障的原因可能为控制器或集群重启后,与License server的连接中断,而License server上会等待老化时间结束后再回收授权数据。在老化时间结束前,即使与License server成功建立连接也不会获取到授权信息。

故障处理步骤如下:

(1)     登录License server的管理界面,在客户端管理的连接管理页面中将对应的客户端强制下线。

(2)     登录统一数字底盘,然后单击[系统>License管理>License信息]菜单项,进入License信息页面,在远端License页面断开与License server的连接,并重新建立连接。

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。


3 集群节点异常故障处理

3.1  集群节点服务器硬件故障无法恢复,必须更换节点服务器

3.1.1  故障描述

Matrix集群中的某个节点因为硬件故障无法恢复,需要更换新的节点服务器。

3.1.2  故障处理步骤

造成故障的原因可能为Matrix集群节点服务器的硬件出现故障,导致节点服务器运行异常,且无法恢复。

故障处理步骤如下:

(1)     在正常运行的Master节点服务器上,通过手动执行脚本来释放故障节点上容器所占用的IP地址。故障节点的主机名以matrix02为例,命令如下:

[root@matrix01 ~]# sh /opt/matrix/k8s/disaster-recovery/recovery.sh matrix02

(2)     更换新节点服务器,并确保新节点服务器的IP地址、用户名及密码与故障节点相同。

(3)     请从当前集群的主用Master节点中将/opt/matrix/app/install文件夹拷贝至新服务器的对应目录下。

(4)     在新节点服务器中安装Matrix软件安装包,安装过程请参见《H3C Matrix容器化应用部署平台安装指导》。

(5)     登录Matrix集群Master界面,在[部署/集群]页面下单击故障节点右上角的按钮,选择[禁用]菜单项禁用节点,等待节点禁用完成后,再单击[启用]菜单项启用该节点,等待节点启用完成后,即可完成更换服务器的操作。


4 OpenFlow故障处理

4.1  控制器与OpenFlow设备无法建立连接

4.1.1  故障描述

OpenFlow设备(只支持SpineLeaf设备)上配置好OpenFlow连接,但在控制器上,单击[保障/控制器信息]菜单项,单击指定控制器的Region信息链接,进入的Region详细信息页面中无法监控到该网络设备的相关信息。

4.1.2  故障处理步骤

造成故障的原因可能有如下几种:

·     OpenFlow设备配置的控制器IP地址错误。

·     控制器与OpenFlow设备IP地址不可达

故障处理步骤为:

(1)     登录OpenFlow设备,检查设备上的配置是否正确,确保配置的控制器IP地址是正确的,如果不正确,请在设备上重新配置控制器IP地址,方法如4-1所示。

图4-1 设备上的OpenFlow基本配置示意图

gw-------.JPG

 

(2)     确保OpenFlow设备到控制器的IP地址是可达的,如果不可达,请排查网络故障。

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

4.2  控制器与OpenFlow设备连接不稳定

4.2.1  故障描述

控制器和OpenFlow设备建立好OpenFlow连接后,出现控制器与网络设备连接时断时续的现象。

4.2.2  故障处理步骤

造成故障的原因可能有如下几种:

·     当前网络不通畅。

·     单个Region中流量过大。

故障处理步骤为:

(1)     检查当前网络配置,确保当前网络环境稳定。网络不通畅,可导致连接不稳定。

(2)     单个Region中流量过大,可导致网络拥塞,OpenFlow保活报文不能正常交互。请检查当前OpenFlow连接的TCP通道是否繁忙,在控制器所在的操作系统上通过root用户权限执行netstat -anp | grep 6633命令,如4-2所示。如果第1列(recive buff)和第2列(send buff)都持续保持较高的状态(200K~250K),请将本台控制器上连接的部分OpenFlow设备迁移到其它控制器上,尽量保持流量均匀。

图4-2 TCP通道状态示意图

 

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

4.3  无法查看设备信息

4.3.1  故障描述

控制器和OpenFlow设备建立OpenFlow连接后,在控制器GUI界面上,单击[基础网络/资源/设备资源]菜单项,在进入的物理设备页签可以查看到设备信息,但无法查看设备概要、端口等信息。

4.3.2  故障处理步骤

造成故障的原因可能有如下几种:

·     OpenFlow连接异常。

·     同步控制器的Region配置异常。

故障处理步骤为:

(1)     登录OpenFlow设备,通过display openflow instance instance-id controller(以instance 1为例)命令查看OpenFlow连接是否正常,控制器角色是否下发正常,如4-3所示。如果都是equal状态,请在控制器上创建一个Region或者OpenFlow设备连接到Region中。

图4-3 控制器角色正常下发示意图

 捕获.PNG

 

(2)     确保设备同步的控制器的Region配置正常,查看[基础网络/Fabrics/Fabric[xx]/交换设备[yy]网元-详情]中详情信息中“已选Region”是否存在,如4-4所示,如果不存在,请参考1.2  收集故障诊断信息,查看RegionInfo文件夹下的日志,在Global Master Cache项中查看是否存在该设MAC地址对应的记录。如果没有,在OpenFlow设备上断开与控制器的连接后重新连接(如果业务流量可以正常处理,只是无法查看设备的概要、端口、流表和组表信息,不建议进行本操作)。

图4-4 控制器上网元详情页面

 

 

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

5 NETCONF故障处理

5.1  NETCONF通信失败

5.1.1  故障描述

上层应用下发NETCONF配置失败,例如添加物理网元后,新增的物理网元状态为Inactive,并提示“OpenFlow连接失败”或“NETCONF连接失败”。

5.1.2  故障处理步骤

(1)     确认网络设备与控制器端物理连接是否中断。分别登录控制器和网络设备,查看物理端口的网线连接是否正常,链路状态是否UP

(2)     确认网络设备和控制器的NETCONF相关配置是否一致。如网络设备是否开启了基于HTTPSNETCONF over SOAP功能;控制器使用的NETCONF用户名和密码与网络设备上的NETCONF用户名和密码是否一致。若不一致,请修改网络设备或控制器的NETCONF配置。

(3)     确认网络设备和其它设备建立的NETCONF会话数是否已达上限。因为网络设备能够建立的NETCONF会话数有限,如果网络设备和其它设备建立的NETCONF会话已达上限,就无法再和控制器建立NETCONF会话,此时需要删除网络设备和其它设备建立的NETCONF会话或调整网络设备的NETCONF会话上限。

(4)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

6 SNMP故障处理

6.1  SNMP通信失败

6.1.1  故障描述

Access设备应用下发配置失败,例如添加Access物理网元后,新增的物理网元状态为Inactive,并提示“配置未下发完成”。

6.1.2  故障处理步骤

(1)     Access设备应用下发配置失败,例如添加Access物理网元后,新增的物理网元状态为Inactive,并提示“配置未下发完成”确认网络设备与控制器端物理连接是否中断。分别登录控制器和网络设备,查看物理端口的网线连接是否正常,链路状态是否UP

(2)     确认网络设备和控制器的SNMP相关配置是否一致。如网络设备是否开启了基于SNMP的功能;控制器使用的SNMP读写团体字与网络设备上的SNMP的读写团体字是否一致。若不一致,请修改网络设备或控制器的SNMP配置。

(3)     以上步骤需要在LeafAccess上都做排查。

(4)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。


7 LLDP故障处理

7.1  LLDP通信失败

7.1.1  故障描述

 Access设备应用下发配置失败,例如添加Access物理网元后,新增的物理网元状态为Inactive,并提示“配置未下发完成”。

7.1.2  故障处理步骤

(1)     Access设备应用下发配置失败,例如添加Access物理网元后,新增的物理网元状态为Inactive,并提示“配置未下发完成”确认网络设备与控制器端物理连接是否中断。分别登录控制器和网络设备,查看物理端口的网线连接是否正常,链路状态是否UP

(2)     确认网络设备和其直连Leaf/AccessLLDP相关配置是否正确。如网络设备是否开启了全局LLDP的功能;和其直连的Leaf/Access设备的接口下LLDP配置是否已开启。若没有启用,请打开上述功能。

(3)     以上步骤需要在网络设备和其直连的LeafAccess上都做排查。

(4)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。


8 承载网络故障处理

8.1  物理网元创建后无法激活

8.1.1  故障描述

物理网元创建后一直是Inactive状态,无法激活。

8.1.2  故障处理步骤

造成故障的原因可能有如下几种:

·     受限于License规格。

·     物理网元与控制器网络不通。

·     控制器与物理网元之间的NETCONF通信失败

·     控制器与物理网元之间的MIB通信失败

·     集群模式下,Region自动配置失败。

·     单机模式下,未配置单机控制器IP地址。

·     物理网元的LLDP配置被关闭。

故障解决办法:

(1)     控制器能够激活的物理网元数分别受Campus物理网元License控制,请检查对应License规格是否已达上限。如果是,建议进行License扩容;如果否,请继续进行下一步。

(2)     检查物理网元管理IP地址与控制器IP地址是否能够ping通。如果否,请排查网络故障;如果是,请继续进行下一步。

(3)     检查设备角色,确认设备实际角色和控制器上的设备角色是否一致。

(4)     检查控制器与物理网元之间的NETCONF通信是否正常,具体方法可以参见“5 NETCONF故障处理

(5)     检查控制器与物理网元之间的SNMP通信是否正常,具体方法可以参见“6 6 SNMP故障处理

(6)     检查物理网元之间的LLDP通信是否正常,具体方法可以参见“7 LLDP故障处理

(7)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

 

新华三官网
联系我们