手册下载
H3C SeerEngine-DC 故障处理手册-E37xx-5W700-整本手册.pdf (676.76 KB)
资料版本:5W700-20210425
Copyright © 2021 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
10.2 Underlay网络VTEP IP地址和VSR网关无法互通
10.3 Underlay网络VTEP IP地址和TOR网关无法互通
11.2 网关型防火墙处于Active状态,但防火墙并未生效
11.4 服务链型防火墙处于Active状态,但防火墙并未生效
12.5 网关型负载均衡器处于Active状态,但功能未生效
16.1 Openstack上创建的虚拟机正常,但该虚拟机在SeerEngine上没有上线
18.1 本端设备DR接口虚拟机上线并下发配置后,对端设备的同一分布式聚合组的DR接口未下发备份配置
19.1 主机Overlay上线的虚拟机和网络Overlay上线的虚拟机流量无法互通
本文档介绍H3C SeerEngine-DC常见故障的诊断及处理措施。
当出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位,与设备相关的故障请先参考“H3C SeerEngine-DC 设备预配置指导”文档检查预配置是否正确。
· 记录您所使用的H3C SeerEngine-DC版本、SNA Center版本、Matrix版本。
· 记录具体的故障现象、故障时间、配置信息。
· 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
· 收集日志信息和诊断信息(收集方法见1.2 收集故障诊断信息)。
· 记录现场采取的故障处理措施及实施后的现象效果。
您可以通过如下步骤,收集SeerEngine-DC的诊断信息。
(1) 在浏览器中输入SNA Center GUI的登录地址(格式为:http://SNA_Center_ip_address:10080/portal/),回车后打开SNA Center GUI的登录界面。输入用户名和密码后,单击<登录>按钮进入SNA Center GUI首页。
(2) 在SNA Center GUI界面中,单击[设置>日志>信息>诊断日志]菜单项,进入诊断日志页面,如图1-1所示。然后选择组件名称为“VCFCDC”,单击下方的<导出>按钮,将导出的诊断日志信息保存到本地。
此操作会将三台控制器节点的诊断信息全部导出。
当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。
用户支持邮箱:[email protected]
技术支持热线电话:400-810-0504(手机、固话均可拨打)
控制器集群与License Server无法建立连接
造成故障的原因可能有如下几种:
· 控制器与License Server网络不通。
· License Server上没有创建客户端连接的用户信息。
· 用户名或密码不对。
故障处理步骤如下:
(1) 检查控制器和License Server之间的网络是否正常。
(2) 登录到License Server的管理界面,在[License/客户端连接]页面中检查是否创建了用户信息,如果用户信息已经创建,确认控制器侧用户名和密码输入是否正确。
查看成员控制器的状态信息,显示为down。
(1) 在控制器信息页面中,查看控制器信息列表备注栏的提示,如果显示“控制器IP不可达”或“连接超时”,请检查控制器是否宕机或网络是否中断。如果控制器宕机请重新上电;如果网络故障,请排查故障线路,确保网络可达。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
控制器由单机模式扩容为多机集群后,在控制器上进行了删除并增加同一成员控制器的操作,概率出现成员控制器显示状态为down。
若成员控制器和Leader控制器通信异常时删除了某成员控制器,可能会导致该控制器数据残留。再次加入该控制器时,成员控制器显示状态将为down。
(1) 在控制器修改集群页面,删除指定的成员控制器。
(2) 登录SNA Center,单击[设置]区域,单击[组件>组件]菜单项,进入组件管理页面,选择需要扩容的组件,单击操作区段的按钮,进入扩容页面,在该页面删除指定的主机信息。
(3) 选择需要扩容的主机,完成网络和主机上行口的关联,单击<确定>按钮,在下方区域确认扩容后的集群信息,确认完成后,单击<扩容>按钮,开始扩容。
(4) 扩容完成后,登录控制器,在修改集群页面,单击<增加控制器>按钮,重新添加成员控制器。
一个OpenFlow实例连接属于不同Region的多个控制器,导致网络设备和控制器上的Master角色不一致。
将一个OpenFlow实例配置为连接到属于不同Region的多个控制器,控制器会根据自身配置向设备下发角色信息,OpenFlow实例上的控制器角色信息会以连接的任意控制器最后一次下发的角色信息为准,导致之前下发的角色信息被覆盖,从而改变Region中控制器的角色。比如RegionA中控制器a的角色是Master,控制器b的角色是Subordinate,RegionB中控制器c的角色是Master,控制器d的角色是Subordinate,如果同一个OpenFlow实例先后与a,b,c,d四台控制器建立连接,那么在OpenFlow实例上显示以控制器c为Master,其他三台控制器都是Subordinate,而在控制器上来看,控制器a和c都认为自己是该OpenFlow实例的Master。可通过如下步骤进行故障处理:
(1) 确保一个OpenFlow实例只受控于一个Region内的两台控制器,可按如下两种方式处理:
· 处理方案一:以设备的配置为准,首先确保设备上的OpenFlow实例只连接了两台控制器,如果多于两台,请删除多余的配置,然后修改Region配置,将OpenFlow实例连接的两台控制器配置到一个Region内。
· 处理方案二:以控制器配置为准,修改设备的OpenFlow配置,使其OpenFlow实例连接到一个Region内的两台控制器上。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
创建/修改Region,提示某台控制器配置失败。
可能是网络故障导致的,可通过如下步骤进行故障处理:
(1) 在控制器信息页面中,查看控制器信息列表备注栏的提示,如果显示“控制器IP不可达”,请检查控制器是否宕机或网络是否中断。如果控制器宕机请重新上电或者重新安装控制器,如果网络故障,请排查故障线路,确保网络可达。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
导出集群内控制器诊断信息时,控制器诊断信息未成功导出或者导出的压缩包不能正常进行解压。
造成故障的原因可能为:受CPU过于繁忙、网络不稳定、日志过大等因素的影响,在导出集群诊断信息的时候与某台控制器连接超时,导致无法正常导出该控制器的诊断信息。
可通过如下两种方式获取该控制器的诊断信息:
· 在SNA Center GUI界面中,单击[设置>日志>信息>诊断日志]菜单项,进入诊断日志页面,选择组件名称为“VCFCDC”,单击下方的<导出>按钮,将导出的诊断日志信息保存到本地。
· 通过SSH登录到出现异常的控制器所在的服务器或虚拟机,进入控制器docker的/opt/sdn/virgo/serviceability/logs目录下,使用FTP等文件传输工具获取需要的诊断信息日志文件。
在OpenFlow设备上已配置OpenFlow连接,但在控制器[保障>控制器信息]页面的控制器信息区域,单击列表中Region区段的链接,在弹出的对话框中没有该网络设备的相关信息。
造成故障的原因可能有如下几种:
· OpenFlow设备配置的控制器IP地址错误。
· 控制器与OpenFlow设备IP地址不可达。
· 控制器的OpenFlow节点数License不足。
故障处理步骤为:
(1) 登录OpenFlow设备,检查设备上的配置是否正确,确保配置的控制器IP地址是正确的,如果不正确,请在设备上重新配置控制器IP地址,如图6-1所示。
图6-1 设备上的OpenFlow基本配置示意图
(2) 确保OpenFlow设备到控制器的IP地址是可达的,如果不可达,请排查网络故障。
(3) 通过display openflow summary命令查看OpenFlow是否已成功建立连接通道,如图6-2所示。
图6-2 网络设备OpenFlow连接状态示意图
如果连接通道状态不是Connected,在[保障>控制器信息]下查看OpenFlow总连接数是否小于等于[系统>License]中所示的OpenFlow节点数。如果OpenFlow节点数过小,请扩容License。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
控制器和OpenFlow设备建立OpenFlow连接后,出现控制器与网络设备连接时断时续的现象。
造成故障的原因可能有如下几种:
· 当前网络不通畅。
· 单个Region中流量过大。
故障处理步骤为:
(1) 检查当前网络配置,确保当前网络环境稳定。网络不通畅,可导致连接不稳定。
(2) 单个Region中流量过大,可导致网络拥塞,OpenFlow保活报文不能正常交互。请检查当前OpenFlow连接的TCP通道是否繁忙,在控制器docker内通过root用户权限执行netstat -anp | grep 6633命令,如图6-3所示。如果第1列(recive buff)和第2列(send buff)都持续保持较高的状态(200K~250K),请将本台控制器上连接的部分OpenFlow设备迁移到其它Region上,尽量保持流量均匀。
图6-3 TCP通道状态示意图
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
控制器和设备建立OpenFlow连接后,通过REST API静态方式下发流表项或者业务触发动态方式下发流表项,但设备上未查询到相关流表项信息。
造成故障的原因可能有如下几种:
· 设备的OpenFlow能力集不支持下发流表。
· 设备不识别Experimenter数据。
· 设备不能收到控制器的FlowMod消息。
故障处理步骤为:
(1) 使用REST API的GET /sdn/v2.0/of/datapaths/{dpid}/features/match接口确认设备的OpenFlow能力集是否支持下发流表项。如果不支持,请升级或更换设备。
(2) 若流表项中包含Experimenter数据,请根据设备手册确认设备是否识别Experimenter数据,如果不识别,请升级或更换设备。
(3) 打开设备的调试开关,观察是否可以成功接收到控制器的FlowMod消息。如果否,请检查控制器与设备的连接是否正常,具体方法请参见“6.2 控制器与OpenFlow设备连接不稳定”;如果是,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
上层应用下发NETCONF配置失败,例如添加物理设备后,新增的物理设备状态为Inactive,并提示“OpenFlow连接失败”或“NETCONF连接失败”。
(1) 检查网络设备管理IP地址与控制器IP地址是否能够ping通。如果否,请排查网络故障;如果是,请继续进行下一步。
(2) 确认网络设备和控制器的NETCONF相关配置是否一致。如网络设备是否使能了NETCONF SSH Server功能;控制器使用的NETCONF用户名和密码与网络设备上的NETCONF用户名和密码是否一致。若不一致,请修改网络设备或控制器的NETCONF配置。
(3) 确认网络设备和其它设备建立的NETCONF会话数是否已达上限。因为网络设备能够建立的NETCONF会话数有限,如果网络设备和其它设备建立的NETCONF会话已达上限,就无法再和控制器建立NETCONF会话,此时需要删除网络设备和其它设备建立的NETCONF会话或调整网络设备的NETCONF会话上限。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
物理设备状态为Inactive,并提示“NETCONF连接失败”。
(1) 检查网络设备是否使能了NETCONF SSH Server功能。
(2) 检查控制器使用的NETCONF用户名和密码与网络设备上的NETCONF用户名和密码是否一致。若不一致,请修改网络设备或控制器的NETCONF配置。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
系统日志提示“The controller has waited more than 20 minutes for a response from NETCONF server 192.168.100.3. Request content:*****”,表明控制器通过NETCONF向设备下发配置失败,设备未响应。
(1) 检查设备和控制器之间的IP网络是否正常可达,如果管理网异常,请修复管理网络。
(2) 检查设备是否CPU繁忙,内存不足或者出现其他异常情况。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
物理设备创建后一直是Inactive状态,无法激活。
造成故障的原因可能有如下几种:
· 受限于License规格。
· 物理设备与控制器网络不通。
· 该设备是边界设备,但未加入边界设备组。
· 控制器与物理设备之间的NETCONF通信失败。
· 集群模式下,Region自动配置失败。
故障解决办法:
(1) 控制器能够激活的物理设备数分别受OpenFlow节点数License和Overlay硬件设备License控制,请分别检查两者的License规格是否已达上限。如果是,建议进行License扩容;如果否,请继续进行下一步。
(2) 检查物理设备管理IP地址与控制器IP地址是否能够ping通。如果否,请排查网络故障;如果是,请继续进行下一步。
(3) 检查物理设备类型,如果设备类型是边界设备,请确保边界设备已加入到边界设备组。
(4) 检查控制器与物理设备之间的NETCONF通信是否正常,具体方法可以参见“7 NETCONF故障处理”。
(5) 如果控制器运行在集群模式,请检查物理设备是否已选择Region(可以通过单击控制器界面的[基础网络>资源>设备资源>物理设备]菜单项查看)。如果在线状态Inactive且提示“Region未激活或不存在”,则表示Region选择失败,请参见“8.3 集群模式下,设备自动配置Region失败”;如果显示其他信息,则表示Region已选择,请继续进行下一步。
(6) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
VNF资源创建后一直是Inactive状态,无法激活。
造成故障的原因可能有如下几种:
· 受限于License规格。
· VNF资源与控制器网络不通。
· 集群模式下,Region自动配置失败。
故障解决办法:
(1) 控制器能够激活的VNF资源数受OpenFlow节点数License控制,请检查OpenFlow节点数License规格是否已达上限,如果是,建议进行License扩容;如果否,请继续进行下一步。
(2) 检查VNF资源管理IP地址与控制器IP地址是否能够ping通。如果否,请排查网络故障;如果是,请继续进行下一步。
(3) 如果控制器运行在集群模式,请检查VNF资源是否已选择Region(可以通过单击控制器界面的[基础网络>资源>设备资源>虚拟设备]查看)。如果状态Inactive且提示“Region未激活或不存在”,则表示Region选择失败,请参见“8.3 集群模式下,设备自动配置Region失败”;如果显示其他信息,则表示Region已选择,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
在集群模式下创建设备后,设备自动选择Region失败。
造成故障的原因可能有如下几种:
· 未配置Region。
· 已配Region的管理设备网段不包含设备的管理IP地址。
故障解决办法:
(1) 在[系统>控制器>Region]页面,检查集群是否配置Region。如果否,请为集群配置对应的Region;如果是,请继续进行下一步。
在[系统>控制器>Region]页面,检查Region的“管理设备网段”是否包含设备的管理IP地址。如果否,请在[系统>控制器>Region]界面的“操作”区段,将设备IP地址所属网段添加到Region的管理设备网段中,或者新建一个未配置管理设备网段的Region;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
接入设备下的主机执行Ping指令操作,无法学习到MAC地址。
(1) 请确保与源、目的主机连接的接入设备已与控制器建立好OpenFlow连接。
(2) 检测主机对应的vPort信息配置是否正确,包括IP地址、MAC地址,以及主机归属的VLAN或VXLAN网络信息。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
接入设备侧主机启动后,使用ARP模块的REST API查看不到相应的主机信息。
(1) 确保控制器上已配置与主机相连的接入设备类型的物理设备。
(2) 确保接入设备类型的物理设备处于激活状态,如果否,检查物理设备配置的用户名和密码等信息是否正确;如果是,请继续下一步。
(3) 接入设备类型的物理设备激活后,在物理设备上确认是否存在ARP报文上送到控制器的流表,如果存在,则在当前主机上执行ping指令,尝试访问其他主机,通过源主机发送的报文促使控制器学习到主机信息;如果不存在,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
接入设备为vSwitch的虚拟机配置可用地址对之后,对应IP无法激活。网关上没有收到控制器发布的该IP对应的ARP表项。
(1) 确保虚拟机对应的虚拟端口已经为UP状态。
(2) 查看虚拟端口所在vSwitch主机上是否下发了该IP对应的ARP上送控制器的流表,并检查虚拟机上是否存在该IP,如果都存在,则在当前虚拟机上使用该IP执行Ping指令,尝试访问其他虚拟机,触发ARP报文上送控制器来激活该IP;如果不存在,请继续进行下一步。
(3) 检查可用地址对的IP地址与虚机的IP地址是否冲突。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
两台虚拟机之间无法互通。
造成故障的原因可能有如下几种:
· 虚拟机上不存在对应的ARP表项,或者表项不正确。
· 虚拟机所在的主机上不存在对应的流表或者流表错误。
· 虚拟机所在的主机间Underlay网络不通。
故障处理步骤如下:
(1) 检查虚拟机相应的虚拟端口和UPLINK接口等状态是否为up,两台虚拟机所在的网络类型是否一致,且虚拟机所在的子网都绑定在同一个虚拟路由器上,如果以上检查均符合要求,则继续进行下一步。
(2) 检查虚拟机里是否存在对应的ARP表项,如果否,则需要保证该两台虚拟机所在的主机均已在控制器上线;如果是,则检查ARP表项是否正确,如果不正确,请删除不正确的ARP表项。如果仍然无法解决,请继续进行下一步。
(3) 检查两台虚拟机所属的主机是否能够相互Ping通对方的VTEP IP地址,如果否,可能是ARP表项不正确,建议在控制器上删除主机后再添加主机。如果是,请继续进行下一步。
(4) 检查两台虚拟机是否配置了安全策略且相互放行了对方的IP地址,如果否,则请在两台虚机及绑定的安全策略中放行对方IP地址。如果是,请继续下一步。
(5) 在[基础网络 > 网络 > 计算域 > 主机> 主机数据同步详情]页面进行审计操作,查看虚拟机所在主机上流表是否一致,如果否,则进行数据同步,消除流表差异。如果是,请继续进行下一步。
(6) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
Underlay网络的主机VTEP IP地址和VSR网关无法互通。
造成故障的原因可能为主机的VTEP IP地址和VSR网关的IP地址属于同一网段。
故障处理步骤如下:
(1) 检查主机VTEP IP地址和VSR网关的IP地址是否处于同一网段,如果否,请继续进行下一步;如果是,请重新配置VTEP IP地址:
· 对于CAS环境:请在虚拟交换机上重新配置VTEP IP地址和VSR网关的IP地址不在同一网段。
· 对于KVM环境:请在Compute节点上重新配置VTEP IP地址和VSR网关的IP地址不在同一网段。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
Underlay网络,主机的VTEP IP地址和TOR网关无法互通。
造成故障的原因可能为主机的默认路由设置错误。
故障处理步骤如下:
(1) 检查主机的默认路由,查看默认路由的下一跳是否为TOR网关IP地址,如果否,请重新设置主机的默认路由;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
网关型防火墙创建成功后,显示为非Active状态。
造成故障的原因可能为创建网关型防火墙时没有绑定虚拟路由器。
故障处理步骤为:
(1) 检查防火墙是否绑定虚拟路由器。在[租户>服务>防火墙>防火墙>修改防火墙]页面查看该防火墙是否已绑定虚拟路由器,如果否,请修改防火墙配置,绑定虚拟路由器;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
网关型防火墙创建成功,状态变为Active,但防火墙并未生效。
造成故障的原因可能有如下几种:
· 虚拟路由器没有绑定外部网络。
· 外部网络没有创建子网。
· 虚拟路由器没有绑定网关。
· 虚拟路由器没有绑定内网子网。
· 网关资源与控制器没有建立OpenFlow连接。
· 网关资源不属于任何一个Region。
故障处理步骤为:
(1) 检查虚拟路由器是否绑定外部网络。进入[租户>您的网络>虚拟路由器]页面,查看虚拟路由器对应的“外部网络”列是否显示为“None”。如果是,请创建并绑定外部网络,外部网络可在[租户>公共网络设置>外部网络]页面进行创建;如果否,请继续进行下一步。
(2) 检查外部网络是否已创建子网。在[租户>公共网络设置>外部网络]页面,查看外部网络“子网信息”列是否显示“子网(0)”。如果是,请创建子网;如果否,请继续进行下一步。
(3) 检查虚拟路由器是否绑定网关。进入[租户>您的网络>虚拟路由器]页面,查看“网关资源”列是否已经绑定网关。如果否,请修改虚拟路由器配置,绑定网关;如果是,请继续进行下一步。
(4) 检查虚拟路由器是否绑定子网接口。进入[租户>您的网络>虚拟路由器]页面,查看“接口/子网”列是否显示“接口(0)”;如果是,请修改虚拟路由器配置,增加接口信息;如果否,请继续进行下一步。
(5) 检查网关资源与控制器是否建立OpenFlow连接。进入[租户>公共网络设置>出口网关]页面,查找网关型防火墙对应的虚拟路由器所在租户,点击网关成员确认设备组,然后进入[基础网络>资源>设备资源>边界设备组]页面,确认组成员设备,最后进入[基础网络>资源>设备资源>物理设备]检查控制器是否和网关设备建立OpenFlow连接。如果否,请参见“6.1 控制器与OpenFlow设备无法建立连接”进行处理;如果是,请继续进行下一步。
(6) 进入[保障>控制器信息]页面,单击“控制器信息”区域中相应的Region进入Region详细信息页面,检查网关资源是否属于某个Region。如果否,请检查Region是否已创建。如果Region已创建,请继续进行下一步。
(7) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
服务链型防火墙创建成功后,显示为非Active状态。
造成故障的原因可能有如下几种:
· 创建防火墙时没有绑定vFW资源。
· 该防火墙没有被服务链引用。
故障处理步骤为:
(1) 检查防火墙是否绑定资源。在[租户>服务>防火墙>防火墙]页面查看该防火墙对应的“安全域/资源”列是否为“资源(0)”;如果是,请创建资源,然后修改防火墙配置绑定资源;
(2) 检查服务链是否绑定防火墙。进入[租户>服务>服务链>服务链]页面,单击操作区域修改按钮查看服务链组件是否绑定该防火墙,如果否,请修改服务链配置,将对应实例拖拽至方框内服务链组件,并点击右上角<应用>按钮。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
服务链型防火墙创建成功,状态变为Active,但防火墙并未生效。
造成故障的原因可能为:vFW资源与控制器没有建立OpenFlow连接。
故障处理步骤为:
(1) 进入[租户>服务>防火墙>防火墙]页面,单击服务链类型防火墙的<资源>按钮,查找服务链型防火墙绑定的vFW资源,然后进入[基础网络>资源>设备资源>虚拟设备]页面,检查该vFW资源状态是否为active,对应的vFW资源是否和控制器建立OpenFlow连接。如果否,请参见“6.1 控制器与OpenFlow设备无法建立连接”进行处理;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
防火墙引用或修改策略及规则后,该策略或规则并未生效。
造成故障的原因可能有如下几种:
· 创建或修改策略时未勾选“激活”复选框。
· 创建或修改规则时未打开“激活”按钮。
故障处理步骤为:
(1) 检查指定策略配置是否已勾选“激活”。进入[租户>服务>防火墙>安全策略>策略]页面,查看该策略的“激活状态”列是否显示绿灯;如果否,请修改策略配置,单击操作区域激活按钮。
(2) 检查指定规则是否已激活。进入[租户>服务>防火墙>安全策略>规则]页面,查看该规则的“激活状态”列是否显示为“False”;如果是,请单击操作区段的修改按钮,在弹出的对话框中激活规则。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
服务网关型负载均衡器创建成功后,显示为非Active状态。
造成故障的原因可能有如下几种:
· 负载均衡器没有用监听器。
· 虚服务器状态为Down。
故障处理步骤为:
(1) 检查负载均衡器是否已引用监听器。进入[租户>服务>负载均衡>负载均衡器]页面,查看列表中指定负载均衡器的“监听器”是否显示“---”。如果是,请单击操作区段的修改按钮,在弹出的对话框中为负载均衡器添加监听器;如果否,请继续进行下一步。
(2) 进入[租户>服务>负载均衡>虚服务器]页面,查看虚服务器状态是否显示active,如果否,请参见“12.2虚服务器状态不是Active”进行处理;如果是,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
虚服务器创建成功后,显示为非Active状态。
造成故障的原因可能有如下几种:
· 虚拟子网没有被添加到虚拟路由器。
· 虚拟路由器没有绑定网关。
· 虚拟路由器没有配置外部网络。
故障解决办法为:
(1) 检查实服务器组绑定的虚拟子网是否已添加到虚拟路由器。进入[租户>您的网络>虚拟路由器]页面,单击所在路由器的修改按钮,查看相应子网是否已添加到虚拟路由器。如果否,请单击[接口/子网]的添加按钮,将相应的子网添加到路由器;如果是,请继续进行下一步。
(2) 检查虚拟路由器是否绑定网关。进入[租户>您的网络>虚拟路由器]页面,查看“网关资源”列虚拟路由器是否已经绑定网关。如果否,请修改虚拟路由器配置,绑定网关;如果是,请继续进行下一步。
(3) 检查虚拟路由器是否绑定外部网络。进入[租户>您的网络>虚拟路由器]页面,查看虚拟路由器对应的“外部网络”列是否显示为“None”。如果是,请创建并绑定外部网络,外部网络可在[租户>公共网络设置>外部网络]页面进行创建;如果否,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
在[服务>负载均衡>实服务器组>增加实服务器组]页面增加实服务组成员时,成员列表为空。
· 造成故障的原因可能为:虚拟子网下没有虚拟端口。
故障解决办法为:
(1) 进入[服务>负载均衡>虚拟端口]页面,检查实服务组成员对应的虚拟子网下是否存在虚拟端口,如果否,请配置虚拟端口上线;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
实服务组成员创建成功后,显示为非Active状态。
· 造成故障的原因可能为:实服务组成员关联的实服务器组没有被监听器引用。
故障解决办法为:
(1) 进入[租户>服务>负载均衡>监听器]页面,单击指定监听器操作区段的修改按钮,检查是否引用了正确的实服务组。如果否,请修改配置;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
网关型负载均衡器状态为Active,但功能未生效。
造成故障的原因可能有如下几种:
· 控制器没有和网关资源建立OpenFlow连接。
· Region的管理设备网段未包含网关资源。
故障解决办法为:
(1) 检查网关资源与控制器是否建立OpenFlow连接。如果否,请参见“6.1 控制器与OpenFlow设备无法建立连接”进行处理;如果是,请继续进行下一步。检查步骤如下:
a. 进入[租户>租户管理>全部租户]页面,选中负载均衡所属租户,单击列表中操作区段的修改按钮,查看租户绑定的出口网关。
b. 进入[租户>公共网络设置>出口网关]页面,查看出口网关对应的设备组。
c. 进入[基础网络>资源>设备资源>边界设备组]页面,查看设备组的成员设备。
d. 进入[基础网络>资源>设备资源>物理设备]页面,查看设备的在线状态是否为actice,如果是则表示检查控制器已和设备建立OpenFlow连接。
(2) 在[系统>控制器>Region]页面,检查Region的“管理设备网段”是否包含网关资源的管理IP地址。如果否,请在[系统>控制器>Region]界面的“操作”区段,将网关资源IP地址所属网段添加到Region的管理设备网段中;如果是,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
服务链创建成功后,显示为非Active状态。
故障解决办法为:
(1) 检查服务链上的所有服务实例是否已全部绑定资源,如果否,请修改服务实例配置,绑定资源。
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
服务链处于Active状态,但功能并未生效。
造成故障的原因可能有如下几种:
· 服务链指定的源和目的特征组与流量的源和目的特征不匹配。
· 服务链上的服务实例无法正常工作。
· 服务链路径上设备的流表不正确。
故障解决办法为:
(1) 检查服务链指定的源和目的流量特征组是否与流量的源和目的特征匹配。如果否,请修改服务链的源和目的流量特征组;如果是,请继续进行下一步。
(2) 检查服务链上的服务实例是否正常工作。如果否,请参见相应服务实例的故障处理部分;如果是,请继续进行下一步。
(3) 检查服务链路径上各个设备的下发配置是否正常。如果否,请检查配置下发是否正确;如果是,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
主机上线后,无法下发主机策略流表。
造成故障的原因可能有如下几种:
· 与主机连接的OpenFlow设备没有与控制器建立OpenFlow连接。
· 网络设备上OpenFlow实例的流表项数量和Meter表项数量达到了设备规格。
故障解决办法为:
(1) 检查与主机连接的OpenFlow设备与控制器是否已建立了OpenFlow连接。如果否,请参见“6.1 控制器与OpenFlow设备无法建立连接”进行处理;如果是,请继续进行下一步。
(2) 检查用户组及策略是否配置正确。如果否,请按需求进行配置;如果是,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
OpenFlow设备之间的网络接口处于up状态,但无法给设备下发流表(网络接口流表保证了网络接口上所有能触发主机学习的报文都不会上送控制器)。
造成故障的原因可能有如下几种:
· 与主机连接的OpenFlow设备没有与控制器建立OpenFlow连接。
· OpenFlow设备没有使能LLDP。
· 未开启发送BDDP报文来学习多跳链路的功能。
· 未开启链路超时机制。
故障解决办法为:
(1) 检查与主机连接的OpenFlow设备与控制器是否已建立OpenFlow连接 ,如果否,请参见“6.1 控制器与OpenFlow设备无法建立连接”进行处理,如果是,请继续进行下一步。
(2) 检查OpenFlow设备的组网配置是否正确,如果否,请按需求进行配置;如果是,请继续进行下一步。
(3) 进入[系统>参数]页面,在链路配置部分检查learn.multihop.links是否设置为true,如果否,请设置为true;如果是,请继续进行下一步。
(4) 进入[系统>参数]页面,在链路配置部分检查timeout.links是否设置为true,如果否,请设置为true;如果是,请继续进行下一步。
(5) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
新增或删除裸金属inspect映射表绑定的端口时,操作失败,提示“内部错误”,操作日志失败原因显示为“Internal server error”。
造成故障的原因可能为:裸金属BSM业务模块和NEM业务模块内存中部分接口类型不一致。
故障解决办法为:
(1) 进入[基础网络>网络>裸金属>接入端网络配置],单击inspect映射表的“应用到接口”按钮,记录裸金属inspect映射表绑定的所有设备和接口信息;进入[基础网络>资源>VNID池>VLAN-VXLAN映射],单击对应inspect映射表“应用到接口”列下的“接口”,记录设备模块绑定的所有设备和接口信息。
(2) 对比两个页面记录的接口信息,记录裸金属页面多于VLAN-VXLAN映射页面的接口信息,在裸金属页面中解绑记录的接口。
(3) 登录接入设备,为解绑的接口重新配置命令vtep access port(如果接口已加入聚合口,则需要退出聚合口并删除聚合组,然后重新配置命令vtep access port),再重新绑定至裸金属页面的Inspection类型映射表。
(4) 重新对比裸金属页面的映射表和VLAN-VXLAN映射页面的映射表绑定的接口信息,确保一一对应。
(5) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
在层次化端口绑定场景下,OpenStack上创建的虚拟机正常但该虚拟机未获取到IP地址,并且该虚拟机在SeerEngine上没有上线。
造成故障的原因可能有如下几种:
· 计算节点的LLDP服务未启动或LLDP服务挂死,导致计算节点未发送LLDP报文。
· Fabrics没有开启LLDP报文上送或DHCP上送控制器功能
· 虚拟机绑定的安全组没有设置入方向放行网关IP地址的规则。
故障处理步骤为:
(1) 在计算节点上对与S6800相连的接口抓包,检查该计算节点是否能正常发送LLDP报文。如果不能,开启计算节点的LLDP服务或重启计算节点的LLDP服务;如果能,请继续进行下一步。
(2) 登录SeerEngine-DC,在[基础网络>Fabrics]页面中检查与OpenStack对接使用的VDS的承载Fabric是否开启LLDP报文上送和DHCP上送控制器功能。如果未开启,请开启;如果已开启,请继续进行下一步。
(3) 在OpenStack的导航树中选择[项目/Compute/访问&安全],单击指定安全组的<管理规则>按钮,检查虚拟机绑定的安全组是否设置了入方向放行网关IP地址的规则。如果未设置,请设置;如果已设置,请继续进行下一步。
(4) 如果上述操作完成后故障扔无法排除,请联系H3C技术支持工程师。
数据中心间已创建数据中心三层互联配置,但三层流量不通。
造成故障的原因可能有如下几种:
· 边界设备不支持路由策略匹配及修改L3VNI功能。
· 多个数据中心控制器配置的Segment ID不相同。
· 引入RT和引出RT配置有误。
故障处理步骤为:
(1) 请确认边界设备是否支持路由策略匹配及修改L3VNI功能,如果不支持,请更换设备版本。
(2) 检查各数据中心控制器配置的数据中心三层互联的映射Segment ID是否相同,如果否,请修改为相同。
(3) 检查各数据中心控制器配置的数据中心三层互联的引入RT和引出RT是否匹配,如果否,请修改。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
同一分布式聚合组内两台设备已激活,其中一台设备上的DR接口虚拟机上线并下发了VSI及AC配置,对端设备上属于相同分布式聚合组的DR接口未下发相应的VSI及AC配置。
造成故障的原因可能有如下几种:
· 属于同一分布式聚合组的两台设备的DR接口未绑定相同的VLAN-VXLAN映射表。
· 对端设备的DR接口未配置为AC口,即未配置vtep access port命令。
故障处理步骤为:
(1) 检查两台设备上属于同一分布式聚合组的DR接口是否绑定了相同的VLAN-VXLAN映射表。如果否,请重新绑定相同的VLAN-VXLAN映射表。
(2) 检查对端设备上的DR接口是否配置了vtep access port命令,如果否,请重新配置。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
主机Overlay上线的虚拟机和网络Overlay上线的虚拟机流量无法互通。
造成故障的原因可能有如下几种:
· 控制器未纳管vBGP集群。
· 控制器未添加vBGP实例。
故障处理步骤为:
(1) 进入[基础网络>基础服务>BGP]页面,单击BGP集群,查看BGP集群是否已经建立;如果否,请创建集群;如果是,请继续进行下一步。
(2) 查看BGP集群状态是否为up状态,如果否,请进行步骤(4);如果是,请继续进行下一步。
(3) 进入[基础网络>基础服务>BGP]页面,单击BGP实例,查看BGP实例是否已经创建;如果否,请创建实例;如果是,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
vBGP集群的两个节点都为Master节点,导致路由发布和接收异常。
造成故障的原因可能有如下:两个vBGP节点之间网络不通。
故障处理步骤为:
(1) 请检查服务器网卡是否故障,网线是否松动,vBGP所属网段二层交换机通信是否故障,如果都正常,请继续进行下一步;
(2) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
vBGP实例与对等体建立的BGP会话状态异常。
造成故障的原因可能为:
· vBGP与其对等体之间链路异常。
· vBGP与对端设备间的BGP配置不一致。
故障处理步骤为:
(1) 请检查vBGP实例下对等体信息是否正确,如果否,请删除错误信息,重新添加正确的对等体信息;如果是,请继续进行下一步。
(2) 如果是IPv6组网配置,请检查vBGP集群的Router ID是否已配置,如果否,请配置Router ID信息;如果是,请继续进行下一步。
(3) 检查对端设备上BGP配置是否正常,如果否,请修改对端设备上BGP配置;如果是,请继续进行下一步。
(4) 检查在对端设备上是否能够Ping通vBGP的集群IP,如果否,则先确保Underlay网络通信正常;如果是,请继续进行下一步。
(5) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
集群重启后,一部分业务模块恢复失败。
造成故障的原因可能为:系统关键文件损坏。
故障处理步骤为:
(1) 请联系H3C技术支持工程师。
SeerEngine-DC和设备间的OVSDB链路出现故障,相关业务中断。
造成故障的原因可能有如下几种:
· 控制器与主机管理IP地址不能互通。
· 开启主机的SSL连接方式后,证书错误。
· 控制器上指定的OVSDB端口与vSwitch上OVSDB端口号不对应,或者vSwitch上没有开启OVSDB端口号的监听。
· vSwtich进程异常。
故障处理步骤为:
(1) 登录主机,通过netstat -apn | grep 6632(如果用户已修改默认端口号,此端口号请填写配置的端口号)命令查看OVSDB的端口监听状态。
· 如果可以显示对应端口的LISTEN状态,说明监控端口正常,请继续进行下一步。
· 如果无法显示对应端口的LISTEN状态,请直接进行步骤(4)。
(2) 在每个SeerEngine-DC成员节点上Ping主机的管理IP。
· 如果Ping不通,请继续进行下一步。
· 如果无法Ping通,请直接进行步骤(4)。
(3) 检查设备网卡、网线等是否正常。如果有损坏请更换相关部件,等待半分钟左右,查看告警是否依然存在,如果存在,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请收集告警信息、日志信息和和配置信息,联系H3C工程师进行处理。
用户创建虚拟机后,虚拟机无法自动获取到IPv6地址。
造成故障的原因可能有如下几种:
· 虚拟机对应的虚拟端口没有配置IPv6地址。
· 控制器全局IPv6功能未开启。
· 创建的IPv6子网类型错误。
· 创建的子网未绑定虚拟路由器。
故障处理步骤为:
(1) 检查虚拟机对应的虚拟端口是否配置了IPv6地址,如果否,请更新虚拟端口,添加IPv6地址;如果是,请继续进行下一步。
(2) 在[基础网络 > 网络 > 参数 > 控制器全局配置]页面中检查“启用IPv6”功能是否已开启,如果否,请先删除之前配置的IPv6相关配置,开启该功能后再重新配置;如果是,请继续进行下一步。
(3) 在控制器界面查看IPv6子网的详情,查看子网类型是否为“SLAAC”、“有状态DHCPv6”或“无状态DHCPv6”类型,如果否,请重新配置该子网,选择可以自动获取地址的子网类型。如果是,请继续下一步。
(4) 如果子网类型为“有状态DHCPv6”,可重启虚拟机或者使用命令dhclient -6 -v强制虚拟机再次获取一次地址(不同的操作系统命令可能不同)。如果子网类型为“SLAAC”、“无状态DHCPv6”类型,请检查子网是否绑定了虚拟路由器,如果否,请将子网绑定虚拟路由器,绑定后会触发控制器在设备上下发RA相关配置,通过RA报文虚拟机可以进行自动地址配置。如果是,请继续进行下一步。
(5) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
虚拟机通过DHCPv6获取到IPv6地址,但地址前缀为128位,无法使用此IP与其他虚机互通。
造成故障的原因可能有如下几种:
· 虚拟机子网配置错误。
· 虚拟机子网没有绑定虚拟路由器。
故障处理步骤为:
(1) 在控制器界面查看IPv6子网详情,确认子网类型类型是否为“有状态DHCPv6”类型,如果否,请重新配置该子网。如果是,请继续下一步。
(2) 请检查子网是否绑定了虚拟路由器,如果否,请将子网绑定虚拟路由器,绑定后会触发控制器在设备上下发RA相关配置,虚拟机可以通过RA报文获取到网段信息。如果是,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
vSwitch上流表/组表缺失或存在异常表项。
造成故障的原因可能有如下几种:
· vSwitch自身流表丢失。
· 控制器更新流表异常。
故障处理步骤为:
(1) 登录控制器界面,在[基础网络 > 网络 > 计算域 > 主机]页面中单击在指定主机“数据同步状态”区段的“详情”链接,进入主机数据同步详情页面,在该页面中执行审计操作。
图23-1 主机数据同步页面
(2) 查看审计结果是否存在流表或组表差异,如果是,请确认差异数据为异常的流表或组表后,单击<数据同步>按钮进行流表修复,修复后再执行一次审计,确认控制器与vSwitch之间不存在审计差异。如果否,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
设备上配置缺失或存在异常配置。
造成故障的原因可能有如下几种:
· 设备自身配置丢失或设备出现异常。
· 控制器更新配置异常。
故障处理步骤为:
(1) 登录控制器界面,在[基础网络 > 资源 > 设备资源]页面中单击“数据同步状态”区段中的链接,进入设备数据同步详情页面,在该页面中执行审计操作。
图23-2 设备数据同步详情
(2) 查看审计结果,若存在差异,请确认差异配置为错误配置后单击“数据同步”进行配置修复。修复后再执行一次审计,确保控制器与设备之间不存在审计差异。若否,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
同VPC下主机型VNF网元无法互访。
造成故障的原因可能有如下几种:
· 主机型VNF网元主用虚拟端口VIP未激活。
· vSwitch流表缺失或刷新异常。
故障处理步骤为:
(1) 查看主机型VNF网元主用虚拟端口详情,确认VIP是否激活,如果否,则参见“9.3 可用地址对无法激活”进行故障处理。如果是,请继续进行下一步。
(2) 登录控制器界面,在[基础网络 > 网络 > 计算域 > 主机]页面中单击“数据同步状态”区段中的链接,进入设备数据同步详情页面,在该页面中执行审计操作,确认vSwitch上是否存在流表或组表差异,如果是,请参见“23.1 vSwitch流表或组表异常”进行数据修复。如果否,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
配置静态路由启动BFD检测下一跳IP,此静态路由对应的Openflow流表未下发,网关上对应BFD会话为Down状态。多活网关时,可能出现一个网关上BFD会话UP,另一个网关上BFD会话Down。
造成故障的原因可能有如下几种:
· 下一跳IP对应的虚拟机不存在或未上线。
· 下一跳IP对应的虚拟机开启了IP-MAC防欺骗。
· 网关与虚拟机所在主机间Underlay网络不通。
· 静态路由BFD的Source IP地址冲突。
故障处理步骤如下:
(1) 检查下一跳IP对应的虚拟机的虚拟端口和UPLINK接口等状态是否为Up,虚拟机所属子网是否绑定了虚拟路由器,虚拟机的MAC地址是否与控制器上虚拟端口MAC地址一致,虚拟机的虚拟端口是否关闭了IP-MAC防欺骗,如果以上检查均符合要求,则继续进行下一步。
(2) 检查网关设备所属的边界设备组HA部署模式是否为多活,且配置了VTEP IP地址和出口网关MAC地址。
(3) 检查配置BFD的Source IP是否与同虚拟路由器私网网段冲突。如果是,请重新规划Source IP,且配置的Source IP个数与出口网关所属边界设备组中设备个数一致。
(4) 检查下一跳IP虚拟机所属的主机与网关是否能够相互Ping通对方的VTEP IP地址,如果否,请排查主机与网关之间Underlay网络;如果是,请继续下一步。
(5) 检查网关上指定VPN内是否有下一跳IP对应的ARP表项,如果是,则检查ARP表项是否与控制器的IP和MAC一致。如果仍然无法解决,请继续进行下一步。
(6) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
无法访问BGP路由型VNF网元的业务地址。
造成故障的原因可能有如下几种:
· 没有配置下一跳为该类型VNF网元对应虚拟端口IP的静态路由。
· 没有配置网关与BGP路由型VNF网元之间BGP邻居。
· vSwitch上丢失缺省流表。
· 硬件网关与BGP路由型VNF网元之间EBGP邻居建立失败。
故障处理步骤为:
(1) 查看BGP路由型VNF网元的虚拟路由器引用的路由表中,是否配置下一跳为该VNF网元虚机对应虚拟端口IP的静态路由,如果否,请通过云平台或控制器配置下一跳为网元虚机对应虚拟端口IP的静态路由;如果是,请继续进行下一步。
(2) 查看控制器BGP邻居列表中是否存在BGP路由型VNF网元的BGP邻居配置,如果否,请通过云平台或控制器配置此BGP路由型网元的BGP邻居配置;如果是,请继续进行下一步。
(3) 登录控制器界面,在[基础网络 > 网络 > 计算域 > 主机]页面中选择“主机数据同步详情”,单击<审计>,确认vSwitch上是否存在流表或组表差异,如果是,请参见“23.1 vSwitch流表或组表异常”进行数据修复。如果否,请继续进行下一步。
(4) 登录控制器界面,在[基础网络 > 资源 > 设备资源]页面中单击“数据同步状态”区段的链接,在设备数据同步详情页面执行审计操作,确认设备上是否存在错误配置,如果是,请参见“23.2 设备配置异常”进行数据修复。如果否,请继续进行下一步。
(5) 查看步骤(1)中的路由表项对应的BFD会话是否正常,如果否,请参见“24.2 BFD会话异常”进行故障处理。如果是,请继续进行下一步。
(6) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
主备站点之间的网络状态异常,导致建立灾备系统失败,备站点功能不可用,页面无法打开,提示错误码403。
(1) 请先恢复主备站点之间的网络通信。
(2) 登录备站点的任意一个节点所在的服务器,输入以下命令,进入修复脚本所在目录,执行恢复脚本。
[root@node1 ~]# cd /opt/matrix/app/install/metadata/VCFCDC/rdr/rdr/scripts
[root@node1 scripts]# ./rdrMemberRecovery.sh
(3) 等待脚本执行完毕后,登录备站点上部署的SNA Center,若可正常浏览备站点页面,则系统恢复正常。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
主备站点之间的网络断开重连后,组件的数据同步状态显示“异常”,且系统日志提示PXC集群修复失败。
(1) 登录主用站点的SNA Center所在服务器,输入以下命令,进入修复脚本所在目录,执行恢复脚本。
[root@node1 ~]# sh /opt/matrix/app/install/metadata/VCFCDC/rdr/rdr/scripts/recoverStandByPxc.sh
(2) 若执行结果如图25-1所示,则恢复成功。等待几分钟后,可登录主用站点查看组件的数据同步状态是否恢复正常。
图25-1 PXC集群恢复成功
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
主备站点上的组件都是主用状态,组件的南向IP冲突,导致业务异常。登录主备站点的SNA Center页面,主备站点上的应用驱动数据中心页面均可以访问。
故障可能的原因:
· 在灾备系统倒换模式为带仲裁的自动倒换模式时,主用组件所在站点上灾备系统微服务异常,导致仲裁服务自动将备用站点的组件接管成为主用状态,原主用站点的组件仍然为主用状态,由于主用站点灾备系统微服务异常,导致原主用站点的组件无法降备成为备用状态,最终出现“双主”状态。
· 在组件接管或降备过程中,网络中断或主用组件所在站点服务异常,导致备用组件接管成功、主用组件降备失败,最终出现“双主”状态。
· 在灾备系统倒换模式为手动倒换模式时,主用组件所在站点故障或断电关闭,备用组件成功接管成为主用状态后,原本故障或断电关闭的主用组件所在站点恢复,最终出现“双主”状态。
故障处理步骤如下:
(1) 远程登录主用站点的SNA Center所在服务器。
(2) 使用命令kubectl
get pod -n base-service | grep rdr查看灾备系统是否正常运行。若查询到如图25-2所示结果,则可能符合上述故障原因(2)或(3)。请在主备站点中,选择一个希望组件成为备用状态的站点进行登录,进入灾备系统页面,单击容灾关系中组件的按钮,等待降备成功。灾备系统页面显示组件状态为“备用”,数据同步状态为“已同步”,且该站点上应用驱动数据中心页面无法访问,说明故障已恢复,不需要执行后续步骤。若查询不到灾备系统,或状态不是如下图所示“Running”状态,并且主备站点都可以访问SNA Center上的应用驱动数据中心页面,说明符合该故障描述问题,请使用步骤(3)处理问题。
(3) 登录主站点SNA Center所有Master节点所在的服务器,分别执行以下命令恢复:
a. 进入脚本所在路径。
[root@node1 ~]# cd /opt/matrix/app/install/metadata/VCFCDC/scripts/
b. 执行恢复脚本将主用站点降为备用站点。
[root@node1 scripts]# ./disasterRecoveryMasterToSlavePre.sh
c. 执行脚本恢复灾备网络配置。此处以在主用节点node1上执行命令为例。
登录备用站点SNA Center查看node1节点上灾备网络IP地址。单击[系统]页签,单击设置区域,在组件页面,单击DC组件操作区段的按钮,在组件详情页面,如下图所示,查看node1节点上容器内网卡eth2的IP地址,本例中为192.168.137.2。
登录主站点SNA Center所在服务器,命令中的IP地址为备用站点node1上的灾备网络IP地址。
[root@node1 scripts]# /disasterRecoveryMasterToSlavePost.sh 192.168.137.2
d. 脚本执行完毕后,尝试访问主用站点SNA Center上的应用驱动数据中心页面,如果无法访问,说明主用站点降备成功。故障处理完成。
(4) 根据步骤(2)中查询到的结果,分别使用以下步骤处理:
¡ 如果步骤(2)中查询不到灾备系统,请登录原主用站点的任意一个Master节点所在的服务器,执行以下命令:
[root@node1 ~]# kubectl apply -f /opt/matrix/app/install/metadata/VCFCDC/rdr/rdr/k8s-resources
¡ 如果步骤(2)中能够查询到灾备系统,但状态非“Running”,请登录原主用站点的任意一个Master节点所在的服务器,请先执行依次执行以下命令恢复:
[root@node1 ~]# kubectl delete -f /opt/matrix/app/install/metadata/VCFCDC/rdr/rdr/k8s-resources
[root@node1 ~]#kubectl apply -f /opt/matrix/app/install/metadata/VCFCDC/rdr/rdr/k8s-resources
(5) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
主备站点上的组件都是备用状态,登录主备站点的SNA Center页面,主备站点上的应用驱动数据中心页面均无法访问。
故障可能的原因:
· 在组件接管或降备过程中,网络中断或备用组件所在站点服务异常,导致主用组件降备成功、备用组件接管失败,最终出现“双备”状态。
· 在灾备系统倒换模式为手动倒换模式时,备用组件所在站点故障或断电关闭,主用组件成功降备成为备用状态后,原本故障或断电关闭的备用组件所在站点恢复,最终出现“双备”状态。
故障处理步骤如下:
(1) 请先恢复主备站点之间的网络通信。
(2) 请在主备站点中,选择一个希望组件成为主用状态的站点进行登录,进入灾备系统页面,单击容灾关系中组件的按钮。
(3) 等待组件接管完成后,灾备系统页面显示组件状态为“主用”,数据同步状态为“已同步”,且应用驱动数据中心页面可以访问,说明故障恢复。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。