手册下载
故障处理手册
资料版本:5W600-20231227
Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
3.2 单机模式扩容为集群后,成员控制组件显示状态为down
3.3 控制组件节点服务器重启后,配置恢复状态异常,PostgreSQL无法正常启动
10.2 Underlay网络VTEP IP地址和VSR网关无法互通
10.3 Underlay网络VTEP IP地址和TOR网关无法互通
11.2 网关型防火墙处于Active状态,但防火墙并未生效
11.4 服务链型防火墙处于Active状态,但防火墙并未生效
12.5 网关型负载均衡器处于Active状态,但功能未生效
16.1 Openstack上创建的虚拟机正常,但该虚拟机在SeerEngine上没有上线
18.1 本端设备M-LAG接口虚拟机上线并下发配置后,对端设备的同一M-LAG组的M-LAG接口未下发备份配置
19.1 主机Overlay上线的虚拟机和网络Overlay上线的虚拟机流量无法互通
25.1 备站点异常恢复后控制组件PostgreSQL数据同步状态一直异常
本文档介绍H3C SeerEngine-DC常见故障的诊断及处理措施。
当出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位,与设备相关的故障请先参考“H3C SeerEngine-DC 设备预配置指导”文档检查预配置是否正确。
· 记录您所使用的H3C SeerEngine-DC版本、统一数字底盘版本、Matrix版本。
· 记录具体的故障现象、故障时间、配置信息。
· 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
· 收集日志信息和运行信息(收集方法见1.2 收集故障运行信息)。
· 记录现场采取的故障处理措施及实施后的现象效果。
您可以通过如下步骤,收集SeerEngine-DC的运行信息。
(1) 在浏览器中输入统一数字底盘GUI的登录地址(格式为:http://ucenter_ip_address:30000/central/index.html),回车后打开统一数字底盘GUI的登录界面。输入用户名和密码后,单击<登录>按钮进入统一数字底盘GUI首页。
(2) 在统一数字底盘GUI界面中,单击[系统>日志管理>运行日志列表]菜单项,进入运行日志列表页面,如图1-1所示。然后在节点名称处勾选全局日志或节点日志选项,可进行如下操作:
¡ 通过“所在目录(相对路径)、“日期(起)”和“日期(止)”可查看指定目录和日期区间的全局日志或节点日志文件信息。
¡ 在“文件或目录名称”中输入指定的文件或者目录名称,可搜索相应的日志。
¡ 勾选指定日志或勾选“全选”复选框,单击<导出>按钮,将导出的全局或节点运行日志信息保存到本地。
当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。
用户支持邮箱:[email protected]
技术支持热线电话:400-810-0504(手机、固话均可拨打)
集群与License Server无法建立连接。
造成故障的原因可能有如下几种:
· 控制组件与License Server网络不通。
· License Server上没有创建客户端连接的用户信息。
· 用户名或密码不对。
故障处理步骤如下:
(1) 检查控制组件和License Server之间的网络是否正常。
(2) 登录到License Server的管理界面,在[License/客户端连接]页面中检查是否创建了用户信息,如果用户信息已经创建,确认控制组件侧用户名和密码输入是否正确。
查看成员控制组件的状态信息,显示为down。
(1) 在控制组件信息页面中,查看控制组件信息列表备注栏的提示,如果显示“控制组件IP不可达”或“连接超时”,请检查控制组件是否宕机或网络是否中断。如果控制组件宕机请重新上电;如果网络故障,请排查故障线路,确保网络可达。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
单机模式扩容为多机集群后,在控制组件上进行了删除并增加同一成员控制组件的操作,概率出现成员控制组件显示状态为down。
若成员控制组件和Leader控制组件通信异常时删除了某成员控制组件,可能会导致该控制组件数据残留。再次加入该控制组件时,成员控制组件显示状态将为down。
(1) 在控制组件修改集群页面,删除指定的成员控制组件。
(2) 登录统一数字底盘,单击[系统>部署管理]菜单项,进入部署管理页面,选择需要扩容的组件,单击操作区段的
按钮,进入扩容页面,在该页面删除指定的主机信息。
(3) 选择需要扩容的主机,完成网络和主机上行口的关联,单击<确定>按钮,在下方区域确认扩容后的集群信息,确认完成后,单击<扩容>按钮,开始扩容。
(4) 扩容完成后,登录控制组件,在修改集群页面,单击<增加控制组件>按钮,重新添加成员控制组件。
(1) 控制组件节点服务器重启后,配置恢复状态异常,PostgreSQL无法正常启动,提示如下:
[root@GK-SDN-J02 ~]# service postgresql status
Redirecting to /bin/systemctl status postgresql.service
postgresql.service - PostgreSQL database server
Loaded: loaded (/usr/lib/systemd/system/postgresql.service; enabled)
Active: failed (Result: start-limit) since Wed 2001-03-14 22:34:34 EST; 2 days ago
Process: 2566 ExecStart=/usr/bin/pg_ctl start -D ${PGDATA} -s -o -p ${PGPORT} -w -t 300 (code=exited, status=1/FAILURE)
Process: 2548 ExecStartPre=/usr/bin/postgresql-check-db-dir ${PGDATA} (code=exited, status=0/SUCCESS)
(2) 系统时间不正常(非必要条件)。
造成故障的原因可能是postmaster.pid残留导致PostgreSQL无法启动。
故障处理步骤如下:
(1) 查看路径/var/lib/pgsql/data/中是否存在postmaster.pid文件,如果是,则继续进行下一步;如果否,请联系技术支持工程师。
(2) 将postmaster.pid文件删除后重启控制组件。
rm -rf /var/lib/pgsql/data/postmaster.pid
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
一个OpenFlow实例连接属于不同Region的多个控制组件,导致网络设备和控制组件上的Master角色不一致。
将一个OpenFlow实例配置为连接到属于不同Region的多个控制组件,控制组件会根据自身配置向设备下发角色信息,OpenFlow实例上的控制组件角色信息会以连接的任意控制组件最后一次下发的角色信息为准,导致之前下发的角色信息被覆盖,从而改变Region中控制组件的角色。比如RegionA中控制组件a的角色是Master,控制组件b的角色是Subordinate,RegionB中控制组件c的角色是Master,控制组件d的角色是Subordinate,如果同一个OpenFlow实例先后与a,b,c,d四台控制组件建立连接,那么在OpenFlow实例上显示以控制组件c为Master,其他三台控制组件都是Subordinate,而在控制组件上来看,控制组件a和c都认为自己是该OpenFlow实例的Master。可通过如下步骤进行故障处理:
(1) 确保一个OpenFlow实例只受控于一个Region内的两台控制组件,可按如下两种方式处理:
· 处理方案一:以设备的配置为准,首先确保设备上的OpenFlow实例只连接了两台控制组件,如果多于两台,请删除多余的配置,然后修改Region配置,将OpenFlow实例连接的两台控制组件配置到一个Region内。
· 处理方案二:以控制组件配置为准,修改设备的OpenFlow配置,使其OpenFlow实例连接到一个Region内的两台控制组件上。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
创建/修改Region,提示某台控制组件配置失败。
可能是网络故障导致的,可通过如下步骤进行故障处理:
(1) 在控制组件信息页面中,查看控制组件信息列表备注栏的提示,如果显示“控制组件IP不可达”,请检查控制组件是否宕机或网络是否中断。如果控制组件宕机请重新上电或者重新安装控制组件,如果网络故障,请排查故障线路,确保网络可达。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
导出集群内控制组件运行信息时,控制组件运行信息未成功导出或者导出的压缩包不能正常进行解压。
造成故障的原因可能为:受CPU过于繁忙、网络不稳定、日志过大等因素的影响,在导出集群运行信息的时候与某台控制组件连接超时,导致无法正常导出该控制组件的运行信息。
可通过如下两种方式获取该控制组件的诊断信息:
· 在统一数字底盘GUI界面中,单击[系统>日志管理>运行日志列表]菜单项,进入运行日志列表页面,然后单击“全局日志”或“节点日志”页签,勾选指定日志或勾选“全选”复选框,单击<导出>按钮,将导出的全局或节点运行日志信息保存到本地。
· 通过SSH登录到出现异常的控制组件所在的服务器或虚拟机,进入控制组件docker的/opt/sdn/virgo/serviceability/logs目录下,使用FTP等文件传输工具获取需要的运行信息日志文件。
在OpenFlow设备上已配置OpenFlow连接,但在[系统>系统维护>控制组件信息]页面的控制组件信息区域,单击列表中Region区段的链接,在弹出的对话框中没有该网络设备的相关信息。
造成故障的原因可能有如下几种:
· OpenFlow设备配置的控制组件IP地址错误。
· 控制组件与OpenFlow设备IP地址不可达。
故障处理步骤为:
(1) 登录OpenFlow设备,检查设备上的配置是否正确,确保配置的控制组件IP地址是正确的,如果不正确,请在设备上重新配置控制组件IP地址,如图6-1所示。
图6-1 设备上的OpenFlow基本配置示意图

(2) 确保OpenFlow设备到控制组件的IP地址是可达的,如果不可达,请排查网络故障。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
控制组件和OpenFlow设备建立OpenFlow连接后,出现控制组件与网络设备连接时断时续的现象。
造成故障的原因可能有如下几种:
· 当前网络不通畅。
· 单个Region中流量过大。
故障处理步骤为:
(1) 检查当前网络配置,确保当前网络环境稳定。网络不通畅,可导致连接不稳定。
(2) 单个Region中流量过大,可导致网络拥塞,OpenFlow保活报文不能正常交互。请检查当前OpenFlow连接的TCP通道是否繁忙,在控制组件docker内通过root用户权限执行netstat -anp | grep 6633命令,如图6-2所示。如果第1列(recive buff)和第2列(send buff)都持续保持较高的状态(200K~250K),请将本台控制组件上连接的部分OpenFlow设备迁移到其它Region上,尽量保持流量均匀。
图6-2 TCP通道状态示意图
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
控制组件和设备建立OpenFlow连接后,通过REST API静态方式下发流表项或者业务触发动态方式下发流表项,但设备上未查询到相关流表项信息。
造成故障的原因可能有如下几种:
· 设备的OpenFlow能力集不支持下发流表。
· 设备不识别Experimenter数据。
· 设备不能收到控制组件的FlowMod消息。
故障处理步骤为:
(1) 使用REST API的GET /sdn/v2.0/of/datapaths/{dpid}/features/match接口确认设备的OpenFlow能力集是否支持下发流表项。如果不支持,请升级或更换设备。
(2) 若流表项中包含Experimenter数据,请根据设备手册确认设备是否识别Experimenter数据,如果不识别,请升级或更换设备。
(3) 打开设备的调试开关,观察是否可以成功接收到控制组件的FlowMod消息。如果否,请检查控制组件与设备的连接是否正常,具体方法请参见“6.2 控制组件与OpenFlow设备连接不稳定”;如果是,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
上层应用下发NETCONF配置失败,例如添加物理设备后,新增的物理设备状态为Inactive,并提示“OpenFlow连接失败”或“NETCONF连接失败”。
(1) 检查网络设备管理IP地址与控制组件IP地址是否能够ping通。如果否,请排查网络故障;如果是,请继续进行下一步。
(2) 确认网络设备和控制组件的NETCONF相关配置是否一致。如网络设备是否使能了NETCONF SSH Server功能;控制组件使用的NETCONF用户名和密码与网络设备上的NETCONF用户名和密码是否一致。若不一致,请修改网络设备或控制组件的NETCONF配置。
(3) 确认网络设备和其它设备建立的NETCONF会话数是否已达上限。因为网络设备能够建立的NETCONF会话数有限,如果网络设备和其它设备建立的NETCONF会话已达上限,就无法再和控制组件建立NETCONF会话,此时需要删除网络设备和其它设备建立的NETCONF会话或调整网络设备的NETCONF会话上限。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
物理设备状态为Inactive,并提示“NETCONF连接失败”。
(1) 检查网络设备是否使能了NETCONF SSH Server功能。
(2) 检查控制组件使用的NETCONF用户名和密码与网络设备上的NETCONF用户名和密码是否一致。若不一致,请修改网络设备或控制组件的NETCONF配置。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
系统日志提示“The controller has waited more than 20 minutes for a response from NETCONF server 192.168.100.3. Request content:*****”,表明控制组件通过NETCONF向设备下发配置失败,设备未响应。
(1) 检查设备和控制组件之间的IP网络是否正常可达,如果管理网异常,请修复管理网络。
(2) 检查设备是否CPU繁忙,内存不足或者出现其他异常情况。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
物理设备创建后一直是Inactive状态,无法激活。
造成故障的原因可能有如下几种:
· 受限于License规格。
· 物理设备与控制组件网络不通。
· 该设备是边界设备,但未加入设备组。
· 控制组件与物理设备之间的NETCONF通信失败。
· 集群模式下,Region自动配置失败。
故障解决办法:
(1) 控制组件能够激活的物理设备数受Overlay硬件设备License控制,请检查License规格是否已达上限。如果是,建议进行License扩容;如果否,请继续进行下一步。
(2) 检查物理设备管理IP地址与控制组件IP地址是否能够ping通。如果否,请排查网络故障;如果是,请继续进行下一步。
(3) 检查物理设备类型,如果设备类型是边界设备,请确保边界设备已加入到设备组。
(4) 检查控制组件与物理设备之间的NETCONF通信是否正常,具体方法可以参见“7 NETCONF故障处理”。
(5) 如果控制组件运行在集群模式,请检查物理设备是否已选择Region(可以通过单击[自动化>资源池>设备资源>物理设备]菜单项查看)。如果在线状态Inactive且提示“Region未激活或不存在”,则表示Region选择失败,请参见“8.3 集群模式下,设备自动配置Region失败”;如果显示其他信息,则表示Region已选择,请继续进行下一步。
(6) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
VNF资源创建后一直是Inactive状态,无法激活。
造成故障的原因可能有如下几种:
· 受限于License规格。
· VNF资源与控制组件网络不通。
· 集群模式下,Region自动配置失败。
故障解决办法:
(1) 检查VNF资源管理IP地址与控制组件IP地址是否能够ping通。如果否,请排查网络故障;如果是,请继续进行下一步。
(2) 如果控制组件运行在集群模式,请检查VNF资源是否已选择Region(可以通过单击控制组件界面的[自动化>资源池>设备资源>虚拟设备]查看)。如果状态Inactive且提示“Region未激活或不存在”,则表示Region选择失败,请参见“8.3 集群模式下,设备自动配置Region失败”;如果显示其他信息,则表示Region已选择,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
在集群模式下创建设备后,设备自动选择Region失败。
造成故障的原因可能有如下几种:
· 未配置Region。
· 已配Region的管理设备网段不包含设备的管理IP地址。
故障解决办法:
(1) 在[系统>系统维护>控制组件集群>Region]页面,检查集群是否配置Region。如果否,请为集群配置对应的Region;如果是,请继续进行下一步。
在[系统>系统维护>控制组件集群>Region]页面,检查Region的“管理设备网段”是否包含设备的管理IP地址。如果否,请在[系统>系统维护>控制组件集群>Region]界面的“操作”区段,将设备IP地址所属网段添加到Region的管理设备网段中,或者新建一个未配置管理设备网段的Region;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
接入设备下的主机执行Ping指令操作,无法学习到MAC地址。
(1) 请确保与源、目的主机连接的接入设备已与控制组件建立好OpenFlow连接。
(2) 检测主机对应的vPort信息配置是否正确,包括IP地址、MAC地址,以及主机归属的VLAN或VXLAN网络信息。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
接入设备侧主机启动后,使用ARP模块的REST API查看不到相应的主机信息。
(1) 确保控制组件上已配置与主机相连的接入设备类型的物理设备。
(2) 确保接入设备类型的物理设备处于激活状态,如果否,检查物理设备配置的用户名和密码等信息是否正确;如果是,请继续下一步。
(3) 接入设备类型的物理设备激活后,在物理设备上确认是否存在ARP报文上送到控制组件的流表,如果存在,则在当前主机上执行ping指令,尝试访问其他主机,通过源主机发送的报文促使控制组件学习到主机信息;如果不存在,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
接入设备为vSwitch的虚拟机配置可用地址对之后,对应IP无法激活。网关上没有收到控制组件发布的该IP对应的ARP表项。
(1) 确保虚拟机对应的虚拟端口已经为UP状态。
(2) 查看虚拟端口所在vSwitch主机上是否下发了该IP对应的ARP上送控制组件的流表,并检查虚拟机上是否存在该IP,如果都存在,则在当前虚拟机上使用该IP执行Ping指令,尝试访问其他虚拟机,触发ARP报文上送控制组件来激活该IP;如果不存在,请继续进行下一步。
(3) 检查可用地址对的IP地址与虚机的IP地址是否冲突。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
两台虚拟机之间无法互通。
造成故障的原因可能有如下几种:
· 虚拟机上不存在对应的ARP表项,或者表项不正确。
· 虚拟机所在的主机上不存在对应的流表或者流表错误。
· 虚拟机所在的主机间Underlay网络不通。
故障处理步骤如下:
(1) 检查虚拟机相应的虚拟端口和UPLINK接口等状态是否为up,两台虚拟机所在的网络类型是否一致,且虚拟机所在的子网都绑定在同一个虚拟路由器上,如果以上检查均符合要求,则继续进行下一步。
(2) 检查虚拟机里是否存在对应的ARP表项,如果否,则需要保证该两台虚拟机所在的主机均已在控制组件上线;如果是,则检查ARP表项是否正确,如果不正确,请删除不正确的ARP表项。如果仍然无法解决,请继续进行下一步。
(3) 检查两台虚拟机所属的主机是否能够相互Ping通对方的VTEP IP地址,如果否,可能是ARP表项不正确,建议在控制组件上删除主机后再添加主机。如果是,请继续进行下一步。
(4) 检查两台虚拟机是否配置了安全策略且相互放行了对方的IP地址,如果否,则请在两台虚机及绑定的安全策略中放行对方IP地址。如果是,请继续下一步。
(5) 在[自动化 > Fabrics > 计算域 > 主机> 主机数据同步详情]页面进行审计操作,查看虚拟机所在主机上流表是否一致,如果否,则进行数据同步,消除流表差异。如果是,请继续进行下一步。
(6) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
Underlay网络的主机VTEP IP地址和VSR网关无法互通。
造成故障的原因可能为主机的VTEP IP地址和VSR网关的IP地址属于同一网段。
故障处理步骤如下:
(1) 检查主机VTEP IP地址和VSR网关的IP地址是否处于同一网段,如果否,请继续进行下一步;如果是,请重新配置VTEP IP地址:
· 对于CAS环境:请在虚拟交换机上重新配置VTEP IP地址和VSR网关的IP地址不在同一网段。
· 对于KVM环境:请在Compute节点上重新配置VTEP IP地址和VSR网关的IP地址不在同一网段。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
Underlay网络,主机的VTEP IP地址和TOR网关无法互通。
造成故障的原因可能为主机的默认路由设置错误。
故障处理步骤如下:
(1) 检查主机的默认路由,查看默认路由的下一跳是否为TOR网关IP地址,如果否,请重新设置主机的默认路由;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
网关型防火墙创建成功后,显示为非Active状态。
造成故障的原因可能为创建网关型防火墙时没有绑定虚拟路由器。
故障处理步骤为:
(1) 检查防火墙是否绑定虚拟路由器。在[自动化>租户的网络>防火墙>防火墙>修改防火墙]页面查看该防火墙是否已绑定虚拟路由器,如果否,请修改防火墙配置,绑定虚拟路由器;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
网关型防火墙创建成功,状态变为Active,但防火墙并未生效。
造成故障的原因可能有如下几种:
· 虚拟路由器没有绑定外部网络。
· 外部网络没有创建子网。
· 虚拟路由器没有绑定网关。
· 虚拟路由器没有绑定内网子网。
· 网关资源与控制组件没有建立OpenFlow连接。
· 网关资源不属于任何一个Region。
故障处理步骤为:
(1) 检查虚拟路由器是否绑定外部网络。进入[自动化>租户的网络>虚拟路由器]页面,查看虚拟路由器对应的“外部网络”列是否显示为“None”。如果是,请创建并绑定外部网络,外部网络可在[自动化>公共网络设置>外部网络]页面进行创建;如果否,请继续进行下一步。
(2) 检查外部网络是否已创建子网。在[自动化>公共网络设置>外部网络]页面,查看外部网络“子网”列是否显示“子网(0)”。如果是,请创建子网;如果否,请继续进行下一步。
(3) 检查虚拟路由器是否绑定网关。进入[自动化>租户的网络>虚拟路由器]页面,查看“网关资源”列是否已经绑定网关。如果否,请修改虚拟路由器配置,绑定网关;如果是,请继续进行下一步。
(4) 检查虚拟路由器是否绑定子网接口。进入[自动化>租户的网络>虚拟路由器]页面,查看“接口/子网”列是否显示“接口(0)”;如果是,请修改虚拟路由器配置,增加接口信息;如果否,请继续进行下一步。
(5) 检查网关资源与控制组件是否建立OpenFlow连接。进入[自动化>公共网络设置>出口网关]页面,查找网关型防火墙对应的虚拟路由器所在租户,单击网关成员确认设备组,然后进入[自动化>资源池>设备资源>设备组]页面,确认组成员设备,最后进入[自动化>资源池>设备资源>物理设备]检查控制组件是否和网关设备建立OpenFlow连接。如果否,请参见“6.1 控制组件与OpenFlow设备无法建立连接”进行处理;如果是,请继续进行下一步。
(6) 进入[系统>系统维护>控制组件信息]页面,单击“控制组件信息”区域中相应的Region进入Region详细信息页面,检查网关资源是否属于某个Region。如果否,请检查Region是否已创建。如果Region已创建,请继续进行下一步。
(7) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
服务链型防火墙创建成功后,显示为非Active状态。
造成故障的原因可能有如下几种:
· 创建防火墙时没有绑定vFW资源。
· 该防火墙没有被服务链引用。
故障处理步骤为:
(1) 检查防火墙是否绑定资源。在[自动化>租户的网络>防火墙>防火墙]页面查看该防火墙对应的“安全域/资源”列是否为“资源(0)”;如果是,请创建资源,然后修改防火墙配置绑定资源;
(2) 检查服务链是否绑定防火墙。进入[自动化>租户的网络>服务链>服务链]页面,单击操作区域修改按钮查看服务链组件是否绑定该防火墙,如果否,请修改服务链配置,将对应实例拖拽至方框内服务链组件,并单击右上角<应用>按钮。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
服务链型防火墙创建成功,状态变为Active,但防火墙并未生效。
造成故障的原因可能为:vFW资源与控制组件没有建立OpenFlow连接。
故障处理步骤为:
(1) 进入[自动化>租户的网络>防火墙>防火墙]页面,单击服务链类型防火墙的<资源>按钮,查找服务链型防火墙绑定的vFW资源,然后进入[自动化>资源池>设备资源>虚拟设备]页面,检查该vFW资源状态是否为active,对应的vFW资源是否和控制组件建立OpenFlow连接。如果否,请参见“6.1 控制组件与OpenFlow设备无法建立连接”进行处理;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
防火墙引用或修改策略及规则后,该策略或规则并未生效。
造成故障的原因可能有如下几种:
· 创建或修改策略时未勾选“激活”复选框。
· 创建或修改规则时未打开“激活”按钮。
故障处理步骤为:
(1) 检查指定策略配置是否已勾选“激活”。进入[自动化>租户的网络>防火墙>安全策略>策略]页面,查看该策略的“激活状态”列是否显示绿灯;如果否,请修改策略配置,单击操作区域激活
按钮。
(2) 检查指定规则是否已激活。进入[自动化>租户的网络>防火墙>安全策略>规则]页面,查看该规则的“激活状态”列是否显示为“False”;如果是,请单击操作区段的修改按钮,在弹出的对话框中激活规则。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
服务网关型负载均衡器创建成功后,显示为非Active状态。
造成故障的原因可能有如下几种:
· 负载均衡器没有用监听器。
· 虚服务器状态为Down。
故障处理步骤为:
(1) 检查负载均衡器是否已引用监听器。进入[自动化>租户的网络>负载均衡>负载均衡器]页面,查看列表中指定负载均衡器的“监听器”是否显示“---”。如果是,请单击操作区段的修改按钮,在弹出的对话框中为负载均衡器添加监听器;如果否,请继续进行下一步。
(2) 进入[自动化>租户的网络>负载均衡>虚服务器]页面,查看虚服务器状态是否显示active,如果否,请参见“12.2虚服务器状态不是Active”进行处理;如果是,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
虚服务器创建成功后,显示为非Active状态。
造成故障的原因可能有如下几种:
· 虚拟子网没有被添加到虚拟路由器。
· 虚拟路由器没有绑定网关。
· 虚拟路由器没有配置外部网络。
故障解决办法为:
(1) 检查实服务器组绑定的虚拟子网是否已添加到虚拟路由器。进入[自动化>租户的网络>虚拟路由器]页面,单击所在路由器的修改按钮,查看相应子网是否已添加到虚拟路由器。如果否,请单击[接口/子网]的添加按钮,将相应的子网添加到路由器;如果是,请继续进行下一步。
(2) 检查虚拟路由器是否绑定网关。进入[自动化>租户的网络>虚拟路由器]页面,查看“网关资源”列虚拟路由器是否已经绑定网关。如果否,请修改虚拟路由器配置,绑定网关;如果是,请继续进行下一步。
(3) 检查虚拟路由器是否绑定外部网络。进入[自动化>租户的网络>虚拟路由器]页面,查看虚拟路由器对应的“外部网络”列是否显示为“None”。如果是,请创建并绑定外部网络,外部网络可在[自动化>公共网络设置>外部网络]页面进行创建;如果否,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
在[自动化>租户的网络>负载均衡>实服务器组>增加实服务组]页面增加实服务组成员时,成员列表为空。
· 造成故障的原因可能为:虚拟子网下没有虚拟端口。
故障解决办法为:
(1) 进入[自动化>租户的网络>负载均衡>虚拟端口]页面,检查实服务组成员对应的虚拟子网下是否存在虚拟端口,如果否,请配置虚拟端口上线;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
实服务组成员创建成功后,显示为非Active状态。
· 造成故障的原因可能为:实服务组成员关联的实服务器组没有被监听器引用。
故障解决办法为:
(1) 进入自动化>租户的网络>负载均衡>监听器]页面,单击指定监听器操作区段的修改按钮,检查是否引用了正确的实服务组。如果否,请修改配置;如果是,请继续进行下一步。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
网关型负载均衡器状态为Active,但功能未生效。
造成故障的原因可能有如下几种:
· 控制组件没有和网关资源建立OpenFlow连接。
· Region的管理设备网段未包含网关资源。
故障解决办法为:
(1) 检查网关资源与控制组件是否建立OpenFlow连接。如果否,请参见“6.1 控制组件与OpenFlow设备无法建立连接”进行处理;如果是,请继续进行下一步。检查步骤如下:
a. 进入[自动化>租户管理>全部租户]页面,选中负载均衡所属租户,单击列表中操作区段的修改按钮,查看租户绑定的出口网关。
b. 进入[自动化>公共网络设置>出口网关]页面,查看出口网关对应的设备组。
c. 进入[自动化>资源池>设备资源>设备组]页面,查看设备组的成员设备。
d. 进入[自动化>资源池>设备资源>物理设备]页面,查看设备的在线状态是否为actice,如果是则表示检查控制组件已和设备建立OpenFlow连接。
(2) 在[系统>系统维护>控制组件集群>Region]页面,检查Region的“管理设备网段”是否包含网关资源的管理IP地址。如果否,请在[系统>系统维护>控制组件集群>Region]界面的“操作”区段,将网关资源IP地址所属网段添加到Region的管理设备网段中;如果是,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
服务链创建成功后,显示为非Active状态。
故障解决办法为:
(1) 检查服务链上的所有服务实例是否已全部绑定资源,如果否,请修改服务实例配置,绑定资源。
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
服务链处于Active状态,但功能并未生效。
造成故障的原因可能有如下几种:
· 服务链指定的源和目的特征组与流量的源和目的特征不匹配。
· 服务链上的服务实例无法正常工作。
· 服务链路径上设备的流表不正确。
故障解决办法为:
(1) 检查服务链指定的源和目的流量特征组是否与流量的源和目的特征匹配。如果否,请修改服务链的源和目的流量特征组;如果是,请继续进行下一步。
(2) 检查服务链上的服务实例是否正常工作。如果否,请参见相应服务实例的故障处理部分;如果是,请继续进行下一步。
(3) 检查服务链路径上各个设备的下发配置是否正常。如果否,请检查配置下发是否正确;如果是,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
主机上线后,无法下发主机策略流表。
造成故障的原因可能有如下几种:
· 与主机连接的OpenFlow设备没有与控制组件建立OpenFlow连接。
· 网络设备上OpenFlow实例的流表项数量和Meter表项数量达到了设备规格。
故障解决办法为:
(1) 检查与主机连接的OpenFlow设备与控制组件是否已建立了OpenFlow连接。如果否,请参见“6.1 控制组件与OpenFlow设备无法建立连接”进行处理;如果是,请继续进行下一步。
(2) 检查用户组及策略是否配置正确。如果否,请按需求进行配置;如果是,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
OpenFlow设备之间的网络接口处于up状态,但无法给设备下发流表(网络接口流表保证了网络接口上所有能触发主机学习的报文都不会上送控制组件)。
造成故障的原因可能有如下几种:
· 与主机连接的OpenFlow设备没有与控制组件建立OpenFlow连接。
· OpenFlow设备没有使能LLDP。
· 未开启发送BDDP报文来学习多跳链路的功能。
· 未开启链路超时机制。
故障解决办法为:
(1) 检查与主机连接的OpenFlow设备与控制组件是否已建立OpenFlow连接,如果否,请参见“6.1 控制组件与OpenFlow设备无法建立连接”进行处理,如果是,请继续进行下一步。
(2) 检查OpenFlow设备的组网配置是否正确,如果否,请按需求进行配置;如果是,请继续进行下一步。
(3) 进入[系统>设置]页面,在链路配置部分检查learn.multihop.links是否设置为true,如果否,请设置为true;如果是,请继续进行下一步。
(4) 进入[系统>设置]页面,在链路配置部分检查timeout.links是否设置为true,如果否,请设置为true;如果是,请继续进行下一步。
(5) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
新增或删除裸金属inspect映射表绑定的端口时,操作失败,提示“内部错误”,操作日志失败原因显示为“Internal server error”。
造成故障的原因可能为:裸金属BSM业务模块和NEM业务模块内存中部分接口类型不一致。
故障解决办法为:
(1) 进入[自动化>Fabrics>裸金属>接入端网络配置],单击inspect映射表的“应用到接口”按钮,记录裸金属inspect映射表绑定的所有设备和接口信息;进入[自动化>资源池>VNID池>VLAN-VXLAN映射],单击对应inspect映射表“应用到接口”列下的“接口”,记录设备模块绑定的所有设备和接口信息。
(2) 对比两个页面记录的接口信息,记录裸金属页面多于VLAN-VXLAN映射页面的接口信息,在裸金属页面中解绑记录的接口。
(3) 登录接入设备,为解绑的接口重新配置命令vtep access port(如果接口已加入聚合接口,则需要退出聚合接口并删除M-LAG组,然后重新配置命令vtep access port),再重新绑定至裸金属页面的Inspection类型映射表。
(4) 重新对比裸金属页面的映射表和VLAN-VXLAN映射页面的映射表绑定的接口信息,确保一一对应。
(5) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
在层次化端口绑定场景下,OpenStack上创建的虚拟机正常但该虚拟机未获取到IP地址,并且该虚拟机在SeerEngine上没有上线。
造成故障的原因可能有如下几种:
· 计算节点的LLDP服务未启动或LLDP服务挂死,导致计算节点未发送LLDP报文。
· Fabrics没有开启LLDP报文上送或DHCP上送控制组件功能。
· 虚拟机绑定的安全组没有设置入方向放行网关IP地址的规则。
故障处理步骤为:
(1) 在计算节点上对与S6800相连的接口抓包,检查该计算节点是否能正常发送LLDP报文。如果不能,开启计算节点的LLDP服务或重启计算节点的LLDP服务;如果能,请继续进行下一步。
(2) 登录SeerEngine-DC,在[自动化>Fabrics>Fabrics]页面中检查与OpenStack对接使用的VDS的承载Fabric是否开启LLDP报文上送和DHCP上送控制组件功能。如果未开启,请开启;如果已开启,请继续进行下一步。
(3) 在OpenStack的导航树中选择[项目/Compute/访问&安全],单击指定安全组的<管理规则>按钮,检查虚拟机绑定的安全组是否设置了入方向放行网关IP地址的规则。如果未设置,请设置;如果已设置,请继续进行下一步。
(4) 如果上述操作完成后故障扔无法排除,请联系技术支持工程师。
数据中心间已创建数据中心三层互联配置,但三层流量不通。
造成故障的原因可能有如下几种:
· 边界设备不支持路由策略匹配及修改L3VNI功能。
· 多个数据中心控制组件配置的Segment ID不相同。
· 引入RT和引出RT配置有误。
故障处理步骤为:
(1) 请确认边界设备是否支持路由策略匹配及修改L3VNI功能,如果不支持,请更换设备版本。
(2) 检查各数据中心控制组件配置的数据中心三层互联的映射Segment ID是否相同,如果否,请修改为相同。
(3) 检查各数据中心控制组件配置的数据中心三层互联的引入RT和引出RT是否匹配,如果否,请修改。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
同一M-LAG组内两台设备已激活,其中一台设备上的M-LAG接口虚拟机上线并下发了VSI及AC配置,对端设备上属于相同M-LAG组的M-LAG接口未下发相应的VSI及AC配置。
造成故障的原因可能有如下几种:
· 属于同一M-LAG组的两台设备的M-LAG接口未绑定相同的VLAN-VXLAN映射表。
· 对端设备的M-LAG接口未配置为AC口,即未配置vtep access port命令。
故障处理步骤为:
(1) 检查两台设备上属于同一M-LAG组的M-LAG接口是否绑定了相同的VLAN-VXLAN映射表。如果否,请重新绑定相同的VLAN-VXLAN映射表。
(2) 检查对端设备上的M-LAG接口是否配置了vtep access port命令,如果否,请重新配置。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
主机Overlay上线的虚拟机和网络Overlay上线的虚拟机流量无法互通。
造成故障的原因可能有如下几种:
· 控制组件未纳管vBGP集群。
· 控制组件未添加vBGP实例。
故障处理步骤为:
(1) 进入[自动化>Fabrics>基础服务>BGP]页面,单击BGP集群,查看BGP集群是否已经建立;如果否,请创建集群;如果是,请继续进行下一步。
(2) 查看BGP集群状态是否为up状态,如果否,请进行步骤(4);如果是,请继续进行下一步。
(3) 进入[自动化>Fabrics>基础服务>BGP]页面,单击BGP实例,查看BGP实例是否已经创建;如果否,请创建实例;如果是,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
vBGP集群的两个节点都为Master节点,导致路由发布和接收异常。
造成故障的原因可能有如下:两个vBGP节点之间网络不通。
故障处理步骤为:
(1) 请检查服务器网卡是否故障,网线是否松动,vBGP所属网段二层交换机通信是否故障,如果都正常,请继续进行下一步;
(2) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
vBGP实例与对等体建立的BGP会话状态异常。
造成故障的原因可能为:
· vBGP与其对等体之间链路异常。
· vBGP与对端设备间的BGP配置不一致。
故障处理步骤为:
(1) 请检查vBGP实例下对等体信息是否正确,如果否,请删除错误信息,重新添加正确的对等体信息;如果是,请继续进行下一步。
(2) 如果是IPv6组网配置,请检查vBGP集群的Router ID是否已配置,如果否,请配置Router ID信息;如果是,请继续进行下一步。
(3) 检查对端设备上BGP配置是否正常,如果否,请修改对端设备上BGP配置;如果是,请继续进行下一步。
(4) 检查在对端设备上是否能够Ping通vBGP的集群IP,如果否,则先确保Underlay网络通信正常;如果是,请继续进行下一步。
(5) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
集群重启后,一部分业务模块恢复失败。
造成故障的原因可能为:系统关键文件损坏。
故障处理步骤为:
(1) 请联系技术支持工程师。
SeerEngine-DC和设备间的OVSDB链路出现故障,相关业务中断。
造成故障的原因可能有如下几种:
· 控制组件与主机管理IP地址不能互通。
· 开启主机的SSL连接方式后,证书错误。
· 控制组件上指定的OVSDB端口与vSwitch上OVSDB端口号不对应,或者vSwitch上没有开启OVSDB端口号的监听。
· vSwtich进程异常。
故障处理步骤为:
(1) 登录主机,通过netstat -apn | grep 6632(如果用户已修改默认端口号,此端口号请填写配置的端口号)命令查看OVSDB的端口监听状态。
· 如果可以显示对应端口的LISTEN状态,说明监控端口正常,请继续进行下一步。
· 如果无法显示对应端口的LISTEN状态,请直接进行步骤(4)。
(2) 在每个SeerEngine-DC成员节点上Ping主机的管理IP。
· 如果Ping不通,请继续进行下一步。
· 如果无法Ping通,请直接进行步骤(4)。
(3) 检查设备网卡、网线等是否正常。如果有损坏请更换相关部件,等待半分钟左右,查看告警是否依然存在,如果存在,请继续进行下一步。
(4) 如果上述操作完成后故障仍无法排除,请收集告警信息、日志信息和和配置信息,联系工程师进行处理。
用户创建虚拟机后,虚拟机无法自动获取到IPv6地址。
造成故障的原因可能有如下几种:
· 虚拟机对应的虚拟端口没有配置IPv6地址。
· 控制组件全局IPv6功能未开启。
· 创建的IPv6子网类型错误。
· 创建的子网未绑定虚拟路由器。
故障处理步骤为:
(1) 检查虚拟机对应的虚拟端口是否配置了IPv6地址,如果否,请更新虚拟端口,添加IPv6地址;如果是,请继续进行下一步。
(2) 在[自动化 > Fabrics > 参数设置> 控制组件全局配置]页面中检查“启用IPv6”功能是否已开启,如果否,请先删除之前配置的IPv6相关配置,开启该功能后再重新配置;如果是,请继续进行下一步。
(3) 在控制组件界面查看IPv6子网的详情,查看子网类型是否为“SLAAC”、“有状态DHCPv6”或“无状态DHCPv6”类型,如果否,请重新配置该子网,选择可以自动获取地址的子网类型。如果是,请继续下一步。
(4) 如果子网类型为“有状态DHCPv6”,可重启虚拟机或者使用命令dhclient -6 -v强制虚拟机再次获取一次地址(不同的操作系统命令可能不同)。如果子网类型为“SLAAC”、“无状态DHCPv6”类型,请检查子网是否绑定了虚拟路由器,如果否,请将子网绑定虚拟路由器,绑定后会触发控制组件在设备上下发RA相关配置,通过RA报文虚拟机可以进行自动地址配置。如果是,请继续进行下一步。
(5) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
虚拟机通过DHCPv6获取到IPv6地址,但地址前缀为128位,无法使用此IP与其他虚机互通。
造成故障的原因可能有如下几种:
· 虚拟机子网配置错误。
· 虚拟机子网没有绑定虚拟路由器。
故障处理步骤为:
(1) 在控制组件界面查看IPv6子网详情,确认子网类型类型是否为“有状态DHCPv6”类型,如果否,请重新配置该子网。如果是,请继续下一步。
(2) 请检查子网是否绑定了虚拟路由器,如果否,请将子网绑定虚拟路由器,绑定后会触发控制组件在设备上下发RA相关配置,虚拟机可以通过RA报文获取到网段信息。如果是,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
vSwitch上流表/组表缺失或存在异常表项。
造成故障的原因可能有如下几种:
· vSwitch自身流表丢失。
· 控制组件更新流表异常。
故障处理步骤为:
(1) 登录控制组件界面,在[自动化 > 数据中心网络 > Fabrics > 计算域 > 主机]页面中单击在指定主机“数据同步状态”区段的“详情”链接,进入主机数据同步详情页面,在该页面中执行审计操作。
图23-1 主机数据同步页面
(2) 查看审计结果是否存在流表或组表差异,如果是,请确认差异数据为异常的流表或组表后,单击<数据同步>按钮进行流表修复,修复后再执行一次审计,确认控制组件与vSwitch之间不存在审计差异。如果否,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
设备上配置缺失或存在异常配置。
造成故障的原因可能有如下几种:
· 设备自身配置丢失或设备出现异常。
· 控制组件更新配置异常。
故障处理步骤为:
(1) 登录控制组件界面,在[自动化 > 资源池 > 设备资源 > 物理设备]页面中单击“数据同步状态”区段中的链接,进入设备数据同步详情页面,在该页面中执行审计操作。
图23-2 设备数据同步详情
(2) 查看审计结果,若存在差异,请确认差异配置为错误配置后单击“数据同步”进行配置修复。修复后再执行一次审计,确保控制组件与设备之间不存在审计差异。若否,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
同VPC下主机型VNF网元无法互访。
造成故障的原因可能有如下几种:
· 主机型VNF网元主用虚拟端口VIP未激活。
· vSwitch流表缺失或刷新异常。
故障处理步骤为:
(1) 查看主机型VNF网元主用虚拟端口详情,确认VIP是否激活,如果否,则参见“9.3 可用地址对无法激活”进行故障处理。如果是,请继续进行下一步。
(2) 登录控制组件界面,在[自动化 > Fabrics > 计算域 > 主机]页面中单击“数据同步状态”区段中的链接,进入设备数据同步详情页面,在该页面中执行审计操作,确认vSwitch上是否存在流表或组表差异,如果是,请参见“23.1 vSwitch流表或组表异常”进行数据修复。如果否,请继续进行下一步。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
配置静态路由启动BFD检测下一跳IP,此静态路由对应的Openflow流表未下发,网关上对应BFD会话为Down状态。多活网关时,可能出现一个网关上BFD会话UP,另一个网关上BFD会话Down。
造成故障的原因可能有如下几种:
· 下一跳IP对应的虚拟机不存在或未上线。
· 下一跳IP对应的虚拟机开启了IP-MAC防欺骗。
· 网关与虚拟机所在主机间Underlay网络不通。
· 静态路由BFD的Source IP地址冲突。
故障处理步骤如下:
(1) 检查下一跳IP对应的虚拟机的虚拟端口和UPLINK接口等状态是否为Up,虚拟机所属子网是否绑定了虚拟路由器,虚拟机的MAC地址是否与控制组件上虚拟端口MAC地址一致,虚拟机的虚拟端口是否关闭了IP-MAC防欺骗,如果以上检查均符合要求,则继续进行下一步。
(2) 检查网关设备所属的设备组HA部署模式是否为多活,且配置了VTEP IP地址和出口网关MAC地址。
(3) 检查配置BFD的Source IP是否与同虚拟路由器私网网段冲突。如果是,请重新规划Source IP,且配置的Source IP个数与出口网关所属设备组中设备个数一致。
(4) 检查下一跳IP虚拟机所属的主机与网关是否能够相互Ping通对方的VTEP IP地址,如果否,请排查主机与网关之间Underlay网络;如果是,请继续下一步。
(5) 检查网关上指定VPN内是否有下一跳IP对应的ARP表项,如果是,则检查ARP表项是否与控制组件的IP和MAC一致。如果仍然无法解决,请继续进行下一步。
(6) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
无法访问BGP路由型VNF网元的业务地址。
造成故障的原因可能有如下几种:
· 没有配置下一跳为该类型VNF网元对应虚拟端口IP的静态路由。
· 没有配置网关与BGP路由型VNF网元之间BGP邻居。
· vSwitch上丢失缺省流表。
· 硬件网关与BGP路由型VNF网元之间EBGP邻居建立失败。
故障处理步骤为:
(1) 查看BGP路由型VNF网元的虚拟路由器引用的路由表中,是否配置下一跳为该VNF网元虚机对应虚拟端口IP的静态路由,如果否,请通过云平台或控制组件配置下一跳为网元虚机对应虚拟端口IP的静态路由;如果是,请继续进行下一步。
(2) 查看控制组件BGP邻居列表中是否存在BGP路由型VNF网元的BGP邻居配置,如果否,请通过云平台或控制组件配置此BGP路由型网元的BGP邻居配置;如果是,请继续进行下一步。
(3) 登录控制组件界面,在[自动化 > Fabrics > 计算域 > 主机]页面中选择“主机数据同步详情”,单击<审计>,确认vSwitch上是否存在流表或组表差异,如果是,请参见“23.1 vSwitch流表或组表异常”进行数据修复。如果否,请继续进行下一步。
(4) 登录控制组件界面,在[自动化 > 资源池 > 设备资源]页面中单击“数据同步状态”区段的链接,在设备数据同步详情页面执行审计操作,确认设备上是否存在错误配置,如果是,请参见“23.2 设备配置异常”进行数据修复。如果否,请继续进行下一步。
(5) 查看步骤(1)中的路由表项对应的BFD会话是否正常,如果否,请参见“24.2 BFD会话异常”进行故障处理。如果是,请继续进行下一步。
(6) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
备站点出现异常,如主备站点断连、备站点下电等,并且异常期间主站点做了大量配置变更。备站点恢复后,控制组件PostgresSQL数据同步状态一直显示为“同步异常”。
图25-1 PostgresSQL数据同步状态异常
故障处理步骤为:
(1) 在对应数据同步状态异常的控制组件PostgresSQL操作列,单击<数据同步>按钮,进行强制数据同步。
图25-2 数据同步
(2) 数据同步执行完成后,确认数据同步状态异常的控制组件PostgresSQL行已恢复到“已同步”。
图25-3 确认数据同步状态
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
添加vCenter连接后,查询vCenter的“连接状态”为“连接失败”。
造成故障的原因可能有如下几种:
· 原因一:网络不可达。
· 原因二:连接参数错误。
· 原因三:vCenter服务端异常。
故障处理步骤为:
(1) 检查是否是原因一:网络不可达。
a. 登录控制组件各节点后台,检查能否ping通vCenter服务器的IP地址。如果不能,请解决网络连接问题。
b. 登录vCenter服务器,检查能否ping通控制组件各节点的IP地址。如果不能,请解决网络连接问题。
c. 再次连接控制组件和vCenter,检查故障是否解决。
(2) 检查是否是原因二:连接参数错误。
a. 通过控制组件界面检查与vCenter连接相关的参数是否正确。登录控制组件界面,在[自动化 > 数据中心网络 > 云及虚拟化对接 > VMware]页面中,进入vCenter管理页面。
b. 查看“IP地址”和“端口号”等参数是否正确。如果IP地址和端口号不正确,请修改IP地址和端口号。
c. 查看用户名和密码是否正确。如果用户名和密码不正确,请修改用户名和密码。
d. 检查证书是否正确。登录控制组件界面,在[系统 > 数据中心证书管理 > 证书]页面中,查看VMM服务中已激活证书是否正确。如果证书不正确,请重新在vCenter上导出证书,然后在控制组件导入证书。
e. 修改控制组件与vCenter的对接参数,再次建立连接,检查故障是否解决。
(3) 检查是否是原因三:vCenter服务端异常。
a. 检查vCenter服务端Lisense是否过期。如果Lisense过期,请申请新的Lisense并替换。
b. 检查vCenter的服务进程是否启动或者异常。如果未启动,请启动服务进程,如果有异常,请重启服务进程。
c. 再次连接控制组件和vCenter,检查故障是否解决。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
添加vCenter连接成功后,从控制组件向vCenter下发配置,在控制组件侧操作成功,但是在vCenter上配置下发失败。
造成故障的原因可能有如下几种:
· 原因一:vCenter连接状态异常。
· 原因二:下发的配置与vCenter已有资源冲突。
故障处理步骤为:
(1) 检查是否是原因一:vCenter连接状态异常。
具体处理步骤请参见“26.1 vCenter连接状态异常”。
(2) 检查是否是原因二:资源冲突。
a. 查看VMM模块系统日志,明确配置下发失败原因及具体冲突资源对象。
b. 重新规划资源,再尝试下发vCenter 配置,检查故障是否解决。
添加RHVM连接后,查询RHVM的“连接状态”为“连接失败”。
造成故障的原因可能有如下几种:
· 原因一:网络不可达。
· 原因二:连接参数错误。
· 原因三:RHVM服务端异常。
故障处理步骤为:
(1) 检查是否是原因一:网络不可达。
a. 登录控制组件各节点后台,检查能否ping通RHVM服务器的IP地址。如果不能,请解决网络连接问题。
b. 登录RHVM服务器,检查能否ping通控制组件各节点的IP地址。如果不能,请解决网络连接问题。
c. 再次连接控制组件和RHVM,检查故障是否解决。
(2) 检查是否是原因二:连接参数错误。
a. 通过控制组件界面检查与RHVM连接相关的参数是否正确。登录控制组件界面,在[自动化 > 数据中心网络 > 云及虚拟化对接 > Red Hat]页面中,进入RHVM管理页面。
b. 查看“IP地址”和“端口号”等参数是否正确。如果IP地址和端口号不正确,请修改IP地址和端口号。
c. 查看用户名和密码是否正确。如果用户名和密码不正确,请修改用户名和密码。
d. 检查证书是否正确。登录控制组件界面,在[系统 > 数据中心证书管理 > 证书]页面中,查看VMM服务中已激活证书是否正确。如果证书不正确,请重新在RHVM上导出证书,然后在控制组件导入证书。
e. 修改控制组件与RHVM的对接参数,再次建立连接,检查故障是否解决。
(3) 检查是否是原因三:RHVM服务端异常。
a. 检查RHVM的服务进程是否启动或者异常。如果未启动,请启动服务进程,如果有异常,请重启服务进程。
b. 在登录RHVM页面,检查用户名是否被锁住或禁用。若账户被锁住或禁用,请登录RHVM服务端进行解锁。解锁后可在“RHVM管理”页面,单击操作栏中的重连按钮进行重连。
c. 再次连接控制组件和RHVM,检查故障是否解决。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
添加RHVM连接成功后,从控制组件向RHVM下发配置,在控制组件侧操作成功,但是在RHVM上配置下发失败。
造成故障的原因可能有如下几种:
· 原因一:RHVM连接状态异常。
· 原因二:下发的配置与RHVM已有资源冲突。
故障处理步骤为:
(1) 检查是否是原因一:RHVM连接状态异常。
具体处理步骤请参见“26.3 RHVM连接状态异常”。
(2) 检查是否是原因二:资源冲突。
a. 查看云对接模块系统日志,明确配置下发失败原因及具体冲突资源对象。
b. 重新规划资源,再尝试下发RHVM配置,检查故障是否解决。
添加System Center连接后,查询System Center的“连接状态”为“连接失败”。
造成故障的原因可能有如下几种:
· 原因一:网络不可达。
· 原因二:连接参数错误。
· 原因三:System Center服务端异常
故障处理步骤为:
(1) 检查是否是原因一:网络不可达。
a. 登录控制组件各节点后台,检查能否ping通System Center服务器的IP地址。如果不能,请解决网络连接问题。
b. 登录System Center服务器,检查能否ping通控制组件各节点的IP地址。如果不能,请解决网络连接问题。
c. 再次连接控制组件和System Center,检查故障是否解决。
(2) 检查是否是原因二:连接参数错误。
a. 通过控制组件界面检查与System Center连接相关的参数是否正确。登录控制组件界面,在[自动化 > 数据中心网络 > 云及虚拟化对接 > Microsoft]页面中,进入System Center管理页面。
b. 查看“IP地址”和“端口号”等参数是否正确。如果IP地址和端口号不正确,请修改IP地址和端口号。
c. 查看用户名和密码是否正确。如果用户名和密码不正确,请修改用户名和密码。
d. 检查证书是否正确。登录控制组件界面,在[系统 > 数据中心证书管理 > 证书]页面中,查看VMM服务中已激活证书是否正确。如果证书不正确,请重新在System Center上导出证书,然后在控制组件导入证书。
e. 修改控制组件与System Center的对接参数,再次建立连接,检查故障是否解决。
(3) 检查是否是原因三:System Center服务端异常。
a. 检查System Center的服务进程是否启动或者异常。如果未启动,请启动服务进程,如果有异常,请重启服务进程。
b. 在登录System Center页面,检查用户名是否被锁住或禁用。若账户被锁住或禁用,请登录System Center服务端进行解锁。解锁后可在“System Center管理”页面,单击操作栏中的重连按钮进行重连。
c. 再次连接控制组件和System Center,检查故障是否解决。
(4) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
添加System Center连接成功后,从控制组件向System Center下发配置,在控制组件侧操作成功,但是在System Center上配置下发失败。
造成故障的原因可能有如下几种:
· 原因一:System Center连接状态异常。
· 原因二:下发的配置与System Center已有资源冲突。
故障处理步骤为:
(1) 检查是否是原因一:System Center连接状态异常。
具体处理步骤请参见“26.5 System Center连接状态异常”。
(2) 检查是否是原因二:资源冲突。
a. 查看云对接模块系统日志,明确配置下发失败原因及具体冲突资源对象。
b. 重新规划资源,再尝试下发System Center配置,检查故障是否解决。
配置应用策略黑白名单,服务链策略配置下发后,设备配置下发失败亮红灯。
造成故障的原因:设备不支持微分段功能。
故障处理步骤为:
(1) 登录到亮红灯设备,手工配置微分段命令,并查看设备是否支持微分段功能。
(2) 如果设备不支持微分段功能,需要考虑更换支持微分段功能的版本或更换设备。
配置应用策略黑白名单,服务链策略配置下发后,设备配置下发成功但引流功能不生效。
造成故障的原因:设备没有使能微分段功能的全局开关。
故障处理步骤为:
登录控制组件界面,在[自动化 > 数据中心网络 > Fabrics]页面中,在对应的Fabric配置中打开EPG开关。
图27-1 打开EPG开关
配置应用策略例外规则引用服务路径,PBR没有下发next-hop下一跳。
造成故障的原因:虚机未上线。
故障处理步骤为:
虚机上线后,下一跳配置会下发。
配置微分段IPv6协议,服务链策略配置下发后,设备配置下发成功但引流功能不生效。
造成故障的原因可能有如下几种:
· 设备版本不支持IPv6。
· 控制组件没有使能IPv6的全局开关。
故障处理步骤为:
(1) 登录控制组件界面,在[自动化 > 数据中心网络 > Fabrics > 参数设置]页面中,在控制组件全局配置页面启用IPv6。
图27-2 启用IPv6
(2) 如仍未解决,则需登录到亮红灯设备,手工配置微分段命令,并查看设备是否支持微分段功能。如果设备不支持,则需要考虑更换支持微分段功能的版本或更换设备。
配置应用策略服务链,设备上查看不到EPG对应的PBR配置。
造成故障的原因:被应用策略例外规则使用的EPG为network或subnet类型,且该network或subnet下的所有vPort都已被其他EPG引用。
故障处理步骤为:
正常现象,无需解决。
仿真主机管理列表的状态显示为Abnormal。
造成故障的原因可能有如下几种:
· 仿真微服务和主机服务器网络不通。
· 添加主机时的用户名或者密码被修改。
· 主机服务器故障。
故障处理步骤为:
(1) 检查仿真微服务和主机服务器之间的网络。如果正常,请继续下一步。
(2) 删除该台仿真主机,使用修改后的用户名密码重新添加。
(3) 如果主机服务器故障无法恢复时,可以删除该台主机,重新纳管新的主机来完成仿真网络构建。
(4) 登陆主机服务器的后台,查看/opt/sdn/script目录下是否有脚本文件,如果被误删,可以将/h3Linux/script目录下的所有脚本复制到/opt/sdn/script目录下。
(5) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
构建仿真网络时提示仿真设备激活失败,或者在仿真设备信息列表中仿真状态列显示Inactive。
造成故障的原因可能有如下几种:
· 仿真微服务和主机服务器网络不通。
· 仿真设备的License过期。
故障处理步骤为:
(1) 检查仿真微服务和主机服务器之间的网络。如果网络正常,请继续下一步。
(2) 通过该仿真设备所在主机服务器的ilo口登录主机,并单击[Applications > System Tools > Virtual Machine Manager]。在页面中,双击相应的"Inactive"虚拟机,在虚拟机的控制台查看是否有License过期的提示信息。如有,请续签License。
(3) 如果上述操作完成后故障仍无法排除,请联系技术支持工程师。
配置发放提示“配置发放失败”。
造成故障的原因:配置发放的资源与生产环境中资源冲突。
故障处理步骤为:
(1) 根据配置发放失败的提示信息,锁定发放失败的资源以及失败原因。
(2) 检查仿真资源与生产资源是否发生冲突。若存在冲突,请继续下一步。
(3) 重新开启设计态,构建资源。若无法避免与生产态资源发生冲突,请继续下一步。
(4) 关闭设计态,重新构建网络。构建成功后,请继续下一步。
(5) 开启设计态,重新进行设计态业务编排,进行仿真评估,然后进行配置发放。若配置发放仍然失败,请联系技术支持工程师。
