选择区域语言: EN CN HK

H3C Super Controller 故障处理手册-5W101

手册下载


1 简介

本文档介绍H3C Super Controller常见故障的诊断及处理措施。

1.1  故障处理注意事项

当出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

·     记录您所使用的H3C Super Controller版本、操作系统版本。

·     记录具体的故障现象、故障时间、配置信息。

·     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

·     收集日志信息和诊断信息(收集方法见1.2  收集故障诊断信息)。

·     记录现场采取的故障处理措施及实施后的现象效果。

1.2  收集故障诊断信息

您可以通过如下步骤,查看Super Controller的诊断信息。

(1)     在浏览器(如Chrome)中输入控制器GUI的登录地址(格式为:https://controller_ip_address/suc/ui/),回车后打开控制器GUI的登录界面。输入用户名和密码后,单击<登录>按钮进入控制器GUI首页。

(2)     在控制器GUI界面中,单击[系统/日志/诊断日志]菜单项,进入诊断日志页面,如1-1所示选择要导出日志的时间范围(如不选择则导出全部日志),单击<导出>按钮将诊断日志信息保存到本地。

图1-1 诊断日志页面

 

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)


2 控制器登录异常故障处理

Super Controller的登录依赖WebAAA微服务,两个微服务必须同时工作,否则系统无法进行登录。

2.1  使用浏览器无法登录Super Controller,提示“404

2.1.1  故障描述

使用浏览器登录Super Controller,无法显示登录页面,提示错误“404”。

2.1.2  故障处理步骤

造成故障的原因可能为Web微服务被删除。

故障处理步骤如下:

(1)     登录H3C Matrix GUI界面,进入[部署/应用]页面,查看Web微服务是否已安装,如果是,请进行步骤(3),如果否,请继续进行下一步。

(2)     重新安装Web微服务,详细步骤请参见《H3C Super Controller安装指导》。

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

2.2  使用浏览器无法登录Super Controller,提示“登录超时”

2.2.1  故障描述

使用浏览器登录Super Controller,输入正确的用户名密码并单击<登录>按钮后,无法成功登录,提示错误“登录超时”。

2.2.2  故障处理步骤

造成故障的原因可能为AAA微服务被删除。

故障处理步骤如下:

(1)     登录H3C Matrix GUI界面,进入[部署/应用]页面,查看AAA微服务是否已安装,如果是,请进行步骤(3),如果否,请继续进行下一步。

(2)     重新安装AAA微服务,详细步骤请参见《H3C Super Controller安装指导》。

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

2.3  使用浏览器无法登录Super Controller,提示“系统正在恢复配置,请稍后重试”

2.3.1  故障描述

使用浏览器登录Super Controller,输入正确的用户名密码并单击<登录>按钮后,无法成功登录,提示错误“系统正在恢复配置,请稍后重试”。

2.3.2  故障处理步骤

造成故障的原因可能有如下几种:

·     AAA微服务刚安装完成,正在同步配置,还未开始正常运行。

·     集群主机重启中。

故障处理步骤如下:

(1)     等待系统恢复后再重新登录,如仍然无法登录,请继续进行下一步。

(2)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。


3 集群节点异常故障处理

3.1  集群节点服务器硬件故障无法恢复,必须更换节点服务器

3.1.1  故障描述

Matrix集群中的某个节点因为硬件故障无法恢复,需要更换新的节点服务器。

3.1.2  故障处理步骤

造成故障的原因:Matrix集群节点服务器的硬件出现故障,导致节点服务器运行异常,且无法恢复。

故障处理步骤如下:

(1)     在正常运行的Master节点服务器上,通过手动执行脚本来释放故障节点上容器所占用的IP地址。故障节点的主机名以matrix02为例。

[root@matrix01 ~]# sh /opt/matrix/k8s/disaster-recovery/recovery.sh matrix02

(2)     更换新节点服务器,并确保新节点服务器的IP地址、用户名及密码与故障节点相同。

(3)     请从当前集群的主用Master节点中将/opt/matrix/app/install文件夹拷贝至新服务器的对应目录下。

(4)     在新节点服务器中安装Matrix软件安装包,具体请参见《H3C Matrix容器化应用部署平台安装指导》。

(5)     登录Matrix界面,在[部署/集群]页面下,单击故障节点右上角的按钮,选择[禁用]菜单项禁用节点,等待节点禁用完成后,再单击[启用]菜单项启用该节点,等待节点启用完成后,即可完成更换服务器的操作。


4 租户模块异常故障处理

4.1  部署逻辑网络拓扑失败,提示“站点不可达

4.1.1  故障描述

[租户/租户管理/逻辑网络]页面部署逻辑网络失败,逻辑资源的图标变为红色,并提示“站点不可达”。

4.1.2  故障处理步骤

造成故障的原因可能为Super Controller到站点的网络不通。

故障处理步骤如下:

(1)     排查站点和Super Controller之间的网络通信状况,保证正常互通。

(2)     重新部署逻辑网络。

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。


5 系统模块异常故障处理

5.1  进入日志设置页面,提示“内部错误”

5.1.1  故障描述

进入[系统/设置/日志设置]页面,无法查看或修改设置,提示“内部错误”。

5.1.2  故障处理步骤

造成故障的原因可能为因集群主机多次重启导致db微服务运行异常。

故障处理步骤如下:

(1)     登录H3C Matrix界面,进入[部署/备份恢复]页面,在备份历史区域查看是否存在历史备份文件,如果否,请进行步骤(8),如果是,请继续进行下一步。

(2)     登录任意一台集群Master节点的命令行界面,使用命令kubectl exec -n vcf-system $(kubectl get pod -n vcf-system | grep -im1 pxc | awk '{print $1}') service mysql status查看数据库运行是否正常,如显示running则表示运行正常,如显示stopped则表示运行异常,如果运行正常,请进行步骤(8);如果运行异常,请继续进行下一步。

(3)     分别登录三台Master节点的命令行界面,运行命令rm –rf /opt/matrix/app/data/SuperController/db/删除主机数据库目录

(4)     登录H3C Matrix界面,进入[部署/应用]页面,在列表“操作”区段中单击db微服务对应的按钮,删除db微服务。

(5)     重新安装db微服务,请参见《H3C Super Controller安装指导》。

(6)     进入[部署/备份恢复]页面,在备份历史区域列表的“操作”区段中,单击指定备份文件对应的按钮,在弹出的对话框中进入微服务列表页签,选中“SuperController/db”,单击<确定>按钮开始数据恢复,恢复完成后,重新登录Super Controller

(7)     在任意一台Master节点的主机上运行命令kubectl delete pod -n super-controller $(kubectl get pod -n super-controller -o wide | egrep -vi 'aaa|default|nginx|name' | awk '{print $1}' | tr '\n' ' '),重启集群依赖的微服务。

(8)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

5.2  多次刷新诊断日志设置页面,出现数据不一致情况

5.2.1  故障描述

进入[系统/日志设置/诊断日志]页面,完成诊断日志级别设置后,多次刷新页面,出现级别的取值不一致数据。

5.2.2  故障处理步骤

造成故障的原因可能有如下几种:

·     主机多次重启导致mq微服务运行异常。

·     主机之间网络不通导致mq微服务运行异常。

故障处理步骤如下:

(1)     登录H3C Matrix界面,进入[部署/应用]页面,在列表“操作”区段中单击mq微服务对应的按钮,删除mq微服务。

(2)     重新安装mq微服务,请参见《H3C Super Controller安装指导》。

(3)     登录任意一台Master节点的命令行界面,执行命令kubectl delete pod -n super-controller $(kubectl get pod -n super-controller -o wide | egrep -vi 'aaa|default|nginx|name' | awk '{print $1}' | tr '\n' ' '),重启依赖mq的微服务。

(4)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

5.3  日志信息顺序错乱

5.3.1  故障描述

操作日志、系统日志、导出的诊断日志,日志信息的顺序错乱。

5.3.2  故障处理步骤

造成故障的原因为对系统时间进行了修改,而日志的显示顺序按照系统时间进行排序,如果系统时间进行变更,则将会导致日志的顺序出现错乱。

故障处理步骤如下:

(1)     将系统时间修改为正确的时间后,不要再次更改系统时间。如果新生成的日志仍然出现顺序错乱,请继续进行下一步。

(2)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

5.4  诊断日志导出失败

5.4.1  故障描述

导出诊断日志时,页面进度条后方显示“导出失败”,无法打开导出文件。

5.4.2  故障处理步骤

造成故障的原因可能为集群节点上的Log挂载目录被删除。

故障处理步骤如下:

(1)     登录导出失败的集群节点主机命令行界面,执行命令ls -al /opt/matrix/app/data/SuperController/log/log-tmp查看是否存在Log挂载目录,如果不存在该目录,则继续进行下一步,如果存在该目录,则直接进行步骤(3)

(2)     在不存在Log挂载目录的节点上,执行命令docker ps | grep log | grep super-controller | grep -v "POD" | awk '{cmd="docker stop "$1;system(cmd)}'重启容器。等待12分钟,登录Super Controller GUI界面重新导出诊断日志。

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。