国家 / 地区

H3C SecCloud OMP安全云管理平台 故障处理手册-5W100

手册下载

H3C SecCloud OMP安全云管理平台

故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2018新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。

 



1 故障处理概述

H3C SecCloud OMP安全云管理平台(以下简称安全云)是H3C公司基于云计算操作系统开发的一款云管理平台软件产品,其采用Docker容器封装。本文档介绍了用户在产品使用过程中可能遇到的问题,用户可参考本文档完成安全云产品的故障处理工作。

1.1  故障处理流程

当安全云发生故障时,用户可参考1-1所示的流程进行故障处理。

图1-1 故障处理流程

 

表1-1 故障处理流程说明

流程步骤

说明

参考

记录故障现象

记录安全云故障现象并填写《安全云故障现象记录表》

2.1 

收集基本信息

收集安全云基本信息并填写《安全云基本信息收集表》

3.1 

收集系统日志

收集安全云系统日志

4

执行基础测试

执行对安全云的基础测试,并记录测试结果

5

查找常见故障

结合故障现象、基本信息和测试结果在本文档中查找符合的故障描述

6

尝试排除故障

如果找到符合的故障描述,请参考相关的解决办法排除故障

6

故障处理求助

如果未找到符合的故障描述或尝试排除故障失败,请拨打400电话向H3C技术支持寻求帮助。H3C技术支持将会对安全云故障进行定位与排除

7

1.2  组网方案介绍

CloudOS的标准组网方案包括单机模式组网方案和集群模式组网方案,相应的介绍如1-2所述。

图1-2 单机模式

 

图1-3 集群模式

 

表1-2 组网方案介绍

部件名称

介绍

M节点

Master节点,安全云服务器角色之一,负责安全云服务组件的部署

C节点

Cluster节点,安全云服务器角色之一,可以与Master节点共同组成安全云服务器集群

CloudOS服务器集群

由安全云服务器构成的集群,集群中的服务器角色包括Master节点和Cluster节点

管理网络

用户访问和管理安全云时使用网络,也是安全云与其他云业务组件通讯的网络

集群网络

安全云服务器集群中各节点互相通讯时使用的网络

存储网络

安全云连接存储设备时使用的网络

 

说明

管理网络、集群网络和存储网络在一定条件下可合并为同一网络。

 


2 记录故障现象

当用户遇到安全云故障时,请先记录故障现象并填写《安全云故障现象记录表》。

2.1  故障现象记录表

表2-1 CloudOS故障现象记录表

项目

描述

故障发生时间

 

故障操作与截图

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

故障影响范围

 

 

 

故障相关信息

 

 

 

 

2.2  故障现象记录表填写说明

用户可参考以下说明填写《安全云故障现象记录表》:

·     故障发生时间:故障发生的时间或时间范围,请尽可能精确到分钟。

·     故障操作与截图:执行过的相关操作以及关键步骤的截图。

·     故障影响范围:故障影响的范围,例如:个别用户、全部用户、个别组织、全部组织、云管理员等。

·     故障相关信息:可能与故障相关的其他信息,例如:设备断电、网线脱落、存储故障等。

 


3 收集基本信息

故障现象记录完成后,请根据实际情况填写《安全云基本信息收集表》。

3.1  基本信息收集表

表3-1 安全云基本信息收集表

项目

信息

部署模式

o 单机模式

o 集群模式

硬件运行环境

类型

o 物理机

o CAS虚拟机

o VMware虚拟机

CPU配置

 

内存容量

 

本地存储容量

 

共享存储类型

o

o iSCSI

o FCoE

o FC

共享存储容量

 

 

版本信息

 

授权信息

授权类型

o 正式授权

o 临时授权

 

使用情况

 

 

3.2  基本信息收集表填写说明

请参考以下内容填写《安全云基本信息收集表》:

·     部署模式:安全云的部署模式,包括单机模式和集群模式。

·     硬件运行环境:安全云的硬件运行环境,包括服务器和共享存储。

¡     类型:服务器的类型,包括物理机、CAS虚拟机或VMware虚拟机。

¡     CPU配置:服务器的CPU数量和主频。

¡     内存容量:服务器的内存容量。

¡     本地存储容量:服务器的本地存储容量。

¡     共享存储类型:共享存储的类型,包括iSCSIFCoEFC,未使用时选择“无”。

¡     共享存储容量:各共享存储卷的容量,未使用共享存储时请标明“无”。

·     版本信息:安全云的版本信息,版本号。

·     授权信息:安全云的授权信息。

¡     授权类型:安全云当前的授权类型,包括正式授权和临时授权。

¡     使用情况:安全云授权的使用情况,包括租户数量、用户数量。


4 收集系统日志

收集完安全云的基本信息后,请参考以下内容来收集安全云系统日志。

4.1  可收集的安全云日志

需要收集的安全云日志如1-1所示。

表4-1 日志列表

组件名称

组件描述

h3c-seccloud-web

安全云前端web服务

h3c-seccloud-core

安全云core API服务

h3c-seccloud-log

安全服务日志收集服务

h3c-seccloud-service

主机安全加固处理服务

 

4.2  收集安全云操作日志、系统日志

本节将介绍如何收集安全云操作日志、系统日志。

(1)     启动浏览器,在地址栏中输入http://<h3c_seccloud_ip_address>打开“安全云”登录页面,如所示。

图4-1 登录安全云系统

 

(2)     在菜单栏中单击[监控\日志]菜单项,进入查询日志界面。

(3)     单击<系统日志/操作日志>菜单,显示对应的日志记录。

(4)     单击“导出到csv”按钮,导出日志。

图4-2 查询日志

 

(5)     将所有的日志文件打包好,发送给运维人员。

4.3  收集安全云维护日志

本节将介绍如何收集安全云维护日志。

(1)     启动浏览器,在地址栏中输入http://<h3c_seccloud_ip_address>打开“安全云”登录页面,使用系统管理员登录,如所示。

图4-3 登录安全云系统

(2)     在菜单栏中单击[配置中心\备份]菜单项,进入界面。

(3)     单击<日志>下的“下载”按钮,下载维护日志。

图4-4 日志下载

 

(4)     将所有的日志文件打包好,发送给运维人员。

或者登录服务器节点,收集日志,如下所示:

(5)     使用root用户登录Master节点。

(6)     参考以下命令将维护日志的日志文件打包。

#创建维护日志打包目录,本例中为seccloud-log

[root@D009-RC1-M logs]# mkdir /home/seccloud-log

#将相应的日志拷贝至日志打包目录

 [root@D009-RC1-M logs]# cp /var/log/seccloud /home/seccloud-log/

#将日志打包。本例中为seccloud-log.tgz

[root@D009-RC1-M logs]# tar -zcvf /home/seccloud-log.tgz /home/seccloud-log/*

(7)     将所有的日志文件打包好,发送给运维人员。

 


5 基础测试

收集完日志后,请参考以下内容完成基础测试,以便可以根据测试结果查找故障现象。

5.1  服务器可用空间检查

安全云的正常运行会依赖到本地存储及共享存储。当安全云采用单机模式部署时,用户需要检查服务器本地存储空间是否充足;当安全云采用集群模式部署时,用户需要检查服务器本地存储空间是否充足,共享存储卷的空间是否充足,共享存储卷的连接状态是否正常。

(1)     使用root用户登录Master节点和Cluster节点。

(2)     使用以下命令查看存储空间的使用情况以及共享存储卷数量是否正确,Use%列显示了存储空间的使用率。

[root@D009-RC1-M logs]# df -h

Filesystem               Size  Used Avail Use% Mounted on

/dev/mapper/centos-root  185G   66G  110G  38% /

devtmpfs                  32G     0   32G   0% /dev

tmpfs                     32G   16K   32G   1% /dev/shm

tmpfs                     32G  1.7G   30G   6% /run

tmpfs                     32G     0   32G   0% /sys/fs/cgroup

/dev/vda3                197M  136M   62M  69% /boot

/dev/vda2                200M     0  200M   0% /boot/efi

/dev/sdh                  50G  7.2G   40G  16% /var/lib/kubelet/pods/b9a46a7b-4ebf-11e8-87fa-fa163e7e237e/volumes/kubernetes.io~iscsi/es-datadir

/dev/sdb                 148G  477M  140G   1% /var/lib/kubelet/pods/e41cb039-4ebf-11e8-87fa-fa163e7e237e/volumes/kubernetes.io~iscsi/mongodb

tmpfs                    6.3G     0  6.3G   0% /run/user/0

tmpfs                    6.3G     0  6.3G   0% /run/user/994

(3)     如果使用了共享存储卷,还需要登录存储管理系统并检查存储设备的运行状态。

5.2  节点状态检查

安全云在正常运行时,所有节点的状态都是Ready。当安全云故障时,用户需要检查各节点的状态是否正常。需要注意的是,对于采用集群模式部署的安全云,即使只有两节点正常,安全云仍然能够正常提供服务。

(1)     使用root用户登录Master节点。

(2)     执行以下命令查看安全云节点的数量及状态,Ready表示该节点正常工作。

[root@D009-RC1-M logs]# /opt/bin/kubectl --server=127.0.0.1:8888 get node

NAME            LABELS                                 STATUS    AGE

172.8.200.100   kubernetes.io/hostname=172.8.200.100   Ready     1d

172.8.200.101   kubernetes.io/hostname=172.8.200.101   Ready     1d

172.8.200.106   kubernetes.io/hostname=172.8.200.106   Ready     1d

(3)     执行以下命令查看etcd集群的节点列表,isLeader=true标明相应节点为etcd集群的Leader

[root@D009-RC1-M logs]# /opt/bin/etcdctl member list

89bf69864527c5cd: name=NODE1 peerURLs=http://172.8.200.100:2380 clientURLs=http://172.8.200.100:2379 isLeader=false

920f507c614330b7: name=NODE2 peerURLs=http://172.8.200.101:2380 clientURLs=http://172.8.200.101:2379 isLeader=true

1dab53b89d7e1185: name=NODE3 peerURLs=http://172.8.200.106:2380 clientURLs=http://172.8.200.106:2379 isLeader=false

(4)     执行以下命令查看etcd集群的节点状态。

[root@D009-RC1-M logs]# /opt/bin/etcdctl cluster-health

member 89bf69864527c5cd is healthy: got healthy result from http://172.8.200.100:2379

member 920f507c614330b7 is healthy: got healthy result from http://172.8.200.101:2379

member 1dab53b89d7e1185 is healthy: got healthy result from http://172.8.200.106:2379

cluster is healthy

5.3  服务组件状态检查

安全云在正常运行时,所有服务组件的状态都是Running。当安全云故障时,用户需要检查安全云的服务组件状态是否正常。

(1)     使用root用户登录Master节点。

(2)     执行以下命令查看服务所在节点,Running表示该服务正常运行,NODE列显示了该服务所在节点的管理IP

[root@D009-RC1-M ~]# /opt/bin/kubectl --server=127.0.0.1:8888 get pod -o wide

NAME                          READY     STATUS    RESTARTS   AGE       IP             NODE

api-kinton-service-rc-m76p1   1/1       Running   0          5d        10.101.94.20   172.25.50.51

aquarius-core-rc-3r6n2        1/1       Running   0          5d        10.101.52.7    172.25.50.52

aries-core-rc-9g3p7           1/1       Running   0          5d        10.101.94.9    172.25.50.51

barbicanrc-s2b9d              1/1       Running   0          5d        10.101.34.20   172.25.50.53

bingo-service-rc-4xqgt        1/1       Running   0          5d        10.101.52.19   172.25.50.52

cancer-core-rc-jv6wv          1/1       Running   0          4d        10.101.34.10   172.25.50.53

cas-server-rc-3hbz3           1/1       Running   0          20h       10.101.94.10   172.25.50.51

cas-server-rc-5wncz           1/1       Running   0          20h       10.101.52.8    172.25.50.52

cas-server-rc-7q5f8           1/1       Running   0          20h       10.101.34.11   172.25.50.53

cas123rc-frbw2                1/1       Running   0          1d        10.101.94.21   172.25.50.51

ceilometerrc-kw9sf            1/1       Running   0          5d        10.101.34.18   172.25.50.53

cinderrc-k8s5h                1/1       Running   0          5d        10.101.94.16   172.25.50.51

dashboardrc-48mlb             1/1       Running   0          5d        10.101.94.19   172.25.50.51

elasticsearch-rc-fvp3c        1/1       Running   0          5d        172.25.50.51   172.25.50.51

elasticsearch-rc2-7txgc       1/1       Running   0          5d        172.25.50.53   172.25.50.53

elasticsearch-rc3-lv49r       1/1       Running   0          5d        172.25.50.52   172.25.50.52

flume-rc-60nlb                1/1       Running   0          5d        172.25.50.52   172.25.50.52

flume-rc-95gd7                1/1       Running   0          5d        172.25.50.51   172.25.50.51

flume-rc-dnqpm                1/1       Running   0          5d        172.25.50.53   172.25.50.53

glancerc-q6n09                1/1       Running   0          5d        10.101.52.15   172.25.50.52

heatrc-s55tl                  1/1       Running   0          5d        10.101.52.17   172.25.50.52

host234rc-bs6wr               1/1       Running   0          1d        10.101.34.22   172.25.50.53

host61rc-j8bvj                1/1       Running   0          1d        10.101.52.20   172.25.50.52

influxdb-nginxrc-vthzl        1/1       Running   0          5d        10.101.94.8    172.25.50.51

influxdb-relayrc1-lr09d       1/1       Running   0          5d        10.101.94.7    172.25.50.51

influxdb-relayrc2-trk2c       1/1       Running   0          5d        10.101.34.8    172.25.50.53

influxdb-relayrc3-v9g2f       1/1       Running   0          5d        10.101.52.6    172.25.50.52

influxdbrc1-mptxz             1/1       Running   0          5d        10.101.94.6    172.25.50.51

influxdbrc2-5hp1b             1/1       Running   0          5d        10.101.34.7    172.25.50.53

influxdbrc3-vwrs1             1/1       Running   0          5d        10.101.52.5    172.25.50.52

ironicrc-vx86m                1/1       Running   0          5d        10.101.94.17   172.25.50.51

keystonerc-xsmc9              1/1       Running   0          5d        10.101.34.16   172.25.50.53

lemon-core-rc-5l8fk           1/1       Running   0          5d        10.101.52.11   172.25.50.52

leo-core-rc-4tvvb             1/1       Running   0          5d        10.101.52.9    172.25.50.52

manilarc-55dtc                1/1       Running   0          5d        10.101.94.18   172.25.50.51

maxscalerc-0fx1n              1/1       Running   0          5d        10.101.94.5    172.25.50.51

memcachedrc1-mcbvk            1/1       Running   0          5d        10.101.52.14   172.25.50.52

mha-manager-74n89             1/1       Running   0          5d        10.101.34.5    172.25.50.53

milk-cdn-rc-9znjs             1/1       Running   0          5d        10.101.94.11   172.25.50.51

milk-rc-0702w                 1/1       Running   0          5d        10.101.52.12   172.25.50.52

mongodbrc-86qcl               1/1       Running   0          5d        10.101.94.14   172.25.50.51

mysql-node1-4w8xs             1/1       Running   0          5d        10.101.94.4    172.25.50.51

mysql-node2-2b43n             1/1       Running   0          5d        10.101.34.4    172.25.50.53

mysql-node3-76hsd             1/1       Running   0          5d        10.101.52.4    172.25.50.52

neutronagentrc-bv050          1/1       Running   0          1d        10.101.94.22   172.25.50.51

neutronserverrc-02nr9         1/1       Running   0          1d        10.101.34.23   172.25.50.53

novarc-thdgn                  1/1       Running   0          5d        10.101.94.15   172.25.50.51

ol-help-xqb9s                 1/1       Running   0          5d        10.101.34.15   172.25.50.53

papaya-rc-x09xk               1/1       Running   0          5d        10.101.94.12   172.25.50.51

parametcdrc-jsxsn             1/1       Running   0          5d        10.101.34.2    172.25.50.53

pisces-core-rc-8b29d          1/1       Running   0          5d        10.101.52.10   172.25.50.52

plum-rc-xnm9v                 1/1       Running   0          5d        10.101.94.13   172.25.50.51

pomelo-core-rc-z3wjv          1/1       Running   0          5d        10.101.52.13   172.25.50.52

postgresqlrc-8hqmn            1/1       Running   0          5d        10.101.34.6    172.25.50.53

rabbit1rc-jt7bh               1/1       Running   0          5d        10.101.94.3    172.25.50.51

rabbit2rc-53tcw               1/1       Running   0          5d        10.101.34.3    172.25.50.53

rabbit3rc-xp8l0               1/1       Running   0          5d        10.101.52.3    172.25.50.52

redis-sentinel1-mvxj3         1/1       Running   0          5d        172.25.50.51   172.25.50.51

redis-sentinel2-dxk3m         1/1       Running   0          5d        172.25.50.53   172.25.50.53

redis-sentinel3-drqhq         1/1       Running   0          5d        172.25.50.52   172.25.50.52

redisrc1-6q604                1/1       Running   0          5d        172.25.50.51   172.25.50.51

redisrc2-xd2qb                0/1       Running   0          5d        172.25.50.53   172.25.50.53

redisrc3-rqg3h                0/1       Running   0          5d        172.25.50.52   172.25.50.52

sagittarius-core-rc-wpfz4     1/1       Running   0          5d        10.101.34.12   172.25.50.53

sahararc-f5fwk                1/1       Running   0          5d        10.101.34.19   172.25.50.53

simulatorrc-mm-z4l1b          1/1       Running   0          5d        10.101.34.17   172.25.50.53

sultana-rc-6916q              1/1       Running   0          5d        10.101.34.14   172.25.50.53

taurus-core-rc-j4l8l          1/1       Running   0          5d        10.101.34.21   172.25.50.53

troverc-vmxpn                 1/1       Running   0          5d        10.101.52.18   172.25.50.52

wechat-core-rc-58hxs          1/1       Running   0          5d        10.101.34.13   172.25.50.53

5.4  关键服务(容器)检查

说明

本章节分为关键服务列表与检查方式。可先在5.4.1  章节中查看服务列表,并通过5.4.2  章节中的服务查询方式进行检查。

 

5.4.1  关键服务(容器)列表

1. 安全云组件的关键服务

安全云中,PaaS中大部分组件均以容器化提供服务。PaaS组件列表如5-1所示。

#用以下两种命令进行PaaS容器状态检查

[root@controller1 ~]# /opt/bin/kubectl --server=127.0.0.1:8888 get pod -o wide |grep seccloud

[root@controller1 ~]# /opt/bin/kubectl --server=127.0.0.1:8888 get pod -o wide |grep seccloud

用以上两个命令查看安全云容器的状态是否为”Running”

表5-1 安全云组件列表

分类

容器

说明

安全云容器

h3c-seccloud-web

提供web界面服务

h3c-seccloud-core

提供api服务

h3c-seccloud-log

提供安全日志服务

h3c-seccloud-service

主机安全加固服务

 

5.4.2  关键服务(容器)检查方式

1. 操作系统类关键服务检查

(1)     使用root用户登录各节点操作系统。

(2)     执行systemctl status <服务名称>命令,效果如下:

[root@master ~]# systemctl status ntpd.service

ntpd.service - Network Time Service

   Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)

   Active: active (running) since Mon 2018-06-11 16:40:59 CST; 1 weeks 0 days ago

 Main PID: 20198 (ntpd)

   CGroup: /system.slice/ntpd.service

           └─20198 /usr/sbin/ntpd -u ntp:ntp -g

<省略部分输出>

2. 容器检查

(1)     使用root用户登录实例所在节点的操作系统。

(2)     使用如下命令查看容器状态

[root@master ~]# /opt/bin/kubectl --server=127.0.0.1:8888 get pod -o wide |grep <服务的容器名称>

用以上命令查看容器的状态是否为”Running”

5.5  基础测试记录表

表5-2 CloudOS故障现象记录表

测试项目

测试结果

服务器可用空间检查

 

 

 

节点状态检查

 

 

 

服务组件状态检查

 

 

 

关键服务(容器)检查

 

 

 

 


6 常见故障

目前在第一个版本中还未收录常见故障问题。等在下一个版本中会收录安全云中已知的常见故障。

 


7 故障处理求助

当用户遇到无法解决的故障时,可参考本章内容进行故障处理求助

7.1  故障处理求助准备

拨打故障处理求助电话前,请准备好以下信息:

·     故障现象记录表

·     基本信息收集表

·     安全云日志

·     基础测试记录表

·     自主排障操作记录

7.2  故障处理求助电话

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)