手册下载
H3C 云安全运维管理平台 故障处理手册(E1114)-5W100-整本手册.pdf (566.89 KB)
H3C SecCloud云安全运维管理平台
故障处理手册
资料版本:5W100-20210625
Copyright © 2021新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
H3C 云安全运维管理平台(以下简称云安全运维平台)用于对云环境中的防火墙、应用控制网关等安全设备进行集中运维管理。可实时监控设备的状态、网络流量、威胁事件等信息,进行大数据挖掘分析与监控可视化呈现。从而简化运维过程、提升运维体验、保证运维的安全性和可回溯性,为用户提供便捷、高质量、低成本的安全运维服务。本文档介绍了用户在产品使用过程中可能遇到的问题,用户可参考本文档完成云安全运维平台产品的故障处理工作。
当云安全运维平台发生故障时,用户可参考图1-1所示的流程进行故障处理。
流程步骤 |
说明 |
参考 |
记录故障现象 |
记录云安全运维平台故障现象并填写《云安全运维平台故障现象记录表》 |
|
收集基本信息 |
收集云安全运维平台基本信息并填写《云安全运维平台基本信息收集表》 |
|
收集系统日志 |
收集云安全运维平台系统日志 |
|
执行基础测试 |
执行对云安全运维平台的基础测试,并记录测试结果 |
|
查找常见故障 |
结合故障现象、基本信息和测试结果在本文档中查找符合的故障描述 |
|
尝试排除故障 |
如果找到符合的故障描述,请参考相关的解决办法排除故障 |
|
故障处理求助 |
如果未找到符合的故障描述或尝试排除故障失败,请拨打400电话向H3C技术支持寻求帮助。H3C技术支持将会对云安全运维平台故障进行定位与排除 |
云安全运维平台的标准组网方案为单机模式组网方案,相应的介绍如错误!未找到引用源。所述。
当用户遇到云安全运维平台故障时,请先记录故障现象并填写《云安全运维平台故障现象记录表》。
表2-1 云安全运维平台故障现象记录表
项目 |
描述 |
故障发生时间 |
|
故障操作与截图 |
|
故障影响范围 |
|
故障相关信息 |
|
用户可参考以下说明填写《云安全运维平台故障现象记录表》:
· 故障发生时间:故障发生的时间或时间范围,请尽可能精确到分钟。
· 故障操作与截图:执行过的相关操作以及关键步骤的截图。
· 故障影响范围:故障影响的范围,例如:个别用户、全部用户、个别组织、全部组织、云管理员等。
· 故障相关信息:可能与故障相关的其他信息,例如:设备断电、网线脱落、存储故障等。
故障现象记录完成后,请根据实际情况填写《云安全运维平台基本信息收集表》。
表3-1 云安全运维平台基本信息收集表
项目 |
信息 |
|||||||
部署模式 |
o 单机模式 |
o 集群模式 |
||||||
硬件运行环境 |
类型 |
o 物理机 |
o CAS虚拟机 |
o VMware虚拟机 |
||||
CPU配置 |
|
|||||||
内存容量 |
|
|||||||
本地存储容量 |
|
|||||||
共享存储类型 |
o 无 |
o iSCSI |
o FCoE |
o FC |
||||
共享存储容量 |
|
|||||||
版本信息 |
|
|||||||
授权信息 |
授权类型 |
o 正式授权 |
o 临时授权 |
|
||||
使用情况 |
|
|||||||
请参考以下内容填写《云安全运维平台基本信息收集表》:
· 部署模式:云安全运维平台的部署模式,包括单机模式和集群模式。
· 硬件运行环境:云安全运维平台的硬件运行环境,包括服务器和共享存储。
¡ 类型:服务器的类型,包括物理机、CAS虚拟机或VMware虚拟机。
¡ CPU配置:服务器的CPU数量和主频。
¡ 内存容量:服务器的内存容量。
¡ 本地存储容量:服务器的本地存储容量。
¡ 共享存储类型:共享存储的类型,包括iSCSI和FC,未使用时选择“无”。
¡ 共享存储容量:各共享存储卷的容量,未使用共享存储时请标明“无”。
· 版本信息:云安全运维平台的版本信息,版本号。
· 授权信息:云安全运维平台的授权信息。
¡ 授权类型:云安全运维平台当前的授权类型,包括正式授权和临时授权。
¡ 使用情况:云安全运维平台授权的使用情况,包括租户数量、用户数量。
收集完云安全运维平台的基本信息后,请参考以下内容来收集云安全运维平台系统日志。
需要收集的云安全运维平台日志如表1-1所示。
表4-1 日志列表
组件名称 |
组件描述 |
cloudweb |
云安全运维平台web服务组件 |
cloudcore |
云安全运维平台核心业务处理组件 |
tunnel-websocket |
云安全运维平台与设备通信通道WebSocket连接组件 |
tunnel-manager |
云安全运维平台与设备通信通道API服务组件 |
cloudagent |
用于检测云安全运维平台主机的CPU等性能组件 |
cloudsend |
云安全运维平台短信发送组件 |
本节将介绍如何收集这些组件的日志文件。
(1) 使用客户端工具,root用户SSH远程登录云安全运维平台后台。
(2) 通过命令进入对应组件日志目录下,获取对应组件日志文件。
# 进入组件cloudweb日志路径,通过SFTP下载日志文件至本地PC。
cd /opt/cloudops/web/log/
图4-1 cloudweb日志
# 进入组件cloudcore日志路径,通过SFTP下载日志文件至本地PC。
cd /opt/cloudops/core/logs/
图4-2 cloudcore日志
# 进入组件tunnel-websocket日志路径,通过SFTP下载日志文件至本地PC。
cd /opt/cloudops/tunnel-websocket/logs/
图4-3 tunnel-websocket日志
# 进入组件tunnel-manager日志路径,通过SFTP下载日志文件至本地PC。
cd /opt/cloudops/tunnel-manager/logs/
图4-4 tunnel-manager日志
# 进入组件cloudagent日志路径,通过SFTP下载日志文件至本地PC。
cd /opt/cloudops/agent/logs/
图4-5 cloudagent日志
# 进入组件cloudsend日志路径,通过SFTP下载日志文件至本地PC。
cd /opt/cloudops/send/logs/
图4-6 cloudsend日志
本节将介绍如何收集云安全运维平台操作日志、系统日志。
(1) 启动浏览器,在地址栏中输入https://<h3c_seccloud_ip_address>打开“云安全运维平台”登录页面,如图4-7所示。
(2) 输入系统管理员用户名、密码和验证码,单击<登录>按钮登录系统。
(3) 单击左侧导航中的“配置中心 > 日志中心”菜单,显示操作日志与系统日志记录。
(4) 单击<导出>按钮,导出日志。
图4-8 查询操作日志
图4-9 查询系统日志
(5) 将所有的日志文件打包好,发送给运维人员。
本节将介绍如何查看云安全运维平台后台日志,协助定位问题分析;
(1) 使用客户端工具,root用户SSH远程登录云安全运维平台后台。
(2) 参考以下命令查看维护日志。
# 通过命令查看对应组件日志显示内容
cat /opt/cloudops/core/loge/seccloud.log
cat /opt/cloudops/tunnel-websocket/logs/security-cloud-tunnel-websocket.log
cat /opt/cloudops/tunnel-manager/logs/security-cloud-tunnel-manager.log
(3) 将所有的日志文件截图,发送给运维人员。
收集完日志后,请参考以下内容完成基础测试,以便可以根据测试结果查找故障现象。
云安全运维平台的正常运行会依赖到本地存储。用户需要检查服务器本地存储空间是否充足。
(1) 使用root用户登录云安全运维平台后台。
(2) 使用以下命令查看存储空间的使用情况是否正确。
df -h
图5-1 查看存储空间
已用%列显示了存储空间的使用率,若使用率超过90%,则需要查看系统文件占用情况。优先排查日志文件大小,若确认日志文件过多占用空间,则将除seccloud.log、security-cloud-tunnel-websocket.log和security-cloud-tunnel-manager.log三个日志文件外的文件进行删除即可。
云安全运维平台在正常运行时,所有服务组件的状态都是OK。当云安全运维平台故障时,用户需要检查云安全运维平台的服务组件状态是否正常。
(1) 使用root用户登录后台。
(2) 执行如下命令查看服务所有组件状态,OK表示该服务组件正常运行,fail表示该服务组件异常。
cloudops status
图5-2 查看服务组件状态
测试项目 |
测试结果 |
服务器可用空间检查 |
|
服务组件状态检查 |
|
关键服务(容器)检查 |
|
系统在执行云安全运维平台组件安装脚本时,安装页面提示多个IP地址,输入了1,部署成功后,页面无法访问。
问题原因:云安全运维平台在执行安装脚本时,会自动检测当前系统的IP,存在过个IP时,需要手动输入使用的完整IP地址,不可输入1或2。
解决方案:需重新部署,安装选择IP地址时,需要输入完整的IP地址。
图6-1 手动输入IP地址
登录云安全运维管理平台后,进入设备日志页面,页面提示错误。
图6-2 错误提示
问题原因:系统管理员未配置安全分析平台参数。
解决方案:
(1) 联系管理员,获取“态势感知”安全分析平台的具体参数。
(2) 使用系统管理员账号登录云安全管理平台,在“配置中心 > 系统参数 > 安全分析平台参数”页面
(3) 单击<编辑>按钮,配置安全分析平台参数中的“态势感知”安全分析平台的参数。
(4) 打开“安全平台”开关,“安全分析平台”选择“态势感知”,其他参数根据管理员提供的参数进行填写,填写完成后保存即可。
图6-3 添加安全分析平台参数配置
用户登录云安全运维平台,在设备管理页面添加设备,提示“设备SN不可被管理,请联系管理员”。
图6-4 添加设备失败
问题原因:该设备不在默认支持型号范围内,从而不支持添加。
解决方案:联系管理员,确认该设备是否能否支持上云。若支持,则由管理员添加该型号设备的BOM后,即可添加设备。
当用户遇到无法解决的故障时,可参考本章内容进行故障处理求助。
拨打故障处理求助电话前,请准备好以下信息:
· 操作步骤
· 故障现象记录表
· 基本信息收集表
· 云安全运维平台日志
· 基础测试记录表
· 自主排障操作记录
用户支持邮箱:[email protected]
技术支持热线电话:400-810-0504(手机、固话均可拨打)