01-正文

本章节下载 (2.02 MB)

01-正文

3.1.1 浏览器无法打开管理页面或页面显示异常

3.1.2 登录管理页面提示网络错误

3.1.3 管理页面无法加载

3.1.4 登录管理页面提示安装Handy的主机系统时间被修改

3.2.4 系统时间早于License文件生成时间

3.2.5 License过期

3.2.6 License试用期到期

3.2.7 部署节点时提示License容量不足

3.2.8 部署集群时提示License容量不足

6.1.2 通过iSCSI高可用IP地址读写失败

6.2 本地备份相关故障快速处理

6.2.1 映射至业务主机的存储卷或卷快照不可用

7.1.1 使用负载均衡域名访问共享时失败

7.1.2 删除异常NAS节点时提示指定节点无法连接

7.1.3 切换鉴权方式后客户端提示没有访问权限

7.1.4 取消挂载NFS服务后TCP连接仍存在

7.1.5 访问CIFS共享目录出错

7.1.6 使用NFS共享时客户端业务卡顿或中断

7.1.7 FTP客户端访问共享目录时目录未刷新

7.1.8 Windows 10客户端异常断开

7.1.9 删除NAS服务器失败

7.2 快照管理相关故障快速处理

7.2.1 快照回滚时提示回滚配额容量不足

7.3 配额管理相关故障快速处理

7.3.1 目录文件数统计不准

1 故障处理概述

1.1 故障处理注意事项

进行故障诊断和处理时，请注意以下事项：

· 当出现故障时，请尽可能全面、详细地记录现场信息，收集信息越全面、越详细，越有利于故障的快速定位与处理，具体请参见1.3 故障信息收集。

· 故障处理操作只能由有资质且经过培训的维护人员执行，如果操作不当，可能会导致设备异常、业务运行异常等现象发生。

· 重大故障或复杂故障请联系技术支持定位与处理，技术支持获取方式请参见1.4 故障处理求助方式。

· 故障处理过程中，如需更换软件版本或安装补丁，请参考相应的版本说明书，确定版本之间的兼容性。

· 因产品版本更迭，产品的软件页面和配置操作方法可能会不定期更新，请以版本的实际情况为准。

1.2 故障处理流程

故障处理的主要流程如图1-1所示，流程说明如表1-1所示。

如果无法定位故障原因或在故障处理过程中遇到问题，请联系技术支持获取帮助。技术支持获取方式请参见1.4 故障处理求助方式。

图1-1 故障处理流程

表1-1 故障处理流程说明

流程项	说明
收集并记录故障信息	尽可能全面、详细地记录现场故障信息，有利于故障的快速定位与处理，具体请参见1.3 故障信息收集
判断故障类型	根据故障信息判断故障的类型和故障的影响范围，以便进一步定位故障原因或获取帮助
定位故障原因	对故障进行进一步分析与排查，从而定位故障产生的具体原因
进行故障排除	根据故障的产生原因进行相应的故障处理操作，以清除故障
记录故障处理过程	记录现场采取的故障处理措施、处理要点和处理结果，以便于规避同类故障或对同类故障进行快速处理

1.3 故障信息收集

故障产生后，需要收集的主要故障信息如表1-2所示。

表1-2 主要故障信息收集项

收集项	说明
设备序列号	记录故障设备的序列号
版本	记录软件版本和操作系统版本
故障产生时间	记录故障产生的具体时间
故障现象	记录故障产生的现象，例如错误提示等
故障前后执行的操作	记录故障产生前和故障产生后执行的操作
日志和告警	导出故障发生后系统产生的告警信息和日志信息，具体请参见2.1 如何获取日志和告警信息
设备指示灯状态	记录设备的指示灯状态，需要重点关注处于异常状态的指示灯，具体请参见2.2 如何查看节点指示灯
网络拓扑	记录网络拓扑信息，如组网图、端口连接关系、故障设备位置等

1.4 故障处理求助方式

当故障无法自行处理时，请收集故障信息，通过以下方式联系H3C技术支持人员获取帮助：

· 热线电话：400-810-0504

· 服务网站：zhiliao.h3c.com

· 技术支持人员邮箱：[email protected]

· 微信公众号：新华三服务

1.5 适用产品

本文档适用于H3C ONEStor分布式存储系统软件和搭载H3C UniStor分布式存储系统的存储一体机。

2 故障处理常用操作

2.1 如何获取日志和告警信息

2.1.1 获取操作日志信息

操作日志记录了操作员对系统所做的操作以及操作结果。运维人员可通过如下方式获取存储系统的操作日志信息。

(1) 如图2-1所示，单击导航树中的[运维管理/操作日志]菜单项，进入操作日志页面，即可查看操作日志信息。

图2-1 操作日志页面

(2) 单击<导出>按钮，如图2-2所示，选择导出方式后即可导出操作日志。

图2-2 导出操作日志

2.1.2 获取系统日志信息

系统日志记录了系统的运行状态。运维人员可通过如下方式获取存储系统的系统日志信息。

(1) 如图2-3所示，单击导航树中的[运维管理/系统日志]菜单项，进入系统日志页面，即可查看系统日志信息。

图2-3 系统日志页面

(2) 单击<导出>按钮，如图2-4所示，选择导出范围和模块即可导出系统日志。

图2-4 导出系统日志

2.1.3 获取告警信息

告警信息可实时反馈存储系统异常。运维人员可通过如下方式获取存储系统的系统日志信息。

请检查存储系统的告警开关是否开启，开启告警开关是使用告警功能的前提，具体方法请参见2.3 如何开启告警。

1. 通过存储系统管理页面获取告警信息

(1) 如图2-5所示，单击导航树中的[告警管理/告警信息/所有告警]菜单项，进入告警页面，即可查看告警信息。

图2-5 告警页面

(2) 单击<导出>按钮，如图2-6所示，可导出告警信息。

图2-6 导出告警信息

2. 通过第三方管理平台获取告警信息

若存储系统已经与第三方管理平台对接，且已完成SNMP相关配置，则可通过第三方管理平台获取存储系统的告警信息，具体请参见产品的配置指导。

2.2 如何查看节点指示灯

不同型号的节点，指示灯位置和含义不完全相同，本文档以H3C UniStor X10516 G3（以下简称X10516 G3）为例对节点指示灯进行介绍。其他机型的指示灯位置和含义请参见产品配套的用户指南。

2.2.1 前面板指示灯

图2-7 前面板指示灯和按钮（以X10516 G3为例）

（注：产品外观可能会不定期升级，请以产品的实际情况为准）

表2-1 前面板指示灯说明（以X10516 G3为例）

编号	说明	状态
1	Health指示灯	· 绿灯常亮：系统状态正常或有轻微告警 · 绿灯闪烁（4Hz）：HDM正在初始化 · 橙灯闪烁（1Hz）：系统出现严重错误告警 · 红灯闪烁（1Hz）：系统出现紧急错误告警
2	板载以太网接口指示灯	· 绿灯常亮：任一网口连接状态正常 · 绿灯闪烁（1Hz）：任一网口有数据收发 · 灯灭：全部网口均未使用
3	开机/待机按钮和系统电源指示灯	· 绿灯常亮：系统已启动 · 绿灯闪烁（1Hz）：系统正在开机 · 橙灯常亮：系统处于待机状态 · 灯灭：未通电
4	UID按钮/指示灯	· 蓝灯常亮：UID指示灯被激活。UID指示灯可通过以下任意方法被激活： ¡ UID按钮被按下 ¡ 通过HDM开启UID指示灯 · 蓝灯闪烁： ¡ 1Hz：系统正在被HDM远程管理或固件升级 ¡ 4Hz：HDM正在重启（长按UID按钮/指示灯8秒可重启HDM） · 灯灭：UID指示灯未激活
· 不同型号的节点，前面板不完全相同，指示灯的外观、位置和指代对象可能会有差异，请以产品实际情况为准，具体请参见产品配套的用户指南 · 如果Health指示灯显示系统出现问题，请通过HDM查看系统运行状态 · 系统电源指示灯灭的原因可能有：没有接通电源、未安装电源模块、电源模块故障或系统电源指示灯线缆未连接

2.2.2 后面板指示灯

图2-8 后面板指示灯（以X10516 G3为例）

表2-2 后面板指示灯说明（以X10516 G3为例）

编号	说明	状态
1	UID指示灯	· 蓝灯常亮：UID指示灯被激活。UID指示灯可通过以下方法之一被激活 ¡ UID按钮被按下 ¡ 通过HDM开启UID指示灯 · 蓝灯闪烁： ¡ 1Hz：系统正在被HDM远程管理或固件升级 ¡ 4Hz：HDM正在重启（长按UID按钮/指示灯8秒可重启HDM） · 灯灭：UID指示灯未激活
2	以太网接口连接状态指示灯	· 绿色常亮：网口链路已经连通 · 灯灭：网口链路没有连通
3	以太网接口数据传输状态指示灯	· 绿色闪烁（1Hz）：网口正在接收或发送数据 · 灯灭：网口没有接收或发送数据
4	电源模块1状态指示灯	· 绿灯常亮：电源模块工作正常 · 绿灯闪烁（1Hz）：电源模块输入正常，系统处于待机状态未上电 · 绿灯闪烁（0.33Hz）：电源模块处于备用电源模式，无功率输出 · 橙灯常亮： ¡ 电源模块出现严重故障 ¡ 该电源模块无输入，另一个电源模块输入正常 · 橙灯闪烁（1Hz）：电源模块出现告警 · 灯灭：电源模块无输入，存在以下一种或两种情况： ¡ 电源线缆连接故障 ¡ 外部供电系统断电
5	电源模块2状态指示灯
不同型号的节点，后面板不完全相同，指示灯的外观、位置和指代对象可能会有差异，请以产品实际情况为准，具体请参见产品配套的用户指南

2.2.3 硬盘指示灯

不同型号节点和硬盘，硬盘外观、指示灯外观、指示灯位置和指代对象可能会有差异，请以产品实际情况为准，具体请参见产品配套的用户指南。

图2-9 硬盘指示灯（以X10516 G3为例）

(1):硬盘Fault/UID指示灯	(2):硬盘Present/Active指示灯

SAS/SATA硬盘指示灯含义请参见表2-3，NVMe硬盘指示灯含义请参见表2-4。

表2-3 SAS/SATA硬盘指示灯说明（以X10516 G3为例）

硬盘Fault/UID指示灯（橙色/蓝色）	硬盘Present/Active指示灯（绿色）	说明
橙色闪烁（0.5Hz）	常亮/闪烁（4Hz）	硬盘预告性故障报警，请立即更换硬盘
橙色灯常亮	常亮/闪烁（4Hz）	硬盘出现故障，请立即更换硬盘
蓝色灯常亮	常亮/闪烁（4Hz）	硬盘状态正常，且被阵列管理工具选中
灯灭	闪烁（4Hz）	硬盘在位，有数据读写操作或正在进行阵列迁移/重建
灯灭	常亮	硬盘在位，但没有数据读写操作
灯灭	灯灭	硬盘未安装到位或者硬盘故障

表2-4 NVMe硬盘指示灯说明（以X10516 G3为例）

硬盘Fault/UID指示灯（橙色/蓝色）	硬盘Present/Active指示灯（绿色）	说明
橙色闪烁（4Hz）	灯灭	硬盘处于热插入过程
橙色常亮	常亮/闪烁（4Hz）	硬盘出现故障，请立即更换硬盘
蓝色常亮	常亮/闪烁（4Hz）	硬盘状态正常，且被阵列管理工具选中
灯灭	闪烁（4Hz）	硬盘在位，有数据读写操作或正在进行阵列迁移/重建
灯灭	常亮	硬盘在位，但没有数据读写操作
灯灭	灯灭	硬盘未安装到位

2.3 如何开启告警

如果告警开关处于关闭状态，存储系统将无法产生和上报新的告警信息。为确保运维人员能及时了解集群状态，请开启存储系统的告警开关。运维人员可通过如下方式开启告警功能。

(1) 如图2-10所示，单击导航树中的[告警管理/告警设置/基础配置]菜单项，进入告警基础配置页面。

图2-10 告警基础配置页面

(2) 单击告警配置框中的<编辑>按钮，然后如图2-11所示，单击<开启>按钮，然后单击<确定按钮>，以开启存储系统的告警功能。

图2-11 开启告警开关

2.4 如何开启监控

监控报表功能可以通过图表的形式直观地展示集群的各项指标，可以帮助运维人员实时了解集群状态，合理进行业务规划和调整，保障集群的正常运行。

· 部分监控功能已缺省开启，可直接进入监控报表页面查看监控数据。

· 部分监控功能需要手动开启，开启后可在监控报表页面查看监控数据。

2.4.1 如何查看监控报表

如图2-12所示，单击导航树中的[监控报表]菜单项进入监控报表页面，然后单击[监控报表]下的二级菜单项，即可进入对应的监控报表页面。

图2-12 监控报表页面

2.4.2 如何开启存储卷性能监控

存储卷性能监控缺省处于关闭状态，开启存储卷性能监控后，管理员可在监控报表页面中查看相关的性能数据，有助于合理规划或调整各存储卷的业务分布及负载。

存储系统支持单个开启或批量开启存储卷性能监控。

1. 单个开启存储卷性能监控

(1) 如图2-13所示，单击导航树的[块存储/卷管理/存储卷]菜单项，进入存储卷管理页面。

图2-13 存储卷管理页面

(2) 如图2-14所示，单击存储卷的性能监控状态切换按钮，即可切换存储卷的性能监控状态。

图2-14 开启单个存储卷性能监控

(3) 如图2-15所示，单击导航树中的[监控报表/存储卷]菜单项进入存储卷监控报表页面，即可查看存储卷的性能监控信息。

图2-15 存储卷监控报表

2. 批量开启存储卷性能监控

(1) 如图2-16所示，单击导航树的[块存储/卷管理/存储卷]菜单项，进入存储卷管理页面。

图2-16 存储卷管理页面

(2) 如图2-17所示，单击<批量切换性能监控状态>按钮。

图2-17 批量切换存储卷性能监控状态按钮

(3) 如图2-18所示，选择状态切换范围，即可批量切换存储卷的性能监控状态。

图2-18 批量切换存储卷性能监控状态

(4) 如图2-19所示，单击导航树中的[监控报表/存储卷]菜单项进入存储卷监控报表页面，即可查看存储卷的性能监控信息。

图2-19 存储卷监控报表

2.5 如何开启维护模式

存储系统提供了维护模式，在故障处理过程中，运维人员可以根据需要为存储节点开启维护模式。存储节点开启维护模式后，将该存储节点下电将不会引起数据迁移，以便于进行硬件更换等操作，同时避免因存储节点维护而导致集群业务异常。

存储系统支持单个开启或基于节点池批量开启/关闭存储节点的维护模式。

1. 单个开启或关闭存储节点维护模式

开启存储节点维护模式前，建议停止存储节点下的所有业务。

(1) 如图2-20所示，单击导航树中的[主机管理/存储节点]菜单项，进入存储节点管理页面。

图2-20 存储节点管理页面

(2) 如图2-21所示，单击存储节点操作栏的<更多/维护模式>按钮，在如图2-22所示的对话框中开启或关闭存储节点的维护模式，然后单击<确定>按钮完成操作。

图2-21 开启或关闭维护模式（一）

图2-22 开启或关闭维护模式（二）

2. 基于节点池批量开启或关闭存储节点维护模式

节点池批量开启存储节点维护模式前，建议停止节点池下所有业务。

(1) 如图2-23所示，单击导航树中的[资源管理/节点池]菜单项，进入节点池页面。

图2-23 节点池页面

(2) 如图2-24所示，单击节点池的操作栏的<更多/开启维护模式>按钮或<更多/关闭维护模式>按钮，然后在弹出的对话框中单击<确定>按钮完成操作。

图2-24 开启或关闭维护模式

3 管理类故障处理

3.1 管理页面相关故障快速处理

3.1.1 浏览器无法打开管理页面或页面显示异常

1. 故障现象

浏览器不支持打开存储系统管理页面或打开存储系统管理页面异常。

2. 可能原因

浏览器与存储系统管理页面不兼容。

3. 故障定位

使用较新版本的Google Chrome（推荐）或Mozilla Firefox浏览器访问集群管理节点的管理网IP地址（若集群启用了管理高可用，则访问高可用IP地址），若能够访问且显示正常，则可证明是由于浏览器兼容性问题导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

请使用如表3-1所示的浏览器访问存储系统管理页面。

浏览器缓存会导致部分信息不能及时更新，此时需清除浏览器缓存。如发现有按钮单击无效，可尝试刷新页面或者清理浏览器缓存处理。

表3-1 浏览器兼容性说明

浏览器	版本
Google Chrome（推荐）	50及以上
Firefox	53.0及以上

3.1.2 登录管理页面提示网络错误

1. 故障现象

如图3-1所示，存储系统管理页面无法登录，登录页面提示“网络错误”。

图3-1 存储系统登录页面提示“网络错误”

2. 可能原因

管理节点开启了网络防火墙。

3. 故障定位

台登录管理节点所在主机的操作系统命令行，执行systemctl status firewalld.service命令，若回显信息中显示防火墙状态为“active”，则可证明是由于管理节点开启了网络防火墙导致了故障。否则请继续排查，或联系技术支持获取帮助。

4. 处理步骤

执行systemctl stop firewalld.service命令关闭防火墙，若重新尝试访问存储系统管理页面成功，则故障处理完成。

3.1.3 管理页面无法加载

1. 故障现象

存储系统管理页面无法访问，如图3-2所示，出现“正在加载”或“系统错误，请联系管理员”等提示。

图3-2 存储系统管理页面出现“正在加载”

2. 可能原因

使用同一个IP地址进行了多次集群部署或升级后，未清理浏览器缓存。

3. 故障定位

若清理浏览器缓存后可以正常访问存储系统管理页面，则证明是因浏览器缓存问题导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

(1) 清理浏览器缓存（以Google Chrome浏览器为例）：打开浏览器，同时按住键盘Ctrl+Shift+Delete键，打开清除浏览数据页面，如图3-3所示，选择“全部”，然后单击<清除浏览数据>按钮。

图3-3 清除缓存

(2) 缓存清理完毕后，刷新浏览器页面，若可正常登录存储系统管理页面，则故障处理成功。

3.1.4 登录管理页面提示安装Handy的主机系统时间被修改

1. 故障现象

如图3-4所示，无法登录存储系统管理页面，登录页面提示“安装Handy的主机系统时间已经被修改，不允许登录”。

图3-4 登录页面提示时间被修改

2. 可能原因

安装了存储系统软件的节点系统时间被修改。

3. 故障定位

无

4. 处理步骤

重新申请License激活文件并使用，具体步骤请参见产品的License使用指南。

3.1.5 系统升级后无法创建管理高可用

1. 故障现象

如图3-5所示，系统升级后创建管理高可用失败，存储系统管理页面提示“主备节点的Handy版本不一致”。

图3-5 提示版本不一致

2. 可能原因

创建高可用时，选择的主用管理节点与备用管理节点的存储系统软件版本不一致。

3. 故障定位

若在系统升级前，集群中已经存在两个安装了存储系统软件的管理节点，且尚未创建管理高可用。则系统升级后仅当前正在使用的管理节点上的软件会被升级，造成两个管理节点的软件版本不一致，从而引起故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

在未安装存储系统的其他节点上，安装与升级后版本相同的存储系统软件，然后在创建管理高可用时选择该节点作为备用管理节点，即可成功创建管理高可用。

3.1.6 安装或卸载补丁失败

1. 故障现象

安装或卸载补丁失败，存储系统管理页面提示补丁安装/卸载失败。

2. 可能原因

安装或卸载过程中节点断电。

3. 故障定位

登录节点操作系统命令行，执行cat /var/log/patch_tool.log命令查看存储系统补丁安装过程日志，再执行cat /opt/patch_tool/db.json命令查看补丁配置文件信息，对比二者信息是否一致。若二者信息不一致，且在补丁安装或卸载操作执行为失败的情况下，存储系统管理页面依然显示补丁状态为“正常”，则可能是由于节点断电导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

重启断电的节点后重新执行补丁安装或卸载操作，补丁安装或卸载的具体步骤请参见产品的联机帮助。若补丁安装或卸载成功，则故障处理完成。

3.1.7 在线升级失败

1. 故障现象

在线升级失败，存储系统管理页面提示回滚失败或升级失败。

2. 可能原因

在线升级过程中集群网络异常，升级过程被中断。

3. 故障定位

确保集群网络正常的情况下，重新进行在线升级。若可以升级完成，则证明是由于网络异常导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

(1) 将集群网络恢复至正常。

(2) 重新进行在线升级，支持以下两种方式：

¡ 执行升级回滚操作至集群在线升级前的状态，然后重新执行在线升级操作，具体步骤请参见产品联机帮助。

¡ 检查并确保集群健康，然后重新执行在线升级操作，具体步骤请参见产品联机帮助。

3.1.8 在线升级时重复升级组件

1. 故障现象

在线升级时节点断电，断电恢复后，在线升级流程对已经升级完成的组件重复升级。

2. 可能原因

执行升级命令的节点断电。

3. 故障定位

执行升级命令的节点断电，记录升级进度的文件无法从内存写入至硬盘中，从而导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

重复升级组件仅会增加在线升级时长，无其他影响，请耐心等待升级完成。

3.2 License相关故障快速处理

3.2.1 License文件格式错误

1. 故障现象

如图3-6所示，激活License时，存储系统管理页面提示“文件格式错误，请重新选择文件”。

图3-6 文件格式错误提示

2. 可能原因

所选择的License激活文件错误，或License激活文件为非H3C官方渠道申请的文件。

3. 故障定位

无

4. 处理步骤

(1) 选择正确的License激活文件进行激活。

(2) 如未申请过License激活文件，请通过H3C官方渠道申请License激活文件并使用，具体步骤请参见产品的License使用指南。

3.2.2 License文件错误

1. 故障现象

激活License时，存储系统管理页面提示“License文件错误”。

2. 可能原因

License激活文件存在问题（如被篡改过）。

3. 故障定位

无

4. 处理步骤

重新申请License激活文件并使用，具体步骤请参见产品的License使用指南。

3.2.3 激活文件信息与主机信息不匹配

1. 故障现象

如图3-7所示，激活License时，存储系统管理页面提示“激活文件信息与主机信息不匹配”。

图3-7 激活文件信息不匹配提示

2. 可能原因

· 可能原因1：该License激活文件不是通过当前主机注册申请的，主机信息与License激活文件信息不匹配。

· 可能原因2：在当前主机申请License激活文件后，进行过主机硬件更改或网络聚合等操作，导致主机信息与License激活文件信息不匹配。

3. 故障定位

无

4. 处理步骤

原因1

· 选择注册申请该License激活文件的主机进行激活。

· 重新申请License激活文件后进行激活，具体步骤请参见产品的License使用指南。

原因2

请联系技术支持，提交设备变更申请并完成设备变更流程后，再使用该License激活文件进行激活。

3.2.4 系统时间早于License文件生成时间

1. 故障现象

如图3-8所示，激活License时，存储系统管理页面提示“系统时间早于License文件生成时间”。

图3-8 系统时间异常提示

2. 可能原因

管理节点的系统时间早于License激活文件申请的时间。

3. 故障定位

(1) 登录管理节点操作系统命令行，如图3-9所示，在命令行中输入date命令查看管理节点当前的系统时间。

图3-9 查看当前时间

(2) 如图3-10所示，查看License文件申请的时间。若管理节点当前的系统时间小于License文件申请的时间，则证明是由于管理节点系统时间早于License文件申请时间导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

图3-10 查看License文件申请时间

无

4. 处理步骤

· 可根据当前存储服务的已有容量，部署或添加容量较小的主机或硬盘，确保部署或添加后，存储服务总容量不会超过授权最大容量。

· 可进行License扩容后再部署主机或添加硬盘，具体方法请参见产品的License使用指南。

3.2.8 部署集群时提示License容量不足

1. 故障现象

在存储系统管理页面进行集群部署失败，页面提示硬盘总容量超过License最大容量，如图3-14所示。

图3-14 容量不足提示

2. 可能原因

部署集群时所选的主机或硬盘容量过大，部署后，存储服务总容量将超过授权的最大容量。

3. 故障定位

无

4. 处理步骤

· 可选择容量较小的主机或硬盘进行集群部署，确保部署后存储服务总容量不会超过授权最大容量。

· 可进行License扩容后再部署集群，具体方法请参见产品的License使用指南。

4 资源类故障处理

4.1.1 删除主机时主机网络异常

1. 故障现象

删除主机失败。

2. 可能原因

删除主机前或删除主机过程中，主机出现网络异常。

3. 故障定位

检查主机网络状态，若主机网络无法连接或无响应，则可能是由于主机网络异常导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

(1) 请排查并恢复主机网络，或联系技术支持获取帮助。等待主机网络恢复正常后，再次执行删除操作，如果删除主机成功，则表明故障处理完成。

(2) 如果主机网络无法恢复，也可以在存储系统管理页面离线删除该主机，具体步骤请参见产品的联机帮助。如果离线删除主机成功，则表明故障处理完成

4.1.2 监控节点状态异常

1. 故障现象

存储系统管理页面显示监控节点状态异常。

2. 可能原因

· 可能原因1：监控节点处于掉电或关机状态。

· 可能原因2：监控节点软件版本与存储系统不一致。

· 可能原因3：监控节点与存储集群之间的网络存在异常。

3. 故障定位

(1) 检查监控节点的上电状态，若监控节点未上电或已关机，则可能是由于监控节点处于掉电或关机状态导致了故障。

(2) 检查监控节点的软件版本，若监控节点的软件版本与存储集群不一致，则可能是由于软件版本不匹配导致了故障。

(3) 检查监控节点与存储集群之间的网络连接状态，若无法连接，则可能是由于监控节点与存储集群之间的网络异常导致了故障。

(4) 若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

原因1

将监控节点恢复正常开机状态，如果监控节点状态显示正常，则表明故障处理完成。

原因2

删除异常监控节点，然后创建新的监控节点，具体步骤请参见产品的联机帮助。如果监控节点状态显示正常，则表明故障处理完成。

原因3

请排查并恢复监控节点与存储集群之间的网络连接，确保其可以正常通信，或联系技术支持获取帮助。如果监控节点状态显示正常，则表明故障处理完成。

4.1.3 NAS节点异常

1. 故障现象

存储系统管理页面显示NAS节点状态异常。

2. 可能原因

NAS节点软件版本与存储系统不一致。

3. 故障定位

检查NAS节点与存储集群的软件版本，若两者版本不一致，则可能是由于软件版本不匹配导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

删除异常NAS节点，然后创建新的NAS节点，具体步骤请参见产品的联机帮助。如果新创建的NAS节点状态正常，则表明故障处理完成。

4.1.4 MDS节点异常

1. 故障现象

存储系统管理页面显示MDS节点状态异常。

2. 可能原因

MDS节点软件版本与存储系统不一致。

3. 故障定位

如果集群仅有3个MDS节点，MDS节点异常问题请联系技术支持解决。

检查MDS节点与存储集群的软件版本，若两者版本不一致，则可能是由于软件版本不匹配导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

删除异常MDS节点，然后创建新的MDS节点，具体步骤请参见产品的联机帮助。如果新创建的MDS节点状态正常，则表明故障处理完成。

5 网络与设备类故障处理

5.1 网络相关故障快速处理

5.1.1 网络不通

1. 故障现象

集群内节点网络异常。

2. 可能原因

· 可能原因1：交换机VLAN设置错误。

· 可能原因2：网线破损、没有插好、交换机未正常工作等物理原因。

· 可能原因3：节点IP冲突导致集群检测不到节点。

· 可能原因4：存储系统I/O能力达到极限。

· 可能原因5：NTP同步未开启，节点时间未同步。

3. 故障定位

(1) 登录交换机，查看节点的存储网、业务网和管理网端口是否绑定在了不同的VLAN中。若是，则表明是由于交换机VLAN设置错误导致了故障，否则请继续排查。

(2) 检查集群中的网线外观及接插是否正常，并登录任意节点的操作系统命令行，执行cat /var/log/ceph/ceph-osd.x.log |grep network error命令（x为任意OSD号，此处以2为例）查看任意OSD日志。若发现网线存在异常，同时日志中存在如下信息，则表明是由于物理原因导致了故障，否则请继续排查。

network error，exit osd and create flag

(3) 检查网络异常节点的IP地址是否冲突，检测方法为：

a. 禁用网络异常节点的网卡。

b. 登录其他任意网络正常节点的操作系统命令行，执行ping 异常节点IP命令。

若可以ping通，则证明集群中存在与异常节点IP地址相同的节点，即是由于IP地址冲突导致了故障，否则请继续排查。

(4) 登录任意节点的操作系统命令行，执行cat /var/log/ceph/ceph-osd.x.log |grep slow requests命令（x为任意OSD号，此处以2为例）查看任意OSD日志，若回显信息如图5-1所示，则表明是由于存储系统I/O能力达到极限导致了故障，否则请继续排查。

图5-1 I/O能力达到极限回显信息（以osd.2为例）

(5) 登录任意节点的操作系统命令行，执行ceph –w命令，若回显信息如下所示，则表明是由于NTP同步未开启导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

213075 : cluster [WRN]mon.1 172.16.51.16:6789/0 clock skew 5.313975s > max 0.15s

213075 : cluster [WRN]mon.2 172.16.51.16:6789/0 clock skew 10.313975s > max 0.15s

213075 : cluster [WRN]mon.3 172.16.51.16:6789/0 clock skew 20.313975s > max 0.15s

4. 处理步骤

原因1

重新配置交换机，将节点的存储网、业务网和管理网端口绑定到同一VLAN中。

原因2

更换破损网线并将网线插好，若集群中存在多级交换机，请保证每个交换机正常工作。

原因3

修改节点IP地址，确保集群内没有IP地址相同的节点。

原因4

· 降低存储业务压力。

· 限制集群IOPS。可通过设置交换机等网络设备来限制集群IOPS，也可以通过存储系统管理页面的相关功能限制集群IOPS，通过存储系统管理页面限制集群IOPS的操作方法请参见产品联机帮助。

· 联系技术支持，对集群进行硬件或设备升级。

原因5

如图5-2所示，在存储系统管理页面开启NTP服务，具体步骤请参见产品联机帮助。

图5-2 开启NTP服务

5.2 设备相关故障快速处理

5.2.1 存储节点状态异常

1. 故障现象

存储系统管理页面中，存储节点显示状态异常。

2. 可能原因

· 可能原因1：节点掉电、关机或业务网络异常。

· 可能原因2：存储网络异常。

3. 故障定位

(1) 登录存储系统管理页面，单击导航树的[主机管理]菜单项，进入存储节点页面。如图5-3所示，若异常主机的硬盘状态显示为“暂无数据”，则可能是由于节点掉电、关机或业务网络异常导致了故障，否则请继续排查。

图5-3 硬盘状态“暂无数据”

(2) 如图5-4所示，若异常主机的硬盘状态显示为“0/x”（x为该存储节点可识别硬盘总数），则可能是由于存储网络异常导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

图5-4 硬盘状态为0/x

4. 处理步骤

原因1

· 若节点掉电或关机，请重新上电并启动该节点。

· 若业务网络异常，请排查并恢复业务网络，或联系技术支持获取帮助。

原因2

请排查并恢复存储网络，或联系技术支持获取帮助。

5.2.2 慢盘告警

1. 故障现象

如图5-5所示，存储系统管理页面的实时告警模块中出现了慢盘告警。

图5-5 慢盘告警

2. 可能原因

慢盘告警中所提硬盘出现故障，读写速度慢。

3. 故障定位

若硬盘出现故障，则可能会导致硬盘的I/O访问速率慢，从而引起存储系统慢盘告警。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

请更换异常硬盘，具体方法请联系技术支持获取。更换新硬盘后，若慢盘告警在10分钟内恢复，则故障处理完成。若慢盘告警未在10分钟内自动恢复，请在存储系统管理页面的实时告警页面手动确认该告警，详细操作请参见产品联机帮助。

6 块存储业务类故障处理

6.1 卷映射相关故障快速处理

6.1.1 iSCSI高可用IP地址不通

1. 故障现象

iSCSI高可用IP地址不通，无法访问。

2. 可能原因

· 可能原因1：业务网卡配置改变。

· 可能原因2：多个集群的iSCSI高可用组ID（VRID）冲突。

3. 故障定位

(1) 若进行过修改网卡Bond接口、调换业务网网卡与存储网网卡等操作，则可能是由于网卡配置变更导致了故障，否则请继续排查。

(2) 登录iSCSI高可用组内节点的操作系统命令行，执行cat /var/log/messages |grep VRID命令，若存在类似如下错误信息，则可能是由于多个集群的iSCSI高可用组ID（VRID）冲突导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

Apr 25 17:10:27 onestor206 Keepalived_vrrp[555604]: ip address associated with VRID not present in received packet : 192.16.1.214

Apr 25 17:10:27 onestor206 Keepalived_vrrp[555604]: one or more VIP associated with VRID mismatch actual MASTER advert

4. 处理步骤

原因1

删除原有iSCSI高可用，重新创建iSCSI高可用，具体步骤请参见产品联机帮助。

原因2

· 重新规划并修改冲突的iSCSI高可用组ID（VRID），具体步骤请参见产品联机帮助。

· 删除原有iSCSI高可用，重新创建iSCSI高可用，具体步骤请参见产品联机帮助。

6.1.2 通过iSCSI高可用IP地址读写失败

1. 故障现象

iSCSI高可用IP地址可以正常访问，但通过该IP地址进行的读写操作失败。

2. 可能原因

集群业务繁忙。

3. 故障定位

登录iSCSI高可用组内节点的操作系统命令行，执行cat /var/log/messages |grep io error命令，若存在类似如下错误信息，则可能是由于集群业务繁忙导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

Mar 8 11:39:58 wy-ost209 tgtd: procaioresp(221) io error 0x1f33160 28 -110

4. 处理步骤

· 降低存储业务压力。

· 联系技术支持，对集群进行硬件或设备升级。

6.2 本地备份相关故障快速处理

6.2.1 映射至业务主机的存储卷或卷快照不可用

1. 故障现象

业务主机上显示已映射的存储卷或卷快照不可用。

2. 可能原因

将存储卷及其快照映射至同一业务主机。

3. 故障定位

将存储卷及其卷快照映射至同一业务主机，或将某存储卷的多个卷快照映射至同一业务主机时，业务主机的卷识别机制可能会将存储卷及其多个卷快照识别为同一个卷，导致存储卷或卷快照数据被破坏，从而引起故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

如非必要，建议勿将存储卷及其快照或同一存储卷的多个快照映射至同一业务主机，若该故障已发生且无法恢复，请联系技术支持获取帮助。

6.2.2 快照回滚后源卷数据未恢复

1. 故障现象

在存储系统管理页面将存储卷解除映射后，对该存储卷进行快照回滚操作，然后将该卷再次映射至业务主机时，发现存储卷上的数据并未恢复至创建快照时的状态。

2. 可能原因

业务主机残留的缓存数据覆盖了卷数据。

3. 故障定位

解除存储卷映射关系后，业务主机未能及时感知。若此时对存储卷进行快照回滚后重新将该卷映射至业务主机，则业务主机中保留的缓存数据可能会覆盖回滚后的卷数据，进而引起故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

执行快照回滚操作前，先执行以下任意一种操作：

· 取消存储卷与业务主机间的映射关系后，在业务主机侧重新扫描硬盘。

· 断开存储系统与该业务主机的iSCSI的连接。

6.2.3 卷快照一直处于中间状态

1. 故障现象

卷快照一直处于“创建中”、“删除中”或“回滚失败”等中间状态。

2. 可能原因

存储系统异常，如硬盘故障、网络及组件异常等。

3. 故障定位

无

4. 处理步骤

· 对于状态为“创建中”和“删除中”的卷快照，请联系技术支持对快照进行手动删除操作。

· 对于状态为“回滚失败”的卷快照，请重新执行回滚操作，否则可能导致存储卷数据不可用。

6.2.4 卷快照删除速度慢

1. 故障现象

删除卷可写快照或一致性组可写快照时速度慢。

2. 可能原因

· 可能原因1：待删除的快照较大。

· 可能原因2：或集群业务繁忙。

3. 故障定位

(1) 若在存储系统管理页面查看到待删除快照较大，则可能是由于快照较大导致了故障，否则请继续排查。

(2) 在存储系统管理页面点击[概览]菜单项进入概要信息页面，若查看到当前集群IOPS/OPS和集群带宽过大，则可能是由于集群业务繁忙导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

请在集群业务空闲的时段进行删除卷可写快照或一致性组可写快照的操作。

6.3 容灾管理相关故障快速处理

6.3.1 远端设备离线

1. 故障现象

在本端地址池和远端地址池添加新的复制节点成功，但远端设备仍然为离线状态。

2. 可能原因

远端设备离线时新增复制节点。

3. 故障定位

在存储系统管理页面查看远端设备当前状态，若远端设备为离线状态，则可能是由于远端设备离线状态下新增复制节点，新增的复制节点信息未能更新至对端集群，因此恢复物理链路后，两端集群新增的复制节点无法主动连接到对端，从而导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

· 请联系技术支持判断原有复制节点和复制链路是否可修复，若可修复，修复原有复制节点和复制链路后远端设备状态即可恢复。

· 若原有远端设备的业务可移除，则可在移除业务后删除原有的远端设备，并基于已有地址池和新创建的复制节点重新创建远端设备，具体步骤请参见产品的联机帮助。

6.3.2 远端设备仅在一端集群中存在

1. 故障现象

删除某一端集群中的远端设备，另一端集群中的远端设备仍存在。

2. 可能原因

删除远端设备时，远端设备为离线状态。

3. 故障定位

在存储系统管理页面查看远端设备当前状态，若远端设备为离线状态，则可能是由于远端设备离线状态下删除某一端远端设备，导致另一端集群中的远端设备无法被同步删除，从而引起故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

请在远端设备仍存在的集群删除该远端设备，具体步骤请参见产品的联机帮助。

6.3.3 移除复制节点失败

1. 故障现象

在存储系统管理页面移除地址池中的复制节点失败。

2. 可能原因

· 可能原因1：移除复制节点时，远端设备为离线状态。

· 可能原因2：远端设备已承载业务，且待移除复制节点是地址池中唯一的复制节点。

3. 故障定位

(1) 在存储系统管理页面查看远端设备当前状态，若远端设备为离线状态，则可能是由于远端设备离线，移除复制节点的操作无法同步至对端集群，导致了故障，若远端设备为在线状态，请继续排查。

(2) 在存储系统管理页面查看当前是否正在进行异步远程复制任务，及地址池中是否存在其他复制节点。若正在进行异步远程复制且无其他复制节点，则可能是由于移除唯一复制节点会令复制业务中断，存储系统禁止该操作，从而导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

原因1

· 若当前远端设备未承载业务，可先单端删除远端设备后再执行移除复制节点操作，具体步骤请参见产品的联机帮助。

· 若当前远端设备已承载业务，则需要先移除业务并单端删除远端设备，再执行移除复制节点操作，具体步骤请参见产品的联机帮助。

原因2

在地址池中添加新的复制节点后，再执行移除原有复制节点的操作，具体步骤请参见产品的联机帮助。

7 文件存储业务类故障处理

7.1 NAS管理相关故障快速处理

7.1.1 使用负载均衡域名访问共享时失败

1. 故障现象

使用负载均衡域名访问CIFS共享时，部分用户登录失败。

2. 可能原因

客户端的DNS服务器地址与存储集群的DNS服务器存在冲突。

3. 故障定位

使用负载均衡域名访问CIFS共享时，若检查客户端上配置的DNS服务器地址，发现除集群DNS服务器外，还存在其他DNS服务器，则可能是由于客户端的DNS服务器地址与存储集群的DNS服务器存在冲突导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

(1) 在客户端重新配置DNS服务器地址，确保客户端有配置且仅配置一个存储集群的DNS服务器。如果原来登录失败的用户已可以正常登录，则表明故障处理完成。

(2) 如果该故障已经发生且无法恢复，请联系技术支持寻求帮助。

7.1.2 删除异常NAS节点时提示指定节点无法连接

1. 故障现象

删除状态异常的NAS节点时，删除失败，显示如图7-1所示报错。

图7-1 报错

2. 可能原因

存储前端网出现网络故障。

3. 故障定位

检查集群存储前端网网络状态，若存储前端网无法连接或无响应，则可能是由于存储前端网异常导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

请排查并恢复存储前端网网络，或联系技术支持获取帮助。等待存储前端网网络恢复正常后，再次执行删除操作，如果删除NAS节点成功，则表明故障处理完成。

7.1.3 切换鉴权方式后客户端提示没有访问权限

1. 故障现象

在存储系统管理页面切换鉴权方式后，客户端提示“您没有权限访问共享，请与网络管理员联系请求访问权限”。

1. 故障现象

在Windows 10客户端异常断开共享连接。

2. 可能原因

Windows 10操作系统命令行下执行ren命令重命名共享文件。

3. 故障定位

在Windows 10操作系统下的命令行中，使用ren命令会重复打开共享目录，直至进程达到最大，导致共享断开。若在Windows 10客户端中使用ren命令重命名共享文件后出现客户端异常断开，则可能是由于Windows 10操作系统缺陷导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

· 请勿在Windows 10操作系统的命令行中使用ren命令重命名共享文件，如果该故障已经发生且无法恢复，请联系技术支持寻求帮助。

· 为客户端更换除Windows 10外的操作系统。

7.1.9 删除NAS服务器失败

1. 故障现象

存储系统管理页面显示NAS节点状态正常，但是删除NAS节点时，报错如图7-2所示。

图7-2 报错信息

2. 可能原因

NAS节点网络异常。

3. 故障定位

集群网络存在异常的情况下，如果NAS节点也存在网络异常，那么可能NAS节点的异常状态不会同步至管理页面。恢复存储集群管理网络后，若存储系统管理页面显示NAS节点状态异常，则可能是由于NAS节点网络异常导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

请排查并恢复集群管理网络，或联系技术支持获取帮助。等待网络恢复正常后，再次执行删除操作，如果删除成功，则表明故障处理完成。

7.2 快照管理相关故障快速处理

7.2.1 快照回滚时提示回滚配额容量不足

1. 故障现象

对非空目录创建了配额策略，在目录写满之后对其创建快照，然后回滚快照时，报错“快照：快照名回滚配额容量不足”。

2. 可能原因

回滚快照的总容量大于目录的配额硬性阈值。

3. 故障定位

查看目录配额策略中的配额硬性阈值，若小于回滚快照的总容量，则可能是由于配额容量不足导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

请将目录配额策略中的配额硬性阈值设置成大于快照回滚数据大小的数值，然后重新执行回滚快照操作，如果回滚快照成功，则表明故障处理完成。

7.3 配额管理相关故障快速处理

7.3.1 目录文件数统计不准

1. 故障现象

开启文件数配额的目录，显示配额使用率已经达到100%，但是发现实际使用率未达到100%。

2. 可能原因

存在临时文件占用文件数配额。

3. 故障定位

临时文件也会被算入文件数配额的统计中，查看目录下的文件，如果存在临时文件，则可能是由于临时文件被计入配额中导致了故障。若无法定位故障原因，请联系技术支持获取帮助。

4. 处理步骤

· 退出操作系统的文件编辑器，释放临时文件占用的文件数。

· 增大目录配额的硬性阈值，对目录的文件数配额进行调整，具体步骤请参见产品的联机帮助。

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

热门推荐

热门推荐

H3C服务器

HPE服务器

热门推荐

H3C存储

HPE存储

热门推荐

商用台式机

商用笔记本

商用显示器

配件

热门推荐

热门推荐

智能终端

技术解决方案

行业解决方案

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

专业安全服务

安全运营服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

公司刊物

加入我们

国家/地区

H3C分布式存储系统 故障快速处理手册-6W100

目录

01-正文

1.1 故障处理注意事项

1.4 故障处理求助方式

1. 通过存储系统管理页面获取告警信息

2. 通过第三方管理平台获取告警信息

1. 单个开启存储卷性能监控

2. 批量开启存储卷性能监控

1. 单个开启或关闭存储节点维护模式

2. 基于节点池批量开启或关闭存储节点维护模式

1. 故障现象

2. 可能原因

3. 故障定位

4. 处理步骤

1. 故障现象

2. 可能原因

3. 故障定位

4. 处理步骤

1. 故障现象

2. 可能原因

3. 故障定位

4. 处理步骤

3.1.4 登录管理页面提示安装Handy的主机系统时间被修改

1. 故障现象

2. 可能原因

3. 故障定位

4. 处理步骤

1. 故障现象

2. 可能原因

3. 故障定位

4. 处理步骤

1. 故障现象

H3C分布式存储系统故障快速处理手册-6W100