01-正文
本章节下载 (2.02 MB)
进行故障诊断和处理时,请注意以下事项:
· 当出现故障时,请尽可能全面、详细地记录现场信息,收集信息越全面、越详细,越有利于故障的快速定位与处理,具体请参见1.3 故障信息收集。
· 故障处理操作只能由有资质且经过培训的维护人员执行,如果操作不当,可能会导致设备异常、业务运行异常等现象发生。
· 重大故障或复杂故障请联系技术支持定位与处理,技术支持获取方式请参见1.4 故障处理求助方式。
· 故障处理过程中,如需更换软件版本或安装补丁,请参考相应的版本说明书,确定版本之间的兼容性。
· 因产品版本更迭,产品的软件页面和配置操作方法可能会不定期更新,请以版本的实际情况为准。
流程项 |
说明 |
收集并记录故障信息 |
|
判断故障类型 |
根据故障信息判断故障的类型和故障的影响范围,以便进一步定位故障原因或获取帮助 |
定位故障原因 |
对故障进行进一步分析与排查,从而定位故障产生的具体原因 |
进行故障排除 |
根据故障的产生原因进行相应的故障处理操作,以清除故障 |
记录故障处理过程 |
记录现场采取的故障处理措施、处理要点和处理结果,以便于规避同类故障或对同类故障进行快速处理 |
故障产生后,需要收集的主要故障信息如表1-2所示。
收集项 |
说明 |
设备序列号 |
记录故障设备的序列号 |
版本 |
记录软件版本和操作系统版本 |
故障产生时间 |
记录故障产生的具体时间 |
故障现象 |
记录故障产生的现象,例如错误提示等 |
故障前后执行的操作 |
记录故障产生前和故障产生后执行的操作 |
日志和告警 |
导出故障发生后系统产生的告警信息和日志信息,具体请参见2.1 如何获取日志和告警信息 |
设备指示灯状态 |
|
网络拓扑 |
记录网络拓扑信息,如组网图、端口连接关系、故障设备位置等 |
当故障无法自行处理时,请收集故障信息,通过以下方式联系H3C技术支持人员获取帮助:
· 热线电话:400-810-0504
· 服务网站:zhiliao.h3c.com
· 技术支持人员邮箱:[email protected]
本文档适用于H3C ONEStor分布式存储系统软件和搭载H3C UniStor分布式存储系统的存储一体机。
操作日志记录了操作员对系统所做的操作以及操作结果。运维人员可通过如下方式获取存储系统的操作日志信息。
(1) 如图2-1所示,单击导航树中的[运维管理/操作日志]菜单项,进入操作日志页面,即可查看操作日志信息。
(2) 单击<导出>按钮,如图2-2所示,选择导出方式后即可导出操作日志。
系统日志记录了系统的运行状态。运维人员可通过如下方式获取存储系统的系统日志信息。
(1) 如图2-3所示,单击导航树中的[运维管理/系统日志]菜单项,进入系统日志页面,即可查看系统日志信息。
(2) 单击<导出>按钮,如图2-4所示,选择导出范围和模块即可导出系统日志。
告警信息可实时反馈存储系统异常。运维人员可通过如下方式获取存储系统的系统日志信息。
(1) 如图2-5所示,单击导航树中的[告警管理/告警信息/所有告警]菜单项,进入告警页面,即可查看告警信息。
(2) 单击<导出>按钮,如图2-6所示,可导出告警信息。
若存储系统已经与第三方管理平台对接,且已完成SNMP相关配置,则可通过第三方管理平台获取存储系统的告警信息,具体请参见产品的配置指导。
不同型号的节点,指示灯位置和含义不完全相同,本文档以H3C UniStor X10516 G3(以下简称X10516 G3)为例对节点指示灯进行介绍。其他机型的指示灯位置和含义请参见产品配套的用户指南。
图2-7 前面板指示灯和按钮(以X10516 G3为例)
(注:产品外观可能会不定期升级,请以产品的实际情况为准)
表2-1 前面板指示灯说明(以X10516 G3为例)
编号 |
说明 |
状态 |
1 |
Health指示灯 |
· 绿灯常亮:系统状态正常或有轻微告警 · 绿灯闪烁(4Hz):HDM正在初始化 · 橙灯闪烁(1Hz):系统出现严重错误告警 · 红灯闪烁(1Hz):系统出现紧急错误告警 |
2 |
板载以太网接口指示灯 |
· 绿灯常亮:任一网口连接状态正常 · 绿灯闪烁(1Hz):任一网口有数据收发 · 灯灭:全部网口均未使用 |
3 |
开机/待机按钮和系统电源指示灯 |
· 绿灯常亮:系统已启动 · 绿灯闪烁(1Hz):系统正在开机 · 橙灯常亮:系统处于待机状态 · 灯灭:未通电 |
4 |
UID按钮/指示灯 |
· 蓝灯常亮:UID指示灯被激活。UID指示灯可通过以下任意方法被激活: ¡ UID按钮被按下 ¡ 通过HDM开启UID指示灯 · 蓝灯闪烁: ¡ 1Hz:系统正在被HDM远程管理或固件升级 ¡ 4Hz:HDM正在重启(长按UID按钮/指示灯8秒可重启HDM) · 灯灭:UID指示灯未激活 |
· 不同型号的节点,前面板不完全相同,指示灯的外观、位置和指代对象可能会有差异,请以产品实际情况为准,具体请参见产品配套的用户指南 · 如果Health指示灯显示系统出现问题,请通过HDM查看系统运行状态 · 系统电源指示灯灭的原因可能有:没有接通电源、未安装电源模块、电源模块故障或系统电源指示灯线缆未连接 |
图2-8 后面板指示灯(以X10516 G3为例)
表2-2 后面板指示灯说明(以X10516 G3为例)
编号 |
说明 |
状态 |
1 |
UID指示灯 |
· 蓝灯常亮:UID指示灯被激活。UID指示灯可通过以下方法之一被激活 ¡ UID按钮被按下 ¡ 通过HDM开启UID指示灯 · 蓝灯闪烁: ¡ 1Hz:系统正在被HDM远程管理或固件升级 ¡ 4Hz:HDM正在重启(长按UID按钮/指示灯8秒可重启HDM) · 灯灭:UID指示灯未激活 |
2 |
以太网接口连接状态指示灯 |
· 绿色常亮:网口链路已经连通 · 灯灭:网口链路没有连通 |
3 |
以太网接口数据传输状态指示灯 |
· 绿色闪烁(1Hz):网口正在接收或发送数据 · 灯灭:网口没有接收或发送数据 |
4 |
电源模块1状态指示灯 |
· 绿灯常亮:电源模块工作正常 · 绿灯闪烁(1Hz):电源模块输入正常,系统处于待机状态未上电 · 绿灯闪烁(0.33Hz):电源模块处于备用电源模式,无功率输出 · 橙灯常亮: ¡ 电源模块出现严重故障 ¡ 该电源模块无输入,另一个电源模块输入正常 · 橙灯闪烁(1Hz):电源模块出现告警 · 灯灭:电源模块无输入,存在以下一种或两种情况: ¡ 电源线缆连接故障 ¡ 外部供电系统断电 |
5 |
电源模块2状态指示灯 |
|
不同型号的节点,后面板不完全相同,指示灯的外观、位置和指代对象可能会有差异,请以产品实际情况为准,具体请参见产品配套的用户指南 |
不同型号节点和硬盘,硬盘外观、指示灯外观、指示灯位置和指代对象可能会有差异,请以产品实际情况为准,具体请参见产品配套的用户指南。
图2-9 硬盘指示灯(以X10516 G3为例)
(1):硬盘Fault/UID指示灯 |
(2):硬盘Present/Active指示灯 |
SAS/SATA硬盘指示灯含义请参见表2-3,NVMe硬盘指示灯含义请参见表2-4。
表2-3 SAS/SATA硬盘指示灯说明(以X10516 G3为例)
硬盘Fault/UID指示灯(橙色/蓝色) |
硬盘Present/Active指示灯(绿色) |
说明 |
橙色闪烁(0.5Hz) |
常亮/闪烁(4Hz) |
硬盘预告性故障报警,请立即更换硬盘 |
橙色灯常亮 |
常亮/闪烁(4Hz) |
硬盘出现故障,请立即更换硬盘 |
蓝色灯常亮 |
常亮/闪烁(4Hz) |
硬盘状态正常,且被阵列管理工具选中 |
灯灭 |
闪烁(4Hz) |
硬盘在位,有数据读写操作或正在进行阵列迁移/重建 |
灯灭 |
常亮 |
硬盘在位,但没有数据读写操作 |
灯灭 |
灯灭 |
硬盘未安装到位或者硬盘故障 |
表2-4 NVMe硬盘指示灯说明(以X10516 G3为例)
硬盘Fault/UID指示灯(橙色/蓝色) |
硬盘Present/Active指示灯(绿色) |
说明 |
橙色闪烁(4Hz) |
灯灭 |
硬盘处于热插入过程 |
橙色常亮 |
常亮/闪烁(4Hz) |
硬盘出现故障,请立即更换硬盘 |
蓝色常亮 |
常亮/闪烁(4Hz) |
硬盘状态正常,且被阵列管理工具选中 |
灯灭 |
闪烁(4Hz) |
硬盘在位,有数据读写操作或正在进行阵列迁移/重建 |
灯灭 |
常亮 |
硬盘在位,但没有数据读写操作 |
灯灭 |
灯灭 |
硬盘未安装到位 |
如果告警开关处于关闭状态,存储系统将无法产生和上报新的告警信息。为确保运维人员能及时了解集群状态,请开启存储系统的告警开关。运维人员可通过如下方式开启告警功能。
(1) 如图2-10所示,单击导航树中的[告警管理/告警设置/基础配置]菜单项,进入告警基础配置页面。
(2) 单击告警配置框中的<编辑>按钮,然后如图2-11所示,单击<开启>按钮,然后单击<确定按钮>,以开启存储系统的告警功能。
监控报表功能可以通过图表的形式直观地展示集群的各项指标,可以帮助运维人员实时了解集群状态,合理进行业务规划和调整,保障集群的正常运行。
· 部分监控功能已缺省开启,可直接进入监控报表页面查看监控数据。
· 部分监控功能需要手动开启,开启后可在监控报表页面查看监控数据。
如图2-12所示,单击导航树中的[监控报表]菜单项进入监控报表页面,然后单击[监控报表]下的二级菜单项,即可进入对应的监控报表页面。
存储卷性能监控缺省处于关闭状态,开启存储卷性能监控后,管理员可在监控报表页面中查看相关的性能数据,有助于合理规划或调整各存储卷的业务分布及负载。
存储系统支持单个开启或批量开启存储卷性能监控。
(1) 如图2-13所示,单击导航树的[块存储/卷管理/存储卷]菜单项,进入存储卷管理页面。
(2) 如图2-14所示,单击存储卷的性能监控状态切换按钮,即可切换存储卷的性能监控状态。
(3) 如图2-15所示,单击导航树中的[监控报表/存储卷]菜单项进入存储卷监控报表页面,即可查看存储卷的性能监控信息。
(1) 如图2-16所示,单击导航树的[块存储/卷管理/存储卷]菜单项,进入存储卷管理页面。
(2) 如图2-17所示,单击<批量切换性能监控状态>按钮。
(3) 如图2-18所示,选择状态切换范围,即可批量切换存储卷的性能监控状态。
(4) 如图2-19所示,单击导航树中的[监控报表/存储卷]菜单项进入存储卷监控报表页面,即可查看存储卷的性能监控信息。
存储系统提供了维护模式,在故障处理过程中,运维人员可以根据需要为存储节点开启维护模式。存储节点开启维护模式后,将该存储节点下电将不会引起数据迁移,以便于进行硬件更换等操作,同时避免因存储节点维护而导致集群业务异常。
存储系统支持单个开启或基于节点池批量开启/关闭存储节点的维护模式。
开启存储节点维护模式前,建议停止存储节点下的所有业务。
(1) 如图2-20所示,单击导航树中的[主机管理/存储节点]菜单项,进入存储节点管理页面。
(2) 如图2-21所示,单击存储节点操作栏的<更多/维护模式>按钮,在如图2-22所示的对话框中开启或关闭存储节点的维护模式,然后单击<确定>按钮完成操作。
节点池批量开启存储节点维护模式前,建议停止节点池下所有业务。
(1) 如图2-23所示,单击导航树中的[资源管理/节点池]菜单项,进入节点池页面。
(2) 如图2-24所示,单击节点池的操作栏的<更多/开启维护模式>按钮或<更多/关闭维护模式>按钮,然后在弹出的对话框中单击<确定>按钮完成操作。
浏览器不支持打开存储系统管理页面或打开存储系统管理页面异常。
浏览器与存储系统管理页面不兼容。
使用较新版本的Google Chrome(推荐)或Mozilla Firefox浏览器访问集群管理节点的管理网IP地址(若集群启用了管理高可用,则访问高可用IP地址),若能够访问且显示正常,则可证明是由于浏览器兼容性问题导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
请使用如表3-1所示的浏览器访问存储系统管理页面。
浏览器缓存会导致部分信息不能及时更新,此时需清除浏览器缓存。如发现有按钮单击无效,可尝试刷新页面或者清理浏览器缓存处理。
浏览器 |
版本 |
Google Chrome(推荐) |
50及以上 |
Firefox |
53.0及以上 |
如图3-1所示,存储系统管理页面无法登录,登录页面提示“网络错误”。
管理节点开启了网络防火墙。
台登录管理节点所在主机的操作系统命令行,执行systemctl status firewalld.service命令,若回显信息中显示防火墙状态为“active”,则可证明是由于管理节点开启了网络防火墙导致了故障。否则请继续排查,或联系技术支持获取帮助。
执行systemctl stop firewalld.service命令关闭防火墙,若重新尝试访问存储系统管理页面成功,则故障处理完成。
存储系统管理页面无法访问,如图3-2所示,出现“正在加载”或“系统错误,请联系管理员”等提示。
使用同一个IP地址进行了多次集群部署或升级后,未清理浏览器缓存。
若清理浏览器缓存后可以正常访问存储系统管理页面,则证明是因浏览器缓存问题导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
(1) 清理浏览器缓存(以Google Chrome浏览器为例):打开浏览器,同时按住键盘Ctrl+Shift+Delete键,打开清除浏览数据页面,如图3-3所示,选择“全部”,然后单击<清除浏览数据>按钮。
(2) 缓存清理完毕后,刷新浏览器页面,若可正常登录存储系统管理页面,则故障处理成功。
如图3-4所示,无法登录存储系统管理页面,登录页面提示“安装Handy的主机系统时间已经被修改,不允许登录”。
安装了存储系统软件的节点系统时间被修改。
无
重新申请License激活文件并使用,具体步骤请参见产品的License使用指南。
如图3-5所示,系统升级后创建管理高可用失败,存储系统管理页面提示“主备节点的Handy版本不一致”。
创建高可用时,选择的主用管理节点与备用管理节点的存储系统软件版本不一致。
若在系统升级前,集群中已经存在两个安装了存储系统软件的管理节点,且尚未创建管理高可用。则系统升级后仅当前正在使用的管理节点上的软件会被升级,造成两个管理节点的软件版本不一致,从而引起故障。若无法定位故障原因,请联系技术支持获取帮助。
在未安装存储系统的其他节点上,安装与升级后版本相同的存储系统软件,然后在创建管理高可用时选择该节点作为备用管理节点,即可成功创建管理高可用。
安装或卸载补丁失败,存储系统管理页面提示补丁安装/卸载失败。
安装或卸载过程中节点断电。
登录节点操作系统命令行,执行cat /var/log/patch_tool.log命令查看存储系统补丁安装过程日志,再执行cat /opt/patch_tool/db.json命令查看补丁配置文件信息,对比二者信息是否一致。若二者信息不一致,且在补丁安装或卸载操作执行为失败的情况下,存储系统管理页面依然显示补丁状态为“正常”,则可能是由于节点断电导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
重启断电的节点后重新执行补丁安装或卸载操作,补丁安装或卸载的具体步骤请参见产品的联机帮助。若补丁安装或卸载成功,则故障处理完成。
在线升级失败,存储系统管理页面提示回滚失败或升级失败。
在线升级过程中集群网络异常,升级过程被中断。
确保集群网络正常的情况下,重新进行在线升级。若可以升级完成,则证明是由于网络异常导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
(1) 将集群网络恢复至正常。
(2) 重新进行在线升级,支持以下两种方式:
¡ 执行升级回滚操作至集群在线升级前的状态,然后重新执行在线升级操作,具体步骤请参见产品联机帮助。
¡ 检查并确保集群健康,然后重新执行在线升级操作,具体步骤请参见产品联机帮助。
在线升级时节点断电,断电恢复后,在线升级流程对已经升级完成的组件重复升级。
执行升级命令的节点断电。
执行升级命令的节点断电,记录升级进度的文件无法从内存写入至硬盘中,从而导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
重复升级组件仅会增加在线升级时长,无其他影响,请耐心等待升级完成。
如图3-6所示,激活License时,存储系统管理页面提示“文件格式错误,请重新选择文件”。
所选择的License激活文件错误,或License激活文件为非H3C官方渠道申请的文件。
无
(1) 选择正确的License激活文件进行激活。
(2) 如未申请过License激活文件,请通过H3C官方渠道申请License激活文件并使用,具体步骤请参见产品的License使用指南。
激活License时,存储系统管理页面提示“License文件错误”。
License激活文件存在问题(如被篡改过)。
无
重新申请License激活文件并使用,具体步骤请参见产品的License使用指南。
如图3-7所示,激活License时,存储系统管理页面提示“激活文件信息与主机信息不匹配”。
· 可能原因1:该License激活文件不是通过当前主机注册申请的,主机信息与License激活文件信息不匹配。
· 可能原因2:在当前主机申请License激活文件后,进行过主机硬件更改或网络聚合等操作,导致主机信息与License激活文件信息不匹配。
无
· 选择注册申请该License激活文件的主机进行激活。
· 重新申请License激活文件后进行激活,具体步骤请参见产品的License使用指南。
请联系技术支持,提交设备变更申请并完成设备变更流程后,再使用该License激活文件进行激活。
如图3-8所示,激活License时,存储系统管理页面提示“系统时间早于License文件生成时间”。
管理节点的系统时间早于License激活文件申请的时间。
(1) 登录管理节点操作系统命令行,如图3-9所示,在命令行中输入date命令查看管理节点当前的系统时间。
(2) 如图3-10所示,查看License文件申请的时间。若管理节点当前的系统时间小于License文件申请的时间,则证明是由于管理节点系统时间早于License文件申请时间导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
图3-10 查看License文件申请时间
重新申请License激活文件并使用,具体步骤请参见产品的License使用指南。
如图3-11所示,激活License时,存储系统管理页面提示“License已经过期”。
图3-11 License过期提示
当前所使用的License激活文件已经过期。
无
重新申请License激活文件并使用,具体步骤请参见产品的License使用指南。
如图3-12所示,登录存储系统管理页面时提示“试用期已过”,且剩余试用时间为0天。
当前存储系统软件的临时授权已到期。
无
重新申请License激活文件并使用,具体步骤请参见产品的License使用指南。
在存储系统管理页面手动/自动部署存储节点或增加硬盘失败,页面提示硬盘总容量超过License最大容量,如图3-13所示。
待部署的节点或待增加的硬盘容量过大,部署节点或增加硬盘后,存储服务总容量将超过授权的最大容量。
无
· 可根据当前存储服务的已有容量,部署或添加容量较小的主机或硬盘,确保部署或添加后,存储服务总容量不会超过授权最大容量。
· 可进行License扩容后再部署主机或添加硬盘,具体方法请参见产品的License使用指南。
在存储系统管理页面进行集群部署失败,页面提示硬盘总容量超过License最大容量,如图3-14所示。
部署集群时所选的主机或硬盘容量过大,部署后,存储服务总容量将超过授权的最大容量。
无
· 可选择容量较小的主机或硬盘进行集群部署,确保部署后存储服务总容量不会超过授权最大容量。
· 可进行License扩容后再部署集群,具体方法请参见产品的License使用指南。
删除主机失败。
删除主机前或删除主机过程中,主机出现网络异常。
检查主机网络状态,若主机网络无法连接或无响应,则可能是由于主机网络异常导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
(1) 请排查并恢复主机网络,或联系技术支持获取帮助。等待主机网络恢复正常后,再次执行删除操作,如果删除主机成功,则表明故障处理完成。
(2) 如果主机网络无法恢复,也可以在存储系统管理页面离线删除该主机,具体步骤请参见产品的联机帮助。如果离线删除主机成功,则表明故障处理完成
存储系统管理页面显示监控节点状态异常。
· 可能原因1:监控节点处于掉电或关机状态。
· 可能原因2:监控节点软件版本与存储系统不一致。
· 可能原因3:监控节点与存储集群之间的网络存在异常。
(1) 检查监控节点的上电状态,若监控节点未上电或已关机,则可能是由于监控节点处于掉电或关机状态导致了故障。
(2) 检查监控节点的软件版本,若监控节点的软件版本与存储集群不一致,则可能是由于软件版本不匹配导致了故障。
(3) 检查监控节点与存储集群之间的网络连接状态,若无法连接,则可能是由于监控节点与存储集群之间的网络异常导致了故障。
(4) 若无法定位故障原因,请联系技术支持获取帮助。
将监控节点恢复正常开机状态,如果监控节点状态显示正常,则表明故障处理完成。
删除异常监控节点,然后创建新的监控节点,具体步骤请参见产品的联机帮助。如果监控节点状态显示正常,则表明故障处理完成。
请排查并恢复监控节点与存储集群之间的网络连接,确保其可以正常通信,或联系技术支持获取帮助。如果监控节点状态显示正常,则表明故障处理完成。
存储系统管理页面显示NAS节点状态异常。
NAS节点软件版本与存储系统不一致。
检查NAS节点与存储集群的软件版本,若两者版本不一致,则可能是由于软件版本不匹配导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
删除异常NAS节点,然后创建新的NAS节点,具体步骤请参见产品的联机帮助。如果新创建的NAS节点状态正常,则表明故障处理完成。
存储系统管理页面显示MDS节点状态异常。
MDS节点软件版本与存储系统不一致。
如果集群仅有3个MDS节点,MDS节点异常问题请联系技术支持解决。
检查MDS节点与存储集群的软件版本,若两者版本不一致,则可能是由于软件版本不匹配导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
删除异常MDS节点,然后创建新的MDS节点,具体步骤请参见产品的联机帮助。如果新创建的MDS节点状态正常,则表明故障处理完成。
集群内节点网络异常。
· 可能原因1:交换机VLAN设置错误。
· 可能原因2:网线破损、没有插好、交换机未正常工作等物理原因。
· 可能原因3:节点IP冲突导致集群检测不到节点。
· 可能原因4:存储系统I/O能力达到极限。
· 可能原因5:NTP同步未开启,节点时间未同步。
(1) 登录交换机,查看节点的存储网、业务网和管理网端口是否绑定在了不同的VLAN中。若是,则表明是由于交换机VLAN设置错误导致了故障,否则请继续排查。
(2) 检查集群中的网线外观及接插是否正常,并登录任意节点的操作系统命令行,执行cat /var/log/ceph/ceph-osd.x.log |grep network error命令(x为任意OSD号,此处以2为例)查看任意OSD日志。若发现网线存在异常,同时日志中存在如下信息,则表明是由于物理原因导致了故障,否则请继续排查。
network error,exit osd and create flag
(3) 检查网络异常节点的IP地址是否冲突,检测方法为:
a. 禁用网络异常节点的网卡。
b. 登录其他任意网络正常节点的操作系统命令行,执行ping 异常节点IP命令。
若可以ping通,则证明集群中存在与异常节点IP地址相同的节点,即是由于IP地址冲突导致了故障,否则请继续排查。
(4) 登录任意节点的操作系统命令行,执行cat /var/log/ceph/ceph-osd.x.log |grep slow requests命令(x为任意OSD号,此处以2为例)查看任意OSD日志,若回显信息如图5-1所示,则表明是由于存储系统I/O能力达到极限导致了故障,否则请继续排查。
图5-1 I/O能力达到极限回显信息(以osd.2为例)
(5) 登录任意节点的操作系统命令行,执行ceph –w命令,若回显信息如下所示,则表明是由于NTP同步未开启导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
213075 : cluster [WRN]mon.1 172.16.51.16:6789/0 clock skew 5.313975s > max 0.15s
213075 : cluster [WRN]mon.2 172.16.51.16:6789/0 clock skew 10.313975s > max 0.15s
213075 : cluster [WRN]mon.3 172.16.51.16:6789/0 clock skew 20.313975s > max 0.15s
重新配置交换机,将节点的存储网、业务网和管理网端口绑定到同一VLAN中。
更换破损网线并将网线插好,若集群中存在多级交换机,请保证每个交换机正常工作。
修改节点IP地址,确保集群内没有IP地址相同的节点。
· 降低存储业务压力。
· 限制集群IOPS。可通过设置交换机等网络设备来限制集群IOPS,也可以通过存储系统管理页面的相关功能限制集群IOPS,通过存储系统管理页面限制集群IOPS的操作方法请参见产品联机帮助。
· 联系技术支持,对集群进行硬件或设备升级。
如图5-2所示,在存储系统管理页面开启NTP服务,具体步骤请参见产品联机帮助。
存储系统管理页面中,存储节点显示状态异常。
· 可能原因1:节点掉电、关机或业务网络异常。
· 可能原因2:存储网络异常。
(1) 登录存储系统管理页面,单击导航树的[主机管理]菜单项,进入存储节点页面。如图5-3所示,若异常主机的硬盘状态显示为“暂无数据”,则可能是由于节点掉电、关机或业务网络异常导致了故障,否则请继续排查。
(2) 如图5-4所示,若异常主机的硬盘状态显示为“0/x”(x为该存储节点可识别硬盘总数),则可能是由于存储网络异常导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
· 若节点掉电或关机,请重新上电并启动该节点。
· 若业务网络异常,请排查并恢复业务网络,或联系技术支持获取帮助。
请排查并恢复存储网络,或联系技术支持获取帮助。
如图5-5所示,存储系统管理页面的实时告警模块中出现了慢盘告警。
慢盘告警中所提硬盘出现故障,读写速度慢。
若硬盘出现故障,则可能会导致硬盘的I/O访问速率慢,从而引起存储系统慢盘告警。若无法定位故障原因,请联系技术支持获取帮助。
请更换异常硬盘,具体方法请联系技术支持获取。更换新硬盘后,若慢盘告警在10分钟内恢复,则故障处理完成。若慢盘告警未在10分钟内自动恢复,请在存储系统管理页面的实时告警页面手动确认该告警,详细操作请参见产品联机帮助。
iSCSI高可用IP地址不通,无法访问。
· 可能原因1:业务网卡配置改变。
· 可能原因2:多个集群的iSCSI高可用组ID(VRID)冲突。
(1) 若进行过修改网卡Bond接口、调换业务网网卡与存储网网卡等操作,则可能是由于网卡配置变更导致了故障,否则请继续排查。
(2) 登录iSCSI高可用组内节点的操作系统命令行,执行cat /var/log/messages |grep VRID命令,若存在类似如下错误信息,则可能是由于多个集群的iSCSI高可用组ID(VRID)冲突导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
Apr 25 17:10:27 onestor206 Keepalived_vrrp[555604]: ip address associated with VRID not present in received packet : 192.16.1.214
Apr 25 17:10:27 onestor206 Keepalived_vrrp[555604]: one or more VIP associated with VRID mismatch actual MASTER advert
删除原有iSCSI高可用,重新创建iSCSI高可用,具体步骤请参见产品联机帮助。
· 重新规划并修改冲突的iSCSI高可用组ID(VRID),具体步骤请参见产品联机帮助。
· 删除原有iSCSI高可用,重新创建iSCSI高可用,具体步骤请参见产品联机帮助。
iSCSI高可用IP地址可以正常访问,但通过该IP地址进行的读写操作失败。
集群业务繁忙。
登录iSCSI高可用组内节点的操作系统命令行,执行cat /var/log/messages |grep io error命令,若存在类似如下错误信息,则可能是由于集群业务繁忙导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
Mar 8 11:39:58 wy-ost209 tgtd: procaioresp(221) io error 0x1f33160 28 -110
· 降低存储业务压力。
· 限制集群IOPS。可通过设置交换机等网络设备来限制集群IOPS,也可以通过存储系统管理页面的相关功能限制集群IOPS,通过存储系统管理页面限制集群IOPS的操作方法请参见产品联机帮助。
· 联系技术支持,对集群进行硬件或设备升级。
业务主机上显示已映射的存储卷或卷快照不可用。
将存储卷及其快照映射至同一业务主机。
将存储卷及其卷快照映射至同一业务主机,或将某存储卷的多个卷快照映射至同一业务主机时,业务主机的卷识别机制可能会将存储卷及其多个卷快照识别为同一个卷,导致存储卷或卷快照数据被破坏,从而引起故障。若无法定位故障原因,请联系技术支持获取帮助。
如非必要,建议勿将存储卷及其快照或同一存储卷的多个快照映射至同一业务主机,若该故障已发生且无法恢复,请联系技术支持获取帮助。
在存储系统管理页面将存储卷解除映射后,对该存储卷进行快照回滚操作,然后将该卷再次映射至业务主机时,发现存储卷上的数据并未恢复至创建快照时的状态。
业务主机残留的缓存数据覆盖了卷数据。
解除存储卷映射关系后,业务主机未能及时感知。若此时对存储卷进行快照回滚后重新将该卷映射至业务主机,则业务主机中保留的缓存数据可能会覆盖回滚后的卷数据,进而引起故障。若无法定位故障原因,请联系技术支持获取帮助。
执行快照回滚操作前,先执行以下任意一种操作:
· 取消存储卷与业务主机间的映射关系后,在业务主机侧重新扫描硬盘。
· 断开存储系统与该业务主机的iSCSI的连接。
卷快照一直处于“创建中”、“删除中”或“回滚失败”等中间状态。
存储系统异常,如硬盘故障、网络及组件异常等。
无
· 对于状态为“创建中”和“删除中”的卷快照,请联系技术支持对快照进行手动删除操作。
· 对于状态为“回滚失败”的卷快照,请重新执行回滚操作,否则可能导致存储卷数据不可用。
删除卷可写快照或一致性组可写快照时速度慢。
· 可能原因1:待删除的快照较大。
· 可能原因2:或集群业务繁忙。
(1) 若在存储系统管理页面查看到待删除快照较大,则可能是由于快照较大导致了故障,否则请继续排查。
(2) 在存储系统管理页面点击[概览]菜单项进入概要信息页面,若查看到当前集群IOPS/OPS和集群带宽过大,则可能是由于集群业务繁忙导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
请在集群业务空闲的时段进行删除卷可写快照或一致性组可写快照的操作。
在本端地址池和远端地址池添加新的复制节点成功,但远端设备仍然为离线状态。
远端设备离线时新增复制节点。
在存储系统管理页面查看远端设备当前状态,若远端设备为离线状态,则可能是由于远端设备离线状态下新增复制节点,新增的复制节点信息未能更新至对端集群,因此恢复物理链路后,两端集群新增的复制节点无法主动连接到对端,从而导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
· 请联系技术支持判断原有复制节点和复制链路是否可修复,若可修复,修复原有复制节点和复制链路后远端设备状态即可恢复。
· 若原有远端设备的业务可移除,则可在移除业务后删除原有的远端设备,并基于已有地址池和新创建的复制节点重新创建远端设备,具体步骤请参见产品的联机帮助。
删除某一端集群中的远端设备,另一端集群中的远端设备仍存在。
删除远端设备时,远端设备为离线状态。
在存储系统管理页面查看远端设备当前状态,若远端设备为离线状态,则可能是由于远端设备离线状态下删除某一端远端设备,导致另一端集群中的远端设备无法被同步删除,从而引起故障。若无法定位故障原因,请联系技术支持获取帮助。
请在远端设备仍存在的集群删除该远端设备,具体步骤请参见产品的联机帮助。
在存储系统管理页面移除地址池中的复制节点失败。
· 可能原因1:移除复制节点时,远端设备为离线状态。
· 可能原因2:远端设备已承载业务,且待移除复制节点是地址池中唯一的复制节点。
(1) 在存储系统管理页面查看远端设备当前状态,若远端设备为离线状态,则可能是由于远端设备离线,移除复制节点的操作无法同步至对端集群,导致了故障,若远端设备为在线状态,请继续排查。
(2) 在存储系统管理页面查看当前是否正在进行异步远程复制任务,及地址池中是否存在其他复制节点。若正在进行异步远程复制且无其他复制节点,则可能是由于移除唯一复制节点会令复制业务中断,存储系统禁止该操作,从而导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
· 若当前远端设备未承载业务,可先单端删除远端设备后再执行移除复制节点操作,具体步骤请参见产品的联机帮助。
· 若当前远端设备已承载业务,则需要先移除业务并单端删除远端设备,再执行移除复制节点操作,具体步骤请参见产品的联机帮助。
在地址池中添加新的复制节点后,再执行移除原有复制节点的操作,具体步骤请参见产品的联机帮助。
使用负载均衡域名访问CIFS共享时,部分用户登录失败。
客户端的DNS服务器地址与存储集群的DNS服务器存在冲突。
使用负载均衡域名访问CIFS共享时,若检查客户端上配置的DNS服务器地址,发现除集群DNS服务器外,还存在其他DNS服务器,则可能是由于客户端的DNS服务器地址与存储集群的DNS服务器存在冲突导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
(1) 在客户端重新配置DNS服务器地址,确保客户端有配置且仅配置一个存储集群的DNS服务器。如果原来登录失败的用户已可以正常登录,则表明故障处理完成。
(2) 如果该故障已经发生且无法恢复,请联系技术支持寻求帮助。
删除状态异常的NAS节点时,删除失败,显示如图7-1所示报错。
存储前端网出现网络故障。
检查集群存储前端网网络状态,若存储前端网无法连接或无响应,则可能是由于存储前端网异常导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
请排查并恢复存储前端网网络,或联系技术支持获取帮助。等待存储前端网网络恢复正常后,再次执行删除操作,如果删除NAS节点成功,则表明故障处理完成。
在存储系统管理页面切换鉴权方式后,客户端提示“您没有权限访问共享,请与网络管理员联系请求访问权限”。
用户信息残留在客户端中。
在新的鉴权模式下,如果残留的用户信息不合法,那么客户端的请求就会被拒绝。清理客户端缓存的用户信息后,若允许重新访问共享目录,则可能是由于用户信息残留导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
(1) 清除登录缓存。在客户端Windows操作系统中输入WIN+R,然后输入cmd,进入Windows命令行。执行net use * /del /y命令清除登录缓存,然后重新访问共享目录,如果允许访问该共享目录,则表明故障处理完成。
(2) 如仍无法访问共享目录,在Windows操作系统中输入WIN+R,然后输入regedit,查找并删除[HKEY_CURRENT_USER / Software / Microsoft / Windows / CurrentVersion / Explorer / RunMRU]下的访问地址,然后重新访问共享目录,如果允许访问该共享目录,则表明故障处理完成。
(3) 如仍无法访问共享目录,右键单击计算机图标,选择[管理/服务和应用服务/服务],在右侧页面找到Workstation服务,选择重新启动,等待服务重启完成后,重新访问共享目录,如果允许访问该共享目录,则表明故障处理完成。
客户端成功挂载NFS服务后,将其取消挂载,查看发现客户端已不存在挂载信息,但是TCP连接仍然存在。
客户端与服务端连接未彻底中断。
由于客户端不会主动断开与服务端的TCP连接,所以即使服务端强制断开连接,客户端发送请求后,还是会和服务端建立新的TCP连接。参见处理步骤重启仍然存在连接的客户端后,若TCP连接消失,则可能是由于客户端与服务端连接未彻底中断导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
重启仍然存在TCP连接的客户端,如果服务端TCP连接立刻消失或等待一段时间,TCP连接超时后消失,则表明故障处理完成。
Windows客户端上的Hyper-V虚拟机访问CIFS共享目录出错。
Windows客户端和存储集群未加入同一AD域。
将客户端和存储集群加入同一AD域后,若允许Hyper-V虚拟机重新访问CIFS共享目录,则可能是由于客户端与存储集群未加入同一AD域导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
将Windows客户端和集群加入到同一AD域内,然后重新访问CIFS共享目录,如果可以访问该共享目录,则表明故障处理完成。
多个客户端运行NFS共享业务时,其中一个客户端出现业务卡顿甚至业务中断的情况。
客户端重名。
联系技术支持查看系统日志中是否存在重名客户端相关日志,若存在相关日志,则可能是由于客户端重名导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
修改重名客户端名称,确保无重名客户端,重新运行业务,如果业务可以正常运行,则表明故障处理完成。
通过FTP客户端访问共享目录时发现目录下的内容并未更新。
文档信息残留在客户端中。
FTP客户端有时会使用客户端缓存的信息显示文档列表,而不会向服务端发送刷新请求。参见处理步骤刷新FTP共享目录后,若目录下内容完成更新,则可能是由于文档信息残留导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
耐心等待一段时间,查看FTP共享目录是否更新,如仍未更新,请在客户端刷新FTP共享目录,具体方法请联系技术支持,如果FTP共享目录内容更新完成,则表明故障处理完成。
在Windows 10客户端异常断开共享连接。
Windows 10操作系统命令行下执行ren命令重命名共享文件。
在Windows 10操作系统下的命令行中,使用ren命令会重复打开共享目录,直至进程达到最大,导致共享断开。若在Windows 10客户端中使用ren命令重命名共享文件后出现客户端异常断开,则可能是由于Windows 10操作系统缺陷导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
· 请勿在Windows 10操作系统的命令行中使用ren命令重命名共享文件,如果该故障已经发生且无法恢复,请联系技术支持寻求帮助。
· 为客户端更换除Windows 10外的操作系统。
存储系统管理页面显示NAS节点状态正常,但是删除NAS节点时,报错如图7-2所示。
NAS节点网络异常。
集群网络存在异常的情况下,如果NAS节点也存在网络异常,那么可能NAS节点的异常状态不会同步至管理页面。恢复存储集群管理网络后,若存储系统管理页面显示NAS节点状态异常,则可能是由于NAS节点网络异常导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
请排查并恢复集群管理网络,或联系技术支持获取帮助。等待网络恢复正常后,再次执行删除操作,如果删除成功,则表明故障处理完成。
对非空目录创建了配额策略,在目录写满之后对其创建快照,然后回滚快照时,报错“快照:快照名回滚配额容量不足”。
回滚快照的总容量大于目录的配额硬性阈值。
查看目录配额策略中的配额硬性阈值,若小于回滚快照的总容量,则可能是由于配额容量不足导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
请将目录配额策略中的配额硬性阈值设置成大于快照回滚数据大小的数值,然后重新执行回滚快照操作,如果回滚快照成功,则表明故障处理完成。
开启文件数配额的目录,显示配额使用率已经达到100%,但是发现实际使用率未达到100%。
存在临时文件占用文件数配额。
临时文件也会被算入文件数配额的统计中,查看目录下的文件,如果存在临时文件,则可能是由于临时文件被计入配额中导致了故障。若无法定位故障原因,请联系技术支持获取帮助。
· 退出操作系统的文件编辑器,释放临时文件占用的文件数。
· 增大目录配额的硬性阈值,对目录的文件数配额进行调整,具体步骤请参见产品的联机帮助。
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!