手册下载
|
|
H3C UniServer R4930 G3服务器 SAS RAID-HBA卡用户手册 |
|
|
|
新华三技术有限公司 http://www.h3c.com
资料版本:6W102-20230418
|
Copyright © 2022-2023 新华三技术有限公司及其许可者 版权所有,保留一切权利。
未经本公司书面许可,任何单位和个人不得擅自摘抄、复制本书内容的部分或全部,并不得以任何形式传播。
H3C为新华三技术有限公司的商标。对于本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
由于产品版本升级或其他原因,本手册内容有可能变更。新华三保留在没有任何通知或者提示的情况下对本手册的内容进行修改的权利。本手册仅作为使用指导,新华三尽全力在本手册中提供准确的信息,但是新华三并不确保手册内容完全没有错误,本手册中的所有陈述、信息和建议也不构成任何明示或暗示的担保。
本产品符合关于环境保护方面的设计要求,产品的存放、使用和弃置应遵照相关国家法律、法规要求进行。
2.3 RAID组列(虚拟硬盘,Virtual Drive)
2.10.2 后台初始化(Background Initialization)
2.12 外部配置(Foreign Configuration)
4.1.2 RAID卡下的硬盘在系统BIOS及OS下无法识别
4.1.3 Bad or missing RAID controller memory module…报错
4.1.4 Single-bit ECC errors were detected…报错
4.1.5 Multibit ECC errors were detected…报错
4.1.9 控制器状态显示Controller Status: Need Attention
4.1.10 LSI SAS RAID控制器进入Safe Mode模式
4.1.11 Your VDs that are configured for write-back…提示,写策略自动变为WT
4.1.12 Cache data was lost due to…报错
4.1.13 The battery hardware is missing…提示
4.1.14 FW is in Fault State-MFI Register State 0xF0010002报错
4.1.15 FW is in Fault State-MFI Register State 0Xf001000A报错
4.1.16 Invalid SAS topology detected…报错
4.1.18 mpt3sas: module verification failed: signature…告警
4.1.19 pcilib: sysfs_read_vpd: read failed: Input/output error告警
如下所示为目前在用的RAID卡与所用芯片对照表。
表 1‑1在用SAS RAID/HBA卡及芯片信息对照表
物料描述 |
厂商 |
芯片型号 |
固件类型 |
芯片厂商 |
LSI 9361 -E3x8 8i LSI 9361 2GB SAS 12G RAID卡(CTO&BTO)(Hygon) |
Broadcom |
SAS3108 |
MR |
Broadcom |
LSI 9361-16i -E3x8 LSI 9361 2GB SAS 12G RAID卡(CTO&BTO)(Hygon) |
Broadcom |
SAS3316 |
MR |
Broadcom |
LSI 9560-8i 12Gb SAS RAID标卡 |
Broadcom |
SAS3908 |
MR |
Broadcom |
LSI 9560-16i 12Gb SAS RAID标卡 |
Broadcom |
SAS3916 |
MR |
Broadcom |
各RAID芯片的技术规格如下表所示。
表 1‑2 RAID芯片技术规格
技术规格 |
SAS 3108 |
SAS 3316 |
SAS 3908 |
SAS 3916 |
接口速率(Gb/s) |
12 |
12 |
12 |
12 |
是否支持硬盘直通 |
是 |
是 |
是 |
是 |
直通模式支持的最大硬盘数 |
240 |
16/240(备注1) |
240 |
240 |
支持的最大硬盘数 |
240 |
16/240(备注1) |
240 |
240 |
是否支持Upgrade Key |
否 |
是 |
否 |
否 |
支持的RAID级别 |
0/1/5/6/10/50/60 |
0/1/10/5/6/50/60(备注1) |
0/1/5/6/10/50/60 |
0/1/5/6/10/50/60 |
支持的RAID组列最大数量 |
64 |
64 |
64 |
64 |
单个RAID组支持的最大硬盘数量 |
240 |
16/240(备注1) |
240 |
240 |
所有RAID组支持的最大硬盘数量 |
240 |
16/240(备注1) |
240 |
240 |
支持的条带大小 |
64KB/128KB/256KB/512KB/1024KB |
64KB/128KB/256KB/512KB/1024KB |
8KB/16KB/32KB/64KB/128KB/256KB/512KB/1024KB |
8KB/16KB/32KB/64KB/128KB/256KB/512KB/1024KB |
是否支持局部热备 |
是 |
是 |
是 |
是 |
是否支持全局热备 |
是 |
是 |
是 |
是 |
是否支持紧急热备 |
是 |
是 |
是 |
是 |
支持的热备盘数量 |
240 |
16/240(备注1) |
240 |
240 |
是否支持超级电容 |
是 |
是 |
是 |
是 |
是否支持巡读 |
是 |
是 |
是 |
是 |
是否支持一致性校验 |
是 |
是 |
是 |
是 |
是否支持带外管理 |
是 |
是 |
是 |
是 |
Cache大小 |
2GB |
4GB |
4GB |
8GB |
(备注1) LSI SAS 3316搭配有两种不同的Upgrade Key,不用Upgrade Key是最大支持16块硬盘;使用RAID5 Upgrade Key可增加组建RAID 5/50组列功能;使用RAID5(6) 240PD Upgrade Key可增加组建RAID 5/6/50/60组列功能,同时支持的最大硬盘数扩大至240盘 |
不同RAID级别的可靠性介绍请参考下表。
表 1‑3 各RAID组列可靠性介绍
RAID级别 |
允许坏盘数量 |
可靠性 |
读性能 |
写性能 |
硬盘利用率 |
RAID 0 |
0 |
低 |
高 |
高 |
100% |
RAID 1 |
1 |
高 |
高 |
低 |
50% |
RAID 1E |
(N-1)/2 |
高 |
中 |
中 |
50% |
RAID 10 |
S |
高 |
高 |
中 |
50% |
RAID 5 |
1 |
中 |
高 |
中 |
(N-1)/N |
RAID 6 |
2 |
中 |
高 |
中 |
(N-2)/N |
RAID 50 |
S |
高 |
高 |
较高 |
(N-S)/N |
RAID 60 |
S*2 |
高 |
高 |
较高 |
(N-S*2)/N |
(1) 子组数表示RAID 10/50/60组列中包含的RAID1/5/6子组列数量,如两组RAID1组成的RAID10组列,子组数为2; (2) N为RAID组列的成员盘总数,S为RAID组列的子组数量。 |
RAID(Redundant Arrays of Independent Disks),意为“独立硬盘构成的具有冗余能力的阵列”,是由多个独立硬盘、按照一定策略组建成的新的存储介质或阵列。
在存储技术还未普及时,大容量硬盘比较昂贵,为了将多个容量较小、相对廉价的硬盘进行有机组合,从而以较低的成本获得与昂贵大容量硬盘相当的容量、性能、可靠性,RAID技术应运而生。现如今,各行各业有对于数据处理、存储能力的要求越来越高,单一硬盘早已经不能满足实际需要,因此,RAID技术进一步发展。
通过RAID技术,我们可以获得更大的存储空间、更快的传输速度和更高的安全性。
硬盘组是一组物理硬盘组成的集合,一般表述为“Drive Group”,简称“DG”。
在硬盘组的基础上划分出的一组连续的存储单元,相当于一个物理硬盘。该存储单元因依使用的RAID技术不同,而具有不同的硬盘利用率、容错能力、读写性能和冗余度。所以把这个存储单元称为RAID组列,或者叫虚拟硬盘(Virtual Drive,简称VD)
一个RAID组列可以由一个或多个硬盘组构成,也可以由一个或多个硬盘组的一部分构成。
容错能力指硬盘组允许一个或多个硬盘出现故障时,仍然可以正常进行数据处理、硬盘组数据的完整性不被破坏的能力。
硬盘条带化是指将一块连续的数据分成很多规定大小的数据块,并把它们分别存储到不同硬盘上的方法,这些硬盘会根据数据块的大小将存储空间划分出一个个大小相同的空间(条带),用于存放数据。由于数据存放在不同的硬盘上,那么在顺序访问这些数据的时候,就可以同时从多个不同的硬盘获取数据,按照并行的方式处理数据,大大提高了I/O性能。
硬盘条带大小:指每个硬盘划分出的,用于存放数据的单位空间的大小
条带宽度:指硬盘组中硬盘的数量
硬盘组条带大小:硬盘条带大小与条带宽度的乘积
硬盘镜像(在RAID 1和RAID 10中使用)是指将数据写入一个硬盘的同时,控制器会把数据复制到另一块硬盘。
硬盘镜像的主要优点是提供了100%的数据冗余。由于数据写入到了两块盘中,即使一块盘发生故障,数据也不会丢失,另一块盘仍然可以供系统使用,并且在换上新的硬盘之后控制器还可以进行数据重建,恢复冗余能力。
奇偶校验从两个或多个父数据集生成一组冗余数据。当发生硬盘故障时,冗余数据可用于重建父数据集。奇偶校验数据不是完全复制父数据集。
奇偶校验数据的计算、生成会减慢数据写入过程。
一致性校验是验证具有冗余能力的RAID组列(RAID1/5/6/10/50/60)中条带上的数据是否一致,如果不一致会自动对错误进行修复的操作。该过程中RAID控制器会对成员盘中的数据进行检查和计算,生成新的奇偶校验数据与校验盘中的数据进行比对,若出现不一致,则会使用新的奇偶校验数据修正错误数据。
对于RAID 1组列,此操作将验证每个条带的镜像数据是否一致。
建议至少一个月进行一次一致性校验。
当RAID组列中的硬盘发生故障或者一致性校验发现数据错误时,可以通过重新创建硬盘中之前的数据或者对数据进行修正的方式,对硬盘进行重建。
RAID控制器使用存储在RAID组列中其他硬盘上的数据(或校验位)重建数据。
只有具有数据冗余能力的RAID组列才能执行重建,其中包括RAID 1、5、6、10、50和60。
硬盘初始化是为了保证数据的一致性而进行的操作。初始化会将零写入RAID组列中,以将RAID组列置于“就绪”状态的过程。具有容错能力的RAID组列在初始化时还会生成相应的奇偶校验,
初始化会擦除驱动器上的所有先前数据。
虽然RAID组列无需初始化也可以工作,但由于无法保证硬盘中数据的正确性、尚未生成奇偶校验字段,它们可能无法通过一致性检查。所以RAID组列必须经过初始化才可以使用。
初始化可分为前台初始化和后台初始化。
前台初始化分为两种:快速初始化(Fast)和全部初始化(Full)。
快速初始化:控制器只需将硬盘组的前100M(根据控制器不同大小可能会有差异)空间写零,就结束了初始化过程,用户可以快速使用硬盘组。
全部初始化:控制器需要将硬盘组的全部空间写零,才会结束初始化过程。该初始化模式耗费时间较长,用户需要等待初始化结束可以使用硬盘组。
后台初始化会在创建RAID组列后对成员盘进行检查,排查出硬盘错误、保证数据正确性。后台初始化会在RAID组列创建完成5分钟后自动进行。
后台初始化的目的是使具有冗余能力的RAID组列中各成员盘的数据满足RAID组列的级别要求:
对于RAID1、10,后台初始化过程中如果发现主从成员盘的数据不一致,就会将主成员盘的数据复制到次成员盘中,覆盖不一致的数据;
对于RAID5、6、50、60,后台初始化会对成员盘中条带的数据进行奇偶校验,如果发现新的校验位和组列中现存的校验数据不一致,就会使用新的校验数据替换掉旧数据。
后台初始化和一致性检验的功能类似,两者区别在于后台初始化是创建RAID组列后强制进行的操作,而一致性校验不是。
后台初始化时要求RAID5、6级别的RAID组列满足最小成员盘数量,如果不能满足最小成员盘数量要求,后台初始化不会进行,需要手动进行。
RAID5级别的RAID组列要求至少有5块成员盘,才可进行后台初始化;
RAID6级别的RAID组列要求至少有7块成员盘,才可进行后台初始化;
巡读功能通过对控制器下的硬盘进行巡回检查,以发现可能导致硬盘故障的潜在错误,然后采取措施纠正错误。巡读的目的是在数据损坏之前检测出硬盘故障,从而保护硬盘上数据的完整性。
发现错误后采取何种纠正措施取决于RAID组列的配置和出现的错误类型。
巡读操作仅在控制器闲置了一段规定的时间后,并且没有其他后台任务执行时才会开始。
当插入服务器的硬盘带有RAID配置信息时(之前在其他RAID控制器上被配置为某一RAID组列的成员盘),MegaRAID Storage Manager软件将会把硬盘状态识别为Foreign,以提醒用户该硬盘带有之前的RAID配置信息,无法直接使用。
这种情况下,用户可以将硬盘中带有的配置重新导入(Import)RAID控制器,实现RAID组列的迁移,或者可以清除配置,以便创建新的配置。
热备盘是控制器系统下额外保留的、未使用的硬盘。它通常处于待机模式,如果RAID组列中的成员盘发生故障,热备盘无需系统重启或用户干预即可自动更换故障盘。MegaRAID SAS RAID控制器可以使用热备用驱动器实现故障驱动器的自动重建,从而提供高度的容错能力和零停机时间。
热备盘只对具有冗余能力的RAID组列生效:RAID1、5、6、10、50、60。
RAID控制器支持如下两种热备盘:
局部热备盘(专用热备盘):局部热备盘只能为一个特定的RAID组列服务,如果其他组列出现故障盘,局部热备盘不会进行自动更换;
全局热备盘:全局热备盘可以为RAID控制器下的所有RAID组列服务,当任何一个RAID组列出现成员盘故障时,全局热备盘都会自动顶替故障盘。
注意:设置热备盘时,其容量要等于或大于故障盘。
与需要单独设置热备盘不同,紧急热备策略允许RAID控制器在没有热备盘的情况下,当RAID组列出现故障盘时,使用空闲的Unconfigured Good状态硬盘作为故障盘的替代盘,自动对RAID组列进行补充,从而保证控制器下RAID组列的正常使用
紧急热备要求用于备份的硬盘容量等于或大于故障盘,且只对具有冗余能力的RAID组列生效:RAID1、5、6、10、50、60。。
硬盘直通又称指令透传,是指插在RAID卡上的物理硬盘在不配置虚拟硬盘的情况下,用户指令可以直接透传到硬盘、直接被操作系统识别、管理,而不经过RAID控制器处理。
因为不受RAID控制器控制,所以直通硬盘无法组建RAID组列,进而提高数据的安全性和传输性能,但硬盘直通可以保证数据传输的稳定性。
对于由冗余功能的RAID组列(RAID 1、5、6、10、50、60),出现故障盘后,控制器会自动将数据重建至热备盘。当把故障盘换下、插上新的健康硬盘后,控制器会把重建好的热备盘数据拷贝回健康硬盘中。回拷完成后,热备盘将自动恢复为Hot Spares状态。
硬盘状态反映了硬盘当前的工作模式、硬盘功能、正在进行何种操作等信息。
下表描述了HBA卡下硬盘的状态。
表 2‑1 HBA卡硬盘状态表
状态 |
含义 |
Online |
控制器正在使用的硬盘,是现有RAID组列中的成员。 |
Hot Spare |
热备盘。该硬盘已经上电,并且准备在RAID组列中出现故障盘时,随时顶替故障盘。 |
Ready |
准备状态,该状态的硬盘可以用作RAID组列成员盘,也可以分配为热备盘。 该状态的硬盘无法直接被操作系统发现、使用。 |
Available |
该硬盘可能尚未准备好,因此不适合作为RAID成员盘或热备盘使用。 |
Failed |
之前状态为“Online”或“Hot Spare”的硬盘,被固件检查出存在不可恢复的错误后,将变为Failed状态。 |
Missing |
该硬盘被移除或处于未响应状态。 |
Standby |
该设备不是硬盘设备。 |
Out of Sync |
该硬盘为IR RAID组列的成员盘,但是和该RAID组列其他成员盘的数据不同步。 |
Degraded |
该硬盘是RAID组列的一部分,且目前处于降级状态。 |
Rebuilding |
硬盘正在进行数据重建。 |
Optimal |
该硬盘为RAID组列成员盘,且状态良好。 |
下表描述了RAID卡下硬盘的状态。
表 2‑2 RAID卡硬盘状态表
状态 |
含义 |
Online |
控制器正在使用的硬盘,是现有RAID组列中的成员。 |
未被配置的良好状态,该状态的硬盘可以用作RAID组列成员盘,也可以分配为热备盘。 该状态的硬盘无法直接被操作系统发现、使用。 |
|
Ready |
该硬盘可以用作RAID组列成员盘,也可以分配为热备盘。 |
Hot Spare |
热备盘。该硬盘已经上电,并且准备在RAID组列中出现故障盘时,随时顶替故障盘。 |
Failed |
之前状态为“Online”或“Hot Spare”的硬盘,被固件检查出存在不可恢复的错误后,将变为Failed状态。 |
Rebuild |
硬盘正在进行数据重建,为了恢复RAID组列的冗余能力。 |
硬盘处在Unconfigured Good状态或未被初始化状态时,被固件检查出存在不可修复的错误,将会变为Unconfigured Bad状态。 |
|
Missing |
丢失。RAID组列中的硬盘被拔出后将处于丢失状态。 |
Offline |
离线。该盘之前为RAID组列成员盘,现在处于离线状态,不可使用。 |
Shield State |
临界状态。此时硬盘正在进行诊断操作。 |
Copyback |
当硬盘正在替换RAID组列中Failed状态的硬盘时,会处于该状态。 |
JBOD |
直通硬盘。不受RAID控制器的控制,可直接被上层操作系统发现、使用。 |
RAID组列的读策略有两种:
No Read Ahead:关闭预读取功能;
Read Ahead:开启预读取功能。在读取所请求的数据外,控制器会将请求数据所在地址之后的部分数据也读入到Cache中,以期望这些数据随后被系统使用时可以直接在Cache中命中,从而增快响应速度、提高读性能。
RAID组列的写策略有三种:
Always Write Back:一直使用写回策略。无论是否存在超级电容,RAID组列都将使用写回策略进行数据写入。写回策略是指,控制器在将请求写入的数据写入Cache后,就向上层软件反馈写操作完成,可RAID控制器不会马上将数据写至硬盘,而是等到Cache写满后,才将这些数据一起写入指硬盘。如果控制器没有搭配超级电容时出现异常掉电,可能会使写入Cache中的数据还未写入至硬盘,就因掉电而丢失;
Write Through:控制器在将请求写入的数据写入至硬盘后,才向上层软件反馈写操作完成;
Write Back:条件使用写回策略。与Always Write Back不同,Write Back策略在控制器使用超级电容时,会一直开启写回功能,而当检测到没有超级电容、电容正在充放电或电容损坏时,会自动切换至Write Through策略,从而保证数据不被丢失;
当控制器搭配超级电容时,如果遇到异常掉电的情形,超级电容模块会利用电容中存储的电量,将Cache中的数据写入至模块中的Nand Flash中进行保存,等到控制器下次上电时,再将存储在Nand Flash中的数据写回Cache,进而保证数据不会因掉电而丢失。
RAID控制器具有硬盘节能的功能。当该功能开启时,控制器下Unconfigured Good状态的硬盘、热备盘都将处于节能状态。控制器允许节能状态下的硬盘暂时停转,当出现需要使用这些硬盘的操作时(如RAID组建、RAID组列出现故障盘等),将硬盘从节能状态唤醒。
硬盘节能状态适用于所有旋转式SAS和SATA硬盘。
目前在用的基于LSI SAS3908 MR芯片的RAID卡为LSI 9560-8i RAID卡,基于LSI SAS3916 芯片的RAID卡包括LSI 9560-16i。
LSI SAS3908/3916 MR芯片对应的RAID卡可以使用Legacy和UEFI两种模式。Legacy模式和UEFI模式下安装的操作系统不不兼容,Legacy模式下安装的操作系统无法在UEFI模式下进入,反之同理,默认使用Legacy模式。
LSI SAS3908/3916 MR芯片对应的RAID卡不支持Legacy模式下的管理界面,仅支持UEFI模式下的管理界面:Human Interface Infrastructure界面(下文简称为HII界面)。
下面以LSI 9560-8i为例介绍LSI SAS3908 MR芯片RAID卡的操作方法,所述内容同样适用于LSI 9560-16i。
LSI 9361-8i支持的RAID级别及相关参数如下表所示。
表 3‑1 LSI 9361-8i RAID级别介绍
RAID级别 |
成员盘数量 |
子组数量 |
子组硬盘数量 |
允许最大坏盘数 |
RAID 0 |
1~32 |
NA |
NA |
0 |
RAID 1 |
2~32(偶数) |
NA |
NA |
硬盘数÷2 |
RAID 5 |
3~32 |
NA |
NA |
1 |
RAID 6 |
3~32 |
NA |
NA |
2 |
RAID 10 |
4~240(偶数) |
2~8 |
2~32 |
子组数 |
RAID 50 |
6~240 |
2~8 |
3~32 |
子组数 |
RAID 60 |
6~240 |
2~8 |
3~32 |
子组数*2 |
子组数表示了RAID 10/50/60组列中包含的RAID1/5/6子组列的数量,如:两组RAID1组成的RAID10组列,子组数为2
RAID 1/10需使用偶数块成员盘
启动系统进入BIOS,进入Advanced菜单,选中“PCIe Devices List”选项并进入:
图 3‑1 进入PCIe Devices List
将BCM RAID SAS3908下的Option ROM P0选项设置为“UEFI”,按下F4后保存,重启服务器:
图 3‑2 将SAS3908 Option ROM设置为UEFI
HII界面为RAID卡在UEFI模式下进行RAID组建等配置操作的接口界面。
进入BIOS中,进入Advanced菜单,选中“BROADCOM< MegaRAID 9560-8i>Configuraton Utility-07.20.07.00”,即可进入LSI 9560-8i的HII管理界面:
图 3‑3 选择进入LSI 9560-8i HII管理界面
管理界面如图所示:
图 3‑4 LSI 9560-8i HII管理界面
界面内各参数说明如下:
表 3‑2 LSI 9560-8i RAID卡HII界面参数说明表
参数 |
含义 |
参数 |
含义 |
Main Menu |
进入控制器主界面 |
Virtual Drives |
RAID组列数量 |
Help |
获取帮助信息 |
View Server Profile |
查看/修改控制器配置信息 |
Status |
控制器当前状态 |
Configure |
进行控制器配置操作 |
Current Personality |
当前控制器模式 |
Set Factory Defaults |
恢复出厂配置 |
Backplane |
背板个数 |
Update Firmare |
升级FW |
BBU |
超级电容是否在位 |
Silence Alarm |
蜂鸣器使能状态(未配置蜂鸣器,该项无作用) |
Enclosure |
部件个数 |
Virtual Drive Operations in Progress |
正在进行操作的RAID组列数量 |
Drives |
控制器下硬盘数量 |
Drive Operations in Progress |
正在进行操作的硬盘数量 |
Drive Groups |
硬盘组数量 |
|
|
将光标移至“Main Menu”,键入Enter后进入RAID卡“Main Menu”界面:
图 3‑5 “Main Menu”界面
各参数说明如下:
表 3‑3 LSI 9560-8i RAID卡Main Menu界面参数说明表
参数 |
含义 |
Configuration Management |
配置管理界面,该界面内可创建RAID组列、清除RAID组列配置、设置硬盘为JBOD或Unconfigured Good状态。 |
Controller Management |
控制器管理界面,该界面内可进行控制器状态及各项参数查看、设置,设置启动盘、导出TTY日志等操作。 |
Virtual Drive Management |
RAID组列管理界面,该界面内可进行RAID组列信息查看、定位、删除、重配置、初始化、一致性检查等操作。 |
Drive Management |
硬盘管理界面,该界面内可进行硬盘信息查看、硬盘定位、热备盘设置、硬盘移除、状态设置等操作。 |
Hardware Components |
该界面显示了RAID卡连接的硬件配件信息。 |
步骤1 在HII界面选择“Configure”菜单项并进入组建RAID及配置界面。
图 3‑6 进入配置界面
步骤2 RAID组建界面如下。该界面选择“Create Virtual Drive”功能,开始进行RAID组建。
图 3‑7 “Create Virtual Drive”
步骤3 当控制器下存在JBOD盘,进入RAID组列创建界面前将弹出如下界面,该界面下可以将JBOD模式的硬盘设置为Unconfigure Good状态。
注:9560-8i/16阵列卡,JBOD模式下的硬盘显示为Online.
图 3‑8 RAID创建前硬盘设置
界面内各参数说明如下:
表 3‑4 LSI 9560-8i RAID卡RAID创建RAID组列前硬盘设置界面参数说明表
参数 |
含义 |
Maximum Allowed Unconfigured Good Drives |
控制器下UG状态硬盘的最大支持数量 |
Eligible JBOD Drives for Conversion |
可由JBOD转为UG状态的硬盘数量 |
Select JBOD drives To Make Unconfigured Good |
JBOD盘选择界面,该信息下方会列出所有可由JBOD转为UG状态的硬盘,以供选择 |
OK |
确认 |
Skip |
跳过该步骤,直接进入RAID组建界面 |
如果存在需要将状态转换为Unconfigure Good状态的JBOD盘,只需将对应硬盘后的选项设置为Enabled,并点击OK确认状态转换即可。
如果不需要将JBOD模式的硬盘设置为Unconfigure Good状态,可以点击下方“Skip”跳过,直接进行RAID组建界面。
步骤4 RAID组建界面如下,该界面可以设置RAID级别、选择组建RAID的物理硬盘、VD名称、Strip Size大小、Read/Write Policy等参数。
图 3‑9 RAID组列参数配置
界面内各参数说明如下:
表 3‑5 LSI 9361-8i RAID组列参数配置界面说明表
参数 |
含义 |
参数 |
含义 |
Select RAID Level |
选择创建RAID的级别 |
Read Policy |
RAID组列的读策略 |
Protect Virtual Drive |
RAID组列的数据保护功能是否开启 |
Write Policy |
RAID组列的写策略 |
Select Drives From |
RAID组列下成员盘来源 |
I/O Policy |
RAID组列的I/O策略 |
Select Drives |
选择成员盘 |
Access Policy |
数据读取策略 |
Virtual Drive Name |
RAID组列名称 |
Drive Cache |
硬盘Cache策略 |
Virtual Drive Size |
RAID组列的容量大小 |
Disable Backgroud Initialization |
是否禁用后台初始化 |
Virtual Drive Size Unit |
RAID组列的容量单位 |
Default Initialization |
默认初始化方式设置 |
Strip Size |
条带大小 |
Emulation Type |
控制RAID组列在OS中上报的扇区 |
Select RAID Level:LSI 9361-8i RAID卡支持的RAID级别为RAID 0/1/5/6/00/10;
Select Drives From:RAID组列成员盘来源可包括两方面:(1)Unconfigured Capacity:未加入过虚拟硬盘的空闲硬盘;(2)Free Capacity:已存在的虚拟硬盘的剩余空间;
Strip Size:LSI SAS 3108 MR可支持的条带大小为64KB/128KB/256KB/512KB/1MB;
Read Policy:RAID组列的读策略有两种:(1)No Read Ahead:关闭预读取功能;(2)Read Ahead:开启预读取功能。在读取所请求的数据外,控制器会将请求数据所在地址之后的部分数据也读入到Cache中,以期望这些数据随后被系统使用时可以直接在Cache中命中,从而增快响应速度、提高读性能;
Write Policy:RAID组列的写策略有三种:(1)Always Write Back:无论是否存在超级电容,都使用写回功能。控制器在将请求数据写入缓存后即反馈写操作完成。当没有超级电容时,异常掉电可能造成数据丢失;(2)Write Through:控制器在将请求写数据写入硬盘后才反馈写操作完成;(3)Write Back:当有超级电容时,使用写回功能,当没有超级电容或电容失效时,使用Write Through功能;
I/O Policy:RAID组列的I/O策略有两种:(1)Direct:当Read Policy没有设置为Read Ahead时,读数据时使用No Read Ahead策略,当Write Policy没有设置为Write Through时,写数据时使用Write Cache策略;(2)Cached:所有读和写均经过RAID卡Cache处理。仅在配置CacheCade 1.1时需要设置为此参数值,其他场景不推荐;
Access Policy:数据的读取策略有三种:(1)Read/Write:可读可写;(2)Read Only:只读;(3)Blocked:禁止访问;
Drive Cache:硬盘Cache策略包括两种:(1)Unchanged:保持当前的策略;(2)Enable:写数据时经过硬盘的写Cache,从而提高写性能,但如果没有保护机制,系统意外掉电会导致数据会丢失;(3)Disable:不使用硬盘的写Cache,即使系统意外掉电也不会造成数据丢失;
Default Initialization:默认初始化方式:(1)No:不进行初始化;(2)Fast:快速初始化;(3)Full:完全初始化;
Emulation Type:控制RAID组列在OS中上报的扇区:(1)当成员盘为512B/512B时,逻辑扇区为:1)Default:512B/512B;2)None:512B/512B;3)Force:512B/4KB;(2) 当成员盘为512B/4KB时,逻辑扇区为:1)Default:512B/4KB;2)None:512B/512B;3)Force:512B/4KB;
步骤5 在“Select RAID Level”一栏选择要组建的RAID级别,RAID级别的显示可能依据不同型号的产品RAID License不同而不同,以LSI 9560-8i为例,如下图:
图 3‑10 “Select RAID Level”
步骤4 以RAID5为例,介绍RAID组建过程。
确定RAID级别后,按下“Select Drives”选项,选择要组建的RAID组列成员硬盘后,点击“Apply Changes”结束。
图 3‑11 “Select Drives”
步骤6 点击“Virtual Drive Name”设置RAID组列的名称。
图 3‑12 “Virtual Drive Name”设置
步骤7 点击“Strip Size”设置条带大小,可选择的大小为:64KB/128KB/256KB/521KB/1MB,默认设置为256KB。
图 3‑13 “Strip Size”设置
步骤8 如果需要设置读写策略,可以选择“Read Policy”、“Write Policy”进行设置。
图 3‑14 设置读策略
图 3‑15 设置写策略
步骤9 点击“Save Configuration”保存配置,组建RAID。在弹出的界面中需要将“Confirm”设置为Enable后才“Yes”选项才可以选择。
图 3‑16 确认RAID组建
步骤10选择“Yes”完成RAID创建。
图 3‑17 选择“OK”完成RAID组建
注:其他RAID级别的组建方式与此基本相同,按需组建即可。
步骤1 在HII界面选择Main Menu,键入Enter进入。
图 3‑18 进入“Main Menu”
步骤2 选择“Virtual Drive Management”,进入RAID组列管理界面。
图 3‑19 选择“Virtual Drive Management”
步骤3 该界面会列出目前LSI 9560-8i上存在的RAID组列,选择想要删除的RAID组列后,点击进入。
图 3‑20 选择要删除的RAID组列
步骤4 在“Operation”选项中选择“Delete Virtual Drive”,之后界面中会出现“GO”选项。
图 3‑21 “Delete Virtual Drive”功能选择
图 3‑22 开始删除组列
步骤5 点击“GO”之后进入操作确认界面,将“Confirm”设置为Enabled后,选择“YES”确认删除RAID组列。
图 3‑23 确认删除RAID组列
步骤6 弹出如下界面表示RAID组列删除完成。
图 3‑24 组列删除完成
步骤1 进入HII主界面,选择“Configure”,进入配置界面。
图 3‑25 进入配置界面
步骤2 将光标移动至“Make JBOD”一栏,进行物理硬盘JBOD设置界面。
图 3‑26 选择“Make JBOD”
步骤3 选择想要设置为JBOD模式的硬盘,设为“Enabled”后,点击“OK”进入操作确认界面。
图 3‑27 JBOD盘选择
步骤4 将“Confirm”设置为Enabled后,选择“YES”确认设置。
图 3‑28 确认进行JBOD设置
步骤5 弹出如下界面表示JBOD设置完成。
图 3‑29 JBOD设置完成
步骤6 返回HII主界面,选择进入“View Server Profile”,在“View Server Profile”界面选择“Drive Management”,进行硬盘状态的查看。
图 3‑30 进入“View Server Profile”
图 3‑31 进入“Drive Management”
步骤7 “Drive Management”界面显示了控制器下各硬盘的状态,可在此查看JBOD设置的结果。
图 3‑32 控制器下各硬盘状态
JBOD盘无法进行RAID组建,只有处于Unconfigure Good状态的硬盘才能进行。
步骤1 进入HII主界面,选择“Configure”,进入配置界面。
图 3‑33 进入配置界面
步骤2 将光标移至“Make Unconfigure Good”,进入操作界面。
图 3‑34 进入“Make Unconfigure Good”界面
步骤3 选择想要设置为Unconfigured Good的硬盘,设为“Enabled”后,点击“OK”进入操作确认界面。
图 3‑35 选择要转换为Unconfigure Good状态的硬盘
步骤4 将“Confirm”设置为Enabled后,选择“YES”确认设置。
图 3‑36 确认进行Unconfigured Good状态设置
步骤5 弹出如下界面表示Unconfigured Good状态设置完成。
图 3‑37 Unconfigured Good状态设置完成
当控制器下存在系统盘、但控制器默认的启动盘不是系统盘时,会导致服务器上电后无法正常从系统盘引导操作系统,如果出现这种情况,可设置控制器的启动盘为系统盘,从而让控制器每次上电后从固定的硬盘引导操作系统。设置方法如下:
步骤1 进入HII主界面,选择进入“Main Menu”界面。
图 3‑38 进入“Main Menu”
步骤2 选择进入“Controller Management”控制器管理界面。
图 3‑39 进入“Controller Management”
步骤3 将“Select Boot Device”选项设置为想要启动的硬盘即可。
图 3‑40 “Select Boot Device”界面
硬盘定位可将指定硬盘的定位灯亮起,从而辅助寻找硬盘。该功能需要具有定位功能的背板支持。
步骤1 进入BIOS中,进入Advanced菜单,选中“BROADCOM< MegaRAID 9560-8i>Configuraton Utility-07.20.07.00”,进入RAID卡管理界面:
图 3‑41 进入LSI 9560-8i HBA卡管理界面
步骤2 在HBA卡管理界面,选择“Main Menu”,键入Enter进入:
图 3‑42 LSI 9560-8i RAID卡管理界面
步骤3 选择“Drive Management”,并键入Enter进入硬盘管理界面:
图 3‑43 LSI 9560-8i RAID卡“Main Menu”界面
步骤4 将光标移至想要定位的硬盘,键入Enter后即可进入硬盘信息查看界面:
图 3‑44 LSI9560-8i RAID卡“Drive Management”界面
步骤5 在硬盘信息界面内,将光标移至“Operation”,键入Enter后选择“Start Locate”选项。
图 3‑45 LSI 9560-8i RAID卡选择进行“Start Locate”
步骤6 将光标移至“Go”,键入Enter后即可进行硬盘定位,定位时硬盘对应的定位灯会亮起:
图 3‑46 LSI 9560-8i RAID卡硬盘定位
步骤7 若要关闭定位灯,在步骤4选择“Stop Locate”即可。
步骤1 从HII主界面选择“Main Menu”,然后进入“Controller Management”控制器管理界面。
图 3‑47 进入“Controller Management”控制器管理界面
步骤2 从该界面即可读出RAID卡的基础信息。
图 3‑48 Controller Management界面
各参数的具体说明如下:
表 3‑6 LSI 9560-8i RAID卡“Controller Management”控制器管理界面参数说明表
参数 |
含义 |
参数 |
含义 |
Product Name |
控制器名称 |
Firmware Version |
FW版本号 |
Serial Number |
控制器序列号 |
NVDATA Version |
NVDATA版本号 |
Controller Status |
控制器当前状态 |
Connector Count |
物理端口数量 |
Select Boot Device |
当前启动盘 |
Driver Count |
连接的硬盘数量 |
PCI ID |
PCI ID号 |
Virtual Drive Count |
RAID组列数量 |
PCI Slot Number |
PCI槽位号 |
Advnced Controller Management |
高级控制器管理 |
Package Version |
固件Package版本号 |
Advnced Controller Properties |
高级控制器参数 |
当RAID掉盘后,蜂鸣器会进行报警,此时处理措施分为两种:
在无HSP的情况下,请按照5.1.3的步骤更换新硬盘,等待Rebuild完成之后,蜂鸣器报警会自动停止;
在有HSP的情况下,RAID掉盘后HSP硬盘会自动替换已掉的硬盘,并自动进行Rebuild。Rebuild结束后,蜂鸣器报警不会停止,目的在于提示用户需要及时替换或补充已掉的硬盘,此时,只有用户按照5.1.4的步骤更换新硬盘并完成COPYBACK,蜂鸣器报警才会自动停止。
下表汇总了LSI RAID卡蜂鸣器不同状态下的报警状态,遇到蜂鸣器报警现象时可以参照该表判断故障类型:
表 4‑1 LSI RAID卡蜂鸣器报警状态说明表
事件 |
RAID组列状态 |
蜂鸣器报警状态 |
RAID0丢失1块成员盘 |
下线 |
响3s,停1s |
RAID1丢失1块成员盘 |
降级 |
响1s,停1s |
RAID1同时丢失2块成员盘 |
下线 |
响3s,停1s |
RAID5丢失1块成员盘 |
降级 |
响1s,停1s |
RAID5丢失2块或更多成员盘 |
下线 |
响3s,停1s |
RAID6丢失1块成员盘 |
部分降级 |
响1s,停1s |
RAID6丢失2块成员盘 |
降级 |
响1s,停1s |
RAID6丢失超过2块成员盘 |
下线 |
响3s,停1s |
热备盘完成重建,并成为RAID组列的成员盘 |
NA |
响1s,停3s |
重建完成后正在进行数据回拷 |
正常 |
响1s,停3s |
LSI SAS 3108/3316/3408 iMR/3508/3516 芯片的RAID卡,如LSI 9361/9440/9460、SR16-L3316等,其所连接的硬盘处于Unconfigured Good状态,在BIOS及OS下均无法直接识别;只有处于JBOD模式的硬盘才可以直接被BIOS及OS识别。
搭配LSI SAS RAID控制器的平台上,开机在POST界面出现如下图报错:
图 4‑1 Bad or Missing RAID controller memory module…报错
此报错提示RAID卡的缓存模块损坏或无法识别,出现此问题绝大多数为RAID卡的硬件存在故障或存在潜在隐患,应对RAID进行更换。
搭配LSI SAS RAID控制器的平台上,开机在POST界面出现如下图报错:
图 4‑2 Single-bit ECC errors were detected…报错
此报错提示在RAID上次启动过程中其缓存存在一位ECC校验错误,如果RAID缓存使用标准DRAM内存的话,建议对内存进行更换。
由于所用RAID卡其缓存颗粒固化在PCB上,无法单独更换缓存。出现此报错表示RAID卡缓存在使用过程中存在ECC校验错误,缓存部分存在硬件故障隐患,建议对RAID卡进行更换。
搭配LSI SAS RAID控制器的平台上,开机在POST界面出现如下图报错:
图 4‑3 Multibit ECC errors were detected…报错
此报错提示在RAID上次启动过程中其缓存存在多位ECC校验错误,如果RAID缓存使用标准DRAM内存的话,建议对内存进行更换。
由于所用RAID卡其缓存颗粒固化在PCB上,无法单独更换缓存。出现此报错表示RAID卡缓存在使用过程中存在ECC校验错误,缓存部分存在硬件故障隐患,建议对RAID卡进行更换。
在RAID卡管理界面,RAID组列的显示颜色与其他的正常RAID组列不同,查看其下成员盘状态,发现显示为“Shield”,如下图:
图 4‑4 硬盘状态显示为“Shield”
当RAID卡Firmware侦测到硬盘存在问题或者在通信过程中有信息丢失的时候,会将硬盘的状态转换为“FAILED”或“UNCONF BAD”。为了避免错误地进行状态转换,RAID卡会在把硬盘标记为“FAILED”或“UNCONF BAD”之前,将其状态标记为“Shield”。
“Shield”状态下,RAID卡会将硬盘与RAID组列隔离,内部进行诊断测试,如果测试结果为正常,则将硬盘的状态恢复为正常状态;如果测试结果异常,则将硬盘标记为“FAILED”或“UNCONF BAD”。
一般情况下,如果硬盘被标记为“Shield”状态,极大可能硬盘自身硬件存在潜在隐患,建议对此状态下的硬盘进行更换。
一致性校验(Consistency Check)只应用于存在数据冗余功能的RAID,如RAID1/10/5/50/6/60,RAID0没有数据冗余功能,即不存在数据校验。
如果有数据冗余功能的RAID组列中的成员盘有“Media Error”、“Other Error”或“Predictive Error”,则可能导致在一致性校验的过程中由于某块硬盘的故障,无法正确检验RAID数据的完整性,导致一致性校验无法完成。
对于有数据冗余功能的RAID,如RAID1/5/6等,RAID1/5能够允许一块硬盘掉线而不影响整体的数据完整性,RAID6能够允许两块硬盘掉线。
如果有硬盘掉线,更换全新硬盘后,能够自动或手动开始重建,如果除掉线硬盘之外,RAID组列中的其他硬盘存在“Media Error”、“Other Error”或“Predictive Error”,则在重建过程中可能由于其他硬盘的故障无法正确校验数据,导致无法正常完成重建。
RAID组列虽然能够提供一定的冗余能力,但是随着RAID组列成员盘的数量的增长,数据丢失的风险也随之增加。建议对RAID组列的成员盘定期进行检查,如果硬盘存在“Media Error”、“Other Error”或“Predictive Error”,则应及时进行更换。
在LSI SAS RAID控制器的控制器参数界面下,显示Controller Status:Need Attention,如下图:
图 4‑5 Controller Status:Need Attention
有此提示,表示RAID卡的部分模块功能存在异常,建议及时查看。
一般情况下,是由于RAID卡掉盘等问题所导致的,建议对RAID卡所连接的硬盘及所组建的RAID状态进行检查,看是否存在硬盘掉盘或者硬盘“S.M.A.R.T state:Error”等问题;
对于LSI 9440-8i RAID卡,还需在BIOS下检查其驱动状态是否为Failed,具体操作请参考第7章中“7.11 将状态为failed的RAID卡设置为health”小节的内容。
搭配LSI SAS RAID控制器的服务器,进入RAID卡管理界面,发现 “Controller is running in safe mode…”提示,如下图所示:
图 4‑6 Controller is running in safe mode
有关LSI SAS RAID卡 Safe Mode的触发条件很多,如果控制器发生致命错误便会进入Safe Mode模式,大致有如下方面:
DISCOVERY_ERROR:侦测错误,包括RAID卡及硬盘的硬盘错误;
LDS_CACHE_PINNED_HALT:逻辑硬盘缓存挂死;
INCOMPATIBLE_SECONDARY_IBUTTION:不兼容的RAID Key;
CACHE_ERROR:RAID卡缓存报错;
CTRL_DOWNGRADE_ERROR:控制器虚拟硬盘降级;
EMBEDDED_MULTIBIT_ECC_ERROR:控制器缓存多位ECC错误;
CONFIG_CHANGE_WARNING:控制器配置改变。
当RAID卡进入Safe Mode后,建议以下步骤进行排查:
重连全部硬盘,进入管理界面查看RAID组列的状态;
在管理配置界面下查看硬盘的S.M.A.R.T state是否为No Error,如果存在显示状态为Error,建议更换硬盘;
关闭服务器,断开RAID卡与硬盘的连接,重启仍然进入Safe Mode,更换RAID卡;
如果以上均正常,上线具体应用,对系统整体稳定性进行分析。
搭配LSI SAS RAID控制器的平台上,开机在POST界面出现如下图提示:
图 4‑7 Your VDs that are configured for…提示
显示内容提示RAID组列的配置由于电池或者超级电容充电、无法识别或损坏导致暂时由Write Back切换为Write Through。
此问题是由于RAID卡搭配了电容,并且在组建RAID时写策略选择了Write Back with BBU,在超级电容充电未完成、充电异常、电量过低或电容损坏的情况下,为了保证数据的完整性,控制器会自动改变RAID组列的写策略,调整为Write Trough。
如果电容未能正常充电,检查RAID卡日志,可以看到如下的记录:
图 4‑8 RAID卡日志中的提示
对于该现象,如果RAID卡搭配了电池或者超级电容,则需要检查电池或者超级电容的工作状态。如果电池或者超级电容处于充电状态,RAID卡电池需要数小时,超级电容需要数分钟,等待充电完成后检查其工作状态。如果确认RAID卡电池或超级电容无法识别,则需要对其进行更换。
如果要避免这种情况的发生,可以创建RAID时选择Write Policy为AWB(Always Write Back),但该写策略可能会导致数据丢失,请谨慎使用。
搭配LSI SAS RAID控制器的平台上,开机在POST界面出现如下图报错:
图 4‑9 Cache data was lost due to…报错
此报错为所使用的LSI SAS RAID卡没有搭配用于缓存数据保护的电池或者超级电容,且所创建的RAID组列的写策略为“Write Back”,所以在服务器异常掉电或者在有写入数据任务过程中重启服务器会导致写入RAID卡缓存中的数据没有及时刷写到硬盘中,且DRAM为易失性存储介质,掉电后保存在里面的数据会丢失。出现此种情况后会在POST界面出现上图所示报错。
如果对于数据的完整性要求极高,建议RAID卡搭配电池或者超级电容使用并将写策略设置为“Write Back with BBU”,或者将RAID的写策略设置为“Write Through”,写入操作不会将数据进行缓存,直接写入到硬盘。
搭配LSI SAS RAID控制器的平台上,开机在POST界面出现如下图提示:
图 4‑10 The battery hardware is missing…提示
显示内容提示RAID卡电池或超级电容丢失或者没有安装。
如果服务器RAID卡没有配RAID卡电池或超级电容,则可以忽略此提示,在屏幕打印以上信息时键入“D”即可消除此提示,在后续启动过程中将不会出现此提示。
如果搭配有RAID卡电池或超级电容,出现以上信息,则需要检查RAID卡电池或超级电容的工作状态,如果无法识别,应更换RAID卡电池或超级电容。
搭配LSI SAS RAID的平台上,开机在POST界面出现如下图报错:
图 4‑11 FW is in Fault State-MFI Register State 0xF0010002报错
此报错出现在使用LSI SAS RAID卡时没有搭配超级电容,却将创建的RAID组列的写策略配置为“Write Back”,进而引起Cache数据不一致,产生的异常报错。
在没有超级电容的情况下,DC Power Cycling过程中Cache并不断电,数据大部分可以保留,但是因为控制器重启不能保证对Cache的数据刷新,所以无法保证Cache中数据的可靠性、进而导致一些问题。
如果对于数据的完整性要求高,建议RAID卡搭配者超级电容使用并将RAID组列写策略设置为“Write Back with BBU”,或者将RAID组列的写策略设置为“Write Through”,使写入操作时不将数据缓存,直接写入到硬盘。
搭配LSI SAS RAID控制器的平台上,开机在POST界面出现如下图报错:
图 4‑12 “FW is in Fault State…Adapter at Baseport is not responding”报错
此问题可能由以下两方面引起:
RAID卡所连接硬盘设备读写异常引起
RAID卡自身故障
可以通过以下步骤进行排除解决:
断开RAID卡与所有硬盘的连接,重启服务器;若故障仍然存在,更换RAID卡;如果故障消失,关机重连所有硬盘,检查硬盘状态;
上线具体应用,检查是否为应用对硬盘的分区及文件系统与RAID卡不兼容导致。
搭配LSI SAS RAID控制器的平台上,开机在POST界面出现如下图报错:
图 4‑13 Invalid SAS topology detected…报错
显示内容提示检测到不可用的SAS拓扑。
此问题主要由不规范的SAS Expander级联引起,建议对设备的连接拓扑进行检查,查看有无不规范的SAS Expander级联现象。
系统重启后,硬盘在系统下的盘符可能会发生变化,比如之前盘符名称是sda的硬盘,在某次重启后可能变为sdb。
下图所示为进行某次DC测试时的乱序现象:
图 4‑14 系统下出现盘符乱序
从图中可以看出,系统下的盘符出现了无规律的乱序。
该问题是Linux内核对设备文件的动态管理机制导致的,是操作系统自身的系统管理缺陷。由于Linux内核无法保证每次扫描、加载各驱动的顺序一致,同时也无法保证加载RAID控制器驱动后、扫描控制器下硬盘的顺序不变,所以导致盘符无法固定、无法与实际的物理槽位对应。
如果想规避系统下盘符乱序现象,可以考虑在Linux系统下使用udev工具进行盘符绑定,详情咨询工程师。
安装系统后,系统messages日志可能出现mpt3sas驱动模块的签名或密钥丢失的现象,messages日志中告警字段如下:mpt3sas: module verification failed: signature and/or required key missing - tainting kernel。
图 4‑15 mpt3sas: module verification failed告警
该告警产生的原因是当前RAID卡驱动没有在使用的操作系统上进行签名认证。
由于RAID卡的驱动只在操作系统发行版的主节点版本上进行签名认证,所以对于有些操作系统,可能会出现如上告警,不过,该告警不会影响RAID卡的功能,可以正常使用。
在Linux系统下执行命令lspci -s 25:00.0 -xxxvvv会报pcilib: sysfs_read_vpd: read failed: Input/output error告警。
图 4‑16 pcilib: sysfs_read_vpd: read failed: Input/output error告警
该问题为Linux内核的VPD(Vital Product Data)黑名单机制引起,该黑名单是系统下的相关设置,对于RAID卡的使用没有功能性的影响,出现该问题可以不用处理。
下面以LSI 9361-8i RAID 卡为例,详细介绍下LSI售后维护相关SOP的部分步骤。
在机器启动过程中看到以下界面时,按照屏幕提示按下快捷键CTRL+R,进入Configuration Utility界面(下文简称CU界面)。
图 5‑1 进入Configuration Utility界面
图 5‑2 Configuration Utility界面
如果新插入的硬盘上有外部配置信息,如RAID配置信息(之前做过RAID并且没有清除配置信息),硬盘的状态将显示为“Foreign”,同时在上方菜单栏出现“Foreign View”菜单,如下图所示。此时需要对硬盘进行Import引入操作,才能正常使用。
图 5‑3 标识为“FOREIGN”开头的硬盘查看
按下Ctrl+P或Ctrl+N,进入“VD Mgmt”界面,将光标移至“AVAGO MegaRAID SAS 9361-8i(Bus 0x1b, Dev 0x00)”,按下F2,在弹出的界面中选择“Foreign Config”选项,左侧会弹出操作界面中,可做进行Import引入或者Clear清除外部配置信息,下面进行介绍。
图 5‑4 Import操作(1)
Import引入
Import操作将引入带有外部配置信息的RAID成员盘,如下图所示,点击“YES”后即可进行引入操作。
图 5‑5 Import操作(2)
[注意]
对于某些RAID级别,只有当RAID配置信息中所有的成员盘均存在(外部配置信息完整)时才可以正确引入,否则按下“YES”后将会提示如下报错,导致引入失败。
图 5‑6 Import操作(3)
Clear清除
该操作会清除该硬盘上的所有RAID组列信息,在“Foreign Config”选项中选择“Clear”后,会弹出如下界面,点击“YES”进行清除操作。
图 5‑7 Clear操作
清除完成后,硬盘将自动变为Uncofigure Good状态,如下图所示。
图 5‑8 Clear完成后硬盘将自动变为Uncofigure Good状态
[注意]
部分硬盘可能因RAID配置信息差异、背板槽位状态等原因,插入9361-8i后,在“PD Mgmt”中的状态显示为“UB”,而不是“Foreign”,如下图所示。
图 5‑9 硬盘状态显示为UB
此时需要将光标移至该硬盘,并按下F2,在弹出的菜单中选择“Make unconfigure good”,并按下“Enter”,进行硬盘状态切换。
图 5‑10 “UB”状态切换为“Foreign”
操作完成后,硬盘状态将重新显示为“Foreign”,之后按照本节所讲的Foreign硬盘的引入方法进行操作即可完成外部配置信息的引入。
在RAID1、RAID5、RAID6中,热备盘(Hot spares)可以在工作中自动的替换不工作的硬盘。
热备盘分为两种:全局热备(Global HSP)与专用热备(Dedicated HSP)。Dedicated HSP只能用来替换特定的Drive Group中的不工作的硬盘,Global HSP可以用来替换任意Drive Group中的不工作的硬盘。
将准备好的服务器硬盘安装到服务器的空闲硬盘盘位上,并将硬盘设置为Uncofigure Good状态。如果服务器中已有未使用的Uncofigure Good状态硬盘,则不需要此步骤。
添加全局热备盘
步骤1 进入9361-8i CU界面,切换至“PD Mgmt”子界面,将光标移至想要作为全局热备盘的硬盘,如下图所示。
图 5‑11 选择想要作为全局热备盘的硬盘
步骤2 按下F2,在弹出的界面会出现“Make Global HS”选项。
图 5‑12 “Make Global HS”选项
步骤3 按下“Enter”,即可将硬盘设置为全局热备盘。创建完成后的结果如下图所示。
图 5‑13 设置全局热备盘
添加专用热备盘
步骤1 在9361-8i CU界面按下Ctrl+P或Ctrl+N,进入“VD Mgmt”子界面,将光标移至想要添加专用热备盘的RAID组列,按下F2,在弹出的界面中可以发现“Manage Ded. HS”选项,如下图所示。
图 5‑14 “Manage Ded. HS”选项
步骤2 光标移至“Manage Ded. HS”选项,按下“Enter”,在专用热备盘选择界面选择想要作为热备盘的硬盘,点击右侧“OK”完成创建。
图 5‑15 选择想要作为热备盘的硬盘
步骤3 创建完成后,将光标移至RAID组列,在界面右侧可以看到该RAID组列的专用热备盘数量为1。
图 5‑16 查看创建结果
[注意]RAID1,RAID5,RAID6等具有冗余能力的RAID组列支持此操作,RAID0不支持。
RAID掉盘(损坏或者拔出一块硬盘)后,在9361-8i CU界面中的“VD Mgmt”子界面,会看到对应的RAID组列信息栏变成了红色或黄色,如下图所示。
图 5‑17 查看告警RAID组列
红色和黄色代表了两种告警级别,和RAID级别允许的掉盘数直接相关,对于有数据冗余功能的RAID,如RAID1/5/6等,RAID1/5能够允许一块硬盘掉线而不影响整体的数据完整性,RAID6能够允许两块硬盘掉线。
当RAID0出现掉盘、3盘RAID5掉2块盘时,均会出现红色报警;
当RAID1/5/6掉1块盘时,会出现黄色报警。
此时,在服务器掉盘硬盘位插入要换上的硬盘,如果新硬盘没有做过RAID或者RAID信息已经清除,则在“PD Mgmt”子界面中,可以看到RAID已经自动开始进行Rebuild。
图 5‑18 硬盘开始进行Rebuild
Rebuild完成后,返回“VD Mgmt”子界面,可以看到RAID组列已恢复正常。
图 5‑19 Rebuild完成后组列RAID状态
[注意]RAID1,RAID5,RAID6等具有冗余能力的RAID组列支持此操作,RAID0不支持。
在有HSP的情况下,RAID掉盘后会,HSP硬盘会自动替换已掉的硬盘,并自动进行RAID Rebuild,不会影响系统正常工作。
将准备好的服务器硬盘安装到服务器的空闲硬盘盘位上。如果服务器中已有未使用的硬盘,则不需要此步骤。
如果新插入的硬盘上没有RAID信息(该硬盘没有做过RAID或者RAID信息已经清除),LSI Controller将自动将此盘加入RAID中,并自动将HSP硬盘中的数据进行COPYBACK。拷贝完成后,RAID状态恢复完成,HSP硬盘恢复到换盘之前的空闲状态。此情况下,整个过程不需要用户对硬盘进行操作,全部由LSI Controller自动维护完成。
如果新插入的硬盘上有RAID信息(做过RAID并且RAID信息没有清除),在“PD Mgmt”子界面会将硬盘状态显示为“Foreign”或“UB”,此时需要先清除RAID配置信息,操作方法请参考11.1.1 Foreign硬盘引入章节中“Clear”外部配置信息的操作方法。完成清除操作后,按Ctrl+Alt+Del键重新启动计算机,当RAID卡初始化后,将自动将此盘加入RAID中,并自动将HSP硬盘中的数据进行COPYBACK。拷贝完成后,RAID状态恢复完成,HSP硬盘恢复到换盘之前的空闲状态,硬盘更换成功。
[注意] LSI Controller没有自动进行COPYBACK,则需手动进行设置,方法如下:
步骤1 在“PD Mgmt”子界面选择热备盘,按下F2,选择“Copyback”操作,按下“Start”进行COPYBACK。
图 5‑20 COPYBACK功能选择
步骤2 此时会弹出硬盘选择界面,选择COPYBACK的目标硬盘后,按“OK”开始COPYBACK.
图 5‑21 选择目标硬盘
步骤3 等待COPYBACK完成即可。
图 5‑22 开始COPYBAK
使用基于LSI RAID芯片的RAID卡,不止可以在RAID CU界面进行RAID操作及配置,还可以在Linux系统下使用管理工具进行同样的操作,本节将介绍RAID卡管理工具storcli的使用方法。
回去storcli工具安装包后,进行工具安装:
RHEL系列OS:使用命令:rpm –ivh ****.rpm进行安装。如果系统中已经存在storcli工具,升级工具可以使用命令:rpm -Uvh ****.rpm。
Debian系列OS:使用命令sudo dpkg -i ****.deb安装,安装完成后可以使用dpkg -l | grep -i storcli命令检查是否安装成功。
storcli工具安装时将默认安装在/opt/MegaRAID/storcli目录中。下面以RHEL系列操作系统为例,介绍工具使用方法。
为了方便管理,控制器将其下网络拓扑关系按照如下图所示的结构进行了划分:
图 5‑23 控制器下管理结构
按照如图所示的3层(Cotroller/Enclosures/Slot)结构划分方法,用户可以方便地根据图中Controller、Enclosures及Slot的编号实现硬盘的定位。为了进一步方便使用,storcli工具将Controller x简写为cx,将Enclosures x简写为ex,将Slot x简写为sx,其中x代表编号。
使用storcli /cx show命令即可查询每块硬盘的Enclosures及Slot编号。
11.2.2节介绍了cx的确定方法,11.2.4节介绍了ex和sx的确定方法。
/opt/MegaRAID/storcli/storcli64 show
该命令可以查看服务器上使用的RAID控制器数量,各控制器的顺序及简单信息。
下图为执行该命令后的打印信息,根据图中所示内容可知,此时服务器上连接了两块RAID卡,其中第一块RAID卡为LSI 9361-8i,序号为0,第二块RAID卡为SR16-3316,序号为1,即:c0表示LSI 9361-8i,c1表示SR16-L3316。如果连接更多张RAID卡,以此类推即可。
图 5‑24 查看控制器基本信息
/opt/MegaRAID/storcli/storcli64 /c0 show all
查看第一块RAID卡版本、功能、状态、以及RAID卡下的物理磁、逻辑盘信息。
命令执行后打印信息如下:
图 5‑25 查看控制器详细信息(1)
图 5‑26 查看控制器详细信息(2)
图 5‑27 查看控制器详细信息(3)
/opt/MegaRAID/storcli/storcli64 /c0 /e252 /s0 show all
上述命令表示查看Controller 0下,252号Enclosures上编号为0的Slot对应的硬盘详细信息。
其中,Enclosures及Slot编号可以使用storcli /c0 show命令查看,该命令作用为:查看Controller 0的基本信息,下图所示内容为命令执行后的部分打印信息,观察该图内容,可以得到Controller 0下的拓扑结构:
图 5‑28 控制器下拓扑结构
根据上图可知,控制器0下连接了7块硬盘,每个硬盘的Enclosures均为252,但Slot编号不同。
若想查看容量为2.728 TB、接口为SAS的Slot0硬盘详细信息,使用/opt/MegaRAID/storcli/storcli64 /c0 /e252 /s0 show all即可:
图 5‑29 查询具体某块硬盘的信息(1)
图 5‑30 查询具体某块硬盘的信息(2)
如果不确定硬盘是否为需要操作的硬盘,可以使用以下命令进行定位。
/opt/MegaRAID/storcli/storcli64 /c0 /e252 /s0 start locate
开始定位0号控制器、252号背板、0号槽位号的硬盘,执行后对应硬盘的定位灯会亮起;
/opt/MegaRAID/storcli/storcli64 /c0 /e252 /s0 stop locate
结束定位0号控制器、252号背板、0号槽位号的硬盘,执行后对应硬盘亮起的定位灯会熄灭。
图 5‑31 定位某块硬盘
使用/opt/MegaRAID/storcli/storcli64 /c0 /e252 /s0 show all命令查看硬盘信息后,如果Media Error Count、Predictive Failure Count不为0,则表明硬盘已存在或存在潜在故障,此时建议将存在隐患的硬盘强制下线。
/opt/MegaRAID/storcli/storcli64 /c0 /e252 /s4 set offline
将0号控制器下、背板号为252、槽位号为4的硬盘下线。
图 5‑32 将存在隐患的硬盘强制下线(1)
图 5‑33 将存在隐患的硬盘强制下线(2)
图 5‑34 将存在隐患的硬盘强制下线(3)
进行此操作后对应硬盘Error状态灯会常亮,此操作会导致RAID降级,请谨慎使用。
RAID组列存在热备盘的情况下,强制某块硬盘offline后,热备盘会自动进行Rebuild,通过以下命令查看0号控制器下、背板号为252、槽位号为6的硬盘rebuid进度。
/opt/MegaRAID/storcli/storcli64 /c0 /e252 /s6 show rebuild
图 5‑35 查看rebuild进度
8更换硬盘操作,将故障硬盘移除,在原来的槽位更换容量相同的硬盘,先查看硬盘状态,如果硬盘状态为UB(Unconfigured Bad),需要更改硬盘状态为Unconfigured Good,用如下命令将0号控制器、252背板上2槽位的硬盘设置为UG状态:
/opt/MegaRAID/storcli/storcli64 /c0 /e252 /s2 set good
然后,手动将之前恢复占用的热备盘中的数据回写到替换后的新盘,命令如下:
/opt/MegaRAID/storcli/storcli64 /c0 /e252 /s1 start copyback target=252:2
该操作会将252:1热备盘中的数据写到252:2硬盘中。
图 5‑36 手动将之前恢复占用的热备盘中的数据回写到替换后的新盘
查看回写进度的命令为:
/opt/MegaRAID/storcli/storcli64 /c0 /e252 /s2 show copyback
图 5‑37 查看回写进度的命令
预读(Patrol Read)是检查存储配置中的硬盘可能导致硬盘掉线或数据丢失的错误的一种操作。预读操作可以在系统访问之前发现并可能修复潜在的问题。此操作会提高系统的整体性能,因为如果在正常的IO操作过程中进行错误修复可能会对性能有影响。
图 5‑38 查看控制器预读信息
PR Mode:预读模式,有两种,分别为Auto与Manual;
PR Execution Delay:自动预读时间间隔,默认为168小时,即一周;
PR iterations completed:预读执行次数;
PR Next Start time:下次预读启动时间,RAID控制器时间默认与系统时间同步;
PR on SSD:SSD预读设置;
PR Current State:当前的预读状态,有Ready/Active/Paused/Aborted/Stopped/Unknown.
图 5‑39 关闭预读功能
图 5‑40 打开预读并设置模式为手动
图 5‑41 设置预读执行间隔,单位为小时
图 5‑42 开始预读
图 5‑43 暂停预读
图 5‑44 恢复已暂停预读
图 5‑45 停止预读
图 5‑46 设置预读占用RAID控制器资源比率
图 5‑47 查看预读占用RAID控制器资源比率
通过调整预读所占用RAID控制器的资源比率,能够调节预读的耗费时长与对系统读写性能的影响。比率越高,完成预读时长越短,对系统读写性能影响越大;比率越低,完成预读时长越长,对系统读写性能影响越小。
CC(Consistency Check,一致性校验),是校验有数据冗余功能的RAID组列所有条带的数据是否一致并且自动进行错误修复的一项操作。针对RAID1来说,此操作用来校正每个条带的镜像数据。
RAID0不支持进行CC操作。
图 5‑48 查看CC的具体信息
CC Operation Mode:一致性校验模式,有Sequential/Concurrent/Off;
CC Execution Delay:一致性校验的时间间隔,默认为168小时,即一周;
CC Next Starttime: 一致性校验的下次启动时间;
CC Current State:当前一致性校验的状态;
CC Number of iterations:一致性校验的重复次数;
CC Number of VD Completed: 已完成一致性校验的虚拟硬盘的数量;
CC Excluded VDs:不执行一致性校验的虚拟硬盘。
图 5‑49 将CC功能关闭
图 5‑50 将CC设置为并发模式
图 5‑51 设置CC占用RAID控制器资源比率
通过调整CC所占用RAID控制器的资源比率,能够调节CC的耗费时长与对系统读写性能的影响。比率越高,完成CC时长越短,对系统读写性能影响越大;比率越低,完成CC时长越长,对系统读写性能影响越小。
图 5‑52 查看CC占用RAID控制器资源比率
图 5‑53 开始CC
注意,RAID组列创建完成后需要经过完全初始化后才可以进行一致性校验。完全初始化方法如下:
图 5‑54 开始完全初始化
图 5‑55 查看完全初始化进度
图 5‑56 暂停CC
图 5‑57 恢复暂停的CC
图 5‑58 停止CC
图 5‑59 查看CC的具体状态
服务器出现与RAID卡相关的故障时,需要搜集RAID卡的日志与状态信息,以供后台进行分析。搜集RAID卡日志的工具为storcli,storcli工具针对不同操作系统有不同的版本,且storcli有UEFI版本,所以如果系统死机或系统崩溃、需要进行RAID卡日志搜集,可将storcli工具拷贝至USB设备中,然后在BIOS下进入UEFI环境进行日志收集。
具体有如下命令:
控制器的详细信息
storcli /c0 show all
图 5‑60 查看控制器的详细信息
打印信息较多本文无法全部展示,使用该命令可以得到控制器的详细信息,实际使用时可将打印内容保存为单独文件(storcli /c0 show all>show-all.log)或使用grep命令根据关键字段搜索信息(storcli /c0 show all | grep 关键字段)。
背板的详细信息
storcli /c0/eall show all
因打印信息较多,本文只截取部分内容以供展示。
图 5‑61 查看背板的详细信息
硬盘的详细信息
storcli /c0/eall/sall show all
该部分内容请参考11.2.4节。
查看RAID组列的详细信息
storcli /c0/vall show all
因打印信息较多,本文只截取部分内容以供展示。
图 5‑62 查看RAID组列的详细信息
查看RAID卡FirmwareTermLog
storcli /c0 show termlog
图 5‑63 查看RAID卡FirmwareTermLog
查看RAID的alilog
storcli /c0 show alilog
因打印信息较多,本文只截取部分内容以供展示。
图 5‑64 查看RAID卡alilog
查看链路的Phyerrorcounter
查看控制器端的指令是storcli /cx/pall show all,适用于LSI的RAID控制器;
图 5‑65 查看控制器端Phyerrorcounter(1)
图 5‑66 查看控制器端Phyerrorcounter(2)
背板端的是storcli /cx/eall show phyerrorcounters,只适用于使用LSI Expander芯片的背板,全系产品所使用的Expander背板均采用LSI Expander芯片;
硬盘端是storcli /cx/eall/sall show phyerrorcounters,适用于SAS接口硬盘,SATA接口硬盘提示不支持此操作;
图 5‑67 SAS接口硬盘phyerrorcounter
图 5‑68 SATA接口硬盘phyerrorcounter
将以上日志搜集命令导出到文件保存,对RAID卡相关问题的分析具有重要的意义。许多问题可以通过日志追踪操作过程以及问题原因。在处理客户故障时,如果怀疑问题与RAID卡有关,建议在条件允许的情况下优先搜集日志信息。