手册下载
H3C Intel G6系列服务器
RAS技术白皮书
Copyright © 2023-2024 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
4.2.2 Corrupt Data Containment Mode(Poison Mode)
4.2.3 Advanced Error Detection and Correction (AEDC)
4.2.5 故障上报(MCA、AER)- Core,Uncore,和IIO
4.2.9 First Corrected Error (FCERR) Mode
4.2.13 DCU/IFU Poison Enhancements
4.2.17 内存可纠正错误上报Memory corrected error reporting
4.2.18 单内存颗粒数据错误纠正(SDDC ,DRAM Single Device Data Corrction)
4.2.19 DDR Command/Address Parity Check and Retry
4.2.24 Adaptive DDDC - Single Region (ADDDC - SR)
4.2.25 Post Package Repair (PPR)
4.2.26 Partial Cache Line Sparing (PCLS, HBM only)
4.2.28 Memory Disable/Map-Out for FRB
4.2.29 Memory SMBus Hang Recovery
4.2.30 DDR Address Range/Partial Memory Mirroring
4.2.31 Adaptive DDDC - Multi-Region(ADDDC - MR)
4.2.33 UPI Protocol Protection via CRC (16 bit)
4.2.35 PCH PCIe Advanced Error Reporting (AER)
4.2.38 PCIe Corrupt Data Containment (Data Poisoning)
4.2.40 PCIe Enhanced Downstream Port Containment (eDPC)
4.2.41 PCIe Card Surprise Hot Plug
4.2.42 PCIe Card Hot-Plug(Add/Remove/Swap)
4.2.43 Error Reporting via IOMCA
4.2.44 Integrated Error Handler
4.2.48 Predictive Failure Analysis
4.2.49 Suppress Inbound Shutdown
4.2.52 MCA Recovery – Execution Path
4.2.53 MCA Recovery – Non-execution Path
4.2.54 Local Machine Check (LMCE) based Recovery
4.2.56 Asynchronous MCA Error Injection (aka MCA Bank Spoofing Error Injection)
· 由于产品版本升级或其他原因,本文档内容会不定期进行更新。
· 本文为产品通用资料。如果用户有定制化需求,请以产品实际情况为准;有需要请联系H3C技术支持。
本手册适用以下产品:
· H3C UniServer R4500 G6
· H3C UniServer R4300 G6
· H3C UniServer R4700 G6
· H3C UniServer R4700LE G6
· H3C UniServer R4900 G6
· H3C UniServer R4900LE G6 Ultra
· H3C UniServer R4900 G6 Ultra
· H3C UniServer R5300 G6
· H3C UniServer R5500 G6
· H3C UniServer R6900 G6
· H3C UniServer R6700 G6
服务器是任何现代数据中心基础设施的关键组成部分之一,它包括各种组件,如处理器、存储设备、PCIe设备,电源和风扇。对任何现代数据中心的关键要求之一就是保持服务器运行稳定,而不损害数据完整性。换言之,要确保服务器保持运行稳定,并且无论数据存储在任何服务器组件(如内存、缓存或处理器寄存器)中或在任何平台链路(如Intel®UPI、PCIe、DMI链路、CXL)中传输时,不会发生数据损坏。在服务器的组件出现故障时,RAS技术通过最大化可用性及保证所有组件中的数据完整性,尽可能满足上述需求。
RAS(Reliability、Availability and Serviceability),即可靠性、可用性、可维护性。
RAS技术有三个主要目标:
· 提升系统可运行时间。
RAS技术提升服务器的可靠性:可靠性一般通过测量平均故障时间(MTTF)、年崩溃率(ACR)或年服务率(ASR)来度量。一个可靠的系统将保持更长的稳定运行时间,因此更加可用。
H3C G6系列服务器通过软硬件的高可靠性设计,能够为企业提供更长的服务器稳定运行时间,提供为企业创造更多价值的可能。
· 减少非计划停机时间。
即使做了最周密的计划,停机仍然是有可能发生的。当非计划停机出现时,可以通过测量平均修复时间MTTR来度量服务器的可维护性。一个可维护的系统可以快速恢复正常运行。
H3C G6系列服务器搭载Intel第四代至强可扩展处理器(代号:Sapphire Rapids)设计,通过硬件和固件协同支撑日志记录,帮助识别和隔离故障,让操作者可以对服务器进行预防性或主动性的维护。如果出现停机,可以快速地将系统重新上线,减少维护成本,从而减轻停机对企业的后果。
· 维护数据完整性。
RAS技术提供了多种机制来防止数据损坏或纠正损坏的数据。当检测到损坏数据时,会确保它在可控制的范围内,避免引起更严重的问题。
RAS所包括的具体内容并没有一个特别严谨的定义和划分,本文表1-1中呈现的是H3C服务器团队参考业界相对通用的标准,并结合服务器的特点给出的RAS定义。
表1-1 RAS定义
类型 |
定义 |
Reliability |
可靠性可定义为系统在某个给定时间T内产生正确输出的概率,通过规避、检测和修复硬件故障的功能来增强系统可靠性。可靠的系统不会提供错误的数据和计算结果,而会检测并对错误数据进行纠正。 可靠性以平均故障间隔时间(MTBF)为度量进行描述。 |
Availability |
可用性为系统在给定时间运行的可能性,及设备实际运行的时间与实际应该运行时间的百分比。 可用性通常以系统预计可用时间百分比进行描述:如99.999%。 |
Serviceability |
可维护性指出系统可以修复或维护的简单程度和速度。如果系统修复故障的时间增加,则可维护性降低。 可维护性包括在出现问题时提供轻松诊断系统的方法。这方面则需要软件提供更加智能、清晰的错误信息和通知手段,并尽可能提供故障预警,避免系统挂死。 |
通过表1-2对本文中出现的专业名词及缩略语进行简要的解释。
术语 |
解释 |
ADDDC |
Adaptive Double Device Data Correction,自适应的双内存颗粒的数据错误纠正 |
AER |
Advanced Error Reporting,高级错误报告 |
BIOS |
Basic Input Output System,基本输入输出系统 |
BIST |
Built in Self-Test,内建自测 |
CDC |
Corrupt Data Containment,又称为 Data Poisoning |
Core |
处理器的一部分,包括处理单元,例如执行引擎(EE)和专用高速缓存 |
CHA |
Cache and Home Agent |
CMCI |
Corrected Machine Check Interrupt |
CRC |
Cyclic Redundancy Check,循环冗余校验 |
CXL |
Compute Express Link™,一种新的CPU和加速器间的开放性互联协议 |
DCU |
Data Cache Unit,数据缓存,属于一级缓存 |
DMI |
Direct Media Interface,直接媒体接口。DMI是Intel(英特尔)公司开发的用于连接处理器和平台控制器(PCH)的总线 |
DIMM |
Dual-Inline-Memory-Modules,双列直插式存储模块,一种内存条 |
ECC |
Error Checking and Correcting,差错校验纠正 |
EDPC |
Enhanced Downstream Port Containment |
EMCA |
Enhanced Machine Check Architecture |
FFM |
Firmware First Model,固件优先模型 |
FW |
Firmware,固件 |
FRB |
Fault Resilient Boot |
HBM |
High Bandwidth Memory,高带宽内存 |
HDM |
H3C Device Management,H3C自研的遵循IPMI协议的板级管理控制器 |
HW |
hardware,硬件层 |
ICU |
Instruction Cache Unit,指令缓存 |
IEH |
Integrated Error Handler,集成的错误处理 |
IFU |
Instruction Fetch Unit,指令存取单元 |
IIO |
Integrated I/O Module,集成I/O模块 |
IMC |
Integrated Memory Controller,整合内存控制器 |
LLC |
Last Level Cache (L3 cache),三级缓存 |
LPC |
Low Pin Count,用于连接I/O设备 |
MCA |
Machine Check Architecture |
MCC |
Medium Core Count |
MCE |
Machine-Check Exception |
MDF |
Modular Die Fabric |
MLC |
Mid Level Cache,二级缓存 |
MRC |
Memory Reference Code,内存参考代码 |
OS |
Operating System,操作系统 |
PCH |
Platform Controller Hub,平台控制器中心 |
PCIe |
Peripheral Component Interconnect Express,外围组件快速互连 |
PCLS |
Partial Cache Line Sparing |
PCU |
Power Control Unit |
POST |
Power On Self Test,开机自检 |
RAS |
Reliability,Availability,Serviceability,可靠性、可用性、可维护性 |
Runtime |
运行期间。本文特指在OS运行期间。 |
SDDC |
Single device data correction (DIMM CRC) |
SMI |
System Management Interrupt,系统管理中断 |
TLP |
PCIe事务层数据包 |
UEFI |
Unified Extensible Firmware Interface,统一的可扩展固件接口 |
Uncore |
指处理器Core之外的处理器Socket的模块。 Uncore包含CHA、M2M、Intel ®UPI、iMC、IVR、PCU、UBOX等。需要注意的是,IIO模块被视为Uncore之外,但它仍然集成在同一个Die内 |
UPI |
Ultra Path Interconnect,极速通道互联 |
VT-d |
Intel Virtualization Technology For Directed I/O,英特尔定向I/O虚拟化技术 |
XCC |
Extreme Core Count |
如图2-1所示,业界对错误有如下分类。
基于上图中的错误分类,RAS处理流程如图2-2所示。当检测到可纠正错误CE时,对错误位置进行标记,并通过对应模块的RAS技术快速修复错误,用户不会感知到这类错误的发生。
当出现不可纠正错误UCE时,会尝试对故障进行隔离。比如通过隔离内存坏块、总线降频等手段,维持系统的运行。若发生了更为严重的故障,系统直接宕机,这时需要通过带外管理软件HDM恢复或重启系统。
对于硬件永久性故障,需要更换新的硬件或者启用备用设备进行修复。通过部分硬件的热插拔功能,可以支持用户在系统不断电的情况下,进行故障设备的更换,使服务器恢复正常工作。
图2-2 RAS流程
Intel至强可扩展处理器平台提供了强大的错误处理架构MCA,G6系列机架服务器在MCA架构的基础上,整合硬件、BIOS、HDM以及现有OS的故障处理机制,创建出了一套完善的故障管理系统,可以在系统发生错误后提供完备的故障诊断,故障定位,故障恢复,故障信息搜集,故障上报等一系列功能,而且由于此系统的核心模块是由BIOS及HDM提供的,不依赖于OS,并且处于一直运行的状态,因此可以实现对系统运行的全时段检测,在错误发生的第一时间进行针对性的处理,降低异常宕机的风险。
故障管理系统由硬件层、CPLD、处理器平台、带外管理HDM、BIOS、OS共同配合及交互,实现故障精确定位、故障及时处理。
故障管理系统的整体架构如图2-3所示,主要组件包括:
· HDM:故障定位系统的核心,它负责故障的收集、汇总和分析,并通过Web管理界面事件日志以及故障告警等方式向客户呈现。
· 处理器平台:G6系列机架式服务器采用Intel至强第四代可扩展CPU平台,该平台在上一代基础上增强了RAS的能力,增强了对处理器、内存、PCIe设备硬件故障的管理能力。
· CPLD:向下与各个硬件模块,包括电源、风扇以及其他底层硬件(除CPU、内存、硬盘和PCIe标卡外)接口,捕获硬件异常状态,向上与HDM互连,传递故障信息。
· BIOS:主要实现CPU、内存、PCIe以及存储设备的故障收集和定位,向HDM提供故障定位的结果,对OS层面来说,BIOS提供APEI等OS级故障管理的接口。
· UniSystem(可选部件):UniSystem是由H3C开发的一款服务器配套管理软件。SDS日志会记录服务器平台在每个使用周期过程中产生的从硬件到软件,从主CPU到BIOS、OS到HDM的大小事件。SDS日志需通过UniSystem来解析。根据该功能查找服务器的使用记录或判断服务器的健康状况,维护工程师可以追寻影响服务器健康状况问题的蛛丝马迹,并快速定位,从而提高服务器的可服务性。
· iFIST(可选部件):iFIST是一款内嵌于服务器的单机管理工具,通过iFIST可以配置RAID、安装操作系统、安装驱动程序和诊断服务器健康状况,以满足用户对单台服务器进行直接管理的需求。
· 客户界面:主要通过HDM的Web界面,可以方便客户在远程或者本地进行系统维护工作,当然在主要部件上也会有故障指示灯。
· 各类协议:故障管理系统中所用到的接口、协议,包括:ESPI、PECI、PCIe、UART、I2C、SMBUS、LocalBus等。
RAS技术主要是通过MCA机制、IEH机制、AER机制实现的。
· MCA(Machine Check Architecture)机制
MCA机制可以上报并尽可能地修复系统总线、ECC、奇偶校验、缓存和TLB等等错误,识别故障源并将故障信息记录在MC Bank中。通过MCA机制,CPU内部的可纠正错误和不可纠正错误均可上报并记录,并纠正硬件可纠正错误。对于不可纠正错误,通常会进行热重启。MCA的作用域包括处理器中的所有模块,Core、Uncore和IIO(通过IOMCA)。
· IEH(Integrated Error Handler)机制
IEH机制是一个统一的层级清晰的错误处理上报机制;包含south satellite IEH、north satellite IEH、global IEH;其中south satellite IEH位于PCH中,负责收集汇总PCH中的故障信息,并上报到global IEH;north satellite IEH位于CPU IIO的每个stack中,负责收集汇总该stack中所有internal设备和下游PCIe设备上报的故障信息,并上报到global IEH;global IEH位于Ubox中,负责汇总下游IEH上报的故障信息,并触发相关中断信号SMI/NMI,或者输出ERRPIN[0~2]等。
· AER(IIO Advanced Error Reporting)机制
AER机制负责侦测、记录并发送各种IIO模块下的子模块的错误信号,作用域包括IIO模块下的所有子模块,如PCIe接口、DMI、IIO的核心逻辑和Intel VT-d等。
如表3-1所示,G6系列机架式服务器的第四代英特尔至强可扩展处理器在各种内部模块中,实现了广泛的错误检测和纠正能力,以保持处理器的可靠性水平。一旦错误被检测及纠正,就会通过各种错误上报方式进行上报,3.2 故障上报将详细介绍故障上报的方式。
故障检测主要通过4.2.1 故障检测及校正(包含Socket级别)特性实现。
模块 |
定义/子模块 |
检测方式 |
EE |
执行引擎 |
residue check |
IFU |
指令预取单元(L1 I-Cache) |
Parity |
DCU |
数据缓存单元(L1 D-cache) |
Parity |
I/DTLB |
指令/数据转换后备缓冲区 |
Parity |
MLC |
二级缓存 |
ECC |
CHA |
三级缓存:数据,标志,MESIF状态 |
ECC |
M2M |
Mesh To Memory |
Parity |
Punit |
Power Controller Unit 电源控制单元 |
Parity,Stack overflow,time schemes |
IVR |
Integarted Voltage Regulators |
Over voltage and over current |
UPI |
Ultra Path Interconnect |
CRC |
RX和TX队列 |
Parity |
|
IMC |
读数据缓冲区 |
Parity |
Memory Read Write Data Byte Enable |
ECC |
|
IIO/PCIe |
Integarted I/O:Phy and Link Layer |
CRC & ECC |
RX/TX queues |
Parity |
|
IIO,IRP,Inter VT-d,MISC,DMA errors |
||
内部环路 |
Internal ring – Data and Command(DPPP,APPP) |
Parity |
故障上报用于通知可能发生的各种类型的故障,只有在检测到故障时才启动处理器错误上报。故障上报包含错误信号发送和错误日志记录两部分。
故障上报功能涵盖了以下功能模块:
· Machine Check Architecture (MCA):对于不可纠正错误,可以捕捉并记录第一个错误。对于可纠正错误会记录最后一个错误。MCA的作用域包括处理器中的所有模块,Core、Uncore和IIO(通过IOMCA)。
· Integrated Error Handler(IEH):提供统一的故障上报功能;能够汇总来自PCH下所有内外部设备、IIO下所有内外部设备的故障信息,通过内部专门的消息总线传输故障信息,通过全局的IEH设备最终产生相关中断或者外部信号告知BIOS或者HDM进行故障处理。
· Integrated I/O Advanced Error Reporting (IIO AER):PCI Express的可选扩展功能,它提供了比标准PCI Express错误报告机制更强大的错误报告功能,包括PCI Express AER、Traffic switch、IRP、IIO核心、英特尔VT-D和其他英特尔的特定的扩展设备。
· 内存可纠正错误上报:内存可纠正错误数量记录和信号发送的功能。
· UPI可纠正错误上报:UPI错误记录及信号发送的功能。
· IVR错误上报:CPU内部集成的电压稳定器错误上报功能。
处理器提供了以下几种不同的MCA错误上报模式:
已有几代英特尔处理器均支持Legacy IA-32 MCA模式,该模式是大多数操作系统都支持的。
· Corrupt Data Containment模式
CDC(Corrupt Data Containment Mode)模式是对MCA机制的一种强化。当启动CDC模式并检测到不可纠正错误时,检测代理将设置“poison”位和数据一起转发给请求代理。
· Enhanced MCA Gen2 (EMCA Gen2) Mode
第二代增强的Legacy IA-32 MCA模式。主要的目的是创建一个可通过操作系统启用的模式,并且进一步扩大固件优先模式(FFM)的错误报告范围。
· IOMCA Mode
允许IIO的不可纠正致命错误和不可纠正非致命错误通过MCE发送错误信号。
· Viral模式
Viral模式相比于CDC模式,在硬件中通过额外的措施,进一步提升了对错误的包容性。CDC模式可以包容数据的错误,而Viral模式对地址、控制或其他致命错误都可以包容。目的就是包容错误并防止它被提交到硬盘或网络。
这些模式中的一些是可以同时启用且互补的。表3-2描述可同时启用的错误上报模式。
操作模式 |
Legacy IA-32 MCA模式 |
CDC模式 |
EMCA Gen2模式 |
IO MCA模式 |
Viral 模式 |
Legacy IA-32 MCA模式 |
Yes |
|
|
|
|
CDC模式 |
No |
Yes |
|
|
|
EMCA Gen2 模式 |
No |
Yes |
Yes |
|
|
IO MCA模式 |
Yes |
Yes |
Yes |
Yes |
|
Viral 模式 |
Yes |
Yes |
Yes |
Yes |
Yes |
根据故障的类型不同,会采用不同的中断进行故障上报。如下表3-3所示。
故障类型 |
中断类型 |
作用域 |
备注 |
|
可纠正错误故障上报 |
CMCI (Corrected Machine Check Interrupt) |
Core/uncore |
仅Legacy IA-32 MCA模式使能 |
|
CSMI (Corrected SMI) |
Core/uncore |
仅eMCA2模式使能 |
||
SMI (System Management Interrupt) |
Memory errors |
带内通信。可通过UPI总线在所有socket之间通信 |
||
MSI (Message Signaled Interrupt) |
PCIe errors |
|
||
ERROR_N[0] Pin |
IIO AER and Memory errors |
可以被用于基于HDM的RAS实现 |
||
不可纠正可恢复故障上报 |
UCNA |
CMCI |
Core/uncore errors at the source |
仅Legacy IA-32 MCA模式使能 |
MSMI |
core/uncore errors at the source |
仅在eMCA2模式使能 |
||
MSI and ERROR_N[1] Pin |
Severity1 IIO AER nonfatal errors |
|
||
SRAO、SRAR |
MCERR |
core/uncore errors |
Legacy IA-32 MCA模式使能 |
|
MSMI |
core/uncore errors at the source |
仅eMCA2模式使能 |
||
灾难性故障 |
IERR |
core/uncore errors |
仅Legacy IA-32 MCA模式使能 |
|
MSMI |
core/uncore errors at the source |
仅eMCA2模式使能 |
下面详细描述可纠正错误和不可纠正错误的整体处理流程,如图3-1所示。
· 可纠正错误的处理如图3-1所示的橙色流程。针对系统发生的可纠正错误,通过漏桶算法及设置可纠正错误阈值,可以实现在可纠正错误频繁发生时,触发SMI中断通知BIOS进行错误处理,BIOS接收到SMI中断请求后会根据不同的中断类型进行相对应的错误处理,在确保系统正常运行的同时,对发生错误的器件进行定位,隔离,搜集相关的错误状态寄存器信息,并上报HDM相关的错误事件及详细的错误状态寄存器信息,可供用户或服务器维护人员进一步分析问题发生原因。
· 不可纠正可恢复错误的处理如图3-1所示的深绿色流程。对于不可纠正错误,如果这个错误是软件可恢复的(recoverable),则此错误并不会影响系统运行,只会将此错误数据将打上错误标记,并触发SMI中断,BIOS收到此SMI中断后会搜集相关的错误寄存器信息,并对错误器件进行定位并上报HDM相关的错误信息及详细的错误状态寄存器信息。
· 不可纠正错误的处理如图3-1所示的黄褐色流程。如果x86系统发生了不可纠正且不可恢复的错误,CATERR_N管脚会被拉低,这种错误会造成系统挂死,将会触发HDM的错误搜集程序,HDM可以获取x86系统的错误状态寄存器信息,保证可以在系统挂死的情况下仍能在第一时间获取到错误现场信息,定位出错误根源并及时反馈给用户相关的信息。
使用MCA Bank、AER状态寄存器、内存可纠正错误状态寄存器和Intel UPI错误状态寄存器实现Core、Uncore以及IIO模块的错误日志记录。
表3-4 错误等级和上报方法
错误类型 |
上报作用域 |
错误日志记录 |
Corrected或Advisory Non-Fatal |
MCA |
通过MCA Bank寄存器 |
AER(Severity 0) |
通过PCIe错误记录寄存器 |
|
iMC |
CORRERRSTATUS(每个RANK) |
|
Uncorrected Recoverable或Non-fatal |
MCA |
通过MCA Bank寄存器 |
AER(Severity 1) |
通过PCIe错误记录寄存器 |
|
Uncorrected Fatal |
MCA |
通过MCA Bank寄存器 |
AER(Severity 2) |
通过PCIe错误记录寄存器 |
|
Catastrophic |
MCA |
通过MCA Bank寄存器 |
当多个可纠正错误被上报时,可通过4.2.9 First Corrected Error (FCERR) Mode功能,防止后面更新的错误记录覆盖原始的错误记录。
通过4.2.10 PCIe可纠正错误上报功能记录PCIE可纠正错误数量。结合4.2.11 可纠正错误阈值功能,一旦IIO子模块和处理器中所有其他Uncore模块可纠正错误计数达到阈值,就发出错误上报信号。
根据具体的故障类型,采取对应的故障处理措施。下面针对各个模块的故障问题处理方式进行说明。
如表3-5所示,针对不同层级的内存故障,G6系列机架式服务器有不同的处理技术。
故障类型 |
可能原因 |
处理方法 |
Bit(Cell) error |
High energy particle strike-Soft Error (SE) Transient error |
SDDC, Patrol Scrub, Demand Scrub |
Persistent fault |
PCLS(HBM Only) |
|
Row error |
Persistent fault |
SDDC, PPR |
Bank error |
Persistent fault |
ADDDC(SR), ADDDC(MR) |
Rank/Device error |
Persistent fault |
ADDDC(MR),SDDC |
Addr/Cmd error |
Transient/ Persistent fault |
DDR CMD/ADDR Parity error check and retry |
Multi-device error(UCE) |
Persistent fault + SE |
MCA-recovery, Address Range Mirroring |
Connector error |
Electrical noise. Transient error. |
Transaction retry |
Wear-out or manufacturing defect, Persistent fault |
Memory disable/mapout for FRB |
|
Channel failure |
Board defect |
其中,SDDC技术的简介可查看4.2.19 单内存颗粒数据错误纠正(SDDC ,DRAM Single Device Data Corrction)。SDDC技术是基于纠错码去纠正单个DRAM颗粒错误,需要Virtual Lockstep支持。SDDC提供错误检查和校正,用于校正DIMM上的单个DRAM颗粒故障(硬错误)和多比特故障。
PCLS技术的简介可以查看4.2.27 Partial Cache Line Sparing (PCLS, HBM only)。PCLS可以纠正单个bit错误,当cache line上出现单个bit的永久性错误,可以使用备份的bit来替换掉出错的bit,这样使得PCLS性能比ADDDC(MR)和ADDDC(SR)好,单个内存通道最多能够支持16组PCLS。PCLS仅HBM支持。
另一项内存故障处理的关键技术ADDDC(MR),同样需要在Virtual Lockstep的支持,并且只支持可纠正错误。ADDDC功能仅支持x4 DIMM,ADDDC可以在每个内存通道中最多纠正2个DIMM区域(不同的Bank或Rank)硬故障。
Virtual Lockstep是在硬件和固件中实现的一种数据纠错算法,该算法可以实现了相关内存区域间codewords(32字节,1/2的cache line数据)的复制和交换;基于该算法,实现故障内存区域(Bank或Rank)的替换,完成故障修复。
当出现内核级错误,处理手段主要涉及到Core Disable For FRB(Fault Resilient Boot)功能、Core DCU Scrubbing功能和Corrupt Data Containment功能。
· Core Disable For FRB功能
随着服务器CPU内核数量的增加,单个故障点从整个处理器转移到处理器内部的较小模块,比如单个Core或LLC的一部分。因此当服务器CPU出现故障时,除了可以禁用整个CPU之外,也需要有能力去禁用某个核或者一部分核。
Core的禁用需要保留至少一个Core是活动的,才能完成系统引导过程。
· Core DCU Scrubbing功能
DCU数据由奇偶校验保护,当受高能粒子冲击时DCU数据出现soft error,且数据处于“M”状态,此时访问数据就会触发致命的MCERR,导致宕机。Core DCU Scrubbing功能能够在此错误出现时,能够把数据以“M”状态写回MLC,留下一个“E”状态的副本在DCU中,并且这个回写算法是性能影响最小化的,由于MLC是由ECC机制保护,此致命错误就转化为可纠正错误,提升系统可用性。
· Corrupt Data Containment功能
¡ 损坏数据包容(CDC)也称为数据Poisoning。可以将不可纠正数据错误信息同步到事务,以提升错误包容能力并提高系统可靠性。H3C G6系列服务器搭载Intel第四代至强可扩展处理器,在Core、Uncore、IIO子系统中均实现了CDC功能。
¡ Core中的CDC:当内存、MLC、LLC中检测到了不可纠正的数据错误时,CDC功能启用后,数据被标记为Poisoned,并被Core接收,Core可以直接丢弃数据,并且触发致命MCERR或者可恢复MCERR,当触发可恢复MCERR时,SW/OS/VMM层可以尝试从错误中恢复,提升系统可靠性。
¡ Uncore中的CDC:同样的,当被标记为Poisoned的数据的接收者为Uncore时(IMC、M2M、UPI、CHA等),Uncore不会消费该数据,会直接丢弃,并触发可恢复的MCERR事件,SW/OS/VMM层可以尝试从错误中恢复,提升系统可靠性。
¡ IIO子系统中的CDC:同样的IIO子系统中的子模块也支持CDC,例如IRP、CXL、PCIe等,以提升系统可靠性。
PCIe的故障处理主要介绍两个功能,PCIe Link Retraining and Recovery功能和PCI Express Corrupt Data Containment功能。
· PCIe Link Retraining and Recovery
PCI Express接口在出现链路降级时结合恢复机制,可以在不影响挂起的事务的情况下,进行重建链。如果在特定lane上出现了降级,恢复机制会按照Platform Design Guide (PDG)定义的链路降级规则,降低链路宽度(例如,x16链路将降级到x8链路)。如果在多个lane上出现降级,恢复算法会尝试在下一个允许的速度下重建链。
· PCI Express Corrupt Data Containment功能(又称为Data Poisoning)
当接收端检测到不可纠正的数据错误时,使用“bad data”状态标识该错误数据,再将数据转发给目标,这种错误报告形式被称为“data poisoning”。
接收poison数据的目标端,必须忽略数据,或者将数据带着“poison”标识存储起来。PCIE和一致性接口在事务分组中提供poison字段来标识错误数据。
Data Poisoning功能不仅限于发送的请求。需要用数据完成的请求也可以标识poison数据。
UPI故障处理的关键特性包括Intel UPI Corrupt Data Containment 和Intel UPI Dynamic Link Width Reduction功能。
· Intel UPI Corrupt Data Containment
每条UPI链路上有一个全局的POISON_ENABLE位,BIOS通过写改全局比特位设置是否启动data poison。
当UPI Date Poison功能开启时,Intel UPI只是一个poison标识的管道。UPI TX/RX接接收到poison数据,会继续将数据传送到目的地,并且不会触发错误信号或记录错误日志。这样将由数据的消费者来决定如何处理不可纠正的数据错误。
当UPI Date Poison功能关闭时,UPI将看不到带有poison状态的数据,所有单元都返回到Legacy MCA模式,Intel UPI RX收到poison数据,会发出一个错误信号并立即记录。
· Intel UPI Dynamic Link Width Reduction
该特性通过动态重新调整lane宽度来恢复物理Intel UPI链路上的一个或多个数据通道的硬故障。
如果可能,链路将保持在窄宽度上操作。在物理lane故障的情况下,支持从全带宽减小到x8,半带宽支持仅用于x8位的最小集合,以允许任何单个数据通道失败。所得到的动态链路带宽减少模式是lane[7:0]或[23:15],就是说只要不是所有故障同时存在[7:0]和[23:15]上,多lane故障就可以被恢复。
H3C G6 Intel系列服务器支持内存可纠正错误阈值功能,每一个Rank有单独的可纠正错误计数器。当计数器达到阈值后,触发SMI中断,由BIOS上报内存可纠正错误日志到HDM。
图3-2 内存可纠正错误阈值机制结构图
· 默认阈值:
内存可纠正错误阈值默认设置为8192,可通过选项Correctable Error Threshold修改。
· 上报到操作系统:
如果需要将CE错误信息上报到操作系统,需要关闭选项System Cloaking。此选项关闭后,其他MCA可纠正错误也将上报到操作系统。
提供Memory Correctable Error Flood Policy选项配置可纠正错误风暴:
· 若设置为Disabled,则不启用该功能。
· 若设置为Once,则Rank触发一次SMI后,关闭掉该Rank的SMI。
· 若设置为Frequency,则24小时内,某一Rank若触发SMI中断超过30次,则关闭掉该Rank的SMI。
在可纠正错误阈值计数器中支持漏斗机制,每当设定的时间(当前是1分钟)到达后,可纠正错误计数器触发一次错误漏水,即所有内存可纠正错误计数器减1。
本小节对H3C已经支持且用户可用的RAS功能分类并介绍,共计76项。
G6系列机架式服务器不同机型所支持的RAS功能有所差异,表4-1展示每个机型所对应支持的RAS功能。
· G6系列机架式服务器每个机型支持多种CPU型号,支持的CPU型号列表可查看用户指南附录。其中,CPU型号为4XXX或3XXX,不支持表4-1中标明“部分CPU型号不支持”的RAS功能。
· 仅CPU型号为HBM支持表4-1中标明“HBM Only”的RAS功能。
· 表4-1中R4900包含R4900 G6和R4900 G6 Ultra机型。
表4-1 RAS功能一览表
类型 |
功能名称 |
R4700 |
R4900 |
R5300 |
R5500 |
R6700 |
R6900 |
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
||
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
CPU |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Memory |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Memory |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Memory |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Memory |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Memory |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Memory |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
||
Memory |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Memory |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Memory |
HBM only |
HBM only |
HBM only |
HBM only |
No |
No |
|
Memory |
HBM only |
HBM only |
HBM only |
HBM only |
No |
No |
|
Memory |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Memory |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Memory |
部分CPU型号不支持 |
部分CPU型号不支持 |
部分CPU型号不支持 |
部分CPU型号不支持 |
Yes |
Yes |
|
Memory |
部分CPU型号不支持 |
部分CPU型号不支持 |
部分CPU型号不支持 |
部分CPU型号不支持 |
Yes |
Yes |
|
UPI |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
UPI |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
UPI |
部分CPU型号不支持 |
部分CPU型号不支持 |
部分CPU型号不支持 |
部分CPU型号不支持 |
Yes |
Yes |
|
PCH |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
IIO |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
IIO |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
||
IIO |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
IIO |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
IIO |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
IIO |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
IIO |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
IIO |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
||
System |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
System |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
System |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
System |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
System |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
System |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
System |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
System |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
System |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
System |
部分CPU型号不支持 |
部分CPU型号不支持 |
部分CPU型号不支持 |
部分CPU型号不支持 |
Yes |
Yes |
|
System |
Asynchronous MCA Error Injection(aka. MCA Bank Spoofing Error Injection) |
部分CPU型号不支持 |
部分CPU型号不支持 |
部分CPU型号不支持 |
部分CPU型号不支持 |
Yes |
Yes |
电源 |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
风扇 |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
网卡 |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
硬盘 |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
硬盘 |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
阵列卡 |
Yes(选配电池时) |
Yes(选配电池时) |
Yes(选配电池时) |
Yes(选配电池时) |
Yes(选配电池时) |
Yes(选配电池时) |
|
阵列卡 |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
阵列卡 |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
|
HDM |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
功能名称 |
故障检测及校正(包含Socket级别) |
功能说明 |
这个特性涵盖了整个处理器级的故障检测和纠错能力。通过增强Cache错误上报、数据路径奇偶校验保护(DPPP)和地址路径奇偶校验保护(APPP)来提供“数据保护”和“数据完整性”。 |
功能目标 |
保证组件级别的可靠性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
Corrupt Data Containment Mode(Poison Mode) |
功能说明 |
处理器支持Legacy IA-32 MCA Mode 和 MCA Corrupt Data Containment Mode两种模式。其中在传统 IA32 MCA 模式下,一旦有模块(包括产生错误的模块、传输数据的模块等)检测到不可纠正错误,将直接触发 MCE,进行系统复位。而Corrupt Data Containment 模式基于数据的实际使用执行错误处理:错误源头和传输过程中,检测到不可纠正错误的模块并不会直接触发 MCE,而是对数据打上“poison”标记并继续传输,同时触发 CMCI 中断;最终使用数据的模块可以执行多样化的处理,包括忽略错误(例如屏幕显示某个像素点的错误)、丢弃数据、发起重传、触发MCE等。 |
功能目标 |
增加整个系统的容错能力 |
使用方式 |
默认开启,可以通过 BIOS 设置关闭 |
约束/限制 |
无 |
功能名称 |
Advanced Error Detection and Correction (AEDC) |
功能说明 |
AEDC允许使用“residue checking”和奇偶保护技术来侦测Core执行引擎的故障,通过“Instruction Retry”实现故障纠正。如果“Instruction Retry”没有纠正故障,那么会触发致命的MCERR信号。错误记录在IFU MCA Bank中。 |
功能目标 |
AEDC提高了Core内执行引擎中的故障覆盖率。 |
使用方式 |
CPU内置特性,不可配置 |
约束/限制 |
无 |
功能名称 |
Time-out timer Schemes |
功能说明 |
各种子模块内的超时计时器,用于将故障报告尽可能接近故障源。实现了以下超时功能: · Core 3-strike · CHA TOR timeout · Intel UPI Link Level Retry timeout · Mesh-to-Memory (M2Mem) Timeout (formerly called CHA BT timeout) · IRP Config retry time-out · PCIe Port Completion Timeout (CTO) |
功能目标 |
提高了系统的可用性/可维护性。 |
使用方式 |
默认开启,部分可配置 |
约束/限制 |
无 |
功能名称 |
故障上报(MCA、AER)- Core,Uncore,和IIO |
功能说明 |
故障上报包括日志记录和发送错误信号。主要支持MCA(Machine Check Architecture)和AER(Advanced Error Reporting)两种机制,也支持特定平台的内存和UPI错误汇报机制。 |
功能目标 |
报告服务器内发生的各种类型的故障,并提高平均修复时间(MTTR)。也用于加速故障的调试,特别是在现场的调试。 |
使用方式 |
默认开启,部分可配置 |
约束/限制 |
无 |
功能名称 |
EMCA Gen2的故障上报 |
功能说明 |
在EMCA Gen2之前,Legacy IA-32 MCA是直接将错误信号直接发送给OS/VMM,这样没能很好的利用UEFI FW的错误诊断能力。EMCA Gen2允许FW加强MCA的错误记录能力,当该特性使能时,UEFI-FW SMI handler可以在OS machine check handler读并清除MCA Bank之前去读MCA Bank寄存器和其他错误寄存器。 |
功能目标 |
提供执行基于UEFI FW恢复故障的机制 |
使用方式 |
默认开启,BIOS可配置 |
约束/限制 |
无 |
功能名称 |
处理器BIST |
功能说明 |
处理器内部有自检模块,在BIOS启动过程中可以对处理器的每个内核进行自检,并记录自检结果。 |
功能目标 |
检测并发现处理器故障 |
使用方式 |
默认开启,不可配置 |
约束/限制 |
无 |
功能名称 |
MCA Bank 故障控制 |
功能说明 |
该特性允许向操作系统隐藏可纠正错误和UCNA错误。既然该类错误已经被硬件修正,可以将一定数量的可纠正错误被视为正常的动作。该特性使能后,只有SMM和PECI可以访问该类错误日志。 默认配置下可纠正错误被隐藏,UCNA错误可以被OS访问。 |
功能目标 |
增强服务器对故障的控制 |
使用方式 |
自动生效,部分可配置 |
约束/限制 |
无 |
功能名称 |
First Corrected Error (FCERR) Mode |
功能说明 |
多个可纠正错误被上报时,防止后面更新的错误记录覆盖原始的错误记录。 在多个可纠正错误突发的情况下,在FW/SW的错误处理程序处理完当前错误前,HW不会覆盖当前的可纠正错误记录。使得FW/SW的错误处理程序能够可靠的 |
功能目标 |
提升故障现场识别出需要更换部件位置的能力,增强服务器可用性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
PCIe可纠正错误上报PCI Express Corrected Error Reporting |
功能说明 |
可在每个PCIE Root Port设置PCIE可纠正错误的阈值,并实现通过SMI的更完善的可纠正错误报告体系。 |
功能目标 |
实现更完善的可纠正错误上报结构。 |
使用方式 |
默认关闭,可配置 |
约束/限制 |
无 |
功能名称 |
可纠正错误阈值Thresholding for Corrected Errors |
功能说明 |
处理器支持所有Uncore MCA Bank的可纠正错误阈值功能。当达到阈值后,对应的MCA Bank触发CSMI中断,FW/SW错误处理程序执行错误处理及上报。 |
功能目标 |
用于当启用固件优先模型(FFM)时,捕获基于阈值的错误日志,用于FRU隔离、PFA和调试。 |
使用方式 |
默认开启,可配置 |
约束/限制 |
无 |
功能名称 |
CSR Error Log Cloaking |
功能说明 |
通常,OS不会从CSR(Control and Status Registers)区域获取错误日志,但是一些用户驱动有可能会获取。但这些错误早就被硬件纠正了,并且我们允许特定等级的错误被视为正常的系统行为。 此功能隐藏部分CSR错误日志寄存器,防止OS对这些寄存器操作,直到BIOS准备好暴露这些错误。 |
功能目标 |
系统开发人员以其基于BIOS的错误处理代码,可以管理系统错误日志捕获和报告,而不受来自OS的错误处理代码的任何干扰,增强服务器的可维护性。 |
使用方式 |
默认开启,BIOS可配置 |
约束/限制 |
无 |
功能名称 |
DCU/IFU Poison Enhancements |
功能说明 |
通过扩展DCU/IFU中的“poison strom”用例,来改进DCU/IFU错误记录,以减少记录由于邻近而可能发生的多个poison错误的可能性。 |
功能目标 |
提高系统可用性 |
使用方式 |
默认开启,不能关闭 |
约束/限制 |
无 |
功能名称 |
Core DCU Scrubbing |
功能说明 |
当DCU中数据收到高能粒子冲击使得出现soft error时,Core DCU Scrubbing功能能够把数据以“M”状态写回MLC,留下一个“E”状态的副本在DCU中,并且这个回写算法是性能影响最小化的,由于MLC是由ECC机制保护,此致命错误就转化为可纠正错误,提升系统可用性。 |
功能目标 |
提高系统可用性 |
使用方式 |
默认开启,不能关闭 |
约束/限制 |
无 |
功能名称 |
Core Disable for FRB |
功能说明 |
随着处理器内核数量的逐代增加,单个故障点从整个处理器转移到处理器内部的较小规模,比如单个Core或LLC的一部分。当出现了故障,除了可以禁用整个CPU之外,现在可以做到禁用特定的核。 |
功能目标 |
提高系统可用性 |
使用方式 |
默认开启,不能关闭 |
约束/限制 |
Core的禁用需要保留至少一个Core是活动的,才能完成系统引导过程。 |
功能名称 |
Enhanced SMM (ESMM) |
功能说明 |
多个RAS特性通过eMCA Gen2上报故障,SMM是eMCA Gen2的一个组成部分。 本功能通过改进Long flow/blocked指示器中的线程、目标SMI、SMM转储到内部MSR的状态存储等方式,改进现有的SMM模式。 |
功能目标 |
改进现有的SMM模式,促进通过eMCA Gen2启用错误上报。 |
使用方式 |
自动开启,不可关闭 |
约束/限制 |
仅在eMCA模式下启用。 |
功能名称 |
内存可纠正错误上报 Memory corrected error reporting |
功能说明 |
提供每个Rank基于漏桶算法的可纠正错误计数器。可按每个Rank记录可纠正错误的数目,达到可纠正错误阈值后,激活各种RAS功能,比如ADDDC(SR/MR)、PLCS、PPR等。 |
功能目标 |
提供每个Rank的可纠正错误计数器。 |
使用方式 |
默认启用,BIOS可配置阈值 |
约束/限制 |
无 |
功能名称 |
单内存颗粒数据错误纠正(SDDC ,DRAM Single Device Data Corrction) |
功能说明 |
能够纠正一个10x4内存颗粒上的多个bit错误。SDDC纠正错误采用的是一种“read retry”的方式,即逐个将某一个bit设置为相反的值,然后计算CRC是否匹配成功。 |
功能目标 |
有效应对内存颗粒的硬失效,很大程度上提升内存系统的可用性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
· 5x8的颗粒的SDDC,必须通过BIOS将内存的工作模式设为lockstep模式后才可以启用 · 如果内存颗粒硬失效,尽管SDDC可以实现纠错,但内存系统的性能会急剧下降 |
功能名称 |
DDR Command/Address Parity Check and Retry |
功能说明 |
DDR5命令/地址奇偶校验和重试功能,包含了命令/地址校验错误后对地址的记录和命令/地址的重试功能。命令/地址奇偶校验错误通过Alert PIN上报,并可恢复。虽然Alert信号每个channel共用一个,当Alert信号触发时,处理的IMC不能够确定是哪一个RANK/DIMM和哪一个命令;但是在恢复处理错误阶段仍能够确定错误源,并尝试从错误中恢复。该功能等同于内存地址奇偶检测保护(Memory Address Parity Protection)功能。 |
功能目标 |
主要用于检测和处理内存命令地址总线上读、写或者其他各种协议相关的传输时的错误,提升可靠性 |
使用方式 |
默认启用,BIOS可配置阈值 |
约束/限制 |
无 |
功能名称 |
内存数据基于命令和地址的不规则编码 |
功能说明 |
通过线性移位寄存器对内存数据流进行伪随机编码,平衡 0/1 分布,降低软错误的发生概率;另外实现内存地址双 bit 错误检测 |
功能目标 |
通过编码方式,避免高电平和低电平大量集中出现,降低电冲击,增加可靠性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
内存指令式/定期巡检 |
功能说明 |
Demand Scrubbing 是读数据的时候,如果读出数据存在不可纠正的错误,会重新读一次。如果读出的数据存在可纠正的错误,将纠正后的数据重新写入到内存中。通过重读和及时纠正单 bit 错误的方式,降低不可纠正错误出现的概率 Patrol Scrubbing的实现机制:CHA内部有一个 SSR 引擎(Sparing和Patrol Scrubbing 共用)。 SSR 引擎按照设定的频率和步长,在空闲的时候读取内存中的内容,如果读出的数据存在可以纠正的错误,将纠正后的数据重新写入到内存中。通过及时纠正单bit错误的方式,降低不可纠正错误出现的概率 |
功能目标 |
通过重试或巡检的方式,降低内存系统出现问题的可能性 |
使用方式 |
默认开启,可以通过BIOS设置 |
约束/限制 |
有一定的功耗增加 |
功能名称 |
内存热节流(内存温度调节) |
功能说明 |
该功能是内存温度的调节,当内存条的温度达到阈值,系统会自动触发内存模块的性能调整功能,内存会降低吞吐速率和提高刷新率,以达到降低温度和保持内存稳定性的作用 |
功能目标 |
防止内存温度过高导致系统出现问题,提高系统的稳定性和可靠性 |
使用方式 |
默认开启 |
约束/限制 |
内存温度 |
功能名称 |
|
功能说明 |
将内存数据做两个拷贝,分别放在主内存和镜像内存中。为了确保当某个DIMM存储芯片失效的时候,内存保护技术能够自动利用备用的镜像内存自动找回数据,由于采用通道间交叉镜像的方式,所以每个通道都有一套完整的内存数据拷贝,从而保证服务器的平稳运行 |
功能目标 |
有效避免了由于内存故障而导致数据丢失和宕机,增强加内存系统的可用性和稳定性 |
使用方式 |
默认关闭,可以通过BIOS设置开启 |
约束/限制 |
· DIMM安装要做到符合内存镜像的插法要求 · OS可见的内存容量只有50% · 内存镜像特性与ADDDC特性不能同时使用 |
功能名称 |
|
功能说明 |
在Virtual lockstep模式下,ADDDC(SR)功能可以修复单个DRAM颗粒的硬故障。 当Bank区域颗粒下出现一个硬故障,它将被通过自适应虚拟lockstep的方式映射出去。 也称为ADC(SR) |
功能目标 |
修复DRAM内存中颗粒的硬故障,来提高硬件级别故障的处理效率和可靠性,进而提高系统的稳定性。 |
使用方式 |
默认启用,可以通过BIOS设置 |
约束/限制 |
带有x4 DRAM的内存,并且故障是可纠正故障 |
功能名称 |
Post Package Repair (PPR) |
功能说明 |
DRAM设备存在行冗余电路来解决单行故障,可以将坏的行重新映射到内置的冗余行。修复分为硬修复(hPPR)和软修复(sPPR):其中硬修复是永久性的修复;软修复是一次性的修复,dram复位后消除修复效果。执行硬修复(hPPR)时每个bank至少有一行能够进行修复,且最大行数取决于供应商。 |
功能目标 |
DRAM单元越来越容易受到电、热和机械应力的影响,PPR提供了一种内存修复的方案。提升系统可靠性。 |
使用方式 |
默认关闭 |
约束/限制 |
4GB DRAM以上 |
功能名称 |
Partial Cache Line Sparing (PCLS, HBM only) |
功能说明 |
PCLS可以纠正单个bit错误,当cache line上出现单个bit的永久性错误,可以使用备份的bit来替换掉出错的bit,这样使得PCLS性能比ADDDC(MR)和ADDDC(SR)好,单个内存通道最多能够支持16组PCLS。 |
功能目标 |
提升系统可靠性 |
使用方式 |
默认开启,可以通过BIOS配置 |
约束/限制 |
仅HBM内存支持 |
功能名称 |
HBM- Bank Sparing |
功能说明 |
系统在每个HBM2e 伪通道上保留一个Bank作为备用,并且在系统运行时BIOS检测到故障后也能启动通道上的Bank Sparing并移除故障的bank。这个操作将1/16的HBM2e内存作为备用内存 |
功能目标 |
提升系统可靠性 |
使用方式 |
默认关闭,可以通过BIOS配置 |
约束/限制 |
仅HBM内存支持 |
功能名称 |
Memory Disable/Map-Out for FRB |
功能说明 |
在服务器启动阶段会进行内存发现、训练及测试;当检测到故障内存后,会进行内存的禁用(Per Rank\DIMM\Channel),使得服务器能够继续进行启动。 |
功能目标 |
提升系统可靠性 |
使用方式 |
默认开启,不可配置 |
约束/限制 |
无 |
功能名称 |
Memory SMBus Hang Recovery |
功能说明 |
该功能允许BIOS在运行时使用SMI中断去执行内存SMBus故障修复。服务器的内存控制器可以被配置为在内存SMBus故障时产生一个SMI中断,中断产生后BIOS SMI处理器将会执行: 1. 保存上次发布的TSOD地址。 2. 保存当前的TSOD轮询设置和错误恢复设置。 3. 禁用TSOD轮询和禁用错误恢复。 4. 程序安全温度。 5. 保存当前的闭环热节流(CLTT)设置并禁用CLTT。 6. 触发硬件定时器,激活SMBus的软复位,并启动n ms的周期性SMI。n的值取决于平台。 7. 在周期性SMI到期时,检查恢复是否已完成并禁用定期计时器。如果恢复未完成,则将再次执行周期性SMI处理程序。 8. 在内存SMBus恢复完成后,停用软复位,恢复上述步骤1-5中保存的系统状态。 |
功能目标 |
提供在运行时恢复内存SMBus故障的方式,提升系统可用性 |
使用方式 |
自动生效,不可关闭 |
约束/限制 |
无 |
功能名称 |
DDR Address Range/Partial Memory Mirroring |
功能说明 |
部分内存镜像模式,BIOS内可以配置Mirror内存的大小,其余内存仍工作在非镜像模式下。完全镜像模式中的所有错误检测、信令和校正操作均可应用于镜像区域内的部分镜像模式。 |
功能目标 |
用户可以使用部分内存镜像模式保存关键代码或数据。提升内存可靠性。 |
使用方式 |
默认关闭,BIOS可配置 |
约束/限制 |
内存镜像特性与ADDDC特性不能同时使用。 |
功能名称 |
|
功能说明 |
在Virtual lockstep模式下,ADDDC(MR)功能可以在不同的Rank/Bank中修复最多两个DRAM颗粒的硬故障。 当Bank/Rank区域粒度下出现了一个硬故障,它将被通过自适应虚拟lockstep的方式映射出去。ADDDC(MR)功能允许两次这样的硬故障,之后可以再纠正一个单bit故障。 也称为ADDDC(MR)+1。 |
功能目标 |
修复DRAM内存中颗粒的硬故障,来提高硬件级别故障的处理效率和可靠性,进而提高系统的稳定。 |
使用方式 |
默认关闭,可以通过BIOS设置 |
约束/限制 |
与Mirror Mode不能同时启用,仅支持x4 DRAM的内存,并且在每个内存通道上独立激活,并且故障是可纠正故障。 |
UPI链路重试 |
|
功能说明 |
该特性允许当接收端检测到CRC错误时保持链路正常工作。一旦侦测到CRC错误,接收端会向发送端发送一个重试请求。如果CRC错误是由于transient事件引起的,则重新发送的数据将不会再次出错。该特性会重试两次,两次之后还是不行会让物理层重新初始化,初始化还是不行会触发不可纠正错误事件。 |
功能目标 |
通过重试机制可以有效避免由于临时性错误造成的传输数据错误,提高UPI链路的传输可靠性,加强系统的稳定性。 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
UPI Protocol Protection via CRC (16 bit) |
功能说明 |
通过16位CRC实现更可靠的处理器间链路通信,并通过错误检测能力提高了数据完整性。用户可以配置系统检测到CRC错误的通知功能,通过事件日志可以识别是否存在可能导致未来链路发生故障的潜在链路退化问题。 |
功能目标 |
提升系统可靠性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
UPI动态链路带宽减少 |
功能说明 |
通过动态调整链路宽度来恢复物理UPI链路上的一个或多个数据通道的硬故障。如果系统在链路上检测到持续错误,则可以使系统UPI链路宽度减半并且性能也会减少。 |
功能目标 |
在某些lane中检测到硬故障仍允许系统继续运行,从而提高系统的可用时间和可靠性。 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
· 如果出现了时钟链路失效,UPI带宽会下降 50% · 降带宽后以后将不再具有再次“容忍失效”的能力 · 建议:客户发现该问题后,有计划安排维护 |
功能名称 |
PCH PCIe Advanced Error Reporting (AER) |
功能说明 |
英特尔芯片内集成的PCIE设备可以上报故障给CPU,其中英特尔芯片内部的PCIE设备遵循PCIE规范。 |
功能目标 |
上报芯片内部PCIE设备故障,提高系统的稳定性和可靠性。 |
使用方式 |
置位对应mask位决定上报与否 |
约束/限制 |
无 |
功能名称 |
PCI Express Link Retraining and Recovery PCIe链路重训练和恢复 |
功能说明 |
根据PCIe协议中定义的错误条件,CPU会适时启动PCIe链路的重训练功能。 重训练包括将链路训练和状态机LTSSM重置到恢复状态并继续运行。一旦处于恢复状态,如果在再训练序列中检测到进一步的错误,LTSSM将降低速度或降低带宽。 |
功能目标 |
保证组件级别的可靠性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
PCI Express Link CRC Error Check and Retry PCIe链路CRC错误检查和重试 |
功能说明 |
检测CRC错误,如失效则重试的功能。这个特性的要点是保护链路免受EMI、边缘链路、不良连接器、长跟踪长度等引起的信号完整性问题。提供了一种通过重试来检测大部分时间可纠正错误的机制。 |
功能目标 |
保证低信号完整性的情况下,PCIe链路的可靠性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
|
功能说明 |
在将分组转发给下一个代理之前检测到未纠正的错误时,将EP位附加到报头,以在事务层上保持数据的双向完整性。接收器检测到有Poison标记的TLP并将错误事件重定向为一个非致命性的警告(可纠正错误事件),而不是将其作为不可纠正的错误信号发送,避免系统重置。 |
功能目标 |
故障数据出现时标记Poison,使系统继续运行,提高了系统的正常运行时间及可靠性。 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
|
功能说明 |
在将分组转发给下一个代理之前检测到未纠正的错误时,将EP位附加到报头,以在事务层上保持数据的双向完整性。接收器检测到有Poison标记的TLP并将错误事件重定向为一个非致命性的警告(可纠正错误事件),而不是将其作为不可纠正的错误信号发送,避免系统重置。 |
功能目标 |
故障数据出现时标记Poison,使系统继续运行,提高了系统的正常运行时间及可靠性。 |
使用方式 |
默认关闭,可以通过 BIOS 设置开启 |
约束/限制 |
无 |
功能名称 |
PCIe Enhanced Downstream Port Containment (eDPC) |
功能说明 |
Downstream Port Containment (DPC)允许当下行口或者下行口下面的设备检测到不可纠正错误时,停止数据传输,避免潜在的损坏数据的传播,并且允许软件进行错误恢复。eDPC是对DPC功能的提升,增加了对Root Port Programmable IO (RPPIO)错误的支持。 |
功能目标 |
提供系统可靠性 |
使用方式 |
默认关闭,可以通过 BIOS 设置开启 |
约束/限制 |
需OS具备DPC处理能力,以恢复链路 |
功能名称 |
PCIe Card Surprise Hot Plug |
功能说明 |
此功能符合PCI Express规范,不需要OOB SMBus机制来执行PCIe设备热插拔/移除操作 |
功能目标 |
允许在系统运行时移除或插入PCI Express卡 |
使用方式 |
默认关闭,可以通过 BIOS 设置开启 |
约束/限制 |
· 需要对意外移除进行适当的软件处理 · 实际PCIe槽位支持情况以产品说明书为准 |
功能名称 |
PCIe Card Hot-Plug(Add/Remove/Swap) |
功能说明 |
此功能符合PCI Express规范,需要OOB SMBus机制来执行热插拔/删除操作 |
功能目标 |
许在系统运行时卸下或添加PCI Express卡 |
使用方式 |
默认关闭,可以通过 BIOS 设置开启 |
约束/限制 |
· 需要对意外移除进行适当的软件处理 · 实际PCIe槽位支持情况以产品说明书为准 |
功能名称 |
Error Reporting via IOMCA 基于IOMCA 的故障上报 |
功能说明 |
允许IIO不可纠正致命和不可纠正非致命错误通过MCE发送错误信号,提升平台的诊断能力。没有该特性,所有的IIO不可纠正错误是通过NMI中断或者平台特定的采用SMI中断或者ERROR_N[2:1引脚的错误handler来处理。 |
功能目标 |
为不可纠正错误提供与MCA对齐的一个统一的错误汇报机制而不依赖NMI。 |
使用方式 |
默认关闭,BIOS可配置 |
约束/限制 |
无 |
功能名称 |
Integrated Error Handler |
功能说明 |
提供统一的故障上报功能,能够汇总来自PCH、IIO下所有内外部PCIe设备的故障信息,通过内部专门的消息总线传输故障信息至全局的IEH设备,并最终产生相关中断或者外部信号告知BIOS或者HDM进行故障处理。 |
功能目标 |
针对PCIe设备提供统一的错误汇报机制 |
使用方式 |
默认开启,不可配置 |
约束/限制 |
无 |
功能名称 |
故障内存隔离 |
功能说明 |
故障DIMM隔离是Intel Xeon处理器产品系列服务器的故障管理功能之一,平台可以跟踪可纠正错误的数量,执行故障预测分析和计划服务,在错误严重程度变为不可纠正错误之前更换故障组件。平台系统管理会找出造成故障DIMM的根本原因,并可以映射出故障设备,安排修复。 |
功能目标 |
提升服务器可用性、可维护性。 |
使用方式 |
默认开启 |
约束/限制 |
无 |
功能名称 |
带外获取错误日志 |
功能说明 |
基于HDM的RAS功能。通过PECI接口访问MCA Bank寄存器获取CPU错误日志、内存错误日志、UPI错误日志和IIO错误日志。 |
功能目标 |
增强 HDM 故障管理系统对故障的监控能力 |
使用方式 |
自动生效,不可关闭 |
约束/限制 |
无 |
功能名称 |
错误注入能力 |
功能说明 |
BIOS提供错误注入开关,开启该功能后支持通过注入错误检验系统性能。 |
功能目标 |
提供验证RAS功能的能力,保障系统可靠性。 |
使用方式 |
默认关闭,可配置启用 |
约束/限制 |
无 |
功能名称 |
Predictive Failure Analysis |
功能说明 |
对各种可纠正错误的日志和趋势进行预测,判断后续可能存在的风险,并采取建议措施。可应用于各子系统。 |
功能目标 |
增强系统稳定性,预测可能存在风险并采取对应措施 |
使用方式 |
自动生效,不可关闭 |
约束/限制 |
无 |
功能名称 |
Suppress Inbound Shutdown |
功能说明 |
关机抑制功能,允许HDM控制系统重启,进行错误日志收集,避免由于系统带内重启导致的错误日志获取失败情况。 |
功能目标 |
增强HDM故障管理系统对故障的监控能力 |
使用方式 |
默认开启,BIOS可配置 |
约束/限制 |
无 |
功能名称 |
Demoted Warm-Reset |
功能说明 |
某些情况下把Global Reset降级为Warm Reset,使得重启后BIOS可以收集错误信息。系统遇到灾难性错误时,某些情况下通过OOB方式也无法搜集到错误信息,此时通过此功能,在系统Warm Reset后仍能收集到一些sticky寄存器,这些错误信息能够作为错误定位的重要参考。 |
功能目标 |
增强系统可维护性 |
使用方式 |
默认开启,不可配置 |
约束/限制 |
无 |
功能名称 |
MCA 2.0 Recovery (as per EMCA Gen2 architecture) |
功能说明 |
EMCA GE2是一种允许固件拦截通过MCA触发的错误(可纠正和不可纠正错误),启用固件优先模式(FFM)进行错误处理和可能的恢复的功能。 |
功能目标 |
通过EMCA GEN2机制,使软件层帮助服务器从不可纠正数据错误中恢复。 |
使用方式 |
默认开启,可配置 |
约束/限制 |
无 |
功能名称 |
MCA Recovery – Execution Path |
功能说明 |
通过软件层辅助服务器从不可纠正的数据错误中恢复。软件层包括OS、VMM、DBMS、应用等,可以帮助系统从硬件层的不可纠正错误中恢复,并且通过CPU 将错误标记为“损坏数据”。 · 如果处理器识别出不能被硬件校正的错误,则处理器标记数据为“损坏数据”,并且将错误事件移交给固件和/或操作系统。 · 如果固件/操作系统具有数据的冗余副本,则它可能能够纠正错误。 · 如果在应用程序空间中发生错误,操作系统可以使用SIGBUS事件向应用程序发出信号,并允许进一步恢复或终止应用程序并保持操作系统运行。 如果内核空间发生错误,操作系统将触发“Kernel panic”。 |
功能目标 |
通过软件层辅助从不可纠正的错误中恢复。 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
推荐的OS:WS2008 以上,REHL 6以上,SUSE 11以上 |
功能名称 |
MCA Recovery – Non-execution Path |
功能说明 |
针对一些非执行路径上的不可纠正错误, OS 通过特定的处理能够进行恢复或者隔离故障数据。非执行路径包括在内存定期巡检事件以及处理LLC显式回写事务。 当处理器识别到硬件不可纠正错误,将标记错误数据为“corrupted date”,并将错误事件移交给固件或OS。OS将隔离受影响的Page并阻止应用程序使用它,从而让系统恢复正常运行。需要注意的是,如果错误发生在内核空间,OS不能隔离错误的Page,只能记录错误并且继续正常的操作。 |
功能目标 |
通过软件手段增强系统可用性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
推荐的OS:WS2008以上,REHL 6以上,SUSE 11以上 |
功能名称 |
|
功能说明 |
LMCE允许将SRAR类型的UCR错误上报事件仅传递给受影响的逻辑处理器(该处理器接收了Poison数据)。LMCE实现以下功能: · 枚举:通过软件识别支持LMCE的硬件 · 控制机制:UEFI有启用/禁用LMCE的能力。要求SW选择进入LMCE。 · LMCE的识别:在MCE传送时,软件能够确定所传递的MCE是否仅针对一个逻辑处理器。 |
功能目标 |
通过软件阻止向所有线程广播SRAR类型的UCR错误。 |
使用方式 |
默认开启,可配置 |
约束/限制 |
必须启用Corrupt Data Containment – Uncore功能 |
功能名称 |
Viral Mode |
功能说明 |
病毒模式是针对致命问题而设计的高级容错特性,用于防止故障问题扩散到非易失性存储设备或网络设备,能使处理器进入病毒模式的错误都是不可纠正错误。 |
功能目标 |
防止故障扩散 |
使用方式 |
默认开启,BIOS可配置 |
约束/限制 |
需要优先使能Poison Mode |
功能名称 |
Asynchronous MCA Error Injection (aka MCA Bank Spoofing Error Injection) |
功能说明 |
允许OS或BIOS通过写MCA Bank寄存器模拟错误发生。 |
功能目标 |
提供验证RAS功能的能力,保障系统可靠性。 |
使用方式 |
默认关闭,BIOS可配置开启 |
约束/限制 |
无 |
功能名称 |
电源N+N冗余,支持热插拔 |
功能说明 |
可以直接由机器后面板进行热插拔。 |
功能目标 |
保证服务器供电系统的可靠性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
风扇提供N+1冗余,支持热插拔 |
功能说明 |
风扇支持N+1冗余,即支持单风扇失效。可以直接进行热插拔。 |
功能目标 |
保证服务器散热系统的可靠性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
OCP网卡支持热插拔 |
功能说明 |
支持OCP插槽,可以直接由机器后面板进行热插拔。 |
功能目标 |
保证网卡更换不下电 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
需要采用新华三兼容性列表中明确支持的OCP网卡和OS |
功能名称 |
RAID卡支持RAID,硬盘支持热插拔 |
功能说明 |
RAID卡支持RAID 0/1/1 ADM/10/10 ADM/1E/5/50/60,硬盘支持热插拔 |
功能目标 |
保证存储系统的可用性 |
使用方式 |
RAID 组构建需要专门配置 |
约束/限制 |
支持的RAID级别与使用的RAID卡相关 |
功能名称 |
故障硬盘的定位 |
功能说明 |
可以定位到具体故障的硬盘 |
功能目标 |
快速找到故障硬盘 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
掉电保护功能 |
功能说明 |
整机掉电时,能防范数据丢失的能力。在服务器断电的情况下,RAID卡上的缓存数据在电池的作用下仍能保存。当服务器恢复供电,RAID卡正常后,会先把缓存中的数据写回硬盘 |
功能目标 |
防范因异常掉电导致数据丢失 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
由于RAM电池容量限制,而数据又是保存在RAM中,能保护的时长有限,通常是几个小时到几十个小时之间,具体规格由型号决定 |
功能名称 |
硬盘故障监控&恢复功能 |
功能说明 |
识别到物理盘或逻辑盘故障时,能够通过带内/带外通道通知用户: · 带外通过标准SEL事件日志上报故障 · 标识出下挂硬盘的具体状态 在服务器RAID配置的场景下,可利用相应RAID阵列的特点,恢复部分硬盘异常失效导致的数据丢失问题 |
功能目标 |
快速识别具体的故障硬盘,防止错误扩展;在部分盘失效时,利用RAID特性来恢复数据 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
阵列卡自身故障定位 |
功能说明 |
阵列卡自身故障时,可及时通过如下途径展现出来: · 大多数机型设置有阵列卡温度传感器,当阵列卡过温时,可通过传感器上报告警 · 可通过一键下载功能获取阵列卡自身的串口日志(仅部分阵列卡支持),及时了解阵列卡内部的运行状况 |
功能目标 |
可方便监控阵列卡运行状态,有效识别阵列卡故障,加快问题定位排查 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
LSI 9300、9311以及9400等阵列卡受限支持 |
功能名称 |
提供双带外管理软件双镜像功能 |
功能说明 |
如果HDM启动文件的一个镜像出现错误,系统会自动从另一个镜像实现启动 |
功能目标 |
保证HDM软件的可用性 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
集中式故障管理系统 |
功能说明 |
· 故障管理系统对服务器进行全面的监控,并且提供可靠的故障检测和故障预测机制,通过HDM对用户进行多方位告警,其中能检测到的故障主要包括: · CPU硬件故障(CAT ERROR、自检失败、配置错误) · 超温告警(进风口、CPU、内存、系统电源、硬盘) · 主板和板卡电压故障 · 风扇故障 · 系统电源故障(AC/DC输入丢失、高温、电源风扇故障) · DDR3/DDR4内存故障(可纠正ECC错误超门限、高温、配置错误) · 存储系统的故障,包括LSI存储卡、SAS/SATA硬盘故障和逻辑盘异常。 · 系统宕机故障 · 通过系统健康灯来标识系统硬件的监控状态 · 可通过SEL事件日志来识别对应的失效部件 · 可通过SEL事件日志来识别HDM、OS重启的原因 |
功能目标 |
为用户提供一站式的故障管理中心 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
故障处理器的定位 |
功能说明 |
可通过HDM查看SEL日志,上报故障处理器的具体槽位 |
功能目标 |
快速找到故障点 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
故障内存条的定位 |
功能说明 |
故障管理系统可以定位故障内存条的具体位置,客户可以通过HDM SEL日志告警信息方便找到具体故障的内存条 |
功能目标 |
可精确定位到故障内存条 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
故障PCIe设备定位 |
功能说明 |
故障管理系统可以定位故障PCIe设备的具体位置,客户可以通过HDM SEL日志告警信息快速找到具体故障的PCIe设备 |
功能目标 |
可精确定位到故障PCIe设备 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
故障PSU的定位 |
功能说明 |
可以通过HDM SEL日志告警信息或者电源指示灯定位至具体故障的PSU |
功能目标 |
快速找到故障PSU |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
故障风扇的定位 |
功能说明 |
可以通过HDM SEL日志告警信息定位到具体的故障风扇 |
功能目标 |
快速找到故障风扇 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
HDM 提供主板监控与环境参数 |
功能说明 |
提供整机关键部件电压、电流、温度以及功耗的实时监控与曲线,每一个监控周期记录一次数据 |
功能目标 |
提供整机关键部件电压、电流、温度以及功耗的实时监控与曲线 |
使用方式 |
自动生效,不能关闭 |
约束/限制 |
无 |
功能名称 |
HDM可实现系统软件和固件远程升级 |
功能说明 |
实现软件和固件的远程运维升级 |
功能目标 |
增加可维护性 |
使用方式 |
自动生效,不能关闭,可以通过HDM升级 |
约束/限制 |
无 |
功能名称 |
HDM 提供蓝屏快照功能 |
功能说明 |
用于查看服务器Windows操作系统发生故障重启前自动捕获的蓝屏快照,通过蓝屏快照可对故障进行快速分析。 HDM最多可保存十张蓝屏快照,并以快照捕获时间及序号命名。 当蓝屏快照超过十张时,新的快照会覆盖最早生成的快照。 |
功能目标 |
客户发现宕机时,可以查看宕机快照截图,方便辅助故障定位 |
使用方式 |
默认开启,可以通过HDM设置为关闭 |
约束/限制 |
· 必须先开启KVM服务,本功能才会生效 · HDM最多可保存十张蓝屏快照 |
功能名称 |
HDM提供录像回放功能 |
功能说明 |
开启服务器的自动录像功能。当服务器操作系统发生崩溃、重置或关机时,系统会自动录制事件发生前的录像。技术人员可以通过该视频录像,对操作系统崩溃、重置或关机的异常原因进行分析 |
功能目标 |
客户需要查看录像时,可以通过HDM的录像回放控制台播放,帮助故障精确定位 |
使用方式 |
默认开启,可以通过HDM设置为关闭 |
约束/限制 |
· 必须先开启KVM服务,该功能才会生效 · 录制视频过程中,必须保持远程控制台处于关闭状态 · 崩溃前录像只支持Windows系统 · 如果事件发生时,操作系统处于休眠状态,查看录像回放时会显示无信号 |
功能名称 |
HDM提供SDS日志 |
功能说明 |
用于收集服务器运行时的SDS日志,主要包括操作日志、事件日志、部件日志、静态日志以及HDM系统日志。通过UniSystem可以解析上述日志,了解服务器的运行状态。下载SDS日志时,可以选择下载指定时间段内的SDS日志,也可以下载整个SDS日志。 具有如下亮点: · 携带简易故障定位指南 · 信息明文化方式展现 · 可通过带内与带外多种方式来获取 · 当故障发生时,会记录对应的上下文信息,方便定位 |
功能目标 |
故障数据收集,故障分析,故障诊断,提供精确定位的能力,提升可维护性 |
使用方式 |
默认开启,可通过HDM下载 |
约束/限制 |
SDS日志无法直接在HDM Web界面上查看,需要下载到本地后,通过UniSystem进行解析 |
新华三G6系列服务器基于Intel最新一代可扩展处理器Sapphire Rapids设计,确保数据完整性,极大提升系统可用性。
新华三G6系列服务器采用的HDM数据中心级管理方案基于IPMI标准,实现无代理管理,有效降低了用户的运维难度。
新华三G6系列服务器具有全模块化的架构,大大缩短客户更换部件的时间,结合强大的热插拔功能,极大提升服务器的可用性。诸多实用的RAS特性,使新华三G6系列服务器能够满足各种规模企业的计算需求,提供智能、高效、敏捷、可靠的智慧计算能力。