• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C Intel G6系列服务器 RAS技术白皮书-6W104

手册下载

H3C Intel G6系列服务器 RAS技术白皮书-6W104-整本手册.pdf  (1.07 MB)

  • 发布时间:2024/10/22 19:40:04
  • 浏览量:
  • 下载量:

H3C Intel G6系列服务器

RAS技术白皮书

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2023-2024 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 概述··· 1

1.1 RAS技术简介·· 1

1.2 RAS的定义·· 2

1.3 术语表·· 2

2 RAS整体架构··· 5

2.1 RAS流程·· 5

2.2 RAS系统架构·· 6

3 RAS技术要点··· 9

3.1 故障检测·· 9

3.2 故障上报·· 10

3.2.1 错误信号上报·· 10

3.2.2 错误日志记录·· 13

3.3 故障处理·· 13

3.3.1 内存故障处理·· 13

3.3.2 CPU故障处理·· 14

3.3.3 PCIe故障处理·· 15

3.3.4 UPI故障处理·· 15

3.4 内存可纠正错误处理机制·· 16

3.4.1 内存可纠正错误阈值机制说明·· 16

3.4.2 内存可纠正错误风暴抑制·· 17

4 支持的RAS功能介绍··· 18

4.1 RAS功能一览表·· 18

4.2 RAS功能简介·· 21

4.2.1 故障检测及校正(包含Socket级别)·· 21

4.2.2 Corrupt Data Containment ModePoison Mode·· 22

4.2.3 Advanced Error Detection and Correction (AEDC) 22

4.2.4 Time-out timer Schemes· 22

4.2.5 故障上报(MCAAER- Core,Uncore,IIO·· 23

4.2.6 EMCA Gen2的故障上报·· 23

4.2.7 处理器BIST· 23

4.2.8 MCA Bank 故障控制·· 24

4.2.9 First Corrected Error (FCERR) Mode· 24

4.2.10 PCIe可纠正错误上报·· 24

4.2.11 可纠正错误阈值·· 25

4.2.12 CSR Error Log Cloaking· 25

4.2.13 DCU/IFU Poison Enhancements· 25

4.2.14 Core DCU Scrubbing· 26

4.2.15 Core Disable for FRB· 26

4.2.16 Enhanced SMM (ESMM) 26

4.2.17 内存可纠正错误上报Memory corrected error reporting· 27

4.2.18 单内存颗粒数据错误纠正(SDDC ,DRAM Single Device Data Corrction) 27

4.2.19 DDR Command/Address Parity Check and Retry· 27

4.2.20 内存数据基于命令和地址的不规则编码·· 28

4.2.21 内存指令式/定期巡检·· 28

4.2.22 内存热节流(内存温度调节) 28

4.2.23 内存镜像·· 29

4.2.24 Adaptive DDDC - Single Region (ADDDC - SR) 29

4.2.25 Post Package Repair (PPR) 29

4.2.26 Partial Cache Line Sparing (PCLS, HBM only) 30

4.2.27 HBM- Bank Sparing· 30

4.2.28 Memory Disable/Map-Out for FRB· 30

4.2.29 Memory SMBus Hang Recovery· 31

4.2.30 DDR Address Range/Partial Memory Mirroring· 31

4.2.31 Adaptive DDDC - Multi-Region(ADDDC - MR) 32

4.2.32 UPI链路重试·· 32

4.2.33 UPI Protocol Protection via CRC (16 bit) 32

4.2.34 UPI动态链路带宽减少·· 33

4.2.35 PCH PCIe Advanced Error Reporting (AER) 33

4.2.36 PCIe链路重训练和恢复·· 33

4.2.37 PCIe链路CRC错误检查和重试·· 34

4.2.38 PCIe Corrupt Data Containment (Data Poisoning) 34

4.2.39 PCIe ECRC· 34

4.2.40 PCIe Enhanced Downstream Port Containment (eDPC) 35

4.2.41 PCIe Card Surprise Hot Plug· 35

4.2.42 PCIe Card Hot-Plug(Add/Remove/Swap) 35

4.2.43 Error Reporting via IOMCA· 36

4.2.44 Integrated Error Handler 36

4.2.45 故障内存隔离·· 36

4.2.46 带外获取错误日志·· 37

4.2.47 错误注入能力·· 37

4.2.48 Predictive Failure Analysis· 37

4.2.49 Suppress Inbound Shutdown· 37

4.2.50 Demoted Warm-Reset 38

4.2.51 MCA 2.0 Recovery· 38

4.2.52 MCA Recovery – Execution Path· 38

4.2.53 MCA Recovery – Non-execution Path· 39

4.2.54 Local Machine Check (LMCE) based Recovery· 39

4.2.55 Viral Mode· 39

4.2.56 Asynchronous MCA Error Injection (aka MCA Bank Spoofing Error Injection) 40

4.2.57 电源N+N冗余,支持热插拔·· 40

4.2.58 风扇提供N+1冗余,支持热插拔·· 40

4.2.59 OCP网卡支持热插拔·· 40

4.2.60 RAID卡支持RAID,硬盘支持热插拔·· 41

4.2.61 故障硬盘的定位·· 41

4.2.62 掉电保护功能·· 41

4.2.63 硬盘故障监控&恢复功能·· 42

4.2.64 阵列卡自身故障定位·· 42

4.2.65 提供双带外管理软件双镜像功能·· 42

4.2.66 集中式故障管理系统·· 43

4.2.67 故障处理器的定位·· 43

4.2.68 故障内存条的定位·· 43

4.2.69 故障PCIe设备的定位·· 44

4.2.70 故障PSU的定位·· 44

4.2.71 故障风扇的定位·· 44

4.2.72 HDM提供主板监控与环境参数·· 44

4.2.73 HDM 可实现系统软件和固件远程升级·· 45

4.2.74 HDM 提供蓝屏快照功能·· 45

4.2.75 HDM提供录像回放功能·· 45

4.2.76 HDM提供SDS日志·· 46

5 结束语··· 47

 

 


1 概述

说明

·     由于产品版本升级或其他原因,本文档内容会不定期进行更新。

·     本文为产品通用资料。如果用户有定制化需求,请以产品实际情况为准;有需要请联系H3C技术支持。

 

本手册适用以下产品:

·     H3C UniServer R4500 G6

·     H3C UniServer R4300 G6

·     H3C UniServer R4700 G6

·     H3C UniServer R4700LE G6

·     H3C UniServer R4900 G6

·     H3C UniServer R4900LE G6 Ultra

·     H3C UniServer R4900 G6 Ultra

·     H3C UniServer R5300 G6

·     H3C UniServer R5500 G6

·     H3C UniServer R6900 G6

·     H3C UniServer R6700 G6

1.1  RAS技术简介

服务器是任何现代数据中心基础设施的关键组成部分之一,它包括各种组件,如处理器、存储设备、PCIe设备,电源和风扇。对任何现代数据中心的关键要求之一就是保持服务器运行稳定,而不损害数据完整性。换言之,要确保服务器保持运行稳定,并且无论数据存储在任何服务器组件(如内存、缓存或处理器寄存器)中或在任何平台链路(如Intel®UPIPCIeDMI链路、CXL)中传输时,不会发生数据损坏。在服务器的组件出现故障时,RAS技术通过最大化可用性及保证所有组件中的数据完整性,尽可能满足上述需求。

RASReliabilityAvailability and Serviceability),即可靠性、可用性、可维护性。

RAS技术有三个主要目标:

·     提升系统可运行时间。

RAS技术提升服务器的可靠性:可靠性一般通过测量平均故障时间(MTTF)、年崩溃率(ACR)或年服务率(ASR)来度量。一个可靠的系统将保持更长的稳定运行时间,因此更加可用。

H3C G6系列服务器通过软硬件的高可靠性设计,能够为企业提供更长的服务器稳定运行时间,提供为企业创造更多价值的可能。

·     减少非计划停机时间。

即使做了最周密的计划,停机仍然是有可能发生的。当非计划停机出现时,可以通过测量平均修复时间MTTR来度量服务器的可维护性。一个可维护的系统可以快速恢复正常运行。

H3C G6系列服务器搭载Intel第四代至强可扩展处理器(代号:Sapphire Rapids)设计,通过硬件和固件协同支撑日志记录,帮助识别和隔离故障,让操作者可以对服务器进行预防性或主动性的维护。如果出现停机,可以快速地将系统重新上线,减少维护成本,从而减轻停机对企业的后果。

·     维护数据完整性。

RAS技术提供了多种机制来防止数据损坏或纠正损坏的数据。当检测到损坏数据时,会确保它在可控制的范围内,避免引起更严重的问题。

1.2  RAS的定义

RAS所包括的具体内容并没有一个特别严谨的定义和划分,本文1-1中呈现的是H3C服务器团队参考业界相对通用的标准,并结合服务器的特点给出的RAS定义。

表1-1 RAS定义

类型

定义

Reliability

可靠性可定义为系统在某个给定时间T内产生正确输出的概率,通过规避、检测和修复硬件故障的功能来增强系统可靠性。可靠的系统不会提供错误的数据和计算结果,而会检测并对错误数据进行纠正。

可靠性以平均故障间隔时间(MTBF)为度量进行描述。

Availability

可用性为系统在给定时间运行的可能性,及设备实际运行的时间与实际应该运行时间的百分比。

可用性通常以系统预计可用时间百分比进行描述:如99.999%

Serviceability

可维护性指出系统可以修复或维护的简单程度和速度。如果系统修复故障的时间增加,则可维护性降低。

可维护性包括在出现问题时提供轻松诊断系统的方法。这方面则需要软件提供更加智能、清晰的错误信息和通知手段,并尽可能提供故障预警,避免系统挂死。

 

1.3  术语表

通过1-2对本文中出现的专业名词及缩略语进行简要的解释。

表1-2 术语表

术语

解释

ADDDC

Adaptive Double Device Data Correction,自适应的双内存颗粒的数据错误纠正

AER

Advanced Error Reporting,高级错误报告

BIOS

Basic Input Output System,基本输入输出系统

BIST

Built in Self-Test,内建自测

CDC

Corrupt Data Containment,又称为 Data Poisoning

Core

处理器的一部分,包括处理单元,例如执行引擎(EE)和专用高速缓存

CHA

Cache and Home Agent

CMCI

Corrected Machine Check Interrupt

CRC

Cyclic Redundancy Check,循环冗余校验

CXL

Compute Express Link™,一种新的CPU和加速器间的开放性互联协议

DCU

Data Cache Unit,数据缓存,属于一级缓存

DMI

Direct Media Interface,直接媒体接口。DMIIntel(英特尔)公司开发的用于连接处理器和平台控制器(PCH)的总线

DIMM

Dual-Inline-Memory-Modules,双列直插式存储模块,一种内存条

ECC

Error Checking and Correcting,差错校验纠正

EDPC

Enhanced Downstream Port Containment

EMCA

Enhanced Machine Check Architecture

FFM

Firmware First Model,固件优先模型

FW

Firmware,固件

FRB

Fault Resilient Boot

HBM

High Bandwidth Memory,高带宽内存

HDM

H3C Device ManagementH3C自研的遵循IPMI协议的板级管理控制器

HW

hardware,硬件层

ICU

Instruction Cache Unit,指令缓存

IEH

Integrated Error Handler,集成的错误处理

IFU

Instruction Fetch Unit,指令存取单元

IIO

Integrated I/O Module,集成I/O模块

IMC

Integrated Memory Controller,整合内存控制器

LLC

Last Level Cache (L3 cache),三级缓存

LPC

Low Pin Count,用于连接I/O设备

MCA

Machine Check Architecture

MCC

Medium Core Count

MCE

Machine-Check Exception

MDF

Modular Die Fabric

MLC

Mid Level Cache,二级缓存

MRC

Memory Reference Code,内存参考代码

OS

Operating System,操作系统

PCH

Platform Controller Hub,平台控制器中心

PCIe

Peripheral Component Interconnect Express,外围组件快速互连

PCLS

Partial Cache Line Sparing

PCU

Power Control Unit

POST

Power On Self Test,开机自检

RAS

ReliabilityAvailabilityServiceability,可靠性、可用性、可维护性

Runtime

运行期间。本文特指在OS运行期间。

SDDC

Single device data correction (DIMM CRC)

SMI

System Management Interrupt,系统管理中断

TLP

PCIe事务层数据包

UEFI

Unified Extensible Firmware Interface,统一的可扩展固件接口

Uncore

指处理器Core之外的处理器Socket的模块。

Uncore包含CHAM2MIntel ®UPIiMCIVRPCUUBOX等。需要注意的是,IIO模块被视为Uncore之外,但它仍然集成在同一个Die

UPI

Ultra Path Interconnect,极速通道互联

VT-d

Intel Virtualization Technology For Directed I/O,英特尔定向I/O虚拟化技术

XCC

Extreme Core Count


2 RAS整体架构

2.1  RAS流程

2-1所示,业界对错误有如下分类。

图2-1 错误分类

 

基于上图中的错误分类,RAS处理流程如2-2所示。当检测到可纠正错误CE时,对错误位置进行标记,并通过对应模块的RAS技术快速修复错误,用户不会感知到这类错误的发生。

当出现不可纠正错误UCE时,会尝试对故障进行隔离。比如通过隔离内存坏块、总线降频等手段,维持系统的运行。若发生了更为严重的故障,系统直接宕机,这时需要通过带外管理软件HDM恢复或重启系统。

对于硬件永久性故障,需要更换新的硬件或者启用备用设备进行修复。通过部分硬件的热插拔功能,可以支持用户在系统不断电的情况下,进行故障设备的更换,使服务器恢复正常工作。

图2-2 RAS流程

 

2.2  RAS系统架构

Intel至强可扩展处理器平台提供了强大的错误处理架构MCAG6系列机架服务器MCA架构的基础上,整合硬件、BIOSHDM以及现有OS的故障处理机制,创建出了一套完善的故障管理系统,可以在系统发生错误后提供完备的故障诊断,故障定位,故障恢复,故障信息搜集,故障上报等一系列功能,而且由于此系统的核心模块是由BIOSHDM提供的,不依赖于OS,并且处于一直运行的状态,因此可以实现对系统运行的全时段检测,在错误发生的第一时间进行针对性的处理,降低异常宕机的风险。

故障管理系统由硬件层、CPLD、处理器平台、带外管理HDMBIOSOS共同配合及交互,实现故障精确定位、故障及时处理。

图2-3 故障管理系统

 

故障管理系统的整体架构如2-3所示,主要组件包括:

·     HDM:故障定位系统的核心,它负责故障的收集、汇总和分析,并通过Web管理界面事件日志以及故障告警等方式向客户呈现。

·     处理器平台:G6系列机架式服务器采用Intel至强第四代可扩展CPU平台,该平台在上一代基础上增强了RAS的能力,增强了对处理器、内存、PCIe设备硬件故障的管理能力。

·     CPLD:向下与各个硬件模块,包括电源、风扇以及其他底层硬件(除CPU、内存、硬盘和PCIe标卡外)接口,捕获硬件异常状态,向上与HDM互连,传递故障信息。

·     BIOS:主要实现CPU、内存、PCIe以及存储设备的故障收集和定位,向HDM提供故障定位的结果,对OS层面来说,BIOS提供APEIOS级故障管理的接口。

·     UniSystem(可选部件):UniSystem是由H3C开发的一款服务器配套管理软件。SDS日志会记录服务器平台在每个使用周期过程中产生的从硬件到软件,从主CPUBIOSOSHDM的大小事件。SDS日志需通过UniSystem来解析。根据该功能查找服务器的使用记录或判断服务器的健康状况,维护工程师可以追寻影响服务器健康状况问题的蛛丝马迹,并快速定位,从而提高服务器的可服务性。

·     iFIST(可选部件):iFIST是一款内嵌于服务器的单机管理工具,通过iFIST可以配置RAID、安装操作系统、安装驱动程序和诊断服务器健康状况,以满足用户对单台服务器进行直接管理的需求。

·     客户界面:主要通过HDMWeb界面,可以方便客户在远程或者本地进行系统维护工作,当然在主要部件上也会有故障指示灯。

·     各类协议:故障管理系统中所用到的接口、协议,包括:ESPIPECIPCIeUARTI2CSMBUSLocalBus等。


3 RAS技术要点

RAS技术主要是通过MCA机制、IEH机制、AER机制实现的。

·     MCAMachine Check Architecture)机制

MCA机制可以上报并尽可能地修复系统总线、ECC、奇偶校验、缓存和TLB等等错误,识别故障源并将故障信息记录在MC Bank中。通过MCA机制,CPU内部的可纠正错误和不可纠正错误均可上报并记录,并纠正硬件可纠正错误。对于不可纠正错误,通常会进行热重启。MCA的作用域包括处理器中的所有模块,CoreUncoreIIO(通过IOMCA)。

·     IEHIntegrated Error Handler)机制

IEH机制是一个统一的层级清晰的错误处理上报机制;包含south satellite IEHnorth satellite IEHglobal IEH;其中south satellite IEH位于PCH中,负责收集汇总PCH中的故障信息,并上报到global IEHnorth satellite IEH位于CPU IIO的每个stack中,负责收集汇总该stack中所有internal设备和下游PCIe设备上报的故障信息,并上报到global IEHglobal IEH位于Ubox中,负责汇总下游IEH上报的故障信息,并触发相关中断信号SMI/NMI,或者输出ERRPIN[0~2]等。

·     AERIIO Advanced Error Reporting)机制

AER机制负责侦测、记录并发送各种IIO模块下的子模块的错误信号,作用域包括IIO模块下的所有子模块,如PCIe接口、DMIIIO的核心逻辑和Intel VT-d等。

3.1  故障检测

3-1所示,G6系列机架式服务器的第四代英特尔至强可扩展处理器在各种内部模块中,实现了广泛的错误检测和纠正能力,以保持处理器的可靠性水平。一旦错误被检测及纠正,就会通过各种错误上报方式进行上报,3.2  故障上报将详细介绍故障上报的方式。

故障检测主要通过4.2.1  故障检测及校正(包含Socket级别)特性实现。

表3-1 不同模块对应的故障检测方式

模块

定义/子模块

检测方式

EE

执行引擎

residue check

IFU

指令预取单元(L1 I-Cache)

Parity

DCU

数据缓存单元(L1 D-cache)

Parity

I/DTLB

指令/数据转换后备缓冲区

Parity

MLC

二级缓存

ECC

CHA

三级缓存:数据,标志,MESIF状态

ECC

M2M

Mesh To Memory

Parity

Punit

Power Controller Unit 电源控制单元

Parity,Stack overflow,time schemes

IVR

Integarted Voltage Regulators

Over voltage and over current

UPI

Ultra Path Interconnect

CRC

RXTX队列

Parity

IMC

读数据缓冲区

Parity

Memory Read Write Data Byte Enable

ECC

IIO/PCIe

Integarted I/O:Phy and Link Layer

CRC & ECC

RX/TX queues

Parity

IIO,IRP,Inter VT-d,MISC,DMA errors

内部环路

Internal ring – Data and Command(DPPP,APPP)

Parity

 

3.2  故障上报

故障上报用于通知可能发生的各种类型的故障,只有在检测到故障时才启动处理器错误上报。故障上报包含错误信号发送和错误日志记录两部分。

故障上报功能涵盖了以下功能模块:

·     Machine Check Architecture (MCA)对于不可纠正错误可以捕捉并记录第一个错误。可纠正错误记录最后一个错误。MCA的作用域包括处理器中的所有模块,CoreUncoreIIO(通过IOMCA)。

·     Integrated Error Handler(IEH):提供统一的故障上报功能;能够汇总来自PCH下所有内外部设备、IIO下所有内外部设备的故障信息,通过内部专门的消息总线传输故障信息,通过全局的IEH设备最终产生相关中断或者外部信号告知BIOS或者HDM进行故障处理。

·     Integrated I/O Advanced Error Reporting (IIO AER)PCI Express的可选扩展功能,它提供了比标准PCI Express错误报告机制更强大的错误报告功能,包括PCI Express AERTraffic switchIRPIIO核心、英特尔VT-D和其他英特尔的特定的扩展设备

·     内存可纠正错误上报:内存可纠正错误数量记录和信号发送的功能。

·     UPI可纠正错误上报:UPI错误记录及信号发送的功能。

·     IVR错误上报:CPU内部集成的电压稳定器错误上报功能。

3.2.1  错误信号上报

处理器提供了以下几种不同的MCA错误上报模式:

·     Legacy IA-32 MCA模式

已有几代英特尔处理器均支持Legacy IA-32 MCA模式,该模式是大多数操作系统都支持的。

·     Corrupt Data Containment模式

CDCCorrupt Data Containment Mode)模式是对MCA机制的一种强化。当启动CDC模式并检测到不可纠正错误时,检测代理将设置“poison”位和数据一起转发给请求代理。

·     Enhanced MCA Gen2 (EMCA Gen2) Mode

第二代增强的Legacy IA-32 MCA模式。主要的目的是创建一个可通过操作系统启用的模式,并且进一步扩大固件优先模式(FFM)的错误报告范围。

·     IOMCA Mode

允许IIO的不可纠正致命错误和不可纠正非致命错误通过MCE发送错误信号。

·     Viral模式

Viral模式相比于CDC模式,在硬件中通过额外的措施,进一步提升了对错误的包容性。CDC模式可以包容数据的错误,而Viral模式对地址、控制或其他致命错误都可以包容。目的就是包容错误并防止它被提交到硬盘或网络。

这些模式中的一些是可以同时启用且互补的。3-2描述可同时启用的错误上报模式。

表3-2 可混合启用的操作模式

操作模式

Legacy IA-32 MCA模式

CDC模式

EMCA Gen2模式

IO MCA模式

Viral 模式

Legacy IA-32 MCA模式

Yes

 

 

 

 

CDC模式

No

Yes

 

 

 

EMCA Gen2 模式

No

Yes

Yes

 

 

IO MCA模式

Yes

Yes

Yes

Yes

 

Viral 模式

Yes

Yes

Yes

Yes

Yes

 

根据故障的类型不同,会采用不同的中断进行故障上报。如下3-3所示。

表3-3 故障上报中断

故障类型

中断类型

作用域

备注

可纠正错误故障上报

CMCI Corrected Machine Check Interrupt

Core/uncore

Legacy IA-32 MCA模式使能

CSMI (Corrected SMI)

Core/uncore

eMCA2模式使能

SMI (System Management Interrupt)

Memory errors

带内通信。可通过UPI总线在所有socket之间通信

MSI (Message Signaled Interrupt)

PCIe errors

 

ERROR_N[0] Pin

IIO AER and Memory errors

可以被用于基于HDMRAS实现

不可纠正可恢复故障上报

UCNA

CMCI

Core/uncore errors at the source

Legacy IA-32 MCA模式使能

MSMI

core/uncore errors at the source

仅在eMCA2模式使能

MSI and ERROR_N[1] Pin

Severity1 IIO AER nonfatal errors

 

SRAOSRAR

MCERR

core/uncore errors

Legacy IA-32 MCA模式使能

MSMI

core/uncore errors at the source

eMCA2模式使能

灾难性故障

IERR

core/uncore errors

Legacy IA-32 MCA模式使能

MSMI

core/uncore errors at the source

eMCA2模式使能

 

下面详细描述可纠正错误和不可纠正错误的整体处理流程,如3-1所示。

图3-1 错误处理流程

 

·     可纠正错误的处理如3-1所示的橙色流程。针对系统发生的可纠正错误,通过漏桶算法及设置可纠正错误阈值,可以实现在可纠正错误频繁发生时,触发SMI中断通知BIOS进行错误处理,BIOS接收到SMI中断请求后会根据不同的中断类型进行相对应的错误处理,在确保系统正常运行的同时,对发生错误的器件进行定位,隔离,搜集相关的错误状态寄存器信息,并上报HDM相关的错误事件及详细的错误状态寄存器信息,可供用户或服务器维护人员进一步分析问题发生原因。

·     不可纠正可恢复错误的处理如3-1所示的深绿色流程。对于不可纠正错误,如果这个错误是软件可恢复的(recoverable),则此错误并不会影响系统运行,只会将此错误数据将打上错误标记,并触发SMI中断,BIOS收到此SMI中断后会搜集相关的错误寄存器信息,并对错误器件进行定位并上报HDM相关的错误信息及详细的错误状态寄存器信息。

·     不可纠正错误的处理如3-1所示的黄褐色流程。如果x86系统发生了不可纠正且不可恢复的错误,CATERR_N管脚会被拉低,这种错误会造成系统挂死,将会触发HDM的错误搜集程序,HDM可以获取x86系统的错误状态寄存器信息,保证可以在系统挂死的情况下仍能在第一时间获取到错误现场信息,定位出错误根源并及时反馈给用户相关的信息。

3.2.2  错误日志记录

使用MCA BankAER状态寄存器、内存可纠正错误状态寄存器和Intel UPI错误状态寄存器实现CoreUncore以及IIO模块的错误日志记录。

表3-4 错误等级和上报方法

错误类型

上报作用域

错误日志记录

CorrectedAdvisory

Non-Fatal

MCA

通过MCA Bank寄存器

AERSeverity 0

通过PCIe错误记录寄存器

iMC

CORRERRSTATUS(每个RANK

Uncorrected RecoverableNon-fatal

MCA

通过MCA Bank寄存器

AERSeverity 1

通过PCIe错误记录寄存器

Uncorrected Fatal

MCA

通过MCA Bank寄存器

AERSeverity 2

通过PCIe错误记录寄存器

Catastrophic

MCA

通过MCA Bank寄存器

 

当多个可纠正错误被上报时,可通过4.2.9  First Corrected Error (FCERR) Mode功能,防止后面更新的错误记录覆盖原始的错误记录。

通过4.2.10  PCIe可纠正错误上报功能记录PCIE可纠正错误数量。结合4.2.11  可纠正错误阈值功能,一旦IIO子模块和处理器中所有其他Uncore模块可纠正错误计数达到阈值,就发出错误上报信号。

3.3  故障处理

根据具体的故障类型,采取对应的故障处理措施。下面针对各个模块的故障问题处理方式进行说明。

3.3.1  内存故障处理

3-5所示,针对不同层级的内存故障,G6系列机架式服务器有不同的处理技术。

表3-5 内存故障处理

故障类型

可能原因

处理方法

Bit(Cell) error

High energy particle strike-Soft Error (SE)

Transient  error

SDDC, Patrol Scrub, Demand Scrub

Persistent fault

PCLSHBM Only

Row error

Persistent fault

SDDC, PPR

Bank error

Persistent fault

ADDDC(SR), ADDDC(MR)

Rank/Device error

Persistent fault

ADDDC(MR),SDDC

Addr/Cmd error

Transient/ Persistent fault

DDR CMD/ADDR Parity error check and retry

Multi-device error(UCE)

Persistent fault + SE

MCA-recovery,

Address Range Mirroring

Connector error

Electrical noise. Transient error.

Transaction retry

Wear-out or manufacturing defect,

Persistent fault

Memory disable/mapout for FRB

Channel failure

Board defect

 

其中,SDDC技术的简介可查看4.2.19  单内存颗粒数据错误纠正(SDDC ,DRAM Single Device Data Corrction)SDDC技术是基于纠错码去纠正单个DRAM颗粒错误,需要Virtual Lockstep支持。SDDC提供错误检查和校正,用于校正DIMM上的单个DRAM颗粒故障(硬错误)和多比特故障。

PCLS技术的简介可以查看4.2.27  Partial Cache Line Sparing (PCLS, HBM only)PCLS可以纠正单个bit错误,当cache line上出现单个bit的永久性错误,可以使用备份的bit来替换掉出错的bit,这样使得PCLS性能比ADDDC(MR)ADDDC(SR)好,单个内存通道最多能够支持16PCLSPCLSHBM支持。

另一项内存故障处理的关键技术ADDDCMR),同样需要在Virtual Lockstep的支持,并且只支持可纠正错误。ADDDC功能仅支持x4 DIMMADDDC可以在每个内存通道中最多纠正2DIMM区域(不同的BankRank)硬故障。

Virtual Lockstep是在硬件和固件中实现的一种数据纠错算法,该算法可以实现了相关内存区域间codewords32字节,1/2cache line数据)的复制和交换;基于该算法,实现故障内存区域(BankRank)的替换,完成故障修复。

3.3.2  CPU故障处理

当出现内核级错误,处理手段主要涉及到Core Disable For FRBFault Resilient Boot功能、Core DCU Scrubbing功能和Corrupt Data Containment功能。

·     Core Disable For FRB功能

随着服务器CPU内核数量的增加,单个故障点从整个处理器转移到处理器内部的较小模块,比如单个CoreLLC的一部分。因此当服务器CPU出现故障时,除了可以禁用整个CPU之外,也需要有能力去禁用某个核或者一部分核。

Core的禁用需要保留至少一个Core是活动的,才能完成系统引导过程。

·     Core DCU Scrubbing功能

DCU数据由奇偶校验保护,当受高能粒子冲击时DCU数据出现soft error,且数据处于“M”状态,此时访问数据就会触发致命的MCERR,导致宕机。Core DCU Scrubbing功能能够在此错误出现时,能够把数据以“M”状态写回MLC,留下一个“E”状态的副本在DCU中,并且这个回写算法是性能影响最小化的,由于MLC是由ECC机制保护,此致命错误就转化为可纠正错误,提升系统可用性。

·     Corrupt Data Containment功能

¡     损坏数据包容(CDC)也称为数据Poisoning。可以将不可纠正数据错误信息同步到事务,以提升错误包容能力并提高系统可靠性。H3C G6系列服务器搭载Intel第四代至强可扩展处理器,在CoreUncoreIIO子系统中均实现了CDC功能。

¡     Core中的CDC:当内存、MLCLLC中检测到了不可纠正的数据错误时,CDC功能启用后,数据被标记为Poisoned,并被Core接收,Core可以直接丢弃数据,并且触发致命MCERR或者可恢复MCERR,当触发可恢复MCERR时,SW/OS/VMM层可以尝试从错误中恢复,提升系统可靠性。

¡     Uncore中的CDC:同样的,当被标记为Poisoned的数据的接收者为Uncore时(IMCM2MUPICHA等),Uncore不会消费该数据,会直接丢弃,并触发可恢复的MCERR事件,SW/OS/VMM层可以尝试从错误中恢复,提升系统可靠性。

¡     IIO子系统中的CDC:同样的IIO子系统中的子模块也支持CDC,例如IRPCXLPCIe等,以提升系统可靠性。

3.3.3  PCIe故障处理

PCIe的故障处理主要介绍两个功能,PCIe Link Retraining and Recovery功能和PCI Express Corrupt Data Containment功能。

·     PCIe Link Retraining and Recovery

PCI Express接口在出现链路降级时结合恢复机制,可以在不影响挂起的事务的情况下,进行重建链。如果在特定lane上出现了降级,恢复机制会按照Platform Design Guide (PDG)定义的链路降级规则,降低链路宽度(例如,x16链路将降级到x8链路)。如果在多个lane上出现降级,恢复算法会尝试在下一个允许的速度下重建链。

·     PCI Express Corrupt Data Containment功能(又称为Data Poisoning

当接收端检测到不可纠正的数据错误时,使用“bad data”状态标识该错误数据,再将数据转发给目标,这种错误报告形式被称为“data poisoning”。

接收poison数据的目标端,必须忽略数据,或者将数据带着“poison”标识存储起来。PCIE和一致性接口在事务分组中提供poison字段来标识错误数据。

Data Poisoning功能不仅限于发送的请求。需要用数据完成的请求也可以标识poison数据。

3.3.4  UPI故障处理

UPI故障处理的关键特性包括Intel UPI Corrupt Data Containment Intel UPI Dynamic Link Width Reduction功能。

·     Intel UPI Corrupt Data Containment

每条UPI链路上有一个全局的POISON_ENABLE位,BIOS通过写全局比特位设置是否启动data poison

UPI Date Poison功能开启时,Intel UPI只是一个poison标识的管道。UPI TX/RX接接收到poison数据,会继续将数据传送到目的地,并且不会触发错误信号或记录错误日志。这样将由数据的消费者来决定如何处理不可纠正的数据错误。

UPI Date Poison功能关闭时,UPI将看不到带有poison状态的数据,所有单元都返回到Legacy MCA模式,Intel UPI RX收到poison数据,会发出一个错误信号并立即记录。

·     Intel UPI Dynamic Link Width Reduction

该特性通过动态重新调整lane宽度来恢复物理Intel UPI链路上的一个或多个数据通道的硬故障。

如果可能,链路将保持在窄宽度上操作。在物理lane故障的情况下,支持从全带宽减小到x8,半带宽支持仅用于x8位的最小集合,以允许任何单个数据通道失败。所得到的动态链路带宽减少模式是lane[7:0][23:15],就是说只要不是所有故障同时存在[7:0][23:15]上,多lane故障就可以被恢复。

3.4  内存可纠正错误处理机制

3.4.1  内存可纠正错误阈值机制说明

H3C G6 Intel系列服务器支持内存可纠正错误阈值功能,每一个Rank有单独的可纠正错误计数器。当计数器达到阈值后,触发SMI中断,由BIOS上报内存可纠正错误日志到HDM

图3-2 内存可纠正错误阈值机制结构图

 

·     默认阈值:

内存可纠正错误阈值默认设置为8192,可通过选项Correctable Error Threshold修改。

·     上报到操作系统:

如果需要将CE错误信息上报到操作系统,需要关闭选项System Cloaking。此选项关闭后,其他MCA可纠正错误也将上报到操作系统。

3.4.2  内存可纠正错误风暴抑制

1. Memory Correctable Error Flood Policy

提供Memory Correctable Error Flood Policy选项配置可纠正错误风暴:

·     若设置为Disabled,则不启用该功能。

·     若设置为Once,则Rank触发一次SMI后,关闭掉该RankSMI

·     若设置为Frequency,则24小时内,某一Rank若触发SMI中断超过30次,则关闭掉该RankSMI

2. 内存可纠正错误阈值漏斗机制

在可纠正错误阈值计数器中支持漏斗机制,每当设定的时间(当前是1分钟)到达后,可纠正错误计数器触发一次错误漏水,即所有内存可纠正错误计数器减1

 


4 支持的RAS功能介绍

本小节对H3C已经支持且用户可用的RAS功能分类并介绍,共计76项。

4.1  RAS功能一览表

G6系列机架式服务器不同机型所支持的RAS功能有所差异,4-1展示每个机型所对应支持的RAS功能。

注意

·     G6系列机架式服务器每个机型支持多种CPU型号,支持的CPU型号列表可查看用户指南附录。其中,CPU型号为4XXX3XXX,不支持4-1中标明“部分CPU型号不支持”的RAS功能。

·     CPU型号为HBM支持4-1中标明“HBM Only”的RAS功能。

·     4-1R4900包含R4900 G6R4900 G6 Ultra机型

 

表4-1 RAS功能一览表

类型

功能名称

R4700

R4900

R5300

R5500

R6700

R6900

CPU

故障检测及校正(包含Socket级别)

Yes

Yes

Yes

Yes

Yes

Yes

CPU

Corrupt Data Containment ModePoison Mode

Yes

Yes

Yes

Yes

Yes

Yes

CPU

Advanced Error Detection and Correction (AEDC)

Yes

Yes

Yes

Yes

Yes

Yes

CPU

Time-out timer Schemes

Yes

Yes

Yes

Yes

Yes

Yes

CPU

故障上报(MCAAER- Core,Uncore,IIO

Yes

Yes

Yes

Yes

Yes

Yes

CPU

EMCA Gen2的故障上报

Yes

Yes

Yes

Yes

Yes

Yes

CPU

处理器BIST

Yes

Yes

Yes

Yes

Yes

Yes

CPU

MCA Bank 故障控制

Yes

Yes

Yes

Yes

Yes

Yes

CPU

First Corrected Error (FCERR) Mode

Yes

Yes

Yes

Yes

Yes

Yes

CPU

PCIe可纠正错误上报

Yes

Yes

Yes

Yes

Yes

Yes

CPU

可纠正错误阈值(All Uncore Bank for CSMI)

Yes

Yes

Yes

Yes

Yes

Yes

CPU

CSR Error Log Cloaking

Yes

Yes

Yes

Yes

Yes

Yes

CPU

DCU/IFU Poison Enhancements

Yes

Yes

Yes

Yes

Yes

Yes

CPU

Core DCU Scrubbing

Yes

Yes

Yes

Yes

Yes

Yes

CPU

Core Disable for FRB

Yes

Yes

Yes

Yes

Yes

Yes

CPU

Enhanced SMM (ESMM)

Yes

Yes

Yes

Yes

Yes

Yes

Memory

内存可纠正错误上报

Yes

Yes

Yes

Yes

Yes

Yes

Memory

单内存颗粒数据错误纠正SDDC

Yes

Yes

Yes

Yes

Yes

Yes

Memory

DDR Command/Address Parity Check and Retry

Yes

Yes

Yes

Yes

Yes

Yes

Memory

内存数据基于命令和地址的不规则编码

Yes

Yes

Yes

Yes

Yes

Yes

Memory

内存指令式/定期巡检

Yes

Yes

Yes

Yes

Yes

Yes

Memory

内存热节流(内存温度调节)

Yes

Yes

Yes

Yes

Yes

Yes

Memory

内存镜像

Yes

Yes

Yes

Yes

Yes

Yes

Memory

Adaptive DDDC - Single Region

(ADDDC - SR)

Yes

Yes

Yes

Yes

Yes

Yes

Memory

Post Package Repair (PPR)

Yes

Yes

Yes

Yes

Yes

Yes

Memory

Partial Cache Line Sparing (PCLS,

HBM only)

HBM only

HBM only

HBM only

HBM only

No

No

Memory

HBM- Bank Sparing

HBM only

HBM only

HBM only

HBM only

No

No

Memory

Memory Disable/Map-Out for FRB

Yes

Yes

Yes

Yes

Yes

Yes

Memory

Memory SMBus Hang Recovery

Yes

Yes

Yes

Yes

Yes

Yes

Memory

DDR Address Range/Partial Memory Mirroring

部分CPU型号不支持

部分CPU型号不支持

部分CPU型号不支持

部分CPU型号不支持

Yes

Yes

Memory

Adaptive DDDC - Multi-Region(ADDDC - MR)

部分CPU型号不支持

部分CPU型号不支持

部分CPU型号不支持

部分CPU型号不支持

Yes

Yes

UPI

UPI链路重试

Yes

Yes

Yes

Yes

Yes

Yes

UPI

UPI Protocol Protection via CRC (16 bit)

Yes

Yes

Yes

Yes

Yes

Yes

UPI

UPI动态链路带宽减少

部分CPU型号不支持

部分CPU型号不支持

部分CPU型号不支持

部分CPU型号不支持

Yes

Yes

PCH

PCH PCIe Advanced Error Reporting

(AER)

Yes

Yes

Yes

Yes

Yes

Yes

IIO

PCIe链路重训练和恢复

Yes

Yes

Yes

Yes

Yes

Yes

IIO

PCIe链路CRC错误检查和重试

Yes

Yes

Yes

Yes

Yes

Yes

IIO

PCIe Corrupt Data Containment (Data Poisoning)

Yes

Yes

Yes

Yes

Yes

Yes

IIO

PCIe ECRC

Yes

Yes

Yes

Yes

Yes

Yes

IIO

PCIe Enhanced Downstream Port Containment (eDPC)

Yes

Yes

Yes

Yes

Yes

Yes

IIO

PCIe Card Surprise Hot Plug

Yes

Yes

Yes

Yes

Yes

Yes

IIO

PCIe Card Hot-Plug (Add/Remove/Swap)

Yes

Yes

Yes

Yes

Yes

Yes

IIO

Error Reporting via IOMCA

Yes

Yes

Yes

Yes

Yes

Yes

IIO

Integrated Error Handler (IEH)

Yes

Yes

Yes

Yes

Yes

Yes

System

故障内存隔离

Yes

Yes

Yes

Yes

Yes

Yes

System

带外获取错误日志

Yes

Yes

Yes

Yes

Yes

Yes

System

错误注入能力

Yes

Yes

Yes

Yes

Yes

Yes

System

Predictive Failure Analysis

Yes

Yes

Yes

Yes

Yes

Yes

System

Suppress Inbound Shutdown

Yes

Yes

Yes

Yes

Yes

Yes

System

Demoted Warm-Reset

Yes

Yes

Yes

Yes

Yes

Yes

System

MCA 2.0 Recovery

Yes

Yes

Yes

Yes

Yes

Yes

System

MCA Recovery – Execution Path

Yes

Yes

Yes

Yes

Yes

Yes

System

MCA Recovery – Non-execution Path

Yes

Yes

Yes

Yes

Yes

Yes

System

Local Machine Check (LMCE) based Recovery

Yes

Yes

Yes

Yes

Yes

Yes

System

Viral Mode

部分CPU型号不支持

部分CPU型号不支持

部分CPU型号不支持

部分CPU型号不支持

Yes

Yes

System

Asynchronous MCA Error Injection(aka. MCA Bank Spoofing Error Injection)

部分CPU型号不支持

部分CPU型号不支持

部分CPU型号不支持

部分CPU型号不支持

Yes

Yes

电源

电源 N+N 冗余,支持热插拔

Yes

Yes

Yes

Yes

Yes

Yes

风扇

风扇提供 N+1 冗余,支持热插拔

Yes

Yes

Yes

Yes

Yes

Yes

网卡

OCP网卡支持热插拔

Yes

Yes

Yes

Yes

Yes

Yes

硬盘

RAID卡支持 RAID,硬盘支持热插拔

Yes

Yes

Yes

Yes

Yes

Yes

硬盘

故障硬盘的定位

Yes

Yes

Yes

Yes

Yes

Yes

阵列卡

掉电保护功能

Yes(选配电池时)

Yes(选配电池时)

Yes(选配电池时)

Yes(选配电池时)

Yes(选配电池时)

Yes(选配电池时)

阵列卡

硬盘故障监控&恢复功能

Yes

Yes

Yes

Yes

Yes

Yes

阵列卡

阵列卡自身故障定位

Yes

Yes

Yes

Yes

Yes

Yes

HDM

提供双带外管理软件双镜像功能

Yes

Yes

Yes

Yes

Yes

Yes

HDM

集中式故障管理系统

Yes

Yes

Yes

Yes

Yes

Yes

HDM

故障处理器的定位

Yes

Yes

Yes

Yes

Yes

Yes

HDM

故障内存条的定位

Yes

Yes

Yes

Yes

Yes

Yes

HDM

故障PCIe设备的定位

Yes

Yes

Yes

Yes

Yes

Yes

HDM

故障 PSU 的定位

Yes

Yes

Yes

Yes

Yes

Yes

HDM

故障风扇的定位

Yes

Yes

Yes

Yes

Yes

Yes

HDM

HDM 提供主板监控与环境参数

Yes

Yes

Yes

Yes

Yes

Yes

HDM

HDM可实现系统软件和固件远程升级

Yes

Yes

Yes

Yes

Yes

Yes

HDM

HDM 提供蓝屏快照功能

Yes

Yes

Yes

Yes

Yes

Yes

HDM

HDM 提供录像回放功能

Yes

Yes

Yes

Yes

Yes

Yes

HDM

HDM 提供SDS日志

Yes

Yes

Yes

Yes

Yes

Yes

 

4.2  RAS功能简介

4.2.1  故障检测及校正(包含Socket级别)

功能名称

故障检测及校正(包含Socket级别)

功能说明

这个特性涵盖了整个处理器级的故障检测和纠错能力。通过增强Cache错误上报、数据路径奇偶校验保护(DPPP)和地址路径奇偶校验保护(APPP)来提供“数据保护”和“数据完整性”。

功能目标

保证组件级别的可靠性

使用方式

自动生效,不能关闭

约束/限制

 

4.2.2  Corrupt Data Containment ModePoison Mode

功能名称

Corrupt Data Containment ModePoison Mode

功能说明

处理器支持Legacy IA-32 MCA Mode MCA Corrupt Data Containment Mode两种模式。其中在传统 IA32 MCA 模式下,一旦有模块(包括产生错误的模块、传输数据的模块等)检测到不可纠正错误,将直接触发 MCE,进行系统复位。而Corrupt Data Containment 模式基于数据的实际使用执行错误处理:错误源头和传输过程中,检测到不可纠正错误的模块并不会直接触发 MCE,而是对数据打上“poison”标记并继续传输,同时触发 CMCI 中断;最终使用数据的模块可以执行多样化的处理,包括忽略错误(例如屏幕显示某个像素点的错误)、丢弃数据、发起重传、触发MCE等。

功能目标

增加整个系统的容错能力

使用方式

默认开启,可以通过 BIOS 设置关闭

约束/限制

 

4.2.3  Advanced Error Detection and Correction (AEDC)

功能名称

Advanced Error Detection and Correction (AEDC)

功能说明

AEDC允许使用“residue checking”和奇偶保护技术来侦测Core执行引擎的故障,通过“Instruction Retry”实现故障纠正。如果“Instruction Retry”没有纠正故障,那么会触发致命的MCERR信号。错误记录在IFU MCA Bank中。

功能目标

AEDC提高了Core内执行引擎中的故障覆盖率。

使用方式

CPU内置特性,不可配置

约束/限制

 

4.2.4  Time-out timer Schemes

功能名称

Time-out timer Schemes

功能说明

各种子模块内的超时计时器,用于将故障报告尽可能接近故障源。实现了以下超时功能:

·     Core 3-strike

·     CHA TOR timeout

·     Intel UPI Link Level Retry timeout

·     Mesh-to-Memory (M2Mem) Timeout (formerly called CHA BT timeout)

·     IRP Config retry time-out

·     PCIe Port Completion Timeout (CTO)

功能目标

提高了系统的可用性/可维护性。

使用方式

默认开启,部分可配置

约束/限制

 

4.2.5  故障上报(MCAAER- Core,Uncore,IIO

功能名称

故障上报(MCAAER- Core,Uncore,IIO

功能说明

故障上报包括日志记录和发送错误信号。主要支持MCA(Machine Check Architecture)AER(Advanced Error Reporting)两种机制,也支持特定平台的内存和UPI错误汇报机制。

功能目标

报告服务器内发生的各种类型的故障,并提高平均修复时间(MTTR)。也用于加速故障的调试,特别是在现场的调试。

使用方式

默认开启,部分可配置

约束/限制

 

4.2.6  EMCA Gen2的故障上报

功能名称

EMCA Gen2的故障上报

功能说明

EMCA Gen2之前,Legacy IA-32 MCA是直接将错误信号直接发送给OS/VMM,这样没能很好的利用UEFI FW的错误诊断能力。EMCA Gen2允许FW加强MCA的错误记录能力,当该特性使能时,UEFI-FW SMI handler可以在OS machine check handler读并清除MCA Bank之前去读MCA Bank寄存器和其他错误寄存器。

功能目标

提供执行基于UEFI FW恢复故障的机制

使用方式

默认开启,BIOS可配置

约束/限制

 

4.2.7  处理器BIST

功能名称

处理器BIST

功能说明

处理器内部有自检模块,在BIOS启动过程中可以对处理器的每个内核进行自检,并记录自检结果。

功能目标

检测并发现处理器故障

使用方式

默认开启,不可配置

约束/限制

 

4.2.8  MCA Bank 故障控制

功能名称

MCA Bank 故障控制

功能说明

该特性允许向操作系统隐藏可纠正错误和UCNA错误。既然该类错误已经被硬件修正,可以将一定数量的可纠正错误被视为正常的动作。该特性使能后,只有SMMPECI可以访问该类错误日志。

默认配置下可纠正错误被隐藏,UCNA错误可以被OS访问。

功能目标

增强服务器对故障的控制

使用方式

自动生效,部分可配置

约束/限制

 

4.2.9  First Corrected Error (FCERR) Mode

功能名称

First Corrected Error (FCERR) Mode

功能说明

多个可纠正错误被上报时,防止后面更新的错误记录覆盖原始的错误记录。

在多个可纠正错误突发的情况下,在FW/SW的错误处理程序处理完当前错误前,HW不会覆盖当前的可纠正错误记录。使得FW/SW的错误处理程序能够可靠的

功能目标

提升故障现场识别出需要更换部件位置的能力,增强服务器可用性

使用方式

自动生效,不能关闭

约束/限制

 

4.2.10  PCIe可纠正错误上报

功能名称

PCIe可纠正错误上报PCI Express Corrected Error Reporting

功能说明

可在每个PCIE Root Port设置PCIE可纠正错误的阈值,并实现通过SMI的更完善的可纠正错误报告体系。

功能目标

实现更完善的可纠正错误上报结构。

使用方式

默认关闭,可配置

约束/限制

 

4.2.11  可纠正错误阈值

功能名称

可纠正错误阈值Thresholding for Corrected Errors

功能说明

处理器支持所有Uncore MCA Bank的可纠正错误阈值功能。当达到阈值后,对应的MCA Bank触发CSMI中断,FW/SW错误处理程序执行错误处理及上报。

功能目标

用于当启用固件优先模型(FFM)时,捕获基于阈值的错误日志,用于FRU隔离、PFA和调试。

使用方式

默认开启,可配置

约束/限制

 

4.2.12  CSR Error Log Cloaking

功能名称

CSR Error Log Cloaking

功能说明

通常,OS不会从CSRControl and Status Registers)区域获取错误日志,但是一些用户驱动有可能会获取。但这些错误早就被硬件纠正了,并且我们允许特定等级的错误被视为正常的系统行为。

此功能隐藏部分CSR错误日志寄存器,防止OS对这些寄存器操作,直到BIOS准备好暴露这些错误。

功能目标

系统开发人员以其基于BIOS的错误处理代码,可以管理系统错误日志捕获和报告,而不受来自OS的错误处理代码的任何干扰,增强服务器的可维护性。

使用方式

默认开启,BIOS可配置

约束/限制

 

4.2.13  DCU/IFU Poison Enhancements

功能名称

DCU/IFU Poison Enhancements

功能说明

通过扩展DCU/IFU中的“poison strom”用例,来改进DCU/IFU错误记录,以减少记录由于邻近而可能发生的多个poison错误的可能性。

功能目标

提高系统可用性

使用方式

默认开启,不能关闭

约束/限制

 

4.2.14  Core DCU Scrubbing

功能名称

Core DCU Scrubbing

功能说明

DCU中数据收到高能粒子冲击使得出现soft error时,Core DCU Scrubbing功能能够把数据以“M”状态写回MLC,留下一个“E”状态的副本在DCU中,并且这个回写算法是性能影响最小化的,由于MLC是由ECC机制保护,此致命错误就转化为可纠正错误,提升系统可用性。

功能目标

提高系统可用性

使用方式

默认开启,不能关闭

约束/限制

 

4.2.15  Core Disable for FRB

功能名称

Core Disable for FRB

功能说明

随着处理器内核数量的逐代增加,单个故障点从整个处理器转移到处理器内部的较小规模,比如单个CoreLLC的一部分。当出现了故障,除了可以禁用整个CPU之外,现在可以做到禁用特定的核。

功能目标

提高系统可用性

使用方式

默认开启,不能关闭

约束/限制

Core的禁用需要保留至少一个Core是活动的,才能完成系统引导过程。

 

4.2.16  Enhanced SMM (ESMM)

功能名称

Enhanced SMM (ESMM)

功能说明

多个RAS特性通过eMCA Gen2上报故障,SMMeMCA Gen2的一个组成部分。 本功能通过改进Long flow/blocked指示器中的线程、目标SMISMM转储到内部MSR的状态存储等方式,改进现有的SMM模式。

功能目标

改进现有的SMM模式,促进通过eMCA Gen2启用错误上报。

使用方式

自动开启,不可关闭

约束/限制

仅在eMCA模式下启用。

 

4.2.17  内存可纠正错误上报Memory corrected error reporting

功能名称

内存可纠正错误上报 Memory corrected error reporting

功能说明

提供每个Rank基于漏桶算法的可纠正错误计数器。可按每个Rank记录可纠正错误的数目,达到可纠正错误阈值后,激活各种RAS功能,比如ADDDC(SR/MR)PLCSPPR等。

功能目标

提供每个Rank的可纠正错误计数器。

使用方式

默认启用,BIOS可配置阈值

约束/限制

 

4.2.18  单内存颗粒数据错误纠正(SDDC ,DRAM Single Device Data Corrction)

功能名称

单内存颗粒数据错误纠正(SDDC ,DRAM Single Device Data Corrction)

功能说明

能够纠正一个10x4内存颗粒上的多个bit错误。SDDC纠正错误采用的是一种“read retry”的方式,即逐个将某一个bit设置为相反的值,然后计算CRC是否匹配成功。

功能目标

有效应对内存颗粒的硬失效,很大程度上提升内存系统的可用性

使用方式

自动生效,不能关闭

约束/限制

·     5x8的颗粒的SDDC,必须通过BIOS将内存的工作模式设为lockstep模式后才可以启用

·     如果内存颗粒硬失效,尽管SDDC可以实现纠错,但内存系统的性能会急剧下降

 

4.2.19  DDR Command/Address Parity Check and Retry

功能名称

DDR Command/Address Parity Check and Retry

功能说明

DDR5命令/地址奇偶校验和重试功能,包含了命令/地址校验错误后对地址的记录和命令/地址的重试功能。命令/地址奇偶校验错误通过Alert PIN上报,并可恢复。虽然Alert信号每个channel共用一个,当Alert信号触发时,处理的IMC不能够确定是哪一个RANK/DIMM和哪一个命令;但是在恢复处理错误阶段仍能够确定错误源,并尝试从错误中恢复。该功能等同于内存地址奇偶检测保护(Memory Address Parity Protection)功能。

功能目标

主要用于检测和处理内存命令地址总线上读、写或者其他各种协议相关的传输时的错误,提升可靠性

使用方式

默认启用,BIOS可配置阈值

约束/限制

 

4.2.20  内存数据基于命令和地址的不规则编码

功能名称

内存数据基于命令和地址的不规则编码

功能说明

通过线性移位寄存器对内存数据流进行伪随机编码,平衡 0/1 分布,降低软错误的发生概率;另外实现内存地址双 bit 错误检测

功能目标

通过编码方式,避免高电平和低电平大量集中出现,降低电冲击,增加可靠性

使用方式

自动生效,不能关闭

约束/限制

 

4.2.21  内存指令式/定期巡检

功能名称

内存指令式/定期巡检

功能说明

Demand Scrubbing 是读数据的时候,如果读出数据存在不可纠正的错误,会重新读一次。如果读出的数据存在可纠正的错误,将纠正后的数据重新写入到内存中。通过重读和及时纠正单 bit 错误的方式,降低不可纠正错误出现的概率

Patrol Scrubbing的实现机制:CHA内部有一个 SSR 引擎(SparingPatrol Scrubbing 共用)。 SSR 引擎按照设定的频率和步长,在空闲的时候读取内存中的内容,如果读出的数据存在可以纠正的错误,将纠正后的数据重新写入到内存中。通过及时纠正单bit错误的方式,降低不可纠正错误出现的概率

功能目标

通过重试或巡检的方式,降低内存系统出现问题的可能性

使用方式

默认开启,可以通过BIOS设置

约束/限制

有一定的功耗增加

 

4.2.22  内存热节流(内存温度调节)

功能名称

内存热节流(内存温度调节)

功能说明

该功能是内存温度的调节,当内存条的温度达到阈值,系统会自动触发内存模块的性能调整功能,内存会降低吞吐速率和提高刷新率,以达到降低温度和保持内存稳定性的作用

功能目标

防止内存温度过高导致系统出现问题,提高系统的稳定性和可靠性

使用方式

默认开启

约束/限制

内存温度

 

4.2.23  内存镜像

功能名称

内存镜像

功能说明

将内存数据做两个拷贝,分别放在主内存和镜像内存中。为了确保当某个DIMM存储芯片失效的时候,内存保护技术能够自动利用备用的镜像内存自动找回数据,由于采用通道间交叉镜像的方式,所以每个通道都有一套完整的内存数据拷贝,从而保证服务器的平稳运行

功能目标

有效避免了由于内存故障而导致数据丢失和宕机,增强加内存系统的可用性和稳定性

使用方式

默认关闭,可以通过BIOS设置开启

约束/限制

·     DIMM安装要做到符合内存镜像的插法要求

·     OS可见的内存容量只有50%

·     内存镜像特性与ADDDC特性不能同时使用

 

4.2.24  Adaptive DDDC - Single Region (ADDDC - SR)

功能名称

Adaptive DDDC - Single Region (ADDDC - SR)

功能说明

Virtual lockstep模式下,ADDDC(SR)功能可以修复单个DRAM颗粒的硬故障。

Bank区域颗粒下出现一个硬故障,它将被通过自适应虚拟lockstep的方式映射出去。

也称为ADCSR

功能目标

修复DRAM内存中颗粒的硬故障,来提高硬件级别故障的处理效率和可靠性,进而提高系统的稳定性。

使用方式

默认启用,可以通过BIOS设置

约束/限制

带有x4 DRAM的内存,并且故障是可纠正故障

 

4.2.25  Post Package Repair (PPR)

功能名称

Post Package Repair (PPR)

功能说明

DRAM设备存在行冗余电路来解决单行故障,可以将坏的行重新映射到内置的冗余行。修复分为硬修复(hPPR)和软修复(sPPR):其中硬修复是永久性的修复;软修复是一次性的修复,dram复位后消除修复效果。执行硬修复(hPPR)时每个bank至少有一行能够进行修复,且最大行数取决于供应商。

功能目标

DRAM单元越来越容易受到电、热和机械应力的影响,PPR提供了一种内存修复的方案。提升系统可靠性。

使用方式

默认关闭

约束/限制

4GB DRAM以上

 

4.2.26  Partial Cache Line Sparing (PCLS, HBM only)

功能名称

Partial Cache Line Sparing (PCLS, HBM only)

功能说明

PCLS可以纠正单个bit错误,当cache line上出现单个bit的永久性错误,可以使用备份的bit来替换掉出错的bit,这样使得PCLS性能比ADDDC(MR)ADDDC(SR)好,单个内存通道最多能够支持16PCLS

功能目标

提升系统可靠性

使用方式

默认开启,可以通过BIOS配置

约束/限制

HBM内存支持

 

4.2.27  HBM- Bank Sparing

功能名称

HBM- Bank Sparing

功能说明

系统在每个HBM2e 伪通道上保留一个Bank作为备用,并且在系统运行时BIOS检测到故障后也能启动通道上的Bank Sparing并移除故障的bank。这个操作将1/16HBM2e内存作为备用内存

功能目标

提升系统可靠性

使用方式

默认关闭,可以通过BIOS配置

约束/限制

HBM内存支持

 

4.2.28  Memory Disable/Map-Out for FRB

功能名称

Memory Disable/Map-Out for FRB

功能说明

在服务器启动阶段会进行内存发现、训练及测试;当检测到故障内存后,会进行内存的禁用(Per Rank\DIMM\Channel),使得服务器能够继续进行启动。

功能目标

提升系统可靠性

使用方式

默认开启,不可配置

约束/限制

 

4.2.29  Memory SMBus Hang Recovery

功能名称

Memory SMBus Hang Recovery

功能说明

该功能允许BIOS在运行时使用SMI中断去执行内存SMBus故障修复。服务器的内存控制器可以被配置为在内存SMBus故障时产生一个SMI中断,中断产生后BIOS SMI处理器将会执行:

1.     保存上次发布的TSOD地址。

2.     保存当前的TSOD轮询设置和错误恢复设置。

3.     禁用TSOD轮询和禁用错误恢复。

4.     程序安全温度。

5.     保存当前的闭环热节流(CLTT)设置并禁用CLTT

6.     触发硬件定时器,激活SMBus的软复位,并启动n ms的周期性SMIn的值取决于平台。

7.     在周期性SMI到期时,检查恢复是否已完成并禁用定期计时器。如果恢复未完成,则将再次执行周期性SMI处理程序。

8.     在内存SMBus恢复完成后,停用软复位,恢复上述步骤1-5中保存的系统状态。

功能目标

提供在运行时恢复内存SMBus故障的方式,提升系统可用性

使用方式

自动生效,不可关闭

约束/限制

 

4.2.30  DDR Address Range/Partial Memory Mirroring

功能名称

DDR Address Range/Partial Memory Mirroring

功能说明

部分内存镜像模式,BIOS内可以配置Mirror内存的大小,其余内存仍工作在非镜像模式下。完全镜像模式中的所有错误检测、信令和校正操作均可应用于镜像区域内的部分镜像模式。

功能目标

用户可以使用部分内存镜像模式保存关键代码或数据。提升内存可靠性。

使用方式

默认关闭,BIOS可配置

约束/限制

内存镜像特性与ADDDC特性不能同时使用。

 

4.2.31  Adaptive DDDC - Multi-Region(ADDDC - MR)

功能名称

Adaptive DDDC - Multi-Region(ADDDC - MR)

功能说明

Virtual lockstep模式下,ADDDCMR)功能可以在不同的Rank/Bank中修复最多两个DRAM颗粒的硬故障。

Bank/Rank区域粒度下出现了一个硬故障,它将被通过自适应虚拟lockstep的方式映射出去。ADDDCMR)功能允许两次这样的硬故障,之后可以再纠正一个单bit故障。

也称为ADDDCMR+1

功能目标

修复DRAM内存中颗粒的硬故障,来提高硬件级别故障的处理效率和可靠性,进而提高系统的稳定。

使用方式

默认关闭,可以通过BIOS设置

约束/限制

Mirror Mode不能同时启用,仅支持x4 DRAM的内存,并且在每个内存通道上独立激活,并且故障是可纠正故障。

 

4.2.32  UPI链路重试

功能名称

UPI链路重试

功能说明

该特性允许当接收端检测到CRC错误时保持链路正常工作。一旦侦测到CRC错误,接收端会向发送端发送一个重试请求。如果CRC错误是由于transient事件引起的,则重新发送的数据将不会再次出错。该特性会重试两次,两次之后还是不行会让物理层重新初始化,初始化还是不行会触发不可纠正错误事件。

功能目标

通过重试机制可以有效避免由于临时性错误造成的传输数据错误,提高UPI链路的传输可靠性,加强系统的稳定性。

使用方式

自动生效,不能关闭

约束/限制

 

4.2.33  UPI Protocol Protection via CRC (16 bit)

功能名称

UPI Protocol Protection via CRC (16 bit)

功能说明

通过16CRC实现更可靠的处理器间链路通信,并通过错误检测能力提高了数据完整性。用户可以配置系统检测到CRC错误的通知功能,通过事件日志可以识别是否存在可能导致未来链路发生故障的潜在链路退化问题。

功能目标

提升系统可靠性

使用方式

自动生效,不能关闭

约束/限制

 

4.2.34  UPI动态链路带宽减少

功能名称

UPI动态链路带宽减少

功能说明

通过动态调整链路宽度来恢复物理UPI链路上的一个或多个数据通道的硬故障。如果系统在链路上检测到持续错误,则可以使系统UPI链路宽度减半并且性能也会减少。

功能目标

在某些lane中检测到硬故障仍允许系统继续运行,从而提高系统的可用时间和可靠性。

使用方式

自动生效,不能关闭

约束/限制

·     如果出现了时钟链路失效,UPI带宽会下降 50%

·     降带宽后以后将不再具有再次“容忍失效”的能力

·     建议:客户发现该问题后,有计划安排维护

 

4.2.35  PCH PCIe Advanced Error Reporting (AER)

功能名称

PCH PCIe Advanced Error Reporting (AER)

功能说明

英特尔芯片内集成的PCIE设备可以上报故障给CPU,其中英特尔芯片内部的PCIE设备遵循PCIE规范。

功能目标

上报芯片内部PCIE设备故障,提高系统的稳定性和可靠性。

使用方式

置位对应mask位决定上报与否

约束/限制

 

4.2.36  PCIe链路重训练和恢复

功能名称

PCI Express Link Retraining and Recovery

PCIe链路重训练和恢复

功能说明

根据PCIe协议中定义的错误条件,CPU会适时启动PCIe链路的重训练功能。

重训练包括将链路训练和状态机LTSSM重置到恢复状态并继续运行。一旦处于恢复状态,如果在再训练序列中检测到进一步的错误,LTSSM将降低速度或降低带宽。

功能目标

保证组件级别的可靠性

使用方式

自动生效,不能关闭

约束/限制

 

4.2.37  PCIe链路CRC错误检查和重试

功能名称

PCI Express Link CRC Error Check and Retry

PCIe链路CRC错误检查和重试

功能说明

检测CRC错误,如失效则重试的功能。这个特性的要点是保护链路免受EMI、边缘链路、不良连接器、长跟踪长度等引起的信号完整性问题。提供了一种通过重试来检测大部分时间可纠正错误的机制。

功能目标

保证低信号完整性的情况下,PCIe链路的可靠性

使用方式

自动生效,不能关闭

约束/限制

 

4.2.38  PCIe Corrupt Data Containment (Data Poisoning)

功能名称

PCIe Corrupt Data Containment (Data Poisoning)

功能说明

在将分组转发给下一个代理之前检测到未纠正的错误时,将EP位附加到报头,以在事务层上保持数据的双向完整性。接收器检测到有Poison标记的TLP并将错误事件重定向为一个非致命性的警告(可纠正错误事件),而不是将其作为不可纠正的错误信号发送,避免系统重置。

功能目标

故障数据出现时标记Poison,使系统继续运行,提高了系统的正常运行时间及可靠性。

使用方式

自动生效,不能关闭

约束/限制

 

4.2.39  PCIe ECRC

功能名称

PCIe ECRC

功能说明

在将分组转发给下一个代理之前检测到未纠正的错误时,将EP位附加到报头,以在事务层上保持数据的双向完整性。接收器检测到有Poison标记的TLP并将错误事件重定向为一个非致命性的警告(可纠正错误事件),而不是将其作为不可纠正的错误信号发送,避免系统重置。

功能目标

故障数据出现时标记Poison,使系统继续运行,提高了系统的正常运行时间及可靠性。

使用方式

默认关闭,可以通过 BIOS 设置开启

约束/限制

 

4.2.40  PCIe Enhanced Downstream Port Containment (eDPC)

功能名称

PCIe Enhanced Downstream Port Containment (eDPC)

功能说明

Downstream Port Containment (DPC)允许当下行口或者下行口下面的设备检测到不可纠正错误时,停止数据传输,避免潜在的损坏数据的传播,并且允许软件进行错误恢复。eDPC是对DPC功能的提升,增加了对Root Port Programmable IO (RPPIO)错误的支持。

功能目标

提供系统可靠性

使用方式

默认关闭,可以通过 BIOS 设置开启

约束/限制

OS具备DPC处理能力,以恢复链路

 

4.2.41  PCIe Card Surprise Hot Plug

功能名称

PCIe Card Surprise Hot Plug

功能说明

此功能符合PCI Express规范,不需要OOB SMBus机制来执行PCIe设备热插拔/移除操作

功能目标

允许在系统运行时移除或插入PCI Express

使用方式

默认关闭,可以通过 BIOS 设置开启

约束/限制

·     需要对意外移除进行适当的软件处理

·     实际PCIe槽位支持情况以产品说明书为准

 

4.2.42  PCIe Card Hot-Plug(Add/Remove/Swap)

功能名称

PCIe Card Hot-Plug(Add/Remove/Swap)

功能说明

此功能符合PCI Express规范,需要OOB SMBus机制来执行热插拔/删除操作

功能目标

许在系统运行时卸下或添加PCI Express

使用方式

默认关闭,可以通过 BIOS 设置开启

约束/限制

·     需要对意外移除进行适当的软件处理

·     实际PCIe槽位支持情况以产品说明书为准

 

4.2.43  Error Reporting via IOMCA

功能名称

Error Reporting via IOMCA

基于IOMCA 的故障上报

功能说明

允许IIO不可纠正致命和不可纠正非致命错误通过MCE发送错误信号,提升平台的诊断能力。没有该特性,所有的IIO不可纠正错误是通过NMI中断或者平台特定的采用SMI中断或者ERROR_N[2:1引脚的错误handler来处理。

功能目标

为不可纠正错误提供与MCA对齐的一个统一的错误汇报机制而不依赖NMI

使用方式

默认关闭,BIOS可配置

约束/限制

 

4.2.44  Integrated Error Handler

功能名称

Integrated Error Handler

功能说明

提供统一的故障上报功能,能够汇总来自PCHIIO下所有内外部PCIe设备的故障信息,通过内部专门的消息总线传输故障信息至全局的IEH设备,并最终产生相关中断或者外部信号告知BIOS或者HDM进行故障处理。

功能目标

针对PCIe设备提供统一的错误汇报机制

使用方式

默认开启,不可配置

约束/限制

 

4.2.45  故障内存隔离

功能名称

故障内存隔离

功能说明

故障DIMM隔离是Intel Xeon处理器产品系列服务器的故障管理功能之一,平台可以跟踪可纠正错误的数量,执行故障预测分析和计划服务,在错误严重程度变为不可纠正错误之前更换故障组件。平台系统管理会找出造成故障DIMM的根本原因,并可以映射出故障设备,安排修复。

功能目标

提升服务器可用性、可维护性。

使用方式

默认开启

约束/限制

 

4.2.46  带外获取错误日志

功能名称

带外获取错误日志

功能说明

基于HDMRAS功能。通过PECI接口访问MCA Bank寄存器获取CPU错误日志、内存错误日志、UPI错误日志和IIO错误日志。

功能目标

增强 HDM 故障管理系统对故障的监控能力

使用方式

自动生效,不可关闭

约束/限制

 

4.2.47  错误注入能力

功能名称

错误注入能力

功能说明

BIOS提供错误注入开关,开启该功能后支持通过注入错误检验系统性能。

功能目标

提供验证RAS功能的能力,保障系统可靠性。

使用方式

默认关闭,可配置启用

约束/限制

 

4.2.48  Predictive Failure Analysis

功能名称

Predictive Failure Analysis

功能说明

对各种可纠正错误的日志和趋势进行预测,判断后续可能存在的风险,并采取建议措施。可应用于各子系统。

功能目标

增强系统稳定性,预测可能存在风险并采取对应措施

使用方式

自动生效,不可关闭

约束/限制

 

4.2.49  Suppress Inbound Shutdown

功能名称

Suppress Inbound Shutdown

功能说明

关机抑制功能,允许HDM控制系统重启,进行错误日志收集,避免由于系统带内重启导致的错误日志获取失败情况。

功能目标

增强HDM故障管理系统对故障的监控能力

使用方式

默认开启,BIOS可配置

约束/限制

 

4.2.50  Demoted Warm-Reset

功能名称

Demoted Warm-Reset

功能说明

某些情况下把Global Reset降级为Warm Reset,使得重启后BIOS可以收集错误信息。系统遇到灾难性错误时,某些情况下通过OOB方式也无法搜集到错误信息,此时通过此功能,在系统Warm Reset后仍能收集到一些sticky寄存器,这些错误信息能够作为错误定位的重要参考。

功能目标

增强系统可维护性

使用方式

默认开启,不可配置

约束/限制

 

4.2.51  MCA 2.0 Recovery

功能名称

MCA 2.0 Recovery (as per EMCA Gen2 architecture)

功能说明

EMCA GE2是一种允许固件拦截通过MCA触发的错误(可纠正和不可纠正错误),启用固件优先模式(FFM)进行错误处理和可能的恢复的功能。

功能目标

通过EMCA GEN2机制,使软件层帮助服务器从不可纠正数据错误中恢复。

使用方式

默认开启,可配置

约束/限制

 

4.2.52  MCA Recovery – Execution Path

功能名称

MCA Recovery – Execution Path

功能说明

通过软件层辅助服务器从不可纠正的数据错误中恢复。软件层包括OSVMMDBMS、应用等,可以帮助系统从硬件层的不可纠正错误中恢复,并且通过CPU 将错误标记为“损坏数据”。

·     如果处理器识别出不能被硬件校正的错误,则处理器标记数据为“损坏数据”,并且将错误事件移交给固件和/或操作系统。

·     如果固件/操作系统具有数据的冗余副本,则它可能能够纠正错误。

·     如果在应用程序空间中发生错误,操作系统可以使用SIGBUS事件向应用程序发出信号,并允许进一步恢复或终止应用程序并保持操作系统运行。

如果内核空间发生错误,操作系统将触发“Kernel panic”。

功能目标

通过软件层辅助从不可纠正的错误中恢复。

使用方式

自动生效,不能关闭

约束/限制

推荐的OSWS2008 以上,REHL 6以上,SUSE 11以上

 

4.2.53  MCA Recovery – Non-execution Path

功能名称

MCA Recovery – Non-execution Path

功能说明

针对一些非执行路径上的不可纠正错误, OS 通过特定的处理能够进行恢复或者隔离故障数据。非执行路径包括在内存定期巡检事件以及处理LLC显式回写事务。

当处理器识别到硬件不可纠正错误,将标记错误数据为“corrupted date”,并将错误事件移交给固件或OSOS将隔离受影响的Page并阻止应用程序使用它,从而让系统恢复正常运行。需要注意的是,如果错误发生在内核空间,OS不能隔离错误的Page,只能记录错误并且继续正常的操作。

功能目标

通过软件手段增强系统可用性

使用方式

自动生效,不能关闭

约束/限制

推荐的OSWS2008以上,REHL 6以上,SUSE 11以上

 

4.2.54  Local Machine Check (LMCE) based Recovery

功能名称

Local Machine Check (LMCE) based Recovery

功能说明

LMCE允许将SRAR类型的UCR错误上报事件仅传递给受影响的逻辑处理器(该处理器接收了Poison数据)。LMCE实现以下功能:

·     枚举:通过软件识别支持LMCE的硬件

·     控制机制:UEFI有启用/禁用LMCE的能力。要求SW选择进入LMCE

·     LMCE的识别:在MCE传送时,软件能够确定所传递的MCE是否仅针对一个逻辑处理器。

功能目标

通过软件阻止向所有线程广播SRAR类型的UCR错误。

使用方式

默认开启,可配置

约束/限制

必须启用Corrupt Data Containment – Uncore功能

 

4.2.55  Viral Mode

功能名称

Viral Mode

功能说明

病毒模式是针对致命问题而设计的高级容错特性,用于防止故障问题扩散到非易失性存储设备或网络设备,能使处理器进入病毒模式的错误都是不可纠正错误。

功能目标

防止故障扩散

使用方式

默认开启,BIOS可配置

约束/限制

需要优先使能Poison Mode

 

4.2.56  Asynchronous MCA Error Injection (aka MCA Bank Spoofing Error Injection)

功能名称

Asynchronous MCA Error Injection (aka MCA Bank Spoofing Error Injection)

功能说明

允许OSBIOS通过写MCA Bank寄存器模拟错误发生。

功能目标

提供验证RAS功能的能力,保障系统可靠性。

使用方式

默认关闭,BIOS可配置开启

约束/限制

 

4.2.57  电源N+N冗余,支持热插拔

功能名称

电源N+N冗余,支持热插拔

功能说明

可以直接由机器后面板进行热插拔。

功能目标

保证服务器供电系统的可靠性

使用方式

自动生效,不能关闭

约束/限制

 

4.2.58  风扇提供N+1冗余,支持热插拔

功能名称

风扇提供N+1冗余,支持热插拔

功能说明

风扇支持N+1冗余,即支持单风扇失效。可以直接进行热插拔。

功能目标

保证服务器散热系统的可靠性

使用方式

自动生效,不能关闭

约束/限制

 

4.2.59  OCP网卡支持热插拔

功能名称

OCP网卡支持热插拔

功能说明

支持OCP插槽,可以直接由机器后面板进行热插拔。

功能目标

保证网卡更换不下电

使用方式

自动生效,不能关闭

约束/限制

需要采用新华三兼容性列表中明确支持的OCP网卡和OS

 

4.2.60  RAID卡支持RAID,硬盘支持热插拔

功能名称

RAID卡支持RAID,硬盘支持热插拔

功能说明

RAID卡支持RAID 0/1/1 ADM/10/10 ADM/1E/5/50/60,硬盘支持热插拔

功能目标

保证存储系统的可用性

使用方式

RAID 组构建需要专门配置

约束/限制

支持的RAID级别与使用的RAID卡相关

 

4.2.61  故障硬盘的定位

功能名称

故障硬盘的定位

功能说明

可以定位到具体故障的硬盘

功能目标

快速找到故障硬盘

使用方式

自动生效,不能关闭

约束/限制

 

4.2.62  掉电保护功能

功能名称

掉电保护功能

功能说明

整机掉电时,能防范数据丢失的能力。在服务器断电的情况下,RAID卡上的缓存数据在电池的作用下仍能保存。当服务器恢复供电,RAID卡正常后,会先把缓存中的数据写回硬盘

功能目标

防范因异常掉电导致数据丢失

使用方式

自动生效,不能关闭

约束/限制

由于RAM电池容量限制,而数据又是保存在RAM中,能保护的时长有限,通常是几个小时到几十个小时之间,具体规格由型号决定

 

4.2.63  硬盘故障监控&恢复功能

功能名称

硬盘故障监控&恢复功能

功能说明

识别到物理盘或逻辑盘故障时,能够通过带内/带外通道通知用户:

·     带外通过标准SEL事件日志上报故障

·     标识出下挂硬盘的具体状态

在服务器RAID配置的场景下,可利用相应RAID阵列的特点,恢复部分硬盘异常失效导致的数据丢失问题

功能目标

快速识别具体的故障硬盘,防止错误扩展;在部分盘失效时,利用RAID特性来恢复数据

使用方式

自动生效,不能关闭

约束/限制

 

4.2.64  阵列卡自身故障定位

功能名称

阵列卡自身故障定位

功能说明

阵列卡自身故障时,可及时通过如下途径展现出来:

·     大多数机型设置有阵列卡温度传感器,当阵列卡过温时,可通过传感器上报告警

·     可通过一键下载功能获取阵列卡自身的串口日志(仅部分阵列卡支持),及时了解阵列卡内部的运行状况

功能目标

可方便监控阵列卡运行状态,有效识别阵列卡故障,加快问题定位排查

使用方式

自动生效,不能关闭

约束/限制

LSI 93009311以及9400等阵列卡受限支持

 

4.2.65  提供双带外管理软件双镜像功能

功能名称

提供双带外管理软件双镜像功能

功能说明

如果HDM启动文件的一个镜像出现错误,系统会自动从另一个镜像实现启动

功能目标

保证HDM软件的可用性

使用方式

自动生效,不能关闭

约束/限制

 

4.2.66  集中式故障管理系统

功能名称

集中式故障管理系统

功能说明

·     故障管理系统对服务器进行全面的监控,并且提供可靠的故障检测和故障预测机制,通过HDM对用户进行多方位告警,其中能检测到的故障主要包括:

·     CPU硬件故障(CAT ERROR、自检失败、配置错误)

·     超温告警(进风口、CPU、内存、系统电源、硬盘)

·     主板和板卡电压故障

·      风扇故障

·      系统电源故障(AC/DC输入丢失、高温、电源风扇故障)

·      DDR3/DDR4内存故障(可纠正ECC错误超门限、高温、配置错误)

·      存储系统的故障,包括LSI存储卡、SAS/SATA硬盘故障和逻辑盘异常。

·      系统宕机故障

·     通过系统健康灯来标识系统硬件的监控状态

·     可通过SEL事件日志来识别对应的失效部件

·     可通过SEL事件日志来识别HDMOS重启的原因

功能目标

为用户提供一站式的故障管理中心

使用方式

自动生效,不能关闭

约束/限制

 

4.2.67  故障处理器的定位

功能名称

故障处理器的定位

功能说明

可通过HDM查看SEL日志,上报故障处理器的具体槽位

功能目标

快速找到故障点

使用方式

自动生效,不能关闭

约束/限制

 

4.2.68  故障内存条的定位

功能名称

故障内存条的定位

功能说明

故障管理系统可以定位故障内存条的具体位置,客户可以通过HDM SEL日志告警信息方便找到具体故障的内存条

功能目标

可精确定位到故障内存条

使用方式

自动生效,不能关闭

约束/限制

 

4.2.69  故障PCIe设备的定位

功能名称

故障PCIe设备定位

功能说明

故障管理系统可以定位故障PCIe设备的具体位置,客户可以通过HDM SEL日志告警信息快速找到具体故障的PCIe设备

功能目标

可精确定位到故障PCIe设备

使用方式

自动生效,不能关闭

约束/限制

 

4.2.70  故障PSU的定位

功能名称

故障PSU的定位

功能说明

可以通过HDM SEL日志告警信息或者电源指示灯定位至具体故障的PSU

功能目标

快速找到故障PSU

使用方式

自动生效,不能关闭

约束/限制

 

4.2.71  故障风扇的定位

功能名称

故障风扇的定位

功能说明

可以通过HDM SEL日志告警信息定位到具体的故障风扇

功能目标

快速找到故障风扇

使用方式

自动生效,不能关闭

约束/限制

 

4.2.72  HDM提供主板监控与环境参数

功能名称

HDM 提供主板监控与环境参数

功能说明

提供整机关键部件电压、电流、温度以及功耗的实时监控与曲线,每一个监控周期记录一次数据

功能目标

提供整机关键部件电压、电流、温度以及功耗的实时监控与曲线

使用方式

自动生效,不能关闭

约束/限制

 

4.2.73  HDM 可实现系统软件和固件远程升级

功能名称

HDM可实现系统软件和固件远程升级

功能说明

实现软件和固件的远程运维升级

功能目标

增加可维护性

使用方式

自动生效,不能关闭,可以通过HDM升级

约束/限制

 

4.2.74  HDM 提供蓝屏快照功能

功能名称

HDM 提供蓝屏快照功能

功能说明

用于查看服务器Windows操作系统发生故障重启前自动捕获的蓝屏快照,通过蓝屏快照可对故障进行快速分析。

HDM最多可保存十张蓝屏快照,并以快照捕获时间及序号命名。

当蓝屏快照超过十张时,新的快照会覆盖最早生成的快照。

功能目标

客户发现宕机时,可以查看宕机快照截图,方便辅助故障定位

使用方式

默认开启,可以通过HDM设置为关闭

约束/限制

·     必须先开启KVM服务,本功能才会生效

·     HDM最多可保存十张蓝屏快照

 

4.2.75  HDM提供录像回放功能

功能名称

HDM提供录像回放功能

功能说明

开启服务器的自动录像功能。当服务器操作系统发生崩溃、重置或关机时,系统会自动录制事件发生前的录像。技术人员可以通过该视频录像,对操作系统崩溃、重置或关机的异常原因进行分析

功能目标

客户需要查看录像时,可以通过HDM的录像回放控制台播放,帮助故障精确定位

使用方式

默认开启,可以通过HDM设置为关闭

约束/限制

·     必须先开启KVM服务,该功能才会生效

·     录制视频过程中,必须保持远程控制台处于关闭状态

·     崩溃前录像只支持Windows系统

·     如果事件发生时,操作系统处于休眠状态,查看录像回放时会显示无信号

 

4.2.76  HDM提供SDS日志

功能名称

HDM提供SDS日志

功能说明

用于收集服务器运行时的SDS日志,主要包括操作日志、事件日志、部件日志、静态日志以及HDM系统日志。通过UniSystem可以解析上述日志,了解服务器的运行状态。下载SDS日志时,可以选择下载指定时间段内的SDS日志,也可以下载整个SDS日志。

具有如下亮点:

·     携带简易故障定位指南

·     信息明文化方式展现

·     可通过带内与带外多种方式来获取

·     当故障发生时,会记录对应的上下文信息,方便定位

功能目标

故障数据收集,故障分析,故障诊断,提供精确定位的能力,提升可维护性

使用方式

默认开启,可通过HDM下载

约束/限制

SDS日志无法直接在HDM Web界面上查看,需要下载到本地后,通过UniSystem进行解析

 

 


5 结束语

新华三G6系列服务器基于Intel最新一代可扩展处理器Sapphire Rapids设计,确保数据完整性,极大提升系统可用性。

新华三G6系列服务器采用的HDM数据中心级管理方案基于IPMI标准,实现无代理管理,有效降低了用户的运维难度。

新华三G6系列服务器具有全模块化的架构,大大缩短客户更换部件的时间,结合强大的热插拔功能,极大提升服务器的可用性。诸多实用的RAS特性,使新华三G6系列服务器能够满足各种规模企业的计算需求,提供智能、高效、敏捷、可靠的智慧计算能力。

新华三官网
联系我们