• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C海光G5系列服务器 RAS技术白皮书-6W101

手册下载

H3C海光G5系列服务器 RAS技术白皮书-6W101-整本手册.pdf  (770.98 KB)

  • 发布时间:2024/10/15 19:39:14
  • 浏览量:
  • 下载量:

H3C 海光 G5系列服务器

RAS技术白皮书

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2024 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



概述

说明

·     由于产品版本升级或其他原因,本文档内容会不定期进行更新。

·     本文为产品通用资料。如果用户有定制化需求,请以产品实际情况为准;有需要请联系H3C技术支持。

 

本手册适用以下产品:

·     H3C UniServer R4330 G5

·     H3C UniServer R4330 G5 H3

·     H3C UniServer R4930 G5

·     H3C UniServer R4930 G5 H3

 

1.1  RAS技术简介

服务器是现代数据中心基础设施的关键组成部分之一,它包含处理器、存储设备、PCIe设备,电源和风扇等多种部件。如今对数据中心的关键要求之一就是需要在不影响数据完整性的前提下,保持服务器长时间的稳定运行。换言之,既要确保服务器稳定运行,还要保证数据存储在任何服务器部件(如内存、缓存或处理器寄存器)中或传输在平台链路(如xGMIPCI Express)中时,都不会发生数据损坏。当服务器的部件出现故障时,RAS技术通过最大化可用性及保证所有部件中的数据完整性,尽可能满足上述需求。

RASReliabilityAvailability and Serviceability),即可靠性、可用性、可维护性。

以下是RAS的三个主要目标:

·     提升系统可运行时间

RAS技术可以提升服务器的可靠性,一般通过测量平均故障时间(MTTF)、年崩溃率(ACR)或年服务率(ASR)来度量系统可运行时间。一个可靠的系统将保持运行更长的时间。

·     减少非计划停机时间

即使做了最周密的计划,仍然有可能发生停机。当出现非计划停机时,可以通过测量MTTR平均修复时间来度量服务器的可维护性。一个可维护的系统可以快速恢复正常运行。

H3C UniServer 海光 G5系列服务器搭载海光二号、海光二号A+或海光三号处理器,使硬件和固件协同支撑日志记录,帮助识别和隔离故障,让操作者可以进行预防性或主动性的维护。如果出现停机,可以快速地将系统重新上线,减少维护成本,并减轻停机对企业的影响。

·     维护数据完整性

RAS技术提供了多种机制来防止数据损坏并纠正出错的数据。当检测到错误数据时,会确保它在可控制的范围内,避免引起更严重的问题。

1.2  RAS的定义

RAS所包括的具体内容并没有一个特别严谨的定义和划分,本文1中呈现的是H3C服务器团队参考业界相对通用的标准,并结合服务器的特点给出的RAS定义。

表1 RAS定义

类型

定义

Reliability

可靠性可定义为系统在某个给定时间T内产生正确输出的概率,通过规避、检测和修复硬件故障的功能来增强系统可靠性。可靠的系统不会提供错误的数据和计算结果,而会检测并对错误数据进行纠正。

可靠性以平均故障间隔时间(MTBF)为度量进行描述。

Availability

可用性为系统在给定时间运行的可能性,及设备实际运行的时间与实际应该运行时间的百分比。

可用性通常以系统预计可用时间百分比进行描述:如99.99%

Serviceability

可维护性指出系统可以修复或维护的简单程度和速度。如果系统修复故障的时间增加,则可维护性降低。

可维护性包括在出现问题时提供轻松诊断系统的方法。这方面则需要软件提供更加智能、清晰的错误信息和通知手段,并尽可能提供故障预警,避免系统挂死。

 

1.3  术语表

通过2对本文中出现的专业名词及缩略语进行简要的解释。

表2 术语表

术语

解释

AER

Advanced Error Reporting,高级错误上报

APML

Advanced Platform Management Link,高级平台管理链路

BIOS

Basic Input Output System,基本输入输出系统

BIST

Built in Self-Test,内建自测

CRC

Cyclic Redundancy Check,循环冗余校验

CPM

Common Platform Module,通用平台模块

DIMM

Dual-Inline-Memory-Modules,双列直插式存储模块,一种内存条

ECC

Error Checking and Correcting,差错校验纠正

FCH

Fusion Controller Hub,相当于集成到CPU中的南桥

HDM

Hardware Device ManagementH3C自研的遵循IPMI协议的板级管理控制器

L1 Cache

一级缓存

L2 Cache

二级缓存

L3 Cache

三级缓存

UMC

Unified Memory Controller,统一内存控制器

MCA

Machine Check Architecture,机器检查架构

MCAX

Machine Check Architecture eXtensions,机器检查架构扩展

MCE

Machine-Check Exception,机器检查异常

MRC

Memory Reference Code,内存参考代码

OS

Operating System,操作系统

PCIe

Peripheral Component Interconnect Express,外围组件快速互连

PFEH

Platform First Error Handling,平台优先错误处理

POST

Power On Self Test,开机自检

PSP

Platform Security Processor,平台安全处理器

RAS

ReliabilityAvailabilityServiceability,可靠性、可用性、可维护性

runtime

运行期间。本文特指在OS运行期间。

SMN

System Management Network,系统管理网络

SMU

System Management Unit,系统管理单元

TLP

Transaction Layer Packet PCIe事务层数据包

UEFI

Unified Extensible Firmware Interface,统一的可扩展固件接口


RAS整体架构

2.1  RAS流程

按照故障严重程度从高到低,将错误分类为不可纠正错误、延迟错误、可纠正错误和透明错误四类。

表3 错误的分类及定义

类型

定义

不可纠正错误

不可纠正错误UCE指不能被硬件纠正的错误,不可纠正错误会通过MCE报告给软件

延迟错误

延迟错误指不能被硬件纠正,但不会导致程序进程立即中断、数据完整性丢失或处理器状态损坏的错误,出现延迟错误表明数据已损坏但未使用,比如出现中毒数据

可纠正错误

可纠正错误指由硬件纠正,不会导致数据丢失或处理器状态损坏的错误

透明错误

透明错误指已经被硬件纠正、不会导致数据丢失或处理器状态损坏,并且硬件能够纠正同一设备中的下一个错误的错误。例如,在具备双bit错误纠正能力的缓存中出现了单比特错误

 

基于以上错误分类,服务器对错误的处理流程如1所示。

·     当检测到透明错误,由于已经被硬件纠正,上层无需处理。

·     当检测到可纠正错误时,将对错误位置进行标记,并通过对应模块的RAS技术快速修复错误,大部分情况下用户不会感知到这类错误的发生。

·     当检测到延迟错误时,会立即对毒性数据的位置进行标记,并通过限制毒性数据的传播等手段,避免延迟错误进化为更严重的问题。

·     当出现不可纠正错误时,会尝试对故障进行隔离。比如通过隔离错误数据等手段,维持系统的运行。若发生了更为严重的故障,系统直接宕机,这时需要通过带外管理软件HDM恢复或重启系统。

·     对于硬件永久性故障,需要更换新的硬件或者启用备用设备进行修复。通过对部分硬件的热插拔功能,可以支持用户在系统不断电的情况下,进行故障设备的更换,使服务器恢复正常工作。

图1 RAS流程

 

2.2  RAS系统架构

H3C服务器海光 RAS架构的基础上,整合硬件、BIOSHDM以及现有OS的故障处理机制,创建出了一套完善的故障管理系统,可以在系统发生错误后提供完备的故障诊断、故障定位、故障恢复、故障信息搜集、故障上报等一系列功能,而且由于此系统的核心模块是运行于BIOSHDM上的,不依赖于OS,并且处于一直运行的状态,因此可以实现对系统运行的全时段检测,在错误发生的第一时间进行针对性的处理,使其远离异常宕机的风险。

故障管理系统由硬件层、CPLD、处理器平台、带外管理HDMBIOSOS共同配合及交互,实现故障精确定位、故障及时处理。

图2 故障管理系统

 

故障管理系统的整体架构如2所示,主要组件包括:

·     HDM:故障定位系统的核心,它负责故障的收集、汇总和分析,并通过Web管理界面事件日志以及故障告警等方式向客户呈现。

·     处理器平台:服务器采用海光 CPU平台,增强了对处理器、内存、PCIe设备硬件故障的管理能力。

·     CPLD:向下与各个硬件模块,包括电源、风扇以及其他底层硬件(除CPU、内存、硬盘和PCIe标卡外)接口,捕获硬件异常状态,向上与HDM互连,传递故障信息。

·     BIOS:主要实现CPU、内存、PCIe以及存储设备的故障收集和定位,向HDM提供故障定位的结果,对OS层面来说,BIOS提供APEIOS级故障管理的接口。

·     客户界面:主要通过HDMWeb界面,可以方便客户在远程或者本地进行系统维护工作,当然在主要部件上也会有故障指示灯。

·     各类协议:故障管理系统中所用到的接口、协议包括:LPCSPIPCIeUARTI2CSMBUSLocalBus等。


RAS技术要点

海光 G5系列服务器RAS的主要原则可以概括为以下几点:

·     保持可靠运行:注重硬件在架构、设计和技术各个层面的基本弹性。要保持可靠运行需要健壮的组件并提供最大限度的错误检测。

·     避免系统故障:主要针对避免计划外停机,可以进一步细分为:

¡     减少全局故障

¡     错误修正

¡     出现不可纠正错误时可以继续运行。

·     避免系统停机:这一原则主要针对计划停机,并强调以下方面:

¡     第一次错误诊断:尽量在第一次错误发生时,捕获足够的数据来完成错误诊断。

¡     内部冗余设计和在线维修能力:允许再不更换零件的情况下持续操作或者在不停机的情况下修复问题。

·     灵活:功能是否启用的选择主要在固件中实现,而不是在硬件中。

下面将海光 RAS技术要点按照故障检测、上报及处理三个阶段分别进行介绍。

3.1  故障检测

海光 G5系列服务器的故障检测主要通过在关键部件及区域的ECCParityCRC技术来实现。故障主要分为三类:数据错误、总线错误和逻辑功能错误,对应的故障检测的常用手段有如下三种:

·     一般数据模块主要使用ECCParity的方式检测。

·     总线接口模块主要用CRC方式检测。

·     逻辑功能模块使用Timeout方式检测。

纠错一般通过ECCRetry机制来实现。主要的数据和总线模块的检错和纠错能力如4所示。

表4 各模块的检错和纠错能力

模块

功能

CPU Core

Parity

L1 Data Cache

ECC

L1 Data Tag

ECC

L1 Instruction TLB

Parity+ Retry

L1 Instruction Cache

Parity+ Retry

L1 Instruction Tag

Parity+ Retry

L2/L3 Cache

DEC-TED ECC

L2/L3 Cache Tag

SEC-DED ECC

DRAM Address/Command

Parity+Replay

DRAM Write Data

CRC+Replay

Memory Controller

SEC-DED ECC

Memory Controller DF

Parity

NBIO, PCIE and NBIF

Parity+ECC

SATA

Parity

USB

ECC

On-Chip Data Bus

Parity

Off-Package Link Packet

Parity+ Retry

On-package and off-package PHY Controller

ECC

System Probe Filter

ECC

System Management Network

Parity

SMN Off-Package Link Packet

CRC+ Retry

SMN On-Package Link Packet

CRC+ Retry

SMU

Parity+ECC

MP5

Parity+ECC

PSP

Parity+ECC

Parameter Block

ECC

 

CPU中,最容易出现错误的就是CPU内的数据存储模块,即各级缓存。海光 G5系列服务器提供了卓越全面的Cache保护机制,对于L1数据Cache,可以通过ECC进行检错纠错;对于L1指令Cache,能够通过奇偶校验进行错误检测,如果检测到错误后,可以采用重试的方式进行纠错。对于L2L3 Cache 还提供双重纠错、三重错误检测 (DEC-TED) 功能。 与传统的单纠错、双错误检测 (SEC-DED) ECC 相比,增加了一个额外的纠错层。 DEC-TED 通过纠正双比特错误来减少多位瞬态错误的影响,还减少了单比特硬故障的影响,能够纠正缓存受影响部分中的第二个单比特错误。

在内存上,除了ECC之外,还支持Patrol ScrubberRedirect ScrubberPoison Scrubber等。内存某些位置可能会长时间不被访问, Patrol Scrubber内存定期巡检功能会周期性的遍历内存所有区域,纠正可纠正错误,是检查内存并增强数据完整性的一种良好、低成本的方法。Redirect Scrubber是指当CPU指令主动读取内存数据时,如果发现可纠正错误,将错误纠正并把正确数据回写到内存的操作。海光 G5系列服务器还支持Poison Scrubber,用于标记出现poison数据的位置,防止上报多余的延迟错误。

3.2  故障上报

故障上报用于通知可能发生的各种类型的故障,只有在检测到故障时才启动错误上报。海光 G5系列服务器支持MCAMCAXAERAMPL四种故障上报的方式。

MCA会记录处理器和系统硬件错误并上报给操作系统。当检测到错误时,会将有关错误的信息保存在特定的 MCA 寄存器中,并通过MCE中断上报指定类型的错误。对于硬件可纠正错误,软件不需要处理,将会记录错误信息,以便后续进行诊断和修复。如果无法纠正,则将错误归类为不可纠正错误。发生不可纠正错误需要系统立即采取措施纠正错误并恢复中断的程序。如果无法基于软件纠正,则确认未纠正错误对执行指令流的影响程度及处理器或系统的架构状态,采取措施并通过终止受损坏的软件进程来控制故障的影响。

对于那些没有被纠正,但对系统、处理器内核或任何当前执行线程的架构状态没有直接影响的错误,该错误可能被硬件分类为延迟错误。关于延迟错误的信息会被记录下来,但不会通过MCE报告。相反,硬件会持续监控错误,并在错误条件即将影响指令流的执行或导致处理器内核或系统架构状态损坏时,将错误分类升级为不可纠正错误。此时,如果启用了针对该错误源的上报,则会触发MCE中断上报错误。如果系统层面可以纠正该错误,则有可能恢复受影响的程序。如果不能纠正,操作系统可以终止受影响的程序,而不至于关闭整个系统。

处理器还支持MCAXMachine Check Architecture Extensions,机器检查架构扩展),是 海光 MCA x86-64 扩展,提供了比传统MCA更丰富的MCA Bank,并将Bank的所有权一直提供到单个核心。由于每个 Bank都由单个内核“拥有”,因此 MCA 寄存器只能从 MCA 主线程访问,这有助于确保来自机器检查 bank 的中断被路由到适当的线程。MCA X架构支持多达 256 MCA 组,每个 MCA 组有 16 个内存寄存器。扩展的 MCA 架构可以保存更多关于系统健康状况的信息,可以查询这些信息以加速故障排除。

AERAdvanced Error Reporting,高级错误上报)主要用于上报和处理PCIe方面的故障,可以定位错误源在PCIe体系结构中的位置,为PCIe Root通过中断报告接收到的错误消息提供了标准化的控制机制,并能够区分各种不可纠正错误的严重程度。

APMLAdvanced Platform Management Link,高级平台管理链路)遵循SMBus协议,也称为SBISideband interface,边带接口),提供了带外访问MCA寄存器的接口,可以使用 APML 接口与服务器带外管理系统HDM通信,使错误信息能直接被HDM获取。

3.3  故障处理

如果检测到错误但无法纠正,会通过数据中毒标记、在链路上容错等方式将错误的影响降至最低。

数据中毒是一种通过将全局未纠正错误转变为本地未纠正错误来启用机器检查恢复的机制,可以减少触发系统中断的次数。数据中毒涉及检测、标记和跟踪不可纠正的数据错误。当中毒数据在系统中移动时,中毒状态会保留在内存、缓存和链路中,使系统不会使用损坏的数据。在数据中毒标记时,无法纠正的数据错误可能会导致系统致命状况,而通过数据中毒,无法纠正的数据错误可以包含在流程上下文中。系统可能需要终止受影响的进程,但其他进程和系统本身不会受到影响,使系统在存在数据错误的情况下保持可用。当 CPU 尝试使用标记为“poison”的数据时,会发生中毒消耗。中毒消耗会在消耗进程(任务)的上下文中传递机器检查异常 (MCE),使MCA识别到消费数据的进程并恢复或终止。当处理器发现中毒数据时,会在 MCA Bank中记录一个延迟错误,用于识别检测到不可纠正数据错误的位置,帮助确定是否有硬件出现故障,并尽可能重新配置系统防止使用存在故障的硬件。

在内存方面,海光 G5系列服务器支持内存定期巡检及内存重定向清理。内存定期巡检功能通过对内存每个区域执行周期性的读取-修改-写入,可以检测和纠正潜在错误,防止内存条上的单比特错误逐渐累积形成多比特不可纠正错误。内存重定向清理器通过向正常操作期间访问的 DRAM 地址发出回写来清理 DRAM,可以纠正单比特可纠正错误。

PCIe方面,PCIe总线受到AEREDPC的保护,可以帮助隔离PCIe链路上的错误并从中恢复。当检测到某个PCIe Root Port有不可纠正错误发生时,EDPC功能可以对错误端口相关的PCIe链路使用断开重连的方式进行恢复,而且为了保证此过程不影响OS下设备的正常运行,PCIe Root Port在与PCIe Endpoint设备之间的链路断开之前,会保存好PCIe Endpoint设备的上下文,并在链路恢复后正确恢复其上下文信息,保证系统运行不受影响。

3.4  内存可纠正错误处理机制

3.4.1  内存可纠正错误阈值机制说明

H3C Hygon系列服务器(R4930 G5/R4930 G5 Pro)支持内存可纠正错误阈值功能;该功能基于Hygon CPU芯片的MCA机制,一个CPU包含两个内存控制器,两个内存控制器分别对应一个MCA 内存可纠正错误计数器。

当计数器达到阈值后,触发SMI中断,由BIOS上报内存可纠正错误日志到HDMOS

图3 内存可纠正错误阈值机制结构图

 

内存可纠正错误阈值寄存器最大支持设置为4095,可通过选项Advanced ->Platform RAS Management ->MCA error thresh count设置。

需要注意,Advanced ->Platform RAS Management ->MCA error thresh enable设置为开启时,MCA error thresh count设置才生效;当MCA error thresh enable设置为Disabled时,无论是否超过MCA error thresh count阈值,均不触发SMI中断上报,BMCOS下不会感知到内存CE错误。

3.4.2  内存可纠正错误风暴抑制

1. 内存可纠正错误阈值漏斗机制

海光BIOS支持漏斗机制,由内存CE漏斗间隔Leaky Bucket Minutes和内存CE漏斗的清除阈值Leaky Bucket Single Reduction两个选项共同控制漏斗流速,Leaky Bucket Minutes为漏斗时间设置选项,Leaky Bucket Single Reduction为漏斗CE错误清除数量的选项,默认1小时漏掉3600CE错误,即1秒减1

表5 选项说明

界面参数

功能说明

内存CE漏斗间隔

内存可纠正错误漏斗重置的周期,缺省为1,单位为小时,有效的输入范围是0240表示禁用内存漏斗功能

内存CE漏斗的清除阈值

设置内存可纠正错误在漏斗间隔后清除的错误数量。即每个内存CE漏斗间隔后,可纠正错误计数器将减去一次清除阈值的数值。菜单选项为:

·     1

·     60

·     120

·     240

·     500

·     1000

·     1200

·     2000

·     3600(缺省)

·     5000

·     10000

 

2. 内存可纠正错误风暴阈值

海光BIOS提供Memory CE Storm Threshold选项配置内存可纠正错误风暴阈值,如1分钟内出现的内存CE数量达到设置的风暴阈值,则上报内存CE风暴SEL告警;设置为Disabled,则不启用该功能。

图4 内存可纠正错误风暴阈值设置

 

3. 内存可纠正错误累积阈值

海光BIOS提供Memory CE Accumulation Threshold选项配置内存可纠正错误累积阈值,如24小时内的内存CE数量累积达到设置的累积阈值,则上报内存CE超过累积阈值告警;设置为Disabled,则不启用该功能。


支持的RAS功能介绍

本小节对H3C已经支持且用户可用的RAS功能分类并介绍,共计86项。

4.1  通用RAS功能

1. Legacy x86 Machine Check Architecture (MCA) 

功能名称

Legacy x86 Machine Check Architecture (MCA)

功能说明

处理器实现x86机器检查架构(MCA)MCA定义了一种记录处理器和系统硬件错误并将其报告给系统软件的方式,使系统软件在硬件错误的恢复和诊断中发挥作用。

功能目标

保证组件级别的可靠性

使用方式

自动生效,不能关闭

约束/限制

 

2. Machine CheckArchitecture Extensions(MCAX)

功能名称

Machine CheckArchitecture Extensions(MCAX)

功能说明

MCAX即机器检查架构的扩展,提供比传统x86机器检查架构更丰富的功能集。扩展功能包括:

·     MCA Banks数量的扩展:支持扩展海光处理器支持的 MCA Banks数量的功能,以支持处理器中许多块的全面错误日志记录。

·     MCA Banks大小的扩展:在MCA Banks中记录的扩展信息允许改进错误处理、更好的诊断、更精细的配置。

·     MCA Banks的单一内核所有权:每个MCA寄存器组仅对一个内核可见,访问MCA组寄存器时无需任何软件同步。

功能目标

增强BIOS对故障的控制

使用方式

自动生效,不能关闭

约束/限制

 

3. Machine Check Architecture (MCA) Thresholding

功能名称

Machine Check Architecture (MCA) Thresholding

功能说明

错误阈值用于计算错误数量,处理器通过MCA_MISCx寄存器实现x86 MCA阈值。支持通过饱和计数器设置错误阈值,溢出时将发送SMI中断。

功能目标

增强BIOS对故障的控制

使用方式

默认开启,通过BIOS配置

约束/限制

 

4. Machine Check Recovery

功能名称

Machine Check Recovery

功能说明

Machine Check Recovery 允许软件从硬件无法纠正的错误中恢复,以增强系统可用性。某些硬件不可纠正的错误可以“本地化”,即这些错误被硬件限制在一个有限的范围内,从而不会导致全局的、系统范围的故障。监控软件(操作系统或hypervisor)可以通过只杀死受影响的进程或虚拟机,保留系统的其余功能来从这类错误中恢复。处理器提供了 Machine Check Recovery 功能,但是需要 OS/Hypervisor 代码利用该功能并从本地不可纠正的错误中恢复。

功能目标

保证组件级别的可靠性

使用方式

自动生效,不能关闭

约束/限制

 

5. MCA主核设置

功能名称

MCA主核设置

功能说明

系统中的每个MCA bank对逻辑内核都是可见的。支持根据系统中存在哪些物理内核来选择非内核 MCA 组到逻辑内核的映射。拥有非核心MCA组的逻辑核心称为MCA主核,会选择具有最低编号的初始逻辑核心ID 的核心作为 MCA 主核心

功能目标

提高了系统的可用性/可维护性

使用方式

默认开启

约束/限制

 

6. Data poisoning

功能名称

Data poisoning

功能说明

数据中毒是一种通过将全局不可纠正错误转变为本地不可纠正错误来启用机器检查恢复的机制,从而减少系统中断运行的次数。数据中毒涉及检测、标记和跟踪不可纠正的数据错误。中毒数据在系统中移动,将中毒状态保留在内存、缓存和链路中,使系统不会使用到损坏的数据。

功能目标

在存在未纠正的数据错误的情况下,仍然保持系统可用

使用方式

自动生效,通过BIOS配置

约束/限制

内存需要支持ECC

 

7. Platform First Error Handling (PFEH)

功能名称

Platform First Error Handling (PFEH)

功能说明

处理器实现了平台优先错误处理,支持将MCA中记录的所有错误报告给平台固件,而不是操作系统或管理程序。本功能允许平台固件在通知操作系统或管理程序之前对每个错误采取特定于平台的操作(例如,修复或记录)。例如,平台固件可以实施预测性故障分析,以降低服务成本或未来停机时间。

功能目标

增强BIOS对故障的控制

使用方式

默认开启,通过BIOS配置

约束/限制

 

8. Advanced Platform Management Link

功能名称

Advanced Platform Management Link

功能说明

高级平台管理链路(APML)是与SMBus v2.0兼容的处理器从接口。APML支持远程管理接口 (SB-RMI),支持带外访问处理器状态,包括MCA寄存器、硬件热控制寄存器、DRAM节流寄存器和CPU ID等。当PFEH开启时,MCA寄存器对APML可见。

功能目标

带外直接访问故障相关的寄存器,提升系统可维护性

使用方式

自动生效,不能关闭

约束/限制

 

9. FinFET Process Technology

功能名称

FinFET Process Technology

功能说明

FinFET晶体管的电荷收集体积比等效的平面体晶体管小得多。因此,与传统平面晶体管相比,中子和α粒子等电离辐射不太可能改变FinFET晶体管的状态。这使得FinFET设计更不容易受到软错误的影响,可以更好地抵抗电离辐射造成的干扰。

功能目标

保证组件级别的可靠性

使用方式

自动生效,不能关闭

约束/限制

 

10. System Fatal Error Event (“Sync Flood”)

功能名称

System Fatal Error Event (“Sync Flood”)

功能说明

如果检测到无法被标记为中毒的不可纠正错误,处理器将采取措施以遏制不良数据的传播。处理器在内部数据结构上发出系统致命错误事件消息,使数据结构冻结其出站数据队列,以防止不良数据逃逸到非易失性存储。

功能目标

保证系统可靠性

使用方式

自动生效,不可配置

约束/限制

 

11. 启动状态指示器

功能名称

启动状态指示器

功能说明

处理器支持一个启动状态指示器,用于标识启动过程中的进度,直到内核从复位状态释放。

功能目标

标识并通过APMLPort 80上报启动进程,提升系统的可用性

使用方式

自动生效,不能关闭

约束/限制

 

12. NMI/Syncflood Pin

功能名称

NMI/Syncflood Pin

功能说明

该引脚为平台提供了向系统触发不可屏蔽中断 (NMI) 或系统致命错误事件的能力。

功能目标

提升故障上报到系统的能力,增强可靠性

使用方式

自动生效,不可配置

约束/限制

 

13. ACPI Platform Error Interface (APEI)

功能名称

APEI

功能说明

支持行业标准的高级配置和电源接口平台错误接口 (APEI) 版本 6.2。海光的实现支持硬件错误状态表 (HEST)、引导错误记录表 (BERT) 和错误注入表 (EINJ)

功能目标

提高了系统的可用性/可维护性

使用方式

默认开启,不可配置

约束/限制

 

14. APEI Boot Error Record Table (BERT)

功能名称

APEI启动时错误记录表

功能说明

启动时记录的所有错误都会在BERT中创建一个条目,并根据错误类型分为通用错误数据条目、内存错误条目、内存奇偶校验错误条目、PCIe错误条目及处理器错误条目。

功能目标

记录启动时错误,上报给操作系统

使用方式

默认开启

约束/限制

 

15. APEI Hardware Error Status Table(HEST)

功能名称

APEI硬件错误状态表

功能说明

支持ACPI标准的HEST表,定义硬件相关的错误源和错误类型。通过标准MCAMCAX报告的错误,支持MCE错误源、CMCI源和DMC(MCAX) PFEH接口。

功能目标

标准化软硬件错误接口的实现

使用方式

默认开启

约束/限制

 

16. APEI Error Injection Table(EINJ)

功能名称

APEI错误注入表

功能说明

海光支持通过 APEI EINJ 表进行类型 34 5 错误注入。 固件支持对每种类型的错误进行单独的注入和触发操作。

·     类型3错误注入将在指定地址注入可纠正的DRAM ECC 错误。

·     类型 4 错误注入将在指定地址注入不可纠正的 DRAM ECC 错误,将会作为延迟错误上报和记录。

·     类型 5 错误注入将在指定地址注入不可纠正的 DRAM ECC 错误。类型 5 注入的触发动作将导致操作系统读取错误位置并记录和报告延迟错误,并通过MCA记录和报告一个不可纠正的毒性消耗错误。

功能目标

支持内存ECC错误注入,验证相关功能

使用方式

安装ECC内存时默认开启

约束/限制

 

17. 故障注入

功能名称

故障注入

功能说明

为了协助进行软件测试和调试,处理器支持硬件接口进行故障注入。支持注入的错误类型包括:

·     内存ECC错误

·     NBIO Error

·     PCIe AER错误

·     CPU CE/UCE错误

功能目标

便于服务器的测试及调试

使用方式

默认关闭

约束/限制

 

4.2  CPU RAS功能

1. CPU Core Array Parity

功能名称

CPU Core Array Parity

功能说明

使用奇偶校验来检测处理器内核中的关键SRAM、触发器和锁存器阵列中的错误。对于大型、高度易受攻击的阵列(例如微操作缓存和微操作缓存标签)使用重试的方式以自动更正检测到的错误。

功能目标

提升系统的可靠性

使用方式

自动生效,不能关闭

约束/限制

 

2. CPU看门狗定时器

功能名称

CPU看门狗定时器

功能说明

CPU看门狗定时器(WDT)用于检测x86内核无法向前推进的情况并从中恢复。看门狗定时器是一个可配置的计数器,每次指令操作完成时都会重新启动。如果在指定时间内没有完成任何操作,则会生成系统致命错误事件。

功能目标

使用看门狗定时器跟踪执行进度,检测处理器无法继续向前执行的情况

使用方式

默认开启,通过BIOS配置

约束/限制

 

3. CPU Poison Data Consumption

功能名称

CPU Poison Data Consumption

功能说明

CPU内核的Load-StoreInstruction Fetch单元尝试使用标记为中毒的数据时,就会发生中毒消耗。中毒消耗会导致在消耗过程的上下文中报告MCE

功能目标

增加整个系统的容错能力

使用方式

自动生效,不可配置

约束/限制

 

4. CPU Thermal Throttling

功能名称

CPU Thermal Throttling

功能说明

当接近温度限制时,处理器支持热节流。通过避免由于超出温度限制而导致的停机情况来提高可用性。

功能目标

提高了系统的可用性/可维护性

使用方式

默认开启,部分可配置

约束/限制

 

5. L1 Data Cache with ECC

功能名称

L1 Data Cache with ECC

功能说明

L1数据高速缓存使用ECC在读取数据时检测和纠正错误,通过bit交织来防止多位错误。

功能目标

提高了系统的可用性/可维护性

使用方式

自动生效,不可配置

约束/限制

 

6. L1 Data Tag with ECC

功能名称

L1 Data Tag with ECC

功能说明

L1 数据标签在读取数据时使用ECC检测和纠正错误,通过bit交织来防止多位错误。

功能目标

提高了系统的可用性/可维护性

使用方式

自动生效,不可配置

约束/限制

 

7. L1 Instruction TLB Parity+ Retry

功能名称

L1指令TLB奇偶校验及重试

功能说明

L1指令TLB受到可纠正奇偶校验的保护。当检测到错误时,硬件通过使标签无效并重新获取行来自动纠正错误数据,通过bit交织来防止多位错误。

功能目标

提高了系统的可用性/可维护性

使用方式

自动生效,不可配置

约束/限制

 

8. L1 Instruction Cache with Parity + Retry

功能名称

L1指令缓存奇偶校验及重试

功能说明

L1指令高速缓存仅包含干净的数据,受可纠正奇偶校验保护。当检测到错误时,硬件通过使标签无效并重新获取行来自动更正错误,通过bit交织来防止多位错误。

功能目标

提高了系统的可用性/可维护性

使用方式

自动生效,不可配置

约束/限制

 

9. L1 Instruction Tag with Parity + Retry

功能名称

L1指令标记奇偶校验及重试

功能说明

L1指令标签仅包含干净的数据,受可纠正奇偶校验保护。当检测到错误时,硬件通过使标签无效并重新获取行来自动纠正错误数据,通过bit交织来防止多位错误。

功能目标

提高了系统的可用性/可维护性

使用方式

自动生效,不可配置

约束/限制

 

10. L2/L3 Cache with DEC-TED ECC

功能名称

L2/L3 Cache with DEC-TED ECC

功能说明

L2/L3 高速缓存中的大尺寸数组使它们比其他结构更容易受到瞬态故障和硬故障(即损坏的位)的影响。 L2/L3 高速缓存 ECC 提供双重纠错、三重错误检测 (DEC-TED) 功能。 与传统的单纠错、双错误检测 (SEC-DED) ECC 相比,增加了一个额外的纠错层。 DEC-TED 通过纠正双比特错误来减少多位瞬态错误的影响。 它还减少了单比特硬故障的影响,且能够纠正缓存行受影响部分中的第二个单比特错误。

功能目标

提高了系统的可用性/可维护性

使用方式

自动生效,不可配置

约束/限制

 

11. L2/L3 Cache Tag and State with SEC-DED ECC

功能名称

L2/L3 Cache Tag and State with SEC-DED ECC

功能说明

L2/L3 高速缓存标签和状态阵列受到单错误纠正、双错误检测 (SECDED) ECC 的保护。 当检测到单比特错误时,处理器通过将更正后的标签写回数组并重试事务来自动执行更正。 当检测到双比特错误时,处理器会生成系统致命错误事件。

功能目标

提高了系统的可用性/可维护性

使用方式

自动生效,不可配置

约束/限制

 

12. L2/L3 Cache Boot-Time Self Test and Repair

功能名称

L2/L3 Cache Boot-Time Self Test and Repair

功能说明

L2/L3 缓存阵列包含备用位,可配置为替换坏位。 复位时,处理器在 L2 /L3阵列上运行一系列内置自检算法 (BIST),并用备用资源替换故障位。 这些阵列中的硬故障通常可以通过重新启动系统来修复。

功能目标

提高了系统的可用性/可维护性

使用方式

自动生效,不可配置

约束/限制

 

4.3  内存RAS功能

1. DRAM Error Correction Code

功能名称

内存ECC

功能说明

处理器的系统内存受纠错码(ECC) 保护。内存控制器支持x4x8两种纠错码。

x8 ECCx4内存一起使用时,ECC提供“chipkill”单内存颗粒数据纠正,可以纠正故障内存颗粒出现的所有错误。与只能纠正单比特错误的更传统的SEC-DED ECC相比,chipkill-correct可将内存不可纠正错误率降低40 倍以上

功能目标

降低内存不可纠正错误率

使用方式

接入带有ECC的内存时默认开启,推荐使用x8 ECC

约束/限制

 

2. DRAM Software-Managed Bad Symbol ID

功能名称

DRAM 软件管理的错误Symbol ID

功能说明

x8 ECC 可以通过软件管理算法进一步增强,以提供针对同一ECC字中的两个Symbol错误的覆盖。 当使用chipkill配置时,坏Symbol  ID在固件确定第一个内存颗粒故障后提供有保证的双DRAM颗粒检测

功能目标

提升内存ECC的纠错能力

使用方式

默认关闭,BIOS可配置

约束/限制

 

3. DRAM Patrol Scrubber

功能名称

内存定期巡检

功能说明

DRAM定期巡检功能通过对内存执行读取-修改-写入,以检测和纠正潜在错误。每个周期唤醒一次并检查内存中的下一个顺序位置。内存上的某些位置可能会长时间不被访问,因此定期巡检是检查内存并增强数据完整性的一种良好、低成本的方法

功能目标

通过错误变为不可纠正错误之前从内存中纠正可纠正错误来提高可靠性

使用方式

安装ECC内存时默认开启,且默认巡检周期为24小时,BIOS可配置

约束/限制

 

4. DRAM Redirect Scrubber

功能名称

DRAM Redirect Scrubber

功能说明

重定向清理器通过向正常操作期间访问的 DRAM 地址发出回写来清理 DRAM,用于纠正单比特可纠正错误。启用后,只要内存读取检测到可纠正的 ECC 错误,就会调用重定向清理器。

功能目标

纠正内存的单Bit可纠正错误

使用方式

安装ECC内存时默认开启,BIOS可配置

约束/限制

 

5. DRAM可纠正错误漏斗

功能名称

DRAM可纠正错误漏斗

功能说明

监测在指定的时间周期内可纠正错误的数量,在时间周期内出现的内存可纠正错误计数超过设定的内存CE累计阈值,将向HDM发送告警

功能目标

监测在设定的时间内可纠正错误的数量,并及时上报BMC

使用方式

默认开启,BIOS可配置漏斗周期及阈值

约束/限制

 

6. DRAM Address/Command Parity with Replay

功能名称

DRAM Address/Command Parity with Replay

功能说明

根据DDR4标准,处理器在DDR4地址/命令总线上实现奇偶校验。如果发生奇偶校验错误,则重试该命令。此功能为总线上的瞬态错误提供检测和恢复

功能目标

为内存的地址/命令线提供奇偶校验功能,检测并修复错误

使用方式

默认开启奇偶校验,默认禁用重试,BIOS可配置

约束/限制

 

7. DRAM Write Data CRC with Replay

功能名称

内存写数据CRC重试

功能说明

内存控制器支持循环冗余校验 (CRC) 以保护写入 DRAM 的数据。启用后,内存控制器计算写入数据的 CRC,并使用两个额外的数据节拍将其发送到 DRAM。如果检测到 CRC 错误,DRAM会通知内存控制器,内存控制器将尝试恢复并重试受影响的事务,直至达到次数限制。当重试成功时,将记录一个可纠正错误。如果超出重试限制,则会创建系统致命错误事件。

功能目标

在内存写入过程中检测并纠正内存数据总线问题

使用方式

默认关闭,BIOS可配置

约束/限制

 

8. DRAM Thermal Throttling

功能名称

内存热节流

功能说明

当接近DIMM 温度限制并且 DIMM置位 EVENT_L 引脚时,处理器支持热节流。处理器提高刷新率以保持数据完整性,并对命令总线施加带宽上限。

功能目标

通过避免由于超出温度限制而导致的停机情况来提高可用性

使用方式

默认开启,BIOS可配置

约束/限制

 

9. Row Hammer Protection

功能名称

Row Hammer Protection

功能说明

内存控制器提供针对Row Hammer问题的保护。Row Hammer指对单个位置的重复、高频访问可能会导致其相邻行的内存单元发生反转,从而改变内存中的数据。内存控制器中的可配置值Trcpage 可用于设置每页的行周期时间,通过限制页面可以保持打开的最短时间来消除Row Hammer干扰。

功能目标

防止对内存单个位置的重复、高频访问导致附近位置混乱的问题

使用方式

硬件默认开启

约束/限制

 

10. Memory Controller SRAM ECC

功能名称

Memory Controller SRAM ECC

功能说明

内存控制器使用SEC-DED ECC从某些内部阵列读取数据时检测和纠正错误。通过位交织来防止多位错误。

功能目标

为内存控制器SRAM提供ECC

使用方式

硬件默认开启

约束/限制

 

11. Memory Controller Data Fabric Parity

功能名称

Memory Controller Data Fabric Parity

功能说明

内存控制器在其数据结构连接上提供奇偶校验检测。

功能目标

为内存控制器DF提供奇偶校验

使用方式

硬件默认开启

约束/限制

 

12. DRAM MCA Address Translation

功能名称

DRAM MCA Address Translation

功能说明

记录 DRAM ECC 错误时,内存控制器会在MCA寄存器中记录地址的截断版本。此地址需要实现特定的代码来转换为平台固件或操作系统可以使用的系统物理地址,并转换为平台可以使用的 DRAM 物理地址(片选///列)。

功能目标

提高了系统的可用性/可维护性

使用方式

自动生效,不能关闭

约束/限制

 

13. ECC Symbol to DRAM Device Translation

功能名称

ECC Symbol to DRAM Device Translation

功能说明

当记录已纠正的DRAM ECC错误时,内存控制器会在MCA寄存器中记录错误的ECC symbol。本功能支持将此符号转换为平台固件可以使用的DRAM设备编号。

功能目标

提高了系统的可用性/可维护性

使用方式

自动生效,不能关闭

约束/限制

 

14. 内存测试

功能名称

内存测试Memory Tester

功能说明

支持测试已安装的内存,检查是否存在损坏的 DIMM

在重启过程中,内存测试器从系统中每个已安装的通道和 DIMM 上的一组地址写入和读取数据。 如果在访问 DIMM 时检测到无法纠正的 ECC 错误,则该 DIMM 被标记为损坏。 DIMM 被标记为坏时,将禁用该DIMM 并执行系统热重启,重新初始化系统为没有该 DIMM 的内存映射。

功能目标

增加内存故障测试,禁用故障内存,提升内存可靠性

使用方式

默认开启,不可配置

约束/限制

 

4.4  PCIe RAS功能

1. PCIe AER

功能名称

PCIe AER

功能说明

处理器上的每个PCIe根端口都支持AER功能,实现PCIe设备的高级错误处理、诊断和恢复功能。该功能作用于连接外部设备的物理根端口及用于连接内部PCIe设备的内部根端口。该处理器支持操作系统优先和固件优先报告PCIe AER错误。

功能目标

增强BIOS对故障的控制

使用方式

默认开启,不可配置

约束/限制

 

2. PCIe链路奇偶校验及 ECC

功能名称

NBIO, PCIE and NBIF Parity and ECC

功能说明

PCIe 接口(NBIO)、外部 PCIe根端口(PCIE)和内部PCIe根端口(新PCIe总线接口或“NBIF”)中对正确计算至关重要的阵列使用ECC或奇偶校验。在读取数据时检测并纠正错误,一些不可纠正的错误被转化为中毒标记,而另一些则触发系统致命错误事件。

功能目标

通过位交织保护阵列免受多位错误的影响。

使用方式

自动生效,BIOS可配置

约束/限制

 

3. Incoming Poison and Other PCIe Errors

功能名称

Incoming Poison and Other PCIe Errors

功能说明

处理器上的 PCIe 根端口支持检测 PCIe 指定的错误。记录错误并报告给 PCIe AER

功能目标

提升PCIe链路的可靠性

使用方式

默认关闭

约束/限制

 

4. Poison Data Propagated to Internal and External PCIe Devices

功能名称

毒性数据传播到内部和外部 PCIe 设备

功能说明

本功能支持将毒性数据传播到外部和某些内部 PCIe 链路,包括内部 SATA USB 设备。通过设置毒性掩码,控制是否允许毒性数据传播到相应的链路。如果将毒性数据发送到不支持接收毒性数据的链路,会生成系统致命错误事件。

功能目标

增强PCIe链路的毒性数据的包容性,提升系统可用性

使用方式

默认开启,不可配置

约束/限制

 

5. NBIO Corrected Error Thresholding

功能名称

NBIO Corrected Error Thresholding

功能说明

PCIE Root Port计数可纠正错误,并在达到一个可配置的阈值时生成一个中断。错误将被记录在特定于实现的寄存器中,并通过SMI 报告给BMC BERT

功能目标

监测在设定的时间内可纠正错误的数量,并及时上报

使用方式

默认开启,不可配置

约束/限制

 

6. NBIO Deferred Error Thresholding

功能名称

NBIO Deferred Error Thresholding

功能说明

PCIE Root Port计数延迟错误,并在达到一个可配置的阈值时生成一个中断。错误将被记录在特定于实现的寄存器中,并通过SMI 报告给BMC BERT

功能目标

监测在设定的时间内延迟错误的数量,并及时上报

使用方式

默认开启,不可配置

约束/限制

 

7. PCIe eDPC

功能名称

PCIe Enhanced Downstream Port Containment (eDPC)

功能说明

服务器支持外部 PCIe 链路上的增强型PCIe下游端口遏制。eDPC 为每个 PCIe 链路错误的隔离和恢复定义了标准机制。支持在检测到链路错误(格式错误的 TLP、意外停机等)时,禁用单个 PCIe 链路,同时强制终止未完成的、未发布的请求,使软件可以重新训练链路并重新初始化下游设备。

功能目标

通过PCIe链路上的错误隔离与恢复,避免传播潜在的不良数据

使用方式

自动生效,不可配置

约束/限制

 

8. PCIe 端到端循环冗余码ECRC

功能名称

PCIe 端到端循环冗余码ECRC

功能说明

根据PCIe Gen 3规范实现PCIe端到端CRC。该处理器支持生成 PCIe ECRC和检查所有 PCIe 根端口。 对于通过处理器的peer-to-peer请求,不会保留 ECRC 通常,只有在根端口和端点之间存在交换机时,才应在根端口和端点中启用 ECRC 生成功能。

功能目标

在两个PCIe终端之间交换数据时实现更高的数据完整性

使用方式

默认开启,可以通过BIOS设置开启

约束/限制

 

9. PCIe热插拔

功能名称

PCIe热插拔

功能说明

支持PCIe设备的热插拔,可以支持用户在系统不断电的情况下,进行故障设备的更换,使服务器恢复正常工作。

功能目标

提升系统可用性

使用方式

默认开启,BIOS可配置

约束/限制

 

4.5  SATA/USB/FCH RAS功能

1. FCH启动定时器

功能名称

Fusion Controller Hub Boot Timer

功能说明

Fusion Controller Hub 提供启动定时器。如果固件在复位释放后 1.17秒内没有禁用定时器,则启动定时器会启动热复位事件以恢复系统。

功能目标

使系统关键组件出现启动失败时能够快速且及时地恢复

使用方式

硬件默认开启

约束/限制

 

2. FCH看门狗定时器

功能名称

FCH Watchdog Timer

功能说明

FCH提供了一个看门狗定时器。如果定时器到期而没有软件重置计数器,FCH将重置或关闭系统电源。该功能通常由操作系统使用。

功能目标

保证组件级别的可靠性

使用方式

硬件默认关闭

约束/限制

 

3. FCH Reset Status

功能名称

FCH Reset Status

功能说明

FCH提供了保存先前重启原因的寄存器。FCH S5_Reset_Status 寄存器包含上一次复位的原因,包括硬件引起的致命错误、x86 三重故障关闭事件以及按钮和软件触发的复位。

功能目标

增强BIOS对故障的控制

使用方式

默认开启

约束/限制

 

4. FCH SMI中断处理程序

功能名称

FCH SMI中断处理程序

功能说明

FCH为处理器提供SMI处理服务。AGESA 中的 SMI 处理程序必须了解可能生成 SMI 的其他组件,因此处理程序可以将这些组件包含在其 SMI 进程中。

功能目标

提供了SMI中断的处理服务

使用方式

默认开启,不可配置

约束/限制

 

5. Serial ATA (SATA) 奇偶校验

功能名称

Serial ATA (SATA) 奇偶校验

功能说明

对正确计算至关重要的SATA块中的阵列在读取数据时使用奇偶校验来检测错误。 检测到的错误记录在特定的寄存器中。

功能目标

通过奇偶校验保护阵列免受多位错误的影响。

使用方式

自动生效,不可配置

约束/限制

 

6. Universal Serial Bus (USB) ECC

功能名称

Universal Serial Bus (USB) ECC

功能说明

USB控制器模块中的阵列对正确计算至关重要,使用 ECC 在读取数据时检测和纠正错误。

功能目标

通过位交织保护阵列免受多位错误的影响。

使用方式

自动生效,不可配置

约束/限制

 

4.6  DF及总线的RAS功能

1. On-Chip Data Bus Parity

功能名称

On-Chip Data Bus Parity

功能说明

处理器在片上数据总线上实现奇偶校验。检测到的奇偶校验错误被记录为延迟错误,并将数据标记为中毒。

功能目标

On-Chip数据总线提供奇偶校验

使用方式

硬件默认开启

约束/限制

 

2. Data Fabric Watchdog Timers

功能名称

Data Fabric Watchdog Timers

功能说明

Data Fabric看门狗计时器(WDT)用于检测内部 Data Fabric无法向前推进的情况并从中恢复。WDT 是可配置的计数器,每次启动事务时都会重新启动。 如果事务没有在指定的时间段内完成,则会发生机器检查错误。 看门狗超时会生成系统致命错误事件。

功能目标

检测DF内部超时异常,帮助从异常中恢复

使用方式

自动生效,不可配置

约束/限制

 

3. System Probe Filter ECC

功能名称

System Probe Filter ECC

功能说明

DF中包含一个系统探测过滤器,限制必须发送的一致性探测的数量。此外,探测过滤器可以限制向其发送一致性探测的目标的数量。探测过滤器使用 SEC-DED ECC 在从探测过滤器阵列读取数据时检测和纠正错误。

功能目标

探测过滤器通过位交织来防止多位错误。

使用方式

默认开启,不可配置

约束/限制

 

4. On-packageoff-package PHY控制器ECC

功能名称

On-packageoff-package PHY控制器ECC

功能说明

On-packageoff-package链路上有一个用于存储 PHY 控制器微码的阵列。 该阵列使用 SEC ECC 在从该阵列读取数据时检测和纠正错误。

功能目标

通过位交织保护阵列免受多位错误的影响。

使用方式

默认开启,不可配置

约束/限制

 

4.7  SMNSMURAS功能

1. SMN奇偶校验

功能名称

System Management Network Parity

功能说明

处理器在片上系统管理网络(SMN)上实现奇偶校验。记录检测到的奇偶校验错误并触发系统冷复位。

功能目标

保证组件级别的可靠性

使用方式

自动生效,不可配置

约束/限制

 

2. SMN Off-Package Link Packet CRC with Retry

功能名称

SMN Off-Package Link Packet CRC with Retry

功能说明

该处理器在海光的Off-Package SMN广域功能链路(WAFL)上执行带有重试的CRC代码。

如果链路可纠正错误率超过可配置阈值,则会在MCA中记录错误,因为这可能表明系统性能下降。MCA功能可用于在记录链路错误时生成中断。链路不可纠正的错误记录在MCA中并导致系统冷复位。

功能目标

保证组件级别的可靠性

使用方式

自动生效,不可配置

约束/限制

 

3. SMN On-Package Link Packet CRC with Retry

功能名称

SMN On-Package Link Packet CRC with Retry

功能说明

在处理器的SMN On-Package WAFL In-socket Xtension (TWIX)链路上实现 CRC 代码重试。

如果链路可纠正错误率超过可配置阈值,则会在 MCA 中记录错误,因为这可能表明系统性能下降。 MCA 功能可用于在记录链路错误时生成中断。 链路不可纠正的错误记录在 MCA 中并导致系统冷复位。

功能目标

保证组件级别的可靠性

使用方式

自动生效,不可配置

约束/限制

 

4. SMN Timeouts

功能名称

SMN超时

功能说明

SMN提供超时来检测网络无法向前推进的情况并从中恢复。如果某个操作在指定的时间段内未完成,则会发生超时,从而导致系统冷复位。

功能目标

监测SMN中操作超时的情况,及时复位

使用方式

自动生效,不可配置

约束/限制

 

5. SMU and PSP Production Mode

功能名称

SMU and PSP Production Mode

功能说明

SMU PSPdebug模式下,由 PSP FW SMU FW 检测到的不可纠正错误将会挂起而不是重置系统,以方便调试。

功能目标

便于系统在生产阶段的调试

使用方式

生产模式下默认启用

约束/限制

 

6. SMU/PSP/PTDMA看门狗定时器

功能名称

SMU/PSP/PTDMA看门狗定时器

功能说明

SMUPSP PTDMA 在处理器拓扑中显示为内部PCIe设备(通过NBIF连接)。设备可以通过PCIe接口向处理器的其余部分发出事务,事务可能会挂起。为了帮助从挂起中恢复,处理器在这些设备的 PCIe 接口上实现了看门狗定时器

功能目标

增强系统各部分从故障中恢复的能力

使用方式

默认开启,不可配置

约束/限制

 

7. SMU/MP5/PSP Parity and ECC

功能名称

SMU/MP5/PSP Parity and ECC

功能说明

SMU/MP5/PSP中对正确计算至关重要的阵列使用 ECC /或奇偶校验在读取数据时检测和纠正错误。 无法纠正的错误会触发系统冷复位。 通过位交织保护阵列免受多位错误的影响。

功能目标

提升系统的可靠性

使用方式

自动生效,不可配置

约束/限制

 

4.8  服务器部件RAS功能

1. 电源 N+N 冗余,支持热插拔

功能名称

电源N+N冗余,支持热插拔

功能说明

可以直接由机器后面板进行热插拔。

功能目标

保证服务器供电系统的可用性

使用方式

自动生效,不能关闭

约束/限制

 

2. 风扇提供 N+1 冗余,支持热插拔

功能名称

风扇提供N+1冗余,支持热插拔

功能说明

风扇支持N+1冗余,即支持单风扇失效。可以直接由机器后面板进行热插拔。

功能目标

保证服务器散热系统的可用性

使用方式

自动生效,不能关闭

约束/限制

 

3. 存储控制卡支持 RAID,硬盘支持热插拔

功能名称

存储控制卡支持 RAID,硬盘支持热插拔

功能说明

存储控制卡支持RAID 0/1/1 ADM/10/10 ADM/1E/5/50/60,硬盘支持热插拔

功能目标

保证存储系统的可用性

使用方式

RAID 组构建需要专门配置

约束/限制

支持的RAID级别与使用的存储控制卡相关

 

4. 故障硬盘的定位

功能名称

故障硬盘的定位

功能说明

可以定位到单个硬盘故障

功能目标

快速找到故障硬盘

使用方式

自动生效,不能关闭

约束/限制

 

5. 掉电保护功能

功能名称

掉电保护功能

功能说明

整机掉电时,能防范数据丢失的能力。在服务器断电的情况下,存储控制卡上的缓存数据在电池的作用下仍能保存。当服务器恢复供电,存储控制卡正常后,会先把缓存中的数据写回硬盘。

功能目标

防范因异常掉电导致数据丢失

使用方式

自动生效,不能关闭

约束/限制

由于RAM电池容量限制,而数据又是保存在RAM中,能保护的时长有限,通常是几个小时到几十个小时之间,具体规格由型号决定

 

6. 硬盘故障监控&恢复功能

功能名称

硬盘故障监控&恢复功能

功能说明

识别到物理盘或逻辑盘故障时,能够通过带内/带外通道通知用户:

·     带外通过标准SEL事件日志上报故障。

·     标识出各个下挂硬盘的状态。

在已组RAID的情况下,可利用相应RAID的特点,恢复部分硬盘失效导致的问题。

功能目标

快速识别故障硬盘,防止错误扩展;在部分盘失效时,利用RAID特性来恢复数据

使用方式

自动生效,不能关闭

约束/限制

 

7. 存储控制卡自身故障定位

功能名称

存储控制卡自身故障定位

功能说明

存储控制卡自身故障时,可及时通过各种途径展现出来:

·     大多数机型设置有存储控制卡温度传感器,当存储控制卡过温时,可通过传感器上报告警。

·     可通过一键下载功能获取存储控制卡自身的串口日志(仅部分机型支持),及时了解存储控制卡内部的运行状况。

功能目标

可方便监控存储控制卡运行状态,有效识别存储控制卡故障,加快问题排查

使用方式

自动生效,不能关闭

约束/限制

 

4.9  HDM RAS功能

1. 提供带外管理软件双镜像功能

功能名称

提供双带外管理软件双镜像功能

功能说明

如果HDM启动文件的一个镜像出现错误,系统会自动从另一个镜像实现启动

功能目标

保证HDM软件的可用性

使用方式

自动生效,不能关闭

约束/限制

 

2. 集中式故障管理系统

功能名称

集中式故障管理系统

功能说明

·     故障管理系统对服务器进行了全面的监控,并且提供了可靠的故障检测和故障预测机制。并通过HDM对用户进行告警,能检测到的故障包括:

·     CPU硬件故障(CAT ERROR、自检失败、配置错误)

·     超温告警(进风口、CPU、内存、系统电源、硬盘)

·     主板和板卡电压故障

·     风扇故障

·     系统电源故障(AC/DC输入丢失、高温、电源风扇故障)

·     DDR3/DDR4内存故障(可纠正ECC错误超门限、高温、配置错误)

·     存储系统的故障,包括LSI存储卡、SAS/SATA硬盘故障和逻辑盘异常。

·     系统宕机故障

·     通过系统健康灯来标识系统硬件的监控状态

·     可通过SEL事件日志来识别对应的失效部件

·     可通过SEL事件日志来识别HDMOS重启的原因

功能目标

为用户提供一站式的故障管理中心

使用方式

自动生效,不能关闭

约束/限制

 

3. 故障处理器的定位

功能名称

故障处理器的定位

功能说明

可通过HDM查看事件日志上报的故障处理器的具体槽位

功能目标

快速找到故障点

使用方式

自动生效,不能关闭

约束/限制

 

4. 故障内存条的定位

功能名称

故障内存条的定位

功能说明

故障管理系统可以定位故障内存条的具体位置,客户可以通过HDM事件日志告警信息找到故障的内存条

功能目标

可精确定位故障内存条

使用方式

自动生效,不能关闭

约束/限制

 

5. 故障电源的定位

功能名称

故障电源的定位

功能说明

可以通过HDM 事件日志告警信息或者电源指示灯定位至故障的电源

功能目标

快速找到故障电源

使用方式

自动生效,不能关闭

约束/限制

 

6. 故障风扇的定位

功能名称

故障风扇的定位

功能说明

可以通过HDM事件日志告警信息定位至故障的风扇

功能目标

快速找到故障风扇

使用方式

自动生效,不能关闭

约束/限制

 

7. HDM可实现系统软件和固件远程升级

功能名称

HDM可实现系统软件和固件远程升级

功能说明

实现远程软件和固件的升级

功能目标

增加可服务性

使用方式

自动生效,不能关闭,可以通过HDM升级

约束/限制

 

8. HDM提供蓝屏快照功能

功能名称

HDM提供蓝屏快照功能

功能说明

用于查看服务器Windows操作系统发生故障重启前自动捕获的蓝屏快照,通过蓝屏快照可对故障进行快速分析。HDM最多可保存十张蓝屏快照,并以快照捕获时间及序号命名。当蓝屏快照超过十张时,新的快照会覆盖最早生成的快照。

功能目标

客户发现宕机时,可以查看宕机截图辅助故障的定位

使用方式

默认开启,可以通过HDM设置为关闭

约束/限制

·     必须先开启KVM服务,本功能才会生效

·     HDM最多可保存十张蓝屏快照

 

9. HDM提供录像回放功能

功能名称

HDM 提供录像回放功能

功能说明

开启服务器的自动录像功能。当服务器操作系统发生崩溃、重置或关机时,系统会自动录制事件发生前的录像。技术人员可以通过服务器操作系统在崩溃、重置或关机前录制的视频,对操作系统崩溃、重置或关机的原因进行分析。

功能目标

客户需要查看录像时,可以通过HDM的录像回放控制台播放,帮助故障精确定位

使用方式

默认开启,可以通过HDM设置为关闭

约束/限制

·     必须先开启KVM服务,该功能才会生效

·     录制视频过程中,必须保持远程控制台处于关闭状态

·     崩溃前录像只支持Windows系统

·     如果事件发生时,操作系统处于休眠状态,查看录像回放时会显示无信号

 

10. HDM提供一键日志收集

功能名称

HDM提供一键日志收集

功能说明

用于收集服务器的SDS日志,SDS日志包括事件日志、存储日志、静态日志和HDM日志。一键收集日志时,您可以选择下载指定时间段内的SDS日志,也可以下载整个SDS日志。

具有以下亮点:

·     携带简易故障定位指南

·     信息明文化方式展现

·     可在带内、带外,通过多种方式来获取

·     每个故障发生时,会记录对应的上下文信息,方便定位

功能目标

故障数据收集,故障分析,故障诊断,提供精确定位的能力,提升可维护性

使用方式

默认开启,可以通过HDM下载

约束/限制

 

新华三官网
联系我们