H3C智能管理中枢最佳实践-6W101

04-智能诊断最佳实践

H3C 智能诊断

最佳实践

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

除新华三技术有限公司的商标外，本手册中出现的其它公司的商标、产品标识及商品名称，由各自权利人拥有。

本文档中的信息可能变动，恕不另行通知。

2.4.8 存储线缆诊断——AUX线缆诊断、SAS线缆诊断、NVMe线缆诊断

3.4.1 UniSystem服务端配置需求

4.3.6 查看硬盘的健康状态和硬盘的修复记录

4.4.1 全面监控硬盘状态，预测硬盘寿命，帮助用户精准备货

4.4.2 内存智能修复等技术，提供全生命周期诊断，降低业务运行风险

4.4.3 丰富的故障上报方式，助力用户便捷维护

1 产品简介

1.1 HDM2

HDM是H3C服务器设备上的BMC，是UniServer系列服务器的板级固件，可满足从数据中心到个体客户的计算以及存储的应用需求。HDM2是HDM的升级版本，以智能部署、智能调优、智能节能、智能诊断、智能退役的五维智能为数据中心服务器提供全生命周期智能管理，应用于HPC、AI、数据库、缓存服务器、文件服务器、存储服务器等众多应用场景，运行于现网百万级别的服务器设备上，在百行百业的应用场景中得到实际验证。

为描述方便，以下内容HDM均表示HDM2。

HDM支持不同类型的链路通道，如I2C、I3C、PECI、PCIe、USB等通道方式，以满足不同部件如存储、GPU、NIC、CPU、内存等带外管理要求。同时提供了丰富的用户接口，如基于Web界面的用户接口、命令行、IPMI接口、Redfish、SNMP接口，所有用户接口都采用了认证机制和高度安全的加密算法，保证接入和传输的安全性。

图1-1 HDM简介

1.2 UniSystem

随着互联网技术的快速发展，企业对计算、网络的需求也越来越大。为了保证整个数据系统可靠、稳定的运行，相关企业对运维系统的要求越来越高，运维成本也在随之逐步增加。

UniSystem是H3C公司自主研发的运维管理软件，能够有效地帮助企业提升数据中心级别的运维能力。企业用户可根据实际需求借助UniSystem对数据中心内的设备进行灵活的监控以及配置部署，从而打造专属的运维环境。UniSystem能有效帮助企业提高运维效率，降低运维成本。

UniSystem可以部署在虚拟机上，作为服务器的运维管理软件。同时，UniSystem可作为H3C UniServer B16000 AE模块的出厂内置软件，帮助用户对机箱服务器进行配置和管理。在AE的使用场景中，UniSystem不仅可以管理AE所在的本地机箱，还能够管理网络中的其他机箱服务器、机架服务器、交换机设备，适用于混合IT架构。

图1-2 UniSystem简介

2 方案介绍

2.1 应用场景

传统的服务器在诊断方向上有以下困难：

· 服务器故障频发

服务器在日常的工作和生产中容易出现各类的错误，如主板故障率高、内存故障率高、有时候带内可能存在误告警。

· 诊断工具不完善

许多传统服务器的诊断工具无法提供详细的系统状态信息和故障相关信息，或其用户界面不够友好，给故障诊断带来不便。

· 故障信息收集困难

在故障发生时，往往需要收集大量的信息用于诊断，系统收集告警日志时可能会出现反复收集日志或日志收集不及时的情况，运维人员可能会遗漏重要的信息。

· 服务器故障定位困难

在大量的信息中甄别便于诊断的信息比较困难，导致无法清晰准确的定位发生故障的部件类型、位置及故障原因，增加了故障排查和修复的时间。

· 维护工作繁重、维护成本高

维护人员需要花费很多时间对故障设备进行巡检和排查，有时可能会出现多次上门维修、更换多个部件的情况，增加了维护的工作量、维护成本及维护难度。

· 风险管理困难

传统服务器定位系统架构中的故障是比较困难的，当批量管理故障也是一直以来的难题，设备风险管理困难会增加系统运行的不稳定性和风险。

· 缺乏有效的预防机制

传统服务器在设计时往往没有考虑故障预防，导致故障发生后，缺乏有效的预防机制来防止故障再次发生。

为了解决上述问题，智能诊断方案应运而生，实现多类型故障的自动化诊断及修复，有效的解决或改善故障相关问题，提高设备的稳定性和可靠性，降低维护成本和风险。

2.2 方案架构

智能诊断架构如图2-1所示，方案架构基于HDM、UniSystem和BIOS等组件和功能，融合本地运维管理软件U-Center和远程运维管理软件iService，使得用户在使用及维护服务器时，无论在线或离线，本地还是远程，都能对服务器进行有效的监控与故障分析，以下为智能诊断方案架构各部分的优势介绍：

· 本地运维管理软件：U-Center

¡ 提供基于诊断日志的离线故障分析功能

¡ 支持在线监控与诊断功能

· 远端运维管理软件：iService

¡ 提供基于诊断日志的离线故障分析功能

¡ 支持远程报故障、报修

· HDM Web界面

¡ 提供更友善的Web呈现方案

¡ 用树状层级方式标识告警

· 全生命周期管理软件：HDM

¡ 提供更完善的日志分类

¡ 提供全生命周期的告警记录

¡ 提供诊断到部件的告警信息

¡ 支持策略定制的告警输出，满足各场景的需求

· HDM标准接口

¡ 在多个通道下提供一致的输出内容

¡ 支持加密链路的告警传递

¡ 基于标准IPMI事件日志输出告警

¡ 支持一键全部下载日志与按天下载日志

· 服务器产品线级硬件接口

¡ 硬件和部件指示灯

¡ 按键、蜂鸣器和丝印标识

图2-1 方案架构

2.3 方案优势

1. 全面的故障源感知及故障模式分析

对于服务器的监控，特别是对硬件的监控，有多种途径可以实现，包括通过BIOS和OS传递告警信息、通过ME监控CPU、直接通过部件的带外访问能力获取告警信息、通过CPLD监控信号发现告警信息等。除了监控硬件设备会产生告警，监控软件内部也会产生告警。

2. 完善的告警处理机制

H3C公司拥有专业的大数据训练团队和平台，持续汇聚AI训练所需的关键部件的训练样本，并基于业界先进的机器学习技术对数据持续进行训练，所得模型全方位部署于HDM、UniSystem、云端运维系统上，以实现对服务器全部件、全状态、全带外的运行状态的实时监测，让运维工作更加高效、简便、主动。

当前，诊断模块利用SDS（Smart Diagnosis System，智能诊断系统）对服务器各部件进行监控，全生命周期记录其运行状态，联动记录故障上下文数据，并内置了1500多条规则来进行判断，以实现对服务器各部件的深度故障诊断和故障预测，故障准确率可达95%，达到业界先进水平。

故障诊断处理模块是SDS的核心。对硬件、BIOS、HDM以及操作系统各个维度的数据进行采集与分析，深入研究分析对应的标准、代码实现、现网的故障数据，逐步完善并形成一套故障诊断系统，覆盖故障明确、故障自愈、故障隔离、故障修复、故障预警、故障处理等相关维度。

· 故障明确

通过全面监控服务器，内置多个故障检测点以及采用专家规则进行诊断。

¡ 对服务器进行全面监控，包括整机工作环境、各个部件、主机状态等，持续记录发生在服务器运行中各类潜在的、有风险的事件。

¡ 内置1500+个故障检测点，覆盖所有部件的已知错误点。

¡ 采用内置的专家规则进行诊断，分级定性呈现各类故障，故障可明确定位到部件级别，准确率达95%以上。

高效的识别和定位各类故障，能够提高故障检测的准确率，同时降低管理维护的成本。

· 故障自愈

模块内部对发现的服务器故障进行尝试自愈操作，提高设备的可服务性时长。实现的方式有：

¡ 充分利用硬件的RAS能力，对CE错误、可恢复的UCE错误进行自动恢复处理或故障隔离处理。

¡ 采用冗余技术来确保BMC、BIOS固件的安全，在故障时可自动对部分固件进行恢复。

¡ 采用重启恢复机制，对I2C等不影响用户业务的故障进行重启恢复。

在部分场景下进行故障自恢复，能够避免可修复的错误导致的意外宕机或业务迁移，防止该类错误干扰生产活动。

· 故障隔离

模块内部对发现的故障进行隔离操作，减少对当前系统的影响，在降低规格的情况下让业务继续运行。

¡ 内存有部分发生UCE错误时，可采用PPR来隔离故障的内存区域，避免后续访问该区域造成的系统宕机。

¡ 内存有部分发生CE错误时，可采用操作系统的Page offline来软隔离故障的内存页，避免后续访问该区域造成的系统宕机。

¡ 启动时发现内存、CPU、PCIe故障，可对部分故障进行自动隔离，服务器通过余下的可用组件仍可启动并进入系统。

对部分故障进行隔离，使用降额配置来启动系统，满足部分需要不间断进行业务服务、业务迁移等活动的需求。

· 故障修复

模块内部充分挖掘设备各个部件的潜力，对一些故障进行自动修复，对部分故障进行快速修复处理，达到降低甚至不影响到当前正在运行的业务的效果。

¡ 采用后台巡检技术，发现潜在的风险点，采用替换的方案来修复部分内存的UCE故障。

¡ HDM支持安装冷、热补丁包，可快速修复一些轻量级的问题。

部分场景下支持CPU微码的在线升级、HDM的在线升级，满足因部分业务运行而不能停机的情况下，进行故障修复的需求。

· 故障预警

模块内部采用先进的AI技术，对系统运行数据进行监控处理，提前发现潜在故障部件，让用户面对各类潜在的风险能够运筹帷幄。

¡ 支持对NVMe盘寿命进行监控，预测到期故障。

¡ 支持对SATA HDD盘进行SMART信息监控和阈值预告警。

¡ 支持对内存进行智能修复，能够对操作系统风险地址进行软隔离。

3. 丰富的故障上报方式

HDM支持实时监测硬件和系统的故障状态，并主动上报故障事件日志，上报的通道包括SNMP Trap、SMTP、Redfish事件订阅、远程Syslog等方式。

HDM还可以通过SDS日志实现离线故障上报诊断能力，通过一键收集功能查看SDS日志中的诊断报告，以获取硬件故障的详细信息。

2.4 方案功能

2.4.1 内存故障诊断

为了提升内存可靠性，通过与内存供应商、CPU供应商进行深度合作，发掘内存RAS特性，针对内存在服务器的全生命周期进行审视，以便提升内存的可靠性。HDM在内存RAS方面采用的技术要点有：

· 集成Intel MRT

Intel MRT根据微观内存故障分布情况进行预测，可提前对映射到物理内存上的不同的row或colonm所处的地址进行预防性处理，进而提升内存可靠性，进一步提高系统的稳定性。有数据表明，之前Intel在国内多家大型互联网机构的数据中心进行合作部署，确认MRT能够有效降低40%以上由内存硬件故障导致的宕机率。

· 优化操作系统页面离线功能

内存预测结果可以与OS联动，对潜在故障页面进行隔离操作。当特定内存区域的错误突然爆发时，该区域很有可能会发生不可纠正错误，进而可能引发系统宕机。通过提前检测能够规避这一情况的发生，根据配置触发OS对风险页进行软隔离操作，防止该页被再次使用，进而减少不可纠正错误发生的风险，提升UCE的规避率。

· 持续优化的预测模型

H3C长期与Intel合作，以获取Intel持续改进的内存故障预测模型，确保预测结果的准确性。

服务器对DIMM，内存条、列、行与单元的实时数据进行采样，将历史探测到的错误类型数据输入到内存故障预测模型中，获取到内存可能存在风险的位置信息。

· 提供内存实时隔离动作的可视化功能

提供MRT通道检测的修复记录，帮助用户直观获取每根内存的修复位置和修复次数，感知内存的健康情况。

· 支持内存预警

提供可靠的内存预故障告警，及时通知用户内存故障的可能性，给用户充足的时间采取如计划宕机等措施来应对潜在的风险。

· 支持内存可靠性感知工作负载迁移

内存预测结果可通过SEL、Redfish event、Web页面、SNMP等多种通道输出，更上层的运维管理系统可以根据策略需要决定是否进行工作负载迁移。

· 减少不必要的DIMM替换

通过分析内存错误和预测潜在的内存故障，日志与Web页面准确标识内存的位置信息并进行隔离，从而不必下电更换内存，保障业务运行。

· 全面集成Intel内存相关的RAS特性

Intel RAS特性，可根据应用场景的需求，配置使能ADDDC、Memory spare、Memory mirror等技术。通过牺牲少量使用空间来换取，来进一步提高内存的可靠性，甚至提升性能。

· 全面集成DDR5自身的监控能力

比如默认开启On-die ECC（Error Correction Code，错误校正码）功能，以便在现场及时纠正内存自身的ECC错误。

带外持续对内存上PMIC单元进行实时监控，实时掌控内存的工作环境。

2.4.2 硬盘故障诊断

HDM通过硬盘SMART参数数据图形化显示、NVMe剩余寿命天数预测以及NVMe/SSD剩余寿命告警等功能，实现了对硬盘全方位的监控和管理。这种高效、直观的硬盘管理方式，不仅可以帮助用户提早发现硬盘问题，避免数据丢失，而且可以帮助用户更好地利用硬盘资源，提高硬盘使用效率。

· 基于SMART信息的硬盘预告警

HDM页面能够图形化显示硬盘各项SMART参数数据，如图2-2所示，包括属性、当前值、阈值、原始值信息。通过对HDD盘SMART数据收集，利用KPI趋势预测算法，预测硬盘未来的SMART数据参数走势，并在Web页面图形化显示。针对SMART中故障相关的关键参数是否超过阈值的情况，上报预告警。

图2-2 SMART信息展示

· 支持NVMe剩余寿命天数预测

HDM通过监控NVMe硬盘的工作状态和性能指标，定期收集硬盘剩余寿命百分比数据，并以天数的形式，呈现在对应盘下，如图2-3所示。利用收集到的数据，对每个时间段内的百分比数据进行归一化处理，并对数据进行分析和建模，确定硬盘剩余寿命百分比的变化趋势。通过分析硬盘剩余寿命百分比的变化趋势，可以得出硬盘的寿命剩余天数，并将其以高可读性的形式呈现给用户。相较于传统的体现方式，剩余寿命天数预测功能能够更直观地呈现硬盘的剩余寿命，帮助用户更快捷、更准确地做出相应决策。

图2-3 NVMe剩余寿命天数

· 支持NVMe/SSD剩余寿命告警

HDM能够实时显示NVMe/SSD的剩余寿命百分比，当NVMe/SSD的使用寿命达到告警阈值时，系统会上报硬盘预告警，通知客户及时更换硬盘，避免数据丢失和硬盘故障。客户可以根据自己的使用需求自行设定告警阈值，如图2-4所示，该功能使得告警功能更加灵活，可满足客户的不同需求。

图2-4 硬盘使用寿命告警设置

2.4.3 电源故障诊断

电源是服务器工作的动力来源，支持并保证服务器正常运行。检测和诊断电源故障是服务器维护的基本要求，HDM采用中断上报和轮询检测机制对电源故障进行监控，将24种电源故障划分为11个类型，涵盖了电源的主要故障类型，实现电源故障的全面监控和诊断。此外，HDM还支持对电源负载不均衡、电源极限功率超过矫正时限等预故障进行告警，提供电源自检失败预告警功能。电源故障的11种类型如下：

· 电源不在位故障

· 电源输入电压故障

¡ 输入欠压告警和保护

¡ 机房输入掉电

¡ 输入电源线接触不良

· 电源风扇故障

· 电源入风口温度故障

¡ 温度过高告警和保护

¡ 温度过低告警和保护

· 电源输出电压故障

¡ 输出电压过低告警和保护

¡ 输出电压过高告警和保护

· 电源输出电流故障

· 电源1Hz闪烁，不供电故障

· 电源IIC通讯异常

· 电源EEPROM信息错误

¡ FRU信息不正确

¡ 非我司认证电源

· 电源型号不匹配

· 电源负载不均衡

2.4.4 列阵卡故障诊断

诊断阵列卡故障能够提高故障排除的效率，HDM支持PMC和LSI阵列卡的故障检测，通过分析上报的事件日志对阵列卡的故障进行诊断。HDM支持100种阵列卡故障类型，上报的故障异常如下：

· RAID卡启动异常

· 线缆异常

· 内存异常

· 电池异常

· 硬盘异常

· 掉电保护模块异常

2.4.5 主机状态迁移

HDM对主机问题进行全面的监控，通过分析标准的传感器和事件日志、前后两次启动的对比信息、固件漂移检测结果、超时监控结果、及时记录BIOS发送的日志、可疑故障提取的上下文等信息，以主机的一次启动作为单元，记录并呈现单元内主机的信息。HDM在安全许可的访问内，最大程度记录主机的行为并呈现，方便后续进行故障诊断。

图2-5 主机重启的各个状态

主机在重启过程中会记录各个阶段的状态、持续时间、重启原因、故障记录等信息，如图2-6所示。

图2-6 主机状态迁移信息页面

2.4.6 巡检功能

UniSystem支持用户对被管理的设备进行健康巡检和资产盘点，支持导出pdf以及xlsx格式的巡检报告。巡检报告中包含服务器概况信息、CPU信息、内存信息、PCIe信息、网卡信息、电源信息、风扇信息、存储信息、健康状态、BIOS启动信息、序列号、设备型号、资产标签以及固件版本等内容。

为了方便用户掌握设备的宏观分布，巡检报告中还包含设备按照健康状态分布、按照产品型号分布、按照固件版本分布、按照处理器核数分布以及按照内存大小分布的情况。为了方便用户灵活使用巡检功能，UniSystem还支持用户在巡检时自定义巡检项，用户可根据健康状态、硬件类型、是否需要详细信息等领域去自定义需要导出的巡检项。为了方便联系到巡检的操作人员，UniSystem支持在巡检报告中自定义巡检员的联系方式、客户单位名称、客户单位地址等信息。

2.4.7 自动报修

iService智慧关怀服务是一款针对X86系列IT产品量身打造的专属主动式智能服务，可帮助客户完成专业化的日志分析、软硬件隐患分析、安全漏洞扫描、固件风险评估，为客户提供全新的智能化使用体验，同时提供详细的分析报告。

1. 报修配置

UniSystem支持对接iService智慧关怀云端平台，在服务器发生告警时，可自动上传SDS日志到云端平台，并自动创建工单。

表2-1 报修配置

配置项	描述
功能开关	控制远程运维开关功能。
连接配置	提供对接iService配置功能，包括：iService IP/域名、iService用户名、iService密码。
局点配置	支持所在局点配置，包括：局点名称、局点详细地址。
报修方式	支持手动报修和自动报修两种方式。
保修卡	支持报修卡配置，包括：客户名称、联系人姓名、联系人电话、合同号。

2. 报修状态

UniSystem支持查看手动报修和自动报修的任务详情，包括：

· 任务：名称、类型、操作人、开始时间、结束时间、状态。

· 服务器：SN、IP地址、报修健康状态、报修状态、开始时间、结束时间、备注。

2.4.8 存储线缆诊断——AUX线缆诊断、SAS线缆诊断、NVMe线缆诊断

HDM实现硬件线缆检测，包括AUX口线缆、SAS线缆、板载NVMe线缆等接线错误监测，及时明确接线错误类型的故障，使故障排除更加高效。

3 要求

3.1 License授权要求

表3-1 HDM管理软件功能授权

软件功能	启用特性	无license时，支持情况	注册license后，支持情况	版本信息	License安装方式	临时授权启用时间	正式授权启用时间	Intel机型	AMD机型
智能监控	内存智能修复	不支持	完全支持	HDM2-1.57	本地安装	授权码首次激活时启用	授权码首次激活时启用	支持	暂不支持

3.2 软件版本要求

表3-2 软件版本要求

软件功能	启用特性
UniSystem	2.59及后续版本
FIST SMS	2.59及后续版本
HDM	HDM2-1.57及后续版本
BIOS	6.00.27及后续版本
iFIST	1.59及后续版本

3.3 操作系统要求

表3-3 操作系统要求

软件功能	启用特性
Linux	Redhat 8.6
Linux	Redhat 9.0

注：内存智能修复功能默认要求page size为4KB/Page。

3.4 硬件配置要求

3.4.1 UniSystem服务端配置 需求

1. 硬件配置需求

如使用TAR安装包安装UniSystem，推荐的硬件配置如表3-4所示。

表3-4 硬件配置需求

CPU架构	CPU内核	内存	所需磁盘空间	网卡
X86	4核及以上	8GB及以上	100GB及以上	一张及以上

随管理设备数量增加需要提升配置。

如使用虚拟机文件安装UniSystem，对硬件配置的要求如表3-5所示。

表3-5 虚拟机的硬件配置需求

CPU内核	内存	所需磁盘空间	网卡
8核及以上	32GB及以上	500GB及以上	一张及以上

2. 软件配置需求

UniSystem服务端的软件配置需求如表3-6所示。

表3-6 软件配置需求

软件配置需求			备注
操作系统	Linux	CentOS 7.5(64 bit)	仅支持64位操作系统
	Windows	Microsoft Windows 7 (64 bit)
		Microsoft Windows 10 (64 bit)
		Microsoft Windows 2012 R2 (64 bit)
	VMware ESXi	VMware ESXi 6.5/6.7	仅支持.ova安装
软件	OpenJDK 1.8版本(64 bit)		-

4 最佳实践

4.1 需求分析

用户对于服务器智能诊断的需求主要集中在实时监控、故障预警和故障诊断等方面。用户希望系统能够监控服务器的关键性能指标，通过智能分析技术快速识别潜在的故障风险，并提供解决方案。同时，用户也期望系统能够利用历史数据进行分析，发现潜在的性能瓶颈，并提供针对性的优化建议，以提升服务器的运行效率和稳定性。

基于以上需求分析，针对服务器智能诊断系统，应当具备如下功能：

· 实时并全面的监控故障并分析：系统能够监控服务器的关键部件，如CPU、内存、硬盘和阵列卡等，并在出现异常时进行及时报警。

· 智能预警：系统能够利用智能分析技术对服务器各部件状态进行预测，识别潜在的故障风险，并发出预警，使用户能够提前采取措施避免严重故障。

· 自动故障诊断：系统能够通过自动诊断技术快速定位故障问题，并提供解决方案，减少故障排查的时间和成本。

· 数据分析和展示：系统能够对历史运行数据进行分析，以图形化的方式展示给用户，为用户规避故障发生提供决策支持。

4.2 方案规划

4.2.1 网络规划

网络管理员应对待管理设备的网络参数进行规划,如表4-1所示。

表4-1 待管理参数规划

参数	说明
待管设备IP地址	服务器的IP地址
协议	支持HTTP和HTTPS协议
端口	HTTP默认端口为80，HTTPS默认端口为443
用户名	缺省用户名admin
密码	缺省密码Password@_

组网规划如图4-1所示。

图4-1 组网

4.2.2 软硬件设备规划

硬件设备及固件规划如表4-2所示，软件规划如表4-3所示。

表4-2 硬件设备及固件规划

软件	版本	描述
机架服务器	Redhat 8.6	待安装操作系统类型
HDM	缺省版本：HDM2-1.57	服务器HDM2版本
BIOS	缺省版本：BIOS-6.00.27	服务器BIOS版本

表4-3 软件规划

软件	版本	描述
Windows	Microsoft Windows Server 2022（64位）	待安装操作系统类型
UniSystem	UniSystem-2.59	登录IP地址192.168.0.2/24
软件	OpenJDK 1.8版本(64 bit)	-