Copyright © 2023-2025新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
本文档主要适用于以下人员:
· 服务器售前工程师
· 现场技术支持与维护人员
· 负责服务器配置和维护的管理员
日期 |
修订版本 |
描述 |
作者 |
2024-10-10 |
V1.7 |
平台软件 |
|
2024-8-20 |
V1.6 |
1. 新增以下相关功能介绍: ¡ 内存智能修复技术 ¡ 带内虚拟USB网口 2. 更新故障诊断能力等描述 |
平台软件 |
2024-2-22 |
V1.5 |
平台软件 |
|
2024-1-12 |
V1.4 |
平台软件 |
|
2023-12-29 |
V1.3 |
1. 新增以下相关功能介绍: ¡ 支持HTTP 2.0 ¡ Web两种不同主题切换 ¡ IPv4和IPv6静态路由配置 ¡ BIOS启动子项设置 ¡ HDM与BIOS升级风险提示 ¡ Intel On Demand特性 ¡ 电源黑匣子 ¡ HDM系统可维护性 ¡ 内存防伪 ¡ LDAP证书导入 ¡ 快速系统安装 ¡ AMD支持MCTP Over PCIe带外管理 ¡ NVMe-MI阵列卡带外管理与剩余使用寿命展示 2. 更新整体的流程框图 3. 修改故障诊断、MRT等相关功能描述 |
平台软件 |
2023-10-24 |
V1.2 |
清除旧版本软件相关信息 |
平台软件 |
2023-10-19 |
V1.1 |
平台软件 |
|
2023-7-25 |
V1.0 |
HDM2 技术白皮书首次版本 |
平台软件 |
本手册适用于所有已发布的H3C自研G6产品,如:
· H3C UniServer E3300 G6
· H3C UniServer R4300 G6
· H3C UniServer R4700 G6
· H3C UniServer R4700LE G6
· H3C UniServer R4900 G6
· H3C UniServer R4900 G6 Ultra
· H3C UniServer R4900LE G6 Ultra
· H3C UniServer R4950 G6
· H3C UniServer R5350 G6
· H3C UniServer R5300 G6
· H3C UniServer R5500 G6
· H3C UniServer R6700 G6
· H3C UniServer R6900 G6
· H3C UniServer R4500 G6
· H3C UniServer R3950 G6
· H3C UniServer E3300 G6
· H3C UniServer B5700 G6
· H3C UniServer X10000 G6
· H3C UniServer X18000 G6
HDM是H3C服务器设备上BMC的管理软件,是UniServer系列服务器的板级固件,可满足从数据中心到个体客户的计算以及存储的应用需求。HDM应用于HPC、AI、数据库、缓存服务器、文件服务器、存储服务器等众多应用场景,运行于现网百万级别的服务器设备上,在百行百业的应用场景中得到实际验证。
HDM2是HDM的升级版本,除继承已有的功能外,针对多个应用场景进行优化并提供对应的配套功能,为配合一体两中枢的战略添加了智能相关属性,同时提供License增强服务,包括内存智能修复、联合管理扩容至200个、kerberos认证及单点登录、一键退役、系统配置锁定、智能调优、安全仪表。
注:为描述方便,以下内容HDM均表示HDM2。
HDM兼容服务器业界管理标准IPMI、SNMP、Redfish,支持键盘、鼠标和视频的重定向,文本控制台的重定向,串口重定向,远程虚拟媒体,高可靠的硬件监控和管理功能。HDM提供了丰富的特性支持,其主要特性有:
· 丰富的管理接口
提供IPMI/HTTPS/SNMP/Redfish管理接口,满足多种方式的系统集成需求。
· 联合管理
实现小规模服务器的统一管理,降低了中小企业服务器运维管理的成本。
· LCD液晶显示屏
部分服务器可选配3.5英寸或2.5英寸可触摸LCD液晶显示屏,方便了服务器的临场巡检或维护。
· 故障监控和诊断
故障监控和诊断,通过精准定位与诊断,指导运维人员快速解决问题,保障设备7*24小时高可靠运行。
故障日志可通过SNMP Trap、SMTP、Redfish事件订阅、远程Syslog等多种途径主动上报。
· 截屏与录像
通过截屏和录像可以快速分析系统崩溃的原因。
· RAID带外管理
支持RAID的带外监控和配置,提升了RAID配置效率和管理能力。
· 智能电源管理
功率封顶技术帮助管理员轻松提高部署密度;节能技术帮助客户有效降低运营成本。
· 虚拟KVM、VNC和虚拟媒体
提供方便的远程维护手段。
· 支持DNS/LDAP/AD/Kerberos
支持域管理和目录服务,能简化服务器网络管理和用户管理。
Kerberos实现单点登录,避免重复的认证授权过程。
· USB WiFi模块
支持外接小米、360随身WiFi模块,方便服务器的近场维护和管理。
· 双镜像备份
提高系统的安全性,即使当前运行的软件完全崩溃,也可以从备份镜像启动。
· 固件升级
支持HDM、BIOS、CPLD、LCD(1.05 FW之前固件包)、硬盘、网卡、阵列卡、GPU卡、REPO包等多种带外固件升级能力。支持HDM冷热补丁升级,实现故障修复业务不间断。固件升级支持固件库及工作队列,运维人员可根据实际情况安排固件升级的时间,减少对业务影响。
· 软件清单
支持获取带外固件版本信息,带内操作系统软件、驱动信息,包括位置、名称、版本和更新时间。
· 服务U盘
支持服务U盘,可执行一键收集等操作,简化了临场运维管理。
· 安全管理
从接入、账号、传输、存储四个维度保障服务器管理的安全。支持双因素认证、黑白名单(防火墙)、接口服务管理、SSL、二次认证、安全仪表盘、用户自定义权限、弱口令字典、系统锁定等安全管理机制。
· 一键退役
实现一键将服务器的组件恢复到默认状态,实现安全退役。
H3C服务器管理软件关系如图2-1所示,其中HDM是一个独立于主机之外的嵌入式系统,用于对服务器整机的带外管理,并结合BIOS、UniSystem、iFIST、FIST SMS、hREST等软件实现对服务器的部署、监管和维护,是服务器智能运维和全生命周期管理的核心和基石。
图2-1 H3C服务器管理软件
HDM主要系统架构如图2-2所示,其硬件芯片采用服务器专用SOC(System on Chip)芯片,处理器主频为1.2GHz、总内存为1GB,有效管理服务器硬件设备。SOC芯片支持远程KVM和64MB本地VGA显示,支持专用和共享网口,以及其它丰富的板级管理和外设接口。
· HDM的KVM模块通过VGA接口接收来自主机系统的视频信息,经过压缩后,通过网络将压缩数据传输到远程KVM客户端进行解压还原。此外KVM模块接收远程KVM客户端的键盘鼠标数据,通过模拟的USB键盘鼠标设备将数据传输到主机系统,实现远程的键盘鼠标控制。
· HDM提供传统的LPC/eSPI系统接口与主机系统通信,支持标准的IPMI管理。
· HDM对外提供专用的GE以太网络接口,支持通过网络使用IPMI、Redfish、SNMP等接口进行远程管理操作。
· HDM支持最新的边带网络技术NCSI(Network Controller Sideband Interface)以及VLAN网络功能,通过边带网络可以支持更加灵活的管理组网。
· HDM支持键盘、鼠标和视频的重定向、文本控制台的重定向、远程虚拟媒体(可将终端的光驱、硬盘、文件夹映射到服务器)和基于IPMI2.0的硬件监控和管理功能。
· HDM通过传感器实现了对服务器的温度、电压等状态的全面监控,并实现对服务器的风扇和电源的智能管理。
· HDM下挂两个SD卡(Nand flash),SD卡1以插卡形式提供,用于存放iFIST镜像(部分机型不支持);SD卡2可用于记录服务器的运行信息及诊断日志,包括配置信息、操作日志、事件日志等。
图2-2 BMC系统结构
HDM主要软件架构如图2-3所示,HDM的软件功能主要分成两个部分:
· 整机管理:对传感器、电源及各种部件实现监控和管理。
· BMC系统管理:安全管理、时间管理、网络管理等。
图2-3 HDM软件架构
HDM提供了丰富的用户接口,如基于Web界面的用户接口、命令行、IPMI接口、Redfish、SNMP接口,所有用户接口都采用了接入鉴别机制和高度安全的加密算法,保证接入和传输的安全性。
H3C服务器产品以“内生智能,成就智慧计算”为整体战略。底层支撑层面主要为三大平台:人工智能平台、多元计算体系平台和智能管理平台。在三大平台上,服务器可感应负载、分析算力需求、生产并高效地聚合算力、智能地调度算力,最终全面释放算力去部署应用。其中,HDM从服务器设备角度上,围绕服务器设备日常运维的各个环节,来支持智能管理平台的落实,实现以智能部署、智能调优、智能节能、智能诊断、智能退役这五维智能为数据中心服务器提供全生命周期的智能管理,有效帮助企业提高运维效率,降低运维成本。客户可根据具体的业务需求对服务器进行灵活的配置部署,从而打造自己专属的运维环境,为最大程度发挥服务器设备硬件的能力提供对应的固件支撑。当前服务器上机载的固件主要有:
· 主机:BIOS,部分还包括OS、iFIST、FIST SMS等系统软件。
· 硬件:板卡与部件对应的固件。
· 带外管理固件:HDM。
服务器上机载的固件作为硬件资源的管理界面及部件的对外访问接口。从用户使用角度来看,机载固件除完成业务功能外,至少还需要具备以下几个维度的能力:
· 接入能力与管理接口:描述用户接入到服务器的方式,以及服务器设备对外导出的接口形式。
· 部署:覆盖设备上架、被纳管、迁移、退役整个生命周期过程涉及到的业务,参数配置以及固件维护相关的支撑特性功能,主要有:设备上架、设备配置、系统部署、固件升级、设备迁移、设备退役等部署及纳管相关的功能。
· 管理:覆盖服务器设备并提供给设备内各个部件外部管理的能力,主要有:资产管理、巡检操作支持、设备拓扑发现、固件信息、设备管理、硬件参数配置、BIOS与BMC配置等功能。
· 监控:供外部对服务器设备的运行状况进行监控,主要有:传感器、日志子系统、各类事件特别是告警事件上报通道、系统监控状态、部件告警与预警通道、主机监控能力等功能。
· 诊断:结合服务器内置的监控能力,当异常事件发生时,充分收集异常相关上下文信息,并利用内置的多种规则进行故障诊断,自动判断出故障点,明确到固件部件。主要有告警源监控、故障处理机制、故障上报等功能以及可维护性相关特性。
· 安全:提供服务器的安全能力。
· 性能:提升服务器带外管理响应能力。
本技术文档主要从上述几个维度来开展描述,并从如下几点进行阐述:
· 从服务器的使用场景、需求入手,介绍了H3C服务器所给出的对应解决方案。
· 从对应的框架与技术要点入手,介绍各技术原理。
· 简要提供各方案及技术对应的应用场景。
考虑到不同场景下不同用户的关注点不同,H3C服务器对外提供多样的管理接口与接入能力,以满足各种场景的需求。具有以下特点:
· 易用性:方便易用的配置能力能够让用户快速上手。
· 安全性:采取多种手段确保各个环节的安全,通过多个安全实验室的验证。
· 高性能:无论是启动还是接口访问上,都持续追求极致性能。
· 多接入方式:多种接入方式满足各类场景的需求。
· 可针对场景优化配置:提供安全、可靠性等应用场景的增强配置,方便用户进行针对性调优处理。
监控服务器的方式,分为带内和带外两种方式。带外访问HDM的接口,主要有基于HTTP/HTTPS的Web和Redfish、IPMI、SNMP、CLI,HDM的带外接口方式如图3-1所示。
图3-1 HDM带外接口方式
在易用性方面,HDM主要实现功能如下:
· 配合UniSystem,可自动发现接入的服务器设备。
· 根据设备上的默认IP地址进行访问。
接入的多样性上,服务器提供直接人工访问设备的能力,提供能力如下:
· 通过共享口、专用口、USB WiFi访问HDM Web页面。
· 通过VGA+keyboard访问BIOS。
· 通过设备接口(串口)访问BIOS串口。
· 通过设备接口(串口)访问HDM SHELL。
同时服务器也提供通过管理接口访问HDM和BIOS的能力,提供能力如下:
· 通过OS的接口访问BIOS、HDM,可实现服务器带内智能部署,包括固件升级、配置管理、日志下载等功能。
· 通过带外网络使用IPMI工具访问HDM,可供外部管理工具纳管集成。
· 通过带外网络使用Redfish接口访问HDM,可供外部管理工具纳管集成。
· 通过带外网络使用联合管理功能访问其他设备的HDM。
· BIOS通过带内网络使用网络服务访问对应的资源。
· 通过KVM接口访问对应网络服务提供的资源。
此外,设备提供了指示灯、LCD显示面板、安全面板供用户现场查看设备的运作状态。
说明:具体的接入方式,不同产品上存在部分差异性,具体信息参考对应的产品手册描述。
HDM在服务器硬件接口的基础上,进一步对外扩展出丰富的接口,可满足多种场景的接入需求。HDM各业务模块采用高内聚、低耦合的架构设计,优化启动流程引入数据管理中心,启动响应迅速,能够及时响应带外管理接口的访问,确保各类传感器的正常运行,从而高效管理主机散热,保障主机业务的稳定运行。HDM从正常启动至满足常用网络管理接口可访问的典型时间参数如表3-1所示,实际启动时间受网络环境,系统配置影响会有差异,供参考。
表3-1 HDM可访问的典型时间参数
HDM从启动至 |
时间/s |
网络Ping通 |
32 ~ 35 s |
可登录Web访问页面 |
39 ~ 42 s |
Redfish接口正常响应 |
35 ~ 37 s |
HDM提供了基于HTTPS的Web可视化管理接口。
· 通过简单的界面操作快速完成设置和查询任务。
· 通过远程控制台可以全程监控服务器OS启动,对服务器进行OS操作,对服务器进行光驱/软驱映射等。
· 支持通过WebGUI浏览快速响应,在非大文件传输场景下,确保平均响应时间低于1s。同时HDM支持HTTP 2.0协议,相较于HTTP 1.1协议,大幅度提升了Web性能,减少网络延时、提升传输可靠性和安全性。
· 支持中英两种语言切换,支持极简白、星空蓝两种皮肤主题肤色。
图3-2 极简白主题的HDM首页
图3-3 星空蓝主题的HDM首页
可以在浏览器地址栏输入HDM的网口IP地址(IPv4或IPv6)或域名地址打开HDM Web的登录界面,输入账号登录到HDM Web。
支持的浏览器有:Firefox90及以上,Chrome80及以上,Edge108及以上,Safari14及以上。
HDM兼容IPMI 1.5/IPMI 2.0规范,DCMI(Data Center Mangeability Interface,支持数据中心管理接口),通过第三方工具(如:ipmitool)基于LPC/eSPI通道或LAN通道实现对服务器的有效管理,也可以通过BMCCLI工具基于USB通道实现对服务器的有效管理。
· LPC/eSPI通道:运行KCS或BT协议,ipmitool等工具必须运行在服务器本机的操作系统上。
· LAN通道:运行UDP/IP协议,ipmitool等工具可以远程管理服务器。
· USB通道:运行BMCCLI协议,BMCCLI工具必须运行在服务器本机的操作系统上。
BMCCLI工具以及第三方工具支持Windows和Linux系统。
HDM的IPMI主要支持的功能请参考《H3C HDM2 IPMI基础命令参考手册》。
简单网络管理协议(以下简称SNMP)是管理进程(NMS)和代理进程(Agent)之间的通信协议。它规定了在网络环境中对设备进行监视和管理的标准化管理框架、通信的公共语言、相应的安全和访问控制机制。
SNMP具有以下技术优点:
· 基于TCP/IP互联网的标准协议,传输层协议一般采用UDP。
· 自动化网络管理。网络管理员可以利用SNMP平台在网络上的节点检索信息、修改信息、发现故障、完成故障诊断、进行容量规划和生成报告。
· 屏蔽不同设备的物理差异,实现对不同厂商产品的自动化管理。SNMP只提供最基本的功能集,使得管理任务与被管设备的物理特性和实际网络类型相对独立,从而实现对不同厂商设备的管理。
· 简单的请求—应答方式和主动通告方式相结合,并有超时和重传机制。
· 报文种类少,报文格式简单,方便解析,易于实现。
· SNMPv3版本提供了认证和加密安全机制,以及基于用户的访问控制功能,增强了安全性。
¡ HDM提供了基于SNMP的编程接口,支持SNMP Get/Set/Trap操作,第三方管理软件通过调用SNMP接口可以方便地对服务器集成管理。SNMP代理支持v1/v2c/v3版本。
¡ SNMP代理提供接口查询系统健康状态、系统健康事件、硬件信息、告警上报配置、功率统计数据、资产信息、散热管理、固件版本信息、网络管理等。
Redfish是一种基于HTTPs服务的管理标准,利用RESTful接口实现设备管理。每个HTTPs操作都以UTF-8编码的JSON格式(JSON是一种key-value对的数据格式)提交或返回一个资源或结果。该技术具有降低开发复杂性,易于实施、易于使用而且提供了可扩展性优势,为设计灵活性预留了空间。
Redfish=REST API+软件定义的服务器(数据模型),当前由标准组织DMTF(www.dmtf.org)负责维护。
HDM支持Redfish 1.15.1规范,可以实现包括用户管理、获取服务器信息、管理模块信息等常用HDM和BIOS配置。Redfish客户端发出HTTP(s)请求,通过认证(Token、Basic)之后,从数据库获取数据并返回读取结果,如图3-4所示。
图3-4 Redfish接口操作示例(查询处理器信息)
HDM支持SSHv2协议,为用户提供安全的远程管理功能。支持基本管理命令,便于灵活配置系统,同时允许根据安全需求关闭SSH服务以增强安全性。
HDM支持通过IPMI命令开启带内USB通道,将HDM的USB设备虚拟成带内操作系统中的一张网卡,在HDM和带内操作系统中分别显示出对应的USB网卡。如图3-5所示,通过将虚拟网卡的IP地址分别在HDM和带内操作系统中设置在同一个网段,此时带内操作系统即可通过该虚拟网卡与HDM建立直接的网络连接。通过这张虚拟网卡,用户可以进行常规的网络访问HDM,如访问Web页面、发送IPMI或Redfish命令,从而实现对HDM的带内网络远程控制和管理。
图3-6 带内通过虚拟USB网卡访问HDM界面
HDM联合管理实现小规模服务器的统一管理,简化了中小企业服务器运维管理。HDM联合管理主要提供如下功能,页面信息如图3-7所示:
· 设备添加:支持单台或批量添加服务器,最多支持添加10台设备(不支持IPv6地址),获得License授权后最多支持200台设备。
· 设备删除:支持单台和批量设备删除。
· 状态查询:支持查看设备的基本状态信息,包括产品名称、产品序列号、健康状态、电源状态、UID状态等信息。
· 电源管理:支持设备的电源操作,包括:开机、关机、重启等操作。
· 远程访问:提供设备HDM和H5 KVM访问的跳转链接。
H3C部分机架服务器可选择配置3.5英寸或2.5英寸可触摸LCD液晶显示屏,以用于显示或配置服务器相关信息。通过LCD显示屏,提升了本地维护的简便性,也加快了现场故障的定位和修复。支持中英文切换。
LCD液晶显示屏主要提供了如下功能:
· 信息页面:显示产品名称、产品序列号、HDM/BIOS固件版本号,如图3-8所示。
· 状态页面:查看服务器整体,以及处理器、内存、存储、风扇、电源、温度传感器、整机功耗等部件的健康状态和日志等信息。
· 监控页面:实时显示入风口温度,及CPU温度。
· 配置页面:支持配置HDM管理口网络和恢复管理员账户等操作。
各部件通过不同颜色来显示在位和健康状态,颜色显示规则和Web一致,如下:
· 绿色:设备正常
· 橙色:设备出现严重告警
· 红色:设备出现紧急告警
· 灰色:设备不在位
图3-8 LCD液晶显示屏
为服务器进行集中运维、远程运维,HDM支持多种网络配置方式,且保证网络配置快速生效,包括:
· 提供共享口、专用口、USB WiFi的网络接入需求。
· 配置网口自适应与端口自适应。
· 提供对IPv4、IPv6、域名的支持。
· 设备启动后默认自动发送LLDP、SSDP、免费ARP报文方便外部识别设备的接入,并进行纳管处理。
· 提供设置IPv4和IPv6静态路由,实现更灵活的网络策略,以支持跨网段访问,满足客户各种不同应用场景的需求。
在安全性上,HDM提供以下功能:
· 支持对共享口进行禁用。
· 支持开启防火墙机制。
· 提供应用级别的安全机制。
边带管理(共享网口)即利用边带NCSI(Network Controller Sideband Interface)技术使管理系统与主机系统共用主机物理网口,通过一个网口同时进行管理操作和业务处理,简化组网,节省交换机端口。从安全考虑,需要利用VLAN技术将管理与业务划分在不同网段。
NCSI是基于物理总线RMII的带外管理总线协议。NCSI总线是与网络通信总线RMII复用总线,在RMII总线基础之上定义一个NCSI协议。NC(Network Controller,网络控制器)在与对外通信上分为内部网络接口(Internal Host Interface)、外部网络接口(External Network Interface)和带外接口(Sideband Interface)。BMC作为Management Controller,既可以发送NCSI控制指令给NC,也可以经过NC和外部网络接口完成网络数据报文互通,如图3-9所示。
从数据流程来看,HDM通过MAC向物理总线RMII发送一个网络报文,NC通过RMII接收到网络报文后,对网络报文进行解析。解析后,如果是NCSI报文(判断的条件是ether type为0x88F8),则进行NCSI响应;如果是对外发送数据的网络报文(判断的条件是ether type为非0x88F8)则将数据转发到External Interface。
HDM可以配置的网口模式包括正常模式和自适应模式,如图3-10所示。
· 正常模式:用户可通过共享网口或专用网口访问HDM,两个网口的IP地址应分属不同网段。
· 网口自适应模式:HDM管理流量优先选择专用网口作为通信端口,即共享网口和专用网口处于Active/Standby状态,同一时间只有一种网口可以访问HDM,专用网口优先。
¡ 当专用网口连接网线,无论共享网口是否连接网线,选择专用网口作为通信端口。
¡ 当共享网口连接网线,专用网口未连接网线时,选择共享网口作为通信端口。
¡ 网口自适应模式下,共享口和专用口共用一套IP地址和MAC地址(专用口MAC)。
· 端口自适应:根据网卡端口的连接情况自动选择共享网口,该特性具有以下优点:只要网卡有一个端口处于连接状态,即可通过共享网口管理HDM。
¡ OCP网卡、支持NCSI功能的PCIe网卡均支持此功能。
¡ 共享网口切换指切换HDM共享网口后,管理员只要重新接入切换后的共享网口即可访问HDM,该特性具有以下优点:
- 不用更改服务器在整网中的网络信息,实现平滑切换。
- 不需要重新配置切换后共享网口的网络信息(包括IP地址、VLAN等),提高维护效率。
- 网口自适应模式和端口自适应模式不能同时开启,否则可能会导致网络故障。
HDM全面支持IPv6。专用网口和共享网口(NCSI)的物理通道均支持IPv6地址访问,配置信息如图3-11所示。
LLDP(Link Layer Discovery Protocol,链路层发现协议)提供了一种标准的链路层发现方式,使不同厂商的设备能够在网络中相互发现并交互各自的系统及配置信息,网络变化时,网管系统可以快速掌握二层网络拓扑信息和拓扑变化信息。配置信息如图3-12所示。
图3-12 LLDP配置信息
HDM支持LLDP协议,可以解析本地网络中交换机的相关信息:
· 网络接口:服务器接收LLDP信息的网络接口。
· 交换机MAC地址:上联交换机端口的MAC地址。
· 交换机系统名:上联交换机系统名。
· 连接端口号:上联交换机端口号。
· 端口信息:上联交换机端口名。
· 网口速率:网络接口的速率。
HDM支持主动发送LLDP报文,以方便邻居设备发现自身。
简单服务发现协议(SSDP,Simple Service Discovery Protocol)是一种应用层协议,是构成通用即插即用(UPnP)技术的核心协议之一。
HDM支持SSDP,定期主动发出NOTIFY报文,使得上层运维软件(如UniSystem)能够自动发现所有BMC设备,免去了上层软件逐个接线配置BMC的开局工作的痛点。
HDM支持设置静态路由,可分别针对专用网口、共享网口的IPv4、IPv6配置两个静态路由,能更精准地实现网络流量的控制与分流,可实现跨网段的路由转发。配置信息如图3-13所示。
HDM提供多个层次的时间源,并可定义同步优先级。默认时间同步的优先级如下:
主NTP服务器>二级NTP服务器>三级NTP服务器>DHCP Server兼任的NTP Server>主机ME(仅Intel产品)>HDM上的RTC。
HDM支持从多种来源获得时间,满足不同的时间管理场景。有如下场景可供选择:
· 手动配置NTP同步:可在不同HDM及主机间,配置相同NTP服务器,使所有系统从该NTP服务器获得正确时间,并时刻保持一致。
· DHCP管理NTP同步:可在DHCP服务器中,指定NTP Server字段,即通过DHCP服务器在机房中的覆盖使用,使所有系统自动获得相同NTP服务器,从而得到正确、统一的时间。
· 同步主机时间:通过BIOS、ME部件将主机时间传递给HDM,使HDM保持正确时间,也使主机和HDM时间保持一致。
网络时间协议NTP(Network Time Protocol)是TCP/IP协议族里的一个应用层协议,用于在一系列分布式时间服务器与客户端之间同步时钟。
HDM支持手动设置三个NTP服务器,也支持从DHCP服务器自动获取NTP Server配置,如图3-14所示,所有NTP服务器基于优先级进行管理,若高优先级服务器无法使用,则自动使用低优先级服务器,并且实现周期性自动同步。
NTP服务器支持IPv4地址、IPv6地址和FQDN(完整域名)地址。
图3-14 NTP配置信息
DNS是一种用于TCP/IP应用程序的分布式数据库,提供域名与IP地址之间的转换服务。完整的域名由主机名和上级域名组合而成。HDM中,主机名可以手动配置,也可以根据服务器的SN号自动生成;上级域名可以手动配置,也可以通过DHCP自动获取。
HDM支持将共享网口和专用网口的IP地址与域名建立映射关系,并将该映射关系向网络中的IP DNS服务器进行注册。
注册方式分为nsupdate以及FQDN\主机名方式:nsupdate方式为客户端直接通过nsupdate命令更新DNS服务器的区文件;FQDN\主机名方式为DHCP服务器在确认客户端的网络地址分配后,将客户端的信息动态注册到DNS服务器。
用户可以将所有被管理服务器加入一个统一的管理域并使用便于记忆的域名来访问被管服务器的HDM。
图3-15 DNS注册流程
HDM支持DNS配置,专用口和共享口下的IPv4和IPv6接口均可独立配置相应的DNS信息,如图3-16所示。
图3-16 DNS配置信息
H3C服务器支持通用部署能力,可以快速接入客户的运维环境,比如PXE服务器、DHCP服务器。不仅如此,H3C给客户开发了大量自动化部署软件与工具,提供全方位、多场景的部署能力。自动化软件和工具可以帮助客户节省大量的人工操作时间,提供运维效率,降低运维成本。H3C可提供的部署软件和能力包括:
· HDM:服务器单机带外管理工具,客户可以通过HDM实现一些服务器简单的配置和部署,包括KVM安装操作系统、HDM/BIOS/RAID配置、固件更新等功能,具体详情可参考本文的其他章节。
· FIST SMS:服务器单机带内代理软件,支持的部署能力有带内更新驱动和固件。
· iFIST:服务器单机嵌入式管理软件,iFIST出厂时预装在服务器的一个存储芯片上,提供带内的单机部署能力,可支持的部署功能有自动安装操作系统并安装驱动、HDM/BIOS/RAID配置、固件更新、上架前设备诊断、下架后的数据清除等。
· UniSystem:服务器的批量管理软件,配合HDM、FIST SMS、iFIST提供服务器批量部署的能力,包括IP配置、操作系统自动安装、克隆安装、固件和驱动更新、推送安装软件、HDM/BIOS/RAID配置等批量功能。UniSystem支持服务器的自动上架功能,客户在UniSystem页面提前规划服务器软硬件配置项,并创建相应的服务器配置模板和绑定规则,当服务器接入运维网络时,UniSystem将会自动将服务器纳入管理,并下发相应的服务器配置模板,实现即插即用、无忧上架的自动化效果。
服务器的部署相关工作主要有:
· 设备上架
纳管:能够快速识别到新接入设备或离线的设备。
· 批量进行服务器设备及其上的部件信息识别与版本管理
¡ 判断设备上的固件和驱动版本是否需要更新。
¡ 固件更新,H3C支持多种固件更新方法,包括带内单机/批量更新、带外单机/批量更新、离线固件更新。
¡ 驱动更新,H3C支持多种驱动更新方法,包括带内单机/批量更新驱动、安装操作系统后自动安装驱动。
· 配置操作
进行集中HDM配置、BIOS配置、部件(比如阵列卡)配置的批量导入导出和在线配置。
· 操作系统安装
提供批量的自动安装主流操作系统的功能,支持镜像文件的“裂变”传输技术以及镜像克隆技术。与传统的PXE安装方式对比,UniSystem可以大大提升操作系统的安装速度。
· 满足设备运行的其他操作,比如上架前的设备诊断
· 满足设备下线后的安全需求,比如数据清除操作
围绕服务器配置和部署,提供了多种方式和工具的支持,同时结合UniSystem服务器管理中枢为用户提供了批量的管理、部署、更新能力,详见《H3C UniSystem技术白皮书》。
图3-17 部署能力示意图
HDM支持以下功能,方便快速被纳管:
· 设备接入时主动发送ARP报文,方便快速向网络广播本设备的MAC地址。
· 设备接入时主动发送SSDP、LLDP报文,方便外部识别本设备。
· DHCP支持SN发送,方便唯一标识本服务器。
· 提供丰富的API接口,可供外部管理工具获取设备信息(型号、版本、资产信息等)。
HDM支持以下功能,方便进行HDM/BIOS/部件参数的配置:
· 支持标准的IPMI命令、Redfish命令、SNMP命令进行配置。
· 对于BIOS配置,根据不同选项支持一次性生效与持久生效,立即生效与下次重启生效。
· 可定制上报的告警日志、配置用户权限等。
· 支持BIOS配置功能在HDM Web上的呈现与配置。
· 支持HDM、BIOS、存储阵列卡配置的批量导出与导入操作,能便捷地实现配置迁移。
· 支持恢复出厂配置、一键退役操作,满足设备迁移与退役的要求。
· 远程配置,支持业务切换。
HDM支持以下功能,以方便进行固件操作:
· 一个镜像可针对多个产品,无须区分版本,减少升级的难度。
· 对固件类型进行封装,满足安全验证、用户不感知固件类型的需求。
· 支持带外的固件管理操作。
· 支持立即升级与定时异步升级。
· 支持HDM安装特性包,补丁包。
· 支持REPO升级,可以同时更新多种固件。
· 支持固件备份。
· 支持HDM、BIOS固件异常自动恢复。
· 支持主机、HDM异常重启后,升级任务恢复。
· 支持CPLD不断电重启。
相比常规的使用KVM或H5 KVM通过镜像挂载的方式安装OS和部署驱动,HDM另外支持分布式批量安装OS和快速系统安装两种方法,以满足不同场景快速部署的需求。
分布式批量安装OS:UniSystem配合HDM支持基于分布式镜像传输技术以文件共享方式进行OS安装,支持端到端(peer to peer)的传输,避免部署管理软件带宽出口限制,提高了OS安装的部署能力,比传统安装部署OS方式提高了10倍以上。
图3-18 分布式批量安装OS示意图
快速系统安装:HDM支持选择NFS(Network File System)服务器或CIFS(Samba)服务器下的特定镜像快速安装指定的OS。该功能通过使用高性能、低延迟的PCIe硬件链路传输通道,解决了以往基于远程虚拟媒体进行OS安装时BMC往主机侧传输镜像速率慢的问题,缩短了通过HDM安装OS的耗时。
图3-19 快速系统安装界面
HDM提供了丰富的生态合作接口,构造了多元化的服务器管理生态。支持Ansible编排脚本、Zabbix以及Nagios & Nagios XI等第三方纳管、监控和运维管理。
表3-2 HDM支持的第三方平台
第三方平台 |
描述 |
VMWare vCenter |
告警监控、信息查询、OS安装、组件更新、服务器配置 |
Microsoft System Center Operation Manager(SCOM) |
告警监控 |
Microsoft System Center Configuration Manager(SCCM) |
OS安装、OS升级、系统配置 |
Ansible |
信息查询、RAID配置、网络配置、BIOS配置 |
Zabbix |
信息查询、告警监控 |
Microsoft Admin Center |
信息查询、资源利用率监控 |
Nagios & Nagios XI |
信息查询、告警监控 |
将HDM、BIOS、RAID的配置,以配置文件的方式执行导出或导入,使管理员可以轻松的实现远程配置服务器,如图3-20所示。
配置文件导入导出具有以下技术优势:
· 通过HDM的配置导入导出功能,实现带外批量配置HDM、BIOS、RAID三大模块的配置选项,覆盖选项全。
· 可配置参数多,其中HDM支持500+选项、BIOS支持1100+选项、支持修改RAID级别。
· 导出的配置文件结构可阅读、可编辑、可保存。
· 导出HDM的配置项支持自注释功能,增强用户对配置的可理解性。
· 支持对同配置多服务器批量部署。操作便捷,灵活使用将大幅提升管理运维效率。
· 支持密码导出导入,导出密码以密文呈现。
配置文件支持如下使用场景,如图3-21所示。
· 导出配置文件,完成修改再导入等同于批量修改设置选项。
· 配置文件在同型号服务器上通用,即针对同一类型机器快速完成大规模设备的配置和部署。
· 更换主板或者恢复出厂默认设置后,可以快捷的恢复自定义设置。
恢复HDM配置可将HDM的配置恢复到出厂状态,可用于HDM重新配置。
HDM支持以下功能,方便进行BIOS选项带外设置:
· Web支持设置结构化显示的BIOS选项,如图3-22和图3-23所示,Web界面和Setup界面保持界面一致,易用性强。
· 支持针对不同的服务器应用场景,一键更改BIOS配置模板,从而自动更改所有相关BIOS配置,支持的应用场景如图3-24所示。
支持多种带外设置途径,配置功能强大:
· 支持IPMI命令进行配置。
· 支持Redfish命令配置BIOS选项,在用户手册中提供所有支持选项的参数说明,易用性强。
· 支持从页面或Redfish接口,进行批量配置导入导出,支持1100+选项。
· 支持设置启动选项,启动选项包含启动配置有效期、下一次启动模式、下一次启动设备、启动顺序、启动子项顺序,能够灵活、易用地实现启动控制。配置界面如图3-25所示。
图3-22 Web设置BIOS配置界面
图3-24 BIOS配置模板
HDM升级涉及相关业务功能包括:
· 支持查询HDM、BIOS、CPLD、PSU、LCD、网卡、RAID卡、存储硬盘等固件版本。
· 支持不断电不中断业务升级HDM固件版本。
· HDM固件镜像可针对多个产品,无须区分版本,减少升级的难度。
· 支持已签名的bin文件固件升级,确保镜像是完整的。
· 支持REPO包(iso格式)不中断升级,实现一次升级多种部件的固件(PSU、LCD、网卡、RAID卡、存储硬盘、HDM、BIOS、CPLD等)。
· 支持特性包升级。
· 支持补丁包升级。
· 支持定时升级。
· 支持固件备份到固件库。
· 支持固件库固件生效。
· 支持异常固件检测。
· 支持通过HDM进行固件的转储,借用Agent工具来进行Option卡升级。
· 支持HDM、BIOS固件异常自动恢复。
· 支持CPLD不断电重启。
为了提升系统可靠性,HDM使用Golden Image实现BMC主备分区。每次升级HDM固件时只升级主分区镜像,Golden Image镜像始终维持出厂版本。当在主分区运行过程中出现Flash误操作或者存储块损坏时,可以自动切换到Golden Image镜像对主分区异常镜像恢复并自动切换至主分区。
支持对HDM、BIOS、CPLD、PSU、LCD、RAID卡、硬盘、网卡、GPU固件升级;支持特性包升级;支持补丁包升级;支持bin、run和iso文件格式升级;支持REPO升级,可以同时更新服务器的HDM、BIOS、CPLD、PSU、各类存储控制卡、网卡和硬盘等部件的固件;支持以Redfish URL的方式进行升级,且支持多种固件上传方式,包括HTTP、HTTPS、NFS、TFTP、CIFS、SFTP。
校验完成后的固件信息页面支持选择备份以及设置升级执行时间。HDM、BIOS固件升级支持两种生效方式(手动和自动),且支持HDM、BIOS升级后的配置保留或覆盖。
(1) 镜像备份
在固件信息确认页面选择开启“是否备份”功能,HDM会将用到的固件镜像文件自动备份到固件库中。
(2) 定时任务
在固件信息确认页面中可选择在“更新时间设置”功能中设置升级时间,HDM会将任务保存在后台,到达预设时间后执行升级任务。定时升级任务支持同时下发多个,并且到达预设时间前的这段时间不影响其他升级任务的正常下发,下发成功的升级任务如图3-26所示。
(3) BIOS自升级
更新BIOS固件时,可以选择“配置保留”和“配置覆盖”,HDM仅上传BIOS的固件文件到eMMC,后续主机重启时,BIOS会通过HDM从eMMC中获取固件文件,并自行升级固件,以实现相关的配置策略。
(4) 增量特性包和冷热补丁
安装包分为特性包与补丁包,补丁包又可分为热补丁和冷补丁,如表3-3所示。
安装包类型 |
应用场景 |
优势 |
限制 |
|
特性包 |
HDM系统的增量业务包,能够实现增强业务功能的追加。 |
· 增量业务自动启用,基础业务不中断。 · 增量修改的代码量可以很大,支持较大特性的增量升级。 |
依赖于产品规划,发布周期较长。 |
|
补丁包 |
热补丁 |
用户现场问题,急需故障修改。能够提供实时故障修复,完全不中断业务。 |
· 实时故障修改,完全不中断业务。 · 热补丁发布周期很短,3-10工作日可交付故障现场。 |
· 修改量受限,一般要求不超过500行代码修改。 · 系统某些特定函数不支持热补丁。 |
冷补丁 |
用户现场问题,急需故障修改。出故障的业务为上层业务,可重启业务进程。 |
· 故障业务秒级重启恢复,其他业务不受影响。 · 冷补丁发布周期很短,3-10工作日可交付故障现场。 |
不支持重启的基础核心业务进程,无法支持冷补丁。 |
支持特性包和补丁后,可以为用户带来以下方面的优势:
¡ HDM固件交付的多样性。除了基础固件外,增加了特性包和补丁包的交付,可应用于适合场景。
¡ HDM固件交付的及时性。基础固件交付周期最少可以到1个自然月,补丁包可及时响应现场故障修复。
¡ 客户定制的快速适配。可通过特性包或补丁包的方式,让客户定制化功能快速上线。
(5) 升级风险提示
¡ 当存在待生效HDM或BIOS升级任务时,Web界面展示一条待生效提示信息。
¡ 当存在定时任务时,Web界面也会展示一条定时任务提示信息,包含升级时间、版本号以及生效方式。
¡ 存在多个定时任务时,优先展示升级时间距离更近的定时任务内容,当存在同一时间升级多个定时任务时,优先展示更先注册的定时任务。
¡ 当HDM与BIOS升级任务同时存在时,会优先展示BIOS升级任务。
¡ 在Web页面中升级风险提示栏固定,当产生待生效的升级任务后,切换到任何Web页签都存在该提示。
图3-27 升级风险提示效果图
(6) 固件安全
¡ 固件启动安全:HDM固件实现了Golden Image的冗余备份机制。当在运行过程中出现Flash误操作或者存储块损坏时,可以自动切换到备份固件运行。
¡ 固件更新安全:所有对外发布的HDM、BIOS等固件版本都带有签名机制。固件打包时,通过SHA512算法摘要,并通过RSA4096加密摘要。在固件升级时,通过签名校验方式防止篡改,只有签名符合要求的固件才允许升级到设备上。
¡ 固件运行安全:运行时,对镜像所在区域进行写保护,需要通过特殊方式才能进行写操作。同时,每次启动时对镜像文件的完整性进行校验,必要时进行恢复。
用户更新固件时,如果开启了“是否备份”功能,HDM会自动备份固件镜像文件到固件库。备份成功后,用户可以在固件库页面查看备份的固件镜像文件信息列表。当可用容量不足时,用户无法继续备份新镜像。这时可以手动删除固件镜像文件释放更多的可用容量。用户可以选择对应镜像文件点击“生效”按钮进行生效操作,此时会自动跳转到固件更新页面进行固件升级。
图3-28 固件库
用户在“系统软件”页面可以查看并下载当前服务器操作系统侧的软件信息,包括位置、名称、版本和更新时间(依赖于FIST SMS)。
图3-29 软件清单页面
用户在“固件清单”可以查看并下载当前服务器安装的固件信息,包括固件名称、固件版本和位置。
图3-30 固件清单页面
HDM界面支持重启HDM与CPLD的功能。
· 当用户因HDM固件更新或HDM固件出现异常需要重启HDM时,可以通过本功能重启HDM。HDM重启期间所有会话或连接都会中断,重新登录后恢复正常。
· 当用户因CPLD更新固件或CPLD固件出现异常需要重启CPLD时,可以通过本功能重启CPLD固件,使新固件立刻生效或CPLD固件恢复正常(重置CPLD固件业务会受到影响)。
HDM支持通过带外清除用户数据,实现一键、安全、可靠、便捷的将服务器的组件恢复到默认状态,实现服务器的安全退役,详见安全管理中安全擦除章节。
设备上架后,建议对以下信息进行排查确认,看看是否需要在出厂默认配置的基础上进行微调。
· 带外网络的连接方案。
· 时间同步方案的配置。
· 性能模板、安全顾问等,根据侧重点来决定怎么选择。
· BMC服务、用户、权限的配置。
· 安装后建议查看设备的状态,规格是否符合要求。
· 根据需要确认是否升级固件。
开局部署时期出厂固件版本配套不满足开局需要,需要统一重新部署,或者进行大规模升级部署的情况下,该业务还没有启用或者允许长时间中断,该情况可以使用REPO包方式进行升级,可以一键自动升级所有固件;也可以借助UniSystem软件实现所有服务器的批量部署。
REPO升级过程持续时间较长,且会触发部件及主机的重启,但是能够做到一键自动化后台执行,将整机的固件升级到预定的配套状态,方便部署运维。
现场运维中,只有个别的固件需要针对性地进行升级,可以直接使用指定部件的固件包进行升级。部件如网卡、RAID卡。BMC固件更新后,需升级部件重启后即可完成升级,部件如CPLD、BIOS,固件更新后,需要整机重启完成升级。
此外,可使用定时升级功能,选择业务量小的凌晨时间启动升级功能。
在关键保障的业务环境中,为满足固件升级不影响现场业务运行的期望,提供如下策略手段:
· HDM带外监控可短暂中断的情况下,可以直接更新HDM固件版本,HDM重启仅需要1分钟就能恢复HDM业务。
· BIOS固件更新,如果不用立刻生效,可考虑自升级方式延迟生效,在下次主机重启的时候生效。
服务器需要对外提供高度可靠的服务,这就要求设备需要具备稳定的处理业务能力,即需要在稳定性、可靠性、安全性、可维护性等维度进行增强,对设备的管理能力要求高。
广义而言,部署、监控、诊断等功能都属于设备管理。当然,维护时从SDS(Smart Diagnosis System,智能诊断系统)日志中识别现场物料、对HDM的访问控制、对BIOS或HDM的配置、对各个部件的维护等,也都属于设备管理范畴。
HDM对服务器设备支持的管理活动有:
· 资产管理:方便用户进行资产识别、资产盘点处理。
· 设备管理:
¡ 硬件信息管理:HDM可以对服务器的硬件设备进行管理,包括但不限于CPU、内存、硬盘、PCIe卡、电源、风扇。
¡ 系统监控:HDM可以对操作系统的状态进行监控,例如可通过资源占用率感知系统运行状态,更多资源占用率需搭配FIST SMS后获取。
¡ 事件日志管理:服务器的运行状态应是平稳的,异常的事件会引起运维人员关注,基于监控事件日志的变更,有助于运维人员针对性的定位问题根源,快速解决问题。合理的利用一些预知性的预告警事件,可有效降低主机宕机概率。
¡ 操作日志管理:HDM的登入登出,固件更新,部分部件更换(如:CPU、内存、硬盘、电源)上报的操作日志,配置导入导出记录,系统锁定等形式,都会以日志的形式记录至操作日志中,能直接展示服务器正常使用过程中的一些配置、部件、版本等内容的变更情况与变更来源。
¡ 远程控制:便捷的远程控制可直接在HDM页面上,查看与控制系统。
¡ 固件清单管理:固件清单中,汇总了服务器上各部件的固件信息,通过Redfish接口,可以便捷的获取机房中所有服务器HDM所管控的固件版本信息,便于统一查询与升级。
· 部件管理:
¡ 部件信息管理:HDM能够获取部件的静态信息与动态信息,通过展示与监控的模式,将展示内容呈现在HDM页面。用户也可以通过IPMI/Redfish/SNMP Agent主动获取监控信息的上报或推送内容,包含各类事件日志告警;服务器运行周期内,能够通过周期性采样数据的形式,以传感器为载体,绘制出各部件的动态变化趋势,例如温度传感器可观察到部件运行状态中的浮动趋势。
¡ 电源与能耗管理。
· 主机管理:
¡ KVM访问:支持KVM、H5 KVM、VNC和JViewer四种远程控制台,支持电源控制、画面捕获和视频录制等操作。
¡ 虚拟媒体:支持软盘、CD/DVD、硬盘/USB设备三种虚拟媒体挂载,支持文件夹挂载。
· 联合管理:
¡ 服务器批量管理,支持以下操作:设备添加、设备删除、查看设备信息(设备IP、产品名称、产品序列号、健康状态、服务器电源状态和UID状态)、访问HDM、电源操作、连接H5 KVM。
H3C服务器在设计时,会为每个自研部件提供对应的唯一物料序列号,部件若存在EEPROM时,出厂时会将FRU信息写入到EEPROM中。对于外购部件,也根据该部件所提供的基本信息获取支持能力,提供唯一物料识别方案。例如:可以查看到物料的型号、序列号、部件号、原始厂商信息等信息。
提供设备级别的序列号(整机编码三码合一),可利用该信息进行设备级别不同服务器之间进行区分。同时,提供资产信息的写入方案,方便用户自定义的信息写入资产标签,对整机进行资产管理。
HDM的设备管理主要覆盖以下几点:
· 设备上各个部件的连接拓扑识别。
· 整机供电,功耗管理。
· 散热方案,包括液冷,风扇控制。
· 上下电管理:
¡ AC上电控制、随机上电策略。
¡ 支持屏蔽物理按键。
¡ 基于硬件设计,HDM可支持特定PCIe槽位的S5状态供电策略,使能S5供电后,该槽位安装的智能网卡可以处于供电状态,同时能保证对应风扇参与调速,保障智能网卡的散热需求。
¡ 可支持上电时序控制,例如:智能网卡与系统主机的上电时序控制。
为了避免运维误操作,HDM支持对各部件的丝印信息显示,包括传感器、事件日志、部件位置信息中丝印信息的展示。
HDM支持的丝印及位置信息满足如下要求:
· HDM呈现丝印信息与整机实物呈现的丝印一致。
· HDM各类API所呈现的部件丝印信息内容一致。
· 针对CPU和内存提供与整机安装一致的可视化分布布局。
· 针对温度型传感器,提供可视化的温度曲线图,呈现位置与部件所在整机的布局位置基本一致。
HDM支持多种部件管理,包括CPU、内存、存储卡、硬盘、电源、风扇、网卡、GPU卡等,支持的功能有:
· 带外信息读取、历史信息保存并支持特定场景下基于历史数据的预测。
· 带外设置,如对支持带外管理的存储卡进行带外管理,设置电源的主备工作模式等。
· 事件的上报与处理,特别是可维护性事件,对上下文信息进行收集。
· 部分部件的寿命预测,如支持获取SMART信息的硬盘,可进行寿命预测等。
服务器支持通过带外管理接口读取的服务器关键部件的信息如表3-4所示。
部件类型 |
带外管理接口可提供信息 |
说明 |
处理器(CPU) |
· 满配个数、在位个数 · 插槽号 · 厂商 · 型号 · 主频、最大频率 · 核心数、线程数 · 健康状态 · 多级缓存大小 · 架构 · PPIN(Intel) |
/ |
内存 |
· 满配个数、在位个数 · 位置 · 工作频率、最大频率 · 容量 · 内存标准、内存类型 · ECC状态 · 厂商名称、厂家部件号 · 健康状态 |
/ |
硬盘 |
· 满配个数、在位个数 · 硬盘位置 · 厂商(制造商) · 型号 · 接口类型、协议 · 容量 · 健康状态 · 剩余使用寿命(针对SSD类型硬盘) · 硬盘SMART信息 |
/ |
PCIe卡 |
· 厂商、芯片厂商 · 固件版本 · 资源归属(所属CPU、所属Riser) · 温感信息、带宽信息 · 网卡包含基本信息:网口名称、端口号、MAC地址、网口类型 · 网络端口信息:MAC地址、网卡资源归属、网口资源归属、最大速率、连接速率、连接状态、接口类型、LLDP状态、LLDP配置 · 网卡端口流量(需安装FIST SMS) · GPU信息包括:功耗、GPU显存利用率、GPU使用率、NVlink信息、ECC故障监控状态、自检报告、功率封顶、告警推送等 · 健康状态 |
· 可获取的信息以实际安装的PCIe卡为准。 · 常见的网卡可包含: ¡ 板载网卡 ¡ Mezz网卡 ¡ PCIe标卡形态网卡 ¡ OCP形态网卡 ¡ 智能网卡 · GPU信息获取以实际支持情况为准。 |
散热装置:风扇 |
· 满配个数、当前在位个数 · 风扇位置 · 型号 · 转速、速率比 · 健康状态 |
浸没式液冷机型、非HDM管控风扇的机型,HDM页面无风扇信息。 |
散热装置:液冷模块 |
· 满配个数、当前在位个数 · 漏液检测、断线检测 |
仅液冷机型支持。 |
光模块 |
· 温度获取 · 温度参与调速 |
需网卡与光模块均支持获取。 |
电源 |
· 满配个数、当前在位个数 · 电源位置 · 厂商 · 型号 · 额定功率 · 输入电压 · 输出电压 · 当前功率值、健康状态 |
刀箱机型、整机柜机型不涉及。 |
服务器支持通过带外管理接口来管理电源控制策略,包括:
· 支持获取服务器整机功耗。
· 支持远程开机、关机、复位功能。
· 支持获取服务器开关机状态。
· 支持功率封顶技术,开启及关闭功率封顶,设置功率封顶值,设置封顶失效后的关机策略。
HDM支持的主机管理主要有:
· 配件的标识:TPM是否在位、双SD卡是否在位。
· 带内信息:BIOS版本、ME版本、BKC版本信息、PostCode、主机地址空间、SMBIOS信息、操作系统版本、主机运行状态等信息。
¡ PostCode支持明文化显示如图3-31所示,通过直观展示每个POST code的含义,可以迅速了解故障出现的位置和类型,从而有针对性地处理故障,节省大量排查故障的时间,同时可降低使用门槛,提供更友好的用户体验。
对于需要通过OS Agent实现的带内管理功能,服务器应提供相关固件、硬件驱动和开发接口等,确保第三方管理软件能够实现相关的带内管理功能。HDM支持通过带内获取以下信息:
· 服务器CPU使用率。
· 服务器总内存容量,已使用内存容量,内存使用率。
· 网口发送速率、网口接收速率。
· 网卡Firmware版本号。
· 光模块DDM信息。
· 服务器网口IPv4和IPv6地址列表。
· 网口MAC地址、网口名称。
可靠性方面,HDM支持如下配置,以提升服务器整体可靠性,包括:
· IERR后的重启策略。
· 内存故障后的隔离策略,是否启动。
· 随机上电。
· 安全仪表盘。
· 电源、风扇在线巡检,模式切换。
· 风扇散热策略。
· HDM自身的可靠性。
为满足日常运维的需求,服务器需要提供接口供网管系统进行持续监控,以确保设备处于正常工作。服务器设备发生异常时,要主动上报对应的故障给外部运维系统,让外部快速感知到对应的故障,尽早进行对应的故障处理。同时,服务器内部自身也需要对一些关键资源进行监控,以便用于故障诊断需求。
HDM充分考虑各个场景下的监控需求,对外提供的主要功能点有:
· 对外提供多种接口,可供外部对服务器硬件进行持续监控:
¡ 可查看当前状态及历史状态。
¡ 对外提供设备及整机的状态。
¡ 提供对部件的监控,特别是增加了部件寿命预测、故障预警等功能。
· 提供完善的日志记录方案,满足各种场景的定位需求:
¡ 对用户提供标准化、部件化的事件日志,完整记录各方操作的操作日志、供安全使用的审计日志以及部件更换日志。
¡ SDS日志提供全生命周期级别的运行参数记录。
¡ 支持离线记录与异地诊断分析。
· 产品线级统一、符合业界标准、完善的告警通道:
¡ 标准化的接口,满足IPMI、Redfish、SNMP上的纳管需求。
¡ 可实现服务器上直接基于邮件、日志的告警机制。
· 适配主流的网管系统,可以实现服务器设备快速方便地被纳管。
· 提供完善的主机监控能力,具体信息见单独章节描述。
通过HDM可以获取系统的整体和各部件的健康状态,健康状态可以通过Web、健康指示灯、LCD、安全面板等方式展示。
图3-32 整体Web界面展示
在Web界面的“系统健康”页面可以查看服务器整体健康状态和告警汇总信息。
整体健康状态由服务器相关部件健康状态决定,关联的部件有处理器、内存、风扇、电源、存储、PCIe设备、温感、主板、背板、转接卡等。
· 对各个部件提供静态数据查询接口,动态数据持续监控,异常事件感知,并根据事件类型来触发对应的诊断分析。
· 易用的Web页面,方便查看部件相关的各维度信息。
· 支持对多角色部件(比如基于PCIe的网络、阵列卡设备)、冗余部件(比如电源、风扇)、组合部件(如阵列卡与超级电容、OCP卡、对应的风扇)、多单元部件(如内存、硬盘)进行多层次监控。
· 监控信息按层次来汇总,最终根据对设备的影响情况来确定最终的系统健康状态。
温度监控用于显示服务器机箱中各组件温度传感器的分布图及数值,同时提供了实际物理结构图作为参考,如图3-33所示。温度曲线图上的圆圈与表中可用的传感器相对应,将鼠标移到圆圈上可查看传感器名称、状态、温度读数和阈值。温度曲线图的颜色从绿色逐渐变为红色,绿色表示温度为0°C,红色表示温度较高。坐标含义如下:
· X:传感器在X轴上的坐标信息。
· Y:传感器在Y轴上的坐标信息。
· Z:传感器所属节点信息(多节点、多层设计的机型会体现差异)。
传感器历史曲线:HDM可以查看任意线性(温度、风扇转速、功率)传感器的最近一天、一周、一个月(30天)的历史曲线信息,包括显示在某一统计周期内,某一传感器的最高、平均、最低的采样数据信息。
图3-34 传感器历史曲线图
对于长时间采样监控异常的传感器,可记录“未采样”、“不可用”的标识描述。“未采样”常见于HDM启动后的首个采样点,“不可用”常见于已知的(不监控的场景)、异常的(链路异常导致监控失败)传感器不可用的状态。
按实际可配置情况动态生成传感器:HDM支持识别服务器的配置,基于该配置识别结果,生成出需要监控的传感器,并对这些传感器进行合理的监控。对于物理上可安装部件,但未安装实物所预留的位置,可查看到其预留状态相关的传感器;对于物理上不可安装的部件(如未安装的Riser卡、背板时),不会生成多余的传感器,在一定程度上节省监控资源。
H3C的事件日志实现,具备以下特点:
· 兼容性:使用标准的IPMI日志,确保所有日志都可通过IPMI命令来感知到。
· 触发与解除配对:实现了告警日志的触发与解除一一对应,方便外部纳管操作。
· 明文化:所有的事件日志可直接阅读。
· 部件化:所有的告警日志都明确到对应的部件,可用于知道快速定位用。
· 全生命周期记录:实现对所有的事件日志进行记录,可满足正常质保期间内的事件日志记录需求。
· 灵活的对外接口与集成能力:支持多种接口来上报故障信息,以便与上层运维系统对接。
(1) 服务器告警通道
服务器上,当前可用于告警上报的通道有:
¡ 硬件指示灯,主要在服务器的前后面板上,包括各个部件自身的指示灯、安全面板、LCD和系统级的硬件健康灯。
¡ 软件上的设备健康灯,主要体现在Web页面上,也可通过IPMI命令来查询。
¡ 以事件日志为基础的告警信息,包括记录SEL中的事件日志、记录SDS中供内部定位用的SDS日志和事件日志及之后通过各个监控用的通道对外展现的信息变种(通道主要有:SNMP Trap、SMTP、Redfish、远程syslog等)、记录内部的日志信息。
¡ 以传感器为基础的告警信息。
¡ BIOS、OS内的告警信息。
当异常事件发生时,可被上述的一种或多种界面监控到。监控能力依赖于硬件是否有能力上报,上报通路是否通畅。HDM接受异常信息并对异常进行处理,结合上下文判读故障类型。处理后的信息会往多个界面上传递,以便外部能够感知。信息在不同通道上流通时,需要映射、转换,很有可能导致信息丢失、不一致,需要明确其规则。
(2) 事件日志
事件日志为IPMI标准定义的实现方式,外部使用标准的ipmitool来获取和解析,是早期服务器管理的标准手段。支持基于事件日志的监控,在事件日志上完成部件化描述,实现信息的对外展现。
事件日志与SMTP、SNMP、Redfish、syslog联动,作为这些告警通道的触发源和数据源,但有以下差异:
¡ SNMP在事件日志的基础上,新增OID、SN、扩展描述信息等功能。
¡ syslog对事件日志的扩展信息进行描述,对外传递。
(3) 硬件健康灯
当主板发生故障时,CPLD逻辑会主动点硬件健康灯,同时在CPLD寄存器上反馈。软件通过查询与响应中断的方式感知逻辑上监控到的硬件故障。软件对故障进行处理后,如发现有需要用户感知的异常,则输出事件日志、同时标识传感器状态,进一步反馈到软件健康灯,回写告警状态到逻辑上,最终体现在硬件健康灯的状态上。
软件控制硬件点灯:HDM启动前,控制权属于主板。启动后,控制权属于HDM。
(4) 软件健康灯
用于反馈设备(硬件)的当前健康状态。健康灯反映各个部件健康状态汇总后的状态,当前主要汇总内存、CPU、主板、PCIe、电源、散热、存储、温度/电流/电压(本质上主要是主板或各类单板)的故障信息。
其中内存、CPU、PCIe信息,主要是由BIOS传递过来。BIOS可在post阶段和runtime阶段传递内存的信息。
当前实现上约束如下:
¡ 健康灯只由告警类的事件日志关联。
¡ 根据告警级别的定义,轻微的告警不关联健康灯。
¡ 纯软件类的告警信息不关联健康灯。
¡ 综合各个部件的健康状态,根据部件故障对系统的影响来划分等级并描述当前设备的健康状态。
¡ 软件上感知到的健康状态,回写到硬件健康灯上,保证软硬件健康灯的状态一致。
(5) 传感器
传感器用于描述给定对象的当前信息(在位、读数、异常标识),具有标识对象监控状态的能力。根据IPMI标准定义,该规范定义了传感器实现方式,外部可通过ipmitool开源工具获取传感器信息。传感器主要定义为连续型(Threshold-based sensor)和离散型(Non-threshold-based sensor)两类。连续型传感器用于监控硬件上连续型物理量(例如:温度、电压、电流、转速、功率)。离散型传感器,主要作为事件日志的主体,反馈各个硬件监控点的监控结果。
传感器将变更的事件通过事件日志的形式上报,让用户感知到事件的触发或解除,并通过事件日志包含的信息进一步识别信息来源与故障类型。名称通常为字符串,在标识上做到能够体现部件的位置信息能力。
传感器有传感器名称、传感器状态、传感器读数三要素。主要作用如下:
¡ 传感器名称用于标识关联的部件或该部件的物理丝印。
¡ 传感器状态用于描述对应监控对象(当前对象并非全是针对硬件部件)的状态。
¡ 连续型传感器读值,结合该传感器的读值单位,可完整获取该传感器的读数(例如:35 degree C、220 Volts、5400 RPM等)。离散型传感器的读数用于标识各个事件处于触发态还是解除态。
(6) 其他通道
BIOS或OS启动运行时发现硬件异常,会通过串口、VGA通道等OS传统通道输出异常信息。HDM提供一键下载功能,里面包含了SHD智能硬件诊断结果、bootlog启动信息等。
提供多种监控方案:
· 通过IPMI进行监控
· 通过SMTP监控
· 通过Syslog监控
· 通过SNMP Trap监控
· 通过Redfish API接口监控
· 离线分析
日志的使用场景主要有:
· 一键下载:开发、维护人员基于SDS日志进行离线分析。
· 生产时,通过带内命令从带外获取到SEL,来判断是否有故障信息。
· iService基于事件日志、传感器状态、SHD结果生成设备的健康报告。
· Web页面从日志中提取SHD、历史信息等进行展现。
为了达到离线诊断的目的,在不涉及用户隐私的前提下,SDS日志会对HDM及主机的数据进行全生命周期监控记录。主要记录的信息有:
· 设备的静态信息:用于构造设备的拓扑结构,并了解各个部件的参数信息。
· 事件日志:包括原始的SEL和明文化的SDS日志。
· MCA故障解析:基于400+内置规则进行诊断分析的结果。
· SHD(Smart Hardware Diagnosis):对各硬件部件的智能诊断日志信息
· 设备的操作记录:包括操作日志、升级日志、重启原因解析日志。
· BIOS、BMC、RAID等设备的配置信息。
· Host的运行数据:BIOS的postcode、smbios、bootlog。
· 基于重启事件的数据。
· BMC的运行时数据。
· 用于内部故障诊断用的日志信息。
· 传感器历史数据信息。
外部基于离线版本的SDS可解析获取以下信息:
· SDS日志,解析设备静态信息,提供按日、按月、按时间段以及全部的SDS日志下载的功能,并实时显示下载的进度。
· 故障现象:重启为关键事件,能够获取重启原因,了解重启发生时间点。
· 操作日志、审计日志、事件日志(SDL)和SHD日志按时间顺序进行排序,获取故障点前后的日志信息。
· 解析外部导入规则,确认故障所在位置。
服务器设备需要可靠运行,避免对业务造成影响。但客观上,电子元器件存在一定的失效率,导致设备工作异常,产生各种异常表现,且不同表现对用户业务的影响也不一样。H3C通过设计、生产加工以及售后服务等环节,全流程、全方位提高设备可靠性以及故障诊断能力。HDM内部集成的SHD智能诊断系统对各监控部件进行统一的故障上报格式,内部集成1500+故障诊断案例,故障上报准确率达到95%以上,确保异常故障时能提供准确的故障信息,方便运维工程师对症处理,尽快恢复业务。
(1) 更方便纳管H3C服务器
¡ 多层接口,方便与外部多种运维系统进行对接。
¡ 采用标准的IPMI、Redfish接口,对外呈现告警与监控数据。
¡ 提供公共的云管理平台。
(2) 降低宕机,让设备更可靠运行
¡ 减少意外宕机的概率,MRT智能修复可以预防内存40%以上的意外宕机。
¡ 提前发现关键部件的故障,让潜在的错误更加可控。
(3) 降低运维成本,快速恢复业务。
¡ SDS加速问题的定位,缩短故障恢复时间。
¡ 一次获取日志,避免多次打扰。
HDM SHD(Smart Hardware Diagnosis,智能硬件诊断),是新华三红牌服务器HDM上的全生命周期的设备硬件智能诊断系统,能够对服务器主要硬件发生的故障进行快速且精准的检测与诊断。
支持包括但不限于CPU故障、内存故障、PCIe设备故障、硬盘故障、电源故障、风扇故障、主板故障、系统宕机等部件级的故障进行数据收集、记录、诊断、告警以及日志导出功能,可通过告警日志信息唯一定位可更换部件信息。告警信息可通过Web界面集中展示整体监控状态和具体告警日志,也可通过IPMI、Redfish等管理接口主动查询SEL、Sensor信息以了解整机和部件监控状态,以部件健康树的形式集中清晰展示部件故障信息。同时也可通过Redfish主动上报故障、SNMP Trap、SMTP、远程syslog等告警方式与不同的运维管理平台系统对接,满足日常运维需求。
SHD通过收集服务器硬件发生故障时的上下文数据,主要包括传感器、CPLD、事件日志等,并基于历史硬件故障诊断经验库,对硬件故障的发生原因进行分析定位,最终给出故障诊断结果报告。故障诊断结果报告的内容包括故障模块、故障时间、故障类型、现象描述、故障可能原因、故障判据以及处理措施。诊断结果以多种方式对外进行呈现,以便满足不同类型用户在各维度的使用需求。
其中,诊断功能涉及到与外部网管系统的对接,从带外管理软件角度来考虑故障告警诊断功能,其主要框架示意如图3-35所示。
SHD支持对服务器主要硬件的全面监控,提供了精准可靠的故障检测与诊断机制,可以检测和诊断的硬件故障包括:
· MCA故障(CPU、内存和PCIe、主板故障)
· 电源故障(电流、电压、温度、电源风扇、IIC、均流)
· 主板故障(二次电源、风扇、网卡、电流、电压、温感)
· PCIe卡故障(网卡、RISER卡、NCSI通道)
· 阵列卡故障(RAID卡、线缆、扩展板、缓存、电池、硬盘)
同时,SHD系统提供了一些辅助诊断功能,主要以日志的方式记录以及可维护性功能的方式呈现,包括故障发生时的服务器系统截屏、HDM串口日志、主机串口日志、IPMI进程调试日志、HDM重启原因记录、BIOS自检码明文化展示等日志,通过这些故障诊断辅助功能,能够更加了解故障发生时现场的情况。
(1) 服务器告警触发源
对于服务器的监控信息,特别是硬件的监控信息,监控的方式有多种途径。当前服务器上主要的告警信息来源有:
¡ BIOS、OS传递的告警信息。
¡ ME对CPU的监控。
¡ 直接通过部件的带外访问能力获取的告警信息。
¡ 通过CPLD监控信号发现的告警信息。
除了硬件设备会产生告警,监控软件内部也可产生的告警。
(2) 需要区分对待的故障类型
由于服务器的应用场景不一样,系统中产生的不同类型的告警需要区分对待,需要区分对待的故障类型包括:
¡ 器件历史发生故障:告警消除,当前系统可正常运行、固件被隔离,业务已降额恢复。
¡ 冗余件故障:系统正常,但风扇、电源等冗余件丢失。
¡ 软件类故障。
¡ 装配类故障。
¡ 非硬件实体故障。
当服务器部件发生故障,或系统不正常工作、宕机或断电时,HDM能够根据不同类型及不同模块出现的故障产生告警,同时生成日志信息。
服务器产品的告警可分四个级别,按告警严重性分为:
· 正常(Info)
事件提示级别,用于表示对系统不会产生影响的事件,例如正常的状态变化、告警事件解除。
· 轻微告警(Minor)
轻微告警不会对系统产生大的影响,需要尽快采取相应的措施,防止故障升级。
· 严重告警(Major)
严重告警将会对系统产生较大的影响,有可能中断部分系统的正常运行,导致业务中断。
· 紧急告警(Critical)
紧急告警可能会使单板下电,系统中断。需要马上采取相应的措施进行处理。
HDM能够检测部分故障信息如下:
· 处理器:能够检测CPU的IERR、自检错误、配置错误(包括CPU UPI errors,IOH UPI errors,CPU core errors,IOH core errors等)、MCERR等故障。
· 内存:能够检测内存的可纠正、不可纠正错误、对ADDDC、巡检UCE降CE进行风险内存预警,基于Intel MRT技术的内存故障预测与内存智能修复、高温降频、Post Training失败等故障。
· 电源:包括电源在位、AC/DC输入丢失、电源预告警、PSU自检失败等故障。
· 风扇:能够检测到风扇的在位、故障、降级故障。
· 存储:能够检测到硬盘在位、故障、预故障、关键阵列、故障阵列等故障。
· 超温报警:包括对CPU、内存、进风口、电源、硬盘等部件进行超温报警。
· 主板和相关板卡关键信息,如电压、电流故障。
· 总线:包括对I2C、IPMB、QPI/UPI总线故障检测。
以主机为中心的信息记录,现网分析发现故障主要是围绕业务开展的。
· Bootlog机制,对每次启动的关键参数进行记录。
· 支持主机重启原因分析。
· 支持主机宕机异常分析。
· Web页面可呈现主机状态迁移过程。
故障诊断处理模块是SHD的核心。对硬件、BIOS、BMC以及操作系统各个维度的数据进行采集与分析,并深入研究分析对应的标准、代码实现、现网的故障数据,逐步完善并形成一套故障诊断系统,覆盖故障明确、故障自愈、故障隔离、故障修复、故障预警、故障处理等相关维度。
H3C公司拥有专业的大数据训练团队与平台,持续汇聚AI训练所需的关键部件训练样本,并基于业界先进的机器学习技术持续进行数据训练,所得模型全方位部署于HDM、UniSystem、云端运维系统上,可实现对服务器全部件、全状态、全带外的运行状态实时监测,让运维工作更加简便、主动。
(1) 故障明确
模块内部对服务器进行全面监控,并基于内置规则来分级定性呈现故障,故障明确到具体部件级别,准确率高达95%以上。主要采取以下措施来实现:
¡ 对服务器的整机工作环境、各个部件、主机状态进行持续监控,全面记录服务器运行中各种潜在的、有风险的事件。
¡ 内置1500+个故障检测点,可覆盖所有部件的已知错误点。
¡ 采用内置的专家规则进行诊断,可确认到部件级别,准确率达95%以上。
(2) 故障自愈
模块内部对发现的服务器故障进行尝试自愈操作,提高设备的可服务性时长。实现的方式有:
¡ 充分利用硬件的RAS能力,对CE错误、可恢复的UCE错误进行自动恢复处理或故障隔离处理。
¡ 采用冗余技术来确保BMC、BIOS固件的安全,在故障时可自动进行恢复。
¡ 采用重启恢复机制,对I2C、BMC SD等不影响用户业务的故障进行重启恢复。
部分场景进行故障自恢复,避免因一些可修复的错误造成的意外宕机或业务迁移,防止干扰生产活动。
(3) 故障隔离
模块内部对发现的故障进行隔离操作,可减少对当前系统的影响,可在降低规格的情况下让业务继续运行。
¡ 内存部分故障场景,可采用ADDDC、PPR、Linux OS的Soft Page Offine相关技术来隔离故障的内存区域,避免后续访问该区域造成系统的宕机。
¡ 启动时发现内存、CPU、PCIE故障,可自动隔离,服务器仍可启动并进入系统。
对部分故障进行隔离,使用降额配置来启动系统,满足部分需要继续进行业务服务、业务迁移等活动的需求。
(4) 故障修复
模块内部充分挖掘设备各个部件的潜力,对一些故障进行自动修复,对部分故障进行快速修复处理,达到降低甚至不影响到当前正在运行的业务。
¡ Intel平台上,HDM采用MRT方法,实时监控DDR5内存颗粒健康信息并进行故障预测,对故障内存的行列地址转换成系统内存页物理地址,并通过BIOS上报给OS,OS进行故障内存页隔离,从而达到有效的故障智能修复,降低系统宕机。
¡ HDM支持补丁操作,可快速修复一些改动量小的问题。
部分场景下支持对CPU微码的在线升级、HDM的在线升级,满足部分业务运行导致不能停机的情况下,进行故障修复的需求。
(5) 故障预警
模块内部采用先进的AI技术,对系统运行数据进行监控处理,提前发现潜在故障部件,让用户对潜在风险有运筹帷幄的管控力。
¡ 支持对NVMe盘寿命进行监控,预测到期故障。
¡ 支持对SATA HDD盘进行SMART阈值预告警。
¡ 采用BIOS巡检、ADDDC技术,检测故障内存并进行预警。
HDM支持实时监测硬件和系统的故障状态,并主动上报故障事件日志,上报的通道包括SNMP Trap、SMTP、Redfish事件订阅、远程Syslog等方式。
同时还可以通过SDS日志,实现离线故障上报诊断能力。通过HDM的一键收集功能,可以查看SDS日志中的诊断报告,以获取硬件故障的详细信息。
MCA(Machine Check Architecture,以下简称MCA)故障诊断是SHD智能诊断的重要组成部分,MCA故障诊断支持CPU、内存、PCIe、主板等故障的检测和诊断。SHD采用轮询检测机制对MCA故障进行监控和诊断,即SHD在轮询过程中检测到CATERR/MSMI信号后,通知ACD进程(Autonomous CrashDump)带外收集硬件故障现场的基础数据。结合收集的故障现场基础数据,基于历史硬件故障诊断经验库,对硬件故障进行分析定位给出诊断报告并上报SEL告警日志。如图3-36所示,从总体上展现了MCA故障诊断的流程。
图3-36 MCA故障诊断总体概览图
(1) CPU故障检测
CPU故障来源有两种,一种是CPU本身内部的故障,另一种是CPU外部部件(内存和PCIe设备)故障引起的。MCA故障诊断能够检测CPU内部主要模块的故障,包括:取指单元(IFU),数据缓存单元(DCU),数据传输缓冲单元(DTLB)等。MCA故障诊断能够分析出故障类型,在多个疑似故障源中进行综合分析,筛选定位到具体故障部件。常见的CPU故障类型有:
¡ 缓存不可纠正故障,包括数据读取错误、数据写入错误、数据预取错误
¡ 看门狗超时故障,3-strike timeout
¡ UPI不可纠正故障
¡ CPU内部电源控制模块故障
¡ CPU访存超时
(2) 内存故障检测
内存故障总体上可划分为可纠正内存故障和不可纠正内存故障。服务器系统一旦发生内存不可纠正故障将会对客户业务的运行造成严重影响。MCA故障诊断专注于内存不可纠正故障的检测与诊断,可以对收集故障记录模块记录的内存故障地址进行解析,在服务器系统搭载的大量内存条中识别出故障的内存条,精准定位到具体的CPU-Channel-DIMM。常见的内存不可纠正故障类型有:
¡ 访存地址/命令错误
¡ 内存读取/写入错误
¡ 内存缓存控制错误
¡ 内存超时错误
(3) PCIe故障检测
MCA故障诊断能够对收集故障记录模块记录的PCIe故障地址进行解析,在服务器系统诸多的PCIe设备中识别出故障的PCIe设备,精准定位到具体的CPU-Slot。
常见的PCIe故障类型有:
¡ Received an Unsupported Request故障
¡ Malformed TLP故障
¡ Completer Abort故障
¡ Completion Timeout故障
¡ Poisoned TLP故障
¡ ACS Violation故障
¡ Flow Control Protocol Error故障
¡ Data Link Protocol Error故障
¡ Surprise Down Error故障
AMD产品中,HDM已集成ADDC与APML。当操作系统产生宕机后,HDM会通过ADDC工具从带外经APML接口对CPU的crash数据进行收集,采集到原始的CPER文件信息并进行明文化解析与持久化记录,记录的数据,可用于系统宕机后,专业人员解析宕机环境数据用于复盘分析。
HDM接收BIOS传输的相关AMD MCA数据,并进行解析,能够解析如下信息:
(1) CPU故障检测
¡ 检测到CPU的不可纠正、可纠正错误,并可精确到SOCKET。
¡ 检测到SMN错误信息(SMN寄存器记录的是一些会触发系统冷重启的错误),错误能够解析指向具体Socket。
(2) 内存故障检测
¡ 检测到ECC内存错误能够精确到DIMM,非ECC内存错误能够精确到Channel。
¡ 检测到Mem Trainning和Mem Test错误信息,能够精确错误到具体DIMM。
(3) PCIe故障检测
¡ 检测到PCIe的可纠正不可纠正错误,解析错误指向到具体Slot。
内存是服务器设备的核心部件,现代化的内存具有容量大,密度高等特性。内存工艺的特性决定:在内存条整体面积不变的情况下,容量越来越大,存储单元之间的间距越来越小,相邻存储单元之间的干扰风险也越来越大;在内存速率提高、电压降低的情况下,对于采样的精度也要求越来越高的背景下。对内存单元采用必要的可靠性设计势在必行。
为了提升内存可靠性,通过与内存供应商、CPU供应商进行深度合作,发掘内存RAS特性,针对内存在服务器的全生命周期进行审视,以便提升内存的可靠性。HDM在内存RAS方面采用的技术要点有:
(1) 全面集成Intel内存相关的RAS特性
Intel RAS特性,可根据应用场景的需求,配置使能ADDDC、Memory spare、Memory mirror等技术。通过使用空间来换取,来进一步提高内存的可靠性,甚至提升性能。
(2) 全面集成DDR5自身的监控能力
比如默认开启On-die ECC功能,以便在现场及时纠正内存自身的ECC错误(大多来自宇宙射线、外部高速粒子的影响)。
带外持续基于I3C总线对内存上PMIC单元进行实时监控,实时掌控内存的工作环境。
对ECS进行采样分析,确认ECS结果是否有突变,进而来预测内存是否存在故障。
(3) 支持带外监控内存动态信息
支持对内存温度、电压等关键传感器监控。
(4) 支持内存认证防伪
支持检测是否为H3C出厂内存设备。H3C出厂内存设备如图3-37所示,显示认证效果;非H3C出厂内存设备如图3-38所示,无认证效果。
图3-37 H3C认证内存
图3-38 非H3C认证内存
常见内存错误包括可纠正错误CE(Correctable Error)和不可纠正错误(UCE,UE,Uncorrectable Error)。CE通常是单比特错误,可以通过错误校正码(ECC,Error Correcting Code)进行检测和修复。尽管CE能被修复,但频繁的CE事件可能是硬件退化的早期迹象,需要追踪和应对。UCE是多比特错误,不能被ECC修复,通常会导致系统崩溃或者进程崩溃引发数据损坏,是服务器的重大风险点。
内存的修复技术旨在通过提升检测、隔离和修复内存错误的能力,从而提高服务器的稳定性和可靠性。这些技术包括硬件层面的内存纠错和软件层面的错误检测与处理方法。
英特尔®内存故障预测技术,根据内存故障在空间和时间上的分布情况,进行内存故障预测及分析,可提前对潜在故障点进行预防性处理,进而提升内存可靠性,保证系统的稳定性,也可支持在灾难性内存故障发生前触发预防措施(例如工作负载迁移等)。根据实验数据表明,采用英特尔®内存故障管理技术可以有效降低40%以上由内存硬件故障导致的宕机。
图3-39 内存智能修复流程泳道图
(1) 持续优化的分析预测模型
服务器对DIMM、Rank、Bank、列(Column)、行(Row)等单元的实时数据进行采样,并输入到内存故障分析模型中,以此生成内存健康状况评估,并将其应用于预测潜在故障。
(2) 提供实时内存健康状况可视化功能
提供完善的内存潜在故障输出机制以及内存故障修复记录清单,以便辅助用户进行内存潜在故障诊断。
(3) 提前感知内存可靠性,主动负载迁移
内存预测分析结果可通过Web页面、Redfish等多种通道输出,更上层的运维管理系统可以根据策略需要决定是否进行工作负载迁移。
(4) 优化操作系统页面离线功能
内存故障分析结果同时可与操作系统联动,进行内存潜在故障页面的隔离操作。当特定内存区域的错误突然爆发时,该内存区域很可能会发生不可纠正错误,进而引发系统宕机。通过提前分析确定内存故障点,并可根据配置来触发操作系统对缺陷页进行隔离操作,完成数据迁移,防止内存潜在故障页被再次使用,进而降低内存不可纠正错误发生的风险。
(5) 减少不必要的DIMM更换
通过分析内存错误和预测潜在的内存故障,在日志与控制台页面准确标识潜在故障内存的位置信息并自动隔离该区域,减少DIMM的更换数量和频率,让运维更加简捷、高效。
除上述介绍的功能外,在H3C搭载Intel EGS处理器平台的G6一代服务器上,HDM支持基于Intel MRT的内存智能修复技术。
· 内存故障收集。由HDM通过PECI通道,实时捕获内存中的微小异常,主要包括可纠正错误(CEs)的预兆,结合产生这些错误发生时的具体位置、错误类型以及错误频率等信息,经MRT模型预测,可获取该内存的风险水平,对风险较高的内存行(Row)、内存单元(Cell)进行定向隔离。
· 故障智能预测。可针对于有迹可循、可预测的故障,基于多维模型和各类算法来进行预测,可通过该功能预测潜在的内存故障。其内存智能修复的预测结果,可能因系统软件、硬件或配置的差异而有所不同,其预测结果并不能证明内存一定存在问题或故障。
· 故障自愈修复。待隔离的目标地址,会从HDM起,最终传递到操作系统中,由操作系统对分配的内存进行Page Offline,使得风险区域在操作系统层面得以隔离。该隔离过程中,操作系统会对运行在目标内存页帧上的应用进行数据迁移,替换为新的可用的安全内存页帧,被隔离的页帧,本次生命周期中,都将不会被重用。
基于Intel MRT模型预测结果的内存智能修复技术,因融合Intel对自身处理器的引导策略与特征信息,对Intel平台具有更显著的、更准确的修复效果。对于正常运行的系统来说,提前替换可以尽可能确保操作系统稳定运行不宕机,或尽可能确保应用进程(业务程序)不会因程序崩溃而导致数据丢失。
同样的,内存隔离的上限不会是无止尽的,HDM有提供多个档位供用户选择,能够在用户能接受的内存容量损失前提下,更大幅度的提升保护效果。
内存智能修复技术提供的内存故障智能预测与自愈修复能力,具备以下优势:
· 通过AI技术可有效预防40%以上的内存硬件故障导致的非计划宕机。
· 基于SMI中断通知,降低轮询资源占用和通信交互的消耗,减少对业务的干扰。
· 内存智能修复结果直观在HDM界面展示。
· 可根据配置的页大小、档位,结合安装的内存数目,动态预估可隔离上限,避免无限制的隔离。
电源是服务器工作的动力来源,电源故障的检测和诊断是基本要求,SHD采用中断上报和轮询检测的机制对电源故障进行监控,能够支持11类共计24种电源故障,基本涵盖了电源的主要故障类型,实现电源故障的全面监控和诊断。
· 电源不在位故障。
· 电源输入电压故障,包括输入欠压告警和保护,机房输入掉电或输入电源线接触不良。
· 电源风扇故障。
· 电源入风口温度故障,温度过高告警和保护,温度过低告警和保护。
· 电源输出电压故障,包括输出电压过低告警和保护,输出电压过高告警和保护。
· 电源输出电流故障,输出电流过高告警和保护。
· 电源1Hz闪烁,不供电故障。
· 电源IIC通讯异常。
· 电源EEPROM信息错误,包括FRU信息不正确和非我司认证电源。
· 电源型号不匹配。
· 电源负载不均衡。
主板是连接服务器其他硬件的枢纽,SHD针对服务器不同机型进行个性化故障检测和诊断,最多能够支持70+种主板故障类型。
· 二次电源故障,涵盖了服务器各类二次电源模块,包括CPU和板卡电源模块等。
· 风扇不在位故障和PWM转速异常。
· 温度异常,包括整机、CPU和各类板卡温度异常。
· 电压和电流异常。
PCIe卡是对服务器功能的扩展,SHD主要针对网卡和Riser卡进行故障检测和诊断,根据机型差异最多能够支持40+种PCIe卡故障类型。
· 网卡故障,包括自研mLOM卡和25G自研FLOM卡的电源、温感和在位异常。
· RISER卡在位异常。
· NCSI通道切换异常。
SHD支持PMC和LSI阵列卡的故障检测和诊断,通过分析阵列卡上报的事件日志,能够支持100种阵列卡故障类型。
· RAID卡启动异常
· 线缆异常
· 内存异常
· 电池异常
· 硬盘异常
· 掉电保护模块异常
HDM支持对CPU、内存、硬盘、RAID卡、网卡、电源等部件进行主动预警。
· CPU:支持对CPU的可纠正错误(Configuration error)、CPU温度、UPI总线、DMA等预故障进行告警。
· 内存:支持对内存的可纠正ECC错误进行预警功能,巡检错误以及ADDDC预警。
· 硬盘:支持对HDD、SSD盘的预故障、Media error、 Predfail、坏道(仅HDD盘)等故障进行预告警;支持对SSD、NVMe盘的剩余使用寿命进行预告警和监控。
· RAID卡:检测RAID卡PCIe链路上的总线可纠正错误,并提供预告警。支持对阵列卡上电池预故障(电压低)进行告警。
· 网卡:检测网卡PCIe链路上的总线可纠正错误,并提供预告警。
· 电源:支持对电源的预故障,负载不均衡,电源极限功率超过矫正时限等预故障进行告警。提供电源自检失败预告警功能。
支持对主机的远程诊断:
· 使用串口日志、蓝屏快照、蓝屏录屏功能进行主机信息分析。
· 支持ASD(Intel)、iHDT(AMD)等远程调试方式。
各部件支持的主要告警有:
表3-5 故障列表
部件类型 |
支持的关键告警 |
BMC |
系统主板和各扩展板背板/Riser/风扇板等功耗超过上下阈值应产生告警 |
BMC |
系统主板和各扩展板(背板/Riser/风扇板等关键电压超过上下阈值应产生告警 |
BMC |
系统主板和各扩展板背板/Riser/风扇板等关键电流超过上下阈值应产生告警 |
BMC |
BMC管理系统处理器具有自检功能 |
BMC |
BMC应对所监控到的所有电压、电流、温度设置严重、致命告警阈值 |
BMC |
各电压/电流/功耗传感器读取失败应告警并记录日志 |
BMC |
RAID控制器状况监测和告警 |
BMC |
RAID卡BBU(电容)状况监测和告警 |
BMC |
网卡状况监测和告警 |
BMC |
网卡上的光模块Link状况监测和告警 |
BMC |
电子标签读取失败告警 |
BMC |
BIOS/Firmware ROM损坏告警 |
BMC |
TPM/TCM检测与告警 |
BMC |
视频控制器检测与告警 |
BMC |
BMC NAND Flash状况监测和告警 |
CPU |
任何一个CPU在位状态变化应通过HDM告警并记录到日志 |
CPU |
CPU CPU_VCORE 核心电压,功耗实时监测 |
CPU |
CPU Thermal Throttling |
CPU |
CPU内部错误检测与告警 |
CPU |
CPU PCIe MMIO资源检测与告警 |
CPU |
CPU Mismatch |
PCIe |
PCIe Advanced Error Reporting |
PCIe |
PCIe Corrected Error Reporting |
PCIe |
PCIe Link CRC Error Check and Retry |
PCIe |
PCIe ECRC |
PCIe |
PCIe Stop and Scream |
PCIe |
PCI Express Hot Plug |
PCIe |
任何一个PCI/PCIE卡在位状态变化应通过故障诊断面板告警并记录到日志 |
PCIe |
PCIE卡自检状态检测与告警 |
PCIe |
PCIE卡初始化状态检测与告警 |
PCIe |
PCIE Retimer/Switch检测与告警 |
System |
支持热插拔的部件,热插拔信号应有隔离电路,避免热插拔时器件EOS损坏 |
System |
提供共享总线(如IIC)访问失败/挂死的检测功能 |
System |
提供CPLD在线升级接口的告警功能 |
System |
提供CPLD自定义总线的告警功能 |
System |
背板、Expander、Riser等扩展板的状态监测和告警 |
System |
挂耳在位状态检测与告警 |
System |
电源线缆状态检测与告警 |
System |
系统配置不匹配告警 |
System |
看门狗检测与告警 |
System |
Architected Error Records |
System |
Machine Check Architecture(MCA)recovery - Non-Execution Path* |
System |
eMCA(Enhanced Machine Check Architecture):Gen1* |
System |
eMCA(Enhanced Machine Check Architecture):Gen2* |
System |
LCD状态检测与告警 |
UPI |
Intel UPI Link Level Retry* |
UPI |
UPI链路CRC校验 |
UPI |
Intel UPI Protocol Protection via CRC*(32bit) |
UPI |
Intel® UPI corrected and uncorrected faults, Thresholding for Corrected Errors (KTI,PCIe)* |
UPI |
Intel UPI Viral Mode* |
电源 |
系统软件设定功率封顶值不能超过所配的电源模块中其中一组最少PSU额定功率的值 |
电源 |
Failed PSU Identification |
电源 |
一次电源模块拔出告警 |
电源 |
一次电源冗余不足告警 |
电源 |
一次电源无法识别告警 |
电源 |
电源内部风扇停转故障 |
电源 |
一次电源与系统通信故障告警 |
电源 |
一次电源模块输入过压保护 |
电源 |
一次电源模块输入过压告警 |
电源 |
一次电源模块输入欠压保护 |
电源 |
一次电源模块输入欠压告警 |
电源 |
一次电源模块输出过压保护 |
电源 |
一次电源模块输出过压告警 |
电源 |
一次电源模块输出欠压保护 |
电源 |
一次电源模块输出欠压告警 |
电源 |
一次电源在位但未上电/电源输入丢失 |
电源 |
一次电源模块温度过高保护 |
电源 |
一次电源模块温度过高告警 |
电源 |
不同型号的一次电源模块混插告警 |
电源 |
系统下电原因的监控 |
电源 |
电源PG/PWROK监测与告警 |
电源 |
上电超时告警 |
电源 |
缓起电路MOS管压降监测与告警 |
风扇 |
任何一个风扇(框)在位变化应通过HDM告警并记录到日志 |
风扇 |
任何一个风扇(框)转速变化应通过HDM告警并记录到日志 |
风扇 |
风扇线缆故障告警 |
风扇 |
风扇单元和主板通信失败告警 |
风扇 |
系统启动时的风扇故障隔离策略 |
关键IC |
CPLD的故障告警 |
关键IC |
RTC的故障告警 |
关键IC |
EEPROM的故障告警 |
关键IC |
FLASH、SSRAM定时检测故障告警 |
关键IC |
PCH的故障告警 |
关键IC |
时钟检测与告警 |
环境 |
设备实际工作温度超过轻微/严重告警阈值应通过HDM告警并记录到日志 |
环境 |
设备实际工作温度超过致命告警阈值应通过HDM告警并记录到日志 |
环境 |
监控过程中出现的温度告警和异常保护,如复位、下电等,在保护动作前应记录到日志并保存导致保护的原因 |
环境 |
设备访问温感失败告警 |
环境 |
温感读取数据异常告警 |
内存 |
Memory Thermal Throttling* |
内存 |
Memory Address Parity Protection* |
内存 |
Memory Demand and Patrol Scrubbing* |
内存 |
Mem SMBus hang recovery |
内存 |
Data Scrambling |
内存 |
Memory Self Refresh |
内存 |
Memory Corrected Error Reporting |
内存 |
CPU0_DDR_VDD核心电压,功耗实时监测 |
内存 |
Memory PFA |
内存 |
任何一个内存在位和好坏状态变化应通过故障诊断面板告警并记录到日志 |
内存 |
任何因为发生错误而导致BIOS禁用内存模组某个rank 或者DDR控制器某个channel的事件,都必须记录到SEL中 |
内存 |
内存ECC error的详细信息应记录在日志里 |
内存 |
BIOS必须可以提供一个可以设置ECC数量的阈值。当系统的ECC数量超过阈值时BIOS将录入SEL |
内存 |
NVDIMM状况监测和告警 |
内存 |
内存类型检测和告警 |
内存 |
内存匹配性检查和告警 |
内存 |
内存初始化检查和告警 |
硬盘 |
任何一个硬盘读写失败应给出告警 |
硬盘 |
对硬盘实时进行SMART检测,故障时及时告警并记录 |
硬盘 |
任何一个硬盘掉线应给出高级别的告警,提示用户维护 |
硬盘 |
逻辑盘检测与告警 |
硬盘 |
硬盘配置检测与告警 |
硬盘 |
RAID状态检测与告警 |
硬盘 |
SSD硬盘寿命检测与告警 |
说明:*标识的条目与CPU架构相关。
H3C UniSystem支持批量纳管HDM,并提供基于HDM智能诊断的巡检报告。能够完成批量的服务器设备管理,一次打包远程下载服务器批量SDS日志,满足客户的运维需求。
为了方便客户快速方便的批量下载SDS日志,H3C提供了带外批量下载SDS日志小工具,通过HDM提供的带外接口,脚本方式即可实现此功能,无需安装和部署
支持远程报修call home功能,UniSystem支持手动和自动的远程报修功能,当检测到管理的服务器出现故障时,可进行远程报修。支持多种报修模式,包括立即报修、周期报修以及故障触发报修。
图3-41 远程报修框架图
UniSystem/HDM直接对接iService,完成对设备的报修过程。用户需要购买iService账号;购买后可实现周期性传递日志、故障后自动上传云端、云端智能运维、故障预测。
服务器设备的主要目的是为用户业务提供存储、计算、甚至通信方面的服务能力。这些服务能力主要是通过操作系统以及其上的应用来完成。同时,对主机运行状态的监控也非常有必要,以便完成以下两个需求:
· 监控需求:运维管理时,通过监控主机信息,可以了解业务的运行状态,以便进行针对性的调优处理。
· 故障记录需求:对关键事件及其上下文进行跟踪记录,方便在可能的问题发生时,快速锁定问题根因。
为了实现上述监控目的,当前HDM联合BIOS以及FIST SMS、iFIST软件,可完成以下功能:
· 对主机生命周期进行管理。
· 提供Bootlog功能,方便了解每次启动的上下文信息。
· 记录完整的主机地址空间列表,可方便查看设备参数的变化情况,发现异常。
· 对主机重启原因进行分析,快速锁定故障部件。
· 宕机上下文收集,特别是在异常重启后,进行补救性收集,以便应对一些极端的场景。
· 通过HDM提供OS部署与BIOS/部件的配置能力,显卡参数的配置。
· 可通过HDM来了解系统内部的状态(需要FIST SMS支持)。
· 主机容量监控与预测功能(需要FIST SMS支持)。
(1) HDM支持显存大小为64M,最大可支持的分辨率为1920x1200 32bpp@60Hz,可通过BIOS选择是否禁用板载显卡,可通过KVM与面板VGA接口来显示主机的输出。
(2) 可通过带内获取硬盘槽位、PCIE卡槽位信息。
HDM全面对主机启动、运行进行监控处理,并通过标准的传感器和事件日志、前后两次启动的信息对比、固件漂移检测、超时监控、及时记录BIOS发送的日志、可疑故障上下文提取等手段,以主机一次启动为单元的信息记录与呈现,在安全许可的访问内,最大程度记录主机的行为,方便后续进行故障诊断。
图3-42 主机重启的各个状态
实际上,上述各个环节都可能有错误发生的情况,会导致系统启动异常甚至挂死。
IPMI标准传感器定义了主机关键阶段对应的事件,HDM在实现时,基于上述信息进行充分扩展:
· 阶段标识,可确认当前启动到什么状态。
· 启动异常记录。
· 启动超时监控。
· 电源状态变迁记录。
· 运行中的异常记录。
在支持标准信息的基础上,进一步扩展记录,主要是:
· 主机串口日志。
· 故障上下文日志的收集。
· 地址空间与设备信息获取。
主机上电后,完成以下事情的记录:
· 识别出CPU类型、PCIe设备、内存设备。根据BIOS传递过来的Memory map信息组织设备拓扑关系,以及各个设备的拓扑信息。
· 对外提供主机上电事件接口,完成各个模块注册过来的事件。比如上次异常事件的解除、部分传感器信息的更新。
· 记录BIOS的启动时间。
· 描述主机的地址空间信息(方便后续进行故障解析)。
主机在重启过程中会记录的各个状态、持续时间、重启原因、故障记录等,如图3-43所示。
主机发生重启时,需要收集本次bootlog信息,主要包括设备信息、配置信息和日志信息,用于方便快速地定位重启原因。外部可通过对比前后2次主机重启时的设备差异信息来辅助定位故障差异。当前Bootlog日志可通过SDS日志、邮件告警来获取。
图3-44 Bootlog记录信息
Bootlog功能,相关信息记录在SDS日志中。
主机重启事件严重影响业务,需要定位原因,尽快明确是软件问题、操作问题还是硬件问题。并获取更详细的信息能够快速缩小问题,锁定故障单元。
· 开机:原先处于下电状态,对主机进行上电的过程。为了方便后续的实现,对于用户干预的上电动作,以此为标志,之后的启动过程认为是新的一轮启动操作,与之前的状态无关。
· 宕机:系统挂死,但未下电。需要人为或BMC自动进行下电的操作。
· 关机(下电):系统进入直流电源断供的状态。
· 重启:广义上,对于用户而言,只要发生了主机重启事件,就认为是主机重启。细分下来,包括主机重启与主机关机两种场景。微观而言,重启包括:热重启(warm reset)、软重启(soft reset)、冷重启(power cycle)等重启方式。
对于电源状态的变迁情况,业界达成的共识,按已有的标准定义来实现,HDM设计符合ACPI、Redfish、IPMI定义的描述
· ACPI状态变迁。
· IPMI中定义的用户界面。
· Redfish中的状态定义。
HDM支持从多个层面来持续监控主机资源的使用情况,内部记录各个资源的历史使用情况,并提供统一的对外呈现界面。监控类型包括:
· CPU层级的监控,可通过CPU的CUPS机制来确认CPU层面上监控到资源使用情况。
· OS层级的监控,依赖于FIST SMS,可完成对OS层面的资源监控,可感知带内操作系统的资源使用情况,如CPU占有率、内存使用率、磁盘使用率、网络使用率等。
· 提供资源使用的历史数据与未来一段时间的预测数据。根据部分资源使用的历史数据建立AI预测模型,可对未来部分数据进行预测以及页面展示,从而可提前进行故障预防和处理。
· 部分资源提供门限与告警机制。
· 磁盘平均IO延时展示,可用于评估对应磁盘分区上的IO性能。
图3-45 主机资源监控信息
在HDM运维诊断的系统资源页面,可以查看系统资源的监控信息。FIST SMS处于“在位”时,可查看CPU、内存、磁盘、GPU、网卡等各种资源使用信息及资源信息历史变化趋势,可查看外置设备的型号和接口速率。支持设置CPU、内存、磁盘的占用率告警阈值,当资源占用率超过告警阈值时,系统会产生告警。恢复正常时,系统会解除告警。
图3-46 FIST SMS在位时资源监控图
图3-47 FIST SMS在位时设置阈值
为了防止主机BIOS、OS挂死。HDM提供对主机的watchdog进行监控与处理的能力,可在监控到BIOS、OS异常时,对watchdog超时异常根据用户事先给定的策略,进行对应的动作处理。
主要业务流程如下:
(1) 通过BIOS、OS内核开关开启对应的定时器。
(2) HDM监控对应的watchdog状态。
(3) HDM根据用户事先制定的策略进行超时后的处理:忽略、重启、关机、定时中断等。
FIST System Management Service(FIST SMS),是一款无代理管理软件(Agentless),为HDM的设备管理提供支持的服务。FIST SMS能够提供更广范围服务器信息(例如操作系统信息、使用率、软件安装清单等),为客户提供了通过操作系统信息和告警信息来增强硬件监控和管理。
FIST SMS能够有效增强HDM带外监控对主机侧的监控能力,同时基于与HDM间的虚拟通道,可以让HDM与主机侧监管控制能力得到充分补充且虚拟通道有效减少对主机侧的影响,HDM能够获取到资源使用情况、主机软件列表,如软件驱动的名称、版本信息。
满足用户集中运维管理的需求,FIST SMS支持日志转存功能,支持将HDM的故障日志转存到OS侧,并支持自定义转存路径和文件以及转存到OS系统管理日志两种方式。同时支持自定义转存日志的格式和级别满足用户个性化定制需求。
安装后,可支持的功能:
· 主机软件列表
· 获取OS内部的资源使用情况
· 网卡端口的link up down信息
· 磁盘使用率的容量预测功能
· GPU使用率、系统负载率
FIST SMS的工作原理介绍:FIST SMS在增强HDM带外监控能力的同时,也提供了OS侧监控服务器硬件故障的能力,让用户在刚刚发生故障后,OS侧就能够感知到从而尽早的进行业务迁移和负载均衡,有效减少业务故障影响。
图3-48 FIST SMS层次关系
安装FIST SMS后HDM可新增获取的信息如表3-6所示。
表3-6 FIST SMS获取信息列表
信息名称 |
无FIST SMS |
安装FIST SMS |
OS层CPU占有率 |
/ |
√ |
OS层内存占有率 |
/ |
√ |
OS层网络吞吐量 |
/ |
√ |
硬盘占有率 |
/ |
√ |
GPU占有率 |
/ |
√ |
系统负载率 |
/ |
√ |
NFS客户端读写速率 |
/ |
√ |
NFS服务端读写速率 |
/ |
√ |
外部设备信息 |
/ |
√ |
光模块信息 |
/ |
√ |
硬盘使用容量预测 |
/ |
√ |
软件清单 |
/ |
√ |
为了对客户提供有计划变更和硬盘增容争取更多的时间,HDM提供了逻辑盘使用容量预测及预告警功能,使用holt-winter时序预测算法,对当前系统逻辑盘的使用容量进行预测,支持7~21天的硬盘使用容量预测。提前预测引导用户有计划备货和进行合理的物料管理。
注:此功能需要结合FIST SMS
图3-49 硬盘容量预测
不同用户对于HDM访问主机的安全需求不同:
· 通常情况下,默认HDM用户拥有对主机的所有访问权限。
· 在裸金属等应用场景下,需要对通过带外访问带内的行为进行严格审计与控制。
同时主机默认拥有访问HDM的权限,例如:
· 可以在带内进行HDM的升级。
· 可以在带内通过BT或KCS通道对HDM提供的功能进行操作,比如对服务器进行关机、存储介质配置等操作。
HDM设计时,重复考虑不同应用场景的需求,提供了对应的功能,可满足对应的应用需求,并在多家数据中心客户处得到验证。主要功能有:
· 操作日志记录,方便后续的审计。
· 提供IPMI黑白名单机制的命令访问控制能力。
操作日志包含审计日志、固件更新日志、硬件更新日志和配置日志。
· 审计日志:记录访问HDM的操作信息,用于日常运维安全审计。
· 固件更新日志:记录固件更新的操作信息及操作结果。
· 硬件更新日志:记录硬件更新的操作信息及操作结果。
· 配置日志:记录用户的配置操作及操作结果。
日志包含时间、主机名和详细信息描述。日志等级包括:成功和失败。
图3-50 操作日志展示图
事件日志用于记录、查看服务器传感器产生的各种事件。事件按严重性分成如下4个等级:
· 正常:表示对系统不会产生影响的事件,例如正常的状态变化,告警事件解除。
· 轻微:表示对系统不会产生大的影响,需要尽快采取相应的措施,防止故障升级。
· 严重:表示对系统产生较大的影响,有可能中断部分系统的正常运行,导致业务中断。
· 紧急:表示可能会使服务器下电,系统中断。需要马上采取相应的措施进行处理。
在事件日志页面可以通过传感器名称、事件等级、时间参数来快速筛选查询到所需要的事件日志。
图3-51 事件日志展示图
HDM为每条事件日志标识了一个事件码,通过事件码可精确定位出设备的故障类型,并可方便查询相关告警日志手册,获取更详细信息。
HDM的Web页面为部分事件日志提供“处理建议”显示,用户可立即获取相关故障的处理建议,加快了故障的快速定位和修复。
图3-52 事件日志处理建议
HDM提供系统SOL(Serial Over LAN,串口重定向)功能,将原本只能从本地串口线输出的系统串口数据重定向到网络设备输出,并能接受远程网络设备的输入。网管人员可以通过远程的网络终端轻松查看系统串口实时输出数据,并能对系统进行操作干预,达到与近端使用系统串口一样的效果。
HDM的SOL功能可切换到BIOS/OS。
HDM可以提供串口信息记录功能,该功能将部件的实时串口数据记录到内部存储介质中。当部件发生故障时,可以通过一键收集功能导出串口日志信息进行分析。
一键收集日志功能用于收集服务器的日志信息、硬件信息、SDS故障诊断等信息。当设备上各部件模块发生异常时,可通过工具记录日志定位系统中产生异常的原因,了解服务器运行状态。需要注意的是,用户需要联系技术支持,才能进行SDS日志解析查看完整的SDS日志内容,为方便联系,用户可在下载日志时添加联系人信息。
图3-53 SDS一键收集界面
常用的可收集到的日志内容以及对应路径如表3-7所示。
日志内容描述 |
相关文件路径 |
固件版本信息 |
static\firmware_version.json |
BMC系统配置信息 |
dump\bmcsys_info |
服务器硬件信息 |
static\hardwareinfo.xml |
BMC重启原因记录:包括串口reboot重启、HDM页面重启、HDM页面交换分区、IPMI命令重启、AC lost或UID长按重启、WDT超时重启等 |
sdmmc0p4\log\sysmanage\bmc_reboot.log |
HDM和系统重启详细记录 |
sdmmc0p4\log\emerg.log |
BMC系统进程重启记录 |
sdmmc0p4\log\proj\debug_system_manage.log |
BIOS重启过程记录:记录BIOS重启过程中产生的POSTCODE,且解析在BOOTOS阶段以前的POSTCODE |
dump\bios_info\biosprocess.log |
按日记录日志,分三类: event目录csv格式文件记录:csv文件是一种明文方式记录的诊断日志,可查看event目录,其主要是将SEL日志、审计日志、更新日志、SDL日志等SDS中收集的所有日志信息,均转存于csv文件中。用户在查看日志时,可直接查看csv文件即可 osboot目录主机重启日志:记录本次OS重启时的主机配置信息、逻辑状态、主机串口日志、硬件配置信息、PostCode信息等 shd目录硬件智能诊断日志:详细记录了部件智能诊断日志,如MCA、电源等故障诊断日志信息 |
daily\sds_ByDate\00001(序号)_20240106(年月日)\event |
daily\sds_ByDate\00001(序号)_20240106(年月日)\osboot |
|
daily\sds_ByDate\00001(序号)_20240106(年月日)\shd |
|
查看CPLD寄存器信息 |
sdmmc0p4\log\cplddump.log |
需要了解用户相关的操作,可查看操作日志 |
sdmmc0p4\log\operate.log |
传感器信息,包括输入输出电压、电流等 |
static\sensor_info.ini |
FRU配置信息 |
static\FruInfo.ini |
主板配置信息 |
static\board_cfg.ini |
NVME信息 |
static\NVMe_info.txt |
电源配置信息 |
static\psu_cfg.ini |
BMC配置信息,如网络、SMTP、Snmp等配置信息 |
static\bmc.json |
BIOS配置信息 |
static\bios.json |
coredump信息的记录情况 |
sdmmc0p4\crash |
BMC内部的运行状况 |
dump\bmcsys_info |
BIOS/OS相关的信息 |
dump\bios_info |
dump\os_info |
|
硬件相关的信息 |
dump\hw_info |
H3C G6服务器支持安全面板,如图3-54所示,支持显示服务器启动过程氛围灯展示,为用户带来全新的视觉体验。
安全面板氛围灯支持3种颜色(白色/橙色/红色),可实现背景灯光效果与服务器健康或功率负载等状态联动。用户根据指示灯即可获取服务器相关状态或故障信息。加快了服务器现场巡检或故障定位。详细请参考表3-8。
图3-54 安全面板实际效果图
描述 |
氛围灯状态 |
|
待机阶段 |
Standby |
白灯常亮(中间3组灯珠) |
启动阶段 |
Post阶段 |
白灯从中间向两侧逐个点亮,体现Post进度百分比 |
Post完成 |
白灯从中间向两侧流动效果三次 |
|
运行阶段 |
正常状态(关联负载级别) |
白色呼吸(0.2Hz亮度渐变),开启灯珠的数量表示负载轻重,随着整机负载功耗(PSU)增加从中间向两侧点亮的灯珠逐渐增多: · 空负载(10%以下) · 轻负载(10%-50%) · 中负载(50%-80%) · 重负载(80%以上) |
预告警 |
白色呼吸(1Hz亮度渐变) |
|
严重错误 |
橙色闪烁(1Hz) |
|
紧急错误(含电源错误) |
红色闪烁(1Hz) |
|
远程管理 |
系统处在远程管理或HDM正在进行带外固件升级,请勿下电 |
所有白色闪烁(1Hz) |
HDM正在重启 |
部分白灯闪烁(1Hz) |
当服务器Windows操作系统发生故障重启时,HDM支持将最后一屏以指定的格式保存在HDM的存储空间内。用户发现系统宕机后,可以通过网络登录HDM查看蓝屏快照,进而对故障进行快速分析。同时支持触发MCA故障后截屏。
HDM最多可保存十张蓝屏快照。该功能必须先开启KVM服务才会生效。
图3-55 蓝屏快照实例
开启服务器的录像功能,当服务器操作系统发生崩溃、重启或关机时,系统会自动录制事件发生前的录像并保存到内部存储空间。技术人员可以通过录制的视频信息对操作系统崩溃、重启或关机的原因进行分析。
在HDM的录像回放页面,如图3-56所示,用户可以对已录制的页面进行播放、下载、删除等操作。
当前HDM支持记录三个视频文件。该功能必须先开启KVM服务才会生效。
NMI用于向OS触发一个NMI中断,以收集内核堆栈信息并输出到控制台,便于系统异常时定位。
MCA策略是指当HDM检测到不可纠正的IERR错误(包括CPU错误、内存错误和PCIe错误)时,主机是否需要重启的策略。
图3-57 MCA策略设置界面
针对Intel CPU,用户无需购买Intel专用调试器进入机房和服务器连接,远程即可对CPU进行JTAG调试,收集服务器的CPU、内存、PCIe、USB等部件的寄存器信息,以协助定位到底层硬件疑难问题,又称Remote XDP功能。
图3-58 ASD原理
使用介绍:
(1) 开启HDM的ASD服务。
(2) 在远程PC上安装Intel提供的PVT工具。
(3) 安装Python,下载Intel提供的Cscripts。
(4) 打开CMD窗口,在cscripts目录下执行命令,完成调试环境的建立。
针对Intel CPU平台,HDM集成了Intel的ACD(Autonomous Crash-Dump,自动崩溃转储)特性。如图3-59所示,当发生MCA错误时,ACD功能通过PECI通道带外收集MCA和CPU其它相关寄存器信息(包括CPU、内存、PCIE故障信息),将故障信息按照要求的JSON文件格式保存,可用CScripts解析,增强了Intel平台的MCA故障的定位手段。
图3-59 Intel的ACD功能
HDM支持通过IPMI接口主动触发ACD功能。
AMD提供的iHDT(Hardware Debug Tool,硬件调试工具)工具,可用于远程对AMD CPU进行带外JTAG调试,收集服务器的CPU、内存、PCIe等部件信息,其原理如图3-60所示。
AMD机型服务器支持iHDT功能,使用前需要首先在HDM上打开iHDT服务使能。
HDM支持远程Syslog服务器获取操作日志、事件日志、主机串口日志、传感器信息。可配置远程Syslog服务器的端口号,传输协议、日志类型、主机标识参数,如图3-61所示。
图3-61 远程Syslog配置界面
传输协议支持配置:UDP、TCP、TLS加密传输。其中TLS加密传输支持单向和双向认证。
日志类型支持:操作日志、事件日志、安全日志、串口日志、传感器日志。
HDM可设置将服务器产生的事件日志通过“电子邮件警报”发送给指定用户,帮助用户监控服务器的运行状态。SMTP服务器地址支持IPv4、IPv6地址以及域名。支持匿名/认证用户发送,告警信息最多支持发送给15个用户用于服务器监控。
支持所有告警事件按严重等级上报,并支持严重等级设置,包括:“正常及以上”,“轻微及以上”,“严重及以上”,“紧急及以上”,如图3-62所示。
图3-62 电子邮件告警配置界面
HDM可设置将服务器产生的事件日志通过SNMP Trap发送给指定用户,帮助用户监控服务器的运行状态。
HDM支持SNMP Trap服务器配置,可配置按严重性级别上报,包括:“正常及以上”,“轻微及以上”,“严重及以上”,“紧急及以上”。支持配置模块OID模式、事件OID模式、事件码模式上报,如图3-63所示。
· 模块OID模式:一个模块(以传感器类型划分)的告警对应同一个OID,用户通过OID可确定出现问题的模块。
· 事件OID模式:是在模块OID模式的基础上做了精细化处理,将每个模块下的每一种事件告警各自对应一个OID,用户仅利用告警OID就可以确定模块的故障类型。
· 事件码OID模式:上报OID标识各个事件的事件码。
图3-63 SNMP Trap告警配置界面
电源黑匣子数据为HDM在电源出现故障时收集的数据,其包含每个电源近五次故障时的数据。故障信息存储于电源的非易失性存储器中,可以在很长一段时间后访问,保证电源黑匣子数据不会丢失。
黑匣子数据中包含故障时间和故障原因。其处于设备故障诊断日志SDS中,可通过收集设备故障诊断日志SDS的方式收集电源黑匣子信息。
HDM通过看门狗功能监测自身系统中所有进程的运行状态,各进程每隔一段时间向监测模块发送心跳包,若连续未监测到心跳包则会触发异常恢复机制。
在HDM启动后的前十分钟内,每隔一分钟监测心跳包,若连续两次未监测到心跳包,则推测HDM版本异常,将切换为备分区运行。在HDM启动十分钟后,每隔两分钟监测心跳包,若未监测心跳包,则推测进程运行异常,将触发自动重启HDM,进行恢复。
HDM在每次启动后记录自身重启原因,记录于设备故障诊断日志SDS中。可能触发HDM重启的原因有:HDM版本升级、AC掉电、恢复HDM出厂配置、内核异常重启、长按UID、看门狗超时重启等。
HDM SOC芯片具有ECC(Error-Correcting Code)和UECC(Uncorrectable Error-Correcting Code)技术。当产出一定阈值HDM系统内存ECC故障或产出UCE时,支持记录SDL日志,并重启HDM系统。
通过G6服务器智能挂耳上USB Type-C接口,HDM支持外接第三方USB WIFI模块,为HDM提供了无线热点功能。通过无线WIFI,用户可使用手机或便携机直接登录HDM,并配合使用HDM移动端APP(HDM Mobile)或其它工具进行运维和巡检操作。
· 当前仅支持小米随身WIFI和360 随身WIFI,且需要通过typeC转USB连接线进行连接。
· 为提高安全性,仅允许同时接入2个客户端。
· 无线密码:默认不加密,以实现即插即用。
如图3-64所示,通过HDM可配置无线的参数包括:无线使能、无线名称、加密方式和密码、定时关闭时间、无线管理口IP地址、DHCP-server地址池等参数。
通过无线接口,HDM支持网络协议有:Web、Redfish、IPMI、SSH、Telnet。
无需登录HDM,用户或运维人员通过服务U盘可直接运行相关功能,简化了临场运维管理。
G6部分服务器智能挂耳上USB Type-C口为一个直连HDM系统的接口,如图3-65所示。U盘通过typeC转USB连接线连接,可实现服务U盘相关功能。HDM检测到插入U盘之后,根据U盘中的操作标识,可以执行一键收集操作。
图3-65 G6服务器USB Type-C接口
FRU信息指整机或部件制造过程中写入到部件EEPROM中的静态信息,包括:制造商,产品名称,部件号,序列号等信息。HDM根据部件在位状态,获取设备FRU信息,缩短了IPMI/Redfish/SNMP Agent等监控接口的返回时间,提升了运维系统的监控效率。
资产信息管理的核心是采集部件的序列号,HDM支持采集服务器上相关部件的序列号,提供IPMI/Redfish/SNMP Agent接口对接客户的资产管理系统或者运维系统,便于用户快速高效的进行资产盘点,提升资产数据价值。
HDM实现了对支持NCSI over MCTP(over PCIe或者I2C)的网卡以及OCP网卡的带外管理,可获取网卡的端口信息,包括MAC地址,PCIe地址、网卡资源归属、最大速率、协商速率、连接状态、接口类型、LLDP状态等信息。同时HDM支持带外升级部分网卡固件,满足不同运维场景的要求。
图3-66 网卡信息界面展示
通过MCTP over PCIe,HDM实现了对部分FC HBA卡的带外管理功能,包括可以实时获取卡的WWNN、WWPN、温度、健康状态、Link状态、速率等信息,支持带外升级部分FC HBA卡的固件。
图3-67 FC HBA界面信息展示
HDM对GPU卡的带外管理可以获取产品名称、厂家名称、厂商ID、固件版本、内部GPU个数、对应内部GPU的温感值、功耗值等信息。
图3-68 GPU信息界面展示
注:英伟达GPU需要安装驱动。
On Demand是英特尔提供的一种IT解决方案。可在不需要更换处理器的情况下,导入定制License调整某些新的功能,旨在节省物料成本情况下满足企业动态分配资源。
HDM支持获取当前Intel CPU On Demand能力集、以及当前激活的能力集,并且支持带外通过上传从Intel获取的License证书激活Intel CPU支持的特性功能、下载CPU状态报告。
图3-69 Intel On Demand管理界面
HDM存储管理模块实现了存储卡以及硬盘的带外管理功能,主要功能有以下几点:
· 存储卡管理
· 逻辑盘管理
· 物理盘管理
· 存储可维护性
支持对存储卡信息获取,包括:支持获取存储卡的数量,设备名称、厂商、固件版本、接口类型、接口速率、厂商序列号、缓存容量、模式、支持的RAID级别、超级电容状态、Flash卡状态等信息,如图3-70所示。
支持存储卡的带外升级功能(LSI和PMC都需处于MCTP Over PCIe带外管理模式下)。
支持对存储卡属性配置,包括:支持存储卡的回拷设置、SMART错误回拷设置、存储卡模式切换,JBOD状态切换;
支持存储卡的清除操作,包括一键清除卡下所有逻辑盘以及物理盘的foreign状态。RAID卡信息界面如图3-71所示。
图3-71 RAID卡信息界面展示
支持逻辑盘信息获取,包括:获取逻辑盘名称、状态、RAID级别、容量、是否是启动盘、条带大小、读策略、写策略、Cache策略、默认读策略、默认写策略、物理盘缓存策略、访问策略,成员盘列表、成员盘容量大小、成员盘属性等,如图3-72所示。
支持对逻辑盘属性配置,包括:支持带外创建逻辑盘、修改逻辑盘默认读策略、默认写策略、物理盘缓存策略以及访问策略。(配置功能需存储卡支持带外配置RAID),如图3-73所示。
图3-74 逻辑盘属性设置
支持RAID配置导入导出功能。
支持删除逻辑盘时进行身份验证:可以防止误删除操作或非法删除行为导致数据丢失或泄露的情况发生。确保只有经过授权的用户才能删除数据,能够有效保护数据安全性,如图3-75所示。
HDM支持(PMC、LSI)存储卡下物理盘信息获取,包括:获取物理盘的槽位号、厂商名称、型号、固件版本、序列号、状态、最大速率、协议、介质类型、容量、重建进度、硬盘SMART信息(需存储卡支持)、SSD支持获取剩余寿命百分比(需存储卡支持)等。
支持存储卡下物理盘信息配置功能,包括:
· 物理盘的状态配置。
· 热备配置:全局热备、专属热备、漫游热备。
· 硬盘定位点灯配置。
图3-76 物理盘信息(逻辑视图)
图3-77 物理盘信息(物理视图)
HDM支持NVMe盘信息获取,包括:支持获取NVMe盘产品名称、制造商、状态、固件版本、序列号、型号、接口类型、容量、物理槽位、PCIe槽位、剩余寿命、最大速率、介质类型、预测剩余寿命天数等信息显示,如图3-78所示。
HDM支持NVMe剩余寿命天数预测。
HDM通过监控NVMe硬盘的工作状态和性能指标,定期收集硬盘剩余寿命百分比数据。利用收集到的数据,对每个时间段内的百分比数据进行归一化处理。并对数据进行分析和建模,确定百分比变化的趋势。通过分析百分比变化的趋势,可以得出硬盘的剩余寿命天数,并将其以可读性高的形式呈现给用户。相较于传统的百分比表示方式,剩余寿命天数预测功能可以更直观地呈现硬盘剩余寿命,用户能够更好地理解并做出相应决策。
HDM支持NVMe硬盘定位点灯。
HDM支持组建逻辑盘。
支持Marvell阵列卡信息获取包括:阵列卡名称、固件版本、设备厂商、接口类型、支持的RAID级别、健康状态,如图3-79所示。
图3-79 Marvell阵列卡信息显示
支持Marvell阵列卡下逻辑盘信息获取,包括:逻辑盘名称、状态、级别、容量、条带大小以及成员盘信息。如图3-80所示。支持逻辑盘故障监控,能够识别到逻辑盘降级以及故障状态并及时上报告警。
图3-80 Marvell逻辑盘信息显示
支持Marvell阵列卡下M.2物理盘信息获取,包括:物理盘槽位号、BIOS下编号、设备厂商、型号、固件版本、序列号、状态、硬盘温度、协议、介质类型、容量、剩余寿命、温度以及硬盘smart信息,如图3-81所示。支持物理盘故障监控,能够识别到物理盘故障状态并及时上报告警。支持物理盘剩余寿命告警,在硬盘剩余寿命用尽之前提前上报告警,提醒用户及时更换硬盘,避免数据丢失。
图3-81 Marvell物理盘信息显示
HDM支持不通过阵列卡管理的板载物理盘(SATA、M.2)信息获取,包括:获取硬盘的物理槽位、型号、固件版本、容量、最大速率、硬盘介质类型等信息,如图3-82所示。
HDM硬盘定位点灯功能具有多样性,不仅仅是存储卡下硬盘支持点灯功能,直连主板的板载硬盘、板载NVMe硬盘都支持硬盘定位点灯功能。可以满足不同用户的需求,提高了硬盘管理的效率和准确性,增加硬盘点灯的业务场景。
图3-83 存储卡下硬盘点灯
图3-84 板载硬盘点灯
图3-85 板载NVMe硬盘点灯
能够检测到硬盘在位、故障、预故障、阵列故障。
· HDD盘:支持对物理故障、预故障、配置错误、固件状态异常、Media error、Predfail、UNC、坏道、硬盘Miss状态、in critical array状态、in failed array状态监控和告警。
· SSD盘:支持对物理故障、预故障、配置错误、固件状态异常、Media error、Predfail、UNC、硬盘Miss状态监控和告警;支持对SSD盘擦写寿命、剩余预留块信息采集和告警。
· NVMe盘:支持对NVMe盘擦写寿命监控和告警。
· 控制卡:支持控制卡失效告警。
· BBU:支持对BBU故障、预故障(电压低)、不在位进行告警。
图3-86 物理盘告警
HDM可以通过存储卡获取到当前逻辑盘状态,并判断当前逻辑盘状态是否正常,对于状态异常的逻辑盘会通过SEL上报对应告警,通知客户及时处理异常逻辑盘。
图3-87 逻辑盘告警
HDM页面能够图形化显示硬盘各项SMART参数数据,包括属性、当前值、阈值、原始值信息。
图3-88 硬盘SMART信息监控
支持通过对HDD盘SMART数据收集,利用KPI趋势预测算法,预测硬盘未来1天的SMART数据参数走势,并在Web页面图形化显示。
图3-89 硬盘SMART参数AI趋势信息展示
HDM能够实时显示NVMe/SSD剩余寿命百分比,当NVMe/SSD使用寿命达到告警阈值时会上报硬盘预告警,通知客户及时更换硬盘,避免数据丢失和硬盘故障。客户可以根据自己的使用需求自行设定告警阈值,使得告警功能更加灵活,可满足客户的不同需求。
图3-90 NVMe/SSD剩余寿命
通过阵列卡管理的硬盘支持硬盘预故障告警,服务器能够提前检测到硬盘潜在故障迹象并及时上报告警。用户可以提前处理可能出现的故障,以确保服务器的可靠性和稳定性。这有助于减少意外故障造成的停机时间和业务中断,提高系统的可用性。
通过PBSI通道,SHD能够获取PMC卡相关日志信息,包括60+种存储相关故障。
通过MCTP(over pcie)通道,SHD能够获取PMC卡相关日志信息,包括10+种存储相关故障。
能够获取LSI卡相关日志信息,约500+条关于RAID卡、BBU、物理盘、逻辑盘、背板相关故障信息日志。
SHD诊断:支持对PMC/LSI的RAID/HBA卡的日志信息进行诊断,诊断出相应的错误原因,并给出了相关处理措施。支持的模块有:RAID卡、连接线缆、BBU、存储介质。
能获取SAS/SATA的HDD SSD硬盘SMART信息,并实现了基于SMART信息的故障诊断功能。
通过一键下载可以获取LSI卡(9300、9311、9400、9500除外)的存储卡日志信息。
HDM实现硬件线缆检测,包括AUX口线缆、SAS线缆、板载NVMe线缆等接线错误监测,使得接线错误类型的故障及时明确化。
MCTP (Management Component Transport Protocol) over PCIe是一种用于管理组件之间通信的协议。它允许通过PCIe总线在不同的设备之间进行管理信息的传输和交互。MCTP over PCIe协议使用了PCIe传输层,通过在PCIe事务层上定义MCTP消息格式,实现了对管理组件之间的通信。通过这种协议,管理组件可以在系统中实现监控、配置、管理和故障诊断等功能,并能够高效地传送各种管理信息。
HDM不仅支持Intel平台上的MCTP over PCIe功能,还同样支持AMD Genoa平台MCTP Over PCIe功能。这意味着对于AMD 机型HDM同样支持使用MCTP Over PCIe功能对部件进行管理。包括但不限于PMC卡的带外创删Raid,配置逻辑盘属性,阵列卡、硬盘带外升级;LSI阵列卡、硬盘的带外升级;网卡带外升级等功能。
HDM的MCTP Over PCIe的解决方案可以在Intel和AMD的处理器架构上实现统一的管理功能,为客户提供更灵活和可扩展的选择。可以帮助客户在不同的硬件平台上统一管理和监控他们的系统,提高系统的稳定性和可靠性。
MCTP Over I2c是一种I2C 硬件总线上运行的管理组件传输协议。相较于MCTP Over PCIe协议主要区别在物理通道的不同。
HDM支持使用MCTP Over I2c协议对Marvell阵列卡、网卡等进行带外管理。带外管理方式更加灵活,可选择性更丰富。在不支持MCTP over PCIe的服务器平台或者设备上,可以选择使用 MCTP over I2C 确保相关设备的带外功能正常运行。可满足客户的不同需求。
NVMe-MI(NVMe Management Interface)协议是一种专门用于管理 NVMe(Non-Volatile Memory Express)设备的接口协议。它允许系统管理和监控连接的 NVMe 设备,包括NVMe固态硬盘和其他NVMe存储设备。NVMe-MI协议定义了一组命令和数据结构,用于执行设备管理、监控和错误日志等操作。
HDM支持使用NVMe-MI对Marvell阵列卡以及部分NVMe硬盘的带外管理。包括:Marvell卡,逻辑盘、物理盘的基本信息获取以及故障状态监控功能;部分NVMe硬盘的smart信息获取等。
支持在Web页面的PCIe页签展示GPU的基本信息,包括设备名称、设备厂商、固件版本、健康状态、位置、厂家部件号、厂家序列号、功率、型号。
图3-91 GPU信息展示界面
支持GPU模组内各个节点固件带外整体打包进行升级,固件包括HMC、FPGA、GPU、NVSwitch、PCIeSwitch、PCIeRetimer。
图3-92 GPU固件信息展示
GPU模组带外升级优势:
· 支持GPU多节点固件整体升级,防止因为组件固件不配套而出现模组不可控问题,大大提高了维护显卡的效率和稳定性。
· 支持镜像池备份功能,可以一键更换固件。
支持GPU功率封顶,也称为功耗限制(Power Limit),是一项GPU管理技术,它可以限制GPU的功率等级(TDP),从而使GPU在配备有限的热量散热器的情况下保持稳定。GPU封顶功率的设置是一项非常关键的工作,可以限制GPU的功率消耗,防止过度升温,增加GPU的稳定性和可靠性。
图3-93 GPU功率封顶设置
· 支持通过Web页面一键下载SDS来导出GPU模组上所有组件的异常状态和自检报告。
· 支持Redfish接口查询GPU模组产生的告警事件,并且可以根据告警等级对告警事件进行筛选。依赖GPU本身具备的带外故障监控能力,支持过温告警、GPU异常在位状态、Power_good状态异常、PCIe接口状态异常、ECC/UCE、NVLink/NVSwitch严重错误、XID错误消息、HMC服务异常、PCIe可恢复错误、HMC重启自恢复等各类错误。
· 支持实时监控GPU的使用率(需要安装FIST SMS)。
当前数据中心规模越来越大,能耗越来越高,而服务器能耗占比又比较高,实现服务器的节能对数据中心的高效运营至关重要。
HDM结合多项智能节能技术,可以有效降低服务器能耗,提升机柜供电利用率和部署密度,助力新基建产业绿色发展。除此之外,HDM配合H3C多款液冷服务器,通过支持漏液检测等功能为客户液冷数据中心的正常运行保驾护航。
· HDM通过对CPU、内存、风扇、硬盘进行部件级能耗监控。
· 支持用户通过Redfish\IPMI\SNMP等多个接口对功耗数据进行实时监控。
· 提供设备上下电控制、AC恢复配置修改、功率封顶、电源工作模式。
· 支持历史功率统计、节能设置、风扇管理、性能调优多种功能。
HDM的Web提供对服务器的电源控制方式。
图3-94 设备上下电
服务器电源控制方式包括:立即重启、强制关机、正常关机、开机、关机并重新开机,并且支持屏蔽物理电源按钮。
· 立即重启:表示对服务器进行冷复位,即:HDM直接拉PCH使系统复位,绕过正常的操作系统关闭流程。
· 强制关机:表示对服务器进行关机,无需等待OS响应,绕过正常的操作系统关闭流程,效果相当于长按服务器面板上的电源按钮。
· 正常关机:表示对服务器进行安全关机,HDM向OS发送ACPI中断,若OS支持ACPI服务,则先走正常的操作系统关闭(将所有运行进程关闭)后下电,否则,只能等到超过下电超时时间后,HDM将系统强制关机;效果相当于短按服务器面板上的电源按钮。
· 开机:表示对服务器进行上电。
· 关机并重新开机:表示对服务器先强制关机再开机。
· 支持屏蔽物理电源按钮,开启后电源物理按钮功能失效,防止现场误触发电源按钮引起业务中断。
AC恢复配置用于配置服务器通电后系统的启动策略,包括:
· 总是开启:通电后,服务器系统会自动启动。
· 总是关闭:通电后,服务器系统保持关闭状态。
· 上一次电源状态:通电后,服务器系统会恢复到上次断电前的状态。服务器缺省处于此模式。
· 开机延迟:开机延迟时间。可以配置:15s、30s、45s、60s,以及随机(1~120s)。开机延迟可以用于服务器的错峰上电,降低机房开机过程中的瞬时功耗。
图3-95 AC恢复配置策略界面
系统开机的最终指令由HDM控制。AC通电后主板Standby电源先供电,HDM启动,然后由HDM根据开机通电策略决定是否将系统开机。
功率封顶功能通过设置系统的功率预期上限,当系统功率超过此上限值后,引导特定动作发生,从而保证机箱整体功率的合理分配。
封顶失败进一步动作包括:
· 记录事件:封顶失败后在系统事件文件中记录一条日志,默认执行。
· 关机(可选):封顶失败后,系统将执行强制下电操作。
图3-96 主板功率封顶配置
在此基础上,HDM通过联合UniSystem,支持对机房服务器进行智能功率封顶以及紧急一键功率封顶。通过智能功率封顶,可以实现根据服务器业务特点智能调节服务器功率封顶值,用于支撑客户业务的部署优化。
图3-97 智能功率封顶设置
通过紧急一键功率封顶功能可以在机房供电发生紧急故障时一键设置各服务器的功率封顶值,达到快速降低机房服务器功耗,保障关键核心业务服务器的供电,避免对客户造成重大损失
图3-98 紧急一键功率封顶设置
在满足业务功耗前提下,将部分电源设置为热备用,提升电源功率转换效率。HDM可设置服务器电源的工作模式,包括主备模式和负载均衡模式。
主备模式:包括至少1个主电源,至少1个备用电源。
· 当主电源发生故障,备用电源会自动切换为主电源,以保证电源的可靠性。
· 当主电源实际功率超过主电源额定功率(主电源最大功率)的62%时,备用电源将自动切换为主电源,变成负载均衡模式。
负载均衡:所有在位电源均处于主电源模式,实现负载分担。
图3-99 电源工作模式选择
开启冷备份电源巡检后,一个月检测一次所有在位冷备份电源作为主电源时输出功率是否正常,在巡检时会将电源工作模式切换为负载均衡模式,检测电源组整体输出是否正常,如果不正常则上报SEL告警。
· 检测结果为正常:电源工作模式恢复到用户配置的模式。
· 检测结果为不正常:电源工作模式保持在负载均衡模式。
· 冷备份电源巡检功能开启条件:电源组整体健康且无告警,同时要求电源组在位电源数量大于或等于2。
· 在两种电源工作模式下均能开启冷备份电源巡检功能。
通过冷备份电源巡检功能,可保证电源的健康状态和稳定性,提高系统的可靠性和稳定性。
电源智能节能模式(电源动态主备):HDM会根据当前服务器的总功率实时动态调节电源工作模式,保证电源子系统以最高的工作效率维持服务器的正常运行,实现节能降耗的目的。当服务器总功率较高时,电源工作模式会自动切换为负载均衡模式;当服务器总功率较低时,电源工作模式会自动切换为主备模式。
图3-100 电源动态主备设置
注:仅支持双电源机型。
HDM可以准确的监测能耗并通过曲线展示统计结果,使管理员能够通过能耗监测装置深入了解实际电力及散热资源的使用情况。用户通过分析历史数据对服务器节能进行优化。
页面最长支持展示最近30天的功率信息。
图3-101 历史功率统计
一键设置电源性能模式,包括:性能模式、节能模式、均衡模式。满足不同客户或不同场景对服务器的性能、功耗、噪声等不同需求。
通过调节CPU的最高工作频率(P-state)可以降低系统能耗。支持多种调节等级,操作灵活,满足不同产品需求。
图3-102 节能设置
HDM支持风扇线性调速和更为精确的PID调速两种调速方法。
MS调速算法简单,直接根据温度以及xml配置文件来决定出风扇的转速。
PID风扇调速通过调速参数配置XML文件中传感器调速参数以及传感器温度,实时计算出风扇转速。其优点是能够更加精准的进行风扇转速控制。
PID算法如下:
图3-103为PID算法调速效果仿真图。从中可以看到随着DTS温度的升高,风扇转速也会相应的增加,温度降低风扇转速也会相应的降低。
图3-103 PID算法调速效果
用户可根据不同场景,配置风扇调速策略设置,支持手动设置固定风扇转速,支持根据负载及散热情况自动调速,支持设置相应的风扇模式,包括:
· 静音模式:风扇调速模式为静音模式时,在确保服务器正常散热的前提下,风扇以最低转速运转,此时噪音最小。该模式适用于对噪音要求比较高的场景。
· 均衡模式:风扇调速模式为均衡模式时,风扇会加快转速,此时的噪音和散热能力介于静音模式和强劲模式之间。该模式适用于对噪音和散热能力有平衡要求的场景。
· 强劲模式:风扇调速模式为强劲模式时,风扇以当前条件下的最高转速运转,此时噪音最大,但风扇的散热能力最强,能有效降低CPU等关键组件的温度。该模式适用于对服务器散热要求比较高的场景,如业务繁忙导致CPU等关键组件负载较大、工作环境温度变化频繁。
· 自定义:设置风扇模式时,档位(1-20)越高,风扇的转速越高,散热能力越强,噪声也越大。档位越低,风扇的转速越低,噪声越小,功耗越低。
图3-104 风扇自定义档位设置
服务器默认BIOS设置在性能与能效之间取得平衡,可通过调整这些设置用以匹配特定的应用程序工作负载,以此帮助客户提升应用性能。该功能仅Intel机型支持,且部分功能受License管控。
应用场景配置模板是部署BIOS设置以适应服务器预期应用的配置选项集合,HDM提供支持10+套配置模板,帮助用户根据不同的应用场景部署最适合自身的BIOS设置。
图3-105 性能配置界面
HDM提供如下应用场景配置模板供用户配置使用,以此来帮助用户使用基于工作负载的已知调整配置模板对BIOS进行设置,将工作负载配置模板设置与实际部署的工作负载相匹配时,性能可高于仅仅直接使用BIOS默认值。
· General Power Efficient Compute(通用节能模式)
通用节能模式模板,是一套对大部分应用程序工作负载最常用的设置,侧重于对节能方面的要求。CPU核可以进入节能状态,允许处理器芯片进行睡眠状态,关闭虚拟化配置,是通用的节能配置。
· General Peak Frequency Compute(通用效能模式)
通用效能模式模板,适用于需要处理器或内存支持工作负载,对单核可以实现最大频率。关闭节能相关设置,CPU所有核保持C0/C1活跃状态,关闭虚拟化配置,是一套性能优先的配置。
· Advanced Reliability Mode(高可靠性模式)
高可靠性模式可以提升可维护性的手段,采取性能策略,减少因唤醒而产生的等待时间,发生错误时,减少系统应对错误的响应处理时间。建议使用X4的内存并开启ADDDC Sparing功能,配置X8颗粒内存时,不支持ADDDC功能。
· General Throughput Compute(均衡吞吐模式)
均衡吞吐模式适用于需要持续最大工作负载吞吐量的场景,处理器能够在最大利用率期间跨所有可用内核执行持续性工作,开启SNC后,改善了到LLC的平均延迟,某些工作负载通过NUMA(Non Uniform Memory Access,非统一内存访问架构)方式访问时,性能会有所提升,可以达到最佳吞吐量。
· High Performance Compute(高性能计算模式)
高性能计算模式一般用于集群环境,每个节点以最大利用率运行,以解决大规模的工作负载。服务器不使用虚拟化环境时,关闭虚拟化IO支持,避免影响性能,关闭节能相关设置,适用于高性能的配置场景。
· Virtualization-Power Efficient(虚拟化节能模式)
虚拟化节能模式用于虚拟化环境,保证启用所有可用的虚拟化选项,并允许处理器芯片进入睡眠状态,是一套节能优先的虚拟化环境配置。
· Virtualization–Performance(虚拟化性能模式)
虚拟化性能模式是虚拟化环境中,可以提供最大性能的配置。关闭节能相关设置,确保所有可用的虚拟化选项都已启用,以提供最大性能,虚拟节点以最大利用率运行。
· Graphic Processing(图形处理模式)
图形处理模式适用于在使用图形处理单元(GPU)的服务器上配置。GPU通常依赖于I/O和内存之间的最大带宽。禁用了对I/O和内存之间的链路有影响的电源管理功能。对等通信也至关重要,因此也禁用了虚拟化。
· Low Latency(低延迟模式)
低延迟模式适用于需要计算延迟时间最小的应用场景。为了减少总体计算延迟,将以牺牲最大运行速度和吞吐量为代价,关闭了可能导致计算延迟的电源管理和其它管理功能。
· Transactional Application Processing(事务性应用程序处理模式)
事务性应用程序处理模式用于比如数据库后端的应用程序业务处理环境中,可以平衡管理峰值频率和吞吐量要求。
· Fixed Turbo Frequency(固定至睿频频率模式)
固定至睿频频率模式用于锁定至睿频频率的应用场景。通过带外方式实现,操作系统不参与频率的调节。
· AI Optimized(AI优化模式)
适用于对大量计算资源进行人工智能推理或训练的应用场景。AI优化模式通过将CPU锁定到最高性能,提升人工智能推理或训练的应用场景下服务器性能
· Custom
Custom模式将使用系统侧BIOS的默认配置,用户可以根据自身需求对选项设置进行修改。
了解到将服务器资源利用率映射到BIOS调整设置以提高工作负载性能经常不直观而且成本高昂,HDM对应支持性能顾问功能,通过监视多项重要的服务器性能指标,为用户实时提供工作负载匹配以及某些BIOS设置的推荐调整。
推荐调整基于运行工作负载时所使用的实际服务器资源,依托性能配置功能,让用户可进一步自定义调整设置。
性能顾问采用一种多阶段的方法在工作负载运行时分析系统行为。
· 性能顾问通过分析性能监视指标,将工作负载映射到一组使用情况或行为特征报告,这些特征可能比较简单(例如内存利用率高),却是定位可能存在的资源使用瓶颈的起点。
· 性能顾问通过其分析推荐的BIOS更改可能会产生更理想效果。
性能顾问能让用户了解其工作负载的特征,然后根据工作负载的特征推荐某种配置。
图3-106 工作负载推荐
虚拟KVM是指用户在客户端等远程位置,利用本地的键盘、视频和鼠标对目标设备进行监视和控制,提供实时操作异地设备的管理方式。
图3-107 虚拟KVM
H5 KVM相对于KVM优势在于无需任何插件,通过浏览器HTTPs访问即可实现对服务器的远程管理。支持双CD镜像挂载。
HDM支持通过IP地址和账号密码来直接访问H5 KVM。
输入格式如下:https://ip_addr/viewer.html?u=user_name&p=user_passord,示例如图3-108所示。
图3-108 H5 KVM的直接访问的示例
共享或独占模式,如图3-109所示,使能与禁用配置可在[远程服务/服务设置]中进行配置开启与关闭。
· 独占模式:仅支持一个远程控制台会话,且拥有完全控制权限。
· 共享模式:支持多个(1主N从)远程控制台会话,主用户拥有完全控制权,从用户只有只读权限(只能查看远程控制台视频、进行截屏和视频录制操作,但不能进行任何控制操作)。
在[远程服务/服务设置]中可修改KVM服务开启与关闭,并在服务开启时允许进行KVM端口选择。
· 安全端口:为提高数据传输的安全性,将KVM端口配置为“安全端口”后,可启用加密模式,进而实现客户端与服务器之间安全通信。
· 非安全端口:为提升数据传输的时效性,将KVM端口配置为“非安全端口”后,可禁用加密模式,更有利于大量数据传输的高效需求。
图3-110 KVM服务修改
虚拟媒体在服务器上以虚拟USB光盘驱动器和软盘驱动器的形式通过网络提供远程访问给本地媒体(光盘驱动器、软盘驱动器或光/软盘的镜像文件,硬盘文件夹);虚拟媒体数据支持AES 128 CBC算法加密传输。虚拟媒体将客户所在的本地主机的媒体设备通过网络虚拟为远端服务器主机的媒体设备。
支持的虚拟媒介有:
· DVD、CD光驱
· ISO、IMG文件
· 虚拟文件夹:将本地的文件夹挂载到主机端
· USB key
图3-111 虚拟文件夹实现效果
在KVM界面可以开启截屏功能,截屏图像格式为JPEG格式,录像文件保存在本地PC(打开KVM的PC)。
图3-112 KVM截屏
在KVM界面可以开启录像功能,录像格式为AVI格式,录像文件保存在本地PC(打开KVM的PC)。用户可以通过启动屏幕录像功能将虚拟KVM操作过程记录下来,以满足安全或者其他需要。屏幕录像功能启动后,虚拟KVM控制台将自动记录屏幕上所有的显示和操作到自定义视频格式文件中。录像文件在本地可以通过播放器来播放。
图3-113 KVM录像回放配置
支持差异帧与硬件光标,提升KVM传输性能。
VNC(Virtual Network Console,虚拟网络控制台)用于传送服务端的原始图像到客户端,该协议提供一种不用登录HDM即可访问控制服务器的方法,即用本地主机的显示器、输入设备远程控制服务器。
VNC系统由客户端,服务端和VNC协议组成。
· VNC服务端VNCServer:在HDM端运行,其作用是捕获并共享服务器屏幕,并且与系统运行状态无关。
· VNC客户端即VNCViewer(PC端本地应用程序):用于与服务器交互,远程连接运行VNCServer的计算机。第三方VNC客户端有RealVNC、TightVNC、NoVNC等。
HDM支持IPv4、IPv6 VNC会话,为用户提供更为灵活的KVM操作方式。
(1) VNC支持共享模式和独占模式
HDM同时最多支持2个VNC会话,且支持两种会话模式。
¡ 共享模式:支持打开2个VNC会话,2个VNC会话均有权限控制鼠标和键盘,可控制OS。
¡ 独占模式:当独占模式的会话连接时,如果存在共享模式的会话,该会话将被强制断开;独占模式的会话存在时,下一个会话的连接请求将被拒绝。
共享模式与独占模式可由客户端配置。
(2) VNC会话查看
可以在[远程服务/服务设置]查看到会话类型为VNC,如图3-114所示,IP地址为客户端IP,且支持IPv4和IPv6。
图3-114 VNC会话信息
支持VNC的密码复杂度检查设置,当启用时密码固定长度为8位,不启用时密码长度是1-8位。
图3-115 VNC设置界面
JViewer客户端支持在不登录的HDM的情况下访问控制服务器。该客户端支持Windows和Linux操作系统下使用,同时支持保存服务器连接配置,方便用户下次登录。并且为了安全,配置中的密码通过SM4国密算法处理后进行保存。
图3-116 JViewer Client独立客户端示例
HDM是服务器的管理系统,也是数据中心管理网络的子节点,HDM的脆弱性如果被恶意人为利用,会给服务器安全运行带来威胁,也会影响整个数据中心的安全运营。
HDM在提供运维便利的同时也通过一系列安全技术保护HDM的安全,进而保护服务器的安全运行。服务器的安全运行是整个数据中心安全运营的基础。HDM的安全技术包括:HDM软件的安全、固件的安全、接口的安全和敏感数据的安全。
图3-117 HDM安全技术
服务器带外管理模块固件支持如下几种安全机制。
对于所有用户的访问,系统将全部记录日志信息,供管理员进行后续管理及分析。日志管理是设备的信息枢纽,它接收各模块生成的日志信息,能够按模块和等级将收到的日志信息输出到控制台、监视终端、日志主机等方向,为管理员监控设备运行情况和诊断网络故障提供了有力的支持,从而保证TOE安全运行和日志跟踪。
HDM支持SSL证书加密及证书替换功能。证书替换功能可以通过Web界面进行操作。
为提高安全性,建议替换成自己的证书和公私钥对,并及时更新证书,确保证书的有效性。
同时支持LDAP证书的导入功能,为数据传输提供鉴权加密功能,提高系统安全性。
HDM在协议与端口防攻击方面,按照最小化原则对外开放网络服务端口,即不使用的网络服务必须关闭,调试使用的网络服务端口在正式使用的时候必须关闭,不安全协议的端口默认处于关闭状态。
HDM在使用远程控制台时,支持开启KVM加密实现数据的安全传输,支持虚拟媒体数据传输的加密,保证数据传输的安全性。通过NCSI将服务器管理平面与业务平面隔离。HDM可以通过NCSI边带网口功能与业务平面共享同一个网卡。在物理层,管理平面与业务平面共用接口;在软件层,通过VLAN实现二者隔离,互不可见。
HDM基于场景的登录限制,基于安全考虑,从时间、地点(IP/MAC)、用户三个维度将服务器管理接口访问控制在最小范围;针对Web接口进行登录限制。由用户根据需要设置登录规则的白名单,最多支持三条登录规则,登录时只要匹配上任意一条登录规则,即可登录,否则拒绝登录。HDM通过密码复杂度、弱口令字典、密码有效期、密码最短使用期、不活动期限、紧急登录用户、禁用历史密码重复次数、登录失败锁定等功能保证帐号安全。
系统对于所有异常信息,全生命周期的设备智能诊断系统,主要包括故障数据收集、故障实时分析、故障预告警、分析和预告警结果展现等,并根据网管系统的设置会主动报Trap信息以提醒系统管理员进行主动防范。
对TOE CPU、内存、硬盘等部件等进行周期检查并实时响应超过阈值之后的告警。丰富的服务器传感器数据采集与可感知的数据可视化展示;多角度多维度针对硬件安全和性能调节的阈值控制。
HDM参与制定的标准如表3-9所示。
表3-9 HDM参与制定标准
ID |
标准名称 |
标准 |
1 |
信息安全技术 服务器安全技术要求和测评准则 |
国家标准-GB/T 39680-2020 |
2 |
绿色计算服务器可信赖技术要求 |
行业标准-GCC 1001-2020 |
3 |
绿色计算服务器基板管理控制器(BMC)技术要求 |
行业标准-GCC 3002-2020 |
4 |
网络关键设备安全通用检测方法 |
团体标准-T/TAF 088-2021 |
HDM参与的认证包括:
· 评估保障级EAL 4认证证书
· 软件著作权
· 泰尔实验室认证
HDM通过了中国网络安全技术与认证中心CCRC最严苛的标准认证,获得了最高等级EAL4级。在认证当中,CCRC采用了“型式试验+工厂检查+获证后监督”的模式进行认证,不仅能够验证H3C HDM的安全可靠,更能通过工厂检查和认证后监督确保软件产品的全流程稳固可靠,是用户值得信赖、可以依托的服务器远程管理系统。
当服务器内的开箱检测模块触发了开箱的信号,软件接收到硬件GPIO管脚发送的信号,触发软件中断,进而判断当前发生了开箱信号还是关箱信号。当确认了开关箱信号时,HDM通过传感器将发生的状态通过事件日志的形式体现出来。
HDM的SOC芯片支持硬件安全加速模块,其内部支持数据硬件加密,即采用HACE加密引擎。通过将软件加密替换为硬件加密,能够避免使用软件进行复杂加密操作,提高加密效率。
主要应用在认证、数据加解密等安全应用中。实现了AES、DES、3DES、RC4、MD5、SHA1、SHA224、SHA256、HMAC-MD5、HMAC-SHA1、HMAC-SHA224和HMAC-SHA256算法。
Intel PFR提供了固件保护、检测和恢复功能,提高了系统安全可信程度。其原理是把信任的根源放置到Intel处理器和平台的PFR CPLD上,使用这个可信硅根去执行对HDM-Uboot的校验和恢复,后续HDM-Uboot会进一步对HDM固件进行校验和恢复,从而实现了整个系统的安全可信。原理如图3-119所示。
PFR固件保护功能开启后,PFR会在HDM启动时对固件镜像文件进行校验。
· 如果主分区校验通过,HDM会直接从主分区启动。
· 开启“校验失败从备分区启动”功能后,如果主分区检测到固件损坏,会对备分区镜像文件进行校验,校验通过后HDM会从备分区启动。
· 如果主备分区都检测到固件损坏,而主分区的损坏不影响正常启动,HDM还是会从主分区启动。
· 如果主分区检测到的固件损坏会影响正常启动,而“校验失败从备分区启动”功能未开启,HDM会无法启动。
图3-120 PFR固件保护
(1) 双镜像备份
对于关键固件,比如存放HDM镜像的Flash区域,采用了双镜像设置。当在运行过程中出现Flash误操作或者存储块损坏时,可以切换到备份镜像运行。
(2) 异常固件恢复
对于关键固件,HDM、BIOS镜像都支持异常恢复机制。当HDM在主分区运行过程中出现异常重启或无法完全启动时,HDM会主动切换到Golden Image镜像对主分区镜像进行恢复并切换回主分区;当监测到BIOS在启动过程中出现上电超时或无法完全启动时,HDM会主动对BIOS固件镜像进行恢复并重新上电。
(1) 固件签名加密
所有对外发布的HDM、BIOS固件版本都带有签名机制。固件打包时,通过SHA256算法摘要,用RSA2048加密摘要,在固件升级时,通过签名校验方式来防止篡改,只有签名符合要求的固件才允许升级到设备上。
(2) 重启升级任务恢复
固件升级过程中支持异常重启升级任务恢复机制。该机制确保在通过HDM升级组件时,升级流程不会因为中途整机异常下电或HDM异常重启而中断,HDM重新启动后会继续执行重启前未完成的组件升级任务。
固件写保护:系统运行时,对镜像所在区域进行写保护,需要通过特殊方式才能进行写操作。同时,每次主机启动时对镜像文件的完整性进行校验,必要时进行恢复。
HDM对外提供的Web可视化管理接口,支持通过HTTPs访问,可以保证通过HDM访问的数据无法被窥视。当前支持的TLSv1.0、TLSv1.1、TLSv1.2。支持安全算法套件有:RSA_WITH_AES_128_CBC_SHA256、RSA_WITH_AES_256_CBC_SHA256、RSA_WITH_CAMELLIA_256_CBC_SHA、RSA_WITH_AES_128_GCM_SHA256、RSA_WITH_AES_256_GCM_SHA384。
由于TLSv1.1及以下版本存在安全风险,HDM的HTTPs链路默认使用TLSv1.2安全传输协议。
为了保障用户连接上的服务器信息不在链路上泄露,交互过程的信息不被监听,对启用安全端口的KVM链接通道传递的数据,采用加密方式进行通信。
同时,H5 KVM方式下,支持单一端口认证功能,虚拟KVM和虚拟媒体相关的功能是通过Web服务接口来统一导出,可减少对外开放的Web接口,以便减少安全风险。
为了保证对虚拟媒体进行访问时,防止数据在链路上被监听,数据可通过安全端口加密传输。
VNC客户端与VNC服务端建立会话时,需要远程计算机的IP(IPv4/IPv6)和VNC密码(认证过程:服务器向客户端发送16字节随机码,客户端用VNC密码作为KEY采用DES加密该随机串发给服务端校验)。在访问持续过程中,可根据选择的连接类型来决定是否对链路中的数据进行加密。
部分版本可根据需要选择支持以下两种VNC安全连接类型:
· VNC over SSH(数据通过SSH通道传输)
· VNC over stunnel(数据通过stunnel程序建立的TLS/SSL通道传输)
通过启用TLS加密传输功能,可保证告警邮件通过SMTP协议数据传输的保密性和完整性。
为了确保设备和Syslog服务器之间的流量是安全和可信的,在数据传输时支持TLS单向认证和TLS双向认证。这为登录到Syslog组织网络或应用程序的用户提供了一个额外的安全层。它还可以验证不遵循登录过程的设备连接。
SDS日志打包时,为防止部分敏感信息泄漏,对如故障诊断日志、Boot启动日志、周期性采集数据(温感、功率等)、内部调试日志等内容进行加密处理,需配合安装License的SDSViewer工具才能查看。
HDM提供防火墙特性以实现基于场景的登录管理。该功能适用于Web、SSH、SNMP v1/v2c/v3、IPMI LAN接口的登录限制。HDM可以从时间、IP地址和IP协议版本(IPv4/IPv6)、MAC、端口、协议(TCP/UDP)五个维度将服务器管理接口进行访问控制。通过设置防火墙黑白名单规则,以允许符合规则的设备访问HDM。
· 黑名单功能:可以设置阻止访问HDM的设备的IP地址、IP地址段和MAC地址,以及阻止访问生效的时间。处于黑名单外的设备可以访问。HDM最大支持20条黑名单规则。
· 白名单功能:可以设置允许访问HDM的设备IP地址、IP地址段和MAC地址、UDP或TCP协议及对应的端口号,以及允许访问的时间段。添加白名单规则后,白名单以外的地址均不能访问HDM。HDM最大支持20条白名单规则。
图3-121 防火墙信息
用户根据需要设置登录规则的白名单,登录时只要匹配上任意一条登录规则,即可登录,否则拒绝登录。登录规则可应用于所有本地用户和LDAP用户组。
注:黑名单的优先级比白名单高,如访问HDM的设备的IP地址既在黑名单,又在白名单中,则禁止访问。
为了满足客户的业务和安全需要,HDM提供开关来控制是否提供服务端口。HDM支持查看和修改的服务有:CD-Media、FD-Media、HD-Media、IPMI、KVM、SSDP、ASD(Remote_XDP)|iHDT、SNMP、SSH、Telnet、VNC和Web。
图3-122 HDM服务信息
SSL(Secure Sockets Layer,安全套接字层)是一个安全协议,为基于TCP的应用层协议(如HTTP)提供安全连接。使用SSL传输数据,会在客户端和Web服务器之间建立一条安全通道,可以保证数据传输的机密性,验证数据源的身份,并保证数据的完整性。
图3-123 SSL证书信息
对于SSL证书管理,HDM支持以下几个操作:
· 查看当前SSL证书的详细信息,包括使用者、颁布者、有效时间、序列号等信息。
· 上传SSL证书。
· 生成SSL证书。
HDM自带SSL证书,为提高安全性,建议替换成用户自己的证书和公钥对。
SSH通过公钥方式适合于自动配置工具,无需输入密码的交互步骤。SSH公钥认登录验证时无需交互密码,密钥长度很长,不容易被人猜测。基于更多安全考虑,启用SSH公钥认证后可禁用SSH的密码认证方式。
图3-124 SSH秘钥管理信息
HDM支持上传SSH(Secure Shell,安全外壳协议)密钥文件,并为SSH密钥绑定本地用户。SSH密钥由登录BMC命令行的客户端工具生成,生成密钥时用户可以选择是否设置密码。如果选择设置密码,上传SSH密钥后,该用户登录BMC命令行时无需输入用户密码,只需要输入设置的密码。如果选择不设置密码,上传SSH密钥后,该用户可以免密登录BMC命令行。BMC当前支持RSA、ECDSA和ED25519格式的密钥。
· 当密钥格式为RSA时,支持上传长度为1024位、2048位、4096位的密钥。
· 当密钥格式为ECDSA时,支持上传长度为256位、384位、521位的密钥。
· 当密钥格式为ED25519时,支持上传长度为256位的密钥。
账号安全包括:密码复杂度检查、密码有效期、禁用历史密码重复次数、登录失败锁定、密码锁定时长、弱口令检查,提示修改初始密码。在“配置->用户配置”的“高级设置”里可配置。主要检测规则有:
· 密码复杂度检查:开启该功能后,所有用户的密码设置需符合以下要求,否则密码设置无法通过检查。
¡ 密码长度为8~40个字符,仅支持字母、数字、空格和特殊字符`~!@#$%^&*()_+-=[]\{}|;’:”,./<>?,区分大小写。
¡ 至少包含大写字母、小写字母和数字中的两种字符。
¡ 至少包含一个空格或特殊字符。
¡ 不能与用户名或用户名的倒序相同。
¡ 需符合“禁用历史密码”要求。
· 密码有效期:用户密码的使用期限,临近使用期限前,HDM会提醒用户更换密码。默认管理员不受密码有效期配置影响。
· 禁用历史密码:用户修改密码时,禁止使用设置次数内的历史密码。
· 登录失败锁定:用户登录失败的次数达到设定的次数后,系统会锁定该用户的登录。
· 登录失败锁定时长:用户由于登录失败达到登录失败锁定次数后,被系统锁定的时长。用户被锁定后,在失败锁定时长内不能登录HDM。
· 弱口令检查:使用弱口令字典检查用户设置的密码是否属于弱口令,开启该功能后,用户设置的密码不能在弱口令字典中。
图3-125 HDM密码规则配置界面
弱口令字典管理:支持导入、导出弱口令字典,设置的密码在密码复杂度检查和弱口令字典认证功能使能的情况下不能在弱口令字典中。
图3-126 弱口令字典管理
不同客户对管理权限的需求各异,不仅需要支持管理员、操作员和普通用户三个角色,还需要定义不同功能的权限。为此,HDM还提供了面向用户的权限管理功能,可通过IPMI/Redfish/Web禁用用户或用户的部分权限,比如KVM、VMedia、Web、IPMI和SNMP这些功能的权限。
HDM最多支持16个不同的本地用户。在用户访问配置页面可以配置本地用户和域用户(包括LDAP和AD用户),通过这些用户可以访问HDM Web界面。
用户所拥有的访问权限由属于的角色组决定,不同角色组分配符合其特征的模块权限,使其能够操作对应HDM功能模块。HDM支持的角色组有:
· Administrator:拥有HDM的所有配置和控制权限。
· Operator:相对于管理员,拥有除用户管理和维护诊断外的所有配置和控制权限,对部分功能具有配置权限进行日常的基础操作。
· User:具有只读访问权限,无法修改HDM配置。
· CustomRole1~CustomRole5:自定义权限组用户,管理员可以配置用户所拥有的权限。
HDM将所有功能&接口(Redfish、IPMI)分属不同的权限模块,以提升接口的安全性。权限模块包括:用户配置、常规配置、远程控制、远程媒体、安全配置、电源控制、维护诊断、配置自身、查询模块。不同权限模块涉及主要功能如表3-10所示。
权限模块名称 |
权限模块涉及功能简述 |
用户配置 |
本地用户配置、LDAP用户配置、AD用户配置、OTP认证、证书认证、SSH密钥管理、安全擦除、导入/导出配置和HDM联合管理的操作权限 |
维护诊断 |
包括清除事件日志、安装包管理、固件更新、固件库管理、定时任务管理、恢复HDM配置、重启HDM、重启CPLD和服务U盘设置的操作权限 |
远程控制 |
存储管理、硬分区、系统资源监控设置、KVM(电源控制、镜像挂载除外)、VNC密码管理、系统启动项、UID灯控制、SOL串口设置、MCA策略和安全面板设置等操作 |
远程媒体 |
虚拟媒体、KVM镜像挂载 |
安全配置 |
服务配置、防火墙、SSL证书、登录安全性信息等 |
电源控制 |
电源管理,风扇管理,NMI控制,物理电源按钮控制 |
常规配置 |
网络配置(如:网口、NTP、SNMP、LLDP、DNS、Syslog),资产标签配置等 |
配置自身 |
配置用户(仅限本地用户)自身的密码 |
系统审计 |
包括查看或保存事件日志、操作日志和一键收集下载SDS日志的操作权限 |
查询 |
包括:所有查询GET接口 |
图3-127 用户权限配置界面
传统平台登录只需要输入用户名和密码,用户密码是系统唯一的保护屏障,安全管理显的比较薄弱。在双因素认证方案的框架下,用户输入用户名密码的同时,还需要满足另一个因素才能正常登录管理系统,避免因HDM用户信息泄露引发安全问题,增强了系统管理的安全性。
HDM支持证书认证和OTP认证两种双因素认证,且它们不能同时启用。开启双因素之后,系统会关闭Telnet、SSH、VNC、IPMI、Redfish、SNMPV3、SOL等接口或服务,用户需谨慎开启双因素认证模式。
HDM采用宁盾OTP(One Time Password,一次性密码)动态令牌方案,使用Radius协议,支持国密算法,取得了国密资质认证。打开OPT认证之后,用户在登录HDM Web输入用户名密码时,还需要输入一个动态密码,这个动态密码可由硬件令牌或者手机令牌产生,且需要在OTP服务器上认证通过,才能够登录HDM系统,其组网方案如图3-128所示。
图3-128 OTP双因素认证组网方案
开启双因素后,HDM的登录界面会新增一个动态密码输入框,如图3-129所示。
为了提高了HDM的安全可靠性,避免因HDM用户信息泄露引发安全问题,HDM提供证书认证功能。启用证书认证功能后,用户登录HDM需要同时拥有客户端证书和客户端私钥证书才能通过认证并登录成功。
图3-130 证书双因素认证
用户从正式的CA认证机构申请根证书和客户端证书文件后,可以通过证书认证功能上传到HDM,再为每个客户端证书绑定一个HDM本地用户。绑定成功后,用户打开浏览器上传客户端私钥证书。上传成功后,用户进入HDM登录页面根据提示信息选择客户端证书,就能以客户端证书绑定的本地用户的身份登录HDM。认证流程如图3-131所示。
HDM最多可以上传20个根证书和20个客户端证书,每个根证书最多可以上传16个客户端证书,每个客户端证书只能绑定一个HDM本地用户。HDM支持上传Base64编码的根证书和客户端证书,证书格式包括:*.cer、*.crt、*.pem,浏览器仅支持上传*.p12格式的客户端私钥证书。
启用证书吊销检查功能前,请确保Web服务器和OCSP(Online Certificate Status Protocol,在线证书状态协议)服务器可以正常通信.启用证书功能前,必须导入根证书和客户端证书,并绑定已启用HDM Web访问权限的HDM本地用户。否则,在后续登录时会出现无法认证的情况。
对于重要的管理操作,如用户配置、权限配置、公钥导入会对已登录用户进行二次认证,认证通过后才能执行重要操作,防止用户登录后因没有断开链接,被其它非法用户执行恶意操作或误操作的情况出现。
图3-132 二次认证配置界面
LDAP(Lightweight Directory Access Protocol,轻型目录访问协议)是一种基于网络的目录访问协议,以实现资源信息的高效管理。启用LDAP认证后,可以通过LDAP目录服务器中设置的用户名和密码直接访问BMC。利用客户在LDAP现有的身份验证和授权模式,避免重复性用户配置任务,提高管理效率,同时也增强访问认证的集中管理,提高了HDM管理系统安全性。
同时LDAP支持基于角色的访问控制,授予适当级别的访问权限(管理员、操作员或查询权限),以匹配人员在服务器操作中的角色。建议使用角色组这种方式基于角色的访问控制,而不仅仅是向所有用户授予最高级别权限(即管理员权限)。
HDM还支持导入LDAP证书,保证SSL加密的完整性,提升LDAP域用户登录安全性。LDAP证书导入界面如图3-133所示。
图3-133 LDAP服务器原理图
图3-134 LDAP证书导入管理界面
LDAP标准优点:
· 可扩展性:可以在所有HDM上同时动态支持LDAP服务器上新增账户的管理。
· 安全性:用户密码策略都在LDAP服务器上实施。可支持SSL加密机制。
· 实时性:LDAP服务器上账户的任何更新都能及时同步给所有的HDM。
· 高效性:可以将所有HDM智能管理系统的用户管理、权限分配和有效期管理都集中到目录服务器上,用户能够极大避免重复性的配置任务,提高管理效率。
AD(Active Directory、活动目录)是指Windows服务器操作系统中的目录服务;它提供了集中组织管理和访问网络资源的目录服务功能,使网络拓扑和协议对用户变得透明。
AD被划分成区域进行管理,基于这种结构,可以随着企业的成长而进行扩展。
HDM支持AD用户认证功能。启用AD认证并制定访问策略,如图3-135和图3-136所示。配置完成后,用户可以使用AD目录服务器中设置的用户名和密码直接访问HDM。
图3-135 AD服务器配置
图3-136 AD角色组权限配置
Kerberos是一种计算机网络认证协议,他能够为网络中通信的双方提供严格的身份验证服务,确保通信双方身份的真实性和安全性。该协议的认证过程实现不依赖于主机操作系统的认证,无需基于主机地址的信任,不要求网络上所有主机的物理安全,并假定网络上传送的数据包可以被任意地读取、修改和插入数据。Kerberos作为一种可信任的第三方认证服务,是通过传统的密码技术(如:共享密钥)执行认证服务。
HDM的Kerberos用户认证功能受License授权状态控制。启用Kerberos功能认证并制定访问策略后,可以通过Kerberos目录服务器中设置的用户名和密码直接访问HDM;通过在加域的PC进行配置后,可以通过单点登录直接访问HDM,无需输入用户名和密码。其权限由用户所在角色组的权限决定。
(1) 集中认证管理
可使用KDC域认证服务进行统一管理,仅需在域服务器上配置用户策略方便扩展,数据中心设备共享同一套策略,认证策略更改后内网立刻生效,从而简化了管理。
图3-137 Kerberos认证过程
(2) 单点登录
HDM集成的Kerberos协议,用户只需要输入一次密码登录服务器,就可以免密码登录网络内的所有 HDM。基于Kerberos 协议的单点登录,在认证过程中,秘钥不会在网络中传输,每次会话产 生一个秘钥,会话结束秘钥失效,因此具有更高的安全性。Kerberos在认证过程中产生票证服务票证(TGT),服务ID和TGT会在用户登录某服务时自动一起发送到认证中心。用户将得到一个秘钥,通过该秘钥加密账户信息,登录服务器,而不必用户输入密码,操作更方便快捷。当用户需要在多个服务器之间频繁切换登录时,效果更明显。成千上万台服务器部署在不同区域,管理员如何操作这些服务器是客户的困扰之一,基于Kerberos认证的单点登录可解决这一问题。
(3) 用户组管理
支持添加最多5个不同的用户权限组,Kerberos角色组权限根据SID进行分配,每个组都有单独且唯一的SID,从而使Kerberos认证流程更加安全。
图3-138 Kerbeoros用户权限添加
安全仪表功能可以查看HDM当前重要安全特性的状态,评估用户HDM静态安全配置是否存在潜在风险。当检测到风险时,用户可以查看详细信息和建议,以提高系统的安全性。如图3-139所示,HDM从账户认证安全和应用服务安全两大方面综合评估当前系统的安全性并进行相应的风险等级提示。
当前安全仪表有4个风险等级,分别如下:
· 安全配置无风险:没有检测到存在风险的安全配置。
· 安全检测功能未开启:安全检测功能处于关闭状态。
· 整体安全状态已忽略:所有存在风险的安全配置设置为忽略。
· 安全配置存在风险:检测到一个或多个安全配置状态存为风险。
HDM支持通过点击“风险”状态,弹出配置项风险的影响和相应处理建议,引导用户到安全配置相关的页面,以让用户综合判断更改安全配置。
图3-140 HDM风险提示
当服务器因生命周期终止或其他原因停止运行时,可以通过“安全擦除”功能擦除服务器的HDM、BIOS和存储数据,避免用户数据泄露。安全擦除功能受License授权状态控制,功能界面如图3-141所示。
擦除完成后对各部件的影响如下:
· HDM:恢复至HDM出厂配置,SDS日志被擦除,Flash卡中的数据会被擦除。
· BIOS:恢复至BIOS默认配置;BIOS侧的Administrator和User用户的密码被擦除,被擦除密码的用户在服务器下次重启时无需输入密码,直接进入BIOS Setup;BIOS侧的开机密码被擦除。
· NVDIMM(非易失性内存, No-volatile DRAM):非内存模式的数据都会被擦除,然后NVDIMM会变成完全内存模式。
· 存储控制卡:所有RSTe和VROC下的逻辑盘都会被删除;RAID-P460-B2存储控制卡下的逻辑盘都会被删除。
· 硬盘:所有硬盘中的数据都会被擦除。
· SD卡:所有SD卡中的数据都会被擦除。
对存储数据进行擦除前,请确保服务器配套的iFIST软件版本不低于iFIST-1.38版本,以便用户能成功擦除数据。
系统锁定功能可以确保特定的服务器固件和配置避免在各原因下无意或恶意的改动,增强服务器的稳定性和安全性。系统锁定功能受License授权状态控制,功能界面如图3-142所示,从电源控制、硬件配置、BIOS配置、带内外访问、HDM配置、固件版本等六个维度针对不同的应用场景需求进行精细化控制,详见表3-11具体功能介绍。
系统锁定功能项 |
锁定效果 |
电源控制 |
限制通过HDM及物理按钮重启系统 |
固件版本 |
限制通过HDM更换任何固件版本 |
硬件配置 |
限制通过HDM更改存储阵列卡、GPU、网卡配置,具体锁定的操作: |
限制设置存储阵列卡、GPU、网卡配置;导入RAID配置文件;安全擦除存储 |
|
BIOS配置 |
限制通过HDM更改BIOS配置,具体锁定的操作: |
设置BIOS配置;导入BIOS配置文件;配置覆盖或强制覆盖升级BIOS;安全擦除BIOS |
|
HDM配置 |
限制远程修改HDM配置,具体锁定的操作: |
设置用户配置(除导出配置、HDM联合管理);常规配置(除清除操作日志、录像回放设置);安全配置(除登录安全性信息配置);电源控制(除设备上下电、NMI控制);远程控制(MCA策略配置);维护诊断(恢复HDM出厂配置、升级HDM时配置恢复出厂配置) |
|
带内外访问隔离 |
实现OS访问HDM的内部通道隔离,使HDM具有独立运行环境 |
缩略语 |
英文全名 |
中文解释 |
HDM |
Hardware Device Management |
硬件设备管理平台 |
BMC |
Baseboard management controller |
基板管理控制器 |
UniSystem |
UniSystem |
H3C服务器智能管理中枢 |
iFIST |
integrated Fast Intelligent Scalable Toolkit |
集成化的快速智能可扩展工具集 |
FIST SMS |
Fast Intelligent Scalable Toolkit ‘s System Management Service |
快速智能可扩展工具集系统管理服务 |
BIOS |
Basic Input Output System |
基本输入输出系统 |
MCTP |
Management Component Transport Protocol |
管理元件传输协议 |
ME |
Management Engine |
管理引擎 |
RAID |
Redundant Arrays of Independent Disks |
独立磁盘冗余阵列 |
RAS |
Reliability,Availability,Serviceability |
可靠性、可用性和可服务性 |
SEL |
System Event Log |
系统事件日志 |
VGA |
Video Graphics Array |
视频图形阵列 |
IPMI |
Intelligent Platform Management Interface |
一种标准的硬件管理接口,通过BMC进行带外管理 |
SDS |
Smart Diagnosis System |
智能诊断系统 |
EEPROM |
Electrically Erasable Programmable Read-Only Memory |
可编程只读存储器 |
SN |
Serial Number |
序列号 |
PN |
Part Number |
部件号 |
SSD |
Solid State Drive |
固态硬盘 |
LLDP |
Link Layer Discovery Protocol |
链路层发现协议 |
SSDP |
Simple Service Discovery Protocol |
简单服务发现协议 |
PCIe |
Peripheral Component Interconnect Express |
外围组件互连扩展 |
SHD |
Smart Hardware Diagnosis |
智能硬件诊断 |
ADDC |
Autonomous Debug Data Collection |
AMD平台CPU故障收集模块 |
APML |
Advanced Platform Managment Link |
ABMC和AMD处理器之间寄存器获取通道 |
MRT |
Intel® Memory Resilience Technology |
英特尔®内存故障预测 |
MRTe |
Intel® Memory Resilience Technology engine |
英特尔®内存故障预测引擎 |
PECI |
Platform Environmental Control Interface |
平台环境控制接口 |
PMIC |
Power Management Integrated Circuit |
电源管理集成电路 |
PPR |
Post Package Repair |
内存封装后修复技术 |
CE |
Correctable Error |
可纠正错误 |
UE/UCE |
Uncorrectable Error |
不可纠正错误 |
RAS |
Reliability,Availability,Serviceability |
可靠性、可用性和可服务性 |