H3C HDM技术白皮书
Copyright © 2018-2025新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
HDM(Hardware Device Management,硬件设备管理)是H3C自主研发的服务器远程管理系统。HDM兼容服务器业界管理标准IPMI、SNMP、Redfish,支持键盘、鼠标和视频的重定向,文本控制台的重定向,串口重定向,远程虚拟媒体,高可靠的硬件监控和管理功能。HDM提供了丰富的特性支持,其主要特性有:
· 丰富的管理接口
提供IPMI/HTTPS/SNMP/Redfish管理接口,满足多种方式的系统集成需求。
· 联合管理
实现小规模服务器的统一管理,降低了中小企业服务器运维管理的成本。
· LCD液晶显示屏
部分机架服务器可选配3.5英寸可触摸LCD液晶显示屏,方便了服务器的临场巡检或维护。
· 故障监控和诊断
故障监控和诊断,通过精准定位与诊断,指导运维人员快速解决问题,保障设备7*24小时高可靠运行。
故障日志可通过SNMP Trap、SMTP、Redfish事件订阅、远程Syslog多种途径主动上报。
· 截屏与录像
通过截屏和录像可以快速分析系统崩溃的原因。
· RAID带外管理
支持RAID的带外监控和配置,提升了RAID配置效率和管理能力。
· 智能电源管理
功率封顶技术帮助管理员轻松提高部署密度;动态节能技术帮助您有效降低运营成本。
· 虚拟KVM、VNC和虚拟媒体
提供方便的远程维护手段。
· 支持DNS/LDAP/AD
支持域管理和目录服务,能简化服务器网络管理和用户管理。
· USB WiFi模块
支持外接小米随身WiFi模块,方便服务器的近场维护和管理。
· 双镜像备份
提高系统的安全性,即使当前运行的软件完全崩溃,也可以从备份镜像启动。
· 服务U盘
支持服务U盘,可执行一键收集等操作,简化了临场运维管理。
· 安全管理
从接入、账号、传输、存储四个维度保障服务器管理的安全。支持双因素认证、黑白名单(防火墙)、接口服务管理、SSL、可信硅根、用户自定义权限。
如图1所示,HDM硬件芯片采用服务器专用SOC(System on Chip)芯片,有效管理服务器硬件设备。SOC芯片支持远程KVM和64M(G5产品支持)本地VGA显示,支持专用和共享网口,以及其它丰富的板级管理和外设接口。
图1 HDM系统结构
· HDM的KVM模块通过VGA接口接收来自主机系统的视频信息,经过压缩后再通过网络将压缩数据传输到远程KVM客户端进行解压还原。此外KVM模块接收远程KVM客户端的键盘鼠标数据,通过模拟的USB键盘鼠标设备将数据传输到主机系统,实现远程的键盘鼠标控制。
· HDM提供传统的LPC系统接口与主机系统通信,支持标准的IPMI管理。
· HDM对外提供专用的GE以太网络接口,支持通过网络使用IPMI、Redfish、SNMP等接口进行远程管理操作。
· HDM通过传感器实现了对服务器的温度、电压等状态全面监控,并且提供对服务器的风扇和电源的智能管理。
· 支持整机功耗动态管理,通过电源主备、功率封顶、节能配置等技术实现服务器功耗最优化。
· HDM支持最新的边带网络技术NCSI(Network Controller Sideband Interface)以及VLAN网络功能,通过边带网络可以支持更加灵活的管理组网。
· HDM支持键盘、鼠标和视频的重定向、文本控制台的重定向、远程虚拟媒体(可将终端的光驱、硬盘、文件夹映射到服务器)和基于IPMI2.0的硬件监控和管理功能。
· 支持HDM软件的双镜像备份和主备切换。
· HDM下挂SD卡(Nand flash),用于存放iFIST镜像,并可用于记录服务器的运行信息,包括配置信息、操作日志、事件日志等。
· HDM提供了丰富的用户接口,如基于Web界面的用户接口、命令行、IPMI接口、Redfish、SNMP接口,并且所有用户接口都采用了接入鉴别机制和高度安全的加密算法,保证接入和传输的安全性。
· HDM对服务器进行了全面精细的监控,并且提供了丰富的告警和详细的日志。如CPU的内核温度、内存故障、硬盘故障、电压、风扇转速、电源故障等。同时还提供了CPU、内存和硬盘信息的查询。
· HDM能够在服务器宕机的时候自动保存宕机之前屏幕上输出的最后的信息,用于故障的定位。还支持即时的屏幕快照,第三方程序可以设置定时或周期性的进行屏幕截屏,不需要手工定时去查看服务器,为维护人员节省大量时间。
· HDM各业务模块采用高内聚、低耦合的架构设计,启动响应迅速,能够及时响应带外管理接口的访问,确保各类传感器的正常运行,从而高效管理主机散热,保障主机业务的稳定运行。HDM从正常启动至满足常用网络管理接口可访问的典型时间参数如表1所示。
表1 HDM可访问的典型时间参数
HDM从启动至 |
时间/s |
网络Ping通 |
74 s |
IPMI命令接口正常响应 |
90 s |
可登录Web访问页面 |
80 s |
Redfish接口正常响应 |
85 s |
HDM提供了基于HTTPS的Web可视化管理接口。
· 通过简单的界面操作快速完成设置和查询任务。
· 通过远程控制台可以对服务器进行OS启动全程监控,对服务器进行OS操作,对服务器进行光驱/软驱映射等。
· 支持通过WebGUI浏览快速响应,确保平均响应时间低于1s。
可以在浏览器地址栏输入HDM的网口IP地址(IPv4或IPv6)或域名地址打开HDM Web的登录界面,输入账号登录到HDM Web。
支持的浏览器有:Firefox78及以上,Chrome 48及以上。
HDM兼容IPMI 1.5/IPMI 2.0规范,DCMI(Data Center Mangeability Interface,支持数据中心管理接口),通过第三方工具(如:ipmitool)基于LPC通道或LAN通道实现对服务器的有效管理。
· LPC通道:运行KCS协议,ipmitool等工具必须运行在服务器本机的操作系统上。
· LAN通道:运行UDP/IP协议,ipmitool等工具可以远程管理服务器。
第三方工具支持Windows和Linux系统。
以下以ipmitool工具详细说明:
· ipmitool命令格式:ipmitool [interface] [parameter] <command>
· ipmitool命令举例:查询HDM 的传感器列表
¡ 基于KCS:ipmitool sensor list
¡ 基于LAN:ipmitool -H *.*.*.* -I lanplus -U <用户名> -P <密码> sensor list
– H:HDM 网口IP地址
– I:传输协议,lan:不加密,lanplus:加密
– U:HDM本地用户名
– P:HDM本地用户密码
– L:会话权限,默认Administrator。
基于简单网络管理协议(以下简称SNMP)是管理进程(NMS)和代理进程(Agent)之间的通信协议。它规定了在网络环境中对设备进行监视和管理的标准化管理框架、通信的公共语言、相应的安全和访问控制机制。
SNMP具有以下技术优点:
· 基于TCP/IP互联网的标准协议,传输层协议一般采用UDP。
· 自动化网络管理。网络管理员可以利用SNMP平台在网络上的节点检索信息、修改信息、发现故障、完成故障诊断、进行容量规划和生成报告。
· 屏蔽不同设备的物理差异,实现对不同厂商产品的自动化管理。SNMP只提供最基本的功能集,使得管理任务与被管设备的物理特性和实际网络类型相对独立,从而实现对不同厂商设备的管理。
· 简单的请求—应答方式和主动通告方式相结合,并有超时和重传机制。
· 报文种类少,报文格式简单,方便解析,易于实现。
· SNMPv3版本提供了认证和加密安全机制,以及基于用户的访问控制功能,增强了安全性。
¡ HDM提供了基于SNMP的编程接口,支持SNMP Get/Set/Trap操作,第三方管理软件通过调用SNMP接口可以方便地对服务器集成管理。SNMP代理支持v1/v2c/v3版本。
¡ SNMP代理提供接口查询系统健康状态、系统健康事件、硬件信息、告警上报配置、功率统计数据、资产信息、散热管理、固件版本信息、网络管理等。
Redfish是一种基于HTTPs服务的管理标准,利用RESTful接口实现设备管理。每个HTTPs操作都以UTF-8编码的JSON格式(JSON是一种key-value对的数据格式)提交或返回一个资源或结果,就像Web应用程序向浏览器返回HTML一样。该技术具有降低开发复杂性,易于实施、易于使用而且提供了可扩展性优势,为设计灵活性预留了空间。目前我们利用Redfish管理接口可以实现包括用户管理、获取服务器信息、管理模块信息等常用HDM和BIOS配置。
Redfish=REST API+软件定义的服务器(数据模型),当前由标准组织DMTF(www.dmtf.org)负责维护。
Redfish流程图如图2所示,客户端发出HTTP(s)请求,通过认证(Token、Basic)之后,从数据库获取数据并返回读取结果,如图3所示。同时数据库通过SEL和IPMI实时更新数据库内容。
图2 Redfish流程图
图3 Redfish接口操作示例(查询电源信息)
HDM支持SSHv2协议,为用户提供安全的远程管理功能。支持基本管理命令,便于灵活配置系统,同时允许根据安全需求关闭SSH服务以增强安全性。
HDM支持通过IPMI命令开启带内USB通道,将HDM的USB设备虚拟为带内操作系统的一张网卡,在HDM带外以及带内操作系统侧分别呈现出对应的USB网卡。如图4所示,通过将带内虚拟网卡的IP地址网段设置为与HDM侧的虚拟网卡IP地址在同一个网段,此时带内操作系统即可通过该虚拟网卡与HDM建立了网络直通连接。通过该虚拟网卡,用户可以进行常规的网络访问HDM,例如通过Web页面访问、IPMI或Redfish命令下发,从而实现对HDM的带内网络远程控制和管理。
图5 带内通过虚拟USB网卡访问HDM界面
HDM联合管理实现小规模服务器的统一管理,简化了中小企业服务器运维管理。HDM联合管理主要提供如下功能,页面信息如图6所示:
· 设备发现:支持HDM设备批量添加,最多支持添加10台设备(不支持IPv6地址);
· 设备删除:支持单台和批量设备删除;
· 状态查询:支持查看设备的基本状态信息,包括产品名称、产品序列号、健康状态、电源状态、UID状态等信息;
· 电源管理:支持设备的电源操作,包括:开机、关机、重启等操作;
· 远程访问:提供设备HDM和H5 KVM访问的跳转链接。
H3C部分机架服务器可选择配置3.5英寸可触摸LCD液晶显示屏,以用于显示或配置服务器相关信息。通过LCD显示屏,提升了本地维护的简便性,也加快了现场故障的定位和修复。
LCD液晶显示屏主要提供了如下功能:
· 信息页面:显示产品名称、产品序列号、HDM/BIOS固件版本号,如图7所示;
· 状态页面:查看服务器整体,以及处理器、内存、存储、风扇、电源、温度传感器等部件的健康状态和日志等信息,如图8所示;
· 监控页面:实时显示入风口温度,及CPU温度,如图9所示;
· 配置页面:支持配置HDM管理口网络和恢复管理员账户等操作,如图10所示。
各部件通过不同颜色来显示在位和健康状态,颜色显示规则和Web一致,如下:
· 绿色:设备正常;
· 黄色:设备出现轻微告警
· 橙色:设备出现严重告警;
· 红色:设备出现紧急告警;
· 灰色:设备不在位。
图8 服务器整体健康状态显示
图9 监控页面显示
图10 配置页面显示
通过HDM可以获取系统的整体和各部件的健康状态,健康状态可以通过WEB、健康指示灯、LCD、诊断面板、安全面板等方式展示。
在Web的【基本概况】页面可以看到服务器整体健康状态和告警汇总信息,如图11、图12所示。
整体健康状态由服务器相关部件健康状态决定,关联的部件有:处理器、内存、风扇、电源、存储、PCIe设备、温感、主板、背板、转接卡等。
图11 基本概况(G3系列服务器)
图12 基本概况(G5系列服务器)
3D温度海洋用于显示服务器机箱中各组件温度传感器的分布图及数值,同时提供了实际物理结构图作为参考,如图13所示。温度海洋上的圆圈与表中可用的传感器相对应,将鼠标移到温度海洋上的圆圈上可查看传感器名称、状态、温度读数和阈值。温度海洋的颜色从绿色逐渐变为红色,绿色表示温度为0°C,红色表示温度较高。坐标含义如下:
· X:传感器在X轴上的坐标信息;
· Y:传感器在Y轴上的坐标信息;
· Z:传感器所属的服务器信息。
HDM可以查看任意线性(温度、风扇转速)传感器的最近一周、一天的历史曲线信息,包括显示在某一时刻某一传感器的最高、平均、最低的数据信息,如图14所示。
HDM可以查看监控带内的CPU、内存、磁盘的资源占用率资源,如图15所示。当监控带内的CPU、内存、磁盘的占用率资源超过阈值时,系统会记录事件日志。
支持告警阈值设置,如图16所示。
使用本功能时需要在OS侧安装并运行FIST SMS(Server Management Service,该代理软件运行在OS下)。
CUPS将CPU、Memory、IO三者作为一个整体资源。通过动态负载率可判断当前主机所运行业务类型比例,动态负载率高说明该业务为当前主机主要运行业务,如图17所示。
· CPU CUPS动态负载率:当前CPU核心数据的累计利用率,CPU值较高说明当前主要运行了计算密集型业务。
· Memory CUPS动态负载率:当前内存总线的累计传输率,Memory值较高说明内存总线访问频率高,跟使用的内存容量大小无直接关系。而OS下的内存使用率=已使用内存容量/内存总容量,如使用了8GB内存中的2GB内存,内存使用率为25%。
· IO CUPS动态负载率:当前PCIe总线的IO带宽利用率,IO值较高说明PCIe总线访问频率高,当前主要运行了IO密集型业务。
当服务器部件发生故障,系统不正常工作、宕机或断电时,HDM能够根据不同类型及不同模块出现的故障产生告警信息,同时生成日志信息。
服务器产品的告警可分四个级别,按告警严重性分为:
· 正常(Info)
事件提示级别用于表示对系统不会产生影响的事件,例如正常的状态变化,告警事件解除。
· 轻微告警(Minor)
轻微告警不会对系统产生大的影响,需要尽快采取相应的措施,防止故障升级。
· 严重告警(Major)
严重告警将会对系统产生较大的影响,有可能中断部分系统的正常运行,导致业务中断。
· 紧急告警(Critical)
紧急告警可能会使单板下电,系统中断。需要马上采取相应的措施进行处理。
不依赖OS,HDM能够检测部分故障信息如下:
· 处理器:能够检测CPU的IERR、自检错误、配置错误(包括CPU UPI errors,IOH UPI errors,CPU core errors,IOH core errors等) 、MCERR等故障;
· 内存:能够检测内存的可纠正、不可纠正错误、高温、Post Training失败等故障;
· 电源:包括电源在位、AC/DC输入丢失、电源预告警、PSU自检失败等故障;
· 风扇:能够检测到风扇的在位、故障、降级故障;
· 存储:能够检测到硬盘在位、故障、预故障、关键阵列、故障阵列等故障;
· 超温报警:包括对CPU、内存、进风口、电源、硬盘等部件进行超温报警;
· 主板和相关板卡关键信息,如电压、电流故障;
· 总线:包括对I2C、 IPMB、 QPI/UPI总线故障检测。
HDM SDS (Smart Diagnose System,智能诊断系统),是一个全生命周期的设备智能诊断系统,能够对服务器主要硬件发生的故障进行快速、精准的检测与诊断。如图18所示,SDS通过收集服务器硬件发生故障时的基础数据,包括传感器、CPLD、寄存器、事件日志等,基于历史硬件故障诊断经验库,对硬件故障的发生原因进行分析定位,最终给出故障诊断结果报告。故障诊断结果报告的内容包括故障模块、故障时间、故障类型、现象描述、可能原因、故障判据以及处理措施。
SDS日志诊断支持包括但不限于CPU故障、内存故障、PCIe设备故障、硬盘故障、电源故障、风扇故障、主板故障、系统宕机等部件级的故障进行数据收集、记录、诊断和告警,同时提供日志导出功能,可通过告警日志信息唯一定位可更换部件信息。告警信息可通过Web界面集中展示整体监控状态和具体告警日志,也可通过IPMI、Redfish等管理接口主动查询SEL、Sensor信息以了解整机和部件监控状态,以部件健康树的形式集中清晰展示部件故障信息。同时也可通过Redfish主动上报故障、SNMP Trap、SMTP、远程Syslog等告警方式与不同的运维管理平台系统对接,满足日常运维需求。SDS支持对服务器主要硬件的全面监控,提供了精准可靠的故障检测与诊断机制,可以检测和诊断的硬件故障包括:
· MCA故障(CPU、内存和PCIe故障)
· 电源故障(电流、电压、温度、电源风扇、IIC、均流)
· 主板故障(二次电源、风扇、网卡、电流、电压、温感)
· PCIe卡故障(网卡、RISER卡、NCSI通道)
· 阵列卡故障(RAID卡、线缆、扩展板、缓存、电池、硬盘)
SDS系统提供了一些辅助诊断功能,包括故障发生时的服务器系统截屏、HDM串口日志、主机串口日志,IPMI进程调试日志、HDM重启原因记录等日志,通过这些故障诊断辅助功能,能够更加清楚地知道故障发生时的现场情况。
MCA(Machine Check Architecture,以下简称MCA)故障诊断是SDS的重要组成部分,MCA故障诊断支持CPU、内存、PCIe故障的检测和诊断。SDS采用轮询检测机制对MCA故障进行监控和诊断,即SDS在轮询过程中检测到CATERR/MSMI信号后,能够通过PECI通道进行带外收集硬件故障现场的基础数据,主要是错误相关的Banks寄存器和CSRs寄存器。结合收集的故障现场基础数据,基于历史硬件故障诊断经验库,对硬件故障进行分析定位给出诊断报告。如图19所示,从总体上展现了MCA故障诊断的流程。
图19 MCA故障诊断总体概览图
(1) CPU故障检测
CPU故障来源有两种,一种是CPU本身内部的故障,另一种是CPU外部部件(内存和PCIe设备)故障引起的。MCA故障诊断能够检测CPU内部主要模块的故障,包括:取指单元(IFU),数据缓存单元(DCU),数据传输缓冲单元(DTLB)等。MCA故障诊断能够分析出故障类型,在多个疑似故障源中进行综合分析,筛选定位到具体故障部件。常见的CPU故障类型有:
¡ 缓存不可纠正故障,包括数据读取错误、数据写入错误、数据预取错误
¡ 看门狗超时故障,3-strike timeout
¡ UPI不可纠正故障
¡ CPU内部电源控制模块故障
¡ CPU访存超时
(2) 内存故障检测
内存故障总体上可划分为可纠正内存故障和不可纠正内存故障。服务器系统一旦发生内存不可纠正故障将会对客户业务的运行造成严重影响。MCA故障诊断专注于内存不可纠正故障的检测与诊断,可以对收集故障记录模块记录的内存故障地址进行解析,在服务器系统搭载的大量内存条中识别出故障的内存条,精准定位到具体的CPU-Channel-DIMM。常见的内存不可纠正故障类型有:
¡ 访存地址/命令错误
¡ 内存读取/写入错误
¡ 内存缓存控制错误
¡ 内存超时错误
(3) PCIe故障检测
MCA故障诊断能够对收集故障记录模块记录的PCIe故障地址进行解析,在服务器系统诸多的PCIe设备中识别出故障的PCIe设备,精准定位到具体的CPU-Slot。常见的PCIe故障类型有:
¡ Received an Unsupported Request故障
¡ Malformed TLP故障
¡ Completer Abort故障
¡ Completion Timeout故障
¡ Poisoned TLP故障
¡ ACS Violation故障
¡ Flow Control Protocol Error故障
¡ Data Link Protocol Error故障
¡ Surprise Down Error故障
HDM接受BIOS传输的相关AMD MCA数据,并进行解析,能够解析如下信息:
(1) CPU故障检测
¡ 检测到CPU的不可纠正、可纠正错误,并可精确到SOCKET;
¡ 检测到SMN错误信息(SMN寄存器记录的是一些会触发系统冷重启的错误),错误能够解析指向具体Socket。
(2) 内存故障检测
¡ 检测到ECC内存错误能够精确到Dimm,非ECC 内存错误能够精确到Channel;
¡ 检测到Mem Trainning和 Mem Test错误信息,能够精确错误到具体Dimm。
(3) PCIe故障检测
¡ 检测到PCIe的可纠正不可纠正错误,解析错误指向到具体Slot。
电源是服务器工作的动力来源,电源故障的检测和诊断是基本要求,SDS采用中断上报和轮询检测的机制对电源故障进行监控,能够支持11类共计24种电源故障,基本涵盖了电源的主要故障类型,实现电源故障的全面监控和诊断。
· 电源不在位故障;
· 电源输入电压故障,包括输入欠压告警和保护,机房输入掉电或输入电源线接触不良;
· 电源风扇故障;
· 电源入风口温度故障,温度过高告警和保护,温度过低告警和保护;
· 电源输出电压故障,包括输出电压过低告警和保护,输出电压过高告警和保护;
· 电源输出电流故障,输出电流过高告警和保护;
· 电源1Hz闪烁,不供电故障;
· 电源IIC通讯异常;
· 电源EEPROM信息错误,包括FRU信息不正确和非我司认证电源;
· 电源型号不匹配;
· 电源负载不均衡。
主板是连接服务器其他硬件的枢纽,SDS针对服务器不同机型进行个性化故障检测和诊断,最多能够支持70+种主板故障类型。
· 二次电源故障,涵盖了服务器各类二次电源模块,包括CPU和板卡电源模块等;
· 风扇不在位故障和PWM转速异常;
· 温度异常,包括整机、CPU和各类板卡温度异常;
· 电压和电流异常。
PCIe卡是对服务器功能的扩展,SDS主要针对网卡和RISER卡进行故障检测和诊断,根据机型差异最多能够支持40+种PCIe卡故障类型。
· 网卡故障,包括自研mLOM卡和25G自研FLOM卡的电源、温感和在位异常;
· RISER卡在位异常;
· NCSI通道切换异常。
SDS支持PMC和LSI阵列卡的故障检测和诊断,通过分析阵列卡上报的事件日志,能够支持100种阵列卡故障类型。
· RAID卡启动异常;
· 线缆异常;
· 内存异常;
· 电池异常;
· 硬盘异常;
· 掉电保护模块异常。
故障告警:HDM支持实时监测硬件和系统的故障状态,并主动上报故障事件日志,上报的通道包括SNMP Trap、SMTP、Redfish事件订阅、远程Syslog等方式。
SDS故障诊断:通过HDM的一键收集功能,可以查看SDS日志中的诊断报告,以获取硬件故障的详细信息。
HDM支持对CPU、内存、硬盘、RAID卡、网卡、电源等部件进行主动预警。
· CPU:支持对CPU的可纠正错误(Configuration error)、CPU温度、QPI/UPI总线、DMA等预故障进行告警。
· 内存:支持对内存的可纠正ECC错误进行预警功能。
· 硬盘:支持对HDD、SSD盘的预故障、Media error、 Prefail、坏道(仅HDD盘)等故障进行预告警;支持对SSD、NVMe盘的擦写寿命进行预告警和监控。
· RAID卡:检测RAID卡PCIe链路上的总线可纠正错误,并提供预告警。支持对阵列卡上电池预故障(电压低)进行告警。
· 网卡:检测网卡PCIe链路上的总线可纠正错误,并提供预告警。
· 电源:支持对电源的预故障,负载不均衡,电源极限功率超过矫正时限等预故障进行告警。提供电源自检失败预告警功能。
· 主板:监控主板上电压、温感等信息,提供相关预告警。
操作日志包含审计日志、固件更新日志、硬件更新日志和配置日志。
· 审计日志:记录访问HDM的操作信息,用于日常运维安全审计;
· 固件更新日志:记录固件更新的操作信息及操作结果;
· 硬件更新日志:记录硬件更新的操作信息及操作结果;
· 配置日志:记录用户的配置操作及操作结果。
日志包含时间、主机名和详细信息描述。日志等级包括:信息和告警。
操作日志界面如图20所示。
事件日志用于记录、查看服务器传感器产生的各种事件。事件按严重性分成如下4个等级:
· 正常:表示对系统不会产生影响的事件,例如正常的状态变化,告警事件解除;
· 轻微:表示对系统不会产生大的影响,需要尽快采取相应的措施,防止故障升级;
· 严重:表示对系统产生较大的影响,有可能中断部分系统的正常运行,导致业务中断;
· 紧急:表示可能会使服务器下电,系统中断。需要马上采取相应的措施进行处理。
在事件日志页面可以通过传感器名称,事件等级,时间参数来快速筛选查询到所需要的事件日志,如图21所示。
HDM为每条事件日志标识了一个事件码,通过事件码可精确定位出设备的故障类型,并可方便查询相关告警日志手册,获取更详细信息。
HDM的Web页面为部分事件日志提供“处理建议”显示,用户可立即获取相关故障的处理建议,加快了故障的快速定位和修复。
图22 处理建议
HDM提供系统SOL(Serial Over LAN,串口重定向)功能,即将原本只能从本地串口线输出的系统串口数据重定向到网络设备输出,并能接受远程网络设备的输入。网管人员在远程通过网络终端就可以轻松的查看系统串口实时输出数据,并能对系统进行操作干预,跟在近端使用系统串口效果一样。
HDM的SOL功能可切换到多种部件,包括SOL到BIOS/OS、智能网卡、RAID扣卡,如图23所示。
图23 SOL串口切换
HDM可以提供串口信息记录功能,该功能将部件的实时串口数据记录到内部存储介质中。当部件发生故障时,可以通过一键收集功能导出串口日志信息进行分析。
HDM支持将传感器信息(IPMI sdr elist命令结果)定期发送到Syslog服务器,可配置Syslog服务器IP地址、端口号、传输协议、定期发送间隔等参数。展示页面如图24的【传感器信息设置】所示。
图24 Syslog的传感器和串口信息上报
用户可配置BIOS/OS串口日志直接发送到远程Syslog服务器,以方便对主机串口信息的监控。相关配置信息可参考图24的【串口信息设置】。
一键收集日志(黑匣子)功能用于收集服务器的日志信息、硬件信息、SDS故障诊断等信息。当设备上各部件模块发生异常时,可通过工具记录日志定位系统中产生异常的原因,了解服务器运行状态,如图25所示,可以添加联系人信息,用于日志解析问题咨询,方便信息对接,提高运维工作效率。
诊断面板(G3服务器支持)可以直接的显示出服务器异常信息,如图26所示,诊断面板能直接指示到具体故障设备,其故障显示与HDM的事件日志记录同步。
面板功能介绍:
· 颜色指示:橙灯/红灯则表示对应组件有故障告警,绿灯表示组件状态正常。
· 故障数码管:一般用于指示具体是哪个部件。
· 支持设备:支持POST/TEMP/CAP/BRD/CPU/DIMM/HDD/PCIE/PSU/RAID/FAN/VRD大类的故障。
· 多种故障:若多个组件同时出现故障时,诊断面板以4秒为周期循环显示全部故障。
故障组件信息说明:
· POST:表示系统POST期间有错误发生,POST异常中止。
· TEMP:表示对应组件温度超过设定阈值。
· CAP:表示系统功率超出当设置的功率封顶限额。
· BRD:表示设备上对应的SMC/PDB/Node/mLOM出现故障。
· CPU:表示对应的CPU上出现错误告警。
· DIMM:表示对应的通道上内存条出现告警。
· HDD:表示对应背板上硬盘出现错误告警。
· PCIE:表示对应的槽位上PCIe卡出现错误告警。
· PSU:表示对应的哪个电源模块出现错误告警。
· RAID:表示相应的RAID卡插槽上RAID卡状态提示。
· FAN:表示对应的风扇出现错误告警。
· VRD:表示对应的SMC/PDB/CPU等模块出现电源错误告警。
H3C G5服务器支持安全面板,如图27,为用户带来全新的视觉体验。
安全面板氛围灯支持3种颜色(白色/橙色/红色),可实现背景灯光效果与服务器健康或功率负载等状态联动。用户根据指示灯即可获取服务器相关状态或故障信息。加快了服务器现场巡检或故障定位。
当服务器Windows操作系统发生故障重启时,HDM支持将最后一屏以指定的格式保存在HDM的存储空间内。用户发现系统宕机后,可以通过网络登录HDM查看蓝屏快照,进而对故障进行快速分析。
HDM最多可保存十张蓝屏快照。该功能必须先开启KVM服务才会生效。
开启服务器的录像功能,当服务器操作系统发生崩溃、重启或关机时,系统会自动录制事件发生前的录像并保存到内部存储空间。技术人员可以通过录制的视频信息对操作系统崩溃、重启或关机的原因进行分析。
在HDM的录像回放页面,如图28所示,用户可以对已录制的页面进行播放、下载、删除等操作。
当前HDM支持记录三个视频文件。该功能必须先开启KVM服务才会生效。
NMI用于向OS触发一个NMI中断,以收集内核堆栈信息并输出到控制台,便于系统异常时定位。
MCA策略是指当HDM检测到不可纠正的IERR错误(包括CPU错误、内存错误和PCIe错误)时,主机是否需要重启的策略。
图29 告警策略
针对Intel CPU,用户无需购买Intel专用调试器进入机房和服务器连接,远程即可对CPU进行JTAG调试,收集服务器的CPU、内存、PCIe、USB等部件的寄存器信息,以协助定位到底层硬件疑难问题。(仅1、2路的Skylake、Cooperlake、IceLake机型支持)。
图30 Remote XDP原理
使用介绍:
(1) 开启HDM的RemoteXDP服务。
(2) 在远程PC上安装Intel提供的openIPC。
(3) 安装Python,下载Intel提供的Cscripts。
(4) 打开CMD窗口,在cscripts目录下执行如图31所示命令即可完成调试环境的建立。
针对Intel CPU平台,HDM集成了Intel的ACD(Autonomous Crash-Dump,自动崩溃转储)特性。如图32所示,当发生MCA错误时,ACD功能通过PECI通道带外收集MCA和CPU其它相关寄存器信息(包括CPU、内存、PCIE故障信息),将故障信息按照要求的JSON文件格式保存,可用CScripts解析,增强了Intel平台的MCA故障的定位手段。
图32 Intel的ACD功能
HDM支持通过IPMI接口主动触发ACD功能。
AMD提供的iHDT(Hardware Debug Tool,硬件调试工具)工具,可用于远程对AMD CPU进行带外JTAG调试,收集服务器的CPU、内存、PCIe等部件信息,其原理如图33所示。
G5 AMD机型服务器支持iHDT功能,使用前需要首先在HDM上打开iHDT服务使能。
图33 iHDT 原理。
无需登录HDM,用户或运维人员通过服务U盘可直接运行相关功能,简化了临场运维管理。
G5服务器智能挂耳上USB Type-C口为一个直连HDM系统的接口,如图34示。U盘通过typeC转USB连接线连接,可实现服务U盘相关功能。HDM检测到插入U盘之后,根据U盘中的操作标识,可以执行一键收集操作。
服务U盘制作:用户可通过Unitool生成U盘中的操作标识,以制作服务U盘。
图34 G5服务器USB Type-C接口
支持Redfish查询HDM后台任务状态,可查询到任务类型、简短描述、状态(未开始/处理中/处理完毕)、触发条件(HDM复位/系统热复位/系统下电)、估计的执行时间等信息。
支持的任务包括:固件升级,SDS一键收集,MCA收集,KVM镜像挂载,配置导入导出。
当服务器因可更换硬件故障导致启动进程挂死在POST阶段时,可以通过本功能配置应急诊断功能,包括最小启动和诊断隔离启动功能,如图35所示。
· 最小启动是指服务器仅启用单CPU、单核、单通道内存来启动操作系统或UEFI SHELL。在最小启动模式下,系统可以继续运行,从而可进行其它诊断和维护操作。
· 诊断隔离启动是指当服务器启动失败时,对服务器的硬件部件进行诊断,诊断出故障部件后,隔离该部件并重新启动。通过诊断隔离可以提高服务器整体RAS特性,降低系统的整体故障率,保障了系统的正常运行。
FRU信息指整机或部件制造过程中写入到部件存储器件中的相关信息,包括:制造商,产品名称,部件号,序列号等信息。
资产信息管理的核心是采集部件的唯一编码,HDM支持采集服务器上相关部件的唯一编码,包括自研板卡和外购部件。
· 自研板卡从FRU中获取部件信息,包括唯一编码信息。
· 外购卡,HDM从BIOS或其它带外方法获取相关信息。
系统启动项用于配置服务器的下一次启动模式和启动设备,以及设置有效期,如图36所示。
HDM支持风扇线性调速和更为精确的PID调速两种调速方法。
MS调速算法简单,直接根据温度以及xml配置文件来决定出风扇的转速。图37为示例的xml配置文件。
图37 xml配置文件
PID风扇调速通过调速参数配置XML文件中传感器调速参数以及传感器温度,实时计算出风扇转速。其优点是能够更加精准的进行风扇转速控制。
PID算法如下:
图38为PID算法调速效果仿真图。从中可以看到随着DTS温度的升高,风扇转速也会相应的增加,温度降低风扇转速也会相应的降低。
图38 PID算法调速效果
用户可根据不同场景,设置相应的风扇模式,包括:
· 静音模式:风扇调速模式为静音模式时,在确保服务器正常散热的前提下,风扇以最低转速运转,此时噪音最小。该模式适用于对噪音要求比较高的场景。
· 均衡模式:风扇调速模式为均衡模式时,风扇会加快转速,此时的噪音和散热能力介于静音模式和强劲模式之间。该模式适用于对噪音和散热能力有平衡要求的场景。
· 强劲模式:风扇调速模式为强劲模式时,风扇以当前条件下的最高转速运转,此时噪音最大,但风扇的散热能力最强,能有效降低CPU等关键组件的温度。该模式适用于对服务器散热要求比较高的场景,如业务繁忙导致CPU等关键组件负载较大、工作环境温度变化频繁。
· 自定义:设置风扇模式时,档位(1-20)越高,风扇的转速越高、散热能力越强,噪声也越大;档位越低,风扇的转速越低、噪声越小、功耗越低。
DCPMM(Intel Optane DC Persistent Memory Module ,英特尔数据中心永久内存模块)内存是Intel推出的一种新型的非易失内存设备。
通过BIOS和MCTP(over ME),HDM可获取DCPMM内存的控制器固件版本、DCPMM温度、控制器温度、剩余寿命、累计上电时间、内存容量、SSD容量等信息,显示示例如图39。
图39 DCPMM内存信息
HDM实现了对支持NCSI over MCTP(over PCIe)的网卡以及OCP网卡的带外管理,可获取网卡的端口信息,包括MAC地址,接口类型,连接状态,协商速率等信息,如图40为示例。
注:BIOS在Legacy模式下,HDM不支持获取网卡MAC和固件版本号获取。
通过MCTP over PCIE,HDM实现了对部分FC HBA卡的带外管理功能,包括可以实时获取卡的 WWN号,温度,健康状态,Link状态,速率等信息。
支持卡有:Lpe31002、Lpe31000、Lpe32002、Lpe32000。
HDM对GPU卡的带外管理可以获取内存总量、核数、额定频率、产品名称、厂家名称、厂商ID、固件版本、内部GPU个数、对应内部GPU的温感值等信息。另外,部分GPU还支持功耗获取、GPU显存利用率、GPU使用率、NVlink信息、ECC故障监控状态、自检报告、功率封顶、告警推送等功能。
当前支持GPU类型:NVIDIA、寒武纪、比思、燧原部分型号GPU,不同型号GPU能获取信息不相同,请以GPU实际支持情况为准。
H3C UniServer R8900G3服务器支持物理硬分区功能,可将一台8路服务器切换成2台4路服务器使用。两个分区的业务在硬件上隔离,并可换装不同的CPU。各个分区拥有独立的BIOS,可搭配不同的操作系统。
独立资源&共享资源:
· 独立资源:上下4P服务器可拥有和管理各自独立的CPU、内存、硬盘、风扇、Riser卡等资源,各硬分区的风扇都支持N+1冗余。拥有独立的HDM管理系统,并能升级各自的HDM等固件。
· 共享资源:服务器的电源、中置背板资源由两个硬分区共享。
HDM可获取存储卡的数量,型号、厂商、固件版本、接口类型、接口速率、厂商序列号、缓存容量、模式、RAID级别等信息。
图41 存储卡信息获取
HDM支持对LSI卡(9300、9311、9400除外)、PMC卡(支持MCTP over PCIe,P460、H460)存储卡进行创建逻辑盘操作。RAID带外配置管理依赖RAID控制器Firmware的能力。
支持修改LSI卡(9300、9311、9400除外)下逻辑盘读写策略。
图42 逻辑盘管理
HDM可获取物理盘的槽位号、厂商型号、固件版本、厂商序列号、状态、容量、属性(物理盘速率、接口类型和硬盘类型)、重构进度(LSI卡支持)等信息。
针对LSI卡(9300、9311、9400除外)下的物理盘,可以配置物理盘的状态,包括:Unconfigured_Good,Unconfigured_Bad,JBOD状态。
支持配置物理盘为热备盘,包括全局热备和专属热备(PMC卡不支持)。
硬盘定位点灯。可查看并切换硬盘定位灯的状态,主要用于硬盘实际位置查找操作。
图43 物理盘管理(逻辑视图)
图44 物理盘管理(物理视图)
能够检测到硬盘在位、故障、预故障、关键阵列、故障阵列故障。
· HDD盘:支持对物理故障、预故障、配置错误、固件状态异常、Media error、Prefail、UNC、坏道、硬盘Miss状态监控和告警。
· SSD盘:支持对物理故障、预故障、配置错误、固件状态异常、Media error、Prefail、UNC、硬盘Miss状态监控和告警;支持对SSD盘擦写寿命、剩余预留块信息采集和告警。
· NVMe盘:支持对NVMe盘擦写寿命监控和告警。
· 控制卡:支持控制卡失效、重构进度失效告警。
· BBU:支持对BBU故障、预故障(电压低)、不在位进行告警。
通过PBSI通道,SDS能够获取PMC卡相关日志信息,包括60+种存储相关故障。
通过MCTP(over I2C)通道,能够获取LSI卡相关日志信息,约200+条关于RAID卡、BBU、物理盘、逻辑盘、背板相关故障信息日志。
SDS诊断:支持对PMC/LSI的RAID/HBA卡的日志信息进行诊断,诊断出相应的错误原因,并给出了相关处理措施。支持的模块有:RAID卡、连接线缆、BBU、存储介质。共计有100条故障判据。
能获取SAS/SATA的 HDD SSD硬盘SMART信息,并实现了基于SMART信息的故障诊断功能。
SMART信息保存周期30天,采集周期1天1次。获取接口:通过一键下载获取。
通过一键下载可以获取RAID扣卡以及LSI卡(9300、9311、9400除外) 的串口日志信息。
HDM的Web提供对服务器的电源控制方式如图45所示。
服务器电源控制方式包括:立即重启、强制关机、正常关机、开机、关机并重新开机。
· 立即重启:表示对服务器进行冷复位,即:HDM直接拉PCH使系统复位,绕过正常的操作系统关闭流程。
· 强制关机:表示对服务器进行关机,无需等待OS响应,绕过正常的操作系统关闭流程,效果相当于长按服务器面板上的电源按钮。
· 正常关机:表示对服务器进行安全关机,HDM向OS发送ACPI中断,若OS支持ACPI服务,则先走正常的操作系统关闭(将所有运行进程关闭)后下电,否则,只能等到超过下电超时时间后,HDM将系统强制关机;效果相当于短按服务器面板上的电源按钮。
· 开机:表示对服务器进行上电。
· 关机并重新开机:表示对服务器先强制关机再开机。
现代数据中心一直面临的一项挑战是企业正在消耗大量的电源、空间和冷却成本。而随着能源需求以及能源和冷却成本的大幅度上涨,日益增长的可用能源的容量预计在未来几年里将跟不上需求的增长。对于当前的数据中心来说,最急需解决的问题就是通过技术创新实现节能降耗。在传统的数据中心中,客户为保证数据中心无间断运行,往往要耗费巨资来建设一套额外的电力基础设施。此外,IT管理员通常会以过度能源供应,来确保电力供应。HDM提供的功率封顶技术可以通过有效地对每一台服务器能耗的准确控制,避免了能源的过度供应,有效地将能源中过度供应的部分能源用于数据中心扩容。
功率封顶功能通过设置系统的功率预期上限,当系统功率超过此上限值后,引导特定动作发生,从而保证机箱整体功率的合理分配。
封顶失败进一步动作包括:
· 记录事件:封顶失败后在系统事件文件中记录一条日志,默认执行。
· 关机(可选):封顶失败后,系统将执行强制下电操作。
图46 电源配置-功率配置
HDM支持对Intel、AMD、海光平台的功率封顶功能。
在满足业务功耗前提下,将部分电源设置为热备用,提升电源功率转换效率。如图47所示,HDM可设置服务器电源的工作模式,包括主备模式和负载分担模式。
· 主备模式:包括至少1个主电源,至少1个备用电源。
¡ 当主电源发生故障,备用电源会自动切换为主电源,以保证电源的可靠性。
¡ 当主电源实际功率超过主电源额定功率(主电源最大功率)的62%时,备用电源将自动切换为主电源,变成负载均衡模式。
· 负载均衡:所有在位电源均处于主电源模式,实现负载分担。
HDM可以提供准确的能耗监测并且能通过曲线提供统计,从而使管理员能够通过能耗监测装置深入了解实际电力及散热资源的使用情况。用户可以根据历史数据对服务器节能进行优化。
图48 查看历史功率
一键设置电源性能模式,包括:性能模式、节能模式、均衡模式,如图49所示。满足不同客户或不同场景对服务器的性能、功耗、噪声等不同需求。
通过调节CPU的最高工作频率(P-state)和空闲工作时间(T-state)可以降低系统能耗,如图50所示。支持多种调节等级,操作灵活,满足不同产品需求。
AC恢复配置用于配置服务器通电后系统的启动策略,如图51所示。包括:
· 总是开启:通电后,服务器系统会自动启动;
· 总是关闭:通电后,服务器系统保持关闭状态;
· 上一次电源状态:通电后,服务器系统会恢复到上次断电前的状态。服务器缺省处于此模式。
· 开机延迟:开机延迟时间。可以配置:0,15s,30s,45s,60s,以及随机(0~120s)。开机延迟可以用于服务器的错峰上电,降低机房开机过程中的瞬时功耗。
图51 AC恢复配置
系统开机的最终指令都由HDM发出(该功能仅在部分机型实现)。AC通电后主板Standby电源先供电,HDM启动,然后由HDM根据开机通电策略决定是否将系统开机。
虚拟KVM是指用户在客户端利用本地的视频、键盘、鼠标对远程的设备进行监视和控制,提供实时操作异地设备的管理方式。
图52 虚拟KVM
H5 KVM相对于KVM优势在于无需任何插件,通过浏览器HTTPs访问即可实现对服务器的远程管理。
HDM支持通过IP地址和账号密码来直接访问H5 KVM。
输入格式如下:http://ip_addr/viewer.html?u=user_name&p=user_passord,示例如图53所示。
图53 H5 KVM的直接访问的示例
共享或独占模式,如图54所示。
· 独占模式:仅支持一个远程控制台会话,且拥有完全控制权限;
· 共享模式:支持多个(1主N从)远程控制台会话,主用户拥有完全控制权,从用户只有只读权限(只能查看远程控制台视频、进行截屏和视频录制操作,但不能进行任何控制操作)。
· 加密模式:仅H5 KVM支持。使用加密模式之后信息在客户端和服务器加密传输,提高了数据传输的安全性。使用非加密模式的优点是数据传输速率较快,安装OS时推荐。
图54 KVM模式配置
虚拟媒体即通过网络在服务器上以虚拟USB光盘驱动器和软盘驱动器的形式提供对本地媒体(光盘驱动器、软盘驱动器或光/软盘的镜像文件,硬盘文件夹)的远程访问方式;虚拟媒体数据支持AES 128 CBC算法加密传输。虚拟媒体的实现原理是将客户所在的本地主机的媒体设备通过网络虚拟为远端服务器主机的媒体设备。
支持的虚拟媒介有:
· DVD、CD光驱
· ISO、IMG文件
· 虚拟文件夹:将本地的文件夹挂载到主机端。
· USB key
图55 虚拟文件夹实现效果
在KVM界面可以开启截屏功能,截屏图像格式为JPEG格式,录像文件保存在本地PC(打开KVM的PC),如图56所示。
图56 KVM界面的截屏功能
在KVM界面可以开启录像功能,录像格式为AVI格式,录像文件保存在本地PC(打开KVM的PC)。如图57所示。当用户出于安全或者其他需要,要将虚拟KVM操作过程记录下来时,可以通过启动屏幕录像功能来实现。屏幕录像功能启动后,虚拟KVM控制台会自动将屏幕上的所有显示和操作都记录到自定义视频格式文件中。录像文件在本地可以通过播放器来播放。
图57 KVM界面的视频录制
VNC(Virtual Network Console,虚拟网络控制台)用于传送服务端的原始图像到客户端,该协议提供一种不用登录HDM即可访问控制服务器的方法,即用本地主机的显示器、输入设备远程控制服务器。
VNC系统由客户端,服务端和VNC协议组成。
· VNC服务端VNCServer:在HDM端运行,其作用是捕获并共享服务器屏幕,并且与系统运行状态无关。
· VNC客户端即VNCViewer(PC端本地应用程序):用于与服务器交互,远程连接运行VNCServer的计算机。第三方VNC客户端有RealVNC、TightVNC、NoVNC等。
HDM支持IPv4、IPv6 VNC会话,为用户提供更为灵活的KVM操作方式。
HDM同时最多支持2个VNC会话,且支持两种会话模式。
· 共享模式:支持打开2个VNC会话,2个VNC会话均有权限控制鼠标和键盘,可控制OS;
· 独占模式:当独占模式的会话连接时,如果存在共享模式的会话,该会话将被强制断开;独占模式的会话存在时,下一个会话的连接请求将被拒绝。
共享模式与独占模式可由客户端配置。
VNC在线会话使能默认关闭。配置页面为:单击[安全/服务配置]菜单项,进入服务配置页面,如图58所示。
开启VNC服务。
通过VNC viewer建立VNC 会话;打开VNC viewer,输入VNC 密码打开VNC 会话,如图59所示。
成功建立非安全会话后,可以在[安全/服务配置]查看到会话类型为VNC,IP地址为客户端IP,且支持IPv4和IPv6,如图60所示。
图60 VNC服务会话查看
支持VNC的密码复杂度检查设置,当启用时密码固定长度为8位,不启用时密码长度是1-8位,如图61所示。
图61 VNC密码设置
边带管理(共享网口)就是利用边带NCSI( Network Controller Sideband Interface)技术使管理系统与主机系统共用主机物理网口,通过一个网口就可以同时做管理操作和业务处理,简化组网,节省交换机端口;从安全考虑,利用VLAN技术将管理与业务划分在不同网段。
NCSI是基于物理总线RMII的带外管理总线协议。普通的网络管理总线是MDC/MDIO总线,这种管理总线需要额外的引脚作为物理总线,但是NCSI总线是与网络通信总线RMII复用总线,在RMII总线基础之上定义一个NCSI协议,这样就可以达到减少物理引脚的目的。
NC(Network Controller:网络控制器)在与对外通信上分为内部网络接口:Internal Host Interface,外部网络接口:External Network Interface,以及带外接口:Sideband Interface。其用途分别是:向外部网络发送数据,与HDM进行网络通信(包括NCSI协议)。HDM通过NCSI协议进行网络配置,网络配置成功之后,HDM就可以向NC发送正常的网络报文。从链路上看,NCSI报文与网络通信报文在物理链路上共用一个物理总线:RMII,该RMII物理总线连接的另外一端是HDM,那么这条总线在NC看来就是一个带外接口(Sideband Interface)。
图62 边带管理框图
从数据流程来看,HDM通过MAC向物理总线RMII发送一个网络报文,NC通过RMII接收到网络报文后,对网络报文进行解析。解析后,如果是NCSI报文(判断的条件是:ether type为0x88F8),则进行NCSI响应;如果是对外发送数据的网络报文(ether type为非0x88F8)则将数据转发到External Interface。
图63 边带管理数据流图
从协议层面上看,NCSI协议是一个网络层协议,其网络类型码为0x88F8。
图64 NCSI协议
HDM可以配置的网口模式包括:正常模式、Bonding模式、网口自适应模式。
用户可通过共享网口或专用网口访问HDM,两个口IP地址应分属不同网段。
图65 网口模式配置
使用Bonding功能可以提高HDM接入的可靠性。切换为Bonding后,系统会将HDM共享网络接口和HDM专用网络接口作为一个逻辑上的网络接口使用。切换后,Bonding接口将继承HDM专用网络接口的IP地址和MAC地址。HDM共享网络接口和HDM专用网络接口中的任意一个接口UP状态,管理员仍然能通过HDM Bonding网络接口的IP地址访问HDM。
图66 Bonding切换前后概览页面的网络配置
网口自适应模式指的是HDM管理流量优先选择专用网口作为通信端口,即共享网口和专用网口处于Active/Standby状态,同一时间只有一种网口可以访问HDM,专用网口优先。
· 当专用网口连接网线,无论共享网口是否连接网线,选择专用网口作为通信端口。
· 当共享网口连接网线,专用网口未连接网线时,选择共享网口作为通信端口。
网口自适应模式下,共享口和专用口和共用一套IP地址和MAC地址(专用口MAC)。
端口自适应模式指的是可以根据网卡端口的连接情况自动选择共享网口,该特性具有以下优点,只要网卡有一个端口处于连接状态,即可通过共享网口管理HDM。
sLOM、mLOM、FLOM、OCP网卡、支持NCSI功能的PCIe网卡均支持此功能。
共享网口切换指的是切换HDM共享网口后,管理员只要重新接入切换后的共享网口即可访问HDM,该特性具有以下优点:
· 不用更改服务器在整网中的网络信息,实现平滑切换。
· 不需要重新配置切换后共享网口的网络信息(包括IP地址、VLAN等),提高维护效率。
图67 共享网口切换
注意:
网口自适应模式和端口自适应模式不能同时开启,否则可能会导致网络故障。
HDM全面支持IPv6。专用网口和共享网口(NCSI)的物理通道均支持IPv6地址访问,如图68所示。
图68 HDM支持IPv6地址功能
图69 支持IPv6登录HDM Web
网络时间协议NTP(Network Time Protocol)是TCP/IP协议族里的一个应用层协议,用于在一系列分布式时间服务器与客户端之间同步时钟。服务器的HDM支持配置服务器所在的时区,并通过手动或自动获取首选和备用NTP服务器(支持IPv4和IPv6),手动设置NTP服务器地址支持FQDN域名,如图70所示。
图70 NTP页面
HDM可以从多种时钟源获取时间信息,其时间同步的优先级如下:
主NTP服务器> 二级NTP服务器> DHCP Server兼任的NTP Server > 主机ME(仅Intel产品)> BMC上的RTC。
DNS是一种用于TCP/IP应用程序的分布式数据库,提供域名与IP地址之间的转换服务。完整的域名由主机名和上级域名组合而成。HDM中,主机名可以手动配置,也可以根据服务器的SN号自动生成;上级域名可以手动配置,也可以通过DHCP自动获取。
HDM支持将共享网口和专用网口的IP地址与域名建立映射关系,并将该映射关系向网络中的IP DNS服务器进行注册。
注册方式分为nsupdate以及FQDN\主机名方式:nsupdate方式为客户端直接通过nsupdate命令更新DNS服务器的区文件;FQDN\主机名方式为DHCP服务器在确认客户端的网络地址分配后,将客户端的信息动态注册到DNS服务器。
用户可以将所有被管理服务器加入一个统一的管理域并使用便于记忆的域名来访问被管服务器的HDM。
图71 DNS注册流程
图72 IPv6 DNS解析
图73 通过域名访问HDM
HDM支持远程Syslog服务器获取操作日志和事件日志。可配置远程Syslog服务器的端口号,传输协议、日志类型、主机标识参数,如图74所示。
传输协议支持配置:UDP、TCP、TLS加密传输。其中TLS加密传输支持单向和双向认证,如图74所示。
图74 远程Syslog服务器配置
HDM可设置将服务器产生的事件日志通过“电子邮件警报”发送给指定用户,帮助用户监控服务器的运行状态。SMTP服务器地址支持IPv4和IPv6地址。支持匿名/认证用户发送,告警信息最多支持发送给16个用户用于服务器监控。
支持所有告警事件按严重等级上报,并支持严重等级设置,包括:“所有级别”,“紧急”,“轻微+严重+紧急”,如图76所示。
图76 SMTP配置
HDM可设置将服务器产生的事件日志通过SNMP Trap发送给指定用户,帮助用户监控服务器的运行状态。
HDM支持SNMP Trap服务器配置,可配置按严重性级别上报,包括:“所有级别”,“紧急”,“轻微+严重+紧急”。支持配置模块OID模式和事件OID模式两种模式上报,如图77所示。
· 模块OID模式:一个模块(以传感器类型划分)的告警对应同一个OID,用户通过OID可确定出现问题的模块。
· 事件OID模式:是在模块OID模式的基础上做了精细化处理,将每个模块下的每一种事件告警各自对应一个OID,用户仅利用告警OID就可以确定模块的故障类型。
图77 SNMP Trap配置信息
图78 SNMP Trap配置
通过G5服务器智能挂耳上USB Type-C接口,HDM支持外接第三方USB WIFI模块,为HDM提供了无线热点功能。通过无线WIFI,用户可使用手机或便携机直接登录HDM,并配合使用HDM移动端APP(HDM Mobile) 或其它工具进行运维和巡检操作。
注:
· 当前仅支持小米随身WIFI,且需要通过typeC转USB连接线进行连接;
· 为提高安全性,仅允许同时接入2个客户端;
· 无线名称:默认是产品名称+产品序列号后10位;
· 无线密码:默认不加密,以实现即插即用。
通过HDM可配置无线的参数包括:无线使能、无线名称、加密方式和密码、定时关闭时间、无线管理口IP地址,DHCP-server地址池等参数,配置页面如图79示。
通过无线接口,HDM支持网络协议有:WEB、Redfish、IPMI、SSH、Telnet。
LLDP(Link Layer Discovery Protocol,链路层发现协议)提供了一种标准的链路层发现方式,使不同厂商的设备能够在网络中相互发现并交互各自的系统及配置信息,网络变化时,网管系统可以快速掌握二层网络拓扑信息和拓扑变化信息。
HDM支持LLDP协议,可以解析本地网络中交换机的相关信息,如图80所示。
· 网络接口:服务器接收LLDP信息的网络接口;
· 交换机MAC地址:上联交换机端口的MAC地址;
· 交换机系统名:上联交换机系统名;
· 连接端口号:上联交换机端口号;
· 端口信息:上联交换机端口名;
· 网口速率:网络接口的速率。
HDM支持主动发送LLDP报文,以方便邻居设备发现自身。
图80 LLDP配置
在用户访问配置页面可以配置本地用户和域用户(包括LDAP和AD用户),通过这些用户可以访问HDM Web界面。
用户所拥有的网络访问权限由属于的角色组决定,HDM支持的角色组有:
· Administrator:管理员,对所有功能具有读取和写入权限;
· Operator:操作员,对所有功能具有读取权限,对部分功能具有写入权限,能执行日常的基础操作;
· User:用户,具有只读访问权限,无法修改HDM配置;
· CustomRole1~CustomRole5:自定义权限组用户,管理员可以配置用户所拥有的权限。
自定义权限配置如图81所示。
HDM将所有功能&接口(Redfish、IPMI)分属不同的权限模块,以提升接口的安全性。
权限模块包括:用户配置,常规配置,远程控制,远程媒体,安全配置,电源控制,维护诊断,配置自身,查询模块。不同权限模块涉及主要功能如表2所示。
权限模块名称 |
权限模块涉及功能简述 |
用户配置 |
包括:用户管理,高级密码配置,目录管理,导入导出,联合管理等 |
维护诊断 |
包括:硬盘点灯、CUPS、录像截屏、固件管理(更新、重启、主备切换)、恢复出厂配置,重新统计实时监控信息等功能 |
远程控制 |
存储管理、硬分区、系统资源监控设置、KVM(电源控制、镜像挂载除外)、VNC密码管理、系统启动项、UID灯控制、SOL串口设置、MCA策略和安全面板设置等操作 |
远程媒体 |
包括:虚拟媒体、KVM镜像挂载 |
安全配置 |
包括:服务配置、防火墙、SSL证书、PFR固件保护、登录安全性信息等 |
电源控制 |
包括:电源管理,风扇管理,NMI控制, 物理电源按钮控制 |
常规配置 |
包括:网络配置(如:网口、NTP、SNMP、LLDP、DNS、syslog),资产标签配置等 |
配置自身 |
包括:配置用户(仅限本地用户)自身的密码 |
查询 |
包括:所有查询GET接口 |
HDM最大支持16个本地用户的配置,并可选择本地用户的接口权限(IPMI、WEB)和SNMP扩展权限配置,如图82所示。
LDAP(Lightweight Directory Access Protocol)是一个访问在线目录服务的协议。LDAP目录中可以存储例如电子邮件地址、邮件路由信息等各种类型的数据,为用户提供更集中、更便捷的查询。
如图83所示原理,启用HDM的目录服务,管理员可以将所有HDM的用户管理,权限分配,有效期管理都集中到目录服务器上,避免大量的重复性用户配置任务,提高管理效率。另外将用户集中到目录服务器上,也能大大提高HDM智能管理系统的安全性。
图83 LDAP服务器原理图
LDAP标准优点:
· 可扩展性:可以在所有HDM上同时动态支持LDAP服务器上新增账户的管理;
· 安全性:用户密码策略都在LDAP服务器上实施。支持SSL加密机制;
· 实时性:LDAP服务器上账户的任何更新都将立即应用到所有的HDM;
· 高效性:可以将所有HDM智能管理系统的用户管理,权限分配,有效期管理都集中到目录服务器上,避免大量的重复性用户配置任务,提高管理效率。
AD(Active Directory、活动目录)是指Windows服务器操作系统中的目录服务;它提供了集中组织管理和访问网络资源的目录服务功能,使网络拓扑和协议对用户变得透明。
AD被划分成区域进行管理,基于这种结构,可以随着企业的成长而进行扩展。
HDM支持AD用户认证功能。启用AD认证并制定访问策略,如图84所示。配置完成后,用户可以使用AD目录服务器中设置的用户名和密码直接访问HDM。其权限由用户所在角色组的权限决定,如图85所示。
图84 AD服务器配置
图85 AD角色组权限配置
账号安全包括:密码复杂度检查、密码有效期、禁用历史密码重复次数、登录失败锁定、密码锁定时长、弱口令检查,提示修改初始密码。在“配置->用户配置”的“高级设置”里可配置。如图86所示。
· 密码复杂度检查:开启该功能后,所有用户的密码设置需符合以下要求,否则密码设置无法通过检查;
¡ 密码长度为8~20个字符,仅支持字母、数字、空格和特殊字符`~!@#$%^&*()_+-=[]\{}|;’:”,./<>?,区分大小写;
¡ 至少包含大写字母、小写字母和数字中的两种字符;
¡ 至少包含一个空格或特殊字符;
¡ 不能与用户名或用户名的倒序相同;
¡ 需符合“禁用历史密码”要求。
· 密码有效期:用户密码的使用期限,临近使用期限前,HDM会提醒用户更换密码。默认管理员不受密码有效期配置影响;
· 禁用历史密码:用户修改密码时,禁止使用设置次数内的历史密码;
· 登录失败锁定:用户登录失败的次数达到设定的次数后,系统会锁定该用户的登录;
· 登录失败锁定时长:用户由于登录失败达到登录失败锁定次数后,被系统锁定的时长。用户被锁定后,在失败锁定时长内不能登录HDM。
· 弱口令检查:使用弱口令字典检查用户设置的密码是否属于弱口令,开启该功能后,用户设置的密码不能在弱口令字典中。
· 弱口令字典管理:支持导入、导出弱口令字典,设置的密码在密码复杂度检查和弱口令字典认证功能使能的情况下不能在弱口令字典中。
为了满足客户的业务和安全需要,HDM提供开关来控制是否提供服务端口。如图87所示,HDM支持查看和修改的服务有:CD-Media、FD-Media、HD-Media、IPMI、KVM、Remote_XDP|iHDT、SNMP、SSH、Telnet、VNC和Web。
图87 HDM服务配置
防火墙可根据访问HDM的设备的IP地址(地址段)、MAC地址和时间段进行访问控制,设置防火墙黑白名单规则,以允许符合规则的设备访问HDM,如图88所示。
· 黑名单功能:可以设置阻止访问HDM的设备的IP地址、IP地址段和MAC地址,以及阻止访问生效的时间。处于黑名单外的设备可以访问。HDM最大支持20条黑名单规则;
· 白名单功能:可以设置允许访问HDM的设备IP地址、IP地址段和MAC地址,以及允许访问的时间段。添加白名单规则后,白名单以外的地址均不能访问HDM。HDM最大支持20条白名单规则。
其中黑名单的优先级比白名单高,如访问HDM的设备的IP地址既在黑名单,又在白名单中,则禁止访问。
SSL证书管理包括上传SSL、生成SSL、查看SSL。
SSL证书信息包括:使用者、颁布者、有效时间、序列号等信息。
HDM自带SSL证书,为提高安全性,建议替换成用户自己的证书和公钥对。
传统平台登录只需要输入用户名和密码,用户密码是系统唯一的保护屏障,安全管理显的比较薄弱。在双因素认证方案的框架下,用户输入用户名密码的同时,还需要满足另一个因素才能正常登录管理系统,增强了系统管理的安全性。
HDM支持证书认证和OTP认证两种双因素认证,且它们不能同时启用。开启双因素之后,系统会关闭Telnet、SSH、VNC、IPMI、Redfish、SNMPV3、SOL等接口或服务,用户需谨慎开启双因素认证模式。
HDM采用宁盾OTP(One Time Password,一次性密码)动态令牌方案,使用Radius协议,支持国密算法,取得了国密资质认证。打开OPT认证之后,用户在登录HDM Web输入用户名密码时,还需要输入一个动态密码,这个动态密码可由硬件令牌或者手机令牌产生,且需要在OTP服务器上认证通过,才能够登录HDM系统,其组网方案如图89所示。
图89 OTP双因素认证组网方案
开启双因素后,HDM的登录界面会新增一个动态密码输入框,如图90所示。
为了提高了HDM的安全可靠性,避免因HDM用户信息泄露引发安全问题,HDM提供证书认证功能。启用证书认证功能后,用户登录HDM需要同时拥有客户端证书和客户端私钥证书才能通过认证并登录成功。
图91 证书双因素认证
用户从正式的CA认证机构申请根证书和客户端证书文件后,可以通过证书认证功能上传到HDM,再为每个客户端证书绑定一个HDM本地用户。绑定成功后,用户打开浏览器上传客户端私钥证书。上传成功后,用户进入HDM登录页面根据提示信息选择客户端证书,就能以客户端证书绑定的本地用户的身份登录HDM。认证流程如图92所示。
HDM最多可以上传5个根证书和16个客户端证书,每个根证书最多可以上传16个客户端证书,每个客户端证书只能绑定一个HDM本地用户。HDM支持上传Base64编码的根证书和客户端证书,证书格式包括:*.cer、*.crt、*.pem,浏览器仅支持上传*.p12格式的客户端私钥证书。
启用证书吊销检查功能前,请确保Web服务器和OCSP(Online Certificate Status Protocol,在线证书状态协议)服务器可以正常通信.启用证书功能前,必须导入根证书和客户端证书,并绑定已启用HDM Web访问权限的HDM本地用户。否则,在后续登录时会出现无法认证的情况。
Intel PFR提供了固件保护、检测和恢复功能,提高了系统安全可信程度。
其原理是把信任的根源放置到Intel Xeon处理器和平台的PFR CPLD上,使用这个可信硅根去执行对HDM-Uboot的校验和恢复,后续HDM-Uboot会进一步对HDM固件进行校验和恢复,从而实现了整个系统的安全可信。原理如图93所示。
HDM的SOC芯片支持硬件安全加速模块,用来加强HDM的安全相关功能。主要应用在认证、数据加解密等安全应用中。实现了AES、DES、3DES、RC4、MD5、SHA1、SHA224、SHA256、HMAC-MD5、HMAC-SHA1、HMAC-SHA224和HMAC-SHA256算法。
HDM可管理的固件包括:
· 支持查询HDM、BIOS、CPLD、PSU、LCD固件版本;
· 支持不断电不中断业务升级HDM固件版本;
· 支持固件升级,且升级时HDM、BIOS、CPLD、PSU、LCD固件都已经进行过签名,确保镜像是完整的;
· HDM支持双镜像切换。
为了提升系统可靠性,HDM使用了固件双镜像备份技术,如图94所示。当在运行过程中出现flash误操作或者存储块损坏时,可以切换到备份镜像运行。
支持对HDM、BIOS、CPLD、PSU、LCD固件升级,如图95所示。从兼容性考虑,建议用户将HDM主备镜像更新到同一个版本。
HDM固件升级时支持两种生效方式(手动和自动),BIOS固件升级支持三种生效方式(手动、自动和设置重启时间),且支持HDM、BIOS升级后的配置保留或覆盖,如图96所示。
当BIOS升级选择“配置保留”和“配置覆盖”时,HDM仅上传BIOS的固件文件到eMMC,后续主机重启时,BIOS会通过HDM从eMMC中获取固件文件,自行升级固件,以实现相关的配置策略。
配置导入导出就是指把HDM、BIOS、RAID的所有配置能以配置文件的方式导出和导入,实现管理员可以轻松的远程配置服务器,如图97所示。
配置文件导入导出具有以下技术优势:
· 通过HDM的配置导入导出功能实现带外批量配置HDM、BIOS、 RAID三大模块的配置选项,覆盖选项全;
· 配置可阅读、可编辑、可保存。可并行配置多台服务器;
· 操作便捷,灵活使用将大幅提升管理运维效率;
· 配置导入速度快:配置单个文件仅需2分钟,HDM+BIOS+RAID全配置仅需6分钟;
· 可配置参数多:其中HDM支持100+选项、BIOS支持1000+选项、支持修改RAID级别。
配置文件支持如下使用场景,如图98所示。
· 导出配置文件,完成修改再导入 = 批量修改设置选项;
· 配置文件在同型号服务器上通用,即针对同一类型机器快速完成大规模设备的配置和部署;
· 更换主板或者恢复出厂默认设置后,可以快捷的恢复自定义设置。
恢复HDM默认配置可将HDM的配置恢复到最原始的配置状态,可用于HDM重新配置。
G3和G5服务器支持的特性主要差异情况如表3所示,仅部分服务器支持的情况,请以服务器的实际情况为准。
表3 G3和G5主要差异特性
G3产品 |
G5产品 |
其它描述 |
|
LCD显示屏 |
支持 |
支持 |
仅部分机架服务器支持 |
诊断面板 |
支持 |
不支持 |
- |
安全面板 |
不支持 |
支持 |
仅部分G5机架服务器支持 |
iHDT |
不支持 |
支持 |
仅G5 AMD服务器支持 |
USB WIFI |
不支持 |
支持 |
G5智能挂耳上有专用管理接口的服务器支持 |
服务U盘 |
不支持 |
支持 |
G5智能挂耳上有USB Type-C接口的服务器支持 |
可信硅根 |
不支持 |
支持 |
G5 Intel服务器支持 |