Copyright © 2019 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
H3C设备管理系统(Hardware Device Management,以下简称HDM)是H3C自主研发的服务器远程管理系统。HDM兼容服务器业界管理标准IPMI、SNMP、Redfish,支持键盘、鼠标和视频的重定向,文本控制台的重定向,远程虚拟媒体,高可靠的硬件监控和管理功能。HDM提供了丰富的特性支持。其主要特性有:
· 丰富的管理接口
提供IPMI/HTTPS/SNMP/Redfish/RESTful管理接口,满足多种方式的系统集成需求。
· 兼容IPMI1.5/IPMI2.0
提供标准的管理接口,可被标准管理系统集成。
· 故障监控和诊断
故障监控和诊断,通过精准定位与诊断,指导运维人员快速解决问题,保障设备7*24小时高可靠运行。
· 虚拟KVM和虚拟媒体
提供方便的远程维护手段。
· 基于Web界面的用户接口
可以通过简单的界面操作快速完成设置和查询任务。
· 支持RESTful管理接口
简洁方便,有层次实现远程命令管理。
· 支持Redfish管理接口
降低开发复杂性,易于实施、易于使用、易于扩展。
· 截屏与录像
通过截屏和录像可以快速分析系统崩溃的原因。
· 屏幕录像
操作过程记录变得简单轻松。
· 支持SHD
支持基于部件的精准故障诊断,方便部件故障定位和更换。
· 支持DNS/LDAP
域管理和目录服务,简化服务器管理网络。
· RAID带外管理
支持RAID的带外监控和配置,提升了RAID配置效率和管理能力。
· 双镜像备份
提高系统的安全性,即使当前运行的软件完全崩溃,也可以从备份镜像启动。
· 设备资产管理
让资产盘点不再困难。
· 支持智能电源管理
功率封顶技术帮助管理员轻松提高部署密度;动态节能技术帮助您有效降低运营成本。
· 安全管理
从接入、账号、传输、存储四个维度保障服务器管理的安全。
如图所示,HDM硬件芯片采用服务器专用SOC芯片,有效管理服务器硬件设备。SOC芯片支持远程KVM和本地VGA显示,支持专用和共享网口,以及其它丰富的板级管理和外设接口。具体如下:
图1 HDM系统结构
· HDM的KVM模块通过VGA接口接收来自主机系统的视频信息,经过压缩后再通过网络将压缩数据传输到远程KVM客户端进行解压还原。此外KVM模块接收远程KVM客户端的键盘鼠标数据,通过模拟的USB键盘鼠标设备将数据传输到主机系统,实现远程的键盘鼠标控制。
· HDM提供传统的LPC系统接口与主机系统通信,支持标准的IPMI管理。
· HDM对外提供GE以太网络接口,支持通过网络使用IPMI、HTTPS、Redfish等协议进行远程管理操作。
· HDM通过传感器实现了对服务器的温度、电压状态全面监控,并且提供对服务器的风扇和电源的智能管理。
· HDM支持新的边带网络技术(NCSI)以及VLAN网络功能,通过边带网络可以支持更加灵活的管理组网。
· HDM是支持键盘、鼠标和视频的重定向、文本控制台的重定向、远程虚拟媒体(可将终端的光驱、硬盘、文件夹映射到服务器)和基于IPMI2.0的硬件监控和管理功能。
· 支持HDM软件的双镜像备份和主备切换。
· HDM提供了丰富的用户接口,如命令行、基于Web界面的用户接口、IPMI集成接口、Redfish、SNMP集成接口,并且所有用户接口都采用了认证机制和高度安全的加密算法,保证接入和传输的安全性。
· HDM对服务器进行了全面精细的监控,并且提供了丰富的告警和详细的日志。如CPU的内核温度、内存故障、硬盘故障、电压、风扇转速、电源故障等。同时还提供了CPU、内存和硬盘信息的查询。
· HDM能够在服务器宕机的时候自动保存宕机之前屏幕上输出的最后的信息,用于故障的定位。还支持即时的屏幕快照,第三方程序可以设置定时或周期性的进行屏幕截屏,不需要手工定时去查看服务器,为维护人员节省大量时间。
HDM兼容IPMI 1.5/IPMI 2.0规范,支持数据中心管理接口( DCMI, Data Center Mangeability Interface), 通过第三方工具(如:ipmitool)基于LPC通道的KCS协议或LAN通道的UDP/IP协议实现对服务器的有效管理。
· 基于KCS时,ipmitool等工具必须运行在服务器本机的操作系统上;
· 基于LAN时,ipmitool等工具可以远程管理服务器。
第三方工具支持Windows和Linux系统。
以下以ipmitool工具详细说明:
· ipmitool命令格式:ipmitool [interface] [parameter] <command>
· ipmitool命令举例:查询HDM 的传感器列表
¡ 基于KCS:ipmitool sensor list
¡ 基于LAN:ipmitool -H *.*.*.* -I lanplus -U <用户名> -P <密码> sensor list
– H:HDM 网口IP地址
– I:传输协议,lan:不加密,lanplus:加密
– U:HDM本地用户名
– P:HDM本地用户密码
– L:指定用户使用权限。对于user和operator用户需要使用。
HDM提供了基于HTTPS的Web可视化管理接口。
· 通过简单的界面操作快速完成设置和查询任务。
· 通过远程控制台可以对服务器进行OS启动全程监控、OS操作、以及光驱/软驱映射等。
可以在浏览器地址栏输入HDM的网口IP地址(IPv4或IPv6)或域名地址打开HDM Web的登录界面,输入账号登录到HDM Web。
HDM支持服务器通过RESTful API进行管理,实现简化服务器配置过程、查看服务器组件信息、监控服务器运行状况以及远程控制服务器等功能。
RESTful接口具有以下技术优点:
· 轻量:直接基于HTTP,不再需要任何别的消息协议。
· 面向资源:一目了然,具有自解释性。
· 数据描述简单:一般以xml,json做数据交换。
· 无状态:在调用一个接口(访问、操作资源)的时候,可以不用考虑上下文,不用考虑当前状态,极大的降低了复杂度。
· 简单、低耦合。
基于简单网络管理协议(以下简称SNMP)是管理进程(NMS)和代理进程(Agent)之间的通信协议。它规定了在网络环境中对设备进行监视和管理的标准化管理框架、通信的公共语言、相应的安全和访问控制机制。
SNMP具有以下技术优点:
· 基于TCP/IP互联网的标准协议,传输层协议一般采用UDP。
· 自动化网络管理。网络管理员可以利用SNMP平台在网络上的节点检索信息、修改信息、发现故障、完成故障诊断、进行容量规划和生成报告。
· 屏蔽不同设备的物理差异,实现对不同厂商产品的自动化管理。SNMP只提供最基本的功能集,使得管理任务与被管设备的物理特性和实际网络类型相对独立,从而实现对不同厂商设备的管理。
· 简单的请求—应答方式和主动通告方式相结合,并有超时和重传机制。
· 报文种类少,报文格式简单,方便解析,易于实现。
· SNMPv3版本提供了认证和加密安全机制,以及基于用户和视图的访问控制功能,增强了安全性。
¡ HDM提供了基于SNMP的编程接口,支持SNMP Get/Set/Trap操作,第三方管理软件通过调用SNMP接口可以方便地对服务器集成管理。SNMP代理支持V1/V2C/V3版本。
¡ SNMP代理提供接口查询系统健康状态、系统健康事件、硬件状态、内存和CPU型号、告警上报配置、功率统计数据、资产信息、散热管理、固件版本信息、网络管理等。
Redfish是一种基于HTTPs服务的管理标准,利用RESTful接口实现设备管理。每个HTTPs操作都以UTF-8编码的JSON格式(JSON是一种key-value对的数据格式)提交或返回一个资源或结果,就像Web应用程序向浏览器返回HTML一样。该技术具有降低开发复杂性,易于实施、易于使用而且提供了可扩展性优势,为设计灵活性预留了空间。目前我们利用Redfish管理接口可以实现包括用户管理、获取服务器信息、管理模块信息等常用HDM和BIOS配置。
Redfish=REST API+软件定义的服务器(数据模型),当前由标准组织DMTF(www.dmtf.org)负责维护。Redfish框架如图所示。
Redfish流程图如图所示,当客户端发出HTTP(s)请求后,会去Redis DB读取最新数据并返回读取结果。同时Redis DB通过SEL和IPMI实时更新数据库内容。
图3 Redfish流程图
图4 Redfish接口操作示例(查询电源信息)
图5 Redfish接口操作示例(查询用户信息)
HDM提供了基于HTTPS的Web可视化管理接口,可以实现通过简单的界面点击快速完成设置和查询任务。
在【整体概况】页面可以看到服务器整体的健康状态,其状态和服务器的健康指示灯保持一致。
整体健康状态由服务器相关部件健康状态决定,支持的部件有:CPU、DIMM、风扇、电源、温感、硬盘等。
点击页面上显示的故障部件的状态链接,可直接跳转到对应的传感器页面。
3D温度海洋用于显示服务器机箱中各组件温度传感器的分布图及数值,同时提供了实际物理结构图作为参考。温度海洋上的圆圈与表中可用的传感器相对应,将鼠标移到温度海洋上的圆圈上可查看传感器名称、状态、温度读数和阈值。温度海洋的颜色从绿色逐渐变为红色,绿色表示温度为0°C,红色表示温度较高。坐标含义如下:
X:传感器在X轴上的坐标信息。
Y:传感器在Y轴上的坐标信息。
Z:传感器所属的服务器信息,0表示该传感器属于当前服务器。
图7 温度传感器信息查询
HDM可以查看监控带内的CPU、内存、磁盘的资源占用率资源。使用本功能时需要在OS侧安装并运行FIST SMS(Server Management Service,运行在OS下的代理软件,当前支持的操作系统有:Redhat6.8 7.3以及Windows Server 2012 R2)。
当监控带内的CPU、内存、磁盘的占用率资源超过阈值时,系统会记录事件日志。
边带管理(共享网口)就是利用边带(NCSI Network Controller Sideband Interface)技术使管理系统与主机系统共用主机物理网口,通过一个网口就可以同时做管理操作和业务处理,简化组网,节省交换机端口;从安全考虑,利用VLAN技术将管理与业务划分在不同网段。
NCSI是基于物理总线RMII的带外管理总线协议。普通的网络管理总线是MDC/MDIO总线,这种管理总线需要额外的引脚作为物理总线,但是NCSI总线是与网络通信总线RMII复用总线,在RMII总线基础之上定义一个NCSI协议,这样就可以达到减少物理引脚的目的。
NC(Network Controller:网络控制器)在与对外通信上分为内部网络接口:Internal Host Interface,外部网络接口:External Network Interface,以及带外接口:Sideband Interface。其用途分别是:向外部网络发送数据,与HDM进行网络通信(包括NCSI协议)。HDM通过NCSI协议进行网络配置,网络配置成功之后,HDM就可以向NC发送正常的网络报文。从链路上看,NCSI报文与网络通信报文在物理链路上共用一个物理总线:RMII,该RMII物理总线连接的另外一端是HDM,那么这条总线在NC看来就是一个带外接口(Sideband Interface)。
图8 边带管理框图
从数据流程来看,HDM通过MAC向物理总线RMII发送一个网络报文,NC通过RMII接收到网络报文后,对网络报文进行解析。解析后,如果是NCSI报文(判断的条件是:ether type为0x88F8),则进行NCSI响应;如果是对外发送数据的网络报文(ether type为非0x88F8)则将数据转发到External Interface。
图9 边带管理数据流图
从协议层面上看,NCSI协议是一个网络层协议,其网络类型码为0x88F8。
图10 NCSI协议
HDM全面支持IPv6。专用管理网口和共享网口(NCSI)的物理通道都支持IPv6地址访问。
图11 HDM支持IPv6地址功能
图12 支持IPv6登录HDM Web
使用Bonding功能可以提高HDM接入的可靠性。切换为Bonding后,系统会将HDM共享网络接口和HDM专用网络接口作为一个逻辑上的网络接口使用,。切换后,Bonding接口将继承HDM专用网络接口的IP地址和MAC地址。HDM共享网络接口和HDM专用网络接口中的任意一个接口UP状态,管理员仍然能通过HDM Bonding网络接口的IP地址访问HDM。
图13 Bonding切换
图14 Bonding切换前后概览页面的网络配置
共享网口切换指的是切换HDM共享网口后,管理员只要重新接入切换后的共享网口即可访问HDM,该特性具有以下优点:
· 不用更改服务器在整网中的网络信息,实现平滑切换。
· 不需要重新配置切换后共享网口的网络信息(包括IP地址、VLAN等),提高维护效率。
图15 共享网口切换
网络时间协议NTP(Network Time Protocol)是TCP/IP协议族里的一个应用层协议,用于在一系列分布式时间服务器与客户端之间同步时钟。服务器的HDM支持配置服务器所在的时区,并通过手动或自动获取首选和备用NTP服务器(支持IPv4和IPv6),手动设置NTP服务器地址支持FQDN域名。
图16 NTP页面
HDM可以从多种时钟源获取时间信息,其时间同步的优先级如下:
主NTP服务器> 二级NTP服务器> DHCP Server兼任的NTP Server > 主机ME> BMC上的RTC;
DNS是一种用于TCP/IP应用程序的分布式数据库,提供域名与IP地址之间的转换服务。完整的域名由主机名和上级域名组合而成。HDM中,主机名可以手动配置,也可以根据服务器的SN号自动生成;上级域名可以手动配置,也可以通过DHCP自动获取。
HDM支持将共享网口和专用网口的IP地址与域名建立映射关系,并将该映射关系向网络中的IP DNS服务器进行注册。
注册方式分为nsupdate以及FQDN\主机名方式:nsupdate方式为客户端直接通过nsupdate命令更新DNS服务器的区文件;FQDN\主机名方式为DHCP服务器在确认客户端的网络地址分配后,将客户端的信息动态注册到DNS服务器。
用户后续可以直接使用便于记忆的、有意义的域名访问HDM。
图17 DNS注册流程
图18 IPv6 DNS解析
图19 通过域名访问HDM
当服务器部件发生故障或某些原因导致系统处于不正常的工作状态时, 系统能够根据不同类型及不同模块出现的故障产生告警信息,同时生成日志信息。若配置了网管系统,则该告警信息会通过SNMP( Simple Network Management Protocol) Trap协议向网管系统发送。若配置了邮件系统,则该告警信息会通过SMTP协议向外发送。
服务器产品的告警可分四个级别,按告警严重性分为:
· 正常(Info)
事件提示级别用于表示对系统不会产生影响的事件,例如正常的状态变化,告警事件解除。
· 一般告告警(Minor)
一般告警不会对系统产生大的影响,需要尽快采取相应的措施,防止故障升级。
· 严重告警(Major)
严重告警将会对系统产生较大的影响, 有可能中断部分系统的正常运行,导致业务中断。
· 致命告警(Critical)
致命告警可能会使单板下电,系统中断。需要马上采取相应的措施进行处理。
能够检测的故障信息如下:
· 处理器:能够检测CPU的CAT ERROR,自检错误,配置错误(包括CPU UPI errors,IOH UPI errors,CPU core errors,IOH core errors)。
· 内存:能够检测内存的可纠正、不可纠正错误、高温、Training错误。
· 电源:包括电源在位,AC/DC输入丢失,电源预告警,PSU自检失败等故障。
· 风扇:能够检测到风扇的在位,故障,降级故障。
· 存储:能够检测到硬盘在位、故障、预故障、关键阵列、故障阵列故障。
· 超温报警:包括对CPU、内存、进风口,电源,硬盘等部件进行超温报警。
· 主板和相关板卡电压故障。
HDM集成了智能硬件诊断系统(Smart Hardware Diagnosis,以下简称SHD),能够对服务器主要硬件发生的故障进行快速、精准的检测与诊断。如图所示,SHD通过收集服务器硬件发生故障时的基础数据,包括传感器、CPLD、寄存器、事件日志等,基于历史硬件故障诊断经验库,对硬件故障的发生原因进行分析定位,最终给出故障诊断结果报告。故障诊断结果报告的内容包括故障模块、故障时间、故障类型、现象描述、可能原因、故障判据以及处理措施。SHD可以根据今后出现的新故障不断扩展优化,增强服务器的硬件故障诊断功能。
SHD支持对服务器主要硬件的全面监控,提供了精准可靠的故障检测与诊断机制,可以检测和诊断的硬件故障包括:
· MCA故障(CPU、内存和PCIe故障)
· 电源故障(电流、电压、温度、电源风扇、IIC、均流)
· 主板故障(二次电源、风扇、网卡、电流、电压、温感)
· PCIe卡故障(网卡、RISER卡、NCSI通道)
· 阵列卡故障(RAID卡、线缆、扩展板、缓存、电池、硬盘)
MCA(Machine Check Architecture,以下简称MCA)故障诊断是SHD的重要组成部分,MCA故障诊断支持CPU、内存、PCIe故障的检测和诊断。SHD采用轮询检测机制对MCA故障进行监控和诊断,即SHD在轮询过程中检测到CATERR/MSMI信号后,能够通过PECI通道进行带外收集硬件故障现场的基础数据,主要是错误相关的Banks寄存器和CSRs寄存器。结合收集的故障现场基础数据,基于历史硬件故障诊断经验库,对硬件故障进行分析定位给出诊断报告。如图,从总体上展现了MCA故障诊断的流程。
图21 MCA故障诊断总体概览图
(1) CPU故障检测
CPU故障来源有两种,一种是CPU本身内部的故障,另一种是CPU外部部件(内存和PCIe设备)故障引起的。MCA故障诊断能够检测CPU内部主要模块的故障,包括:取指单元(IFU),数据缓存单元(DCU),数据传输缓冲单元(DTLB)等。MCA故障诊断能够分析出故障类型,在多个疑似故障源中进行综合分析,筛选定位到具体故障部件。常见的CPU故障类型有:
· 缓存不可纠正故障,包括数据读取错误、数据写入错误、数据预取错误
· 看门狗超时故障,3-strike timeout
· UPI不可纠正故障
· CPU内部电源控制模块故障
· CPU访存超时
(2) 内存故障检测
内存故障总体上可划分为可纠正内存故障和不可纠正内存故障。服务器系统一旦发生内存不可纠正故障将会对客户业务的运行造成严重影响。MCA故障诊断专注于内存不可纠正故障的检测与诊断,可以对收集故障记录模块记录的内存故障地址进行解析,在服务器系统搭载的大量内存条中识别出故障的内存条,精准定位到具体的CPU-Channel-DIMM。常见的内存不可纠正故障类型有:
· 访存地址/命令错误
· 内存读取/写入错误
· 内存缓存控制错误
· 内存超时错误
(3) PCIe故障检测
MCA故障诊断能够对收集故障记录模块记录的PCIe故障地址进行解析,在服务器系统诸多的PCIe设备中识别出故障的PCIe设备,精准定位到具体的CPU-Slot。常见的PCIe故障类型有:
· Received an Unsupported Request故障
· Malformed TLP故障
· Completer Abort故障
· Completion Timeout故障
· Poisoned TLP故障
· ACS Violation故障
· Flow Control Protocol Error故障
· Data Link Protocol Error故障
· Surprise Down Error故障
电源是服务器工作的动力来源,电源故障的检测和诊断是基本要求,SHD采用中断上报和轮询检测的机制对电源故障进行监控,能够支持11类共计24种电源故障,基本涵盖了电源的主要故障类型,实现电源故障的全面监控和诊断。
· 电源不在位故障;
· 电源输入电压故障,包括输入欠压告警和保护,机房输入掉电或输入电源线接触不良;
· 电源风扇故障;
· 电源入风口温度故障,温度过高告警和保护,温度过低告警和保护;
· 电源输出电压故障,包括输出电压过低告警和保护,输出电压过高告警和保护;
· 电源输出电流故障,输出电流过高告警和保护;
· 电源1Hz闪烁,不供电故障;
· 电源IIC通讯异常;
· 电源EEPROM信息错误,包括FRU信息不正确和非我司认证电源;
· 电源型号不匹配;
· 电源负载不均衡。
主板是连接服务器其他硬件的枢纽,SHD针对服务器不同机型进行个性化故障检测和诊断,最多能够支持70+种主板故障类型。
· 二次电源故障,涵盖了服务器各类二次电源模块,包括CPU和板卡电源模块等;
· 外部风扇不在位故障和PWM转速异常;
· 温度异常,包括整机、CPU和各类板卡温度异常;
· 电压和电流异常。
PCIe卡是对服务器功能的扩展,SHD主要针对网卡和RISER卡进行故障检测和诊断,根据机型差异最多能够支持40+种PCIe卡故障类型。
· 网卡故障,包括自研mLOM卡和25G自研FLOM卡的电源、温感和在位异常;
· RISER卡在位异常;
· NCSI通道切换异常。
SHD支持PMC和LSI阵列卡的故障检测和诊断,通过分析阵列卡上报的事件日志,能够支持100种阵列卡故障类型。
· RAID卡启动异常;
· 线缆异常;
· 内存异常;
· 电池异常;
· 硬盘异常;
· 掉电保护模块异常。
能够检测到硬盘在位、故障、预故障、关键阵列、故障阵列故障。
通过PBSI通道,SDS能够获取PMC卡相关日志信息,包括60+种硬盘故障。(两代RAID/HBA卡均支持)
通过MCTP(over i2c)通道,能够获取LSI卡相关日志信息,约200+条关于RAID卡、BBU、硬盘、逻辑盘、背板相关故障信息日志。
SHD(智能硬件诊断)模块,支持对PMC/LSI的RAID/HBA卡的日志信息进行诊断,诊断出相应的错误原因,并给出了相关处理措施。支持的模块有:RAID卡、连接线缆、BBU、存储介质。共计有100条故障判据。诊断结果信息在SD卡中的\dump\shd\init\xxxx_RAID目录下。
获取SAS/SATA HDD硬盘SMART信息。保存周期30天(1天1次)。
带外NVMe信息获取,包括剩余(擦写)寿命。
硬盘定位点灯。
RAID扣卡的串口日志保存。
SHD系统提供了一些辅助诊断功能,包括故障发生时的服务器系统截屏,BMC设备的串口日志,IPMI进程的调试日志,通过这些故障诊断辅助功能,能够更加清楚地知道故障发生时的现场情况。
HDM支持实时监测硬件和系统的故障状态,能够实时上报故障SEL日志,并通过SNMP Trap方式上报到远程接收服务器。通过HDM的一键收集功能,可以查看SDS日志中的/user/result.rst诊断报告文件获取硬件故障的详细信息。
虚拟KVM是指用户在客户端利用本地的视频、键盘、鼠标对远程的设备进行监视和控制,提供实时操作异地设备的管理方式。
图22 虚拟KVM
H5 KVM相对于KVM优势在于无需任何插件,通过浏览器https访问即可实现对服务器的远程管理。
图23 H5 KVM
HDM支持通过IP地址和账号密码来直接访问H5 KVM。
输入格式如下:http://ip_addr/viewer.html?u=user_name&p=user_passord。示例如下:
图24 H5 KVM的直接访问的示例
虚拟媒体即通过网络在服务器上以虚拟USB光盘驱动器和软盘驱动器的形式提供对本地媒体(光盘驱动器、软盘驱动器或光/软盘的镜像文件,硬盘文件夹)的远程访问方式;虚拟媒体数据支持AES 128 CBC算法加密传输。虚拟媒体的实现原理是将客户所在的本地主机的媒体设备通过网络虚拟为远端服务器主机的媒体设备。
支持的虚拟媒介有:
· DVD、CD光驱
· ISO、IMG文件
· 虚拟文件夹:将本地的文件夹挂载到服务器端。
· USB key
图25 虚拟文件夹实现效果
VNC(Virtual Network Computing,虚拟网络计算机)用于传送服务端的原始图像到客户端,该协议提供一种不用登录HDM即可访问控制服务器的方法,即用本地主机的显示器、输入设备远程控制服务器。
VNC系统由客户端,服务端和VNC协议组成。
· VNC服务端VNCServer:在HDM端运行,其作用是捕获并共享服务器屏幕,并且与系统运行状态无关。
· VNC客户端即VNCViewer(PC端本地应用程序):用于与服务器交互,远程连接运行VNCServer的计算机。第三方VNC客户端有RealVNC、TightVNC、NoVNC等。
HDM支持IPv4、IPv6 VNC会话,为用户提供更为灵活的KVM操作方式。
HDM同时最多支持2个VNC会话,且支持两种会话模式。
(1) 共享模式:支持打开2个VNC会话,2个VNC会话均有权限控制鼠标和键盘,可控制OS;
(2) 独占模式:当独占模式的会话连接时,如果存在共享模式的会话,该会话将被强制断开;独占模式的会话存在时,下一个会话的连接请求将被拒绝。
共享模式与独占模式由客户端指定。
VNC在线会话使能默认关闭。配置页面为:单击[安全/服务配置]菜单项,进入服务配置页面。
开启VNC服务。
通过VNC viewer建立VNC 会话;打开VNC viewer:输入<HDM_IP:非安全端口>,并输入VNC 密码打开VNC 会话。
(3) 对于IPv4地址:直接输入地址即可;
(4) 对于IPv6地址:需要加上[],即[IPv6]:port。
图26 建立IPv4非安全VNC会话
图27 建立IPv6非安全VNC会话
成功建立非安全会话后,可以在[安全/服务配置]查看到会话类型为VNC,IP地址为客户端IP,且支持IPv4和IPv6。
图28 查看会话
IPMI命令修改VNC密码。
FRU信息指整机或部件制造过程中写入到部件存储器件中的相关信息,包括:制造商,产品名称,部件号,序列号等信息。
资产信息管理的核心是采集部件的唯一编码,HDM支持采集服务器上相关部件的唯一编码,包括自研板卡和外购部件。
· 自研板卡从FRU中获取部件信息,包括唯一编码信息。
· 外购卡,HDM从BIOS或其它带外方法获取相关信息。
不同部件唯一编码信息获取方法不一样,下表列出了相关部件唯一编码信息的确定策略
部件名称 | 可获取唯一编码 |
CPU | PPIN |
DIMM | SN |
网卡 | Mac |
电源 | SN |
主板 | Board Serial Number |
GPU | SN |
NVMe | SN |
硬盘 | SN |
系统启动项用于配置服务器的下一次启动模式和启动设备,以及设置的有效期。
HDM支持风扇线性调速和更为精确的PID调速两种调速方法。
MS调速算法简单,直接根据温度以及xml配置文件来决定出风扇的转速。下图为示例的xml配置文件。
PID风扇调速通过调速参数配置XML文件中传感器调速参数以及传感器温度,实时计算出风扇转速。其优点是能够更加精准的进行风扇转速控制。
PID算法如下:
下图为PID算法调速效果仿真图。从中可以看到随着DTS温度的升高,风扇转速也会相应的增加,温度降低风扇转速也会相应的降低。
电源控制界面提供对服务器的电源控制方式,如图所示。
服务器电源控制方式包括:立即重启、强制关机、正常关机、开机、关机并重新开机。
· 立即重启:表示对服务器进行冷复位,即:HDM直接拉PCH使系统复位,绕过正常的操作系统关闭流程。
· 强制关机:表示对服务器进行关机,无需等待OS响应,绕过正常的操作系统关闭流程,效果相当于长按服务器面板上的电源按钮。
· 正常关机:表示对服务器进行安全关机,HDM向OS发送ACPI中断,若OS支持ACPI服务,则先走正常的操作系统关闭(将所有运行进程关闭)后下电,否则,只能等到超过下电超时时间后,HDM将系统强制关机;效果相当于短按服务器面板上的电源按钮。
· 开机:表示对服务器进行上电。
· 关机并重新开机:表示对服务器先安全关机再开机,即:先走正常的操作系统关闭流程并关机,若设置的安全关机超时时间内不能完成关机则强制关机,最后再开机。
· NMI:表示向OS触发一个NMI中断,以收集内核堆栈信息并输出到控制台,便于系统异常时定位。
现代数据中心一直面临的一项挑战是企业正在消耗大量的电源、空间和冷却成本。而随着能源需求以及能源和冷却成本的大幅度上涨,日益增长的可用能源的容量预计在未来几年里将跟不上需求的增长。对于当前的数据中心来说,最急需解决的问题就是通过技术创新实现节能降耗。在传统的数据中心中,客户为保证数据中心无间断运行,往往要耗费巨资来建设一套额外的电力基础设施。此外,IT管理员通常会以过度能源供应,来确保电力供应。HDM提供的功率封顶技术可以通过有效地对每一台服务器能耗的准确控制,避免了能源的过度供应,有效地将能源中过度供应的部分能源用于数据中心扩容。
功率封顶功能通过设置系统的功率预期上限,当系统功率超过此上限值后,引导特定动作发生,从而保证机箱整体功率的合理分配。
封顶失败进一步动作包括:
· 记录事件:封顶失败后在系统事件文件中记录一条日志,默认执行。
· 关机(可选):封顶失败后,系统将执行强制下电操作。
图30 电源配置-功率配置
在满足业务功耗前提下,将部分电源设置为热备用,提升电源功率转换效率。
在满足业务功耗情况下,将部分电源的输出电压降低0.3V,通过电压差抑制备用电源电流输出,由主用电源提供系统供电;使电源处于热备用状态,一旦有主用电源异常时,备用电源平滑切换为主用电源投入供电,不影响业务。
图31 主备配置
HDM可以提供准确的能耗监测并且能通过曲线提供统计,从而使管理员能够通过能耗监测装置深入了解实际电力及散热资源的使用情况。用户可以根据历史数据对服务器节能进行优化。
图32 查看历史功率
一键设置电源性能模式,节能优先或性能优先。满足不同客户或不同场景对服务器的性能、功耗、噪声等有不同需求。
图33 设置电源性能模式
通过调节CPU的最高工作频率(P-state)和空闲工作时间(T-state)可以降低系统能耗。支持多种调节等级,操作灵活,满足不同产品需求。
图34 设置节能
AC恢复配置用于配置服务器通电后系统的启动策略。包括:
· 总是开启:通电后,服务器系统会自动启动。
· 总是关闭:通电后,服务器系统保持关闭状态。
· 上一次电源状态:通电后,服务器系统会恢复到上次断电前的状态。服务器缺省处于此模式。
开机延迟:开机延迟时间。可以配置:0,15s,30s,45s,60s,以及随机(0~120s)。开机延迟可以用于服务器的错峰上电,降低机房开机过程中的瞬时功耗。
HDM支持存储控制卡的状态查看,并可以对LSI卡(9300 9310除外)存储卡进行创建逻辑盘操作。RAID带外配置管理依赖RAID控制器firmware的能力。带外配置原理如下图所示。
图35 带外配置原理
图36 硬盘信息查询
图37 逻辑盘配置页面
创建逻辑盘后,在RAID信息页面查看信息。点击<查看>按钮跳转到[系统信息/硬件信息]的存储页签查看更为详尽的信息。
图38 逻辑盘信息查询
图39 存储信息页面
在KVM界面可以开启截屏功能,截屏图像格式为JPEG格式,录像文件保存在本地PC(打开KVM的PC)。如图所示。
图40 KVM界面的截屏功能
在KVM界面可以开启录像功能,录像格式为AVI格式,录像文件保存在本地PC(打开KVM的PC)。如图所示。当用户出于安全或者其他需要,要将虚拟KVM操作过程记录下来时,可以通过启动屏幕录像功能来实现。屏幕录像功能启动后,虚拟KVM控制台会自动将屏幕上的所有显示和操作都记录到自定义视频格式文件中。录像文件在本地可以通过播放器来播放。
图41 KVM界面的视频录制
串口切换功能允许选择面板串口/SOL和内部主机相关部件连接,以对内部指定部件进行监控。
HDM提供系统串口重定向(SOL:Serial Over LAN)功能,即将原本只能从本地串口线输出的系统串口数据重定向到网络设备输出,并能接受远程网络设备的输入。如图所示原理,网管人员在远程通过网络终端就可以轻松的查看系统串口实时输出数据,并能对系统进行操作干预,跟在近端使用系统串口效果一样。
图42 SOL串口切换
通过IPMI命令可以配置本地的面板串口任意连接到相关部件串口,节省了服务器的面板空间。
HDM可以提供串口信息记录功能,该功能将部件的实时串口数据记录到内部存储介质中。当部件发生故障时,可以通过一键导出功能导出串口日志信息进行分析。
目前HDM支持对BIOS日志、RAID扣卡日志进行日志保存。
本功能用于收集服务器的日志信息、硬件信息、故障诊断信息。通过FIST可以解析事件日志和存储日志,也可以查看CSV格式日志,了解服务器运行状态。可以添加联系人信息,用于日志解析问题咨询,方便信息对接,提高运维工作效率。
图43 一键收集
图44 FIST健康管家解析SDS日志
操作日志包含审计日志、固件更新日志、硬件更新日志和配置日志。
· 审计日志记录访问HDM的操作信息,包括:通过浏览器登录HDM、启动远程控制台等信息。
· 固件更新日志记录固件更新的操作信息及操作结果。
· 硬件更新日志:记录硬件更新的操作信息及操作结果。
· 配置日志记录用户的配置操作及操作结果。
日志包含时间,主机名和详细信息描述。操作日志界面如图所示。
事件日志用于记录、查看服务器传感器产生的各种事件。事件按严重性分成如下4个等级:
· 通知:表示对系统不会产生影响的事件,例如正常的状态变化,告警事件解除。
· 次要:表示对系统不会产生大的影响,需要尽快采取相应的措施,防止故障升级。
· 重要:表示对系统产生较大的影响,有可能中断部分系统的正常运行,导致业务中断。
· 紧急:表示可能会使服务器下电,系统中断。需要马上采取相应的措施进行处理。
在事件日志页面可以通过传感器名称,事件等级,时间参数来快速筛选查询到所需要的事件日志。
图46 事件日志界面
HDM支持远程syslog服务器获取操作日志和事件日志。远程syslog服务器地址支持IPv4和IPv6格式。
图47 远程syslog服务器配置
HDM可设置将服务器产生的事件日志通过“电子邮件警报”发送给指定用户,帮助用户监控服务器的运行状态。SMTP服务器地址支持IPV4和IPV6地址。支持匿名/认证用户发送,告警信息最多支持发送给15个用户用于服务器监控。
图48 SMTP配置
针对Intel CPU,用户无需购买Intel专用调试器进入机房和服务器连接,远程即可对CPU进行JTAG调试,收集服务器的CPU、内存、PCIE、USB等部件的寄存器信息,以协助定位到底层硬件疑难问题。(仅1、2路的Skylake机型支持)
图49 Remote XDP原理
使用介绍:
(1) 开启HDM的RemoteXDP服务。
(2) 在远程PC上安装Intel提供的openIPC。
(3) 安装python,下载Intel提供的Cscripts。
(4) 打开CMD窗口,在cscripts目录下执行如下图命令即可完成调试环境的建立。
诊断面板可以直接的显示出服务器异常,并能直接指示到具体故障设备,其故障显示与HDM的事件日志记录同步。
图50 诊断面板示意图
面板功能介绍:
· 颜色指示:橙灯/红灯则表示对应组件有故障告警,绿灯表示组件状态正常。
· 故障数码管:一般用于指示具体是哪个部件。
· 支持设备:支持POST/TEMP/CAP/BRD/CPU/DIMM/HDD/PCIE/PSU/RAID/FAN/VRD大类的故障。
· 多种故障:若多个组件同时出现故障时,诊断面板以4秒为周期循环显示全部故障。
故障组件信息说明:
· POST:表示系统POST期间有错误发生,POST异常中止。
· TEMP:表示对应组件温度超过设定阈值。
· CAP:表示系统功率超出当设置的功率封顶限额。
· BRD:表示设备上对应的SMC/PDB/Node/mLOM出现故障。
· CPU:表示对应的CPU上出现错误告警。
· DIMM:表示对应的通道上内存条出现告警。
· HDD:表示对应背板上硬盘出现错误告警。
· PCIE:表示对应的槽位上PCIE卡出现错误告警。
· PSU:表示对应的哪个电源模块出现错误告警。
· RAID:表示相应的RAID卡插槽上RAID卡状态提示。
· FAN:表示对应的风扇出现错误告警。
· VRD:表示对应的SMC/PDB/CPU等模块出现电源错误告警。
用户可以将所有被管理服务器加入一个统一的管理域并使用域名来访问被管服务器的HDM。
LDAP(Lightweight Directory Access Protocol)是一个访问在线目录服务的协议。LDAP目录中可以存储例如电子邮件地址、邮件路由信息等各种类型的数据,为用户提供更集中、更便捷的查询。
按照如图所示原理,启用HDM的目录服务,可以将所有HDM的用户管理,权限分配,有效期管理都集中到目录服务器上,避免大量的重复性用户配置任务,提高管理效率。另外将用户集中到目录服务器上,也能大大提高HDM智能管理系统的安全性。
图51 LDAP服务器原理图
LDAP标准优点:
· 可扩展性:可以在所有HDM上同时动态支持LDAP服务器上新增账户的管理。
· 安全性:用户密码策略都在LDAP服务器上实施。
· 实时性:LDAP服务器上账户的任何更新都将立即应用到所有的HDM。
· 高效性:可以将所有HDM智能管理系统的用户管理,权限分配,有效期管理都集中到目录服务器上,避免大量的重复性用户配置任务,提高管理效率。
支持性:支持SSL加密机制。
基于安全考虑,HDM提供防火墙特性以实现基于场景的登录管理。HDM可以从时间、IP地址和IP版本(IPV4/IPV6)、MAC、端口、协议(TCP/UDP)五个维度将服务器管理接口访问控制在最小范围;目前该特性适用于WEB、SSH、SNMP V1/V2C/V3、IPMI LAN接口的登录限制。
由用户根据需要设置登录规则的白名单,登录时只要匹配上任意一条登录规则,即可登录,否则拒绝登录;登录规则可应用于所有本地用户和LDAP用户组。
图52 高级设置
图53 阻止指定IP地址登录
账号安全包括:密码复杂度检查、密码有效期、禁用历史密码重复次数、登录失败锁定、密码锁定时长,提示修改初始密码。在“配置->用户配置”的“高级设置”里可配置。如图所示。
· 密码复杂度检查:开启该功能后,所有用户的密码设置需符合以下要求,否则密码设置无法通过检查。
¡ 密码长度为8~16个字符,仅支持字母、数字、空格和特殊字符`~!@#$%^&*()_+-=[]\{}|;':",./<>?,区分大小写;
¡ 至少包含大写字母、小写字母和数字中的两种字符;
¡ 至少包含一个空格或特殊字符;
¡ 不能与用户名或用户名的倒序相同;
¡ 需符合“禁用历史密码”要求。
· 密码有效期:用户密码的使用期限,临近使用期限前,HDM会提醒用户更换密码。默认管理员不受密码有效期配置影响。
· 禁用历史密码:用户修改密码时,禁止使用设置次数内的历史密码。
· 登录失败锁定:用户登录失败的次数达到设定的次数后,系统会锁定该用户的登录。
· 登录失败锁定时长:用户由于登录失败达到登录失败锁定次数后,被系统锁定的时长。用户被锁定后,在失败锁定时长内不能登录HDM。
SSL证书管理包括上传SSL、生成SSL、查看SSL。
SSL证书信息包括:使用者、颁布者、有效时间、序列号等信息。
HDM的SOC芯片支持硬件安全加速模块,用来加强HDM的安全相关功能。主要应用在认证、数据加解密等安全应用中。实现了AES、DES、3DES、RC4、MD5、SHA1、SHA224、SHA256、HMAC-MD5、HMAC-SHA1、HMAC-SHA224和HMAC-SHA256算法。
为了满足客户的业务和安全需要,HDM提供开关来控制是否提供服务端口。HDM支持修改的服务为:CD-Media、FD-Media、HD-Media、IPMI、KVM、Remote_XDP、SNMP、SSH、Telnet和Web,如图所示。
图55 HDM服务配置
图56 SNMP trap配置界面
随着客户对安全的重视,不同客户对管理权限的需求各异,不仅需要支持管理员、操作员和普通用户三个角色,还需要定义不同功能的权限。所以,HDM还增加了KVM、VMedia和SNMP的权限分配。权限分配如图所示。
HDM可管理的固件包括:
· 支持查询HDM、BIOS、CPLD固件版本;
· 支持不断电不中断业务升级HDM固件版本;
· 支持固件升级,且升级时HDM、BIOS、CPLD固件都已经进行过签名,确保镜像是完整的;
· 支持双镜像切换。
为了提升系统可靠性,HDM使用了固件双镜像备份技术。当在运行过程中出现flash误操作或者存储块损坏时,可以切换到备份镜像运行。
图58 固件双镜像
支持对HDM、BIOS、CPLD固件升级。从兼容性考虑,建议用户将HDM主备镜像更新到同一个版本。
图59 固件升级页面(支持HDM、BIOS、CPLD固件升级)
HDM固件升级时支持两种生效方式(手动和自动),BIOS固件升级支持三种生效方式(手动、自动和设置重启时间),且支持HDM、BIOS升级后的配置保留。
图60 固件升级页面
当BIOS升级选择“配置保留”和“配置覆盖时”,HDM仅上传BIOS的固件文件到SD卡,后续主机重启时,BIOS会通过HDM从SD卡中获取固件文件,自行升级固件,以实现相关的配置策略。
配置导入导出就是指把HDM、BIOS、RAID的所有配置能以配置文件的方式导出和导入,实现管理员可以轻松的远程配置服务器。
配置文件导入导出具有以下技术优势:
· 通过HDM的配置导入导出功能实现带外批量配置HDM、BIOS、 RAID三大模块的配置选项,覆盖选项全。
· 配置可阅读、可编辑、可保存。可并行配置多台服务器。
· 操作便捷,灵活使用将大幅提升管理运维效率。
· 配置导入速度快:配置单个文件仅需2分钟,HDM+BIOS+RAID全配置仅需6分钟。
· 可配置参数多:其中HDM支持100+选项、BIOS支持1000+选项、支持修改RAID级别覆盖0/1/5/6/10。
图61 配置文件导入导出页面
配置文件支持如下使用场景:
· 导出配置文件,完成修改再导入 = 批量修改设置选项。
· 配置文件在同型号服务器上通用,即针对同一类型机器快速完成大规模设备的配置和部署。
· 更换主板或者恢复出厂默认设置后,可以快捷的恢复自定义设置。
图62 配置文件导入导出使用场景示意图