02-智能调优最佳实践
本章节下载: 02-智能调优最佳实践 (1.62 MB)
H3C智能管理中枢
智能调优最佳实践
Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
HDM是H3C服务器设备上的BMC,是UniServer系列服务器的板级固件,可满足从数据中心到个体客户的计算以及存储的应用需求。HDM2是HDM的升级版本,以智能部署、智能调优、智能节能、智能诊断、智能退役的五维智能为数据中心服务器提供全生命周期智能管理,应用于HPC、AI、数据库、缓存服务器、文件服务器、存储服务器等众多应用场景,运行于现网百万级别的服务器设备上,在百行百业的应用场景中得到实际验证。为了描述方便,以下内容HDM均表示HDM2。
HDM支持不同类型的链路通道,如I2C、I3C、PECI、PCIe、USB等通道方式,以满足不同部件如存储、GPU、NIC、CPU、内存等带外管理要求。同时提供了丰富的用户接口,如基于Web界面的用户接口、命令行、IPMI接口、Redfish、SNMP接口,所有用户接口都采用了认证机制和高度安全的加密算法,保证接入和传输的安全性。
图1-1 HDM简介
随着互联网技术的快速发展,企业对计算、网络的需求也越来越大。为了保证整个数据系统可靠、稳定的运行,相关企业对运维系统的要求越来越高,运维成本也在随之逐步增加。
UniSystem是H3C公司自主研发的运维管理软件,能够有效地帮助企业提升数据中心级别的运维能力。企业用户可根据实际需求借助UniSystem对数据中心内的设备进行灵活的监控以及配置部署,从而打造专属的运维环境。UniSystem能有效帮助企业提高运维效率,降低运维成本。
UniSystem可以部署在虚拟机上,作为服务器的运维管理软件。同时,UniSystem可作为H3C UniServer B16000 AE模块的出厂内置软件,帮助用户对机箱服务器进行配置和管理。在AE的使用场景中,UniSystem不仅可以管理AE所在的本地机箱,还能够管理网络中的其他机箱服务器、机架服务器、交换机设备,适用于混合IT架构。
图1-2 UniSystem简介
传统的服务器在性能方面面临以下问题:
· 管理员需要手动调整服务器的性能参数,无法实时结合不同的应用场景及实际工作负载情况选择合适的配置参数,在不同的服务器及BIOS重启后都需要再次进行配置,存在过程繁琐、调配性能不佳、难以管理和维护等诸多问题。
· 系统无法实时监控及预测CPU及内存的使用情况,可能会导致资源分配不合理,性能出现瓶颈或资源利用不充分等情况。
· 系统无法监控和预测硬盘容量的使用情况,无法提前备盘或更换容量已满的硬盘,可能会导致存储空间不足的情况发生,影响数据的正常存储和访问功能。
为解决上述问题,智能调优方案应运而生,通过智能能效、性能顾问和监控告警等功能,实现对服务器性能参数的实时调整和优化,同时监控和预测资源的使用情况,提高资源利用效率和系统的稳定性。智能调优的应用将为管理员带来更便捷的配置和管理体验,提升服务器性能和资源利用效率,从而满足不同应用场景下的需求。
智能调优方案架构如图2-1所示,方案架构基于HDM、UniSystem、FIST SMS和BIOS等组件和功能,通过收集和分析服务器的性能数据,实现对服务器资源的实时监控和调优。通过升级BIOS和调整配置,优化服务器的性能和稳定性,提升应用的性能和用户体验。主体上为UniSystem结合HDM实现对服务器智能调优。
· UniSystem:作为服务器的管理和监控技术,与FIST SMS进行集成,支持获取服务器的性能信息。通过UniSystem的性能顾问功能,可以实时查看服务器的性能指标,并根据工作负载匹配推荐调整的BIOS配置
· FIST SMS(Server Management System):作为智能调优的核心管理系统,负责收集和分析服务器的性能数据,包括CPU利用率、内存利用率、磁盘利用率、网络吞吐量等。通过与HDM和BIOS的集成,实现对服务器资源的实时监控和调优。
· HDM(H3C Device Manager):作为服务器的硬件设备管理器,与FIST SMS进行集成,支持获取服务器的系统资源信息,如CPU、内存、磁盘的使用情况。通过HDM的系统资源监控功能,可以查看实时的资源利用情况,为智能调优提供数据支持。
· BIOS(Basic Input/Output System):作为服务器的固件,支持通过FIST SMS或HDM进行升级。在智能调优中,可以通过HDM的性能模板配置和性能调优功能更改BIOS的配置,以优化服务器的性能和稳定性。
智能调优的方案优势如下:
· 智能调优方案可以帮助简化主机配置下发流程,使运维人员无需关心各配置项的功能,只需根据应用场景选择相关配置模板进行下发即可完成主机的设置。这样可以大大简化配置过程,提高配置的准确性和一致性。
· 智能调优方案基于性能参数和设备环境,智能推荐最佳配置。通过基于最佳实践和经验规则的算法,系统可以根据特性场景生成适合的配置建议,使服务器始终处于最优状态,充分发挥其性能。这样可以提高服务器的性能和效率,满足特定场景下的需求。
· 智能调优方案的配置模板和推荐配置遵循标准的配置规范,确保配置的一致性和合规性。这有助于减少人为错误和配置漏洞的发生,提高系统的安全性和稳定性。
· 基于设备环境的运行参数,根据最佳实践和经验规则,生成准确的配置建议,使服务器始终处于最优状态,充分发挥服务器的性能。
· 智能调优方案还可以进行资源规划和优化。通过CPU、内存使用率预测、整机功耗预测以及硬盘容量预测等功能,运维人员可以提前了解设备环境的资源消耗情况,并做出相应的资源规划和优化决策。这有助于避免资源瓶颈和不足的问题,提高资源利用效率和系统的稳定性。
应用场景配置模板是一种用于调整BIOS设置以适应服务器预期应用的配置选项集合。HDM提供了10余种配置模板,用户可以根据不同的应用场景选择最适合自身需求的BIOS设置。这些配置模板包含了各种参数和选项,可以帮助用户优化服务器性能、提高能效、降低延迟等。通过选择合适的配置模板,用户可以快速部署适合自身应用需求的BIOS设置,从而提升服务器的整体性能和稳定性。无论是高性能计算、低延迟应用、虚拟化环境还是通用计算等不同的应用场景,都可以通过应用场景配置模板来实现最佳的BIOS设置。这些配置模板是根据实际应用需求和最佳实践设计的,可以为用户提供参考和指导,帮助他们更好地配置和管理服务器的BIOS设置。
HDM提供如下应用场景配置模板供用户配置使用,以此来帮助用户使用基于工作负载的已知调整配置模板对BIOS进行设置,将工作负载配置模板设置与实际部署的工作负载相匹配时,性能可高于仅仅直接使用BIOS默认值。
· General Power Efficient Compute(通用节能模式)
通用节能模式模板,是一套对大部分应用程序工作负载最常用的设置,侧重于对节能方面的要求。CPU核可以进入节能状态,允许处理器芯片进行睡眠状态,关闭虚拟化配置,是通用的节能配置。
· General Peak Frequency Compute(通用效能模式)
通用效能模式模板,适用于需要处理器或内存支持工作负载,对单核可以实现最大频率。关闭节能相关设置,CPU所有核保持C0/C1活跃状态,关闭虚拟化配置,是一套性能优先的配置。
· Decision support(决策支持模式)
决策支持模式适用于需要操作或访问数据库的应用场景。
· Advanced Reliability Mode(高可靠性模式)
高可靠性模式可以提升可维护性的手段,采取性能策略,减少因唤醒而产生的等待时间,发生错误时,减少系统应对错误的响应处理时间。建议使用X4的内存并开启ADDDC Sparing功能,配置X8颗粒内存时,不支持ADDDC功能。
· General Throughput Compute(均衡吞吐模式)
均衡吞吐模式适用于需要持续最大工作负载吞吐量的场景,处理器能够在最大利用率期间跨所有可用内核执行持续性工作,开启SNC后,改善了到LLC的平均延迟,某些工作负载通过NUMA(Non Uniform Memory Access,非统一内存访问架构)方式访问时,性能会有所提升,可以达到最佳吞吐量。
· High Performance Compute(高性能计算模式)
高性能计算模式一般用于集群环境,每个节点以最大利用率运行,以解决大规模的工作负载。服务器不使用虚拟化环境时,关闭虚拟化IO支持,避免影响性能,关闭节能相关设置,适用于高性能的配置场景。
· Virtualization-Power Efficient(虚拟化节能模式)
虚拟化节能模式用于虚拟化环境,保证启用所有可用的虚拟化选项,并允许处理器芯片进入睡眠状态,是一套节能优先的虚拟化环境配置。
· Virtualization–Performance(虚拟化性能模式)
虚拟化性能模式是虚拟化环境中,可以提供最大性能的配置。关闭节能相关设置,确保所有可用的虚拟化选项都已启用,以提供最大性能,虚拟节点以最大利用率运行。
· I/O throughput(IO吞吐模式)
IO吞吐模式适用于提升I/O设备和内存之间吞吐量的应用场景。
· Graphic Processing(图形处理模式)
图形处理模式适用于在使用图形处理单元(GPU)的服务器上配置。GPU通常依赖于I/O和内存之间的最大带宽。禁用了对I/O和内存之间的链路有影响的电源管理功能。对等通信也至关重要,因此也禁用了虚拟化。
· Low Latency(低延迟模式)
低延迟模式适用于需要计算延迟时间最小的应用场景。为了减少总体计算延迟,将以牺牲最大运行速度和吞吐量为代价,关闭了可能导致计算延迟的电源管理和其它管理功能。
· Transactional Application Processing(事务性应用程序处理模式)
事务性应用程序处理模式用于比如数据库后端的应用程序业务处理环境中,可以平衡管理峰值频率和吞吐量要求。
· Fixed turbo frequency(固定至睿频频率)
固定至睿频频率模式适用于锁定至睿频频率的应用场景。该模板主要通过带外方式实现,操作系统不参与频率的调节。
· Custom(自定义模式)
自定义模式将使用系统侧BIOS的默认配置,用户可以根据自身需求对选项设置进行修改。
性能调优功能是为了解决将服务器资源利用率映射到BIOS调整设置以提高工作负载性能这一问题而设计的。通过监视多项重要的服务器性能指标,性能顾问能够实时获取工作负载的匹配情况,并为用户提供推荐的BIOS设置调整。这些推荐调整是基于工作负载运行时所使用的实际服务器资源进行分析和计算的。性能顾问采用了一种多阶段的方法,在工作负载运行时分析系统行为。首先,性能顾问通过分析性能监视指标,将工作负载映射到一组使用情况或行为特征报告。这些特征报告可能包含一些简单但重要的指标,例如内存利用率高。这些特征报告可以作为定位可能存在的资源使用瓶颈的起点,帮助用户了解工作负载的特征。然后,性能顾问通过对这些特征报告的分析,推荐可能会产生更理想效果的BIOS更改。通过性能顾问,用户可以根据工作负载的特征,了解推荐的配置,并进行相应的调整。此外,HDM还提供了性能配置功能,让用户可以进一步自定义调整设置,以满足特定的需求。通过性能顾问和性能配置功能,用户可以更直观地了解工作负载的特征,并根据推荐的配置进行调整,从而提高工作负载的性能。
通过使用holt-winter时序算法,UniSystem可以对CPU和内存的使用率进行预测。这一功能为用户提供了对未来CPU和内存使用情况的参考,帮助用户做出有计划的决策和任务安排。用户可以根据预测结果,提前做好资源调配和扩容准备,以应对未来可能的需求增长。这样,用户可以更加高效地管理和优化服务器资源,提升系统的性能和稳定性。
用户可以利用该功能查看数据中心视图、机房视图和机柜视图中设备的功耗统计、空间使用统计、耗电量TOP5和U位占有率TOP5等信息。通过智能预测算法,用户可以获取不同维度的功耗预测,包括单个机柜、整个机房和整个数据中心的功耗。这一"能效统计"功能有助于用户全面了解机房资源的利用情况,从而更好地进行资源管理和分配。通过预测功耗,用户可以提前做出合理的决策,优化数据中心的能效管理。
为了满足客户的需求,HDM提供了逻辑盘使用容量预测及预告警功能。通过使用holt-winter时序预测算法,该功能可以对当前系统逻辑盘的使用容量进行准确预测。预测的时间范围支持7到21天,帮助用户提前做好备货和合理的物料管理。这样,客户可以更好地计划变更和硬盘增容,争取更多的时间来做出决策。这一功能的引入,使得系统管理更加高效和可靠。
表3-1 HDM管理软件功能授权
软件功能 |
启用特性 |
无License时,支持情况 |
注册License后,支持情况 |
版本信息 |
License安装方式 |
临时授权启用时间 |
正式授权启用时间 |
Intel机型 |
AMD机型 |
智能诊断 |
内存故障预测 |
不支持 |
完全支持 |
HDM2-1.54 |
本地安装 |
授权码首次激活时启用 |
授权码首次激活时启用 |
支持 |
暂不支持 |
智能调优 |
性能顾问 |
不支持 |
完全支持 |
HDM2-1.55 |
本地安装 |
授权码首次激活时启用 |
授权码首次激活时启用 |
支持 |
暂不支持 |
表3-2 软件版本要求
软件功能 |
启用特性 |
UniSystem |
2.59及后续版本 |
FIST SMS |
2.59及后续版本 |
HDM |
HDM2-1.54及后续版本 |
iFIST |
1.59及后续版本 |
表3-3 操作系统要求
软件功能 |
启用特性 |
Linux |
Redhat 8.6 |
Redhat 9.0 |
|
Windows |
Windows 2019 |
Windows 2022 |
如使用TAR安装包安装UniSystem,推荐的硬件配置如表3-4所示。
CPU架构 |
CPU内核 |
内存 |
所需磁盘空间 |
网卡 |
X86 |
4核及以上 |
8GB及以上 |
100GB及以上 |
一张及以上 |
随管理设备数量增加需要提升配置。
如使用虚拟机文件安装UniSystem,对硬件配置的要求如表3-5所示。
CPU内核 |
内存 |
所需磁盘空间 |
网卡 |
8核及以上 |
32GB及以上 |
500GB及以上 |
一张及以上 |
UniSystem服务端的软件配置需求如表3-6所示。
软件配置需求 |
备注 |
|
||
操作系统 |
Linux |
CentOS 7.5(64 bit) |
仅支持64位操作系统 |
|
Windows |
Microsoft Windows 7 (64 bit) |
|||
Microsoft Windows 10 (64 bit) |
||||
Microsoft Windows 2012 R2 (64 bit) |
||||
VMware ESXi |
VMware ESXi 6.5/6.7 |
仅支持.ova安装 |
||
软件 |
OpenJDK 1.8版本(64 bit) |
- |
|
当用户需要在服务器上线并运行新业务时,传统方式需要运维人员根据业务场景手动调整主机的各项配置参数,以适应业务的需求。此外,在业务运行过程中,运维人员需要定期跟踪并检查服务器的性能指标,并根据经验调整和规划功耗模式、负载、资源分配等策略。智能调优的出现旨在提高服务器的性能、可用性和效率,以降低成本,并提升用户体验。通过智能调优系统,服务器管理和运维流程更加自动化、智能化和高效化,实现最优化的资源分配、故障预防和能效优化。智能调优在服务器业务运行的运维场景中发挥着重要作用,本套最佳实践以一个运维场景为例,呈现智能调优如何协助运维人员完成服务器的运维工作。
图4-1 智能调优流程
组网规划如图4-2所示。
网络管理员应对待管理设备的网络参数进行规划,如表4-1所示。
参数 |
说明 |
待管设备IP地址 |
服务器的IP地址 |
协议 |
支持HTTP和HTTPS协议 |
端口 |
HTTP默认端口为80,HTTPS默认端口为443 |
用户名 |
缺省用户名admin |
密码 |
缺省密码Password@_ |
软件 |
版本 |
描述 |
机架服务器 |
Microsoft Windows Server 2022(64位) |
待安装操作系统类型 |
HDM2 |
缺省版本:HDM2 1.54 |
服务器HDM2版本 |
BIOS |
缺省版本:BIOS-6.00.23 |
服务器BIOS版本 |
软件 |
版本 |
描述 |
Windows |
Microsoft Windows Server 2022(64位) |
待安装操作系统类型 |
UniSystem |
UniSystem-2.59 |
登录IP地址192.168.0.2/24 |
软件 |
OpenJDK 1.8版本(64 bit) |
- |
部署流程:
(1) HDM2安装License
(2) 安装和启动FIST SMS(OS)
(3) HDM2性能模板配置
(4) HDM2性能调优
(5) HDM2硬盘容量预测
(6) UniSystem整机功耗预测
(7) UniSystem CPU、内存使用率预测
一般的,对于客户已选择使用License的设备,在出厂时已经统一进行License激活与授权。如果客户需要自己单独购买License,详细的激活与授权流程请参看《H3C服务器 HDM License使用指南》。
(1) 获取FIST SMS安装包:访问H3C官网,进入产品支持与服务/软件下载/服务器页面,选择相应的产品名称,下载FIST SMS安装包。
(2) 将FIST SMS安装包拷贝至被管理服务器的待安装目录下。
(3) 解压FIST SMS安装包:将FIST SMS安装包解压到待安装目录下。
(4) 启动FIST SMS:
¡ 直接启动:双击FIST SMS的可执行文件,直接启动FIST SMS。
请注意,如果操作系统重启,FIST SMS将停止运行,需要再次启动。
¡ 后台注册并启动
- 打开InstallApp-NT.bat文件。
- 进行FIST SMS的后台注册并启动。
推荐使用后台注册并启动FIST SMS。这样,即使操作系统重启,FIST SMS仍然可以正常运行。
(5) 确认FIST SMS是否成功启动:
¡ 使用快捷键WIN+R,打开Windows操作系统的运行对话框。
¡ 输入"services.msc",点击确定按钮或回车。
¡ 在服务列表中,确认FIST SMS的运行状态。
请注意,为了安全起见,建议在操作系统中不要同时运行FIST SMS和FIST服务端。
以上是安装和启动FIST SMS的流程。详细操作步骤和更多信息,请参考《H3C服务器 FIST SMS用户指南》中的相关章节。
(1) 打开Chrome浏览器,在地址栏中输入HDM管理IP地址,进入HDM Web登录界面,如图4-3所示。
图4-3 HDM Web登录界面
(2) (可选)单击“Chinese”或“English”切换HDM界面语言。HDM支持简体中文和英语两种界面语言。
(3) 在登录框中输入用户名和密码(包括本地用户和域用户)后,单击<登录>按钮,进入HDM Web界面首页,如图4-4所示。
(4) 单击[智能能效/性能配置]菜单项,进入性能配置页面,如图4-5所示。
(5) 查看BIOS当前的应用场景配置模板。
(6) 选择应用场景配置模板。
(7) 单击<保存>按钮,页面提示保存成功或保存失败。
(1) 单击[智能能效/性能顾问]菜单项,选择“专家巡优”页签,进入专家巡优页面,如图4-6所示。
(2) 查看不同时间段下的工作负载特性。
(3) 单击性能调整栏下的“时间10分钟”、“时间1小时”、“时间1天”,查看不同时间段下性能调整选项的当前设置与推荐设置,如图4-7所示。
图4-7 “时间1天”下的设置与推荐配置
(4) 单击性能调整栏下的<高级设置>按钮,弹出性能调整高级设置对话框,如图4-8所示。
(5) 在对话框中对各调整选项进行设置,所有的推荐设置已标识“(推荐)”。
(6) 单击<确定>按钮,完成操作。
单击[运维诊断/智能监控]菜单项,进入硬盘页面,如图4-9所示,页面根据FIST SMS状态显示不同信息。
· FIST SMS处于“不在位”时,无数据展示。
· FIST SMS处于“在位”时,可进行如下操作:
a. 单击<高级设置>按钮,设置智能预警功能状态、智能预警上报功能状态、预测天数和告警阈值,如图4-10所示。
b. 单击<确定>按钮,保存设置。
c. 在“分区选择”后的下拉框中选择硬盘分区,查看对应硬盘分区的容量预测曲线图,如图4-11所示。
(1) 如图4-12所示,打开UniSystem客户端浏览器,在地址栏输入http://UniSystem ip address:http port或https://UniSystem ip address:https port,按下回车键进入UniSystem登录界面。
(2) 在登录界面输入UniSystem用户名和密码,单击<登录>按钮,进入UniSystem管理首页。
(3) 单击[菜单/能效管理与预测/机柜智能功耗管理]菜单项,进入机柜智能功耗管理页面,如图4-13所示。
(4) 勾选相应的机柜,单击<设置功率封顶参数>按钮,在弹出的对话框中设置参数信息,如图4-14所示,单击<确定>按钮,完成操作。
(1) 单击[菜单/能效管理与预测/能效分析]菜单项,进入高级设置页面,如图4-15所示。
(2) 服务器使用率分析选择“启用”,阈值设置可选择CPU、GPU和内存,输入空闲服务器和低载服务器的CPU利用率不高于(%)、GPU利用率不高于(%)、内存利用率不高于(%)和持续时间(天)等参数。
(3) 单击<保存>按钮,保存设置信息。
传统服务器配置流程复杂,通过调节各参数适应各业务场景的过程需要花费更多的时间和精力,或需要专业的培训或具备专业的知识来完成配置过程。智能调优方案简化调优流程,帮助用户快速完成配置更换,提升了管理效率。
· 简化调优流程:智能调优方案通过性能模板设置和性能调优根据实时获取工作负载的匹配情况推荐的配置,一键配置并调优服务器,简化服务器的调优流程。用户只需按照界面提示进行操作,无需进行繁琐的手动配置,大大提高了部署的效率和便捷性。
· 快速配置更换:智能调优方案支持快速配置更换服务器的功能。当需要更换服务器配置时,用户可以通过智能调优方案提供的一键配置更换功能,快速完成服务器配置的更换,更智能的场景适配方案和便捷的操作步骤,提升用户的体验和满意度。
复杂的服务器配置过程可能导致配置错误的风险增加,人工输入各项数据时可能会产生人为错误,给业务带来风险和不确定性。智能调优方案下的配置模板和推荐配置遵循标准的配置规范,确保配置的一致性和合规性。这有助于减少人为错误和配置漏洞的发生,提高系统的安全性和稳定性。
传统服务器受限于软件和硬件的能力,无法了解机房资源的利用率,也无法实时监控各部件的使用情况,浪费部分资源的同时提高了部分运维成本。智能调优方案通过调整参数优化服务器性能,提高资源利用率,预测功耗和监控资源使用情况,帮助管理者进行资源规划,降低运维成本。
· 智能调优方案通过调整子NUMA群集、非内核频率缩放等参数,客户可以根据不同的工作负载特性进行性能调整,优化资源利用,提高服务器的整体利用率,从而提升业务处理效率。
· 智能调优方案预测服务器的整机功耗,有助于用户全面了解机房资源的利用情况,从而更好地进行资源管理和分配。通过预测功耗,用户可以提前做出合理的决策,优化数据中心的能效管理。
· 智能调优方案可以实时监控和预测CPU、内存和硬盘的使用情况,帮助管理员进行资源规划和优化。通过合理分配和调整资源,可以避免资源瓶颈和不足的问题,提高资源利用效率,降低运维成本。
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!