手册下载
H3C UIS超融合管理平台 巡检配置指导-5W100-整本手册.pdf (12.90 MB)
H3C UIS超融合管理平台
巡检配置指导
资料版本:5W100-20230206
Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
日常巡检的目的是减少系统隐患,确保系统能够长期安全、稳定、可靠地运行。本手册的目标读者为运维工程师,主要描述UIS超融合产品巡检项及操作步骤。
· 系统管理员应妥善保管好管理级密码,并定期修改。
· 严格控制不同用户角色的使用权限,确保权限最小化。
· 定期备份系统数据。
· 数据的修改应授权、受控进行。
· 维护人员在修改数据前必须进行数据备份,并对修改的内容进行记录。
· 维护人员应对重大操作(如主备倒换、复位系统等)做好记录,并在操作前仔细确认操作的可行性,进行相应的数据备份,做好应急恢复和安全措施。
· 对设备硬件进行操作前应佩戴防静电腕带,并确保防静电腕带可靠接地。
· 替换下来的硬件部件应装入防静电袋妥善保管。
· 维护人员应充分重视例行维护的重要性,参照本手册的巡检建议,定期对设备进行检查与测试,并做好记录。
· 在巡检过程中如果遇到疑难问题,请先详细记录各种原始信息,然后及时联系H3C技术支持。
· UISToolkit工具目前仅限于内部使用,为确保业务的稳定运行,对于未通过且未整改的巡检项会每周发送邮件提醒,且该提醒目前无法取消,直至将巡检项整改完成,介意者请谨慎使用。
· UISToolkit工具使用过程中会采集局点环境的部分数据,比如主机、虚拟机、存储池等信息,如果用户对此数据敏感,可以选择数据脱敏功能。即在提示“Will you collect all infomation: 1 (yes) or 0 (no):”的信息时选择“0”,表示不采集数据只进行巡检项检查。
风险级别是定义如果某巡检项结果为不通过时,该不通过项对系统或业务的影响程度,帮助维护人员判断是否需要紧急处理。风险级别分为紧急、重要、一般。
表1 风险级别定义及处理建议
级别 |
定义 |
是否需要紧急处理 |
紧急 |
产品基本功能全部或部分不可用,业务中断,数据丢失。 |
是 |
严重 |
产品基本功能全部或部分不可用,存在业务中断或数据丢失的风险,需重点关注并整改的巡检,但无需紧急处理。例如集群HA未开启,共享存储利用率达到90%等。 |
否 |
一般 |
产品功能正常,不存在业务中断、数据丢失的风险,但配置和状态不符合最佳的推荐要求,会引起一般的故障问题,需根据相应巡检项的说明进行处理。例如检查存储池冗余策略。 |
否 |
UIS超融合平台在网局点日益剧增,运行期间难免存在各种问题。在运行期间、故障处理和变更前后对设备进行巡检以帮助故障定位和排除隐患尤为重要。
UISToolkit是一款自动巡检工具集,旨在提高UIS管理平台运维效率,及时发现隐患,帮助维护人员故障定位,同时降低巡检复杂度。该工具会不定时更新,请下载使用最新版本。
UISToolkit目前包含2个子工具:日常巡检工具和升级前检查工具。目前升级前检查工具处于开发中,暂时无法使用。
表2 UISToolkit功能介绍
子工具 |
描述 |
应用场景 |
日常巡检工具 |
主要检查UIS集群是否存在隐患,该信息包括基础信息、运行状态、配置信息等。 |
主要应用于UIS集群日常检查。 |
升级前检查工具 |
主要在UIS集群升级前进项环境预检查。 |
该功能目前开发中,暂不支持。 |
· UIS 6.5全部正式发布的版本。
· UIS 7.0全部正式发布的版本。
请参见随工具附带的使用指导书内容。
图1 巡检流程图
表3 巡检流程说明
UIS超融合管理平台侧可通过告警检查和一键巡检进行巡检操作。
· 通过告警机制,用户能够及时发现并解决影响虚拟化环境健康运行的问题,确保环境能够稳定运行。实时告警功能用于显示系统最近一段时间内产生的告警,支持对告警原因分析和恢复建议。例如,在日常运维中业务虚拟机发生故障,影响了部分业务。操作员可以通过实时告警功能去查看这台虚拟机的告警信息,了解告警原因和恢复建议后,再去采取措施处理虚拟机。
· 一键操作管理包括对系统进行快速全方位的健康巡检以及查看相应的健康巡检结果,查看主机、虚拟机资源的使用情况,扫描和清理空闲的存储卷,导出系统中的主机或虚拟机资源列表,还原虚拟机和启动、删除僵尸虚拟机等功能。也可以通过屏蔽项配置屏将无需关注的指标项启用屏蔽,启用屏蔽后告警将不会上报。本手册主要介绍健康巡检功能。
(1) 单击导航树中[告警管理/实时告警]菜单项,进入实时告警列表页面。单击<告警信息>按钮,将弹出查看告警详细信息对话框。告警详细信息对话框里的告警原因与恢复建议为系统提供,用户可对维护经历进行编辑记录。
(2) 选择列表中已处理的告警信息进行确认。选中列表中已处理,但未进行状态确认的实时告警信息,单击<确认>按钮进行确认。
默认情况下,实时告警信息的刷新频率为10秒。系统在达到刷新时间间隔所设置的时间后,将自动刷新实时告警信息列表中显示信息。若刷新时间间隔设置较短,操作员将没有充足的时间进行确认操作。因此,为了方便操作员完成告警信息确认操作,可以更改刷新时间间隔。
图2 查看实时告警信息
在进行一键巡检时可根据用户实际情况选择需要巡检的选项。可单击<勾选所有>按钮一键选择,也可单击<展开所有>按钮进行选择。
(1) 登录UIS超融合管理平台,选择右上方的一键功能。
(2) 选择“健康巡检”栏,进入一键巡检界面,可以根据需要对指定模块进行检测。
(3) 选择系统检测项。单击<开始检测>按钮,开始巡检。
(4) 巡检完成后,健康巡检页面的检测结果,将统计显示参与检测项总数,故障数与警告数。检测完成后系统默认显示检测异常的异常汇总页面。
(5) 单击<检测正常>或<检测汇总>按钮,切换到正常汇总页面或检测汇总页面。
(6) 在检测过程中,可单击<停止检测>按钮,停止巡检操作。
(7) 巡检完成后,可单击<重新检测>按钮,重新进行巡检。
(8) 单击<打印>或<导出>按钮,可打印或导出巡检结果。
表4 检查项及风险级别说明
检查项内容 |
风险级别 |
说明 |
CPU资源超配状态 |
一般 |
E0750P06及之后版本: CPU资源超配比建议不超过150% E0750P06之前版本: CPU资源超配比建议不超过200% |
内存资源超配状态 |
一般 |
内存资源超配比建议不超过150% |
存储资源超配状态 |
一般 |
存储资源超配比建议不超过150% |
系统分区利用率 |
紧急 |
系统分区利用率建议在80%以下,最大不超过90% |
NTP时钟同步检测 |
紧急 |
NTP时钟同步可以使所有的虚拟化主机与UIS超融合管理平台时钟同步,从而确保高可靠性、系统日志时间戳等基本功能运转正常 |
管理平台数据备份状态 |
一般 |
检测是否为超融合管理平台配置了数据定时备份功能 |
软件版本一致性 |
紧急 |
所有主机的软件版本是否一致 |
CAStools安装与运行状态 |
重要 |
|
虚拟机防病毒状态 |
重要 |
虚拟机防病毒功能要求虚拟机操作系统内必须安装CAStools工具软件,且CAStools工具软件工作正常 |
告警输出配置状态 |
重要 |
包括邮件、短信、界面 |
License注册状态 |
重要 |
建议使用正式License注册,避免超过试用期之后出现无法正常管理问题 |
计算节点状态 |
紧急 |
|
CPU硬件状态 |
紧急 |
CPU利用率建议在60%以下,最大不超过80% |
内存硬件状态 |
紧急 |
|
虚拟机运行状态 |
紧急 |
|
动态资源调度(DRS)配置检测 |
|
|
物理磁盘状态 |
紧急 |
|
逻辑磁盘状态 |
紧急 |
|
存储空间利用率状态 |
重要 |
存储空间利用率建议在60%以下,最大不超过80% |
系统盘缓存状态 |
紧急 |
|
RAID卡状态 |
紧急 |
如果检测到RAID卡固件版本状态异常,请将PMC RAID卡的固件版本升级到33512或以上版本 |
存储集群状态 |
紧急 |
|
物理网卡状态 |
紧急 |
|
虚拟端口状态 |
紧急 |
|
网络服务进程检测 |
紧急 |
检测后台网络服务进程和网络数据库进程是否正常运行,并检测网络进程的CPU使用率 |
网络丢包情况 |
紧急 |
统计虚拟端口和物理端口持续10秒的丢包率和错包率,若丢包率和错包率大于0.1%,将导致虚拟机业务网络访问性能下降 |
主机路由检测 |
紧急 |
计算节点主机是否存在多个默认路由和重复路由,如果存在,则可能导致虚拟机通信异常 |
聚合状态检测 |
重要 |
要求所有网络都配置链路聚合 |
网络连通性检测 |
紧急 |
管理网、存储外网、存储内网必须互通 |
子网掩码一致性检测 |
紧急 |
集群内同名虚拟交换机的子网掩码是否一致。如果子网掩码不一致,计算节点处于不同的网络,可能导致节点之间无法正常连通 |
MTU一致性检测 |
紧急 |
集群内同名虚拟交换机的MTU是否一致,检测虚拟端口的MTU与虚拟交换机的MTU是否一致。如果MTU不一致,将会出现丢包现象,使虚拟机网络转发性能急剧下降 |
HA配置检测 |
紧急 |
集群内HA故障迁移后,源主机是否存在残留同名的虚拟机 |
HA服务状态 |
紧急 |
管理主机/计算主机节点HA进程是否正常运行 主机的监控进程是否正常运行 |
通过屏蔽项配置屏将无需关注的巡检项启用屏蔽,启用屏蔽后告警将不会上报。
(1) 鼠标指针指向管理平台首页顶部<一键>按钮,选择[健康巡检]菜单项,进入一键健康巡检页面。
(2) 单击<检测屏蔽项>按钮,弹出屏蔽项配置对话框。
(3) 单击告警指标项对应操作列或者图标,启用屏蔽。可以选择一个或多个指标项。
(4) 单击<批量启用>按钮,弹出批量启用确认对话框
(5) 单击<确定>按钮,完成批量启用屏蔽。
UISToolkit工具的完整使用包括两个部分:
· UISToolkit工具生成结果文件。
· 结果文件上传至iService平台。
UISToolkit工具的执行支持手工执行和标杆神器执行两种方式。
UISToolkit工具检查的结果文件需要上传到iService平台后方可支持信息展示、巡检报告下载等功能。
由于各产品手工执行巡检脚本不一样,具体步骤请参见随工具附带的使用指导书。
8.0.3版本的标杆神器开始支持云智产品的自动化巡检,将巡检脚本上传、执行以及巡检结果的下载和上传进行了合并,大大简化了工程师的手工操作。
标杆神器的8.2.1版本开始对巡检操作方式进行了调整。因此本章节对不同的标杆神器版本提供了不同的操作方法介绍。
工具获取路径如下:
http://www.h3c.com/cn/Service/Document_Software/Software_Download/Other_Product/H3C_Software/BG/BG/?CHID=190669&v=612
(1) 下载标杆神器工具,将其解压并安装。
(2) 安装标杆神器后,双击其应用程序启动。
(3) 单击<同意>按钮。
(4) 在标杆神器的右上方,单击<用户>按钮,进行用户登录。
(5) 在弹出的“在线登录”对话框中,输入用户名和密码进行登录。
(6) 登录成功。
(7) 云智金手指工具涉及“设备管理”、“维护大全”和“金手指”等几个模块的内容。
(1) 首次登录标杆神器后,需要创建局点信息(云智金手指功能不支持默认局点)。
(2) 在“设备管理”页面,右键鼠标,选择“新建局点”。
(3) 在弹出的对话框中输入局点信息,包括了局点名称、地址等信息。单击<确定>按钮完成局点创建。
(4) 局点创建完成。
(1) 选中刚新建的局点,然后单击<新建设备>按钮。
(2) 在弹出的对话框中,输入设备名称、设备地址、用户名和密码等信息,其中协议类型使用“SSH”,单击<确定>按钮。
(4) 验证连通性,选择3.2.1 3. (3)中添加的设备,鼠标右键选择验证连通性。
(5) 连接成功。
(1) 云智金手指工具不支持使用“默认局点”,因此需要切换到新建的局点。
(2) 在标杆神器右上方的局点列表中,选择新建的局点进行切换。
(3) 新建局点的场景视图。
(1) 在“金手指”菜单栏,选择“交维检查”项,并单击<云智巡检工具>按钮。
(2) 单击<云智巡检工具>按钮后,会跳转到[维护大全/巡检信息采集]项。在此页面下有“巡检资料包下载”、“更新云数巡检包”和“导入云数巡检包”功能。单击“巡检资料包下载”可以下载到云数产品的指导手册;如果巡检脚本的版本较老,可单击<更新云数巡检包>按钮,此时会自动更新最新的巡检脚本(需要确保标杆神器是联网状态);如有其他原因,现场需要次新版本的巡检脚本,可单击“导入云数巡检包”导入该巡检脚本至标杆神器。
(3) 下载巡检资料包功能,可以下载到云数产品的巡检指导手册。
(4) 导入巡检脚本,需要提前准备好相应版本的巡检脚本。
(5) 在设备列表中,勾选设备,然后单击<策略选择>按钮,弹出“策略选择”对话框。
(6) 在弹出的对话框中,选择分类栏选择“云数”,选择策略栏选择云数相关的产品,主要需要和“创建设备”时选择的云数设备类型保持一致,“收集全部信息”的按钮选择为“ON”,最后单击<确定>按钮。
(7) 策略配置完成。
(8) 选择待巡检的主机,单击<采集>按钮。
(9) 弹出“开始采集”对话框。如果勾选“采集完成自动分析”,则在标杆神器完成采集后,会自动上传结果信息至iService平台进行分析。此时,对于云数产品,在“选择场景”中需要选择“软件产品检查”。
(10) 在“开始采集”对话中,单击<确定>按钮后,开始执行采集任务。
(11) 采集进度会显示巡检的过程进度信息,在“采集状态”的指示灯会以“黄色”显示。并且选择采集指示灯右侧的按钮,可以显示采集的过程信息。
· 绿色:采集成功。
· 黄色:采集进行中。
· 红色:采集失败。
(12) 单击巡检指示灯右侧的按钮,在弹出的对话框中可以显示巡检的过程信息。
(13) 巡检完成。
(14) 巡检完成后,巡检状态指示灯显示为“绿色”,并且标杆神器会自动下载巡检结果文件至相应的目录,可以单击<查看>按钮可以查看巡检完成的结果文件。
(15) 单击<查看>按钮后,会自动显示巡检结果文件,以及所在的目录位置。
(1) 在采集过程中,如果没有选择“采集完成自动分析”,那么在采集完成后,可以在“巡检分析”页面完成巡检结果的分析。
(2) 在“巡检分析”页面的“选择场景”中选择“软件产品检查”,然后单击<选择设备>按钮。
(3) 在弹出的“选择设备”对话框中勾选设备,并选择相应的采集时间,并单击<确定>按钮。
(4) 完成“选择场景”和“选择设备”的配置后,单击<开始分析>按钮。标杆神器分析时会将巡检结果文档上传到iService平台(即“服务数字中枢”平台)进行解析和信息展示。
上传时,需要确保标杆神器可以正常访问公网环境。
(5) 开始分析后,会增加分析任务,其中“分析进展”显示分析的进度信息,右边的指示灯显示分析任务的状态。
(6) 巡检分析完成后,可以在分析任务中单击<下载报告>按钮,获取本次巡检的巡检报告。
(7) 在弹出的“导出成功,是否打开目录”对话框中,单击<确定>按钮。
(8) 打开目录后,即可查看到对应的巡检分析报告。
(1) 选择刚新建的局点,然后单击<新建设备>按钮。
(2) 在弹出的对话框中,输入设备名称、设备地址、用户名和密码等信息,其中协议类型使用“SSH”,单击<确定>按钮。
(3) 创建设备完成。
(1) 云智金手指工具不支持使用“默认局点”,因此需要切换到新建的局点。
(2) 在标杆神器右上方的局点列表中,选择新建的局点进行切换。
(3) 新建局点的场景视图。
(1) 在“金手指”菜单栏,选择“交维检查”项,并单击<云智巡检工具>按钮。
(2) 单击<云智巡检工具>按钮后,会跳转到[维护大全/云数产品巡检]项。在此页面下有“导入巡检脚本”和“更新巡检脚本”功能,如果巡检脚本的版本较老,可单击<更新巡检脚本>按钮,此时会自动更新最新的巡检脚本(需要确保标杆神器是联网状态)。如有其他原因,现场需要次新版本的巡检脚本,可单击<导入巡检脚本>按钮导入该巡检脚本至标杆神器。
(3) 导入巡检脚本,需要提前准备好相应版本的巡检脚本。
(4) 在“选择巡检方式”栏中,单击<选择主机>按钮。
(5) 在弹出的对话框中,选择需要巡检的主机,并单击<确定>按钮。
(6) 添加完成后,显示“已选择1台设备”,然后单击<下一步>按钮。
(7) 在“收集巡检信息”栏会显示相关信息,包括了主机名称、连接状态、IP、巡检进度、巡检状态和操作。
(8) 开始巡检后,标杆神器会根据不同产品弹出不同的对话框信息。
(9) 单击<开始巡检>按钮,巡检进度会显示巡检的过程进度信息,在“巡检状态”的指示灯会以“黄色”显示。并且选择巡检指示灯右侧的按钮,可以显示巡检的过程信息。
· 绿色:巡检成功;
· 黄色:巡检进行中;
· 红色:巡检失败;
(10) 单击巡检指示灯右侧的按钮,在弹出的对话框中可以显示巡检的过程信息。
(11) 巡检完成后,可以查看巡检过程中的详细信息。
(12) 巡检完成后,巡检状态指示灯显示为“绿色”,并且标杆神器会自动下载巡检结果文件至相应的目录,可以单击<查看>按钮可以查看巡检完成的结果文件。
(13) 单击<查看>按钮后,会自动显示巡检结果文件,以及所在的目录位置。
(1) 巡检完成,并确认可查看到巡检结果文件后,单击<上传>按钮,将巡检结果文档上传到iService平台(即“服务数字中枢”平台)进行解析和信息展示。
· 上传时,需要确保标杆神器可以正常访问公网环境。
(2) 在弹出的上传服务数字中枢对话框中,先单击<浏览>按钮。
(3) 选择刚巡检生成的结果文件,并单击<打开>按钮。
(4) 巡检结果文件选中后,单击<上传>按钮,开始上传至服务数字中枢平台。
(5) 上传成功后,会显示上传进度100%,并提示上传成功。
可以通过工程师的账号登录访问iService平台,URL地址为:http://iservice.h3c.com/。
(1) 登录iService平台后,选择[我的工作台/资源采集上传/软件类产品巡检]栏。
(2) 弹出软件类产品巡检数据上传对话框。其中包含了局点名称、任务名称和文件选择三栏内容。其中局点名称栏务必添加准确的用户局点信息。通过单击右侧<添加局点>按钮来完成局点的添加。
(3) 弹出局点管理对话框。在“局点名称”栏输入实际的客户局点信息,并选择正确的所属行业、国家、地址等信息。在最下方的“关联SIP客户”栏输入选择准确的客户信息。最后单击<确定>按钮完成客户局点的添加。
(4) 添加局点名称完成后,在“局点名称”栏显示刚添加的局点名称。其中“任务名称”栏可根据需要输入本次任务的一些描述信息。
(5) 然后在“文件选择”栏的右侧单击<选择文件>按钮,选择下载到本地的巡检结果文件。
(6) 最后,单击<确定>按钮开始导入巡检结果文件。
(1) 导入巡检结果文件后,会在显示一行巡检任务。iService平台会自动进行分析,分析完成后,任务会显示为分析完成。
(2) 在此页面中,需要重点关注两个地方。一个是“业务类型”列,显示为“软件产品检查”,属于一个联机按钮,单击后可以调整到巡检结果的详细展示页面。另一个是右侧“操作”列的“下载总结报告”按钮,单击后可以下载生成的巡检报告。
(1) 跳转到软件产品检查页面后可以显示巡检结果的详细信息。在左侧的“资源列表”中罗列了巡检的基本信息,包括局点名称、IP地址、软件类型和上传时间。如果工程师有多个局点的巡检或者单个局点多套产品的巡检,会一一罗列呈现。
(2) 在右侧的上面显示产品和工具的一些信息,包括软件类型、软件版本、IP地址、巡检工具版本、巡检时间和上传iService时间。其中“巡检时间”显示的是工程师在上传后执行任务时生成的时间。“上传iService时间”显示的是工程师将巡检结果上传到iService平台的时间,并且支持选择功能。即针对某一局点的多次巡检,iService平台会保存历史巡检立即,并可通过“上传iService时间”进行选择显示。
如资源列表界面出现如需获取相应信息,请选择“全量采集”,该问题8.2.1及之后版本才会出现,请在3.2.1 5. (6)步骤中开启“收集全部信息”功能。
(3) 在右侧下方显示了巡检结果的详细信息,其中UIS超融合产品包括了概览、服务器硬件信息、主机、存储池、虚拟机和巡检结果。
(4) UIS超融合产品的概览页面显示了整体资源的使用情况,包括主机资源和虚拟机资源。
(5) 其中在维保信息显示现场的授权条码、维保到期时间和维保状态。
(6) 在主机页面,显示主机的配置和状态信息。
(7) 在存储页面显示了存储池相关的配置和容量使用信息。
(8) 在虚拟机页面显示了虚拟机的配置、资源使用等信息。
(9) 在巡检结果页面显示了具体巡检项的巡检结果,包括了检查项分类、检查项名称、告警级别、巡检结果和未通过说明。
¡ 高级级别:包括严重、重要、一般和提示四个级别。
¡ 巡检结果:包括通过和不通过,如果不通过,会在“未通过说明”列显示具体的不通过原因说明。
(10) 对于巡检未通过的检查项,可以查看巡检指导书的“巡检项说明列表”进行确认。
(1) 可在本次巡检结果的详细页面的右上方,单击<生成手工报告>按钮下载巡检报告到本地电脑。
(2) 也可以在“我的工作台”导航栏,选择“资源采集上传”栏,选择具体的巡检任务,单击右侧的<总结报告下载>按钮则会下载到本地电脑。
(3) 下载的巡检总结报告以压缩包的方式呈现。
(4) 解压后是Word形式的巡检报告。
(5) 在巡检报告中会显示本次巡检的详细信息。包括局点基本信息、License信息、巡检检查信息、资源汇总信息、资源明细信息和巡检建议。
¡ 巡检建议:需要工程师根据巡检结果结合客户的实际情况给出建议。