• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C U-Center 5.0安装部署指导-E74xx-5W401

01-正文

本章节下载 01-正文  (3.45 MB)

01-正文

  录

1 概述

2 安装流程

3 安装前的准备工作

3.1 软硬件配置需求

3.1.1 硬件配置需求

3.1.2 操作系统要求

3.1.3 客户端配置要求

3.2 获取软件包

3.3 验证软件包

3.4 安装规划

3.4.1 磁盘分区

3.4.2 网络规划

3.5 安装环境确认

4 安装操作系统及依赖包

5 部署PolarDB数据库(可选)

6 安装Matrix

6.1 上传Matrix软件安装包

6.2 修改配置文件(非root用户需要配置)

6.3 安装Matrix

6.4 SSH配置(可选)

6.4.1 修改SSH服务端口号

6.4.2 密钥登录

7 部署统一数字底盘

7.1 部署前的检查

7.2 创建Matrix集群

7.2.1 登录Matrix

7.2.2 配置集群参数

7.2.3 创建集群

7.3 部署统一数字底盘应用安装包

7.3.1 部署统一数字底盘Base应用包(标准模式)

7.3.2 部署统一数字底盘Base应用包(代理模式)

8 安装U-Center 5.0

8.1 安装说明

8.2 安装应用(标准模式)

8.2.1 上传安装包

8.2.2 开始安装

8.3 安装应用(Proxy模式)

8.3.1 Proxy部署说明

8.3.2 ‍‍上传安装

8.3.3 开始安装

8.3.4 启动region

9 访问U-Center 5.0

10 软件注册

10.1 License支持情况说明

10.2 安装并获取授权

11 备份恢复

11.1 备份配置

11.1.1 统一数字底盘及组件备份

11.2 恢复配置

11.2.1 统一数字底盘及组件恢复

12 集群故障重建与恢复

12.1 单机集群故障重建与恢复

12.2 多机集群单节点故障重建与恢复

12.3 多机集群多节点故障重建与恢复

12.3.1 两个Master节点故障重建与恢复

12.3.2 非两个Master节点故障重建与恢复

12.4 节点上已部署License Server,节点故障说明

13 卸载U-Center 5.0

14 常见问题解答

14.1 安全策略常见问题解答

14.1.1 节点中存在多个网卡配置IP地址并且网卡UP时,如何增加安全策略?

14.2 Matrix常见问题解答

14.2.1 如何配置Matrix集群主老化时间?

14.2.2 扩容Matrix时若在ETCDINSTALL阶段停留时间过长怎么办?

14.2.3 Matrix安装完成后,页面无法访问怎么办?

14.2.4 在Matrix中添加节点失败怎么办?

14.2.5 Matrix部署失败时应该执行什么操作?

14.2.6 Matrix如何切换双栈?

14.2.7 如何在Matrix页面开启统一数字底盘组件应用服务?

14.3 浏览器常见问题解答

14.3.1 如何通过映射IP访问Matrix页面?

14.4 WebSocket常见问题解答

14.4.1 拆除异地容灾或冷备系统之后,原备站点不会自动恢复WebSocket服务怎么办?

14.4.2 如何在worker节点上横向扩展WebSocket实例数量?

14.4.3 如何清除worker上扩展的WebSocket实例数量?

14.5 第三方操作系统常见问题解答

14.5.1 安装第三方操作系统时未选择虚拟化主机,该如何处理?

14.5.2 第三方操作系统在部署Matrix时失败,并提示runc版本不正确,如何处理?

14.6 如何为seasqlplus-uc挂载独立磁盘?


1 概述

H3C U-Center 5.0提供企业级统一运维解决方案,涵盖“监、管、控、服、析”各业务领域,实现“云、网、端、安”ICT全域资源统一管理;支持对海量资源“直采直控”,同时支持对新华三运营、管理软件和第三方运维工具进行整合,为运维人员提供统一门户、统一告警、统一资源、统一流程、统一分析的全面运维解决方案。

本文的目的是提供精细化安装部署指导方法,帮助市场及一线人员或用户准确地部署U-Center 5.0运行环境。


2 安装流程

U-Center 5.0支持1个节点的单机部署和3个Master节点+N个Worker节点(N≥0)的集群部署两种部署模式。

表2-1 U-Center 5.0部署流程汇总

步骤

具体操作

说明

服务器准备

·     单机部署模式准备1台服务器

·     集群部署模式准备至少3台服务器

硬件和软件需求

请参见“软硬件配置需求

安装操作系统及依赖包

在服务器上安装操作系统及依赖包

请参见“安装操作系统及依赖包

部署PolarDB数据库

(可选)

在服务器上安装PolarDB数据库

请参见“部署PolarDB数据库(可选)

安装Matrix

在服务器上安装Matrix

请参见“安装Matrix

部署统一数字底盘

创建Matrix集群、部署Base

请参见“部署统一数字底盘

部署U-Center 5.0

部署U-Center 5.0的各个组件

请参见“安装U-Center 5.0

 


3 安装前的准备工作

3.1  软硬件配置需求

3.1.1  硬件配置需求

硬件配置需求可通过以下方式获取:

·     在硬件资源计算工具中输入数据后获取评估结果,该评估结果用于参考。

·     联系一线工程师帮忙评估。

为了确保业务的正常运行,必须将服务器的CPU供电模式设置为高性能(performance)模式,并关闭RAID卡的PR(Patrol Read,巡读)和CC(Consistency Check,一致性校验)功能(如不支持PRCC,则无需关闭)。具体操作方式请参见服务器/RAID卡相关产品手册,或联系服务器/RAID卡的生产厂家技术支持人员。

 

3.1.2  操作系统要求

·     集群中所有节点必须安装相同版本的操作系统。

·     H3C自研操作系统下载路径:H3C官网首页>支持>软件下载>网络管控析软件>H3C PLAT (统一数字底盘)>H3C PLAT 2.0 (统一数字底盘)。

·     Kylin-Server-V10-SP3-2403-Release-20240426可能存在操作系统卡死的问题,需通过重启临时规避或联系麒麟厂商协助解决,因此暂时不建议使用该操作系统。

 

表3-1 U-Center 5.0支持的操作系统及版本

版本

支持操作系统

x86

NingOS V3-1.0.2403

Red Hat Enterprise Linux 8.8

Red Hat Enterprise Linux 8.10

TencentOS-Server-3.1-20240925.0-TK4

uniontechos-server-20-1050a-amd64-UFU

Kylin-Server-10-SP2-x86-RC01-Build09-20210524

Kylin-Server-V10-SP3-General-Release-2303

Kylin-Server-V10-SP3-2403-Release-20240426

ARM

NingOS V3-1.0.2403

TencentOS-Server-3.1-20240925.0-TK4

Kylin-Server-10-SP2-aarch64-RC01-Build09-20210524

Kylin-Server-V10-SP3-General-Release-2303

 

3.1.3  客户端配置要求

用户不需要安装客户端软件,使用浏览器即可访问U-Center 5.0。推荐使用的浏览器为Google Chrome 96、Firefox 97及以上版本,分辨率显示宽度不低于1600。

3.2  获取软件包

安装包的名称格式如下表所示,其中version为版本号,platform为CPU架构类型。

说明列的“必选”意为:如需正常运行U-Center 5.0,必须安装的应用包;“可选”意为:可根据需求安装应用包,如不安装,将无该功能。

·     不同的组件、不同的版本可能仅发布x86或ARM安装包,具体请以版本发布文件为准。

·     NTA组件说明:在E7401版本中,该组件属于ITOM产品包,安装包名称为“ITOM_NTA_version_platform.zip”;从E7402版本开始,该组件改为属于NSM_Extend产品包,安装包名称为“NSM_NTA_version.zip”。

·     表3-2中的依赖组件属于部署时的强制依赖。

·     部分安装包可根据业务需求选择部署相关的业务组件,详见表3-3

 

表3-2 应用安装包说明

产品包

安装包名称

功能说明

说明

依赖组件

UDTP

UDTP_Base_version_platform.zip

基础服务组件:提供融合部署、用户管理、权限管理、资源管理、租户管理、菜单管理、日志中心、备份恢复和健康检查等基础功能

必选

-

BMP

BMP_Common_version_platform.zip

通用服务组件:提供大屏管理、告警、告警聚合和告警订阅等功能

可选

-

BMP_Connect_version_platform.zip

连接服务组件:提供上下级站点管理、WebSocket通道管理和NETCONF通道管理功能

可选

-

BMP_Extension_version_platform.zip

扩展服务组件:提供异地容灾、快照回滚、证书服务、自监控、智能算法库、单点登录和密码平台等功能

可选

BMP_Common

BMP_Syslog_version_platform.zip

Syslog服务组件:提供Syslog报文的收发、Syslog浏览和聚合、Syslog生成告警等功能

可选

BMP_Common

BMP_REPORT_version_platform.zip

提供全面的报表功能:

·     数据源管理

·     数据集管理

·     图表管理

·     自助查询

·     模板管理

·     任务管理

可选

BMP_Common

BMP_UCP_BasePlat_version_platform.zip

提供U-Center公共平台组件服务(ETCD、运维域菜单注册、可视化组件)

必选

BMP_Common

BMP_UCP_CollectPlat_version_x86.zip

提供模板、挂牌、采集平台、统一资源、资源发现、文件传输服务

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_SmartCompute_version_platform.zip

提供动态阈值、容量

可选

BMP_Common

BMP_Extension

BMP_UCP_BasePlat

BMP_UCP_Capacity_version_platform.zip

提供监控资源指标容量分析、容量预测

可选

BMP_Extension

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

BMP_UCP_SmartCompute

BMP_CMDB_version_platform.zip

配置管理数据库

可选

BMP_Common

BMP_AIOps-Copilot_version_platform.zip

提供基于大模型的AI智能运维服务

可选

BMP_Common

ITOM

ITOM_AGENT_version_platform.zip

Agent采集服务

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

ITOM_IOM_version_platform.zip

IOM服务、JAVA采集器、CPP采集器

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

ITOM_VKVM_version_platform.zip

服务器虚拟远程控制台

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

ITOM_IOM

ITOM_BSM_version_platform.zip

业务健康分析服务

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

BMP_CMDB

ITOM_UEM_version_platform.zip

访问体验分析服务

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

ITOM_ITSM_version_platform.zip

流程管理服务

可选

BMP_Common

ITOM_STM_version_platform.zip

业务拨测管理

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

BMP_CMDB

ITOM_NQA_version_platform.zip

NQA拨测管理

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

NSM_RES

BMP_CMDB

ITOM_PYCOLLECTOR

ITOM_PYCOLLECTOR_version_platform.zip

Python采集器

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

ITOM_ICE_version_platform.zip

巡检管家服务

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

ITOM_PYCOLLECTOR

ITOM_IPMS_version_platform.zip

IP地址管理中的IP扫描组件

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

ITOM_PIPM

ITOM_PYCOLLECTOR

ITOM_PIPM_version_platform.zip

IP地址管理中的IP规划与分配

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

ITOM_JOB_version_platform.zip

作业平台

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

ITOM_PYCOLLECTOR

NSM

NSM_RES_version.zip

网络资源安装包

可选

BMP_Common

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

NSM_TOPO_version.zip

网络拓扑安装包

可选

BMP_Common

BMP_UCP_CollectPlat

BMP_UCP_BasePlat

NSM_RES

BMP_CMDB

NSM_PERF_version.zip

网络性能监控安装包

可选

BMP_Common

BMP_UCP_CollectPlat

BMP_UCP_BasePlat

NSM_RES

NSM_ICC_version.zip

网管智能配置中心安装包

可选

BMP_Common

BMP_UCP_CollectPlat

BMP_UCP_BasePlat

NSM_RES

NSM_Tools_version.zip

网管工具安装包

可选

BMP_Common

BMP_UCP_CollectPlat

BMP_UCP_BasePlat

NSM_RES

NSM_Extend

NSM_VPNM _version.zip

提供VPN业务管理功能

可选

BMP_Common

BMP_Connect

BMP_UCP_CollectPlat

BMP_UCP_BasePlat

NSM_RES

NSM_PERF

NSM_WSM_version.zip

提供无线网络业务管理功能,包括无线设备监控、配置、管理和拓扑等

可选

BMP_Common

BMP_Connect

BMP_UCP_CollectPlat

BMP_UCP_BasePlat

NSM_RES

NSM_ONM_version.zip

提供全光网络业务管理功能,包括影终端、EPON/GPON ONU、分光器管理和拓扑等

可选

BMP_Common

NSM_RES

NSM_PERF

NSM_ICC

NSM_NTA_version.zip

流量监控服务

可选

BMP_Common

NSM_RES

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

 

表3-3 软件业务关系说明

产品包

安装包名称

相关业务组件

说明

BMP

BMP_CMDB_version_platform.zip

BMP_UCP_CollectPlat

如需在拓扑中使用边缘链路计算功能,需依赖该组件

BMP_UCP_BasePlat

如需查看资源管理同步的资源,需依赖该组件

BMP_Report

如需查看CMDB报表,需要依赖该组件

ITOM_IOM

如需同步IOM资源,需依赖该组件

ITOM_ITSM

如需使用流程配置功能,需依赖该组件

ITOM_BSM

如需使用业务拓扑和业务关系拓扑,需依赖该组件

NSM_NTA

如需使用流量拓扑功能,需依赖该组件

ITOM_IPMS

如需同步IP发现中的IP规划和地址,需依赖该组件

ITOM_PIPM

如需同步IP地址管理中的IP规划和地址,需依赖该组件

NSM_RES

如需同步网络设备资源,需依赖该组件

NSM_TOPO

如需在拓扑中使用网络链路计算功能,需依赖该组件

NSM_PERF

如需查看网络设备性能监控数据,需依赖该组件

ITOM

ITOM_IPMS_version_platform.zip

NSM_RES

执行IP发现任务时,如需发现网络设备,需依赖该组件

ITOM_ICE_version_platform.zip

NSM_RES

执行巡检任务时,如需对网络设备巡检,需依赖该组件

BMP_Report

如需查看巡检管家报表,需要依赖该组件

ITOM_IOM

执行巡检任务时,如需对操作系统巡检,需依赖该组件

ITOM_IOM_version_platform.zip

BMP_Report

如需查看IOM报表,需要依赖该组件

ITOM_STM_version_platform.zip

ITOM_BSM

执行拨测任务时,如需绑定用户体验管理,需要依赖该组件

ITOM_AGENT

如需使用自定义拨测,数据采集需依赖该组件

ITOM_IOM

如需使用自定义拨测,拨测类型编辑需依赖该组件

ITOM_NQA_version_platform.zip

ITOM_IOM

执行拨测任务时,如需选择操作系统为拨测目的端设备,需依赖该组件

ITOM_BSM

执行拨测任务时,如需绑定用户体验管理,需要依赖该组件

ITOM_AGENT_version_platform.zip

ITOM_IOM

如需增加Agent资源到操作系统,需依赖该组件

ITOM_ITSM_version_platform.zip

BMP_CMDB

如需使用以下表单控件,需依赖该组件:资源增加、资源修改、资源删除、关联资源、资源变更

BMP_Report

如需查看ITSM报表,需要依赖该组件

ITOM_BSM_version_platform.zip

ITOM_UEM

如需绑定访问体验功能,需依赖该组件

ITOM_IOM

如需使用繁忙度指标,需要依赖该组件

ITOM_UEM_version_platform.zip

ITOM_BSM

如需绑定业务配置功能,需要依赖该组件

 

3.3  验证软件包

上传应用安装包之后,请参见如下命令对软件包执行MD5验证,确保软件包的完整性和正确性。

(1)     查看已上传的安装包。

[root@node1 ~]# cd /opt/matrix/app/install/packages/

[root@node1 packages]# ls

BMP_Common_E7401_x86.zip           BMP_Connect_E7401_x86.zip

…略…

(2)     查看安装包的MD5值,以UDTP_Base_E7401_x86.zip为例。

[root@node1 packages]# md5sum UDTP_Base_E7401_x86.zip

c5751a529b7a6f2b34284e8e07df8831  UDTP_Base_E7401_x86.zip

(3)     将上述步骤中获取到的MD5值与发布的软件版本文件MD5值进行比对,若一致,则软件包正确。

3.4  安装规划

3.4.1  磁盘分区

请按照硬件资源计算工具计算结果中的“单台Master节点本地存储空间”数据配置磁盘分区。

seasqlplus-uc分区说明:

·     数据盘seasqlplus-uc主要用于保存历史监控性能数据。

·     硬件资源计算工具自动计算是否需要配置seasqlplus-uc:

¡     当等效网元数量小于2000时(等效网元数量=网管管理网元数+IOM管理资源数+NTA接口数量*10),不需要配置seasqlplus-uc独立分区。

¡     当等效网元数量大于2000时,需要配置seasqlplus-uc分区并挂载独立磁盘。原因是:当业务量较大时,seasqlplus-uc可能会导致较高的磁盘IO,如果与其他业务共用一块磁盘,可能会影响其他业务的正常运行。

·     seasqlplus-uc挂载独立磁盘后的剩余空间不能分配给其他分区使用。

·     seasqlplus-uc挂载独立磁盘的方法见如何为seasqlplus-uc挂载独立磁盘?

Etcd是一个对磁盘I/O极其敏感的组件,当I/O性能不足时,可能导致Etcd频繁切换主节点,从而影响集群的稳定运行。推荐将Etcd所在磁盘与系统盘及其他组件所用磁盘分离,分别使用不同的物理硬盘;若无法满足,则最低配置为7200转HDD盘+1G RAID卡,推荐使用SSD盘。

3.4.2  网络规划

1. 组网规划

U-Center 5.0在Matrix集群部署模式下,至少需要3个Master节点+N个Worker节点(N≥0,N根据任务负载情况决定),典型组网规划如下所示:

图3-1 组网规划

 

2. IP地址规划

若具体业务场景需要多张网卡,有如下注意事项:1、部署集群前的检查,集群使用的网卡需要是ifconfig命令检测到的第一块网卡。2、如果不满足上述条件,则需要保证集群使用的是之前配置的网卡,并满足以下条件之一:

·     条件1:网卡down状态且onboot=no。

·     条件2:网卡UP状态,已配置IP,且需要配置安全策略。

当集群的南北向网络使用不同网卡但处于同一VLAN网段时,应在南向网卡配置中设置NOZEROCONF=yes。

 

U-Center 5.0 IP地址规划包括单栈和双栈。

单栈规划的IP地址为IPv4或IPv6。

表3-4 单栈组网明细

IP地址规划

作用

备注

Master节点1 IP

为安装了操作系统的Master节点分配的IP地址

必选项(单机部署模式只需要一个Master节点)

加入同一集群的所有Master节点的IP地址必须处于同一网段

Master节点2 IP

为安装了操作系统的Master节点分配的IP地址

Master节点3 IP

为安装了操作系统的Master节点分配的IP地址

北向业务虚IP

通过Matrix页面部署的应用的统一外部访问地址

必选项

北向业务虚IP必须在Master节点所处的网段内

Worker节点IP

为Worker节点分配的IP地址

可选项

Worker节点的IP地址必须与加入同一集群内的Master节点的IP处于同一网段

 

表3-5 双栈组网明细

IP地址规划

作用

备注

Master节点1 IP

为安装了操作系统的Master节点分配的IPv4和IPv6地址

必选项(单机部署模式只需要一个Master节点)

加入同一集群的所有Master节点的IP地址必须处于同一网段

Master节点2 IP

为安装了操作系统的Master节点分配的IPv4和IPv6地址

Master节点3 IP

为安装了操作系统的Master节点分配的IPv4和IPv6地址

北向业务虚IP(IPv4、IPv6)

通过Matrix页面部署的应用的统一外部访问地址

必选项

北向业务虚IP必须在Master节点所处的网段内,分别分配IPv4地址,IPv6地址。北向业务虚IP至少配置一个IPv4或IPv6,不可同时配置两个相同协议的IP

Worker节点IP

为Worker节点分配的IP地址

可选项

Worker节点的IP地址必须与加入同一集群内的Master节点的IP处于同一网段

 

3.5  安装环境确认

安装环境请参考下表中所示的各个检测项目,确保安装U-Center 5.0的条件已经具备。

表3-6 安装环境确认

检测项

检测标准

服务器或虚拟机

硬件检查

请检查硬件是否符合要求(包括CPU、内存、硬盘、网卡等)

软件检查

请检查如下几点:

·     操作系统版本符合要求

·     请检查系统时间已配置完成,建议配置NTP时间同步,整网使用统一的时钟源同步时间,且保证NTP服务器时间与当前时间一致

·     请确保服务器已配置磁盘阵列

客户端

请确保浏览器版本符合要求

服务器和操作系统兼容性

请参见以下链接,查看H3C服务器和操作系统的兼容性列表: http://www.h3c.com/cn/home/qr/default.htm?id=367

 

·     推荐将服务器或虚拟机的下一次启动模式配置为UEFI模式。其中VMware的引导固件,请选择下拉框中的EFI,不要勾选“是否为此虚拟机启用UEFI安全引导”选项。若安装的VMware是英文版本,请不要勾选“Secure Boot”选项。

·     安装操作系统时,请勿同时使用KVM给多个服务器安装同一镜像。

·     H5 KVM性能不稳定,可能出现加载镜像停止或缓慢等问题,建议使用Java KVM挂载镜像安装操作系统。

·     安装过程中禁止输入Scroll Lock键,否则可能会导致安装失败。

·     安装过程中异常断电会导致部分服务安装失败,请重新安装以保证功能完整性。

·     U-Center 5.0安装部署过程中,请勿进行开启或关闭防火墙的操作。

·     集群部署完成后,请勿修改系统时间,否则可能导致集群异常。



5 部署PolarDB数据库(可选)

如需使用PolarDB数据库,请参见《第三方数据库PolarDB v2.0安装部署指导》进行安装。

说明

在安装PolarDB时,请在所有统一数字底盘节点和PolarDB节点上执行polardb_add_sshpass.sh脚本。具体步骤请参考《第三方数据库PolarDB v2.0安装部署指导》的安装部署章节。无论是重新安装统一数字底盘还是PolarDB,都需重新执行此步骤。此外,若扩容统一数字底盘,需要在扩容前执行此步骤。

 

(1)     PolarDB数据库安装后,请以root用户登录PolarDB数据库集群任一节点,依次执行cd /root/polardb命令和pdbcli status --config config.yaml命令获取PolarDB代理节点的IP地址,执行结果中,“proxy”下的IP地址即为数据库代理所在节点IP地址。

(2)     然后,依次在所有代理节点上执行cat /opt/maxscale/polardb1/etc/maxscale.cnf |grep users_refresh_time命令查看“users_refresh_time”的参数值。若不为0,则请依次执行sed -i "s/users_refresh_time=5/users_refresh_time=0/"  /opt/maxscale/polardb1/etc/maxscale.cnf  命令和systemctl restart polardb-proxy-polardb1.service命令以修改代理节点参数。

 


6 安装Matrix

6.1  上传Matrix软件安装包

(1)     获取软件安装包,并将软件包拷贝至服务器的待安装目录下,或使用FTP等文件传输协议将软件包上传到指定目录。

¡     (推荐)root用户在/root目录下,或在/root下创建目录。

¡     (推荐)非root用户(如admin)在/home/admin下。

说明

·     如果需要使用FTP、TFTP协议上传下载,请选择binary模式(二进制模式)传输,以免损坏软件包。

·     如需安装Matrix的E7105H04及以上版本,或E7302及以上版本,若Docker版本为20.10.24,可直接安装;若Docker版本低于20.10.24,请先安装E7105或E7105H02的Matrix版本,然后将Docker升级至20.10.24,最后再将Matrix升级到E7105H04或E7302及以上版本。

 

(2)     上传完成后,请参考验证软件包对Matrix的安装包进行MD5校验。

6.2  修改配置文件(非root用户需要配置)

若使用root用户安装软件包,或者使用admin用户安装NingOS操作系统,可直接跳过该章节。

(1)     执行su root命令切换为root用户后,在root用户下确认/etc/passwd配置文件。已配置的非root用户名称是否与配置文件中的名称一致,此处以user为例,如下图所示。如果不一致请修改配置文件中的用户名,其他参数无需修改,保持默认设置即可。

[root@node1 ~]# vim /etc/passwd

user:x:1000:1001:user:/home/user:/bin/bash

(2)     在root用户下修改/etc/sudoers配置文件。

[root@node1 ~]# vim  /etc/sudoers

…略…

## Allow root to run any commands anywhere

root    ALL=(ALL)       ALL

user    ALL=(root)       NOPASSWD:/bin/bash

 

## Allows members of the 'sys' group to run networking, software,

## service management apps and more.

# %sys ALL = NETWORKING, SOFTWARE, SERVICES, STORAGE, DELEGATING, PROCESSES, LOCATE, DRIVERS

 

## Allows people in group wheel to run all commands

%wheel  ALL=(ALL)       ALL

user    ALL=(root)       NOPASSWD:/bin/bash

user    ALL=(root)       NOPASSWD:/usr/bin/rpm,/bin/sh

…略…

 

(3)     在root用户下修改/etc/pam.d/login配置文件。

[root@node1 ~]# vim /etc/pam.d/login

#%PAM-1.0

auth       substack     system-auth

auth     [user_unknown=ignore success=ok ignore=ignore auth_err=die default=bad] pam_securetty.so

…略…

(4)     在root用户下修改/etc/ssh/sshd_config配置文件。

注意

若当前环境为统一数字底盘与PolarDB数据库的融合部署,请勿执行此步骤。

 

[root@node1 ~]# vim /etc/ssh/sshd_config

…略…

#LoginGraceTime 2m

PermitRootLogin no

…略…

(5)     修改完成后,执行systemctl restart sshd命令重启sshd服务。

6.3  安装Matrix

说明

·     所有节点的安装用户需保持一致,若选择非root作为安装用户,需要在脚本执行命令前添加sudo /bin/bash指令。

·     安装Matrix的用户需与所属用户组名称保持一致。

 

(1)     进入Matrix软件包(.zip文件)的存放路径,安装Matrix。软件包的名称格式为UDTP_Matrix_version_platform.zip,其中version为版本号,platform为CPU架构类型。下面以root用户、x86_64版本为例进行安装。

[root@node1 ~]# unzip UDTP_Matrix_E7401_x86_64.zip

[root@node1 ~]# cd UDTP_Matrix_E7401_x86_64

[root@node1 UDTP_Matrix_E7401_x86_64]# ./install.sh

…略…

Complete!

(2)     通过命令systemctl status matrix验证Matrix服务是否安装成功。若安装成功,则将在Active字段后显示运行信息为active (running)。剩余节点执行同样操作即可。

(3)     默认为中文界面,若需英文界面,则可通过如下方式修改:

a.     使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,修改defaultLanguage字段值为en(若文件中没有该配置,请直接增加该字段,字段后需要携带英文逗号),配置如下:

[root@node1 ~]#  vim /opt/matrix/config/navigator_config.json

{

"defaultLanguage":"en",

"productName": "uc",

"pageList": ["SYS_CONFIG", "DEPLOY", "APP_DEPLOY"],

"defaultPackages": [],

"allowDeployedPackageIds": ["UNIFIED-PLATFORM-BASE"],

"url": "http:””://${vip}:30000/central/index.html#/ucenter-deploy",

"theme":"darkblue",

"matrixLeaderLeaseDuration": 30,

"matrixLeaderRetryPeriod": 2,

"sshPort": 22,

"sshLoginMode": "secret",

"features":{"stopNtpServerBeyondThreshold":"false"}

}

b.     执行systemctl restart matrix命令重启Matrix服务使配置生效,其他节点也依次按a、b步骤配置。

6.4  SSH配置(可选)

6.4.1  修改SSH服务端口号

Matrix集群通过SSH连接进行节点的安装、升级、修复等操作,并实现应用部署、监控等功能。各节点上的SSH服务器默认使用22号端口侦听客户端连接请求,双方建立TCP连接后可进行数据信息的交互。

用户可根据本章节修改SSH服务端口号,提高SSH连接的安全性。

注意

·     请确保所有节点都配置为相同的SSH服务端口号。

·     端口范围为1~65535,不推荐使用1~1024之间的知名端口号,禁止使用各方案端口矩阵中已定义的端口号,否则SSH服务可能启动失败。

·     若修改已部署集群中的SSH服务端口号,请确认所有业务组件是否支持。

·     若为非root用户,执行如下命令前,请进行提权操作(在非root用户下执行su root命令即可)。

·     集群各节点/opt/matrix/config/navigator_config.json中的配置必须保持一致,否则会影响集群稳定性。

·     若需修改SSH服务端口号,请参见各产品版本使用指导书中的产品端口占用说明,以避免端口冲突。

·     在PolarDB或Matrix集群部署完成后,禁止修改SSH端口。

 

1. 修改各节点所在服务器的SSH服务端口号

(1)     若集群未部署,登录节点后台,使用netstat -anp | grep after_port-number检查指定的端口号是否被占用,若未被占用,则无返回信息;若被占用,则返回如下信息。其中,after_port-number为用户想要指定的SSH服务新的端口号。举例如下:

¡     12345端口号未被占用,可以修改为该端口号。

[root@node1 ~]# netstat -anp | grep 12345

¡     1234端口号被占用,不可以修改为该端口号。

[root@node1 ~]# netstat -anp | grep 1234

tcp        0      0 0.0.0.0:1234            0.0.0.0:*               LISTEN      26211/sshd

tcp6       0      0 :::1234                 :::*                    LISTEN      26211/sshd

若集群已部署,除上述的检查外,还需要执行以下命令确认环境中是否有业务容器占用该端口(如果还有其他形式的端口占用,请根据实际情况检查)。具体如下:

¡     12345端口号未被占用,可以修改为该端口号。

[root@node1 ~]# kubectl get svc -A -oyaml | grep nodePort | grep -w 12345

[root@node1 ~]# kubectl get pod -A -oyaml | grep hostPort | grep -w 12345

¡     1234端口号被nodePort或hostPort占用,不可以修改为该端口号。

[root@node1 ~]# kubectl get svc -A -oyaml | grep nodePort | grep -w 1234

        nodePort: 1234

[root@worker ~]# kubectl get pod -A -oyaml | grep hostPort | grep -w 1234 

        hostPort: 1234

(2)     使用vim /etc/ssh/sshd_config命令进入sshd服务的配置文件,将配置文件中端口号修改为用户想要指定的端口号(以12345为例),且需要删除注释符号。

图6-1 修改前的端口号为22

 

图6-2 修改后的端口号

 

(3)     修改完成后,需重启sshd服务。

[root@node1 ~]# systemctl restart sshd

(4)     查看新的端口号是否修改成功。以Master节点为例,若有如下返回信息,则表示修改成功。

[root@node1 ~]# netstat -anp | grep -w 12345

tcp        0      0 0.0.0.0:12345            0.0.0.0:*               LISTEN      26212/sshd

tcp6       0      0 :::12345                 :::*                    LISTEN      26212/sshd

2. 修改Matrix侧各节点使用的SSH服务端口号

Matrix集群未部署:完成修改各节点所在服务器的SSH服务端口号后,在创建集群步骤中添加节点的同时填写正确的SSH端口号即可。

Matrix集群部署后:完成修改各节点所在服务器的SSH服务端口号后,按照如下步骤进行修改。

(1)     登录Matrix,登录方法请参见登录Matrix

(2)     进入[部署>集群]页面。

图6-3 集群页面

 

(3)     单击节点右上角的,选择“修改”。

图6-4 修改节点

 

(4)     在弹框中修改SSH端口号,修改完成后单击<确定>按钮。多机集群环境,请保持所有节点SSH端口号一致。

图6-5 修改SSH端口号

 

6.4.2  密钥登录

集群主用Master节点通过SSH连接管理和监控集群中的所有节点,当通过命令行修改某一节点密码后,还需登录Matrix页面修改对应节点的密码,若其它场景也保存了节点密码,则需同步修改(如跳板机、部署在Matrix上的应用),否则将会导致集群异常。整个过程易遗漏、易出错,且需较高的时间和人力成本。

各节点上配置SSH密钥登录后,无需在多处修改节点密码,集群节点间也可进行互相操作。

当前支持root用户和非root用户进行SSH密钥配置。

注意

·     请确保所有节点的SSH登录方式一致(如Matrix服务启动后,修改了某一节点的SSH登录方式,该操作需同步至所有节点。修改完成后请依次重启各节点Matrix服务)。

·     Matrix(包括集群和单机模式)部署完成后,若因重建/升级等原因重装节点操作系统时,在操作系统安装完成后、重建/升级操作前,请确保已完成所有节点的SSH密钥登录配置,且所有节点SSH登录方式必须一致(都为密钥登录),否则将会导致操作失败。

·     首次部署统一数字底盘时,无需手动配置SSH密钥登录,系统将在创建Matrix集群时自动完成SSH密钥配置。

 

1. root用户配置SSH密钥配置

依次登录各节点后台进行SSH密钥配置。下面以node1节点为例,进行配置说明。

说明

执行ssh-keygen -R命令时如果出现文件或目录不存在的报错,属正常现象,可忽略。

 

(1)     root用户登录node1节点后台,执行如下命令,通过ED25519加密算法生成SSH对称认证所需的公钥和私钥文件。保存该公/私钥的文件名默认为/root/.ssh/id_ed25519,文件名不允许修改。

[root@node1 ~]# ssh-keygen -t ed25519

Generating public/private ed25519 key pair.

Enter file in which to save the key (/root/.ssh/id_ed25519):

Enter passphrase (empty for no passphrase):

Enter same passphrase again:

Your identification has been saved in /root/.ssh/id_ed25519

Your public key has been saved in /root/.ssh/id_ed25519.pub

The key fingerprint is:

SHA256:GLeq7ZQlnKHRTWvefTwIAlAHyeB3ZfZt0Ovnfbkcbak root@node1

The key's randomart image is:

…略…

(2)     首先清理各节点的旧公钥信息。然后将生成的公钥拷贝至各个节点(包括当前登录的节点)。下面以集群中有三个Master节点并且SSH端口号为默认的22为例进行配置说明。其中,node1 IP地址为192.168.227.171;node2 IP地址为192.168.227.172;node3 IP地址为192.168.227.173。

[root@node1 ~]# ssh-keygen -R 192.168.227.171

[root@node1 ~]# ssh-keygen -R 192.168.227.172

[root@node1 ~]# ssh-keygen -R 192.168.227.173

[root@node1 ~]# ssh-copy-id -p 22 -i  ~/.ssh/id_ed25519.pub [email protected]

[root@node1 ~]# ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]

[root@node1 ~]# ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]

(3)     登录其它节点后台,执行步骤(1)和(2)命令。

(4)     root用户登录node1节点后台,SSH到当前节点及其它节点,验证SSH密钥配置是否生效。下面以SSH到node2并且SSH端口号为默认的22为例进行配置说明。

[root@node1 ~]# ssh -p 22 [email protected]

2. 非root用户配置SSH密钥配置

依次登录各节点后台进行SSH密钥配置。

由于非root用户下部分命令需要以root权限执行,所以非root用户需配置admin到admin用户密钥配置、root到admin用户密钥配置。

说明

执行ssh-keygen -R命令时如果出现文件或目录不存在的报错,属正常现象,可忽略。

 

(1)     配置admin到admin用户密钥配置

下面以3个Master节点都为admin用户为例,进行配置说明。

a.     admin用户登录node1节点后台,执行ssh-keygen -t ed25519命令,生成SSH对称认证所需的公钥和私钥文件。保存该公/私钥的文件名默认为/home/admin/.ssh/id_ed25519,文件名不允许修改。

b.     首先清理各节点的旧公钥信息。然后将生成的公钥拷贝至各个节点(包括当前登录的节点)。下面以集群中有三个Master节点并且SSH端口号为默认的22为例进行配置说明。其中,node1 IP地址为192.168.227.171;node2 IP地址为192.168.227.172;node3 IP地址为192.168.227.173。

[admin@node1 ~]$ ssh-keygen -R 192.168.227.171

[admin@node1 ~]$ ssh-keygen -R 192.168.227.172

[admin@node1 ~]$ ssh-keygen -R 192.168.227.173

[admin@node1 ~]$ ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]

[admin@node1 ~]$ ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]

[admin@node1 ~]$ ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]

c.     登录其它节点后台,执行步骤(a)和(b)命令。

d.     admin用户登录节点后台,SSH到当前节点及其它节点,验证SSH密钥配置是否生效。

[admin@node1 ~]$ ssh -p 22 [email protected]

(2)     配置root到admin用户密钥配置

a.     admin用户登录node1节点后台,并将用户切换至root用户下。

b.     请依次执行以下操作:生成新的公钥和私钥文件,清理旧的公钥信息,并将新公钥拷贝到所有节点(包括当前登录的节点)。

c.     登录其它节点后台,执行步骤(a)和(b)命令。

d.     admin用户登录节点后台,并将用户切换至root用户下。SSH到当前节点及其它节点的admin用户,验证SSH密钥配置是否生效。

[root@node1 ~]# ssh -p 22 [email protected]

3. Matrix侧SSH密钥登录配置

(1)     使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,查看该文件中是否存在sshLoginMode字段,若存在,将该字段取值修改为secret;若不存在,则需手动添加该字段并为其赋值。下面以x86版本为例进行说明。

{

…略

"sshLoginMode":"secret"

}

(2)     重启Matrix服务,使SSH登录方式修改生效。

[root@node1 ~]# systemctl restart matrix

(3)     查看修改的SSH登录方式是否生效。

[root@node1 ~]# cat /var/log/matrix-diag/Matrix/Matrix/matrix.log | grep "sshLoginMode"

2022-03-31T20:11:08,119 | INFO  | features-3-thread-1 | CommonUtil.start:245 | ssh port = 22, sshLoginMode = secret.

 


7 部署统一数字底盘

注意

·     对于使用内置NTP服务器的场景,在部署集群之前,需确保所有节点的系统时间和当前时间保持一致。对于使用外置NTP服务器作为时钟同步源的场景,需确保外置NTP服务器的时间与当前时间保持一致。如果NTP服务器网络不通、出现故障或时间不准确时,可能导致Matrix集群部署失败。

·     查看及修改节点系统时间的命令如下:date(查看系统时间);date -s yyyy-mm-dd(修改系统时间的年月日);date -s hh:mm:ss(修改系统时间的时分秒)。

·     在应用部署、升级过程中,不能执行重启Matrix服务、重启节点和断开节点服务器电源操作,否则会造成应用部署数据出现损坏(例如Etcd数据错误、磁盘文件损坏等),造成应用部署、升级失败。

 

7.1  部署前的检查

(1)     依次登录各节点后台,执行sudo bash /opt/matrix/tools/env_check.sh命令进行环境检查,并根据检查结果进行相应处理。

说明

·     统一数字底盘支持的所有操作系统都可执行env_check.sh脚本。

·     在CPU频率低于2000MHz的情况下,Matrix的自检脚本(env_check.sh)和健康检查模块会打印CPU频率告警。请检查服务器硬件是否满足要求,并确保CPU供电模式设置为高性能(performance)模式(例如NingOS系统可执行cpupower frequency-set -g performance命令)。

·     可在节点后台执行sudo bash /opt/matrix/tools/env_check.sh -h命令查看帮助,获取更多脚本使用方式。例如:查询Etcd磁盘IOPS性能的命令为sudo bash /opt/matrix/tools/env_check.sh -p -d /var/lib/etcd

·     集群部署完成后,docker、chrony等服务会自动启动,无需关注其检查结果。

 

下表中所示的各项未在env_check.sh脚本中进行检查,请手动确认,确保安装Matrix的条件已经具备。

表7-1 安装环境确认

检测项

检测标准

网口

Matrix单独使用一个网口,不允许在此网口上配置子接口及子IP。

IP地址

·     Matrix节点其它网口上的IP地址不允许和本节点Matrix使用的IP地址相同网段。

·     节点与Matrix集群其它节点通信使用的IP源地址,必须为建立Matrix集群使用的IP地址。可以使用命令ip route get targetIP获取主机访问目标IP时使用的源地址,其中targetIP为目标IP。

[root@node1 ~]# ip route get 100.100.5.10

100.100.5.10 via 192.168.10.10 dev eth0 src 192.168.5.10

时区

·     请确保Matrix所有节点的系统时区必须相同(可使用命令timedatectl查看各节点的系统时区),否则将会导致在GUI页面上增加节点失败。

·     若选择中国标准时区,请选择亚洲/上海,不允许选择“亚洲/北京”(未被正式收录)。

主机名

请确保主机名符合如下标准,否则集群将会建立失败。

·     各节点的主机名不能相同。

·     请勿使用默认主机名(localhost、localhost.localdomain、localhost4、localhost4.localdomain4、localhost6、localhost6.localdomain6)。

·     主机名称最长63个字符,仅支持小写字母、数字、连字符和小数点,不能以0开头且全为数字,不能以0x、连字符、小数点开头,不能以连字符、小数点结尾。

 

(2)     在部署统一数字底盘UDTP_Base_version_platform.zip组件前,请在各节点执行cat /proc/sys/vm/nr_hugepages命令检查大页是否开启,如果返回结果不是0,请记录该值,并执行echo 0 > /proc/sys/vm/nr_hugepages命令临时关闭大页。待部署UDTP_Base_version_platform.zip组件完成后,再将echo 0 > /proc/sys/vm/nr_hugepages命令中的数字0改为记录的值,并在各节点执行,以恢复大页配置。

7.2  创建Matrix集群

7.2.1  登录Matrix

说明

·     可在Matrix上进行如下操作:上传、删除统一数字底盘应用安装包;部署、升级、扩容、卸载统一数字底盘应用;升级、重建集群节点;增加、删除Worker节点。

·     部署集群节点时,要求主机名称不得重复,当集群部署成功后,不允许修改集群节点的主机名。

·     集群部署过程中不支持登录集群各节点进行任何操作,也不支持在其他集群中添加当前集群部署中的节点。

 

(1)     在浏览器中输入Matrix的登录地址,进入如下图所示登录页面。

a.     若使用IPv4地址,登录地址格式为:https://ip_address:8443/matrix/ui。本文档后续配置均以IPv4配置为例。

b.     若使用IPv6地址,登录地址格式为:https://[ip_address]:8443/matrix/ui

登录地址中参数含义如下:

ip_address为节点IP地址。

8443为缺省端口号。

说明

采用集群部署模式时,未部署集群之前,ip_address可以是任意一个规划为Master节点的IP地址。

 

图7-1 Matrix登录页面

 

(2)     输入用户名和密码(默认用户名为admin,密码为Pwd@12345)后,单击<登录>按钮,默认进入Matrix的集群部署页面,部署双栈集群需要开启双栈按钮。

图7-2 集群单栈部署页面

 

图7-3 集群双栈部署页面

7.2.2  配置集群参数

部署集群节点前,需要先配置集群参数。配置集群参数,各参数的介绍如下两表所示。

表7-2 单栈集群参数说明

参数

说明

北向业务虚IP

集群对外提供服务的IP地址,该地址必须在Master节点所处的网段内。

Service IP地址池

用于为Service分配IP地址,不能与部署环境中的其它网段冲突。默认地址为10.96.0.0/16,一般保持缺省值。

容器IP地址池

用于为容器分配IP地址,不能与部署环境中的其它网段冲突。默认地址为177.177.0.0/16,一般保持缺省值。

虚IP模式

取值为内置虚IP、外置虚IP。内置模式下虚IP由Matrix下发到集群内,并由Matrix管理虚IP在集群节点间的漂移;外置模式下,虚IP由第三方平台或软件下发到集群外,不再由Matrix管理。默认为内置模式。

说明:E0713版本开始,新增该字段。

集群网络模式

·     单子网:集群内所有节点、虚IP必须在相同网段内,否则将无法互相通信。

·     多子网:多子网模式允许节点和虚IP处于不同子网。启用多子网模式前必须完成所有节点的路由配置。

·     单子网-VXLAN:集群内所有节点、虚IP必须在相同网段内,否则将无法互相通信。单子网-VXLAN模式仅支持IPv4网络。

¡     如果在集群上联交换机上配置安全策略如ACL,不允许以Service IP地址池和容器IP地址池中的地址为源的报文转发,需要使用单子网VXLAN。

¡     在公有云和私有云场景下,因为云上的网络限制,需要使用单子网VXLAN网络。

CPU厂商

请根据实际使用的物理CPU厂商正确选择对应的CPU厂商类型。

应用可能会根据不同CPU厂商的性能差异,自动调整自身的资源使用限制。若选择的CPU厂商与实际情况不符,可能导致应用无法合理调整资源配额,从而影响性能和资源利用效率。

NTP服务器

·     用于保证集群内各节点系统时间的一致性,支持选择内置服务器和外置服务器。选择外置服务器时,需要配置NTP服务器地址,且该地址不可与集群内各节点的IP地址冲突。

·     本文档使用内置服务器作为NTP服务器,则部署集群时会首先进行时间同步,集群部署完成后,三台Master节点会定时同步时间,从而保证集群内各节点的系统时间保持一致。

·     如需部署上下级环境,必须为上级和下级配置相同的NTP服务器,以确保上下级的时间一致。

外置DNS服务器

用于解析K8s集群外部的域名,格式为IP:Port,部署统一数字底盘可根据实际需要配置外置DNS服务器。本文档中不配置此项。

·     容器解析域名时,集群外部的域名无法被内置DNS服务器解析,本平台将把需要解析的外部域名随机转发给一台外置DNS服务器来解析。

·     外置DNS服务器最多可以配置10个,各外置DNS服务器要求具有相同的DNS解析能力,并可以独立满足外部域名解析需求、无主备之分、无先后顺序之分。

·     建议所有的DNS服务器都能够访问根域,可使用命令行nslookup -port={port} -q=ns . {ip}查看是否可以访问。

自定义虚IP

通常用于隔离集群网络与管理网络。不能与部署环境中的其它网段冲突。

 

表7-3 双栈集群参数说明

参数

说明

北向业务虚IP(IPv4、IPv6)

集群对外提供服务的IP地址,该地址必须在Master节点所处的网段内,分别分配IPv4地址,IPv6地址。北向业务虚IP至少配置一个IPv4或IPv6,不可同时配置两个相同协议的IP。配置IPv6地址时,请勿以冒号结尾。

Service IP地址池

双栈环境下生效。

用于为Service分配IPv4、IPv6地址,默认IPv4地址为10.96.0.0/16,默认IPv6地址为fd00:10:96::/112,一般保持缺省值。集群部署后不允许更改。

该地址池不能与部署环境中其它网段冲突,否则可能会导致集群异常。

容器IP地址池

双栈环境下生效。

用于为容器分配IPv4、IPv6地址,默认IPv4地址为177.177.0.0/16,默认IPv6地址为fd00:177:177::/112,一般保持缺省值。集群部署后不允许更改。

该地址池不能与部署环境中其它网段冲突,否则可能会导致集群异常。

虚IP模式

取值为内置虚IP、外置虚IP。内置模式下虚IP由Matrix下发到集群内,并由Matrix管理虚IP在集群节点间的漂移;外置模式下,虚IP由第三方平台或软件下发到集群外,不再由Matrix管理。默认为内置模式。

说明:E0713版本开始,新增该字段。

集群网络模式

双栈模式下仅支持单子网模式。

单子网:集群内所有节点、虚IP必须在相同网段内,否则将无法互相通信。

NTP服务器

·     用于保证集群内各节点系统时间的一致性,支持选择内置服务器和外置服务器。选择外置服务器时,需要配置NTP服务器地址,且该地址不可与集群内各节点的IP地址冲突。

·     本文档使用内置服务器作为NTP服务器,部署集群时会首先进行时间同步,集群部署完成后,三台Master节点会定时同步时间,从而保证集群内各节点的系统时间保持一致。

·     如需部署上下级环境,必须为上级和下级配置相同的NTP服务器,以确保上下级的时间一致。

CPU厂商

请根据实际使用的物理CPU厂商正确选择对应的CPU厂商类型。

应用可能会根据不同CPU厂商的性能差异,自动调整自身的资源使用限制。若选择的CPU厂商与实际情况不符,可能导致应用无法合理调整资源配额,从而影响性能和资源利用效率。

外置DNS服务器

用于解析K8s集群外部的域名,格式为IP:Port,部署统一数字底盘可根据实际需要配置外置DNS服务器。本文档中不配置此项。

·     容器解析域名时,集群外部的域名无法被内置DNS服务器解析,本平台将把需要解析的外部域名随机转发给一台外置DNS服务器来解析。

·     外置DNS服务器最多可以配置10个,各外置DNS服务器要求具有相同的DNS解析能力,并可以独立满足外部域名解析需求、无主备之分、无先后顺序之分。

·     建议所有的DNS服务器都能够访问根域,可使用命令行nslookup -port={port} -q=ns . {ip}查看是否可以访问。

自定义虚IP

通常用于隔离集群网络与管理网络。不能与部署环境中的其它网段冲突。

 

说明

若NTP服务器不与北向地址相通,可以先不增加NTP服务器。待集群创建完成后,在配置网卡网络时,通过修改集群参数再增加。

 

7.2.3  创建集群

单机部署模式下,仅需增加一个Master节点即可部署集群。集群部署模式下,需要增加三个Master节点后,再部署集群。

注意

不支持创建1Master+nWoker(n>0)模式的集群。

 

(1)     配置集群参数后,单击<下一步>按钮,进入创建集群页面,如下图所示。

图7-4 集群部署页面

(2)     单击Master节点区域的增加图标,弹出增加节点窗口,如下图所示。

图7-5 增加单栈节点窗口

 

图7-6 增加双栈节点窗口

(3)     配置如下参数:

¡     类型:显示为“Master”,且不可修改。

¡     IP地址:规划的Master节点的IP地址。支持批量添加Master节点,批量添加模式下,各Master节点的用户名和密码需相同。

¡     用户名:节点操作系统的用户名。根据安装操作系统时实际选择的用户填写。集群中所有节点的用户名必须相同。

¡     密码:节点操作系统的用户密码。

¡     SSH端口号:默认为22。

(4)     单击<确定>按钮,完成增加Master节点操作。

(5)     单击<开始部署>按钮,开始部署集群,当所有节点的进度达到100%时,表示集群部署成功。

集群部署成功后,主Master节点会在节点左上角显示标记,其余未被标记的Master节点为备用Master节点。

(6)     集群部署完成后,配置网络和部署应用的操作可以先跳过,后期根据实际需要再进行配置。

图7-7 集群部署完成

说明

Matrix部署完成后,如需执行kubectl命令,请断开重连当前SSH会话后再执行对应命令,否则kubectl命令无法执行,提示The connection to the server localhost:8080 was refused - did you specify the right host or port?

 

7.3  部署统一数字底盘应用安装包

用户可以选择标准部署模式或代理部署模式。组件安装完成后将无法更改部署模式。

·     标准部署模式:适用于标准架构的系统,以及Server-Proxy架构的Server端。支持部署统一数字底盘所有组件。

·     代理部署模式:用于Server-Proxy架构中的Proxy端。仅支持部署统一数字底盘的Base、Connect、UCP_BasePlat和UCP_CollectPlat组件。

注意

·     使用批量上传功能同时上传应用包时,浏览器部署页面不能关闭,PC不可以进入睡眠状态、不可以断开PC到集群的网络(可以切换浏览器页签、最小化浏览器、锁定PC屏幕),否则会导致部分组件不能正常部署。

·     在部署过程中,概率出现集群资源(CPU、内存)达到使用阈值的情况,会造成部分组件不能正常部署,可稍后尝试部署未部署的组件。

·     批量部署的应用数量较多时,可能存在资源争抢,导致个别应用部署失败,针对部署失败的应用,可以单击页面的<重试>按钮,尝试重新部署。

·     Connect组件中的websocket、region、netconf,以及Common组件中的incident应用服务默认不启动。只有在部署依赖这些应用服务的其他组件时,它们才会自动启动。否则,需要根据场景需求在Matrix页面手动开启,手动开启方法请参见如何在Matrix页面开启统一数字底盘组件应用服务?

·     如果需要将统一数字底盘从E7103版本升级到E7104或更高版本的精简proxy模式,请参见《精简proxy升级工具使用指导》获取具体方法。

·     如需修改部署模式(例如标准模式修改为代理模式),请重装Matrix。仅通过重装Base组件进行修改可能会导致其他组件部署异常。

 

7.3.1  部署统一数字底盘Base应用包(标准模式)

注意

上传安装包时,需保证浏览器到集群之间的网络连接稳定,且连接带宽不能低于10Mbps,否则会导致安装包上传耗时长或上传失败。

 

应用包仅支持在Matrix页面进行部署,支持批量上传应用包,但必须先部署Base,再部署其他应用。

(1)     在浏览器中输入“https://ip_address:8443/matrix/ui”,登录Matrix。其中“ip_address”为北向业务虚IP地址。

(2)     单击[部署>应用]菜单项,进入应用部署页面。

图7-8 应用部署页面

 

(3)     单击<安装包管理>按钮,进入安装包管理页面。

(4)     单击<上传>按钮,在弹框中上传Base应用安装包。

图7-9 安装包管理页面

 

(5)     上传完成后,单击“返回”链接,返回至应用部署页面。

(6)     单击<安装>按钮,进入应用选择页面。

(7)     部署模式选择“标准”,勾选Base应用。

图7-10 应用选择页面

 

(8)     单击<下一步>按钮,进入安装包选择页面,选择对应的安装包。选择完成后单击<下一步>按钮。

图7-11 安装包选择页面

 

(9)     在资源配置页面选择对应的资源档位。选择完成后单击<下一步>按钮。

图7-12 资源配置页面

 

(10)     单击<修改>按钮,配置Base参数,配置完成后单击<确定>按钮保存配置。

表7-4 Base参数配置说明

配置项

配置项参数说明

部署协议

可选择http和https。

HTTP协议端口号

缺省值30000。

HTTPS协议端口号

缺省值30443。

主题

可选择white、star。

语言

可选择zh_CN、en_US。

第三方数据库

可选择是否启用第三方数据库。

 

图7-13 参数配置页面

 

(11)     参数配置完成后单击<部署>按钮。

(12)     在弹框中确认参数信息。确认无误后,单击<确定>按钮,开始部署Base应用。

7.3.2  部署统一数字底盘Base应用包(代理模式)

注意

上传安装包时,需保证浏览器到集群之间的网络连接稳定,且连接带宽不能低于10Mbps,否则会导致安装包上传耗时长或上传失败。

 

应用包仅支持在Matrix页面部署,且必须优先部署Base组件;支持批量上传应用包,可选组件可与Base同时部署或在Base部署完成后单独部署,但若待部署组件存在依赖组件,则需连同依赖组件一并部署或确保依赖组件已提前部署完成。

(1)     在浏览器中输入“https://ip_address:8443/matrix/ui”,登录Matrix。其中“ip_address”为北向业务虚IP地址。

(2)     单击[部署>应用]菜单项,进入应用部署页面。

(3)     单击<安装包管理>按钮,进入安装包管理页面。

(4)     单击<上传>按钮,在弹框中上传Base应用安装包。

图7-14 安装包管理页面

 

(5)     上传完成后,单击“返回”链接,返回至应用部署页面。

(6)     单击<安装>按钮,进入应用选择页面。

(7)     部署模式选择“代理”,勾选Base应用。

图7-15 应用选择页面

 

(8)     单击<下一步>按钮,进入安装包选择页面,选择对应的安装包。选择完成后单击<下一步>按钮。

图7-16 安装包选择页面

 

(9)     在资源配置页面选择对应的资源档位。选择完成后单击<下一步>按钮。

图7-17 资源配置页面

 

(10)     在代理模式下无需配置Base参数,直接单击<部署>按钮。

图7-18 参数配置页面

 

(11)     在弹框中单击<确定>按钮,开始部署Base应用。


8 安装U-Center 5.0

8.1  安装说明

·     安装步骤和截图均以E7401版本为例,具体操作请依据实际使用的版本进行。

·     安装时间会根据网络规模和组件的不同而有所变化,以单机小规模为例,通常需要0.6~0.7小时。

·     底盘单机部署时,U-Center可以在标准模式或Proxy模式(即代理模式)下进行部署,集群部署时仅支持标准模式。安装详细步骤分别见安装应用(标准模式)安装应用(Proxy模式)

·     NSM、NSM_Extend详细安装步骤请见《H3C NSM安装部署指导》

8.2  安装应用(标准模式)

U-Center组件相关的安装包请见获取软件包,用户可以按需部署BMP、ITOM和NSM安装包。

8.2.1  上传安装包

·     应用部署页面可对指定应用进行查看详情、扩容、升级等操作。

·     请通过Matrix前台页面进行安装包上传操作,严禁通过后台传包。如果在特殊网络环境下需要通过后台传包,请联系技术支持工程师。

 

(1)     在浏览器中访问标准模式的底盘环境“https://ip_address:8443/matrix/ui”,输入Matrix的用户名和密码(默认用户名为admin)登录Matrix。其中“ip_address”为北向业务虚IP地址。

(2)     单击[部署>应用]菜单项,进入应用部署页面。

图8-1 应用部署

 

(3)     单击<安装包管理>按钮,进入安装包管理页面。该页面支持对安装包进行上传、删除等操作。

图8-2 安装包管理

 

(4)     单击<上传>按钮,在弹出窗口中单击<选择文件>按钮,选择一个或多个安装包文件后,单击<上传>按钮开始上传,上传完成后将自动回到安装包管理页面。

上传安装包支持两种方式:

·     上传ITOM包:上传ITOM组件总包,上传完成后会自动解压成组件安装包。

·     上传组件包:直接上传各组件安装包。

 

图8-3 上传ITOM组件总包

 

8.2.2  开始安装

(1)     安装包上传完成后,返回应用列表页面。

(2)     单击<安装>按钮,进入应用选择页面。

¡     场景选择:系统预置了3个典型应用场景,分别是U-Center统一运维场景、U-Center基础网管场景和U-Center ICT监控场景。用户可以按需选择单个或多个场景,系统将自动勾选已上传安装包且为该场景推荐的应用,用户可以根据需要取消或增加其他应用。

表8-1 U-Center典型应用场景

应用场景

场景特点

包含组件

U-Center 统一运维场景

聚集ICT全域资源统一管理

BMP_Common

BMP_Connect

BMP_Report

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

BMP_CMDB

ITOM_IOM

ITOM_AGENT

ITOM_ITSM

ITOM_BSM

ITOM_UEM

ITOM_ICE

ITOM_PIPM

ITOM_IPMS

ITOM_JOB

ITOM_PyCollector

ITOM_STM

ITOM_NQA

NSM_Res

NSM_Perf

U-Center 基础网管场景

聚焦网管业务功能

BMP_Common

BMP_Connect

BMP_Report

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

BMP_CMDB

NSM_Res

NSM_Perf

U-Center ICT监控场景

聚焦ICT基础设施监控管理功能

BMP_Common

BMP_Connect

BMP_Report

BMP_UCP_BasePlat

BMP_UCP_CollectPlat

BMP_CMDB

ITOM_AGENT

ITOM_IOM

NSM_Res

NSM_Perf

 

¡     自定义选择:用户可以根据需要自定义勾选一个或多个应用来进行安装。

·     当场景推荐的应用已全部安装时,场景名字展示为置灰状态无法勾选。

·     对于有依赖关系的应用,将自动勾选其所依赖的应用。如果依赖的应用未被部署或不在当前已有安装包内,则会提示相关信息。

 

图8-4 应用选择

 

(3)     单击<下一步>按钮,进入安装包选择页面。系统将自动选择默认安装包,用户也可以手动选择,选择后系统将对安装包进行校验。

图8-5 安装包选择

 

 

(4)     校验通过后,单击<下一步>按钮,进入资源配置页面,选择合适的资源档位。资源档位根据硬件资源计算工具中的“资源档位”结果进行选择。

图8-6 资源配置

 

(5)     单击<下一步>按钮,进入参数配置页面。根据页面提示,部分应用需配置参数。

配置参数说明:

·     BMP_UCP_BasePlat、BMP_CMDB、ITOM_ITSM:需要选择部署的节点,单机部署模式下只有一个节点且必选。

·     BMP_Extension:需要配置智能算法库和密码平台服务相关参数。

·     BMP_Syslog:需要配置接收端口。

 

图8-7 参数配置

 

(6)     单击<部署>按钮,在弹出对话框中对依赖的中间节点和需要安装的应用进行确认,若在上一步骤有选择部署节点,还需确认应用节点。单击<确定>按钮,开始部署。

图8-8 参数确认

 

图8-9 部署中

 

(7)     部署成功后,将自动回到应用列表页面,查看已部署的应用。

图8-10 查看已部署应用

 

8.3  安装应用(Proxy模式)

8.3.1  Proxy部署说明

U-Center使用Proxy采集需准备两套环境:U-Center 5.0 Server(即按标准模式部署的环境)和U-Center 5.0 Proxy(即按代理模式部署的环境),Server为用户提供了统一的操作入口,用户所有的操作都在Server端进行,Proxy端只负责数据采集。

Proxy部署模式下,U-Center支持安装部分组件,如下表所示,用户可以按需部署安装包。

表8-2 Proxy部署应用安装包

产品包

安装包名称

说明

版本

UDTP

UDTP_Base_version_platform.zip

必选

E7104及以后版本

BMP

BMP_Connect_version_platform.zip

必选

BMP_UCP_BasePlat_version_platform.zip

可选

BMP_UCP_CollectPlat_version_x86.zip

可选

ITOM

ITOM_AGENT_version_platform.zip

可选

E7103及以后版本

ITOM_IOM_version_platform.zip

可选

ITOM_STM_version_platform.zip

可选

ITOM_NQA_version_platform.zip

可选

ITOM_PYCOLLECTOR_version_platform.zip

可选

NSM

NSM_RES_version.zip

可选

E7104及以后版本

NSM_PERF_version.zip

可选

NSM_ICC_version.zip

可选

 

说明

·     Proxy模式下安装的组件,需确保标准模式下对应组件已安装且版本保持一致。

·     如需在Proxy部署模式下使用Agent采集应用,必须安装ITOM_AGENT。

·     Proxy部署开放端口详情请见U-Center端口矩阵使用说明书。

·     在Proxy模式下,底盘从单机扩容至集群时,UCP组件无法扩容,依赖UCP的其他组件亦无法扩容。

 

8.3.2  ‍‍上传安装包

请通过Matrix前台页面进行安装包上传操作,严禁通过后台传包。如果在特殊网络环境下需要通过后台传包,请联系技术支持工程师。

 

(1)     在浏览器中访问Proxy模式的底盘环境“https://ip_address:8443/matrix/ui”,输入Matrix的用户名和密码(默认用户名为admin)登录Matrix。其中“ip_address”为北向业务虚IP地址。

(2)     单击[部署>应用]菜单项,进入应用列表页面。

图8-11 应用列表

 

(3)     单击<安装包管理>按钮,进入选择安装包页面。该页面支持对安装包进行上传、删除等操作。

图8-12 安装包管理

 

(4)     单击<上传>按钮,在弹出窗口中单击选择一个或多个安装包文件后,单击<上传>按钮开始上传。

图8-13 上传安装包

 

8.3.3  开始安装

(1)     安装包上传完成后,回到应用列表页面。

(2)     单击<安装>按钮,进入应用选择页面。

¡     场景选择:系统预置了3个典型应用场景,分别是U-Center统一运维场景、U-Center基础网管场景和U-Center ICT监控场景,各场景推荐应用请参考开始安装中的表“U-Center典型应用场景”。用户可以按需选择单个或多个场景,系统将自动勾选已上传安装包且为该场景推荐的应用,用户可以根据需要取消或增加其他应用。

¡     自定义选择:用户可以根据需要自定义勾选一个或多个应用来进行安装。

图8-14 应用选择

 

(3)     单击<下一步>按钮,进入安装包选择页面。系统将自动选择默认安装包,用户也可以手动选择,选择后系统将对安装包进行校验。

图8-15 选择安装包

 

(4)     校验通过后,单击<下一步>按钮,进入资源配置页面,选择合适的资源档位。资源档位根据硬件资源计算工具中的“资源档位”结果进行选择。

图8-16 资源配置

 

(5)     单击<下一步>按钮,进入配置参数页面。根据页面提示,部分应用需配置参数。

BMP_UCP_BasePlat:需要选择部署的节点,单机部署模式下只有一个节点且必选。

 

图8-17 配置参数

 

(6)     单击<部署>按钮,在弹出对话框中对依赖的中间节点和需要安装的应用进行确认,若在上一步骤有选择部署节点,还需确认应用节点。单击<确定>按钮,开始部署。

图8-18 参数确认

 

图8-19 部署中

 

(7)     部署成功后,将自动回到应用列表页面,查看已部署的应用。

图8-20 查看已部署应用

 

8.3.4  启动region

Proxy部署应用完成后,需启动region应用,确保U-Center中的“分级管理”菜单显示。

(1)     前往Proxy关联的Server端Matrix,在顶部导航“观测”菜单下,单击[监控>应用监控]菜单项,进入应用监控页面。

(2)     展开BMP_Connect组件下的应用,单击region应用操作列的按钮,开启region。

图8-21 开启region

 

 


9 访问U-Center 5.0

(1)     在浏览器中输入U-Center 5.0的登录地址“http://ip_address:30000”,其中“ip_address”为配置的北向业务虚IP,30000为缺省端口号,进入登录页面。

说明

Proxy所在环境IP不支持访问U-Center,仅能通过其关联的Server端的IP进行访问。

 

图9-1 登录U-Center 5.0

 

(2)     输入操作员名称和密码(默认用户名为admin)后,单击<登录>按钮,进入U-Center 5.0主页面。

(3)     若在Proxy部署应用中已启动region,则在[系统>系统配置]菜单下将会显示“分级管理”菜单,并可在该页面对管理站进行管理操作,例如增加Proxy站点并在增加监控资源时使用,具体操作请见页面联机帮助。

图9-2 分级管理菜单

 


10 软件注册

U-Center 5.0部署完成后,需要获取License授权后才能正常使用。已购买产品的用户,使用软件授权函中包含的授权码进行后续注册流程。如果是项目试用,请联系H3C相关市场人员进行试用授权申请获取相关授权。

10.1  License支持情况说明

License支持情况说明介绍了U-Center 5.0具体各个组件功能需要通过License授权以及License授权的相关属性,请参见《H3C智能运维U-Center产品License支持情况说明》

10.2  安装并获取授权

关于授权的申请和安装详细过程,请参见《H3C软件产品远程授权License使用指南》。License文件导入H3C License Server授权管理系统后,需配置U-Center 5.0统一运维平台(作为License Client)使其与License Server联通。

1. 创建License Server客户端

(1)     登录H3C License Server授权管理系统,单击[首页>客户端管理>客户端配置]菜单项,进入客户端配置页面。

(2)     单击<增加>按钮,进入增加客户端页面,配置客户端名称与客户端密码。

(3)     单击<确认>按钮,增加客户端。

2. 配置客户端连接

用于配置客户端连接License Server并获取授权。

(1)     登录U-Center 5.0统一运维平台。

(2)     选择“系统”页签,在左导航中单击[License管理>License信息]菜单项。

(3)     在License Server信息区域的输入框中输入License Server IP地址等参数,单击<连接>按钮,开始与License server建立连接。参数说明如下:

¡     IP地址:License Server所在服务器的IP地址。

¡     端口号:缺省值为“5555”,与License Server授权服务端口号保持一致。

¡     客户端名称:License Server中设置的客户端名称。

¡     客户端密码:License Server中设置的客户端名称对应的密码。

(4)     成功建立连接即可从License server上获取授权。连接状态显示“连接成功”后,等待一会儿,单击按钮可刷新当前License信息。

·     启动客户端服务时,需保证License Server的防火墙处于关闭状态,否则可能造成License Server不可连接。

·     启动客户端服务时,需保证License Server有未被申请的授权,否则可能造成License Client服务取不到任何授权。

 

3. 查看License使用状况

登录License Server授权管理系统,单击“客户端管理>客户端连接”菜单项,进入客户端连接信息页面。该页面用于显示License Server的客户端连接信息,并可对客户端连接进行管理,如进行强制下线等操作。

·     在列表中单击最左侧的复选框选中指定客户端,单击<下线客户端>按钮,可批量下线已选中的所有客户端,或单击<下线全部客户端>按钮,可下线所有客户端。

·     在“操作”区段中单击“详情”图标,进入客户端连接详情页面。单击授权列表操作列“强制回收授权”图标,可以强制回收该授权,或单击<强制回收所有授权>按钮,可以强制回收分配给该客户端的所有授权。

 

 


11 备份恢复

主要用于备份和恢复统一数字底盘和组件的配置数据等。

使用备份文件进行配置恢复时,需注意:

·     请勿在备份或恢复的过程中对产品进行配置操作。

·     必须使用同一时间点的统一数字底盘及组件的备份文件进行恢复,建议使用同一时间的定时备份文件进行恢复。

·     待恢复的环境必须与备份环境的节点个数相同。

·     待恢复的环境必须与备份环境安装相同版本、相同数量的组件。

11.1  备份配置

11.1.1  统一数字底盘及组件备份

支持定时备份和手动备份两种方式,可以将备份文件保存在统一数字底盘所在的服务器、远端服务器或将备份文件下载到本地。备份文件的命名规则为:前缀名_组件名称_版本号_创建时间_备份模式(M/A.zip,其中,前缀名为用户自定义的,若不配置,则不显示。备份模式取值为M或A,分别表示手动备份或自动备份。

(1)     登录统一数字底盘,进入[系统>应急管理>备份恢复]页面。

(2)     单击<备份参数配置>按钮,在弹出窗口中配置备份参数。

(3)     单击<确定>按钮,保存备份参数配置。

开启定时备份功能后,统一数字底盘会定时备份统一数字底盘及其上部署的所有组件,并根据设置,将备份文件保存到指定路径。

(4)     单击<开始备份>按钮,在弹出窗口中选择备份组件后,可进行手动备份。

11.2  恢复配置

11.2.1  统一数字底盘及组件恢复

支持上传备份文件恢复和通过备份历史列表恢复两种方式,将产品恢复到备份时的状态。如需同时恢复统一数字底盘和组件的配置,请先恢复统一数字底盘,再恢复组件。

(1)     登录统一数字底盘,进入[系统>应急管理>备份恢复]页面。

(2)     可通过上传备份文件进行配置恢复:

a.     单击如下图所示区域,在弹出窗口中选择本地保存的备份文件进行上传,或拖拽本地保存的备份文件到此区域。

图11-1 上传备份文件区域

 

b.     单击<开始恢复>按钮,进行配置恢复。

(3)     通过备份历史列表进行配置恢复:

a.     在备份历史列表中,单击某条备份记录对应操作列的“恢复”图标,弹出确认窗口。

b.     单击<确定>按钮,进行配置恢复。

注意

恢复统一数字底盘时,由于UnifiedPlatform组件备份的都为配置数据(例如:操作员数据、租户数据、菜单数据、路由配置数据、系统配置,访问端口、访问协议等;权限、角色等),所以UnifiedPlatform组件的数据必须恢复,如不恢复,将会导致统一数字底盘运行异常。

 

 


12 集群故障重建与恢复

注意

·     补丁版本环境下,节点重建之前,首先执行systemctl status matrix命令检查Matrix服务。如果存在该服务,则执行sudo bash /opt/matrix/uninstall.sh命令进行卸载,随后安装与集群其他节点相同版本的Matrix包。

·     待重建节点的配置要求需与原故障节点一致,包括主机名、网卡名称、节点IP地址、用户名、密码、磁盘(包含磁盘名称、分区大小和文件系统)以及RAID模式。

·     重建功能仅可以重建备用Master节点和Worker节点,如需重建主用Master节点,请先进行主备切换操作,具体方法为:在Matrix页面上单击主用Master节点的“重建”选项后,根据页面提示进行主备切换。

·     在PolarDB集群部署环境中,如需重装PolarDB节点的操作系统,请在完成安装后参考《第三方数据库PolarDB v2.0安装部署指导》的集群节点操作系统重装修复流程章节进行PolarDB的恢复。请依次对每个节点执行操作系统的重装和PolarDB的恢复。

 

若集群节点服务器的硬件出现故障,导致节点服务器运行异常且无法恢复时,需要更换新的节点服务器,或节点服务器操作系统异常,都需在原服务器上重新安装操作系统和Matrix。

12.1  单机集群故障重建与恢复

适用于单机集群中节点故障的情况。

操作步骤如下:

(1)     统一数字底盘必须已进行自动备份。

(2)     可选,重新安装操作系统和Matrix。

注意

·     重装操作系统后安装的Matrix版本必须与旧节点相同。

·     重装操作系统后,需为节点重新配置密钥登录,配置方法请参见密钥登录

·     重装操作系统时需完成以下内容:安装操作系统ISO镜像、操作系统依赖包以及相关补丁。补丁的安装方法请参见对应版本《版本说明书》中“升级操作系统依赖包”章节。

 

(3)     必选,在节点执行cd /var/lib/ssdata && rm -rf /var/lib/ssdata/*命令清理数据目录。非root用户则执行cd /var/lib/ssdata && sudo rm -rf /var/lib/ssdata/*命令。

(4)     必选,重新部署故障前的所有应用。

(5)     必选,恢复统一数字底盘系统数据,方式可参考备份恢复

12.2  多机集群单节点故障重建与恢复

适用于若干节点正常部署并组建集群后,其中一个节点出现故障的情况,此时可通过节点重建操作恢复故障节点。

操作步骤如下:

(1)     可选,重新安装操作系统和Matrix。

注意

·     重装操作系统后安装的Matrix版本必须与旧节点相同。

·     重装操作系统后,需为集群内所有节点配置密钥登录,配置方法请参见密钥登录

·     重装操作系统时需完成以下内容:安装操作系统ISO镜像、操作系统依赖包以及相关补丁。补丁的安装方法请参见对应版本《版本说明书》中“升级操作系统依赖包”章节。

 

(2)     必选,重建单节点:

操作系统和Matrix安装完成后,登录Matrix,进入[部署>集群>集群部署]页面,单击故障节点右上角的“设置”图标,在下拉菜单中选择“重建”选项,在弹出窗口中选择重建方式。

说明

重装操作系统后,只能通过方式二重建单节点。

 

¡     方式一:单击上传与当前节点相同版本的软件包进行节点重建,并上传重建文件,单击<应用>按钮。

¡     方式二:单击使用系统中原有的节点部署文件进行重建,单击<应用>按钮。

(3)     节点重建完成后,查看节点状态和所有Pod状态是否恢复正常,节点和Pod状态都正常表示集群数据和统一数字底盘数据都已恢复。

12.3  多机集群多节点故障重建与恢复

12.3.1  两个Master节点故障重建与恢复

当集群中的两个Master节点发生故障无法恢复时,集群将自动进入紧急模式。

操作步骤如下:

(1)     可选,任意一个故障节点重新安装操作系统和Matrix。

当多个节点故障时,请依次对每个节点进行操作,具体步骤为:

a.     重装操作系统、安装Matrix、配置密钥登录、重建节点和数据恢复。

b.     在任意节点执行kubectl get pod -A | grep -v Completed命令,如果回显结果中所有微服务Pod的状态都是Running,然后再对下一个节点进行相同的操作。

注意

·     重新安装操作系统后必须重新安装与之前相同版本Matrix。

·     重装操作系统后,需为集群内所有节点配置密钥登录,配置方法请参见密钥登录

·     重装操作系统时需完成以下内容:安装操作系统ISO镜像、操作系统依赖包以及相关补丁。补丁的安装方法请参见对应版本《版本说明书》中“升级操作系统依赖包”章节。

 

(2)     必选,登录紧急模式下的Matrix。

a.     在浏览器中输入“https://ip_address:8443/matrix/ui”,登录Matrix。其中“ip_address”为集群中正常Master节点的IP地址。

b.     输入用户名和密码进行登录,用户名为admin,默认密码为Pwd@12345。登录成功后进入[部署>集群]页面。

(3)     必选,重建任意一个故障节点:

a.     单击任意一个故障节点右上角的按钮,选择“重建”选项,请使用“单击使用系统中原有的节点部署文件进行重建,单击<应用>按钮。”方式重建节点,该故障节点重建完成后,即可完成更换一个服务器的操作。

b.     重建完成后,退出登录。

c.     此时可正常使用两个节点。

(4)     使用北向业务虚IP重新登录Matrix。在[部署>集群]页面下,单击故障节点右上角的按钮,选择“重建”选项重建剩下的故障节点,详细重建步骤请参考多机集群单节点故障重建与恢复

12.3.2  非两个Master节点故障重建与恢复

非两个Master节点故障包括单Master单Worker故障和多Worker故障的情况。此种情况下请对各故障节点进行依次重建操作,详细重建步骤请参考多机集群单节点故障重建与恢复

12.4  节点上已部署License Server,节点故障说明

节点上已部署License Server场景下,若节点服务器故障,有以下注意事项:

·     License Server为单机模式:节点服务器更新后,需进行授权迁移。

·     License Server为集群模式:

¡     使用原服务器、相同版本Matrix替换节点后,不需要进行授权迁移。

¡     使用新服务器替换节点后,需进行授权迁移。

授权迁移方式请参考:《H3C License Server 安装指导》中,常见问题解答章节。


13 卸载U-Center 5.0

·     当使用直接卸载Matrix的方式来卸载U-Center 5.0时,底盘组件本身的卸载处理并不会被触发执行,会存在残留数据,重新安装底盘之前,需要清空所有Matrix节点/var/lib/ssdata/目录下的内容。

·     卸载模块或单个应用包会导致相关数据被删除,卸载前需确认该模块或应用是否正在被使用,请谨慎执行卸载操作。

·     如需保留组件配置和数据,请在卸载前使用备份功能,请参见“备份恢复”。

·     如果要卸载的应用被其他应用所依赖,系统会一并勾选依赖于该应用的所有应用,以保证应用运行的完整性。此情况下,无法单独卸载该应用。

·     此处以在标准模式下卸载U-Center 5.0为例进行介绍。

 

(1)     ‍在浏览器中访问“https://ip_address:8443/matrix/ui”,输入用户名和密码(默认用户名为admin)登录Matrix。其中“ip_address”为北向业务虚IP地址。

(2)     单击[部署>应用]菜单项,进入应用列表页面。

(3)     在列表中勾选一个或多个应用后,单击<卸载>按钮。

(4)     在弹出提示框中单击<确定>按钮,即可卸载应用。

图13-1 卸载应用

 


14 常见问题解答

14.1  安全策略常见问题解答

14.1.1  节点中存在多个网卡配置IP地址并且网卡UP时,如何增加安全策略?

(1)     登录Matrix页面,单击“系统”页签,在弹出的菜单中选择“安全 > 安全策略”选项,进入安全策略页面。

(2)     单击<增加>按钮,进入增加安全策略页面。

(3)     在“基本设置”区域配置默认动作为“允许”。

(4)     在“规则信息”区域单击<增加>按钮,在弹出窗口中配置如下规则,配置完成后单击<确定>按钮。

¡     源地址为节点上除Matrix使用的网卡外的其它网卡IP。

¡     协议类型为TCP。

¡     目标端口必须输入为:

8101,44444,2379,2380,8088,6443,10251,10252,10250,10255,10256。

¡     动作为允许。

说明

必须将所有节点上除Matrix使用的网卡外的其它网卡IP都加入到安全策略中。

例如节点1上除Matrix使用的网卡外还有一个网卡的IP为1.1.1.1,节点2上除Matrix使用的网卡外的网卡IP为2.2.2.2,节点3上除Matrix使用的网卡外的网卡IP为3.3.3.3,则需要在安全策略的规则中增加3条规则,源地址分别为1.1.1.1、2.2.2.2、3.3.3.3,协议类型都是TCP,目标端口都是“8101,44444,2379,2380,8088,6443,10251,10252,10250,10255,10256”,动作都为允许。

 

(5)     配置完成后,在页面右上方单击<确定>按钮。

(6)     在策略列表中启用指定的安全策略。可配置多条安全策略,但只允许启用1条策略。

图14-1 安全策略举例

 

(7)     开启被关掉的网卡,下面以eth33为例。

ifup eth33

14.2  Matrix常见问题解答

14.2.1  如何配置Matrix集群主老化时间?

注意

集群各节点/opt/matrix/config/navigator_config.json中的配置必须保持一致,否则会影响集群稳定性。

 

(1)     登录集群中所有Master节点后台。

(2)     在navigator_config.json配置文件中,修改matrixLeaderLeaseDuration和matrixLeaderRetryPeriod参数取值。请确保集群中所有Master节点的参数配置相同。若配置文件中无上述两个参数,请手动增加。

下面以matrixLeaderRetryPeriod为2,matrixLeaderLeaseDuration为30为例进行修改。

[root@matrix01 ~]# vim /opt/matrix/config/navigator_config.json

{

"matrixLeaderLeaseDuration": 30,

"matrixLeaderRetryPeriod": 2,

}

(3)     修改完之后,重启集群服务。

[root@matrix01 ~]# systemctl restart matrix

说明

·     matrixLeaderLeaseDuration:用于配置集群主老化时间,取值为正整数,且大于等于matrixLeaderRetryPeriod * 10。

·     matrixLeaderRetryPeriod:用于配置集群刷新主节点时锁的间隔时间,取值为正整数。

 

14.2.2  扩容Matrix时若在ETCDINSTALL阶段停留时间过长怎么办?

若扩容Matrix过程中长时间没有成功,可通过集群部署页面单击扩容节点的日志查看,是否是因为在ETCDINSTALL阶段停留时间过长(ETCDINSTALL-PENDING距离当前系统时间十五分钟以上视为停留过长),登录原单机环境后台执行etcdctl member list命令返回失败,则可通过如下方式将环境恢复至扩容前的状态,然后再次进行扩容:

(1)     登录原单机环境后台。

(2)     执行cp -f /opt/matrix/k8s/deployenv.sh.bk /opt/matrix/k8s/deployenv.sh命令还原deployenv.sh脚本。

(3)     root用户通过systemctl stop matrix停止节点上Matrix服务。使用命令systemctl status matrix验证Matrix服务是否已经停止。若停止成功,则将在Active字段后显示运行信息为inactive (dead)。

[root@master1 ~]# systemctl stop matrix

非root用户通过sudo /bin/bash -c "systemctl stop matrix"停止节点上Matrix服务

[admin@node4 ~]$ sudo /bin/bash -c "systemctl stop matrix"

(4)     通过mv /etc/kubernetes/manifests/kube-apiserver.yaml /opt/matrix停止kube-apiserver。使用命令docker ps | grep kube-apiserver验证kube-apiserver服务是否已经停止。若无回显表示服务已停止。

[root@master1 ~]# mv /etc/kubernetes/manifests/kube-apiserver.yaml /opt/matrix

[root@master1 ~]# docker ps | grep kube-apiserver //查询是否已停止kube-apiserver

[root@master1 ~]#  //无回显表示服务已停止

(5)     root用户通过systemctl stop etcd完全停止etcd服务,使用命令systemctl status etcd验证etcd服务是否已经停止。若停止成功,则将在Active字段后显示运行信息为inactive (dead)。通过命令rm -rf /var/lib/etcd/default.etcd/删除etcd数据目录,确保/var/lib/etcd下面没有数据目录。

[root@master1 ~]# systemctl stop etcd

[root@master1 ~]# rm -rf /var/lib/etcd/default.etcd/

[root@master1 ~]# ll /var/lib/etcd/

非root用户通过sudo /bin/bash -c "systemctl stop etcd"完全停止etcd服务,并且通过命令sudo /bin/bash -c "rm -rf /var/lib/etcd/default.etcd/"删除etcd数据目录,确保/var/lib/etcd下面没有数据目录

[admin@node4 ~]$ sudo /bin/bash -c "systemctl stop etcd"

[admin@node4 ~]$ sudo /bin/bash -c "rm -rf /var/lib/etcd/default.etcd/"

[admin@node4 ~]$ ll /var/lib/etcd/

(6)     进入ETCD恢复脚本目录。

[root@master1 ~]# cd /opt/matrix/k8s/disaster-recovery/

(7)     执行etcd恢复脚本前,在etcd备份目录/opt/matrix/backup/etcd_backup_snapshot/找到最新的备份数据文件Etcd_Snapshot_Before_Scale.db。

root用户执行恢复操作命令如下

[root@master1 ~]# bash etcd_restore.sh Etcd_Snapshot_Before_Scale.db

非root用户执行恢复操作命令如下

[admin@node4 ~]$ sudo bash etcd_restore.sh Etcd_Snapshot_Before_Scale.db

(8)     root用户通过systemctl restart etcd重启etcd服务

[root@master1 ~]# systemctl restart etcd

非root用户通过sudo /bin/bash -c "systemctl restart etcd"重启etcd服务

[admin@node4 ~]$ sudo /bin/bash -c "systemctl restart etcd"

(9)     root用户通过systemctl restart matrix重启matrix服务

[root@master1 ~]# systemctl restart matrix

非root用户通过sudo /bin/bash -c "systemctl restart matrix"重启matrix服务

[admin@node4 ~]$ sudo /bin/bash -c "systemctl restart matrix"

(10)     恢复kube-apiserver

[root@master1 ~]# mv /opt/matrix/kube-apiserver.yaml /etc/kubernetes/manifests/

(11)     故障恢复完成后,登录Matrix集群部署页面,单击<开始部署>按钮再次扩容。

14.2.3  Matrix安装完成后,页面无法访问怎么办?

(1)     执行rm -rf /opt/matrix/data/ && systemctl restart matrix.service命令尝试恢复。

(2)     若该操作无法恢复,请手动上传Matrix安装包并解压,然后先后执行uninstall.sh和install.sh脚本卸载重装Matrix服务。

(3)     若依然无法恢复,请联系技术支持。

14.2.4  在Matrix中添加节点失败怎么办?

当在Matrix中添加节点失败,并且在/var/log/matrix-diag/Matrix/Matrix/matrix.log日志中报错“java.lang.NoClassDefFoundError”时,可执行以下操作解决:

(1)     执行rm -rf /opt/matrix/data/ && systemctl restart matrix.service命令尝试恢复。

(2)     若该操作无法恢复,请手动上传Matrix安装包并解压,然后先后执行uninstall.sh和install.sh脚本卸载重装Matrix服务。

(3)     若依然无法恢复,请联系技术支持。

14.2.5  Matrix部署失败时应该执行什么操作?

当Matrix部署失败时,查看日志“phase IMAGE_INSTALL end. cname=ImageInstallPhase, phaseResult=false”则表示是在K8S阶段部署失败,可执行如下操作解决:

(1)     执行rm -rf /opt/matrix/data/ && systemctl restart matrix.service命令尝试恢复。

(2)     若该操作无法恢复,请手动上传Matrix安装包并解压,然后先后执行uninstall.sh和install.sh脚本卸载重装Matrix服务。

(3)     若依然无法恢复,请联系技术支持。

14.2.6  Matrix如何切换双栈?

(1)     登录Matrix页面,进入[部署>集群>集群参数]页面。

(2)     单击<修改>按钮,将“开启双栈”置于启用状态后单击<确定>按钮。

(3)     IPv4切换双栈:分别输入节点的IPv6地址和北向业务虚IP的IPv6地址。其中,节点的IPv6地址需要提前配置,可参考《H3C 统一数字底盘操作系统安装指导》的“网络和主机名”配置步骤,若操作系统已安装完成,可参考《H3C 统一数字底盘操作系统安装指导》的“操作系统安装完成后,在原网卡上配置IPv6地址”配置步骤进行配置。

(4)     IPv6切换双栈:分别输入节点的IPv4地址和北向业务虚IP的IPv4地址。其中,节点的IPv4地址需要提前配置,可参考《H3C 统一数字底盘操作系统安装指导》的“网络和主机名”配置步骤,若操作系统已安装完成,可参考《H3C 统一数字底盘操作系统安装指导》的“操作系统安装完成后,在原网卡上配置IPv6地址”配置步骤进行配置。

14.2.7  如何在Matrix页面开启统一数字底盘组件应用服务?

(1)     登录Matrix页面,进入[观测>监控>应用监控]页面。

(2)     展开组件可以查看组件下的应用服务状态。

(3)     单击“操作列”的/可以启用/关闭应用服务。

图14-2 查看应用服务

 

14.3  浏览器常见问题解答

注意

集群各节点/opt/matrix/config/navigator_config.json中的配置必须保持一致,否则会影响集群稳定性。

 

14.3.1  如何通过映射IP访问Matrix页面?

Matrix支持外部浏览器通过映射后的节点IP和虚IP访问Web页面,支持NAT映射和域名映射,不支持端口映射,必须使用8443端口。

如需使用映射IP访问Matrix页面,需在集群内各节点上进行以下操作:

(1)     将映射后的IP(或域名)加入到/opt/matrix/config/navigator_config.json的“httpHeaderHost”属性值中(若无该属性请手动补充,多个IP或域名使用英文逗号分隔),示例:"httpHeaderHost":"10.10.10.2,10.10.10.3"。

(2)     配置完后可以通过cat /opt/matrix/config/navigator_config.json | jq命令检查配置格式是否正确。

(3)     修改后需要通过service matrix restart重启服务生效,集群各节点配置需要保持一致。

14.4  WebSocket常见问题解答

14.4.1  拆除异地容灾或冷备系统之后,原备站点不会自动恢复WebSocket服务怎么办?

拆除异地容灾或冷备系统以后,为了防止设备出现双主的情况,原备站点不会自动恢复WebSocket服务,如需恢复,请在备站点的任意节点上执行sh /opt/matrix/app/install/metadata/UNIFIED-PLATFORM-CONNECT/scripts/rdr/websocketRecoverRdr.sh命令进行恢复。

14.4.2  如何在worker节点上横向扩展WebSocket实例数量?

在worker节点上横向扩展WebSocket实例数量时,需通过手动增加Deployment的方式进行拓展,具体步骤如下:

(1)     进入任意目录,执行kubectl get deployment websocket-connection1 -n service-software -o yaml > connection1.yaml命令生成connection1.yaml文件。

(2)     执行sed "s/websocket-connection1/websocket-connection4/g;s/value: \"0\"/value: \"3\"/g;s/master: master1/worker: worker1/g" connection1.yaml > connection4.yaml命令生成要扩展的connection4.yaml。

(3)     执行kubectl apply -f connection4.yaml命令扩展Pod。

(4)     如果存在多个worker节点,需要继续扩展时,重复第(2)、(3)步。每次扩展时,需将websocket-connection4、value: "3"、worker1、connection4.yaml中的数字递增。例如,若需再扩展一个worker,相关参数应修改为websocket-connection5、value: "4"、worker2、connection5.yaml。

14.4.3  如何清除worker上扩展的WebSocket实例数量?

在升级、卸载软件时需手动清除worker节点上扩展的Deployment,具体步骤如下:

(1)     进入生成connection4.yaml文件的目录。

(2)     执行kubectl delete -f connection4.yaml命令删除扩展的Pod。

14.5  第三方操作系统常见问题解答

14.5.1  安装第三方操作系统时未选择虚拟化主机,该如何处理?

注意

·     在安装第三方操作系统时,需要在软件选择步骤中选择“虚拟化主机”。如果未选择“虚拟化主机”,可能会导致缺少某些依赖包或安装错误版本的依赖包。

·     在执行yum group list命令之前,请先挂载虚拟光驱,否则命令会失败。

 

(1)     使用SSH登录到节点的后台。

(2)     在第三方系统安装完成后,准备好本地或网站的YUM源。然后,执行以下命令以检查是否安装了虚拟化主机软件。“已安装的环境组”表示当前系统中已安装的软件环境,而“可用环境组”表示可以通过YUM安装的软件环境。

[root@matrix01 ~]# yum group list

上次元数据过期检查:0:00:07 前,执行于 2024年11月26日 星期二 15时10分47秒。

可用环境组:

   最小安装

   基础设施服务器

   文件及打印服务器

   基本网页服务器

   虚拟化主机

已安装的环境组:

   带 UKUI GUI 的服务器

已安装组:

   容器管理

   无图形终端系统管理工具

可用组:

   开发工具

   传统 UNIX 兼容性

   科学记数法支持

   安全性工具

   系统工具

   智能卡支持

(3)     如果在“可用环境组”中存在“虚拟化主机”或“Virtualization Host”,可以直接使用yum  group install -y "虚拟化主机"或者yum  group install -y "Virtualization Host"命令安装虚拟化主机软件。

[root@matrix01 ~]#yum  group install -y "虚拟化主机"

上次元数据过期检查:0:10:26 前,执行于 2024年11月26日 星期二 15时10分47秒。

….

….

….

已安装:

  brltty-6.1-1.p01.ky10.x86_64 ………….完毕!

(4)     操作完成后,系统软件环境将补齐缺失的软件包。

14.5.2  第三方操作系统在部署Matrix时失败,并提示runc版本不正确,如何处理?

(1)     安装依赖包后,执行Matrix安装时提示错误:runc版本低于rc6。

图14-3 安装Matrix时报错

 

(2)     问题的原因是操作系统安装时未选择虚拟化主机软件环境。

(3)     在安装依赖包的过程中,执行Docker组件安装后,runc版本已更新。但由于系统中已安装了默认的runc,导致使用的runc版本不正确。可以使用以下命令来检查runc的版本。

[root@matrix01 usr]# find /usr -name runc

/usr/bin/runc

/usr/local/bin/runc

(4)     通过执行runc -v命令检查每个runc的全路径,以找到正确的版本。下例中的其中一个runc版本为1.0.0-rc95,另一个为1.0.0-rc3。根据错误描述,由于rc3<rc6,所以rc95是正确的版本。只需用rc95的包覆盖rc3的包即可。

[root@ matrix01 usr]# /usr/bin/runc -v

runc version 1.0.0-rc95

commit: b9ee9c6314599f1b4a7f497e1f1f856fe433d3b7

spec: 1.0.2-dev

go: go1.13.15

libseccomp: 2.5.0

[root@ matrix01 usr]# /usr/local/bin/runc -v

runc version 1.0.0-rc3

commit: fabf83fd21f205c801571df4074024179eb03b44

spec: 1.0.0-rc5

(5)     执行如下命令进行覆盖。

[root@matrix01 usr]# cp /usr/bin/runc /usr/local/bin/runc

cp:是否覆盖'/usr/local/bin/runc'? y

[root@matrix01 usr]#

(6)     覆盖完成后重新执行安装脚本install.sh安装Matrix。

[root@ matrix01 usr]# sh install.sh

14.6  如何为seasqlplus-uc挂载独立磁盘?

(1)     为seasqlplus-uc每个节点分别准备一块独立的磁盘。磁盘容量基于硬件资源计算工具计算结果中的数据盘“/var/lib/ssdata/middleware/seasqlplus-uc”大小确定。

图14-4 准备独立磁盘

 

(2)     安装操作系统时,选择已准备的独立磁盘。

图14-5 选择磁盘

 

(3)     为分区/var/lib/ssdata/middleware/seasqlplus-uc挂载独立磁盘,期望容量为硬件资源计算工具计算结果中该分区计算的大小,文件系统类型为ext4。修改设备,选择准备的独立磁盘配置挂载点。

图14-6 手动分区

 

图14-7 配置挂载点

 

(4)     完成后,即可按照该部署手册正常安装。

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们