01-正文
本章节下载: 01-正文 (4.11 MB)
21.1.1 节点中存在多个网卡配置IP地址并且网卡UP时,如何增加安全策略?
21.2.2 扩容Matrix时若在ETCDINSTALL阶段停留时间过长怎么办?
21.2.7 如何在Matrix页面开启统一数字底盘组件应用服务?
21.4.1 拆除异地容灾或冷备系统之后,原备站点不会自动恢复WebSocket服务怎么办?
21.4.2 如何在worker节点上横向扩展WebSocket实例数量?
21.4.3 如何清除worker上扩展的WebSocket实例数量?
21.5.1 安装第三方操作系统时未选择虚拟化主机,该如何处理?
21.5.2 第三方操作系统在部署Matrix时失败,并提示runc版本不正确,如何处理?
21.5.3 第三方操作系统在部署Matrix时失败,并提示runc版本不正确,如何处理?
SeerEngine-DC是一款数据中心控制组件,具有开放架构、高可靠性、高易用性和遵循标准等特点,支持Overlay网络、服务链等众多特性,能够为数据中心网络提供高效、可靠和灵活的管理和控制。
控制组件可在Matrix应用页面进行安装。具体安装流程如下。
表2-1 安装流程
|
步骤 |
具体操作 |
说明 |
|
准备服务器 |
根据组网需求,准备1台或3台服务器 |
必选 硬件和软件需求请参见“软硬件配置需求” |
|
获取安装包 |
根据实际功能需求、硬件配置以及资源档位关系,选择安装对应的组件及依赖的统一数字底盘应用 |
必选 安装包说明请参见“获取软件包” |
|
磁盘分区规划 |
必选 |
|
|
网络规划 |
可选 |
|
|
安装操作系统及依赖包 |
在服务器上安装操作系统 |
必选 请参见“安装操作系统及依赖包” |
|
部署PolarDB数据库(可选) |
在所有统一数字底盘节点和PolarDB节点上执行polardb_add_sshpass.sh脚本 |
可选 请参见“部署PolarDB数据库(可选)” |
|
部署Matrix |
部署Matrix |
必选 请参见“安装Matrix” |
|
部署统一数字底盘 |
· 部署前的检查 · 创建Matrix集群 · 部署Base必选应用包 |
必选 请参见“部署统一数字底盘” |
|
在Matrix应用页面部署可选应用包和控制组件 |
可选 |
|
|
必选 |
||
|
必选 请在应用页面,将可选应用包和控制组件安装包上传并部署 |
||
|
必选 |
||
|
必选 |
||
|
必选 |
||
|
必选 |
控制组件支持单机和集群部署,推荐3机集群部署模式。
vBGP组件支持单机和集群部署。集群部署时需要两个节点,推荐与控制组件融合部署。
安装各个组件所需的服务器硬件资源要求,请参考资源计算工具。
SeerEngine-DC作为控制组件运行在统一数字底盘上,部署控制组件前需要先安装统一数字底盘。操作系统的支持情况请参见《H3C 统一数字底盘部署指导》。不同CPU的推荐操作系统如下表所示。
表3-1 不同CPU的推荐操作系统
|
CPU |
推荐操作系统 |
|
x86-64(Intel64/AMD64) |
磐宁NingOS |
|
x86-64海光 |
TencentOS 3.1 |
|
ARM鲲鹏 |
TencentOS 3.1 |
|
ARM飞腾 |
TencentOS 3.1 |
表3-2 操作系统检测项
|
检测项 |
检测标准 |
|
NTP检查 |
请检查系统时间已配置完成,建议配置NTP时间同步,整网使用统一的时钟源同步时间 |
|
服务器和操作系统兼容性 |
请参见以下链接,查看H3C服务器和操作系统的兼容性列表: |
用户不需要安装客户端软件,使用浏览器即可访问统一数字底盘。推荐使用的浏览器为Google Chrome 96及以上版本。
请根据实际功能需求、硬件配置以及资源档位关系,选择安装对应的组件及依赖的统一数字底盘应用。
表3-3 软件安装包及场景说明
|
名称 |
功能说明 |
使用说明 |
|
|
DC数据中心场景/DC智算中心场景组件 |
SeerEngine_DC-version-MATRIX.zip |
SeerEngine-DC组件的软件安装包 |
必选 |
|
vBGP-version-HELM-X64.zip |
混合Overlay场景用于BGP路由传递上报的组件 |
可选。具体请参见“部署vBGP” |
|
|
SeerEngine_DC_DTN-version.zip |
用于仿真业务功能部署的组件 |
可选。如果使用仿真功能,需要部署DTN组件和DTN物理主机,具体请参见《H3C SeerEngine-DC 仿真安装指导》 |
|
|
SeerEngine_Runbook-version-MATRIX.zip |
用于Runbook业务功能部署的组件 |
可选。具体请参见《H3C SeerEngine-Runbook 安装指导》 |
|
|
U-Center |
BMP_CMDB_version_x86.zip |
配置管理数据库 |
可选。 部署全景运维地图时必选,具体请参见《H3C AD-DC 全景运维地图安装指导》 |
|
统一数字底盘 |
UDTP_Base_version_x86.zip |
基础服务组件:提供融合部署、用户管理、权限管理、资源管理、租户管理、菜单管理、日志中心、备份恢复和健康检查等基础功能 |
必选。低/标/高配都必须安装 |
|
BMP_Common_version_x86.zip |
(可选)通用服务组件:提供大屏管理、告警、告警聚合和告警订阅等功能 |
可选。仅标配和高配支持 |
|
|
BMP_Extension_version_x86.zip |
(可选)扩展服务组件:提供异地容灾、快照回滚、证书服务、自监控、智能算法库、单点登录和密码平台等功能 |
可选。仅标配和高配支持,依赖BMP_Common 部署异地灾备时必选,详细的异地灾备部署流程,请参见“异地灾备” |
|
· 组件和统一数字底盘的x86/ARM安装包功能和使用说明一致,文档示例均采用x86版本命名格式。
· 部分组件可能仅发布单一架构安装包(x86或ARM),以实际发布的版本文件为准。请根据服务器架构选择相应的安装包。
· 安装包名称格式中version为版本号。
上传应用安装包之后,请参见如下命令对软件包执行MD5验证,确保软件包的完整性和正确性。
(1) 查看已上传的安装包。
[root@node1 ~]# cd /opt/matrix/app/install/packages/
[root@node1 packages]# ls
BMP_Common_E7301_x86.zip BMP_Connect_E7301_x86.zip
…略…
(2) 查看安装包的MD5值,以UDTP_Base_E7301_x86.zip为例。
[root@node1 packages]# md5sum UDTP_Base_E7301_x86.zip
652845e0b92bbdff675c7598430687e2 UDTP_Base_E7301_x86.zip
(3) 将上述步骤中获取到的MD5值与发布的软件版本文件MD5值进行比对,若一致,则软件包正确。
请参见资源计算工具中的要求进行磁盘配置和磁盘分区,请勿使用自动分区。
在开始部署控制组件之前,请提前规划网络地址池。如需要部署vBGP,其网络规划请参见“部署vBGP”。
控制组件集群在创建过程中,会涉及到多个网络。如下图所示。
图4-1 组网规划
表4-1 网络说明
|
网络名称 |
说明 |
|
容器网络 |
控制组件集群间微服务通信的网络,用于集群系统的内部通信,容器网络的IP对外部不可见 |
|
南向网络 |
用于控制组件和南向设备进行通信,运行NETCONF、SNMP、OpenFlow等南向协议,控制组件的南向虚IP落在南向网络中,也可以称为南向设备管理网络 |
|
北向网络 |
用于用户登录宿主机、控制组件的Web页面访问和云平台对接等,控制组件的北向虚IP落在北向网络中,也称为宿主机管理网络 |
图4-2 组网说明
上述网络主要包括三种类型:Calico、MACVLAN和PASSTHROUGH。容器网络采用Calico类型;南向网络可根据实际需求选择MACVLAN或PASSTHROUGH类型进行配置;北向网络则使用MACVLAN类型。
· Calico
Calico是一个开源的网络和网络安全解决方案,适用于容器、虚拟机和基于主机的本地工作负载。Calico网络为容器间交互所使用的网络,为内部使用。Calico网络所使用的网段为部署Matrix集群时设置的容器IP地址池,默认为177.177.0.0,安装部署组件时无需再配置地址池给Calico网络使用。Calico网络和MACVLAN网络可复用同一个网口。
· MACVLAN
MACVLAN网络用来作为管理网络。MACVLAN虚拟网络技术可以实现一个物理网口绑定多个IP和多个MAC地址的功能。一些应用程序,尤其是遗留应用程序或监控网络流量的应用程序,希望直接连接到物理网络。在这种情况下,可以使用MACVLAN网络驱动程序为每个容器的虚拟网络接口分配一个MAC地址,使其看起来是一个直接连接到物理网络的物理网络接口。物理网口需要能够处理“混杂模式”,即一个物理接口可以分配多个MAC地址。
若使用MACVLAN网络,在通过VMware管理虚拟机进行部署时,请配置如下步骤以确保网络正常运行:
1. 在虚拟机所在的主机上启用混杂模式和伪传输功能。
2.在每个节点上使用以下命令启用网卡的混杂模式。
bash
ip link set <接口名> promisc on
其中,<接口名>为实际的网络接口名称,例如“eth0”或“ens192”。此操作确保网卡能够接收所有网络流量。
PASSTHROUGH(直通)类型网络是一种将宿主机物理网卡直接分配给容器使用的高性能网络接入方式。在PASSTHROUGH模式下,宿主机上的某块物理网卡被容器独占绑定,并直接映射为容器内的网络接口,使得容器能够以类似物理机的方式直接访问和控制该网卡,无需经过虚拟化层的抽象或模拟。这种方式能够显著提升网络性能,降低网络延迟,极大增强容器对网络资源的访问能力。
在Kubernetes等容器编排平台中,配置PASSTHROUGH网络需在Pod的yaml文件中的k8s.v1.cni.cncf.io/networks参数指定使用的宿主机网卡名。此时,该物理网卡将被容器独占,宿主机及其他组件将无法再使用此网卡。对于非国产化环境,还需确保容器启动后主动up该网卡并配置IP地址,以保证网络通信正常。
PASSTHROUGH网络常被用作管理网络,要求具备一块独立于Matrix集群主用网卡的物理网卡。
在物理服务器部署模式下,控制组件的南向网络可配置为MACVLAN类型或PASSTHROUGH类型。
在云平台部署模式下,控制组件的南向网络需配置PASSTHROUGH类型。
在云平台部署时,若南向网络类型选择为PASSTHROUGH,必须确保云平台支持并已放行虚IP功能,特别是用于控制组件的集群IP地址,否则将影响服务通信。
本文以MACVLAN类型为例,子网中的IP地址个数按照如下表格计算。
表4-2 子网IP地址池地址个数规划
|
组件名称 |
网络类型 |
最大集群成员个数 |
默认集群成员个数 |
IP地址计算方式 |
说明 |
|
SeerEngine-DC |
MACVLAN(南向网络) |
32 |
3 |
1*集群成员个数+1(集群IP) |
- |
具体的IP地址规划可参见下表。
表4-3 IP地址规划
|
组件名称 |
网络类型 |
IP地址 |
说明 |
|
SeerEngine-DC |
MACVLAN(南向网络) |
子网网段:192.168.12.0/24(网关为192.168.12.1) |
- |
|
网络地址池:192.168.12.101~192.168.12.132 |
如需使用PolarDB数据库,请参见《第三方数据库PolarDB v2.0安装部署指导》进行安装。
在安装PolarDB时,请在所有统一数字底盘节点和PolarDB节点上执行polardb_add_sshpass.sh脚本。具体步骤请参考《第三方数据库PolarDB v2.0安装部署指导》的安装部署章节。无论是重新安装统一数字底盘还是PolarDB,都需重新执行此步骤。此外,若扩容统一数字底盘,需要在扩容前执行此步骤。
(1) PolarDB数据库安装后,请以root用户登录PolarDB数据库集群任一节点,依次执行cd /root/polardb命令和pdbcli status --config config.yaml命令获取PolarDB代理节点的IP地址,执行结果中,“proxy”下的IP地址即为数据库代理所在节点IP地址。
(2) 然后,依次在所有代理节点上执行cat /opt/maxscale/polardb1/etc/maxscale.cnf |grep users_refresh_time命令查看“users_refresh_time”的参数值。若不为0,则请依次执行sed -i "s/users_refresh_time=5/users_refresh_time=0/" /opt/maxscale/polardb1/etc/maxscale.cnf 命令和systemctl restart polardb-proxy-polardb1.service命令以修改代理节点参数。
(1) 获取软件安装包,并将软件包拷贝至服务器的待安装目录下,或使用FTP等文件传输协议将软件包上传到指定目录。
¡ (推荐)root用户在/root目录下,或在/root下创建目录。
¡ (推荐)非root用户(如admin)在/home/admin下。
· 如果需要使用FTP、TFTP协议上传下载,请选择binary模式(二进制模式)传输,以免损坏软件包。
· 如需安装Matrix的E7105H04及以上版本,或E7302及以上版本,若Docker版本为20.10.24,可直接安装;若Docker版本低于20.10.24,请先安装E7105或E7105H02的Matrix版本,然后将Docker升级至20.10.24,最后再将Matrix升级到E7105H04或E7302及以上版本。
(2) 上传完成后,请参考验证软件包对Matrix的安装包进行MD5校验。
若使用root用户安装软件包,或者使用admin用户安装NingOS操作系统,可直接跳过该章节。
(1) 执行su root命令切换为root用户后,在root用户下确认/etc/passwd配置文件。已配置的非root用户名称是否与配置文件中的名称一致,此处以user为例,如下图所示。如果不一致请修改配置文件中的用户名,其他参数无需修改,保持默认设置即可。
[root@node1 ~]# vim /etc/passwd
…
user:x:1000:1001:user:/home/user:/bin/bash
…
(2) 在root用户下修改/etc/sudoers配置文件。
[root@node1 ~]# vim /etc/sudoers
…略…
## Allow root to run any commands anywhere
root ALL=(ALL) ALL
user ALL=(root) NOPASSWD:/bin/bash
## Allows members of the 'sys' group to run networking, software,
## service management apps and more.
# %sys ALL = NETWORKING, SOFTWARE, SERVICES, STORAGE, DELEGATING, PROCESSES, LOCATE, DRIVERS
## Allows people in group wheel to run all commands
%wheel ALL=(ALL) ALL
user ALL=(root) NOPASSWD:/bin/bash
user ALL=(root) NOPASSWD:/usr/bin/rpm,/bin/sh
…略…
(3) 在root用户下修改/etc/pam.d/login配置文件。
[root@node1 ~]# vim /etc/pam.d/login
#%PAM-1.0
auth substack system-auth
auth [user_unknown=ignore success=ok ignore=ignore auth_err=die default=bad] pam_securetty.so
…略…
(4) 在root用户下修改/etc/ssh/sshd_config配置文件。
若当前环境为统一数字底盘与PolarDB数据库的融合部署,请勿执行此步骤。
[root@node1 ~]# vim /etc/ssh/sshd_config
…略…
#LoginGraceTime 2m
PermitRootLogin no
…略…
(5) 修改完成后,执行systemctl restart sshd命令重启sshd服务。
· 所有节点的安装用户需保持一致,若选择非root作为安装用户,需要在脚本执行命令前添加sudo /bin/bash指令。
· 安装Matrix的用户需与所属用户组名称保持一致。
(1) 进入Matrix软件包(.zip文件)的存放路径,安装Matrix。软件包的名称格式为UDTP_Matrix_version_platform.zip,其中version为版本号,platform为CPU架构类型。下面以root用户、x86_64版本为例进行安装。
[root@node1 ~]# unzip UDTP_Matrix_E7301_x86_64.zip
[root@node1 ~]# cd UDTP_Matrix_E7301_x86_64
[root@node1 UDTP_Matrix_E7301_x86_64]# ./install.sh
…略…
Complete!
(2) 通过命令systemctl status matrix验证Matrix服务是否安装成功。若安装成功,则将在Active字段后显示运行信息为active (running)。剩余节点执行同样操作即可。
(3) 默认为中文界面,若需英文界面,则可通过如下方式修改:
a. 使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,修改defaultLanguage字段值为en(若文件中没有该配置,请直接增加该字段,字段后需要携带英文逗号),配置如下:
[root@node1 ~]# vim /opt/matrix/config/navigator_config.json
{
"defaultLanguage":"en",
"productName": "uc",
"pageList": ["SYS_CONFIG", "DEPLOY", "APP_DEPLOY"],
"defaultPackages": [],
"allowDeployedPackageIds": ["UNIFIED-PLATFORM-BASE"],
"url": "http:””://${vip}:30000/central/index.html#/ucenter-deploy",
"theme":"darkblue",
"matrixLeaderLeaseDuration": 30,
"matrixLeaderRetryPeriod": 2,
"sshPort": 22,
"sshLoginMode": "secret",
"features":{"stopNtpServerBeyondThreshold":"false"}
}
b. 执行systemctl restart matrix命令重启Matrix服务使配置生效,其他节点也依次按a、b步骤配置。
Matrix集群通过SSH连接进行节点的安装、升级、修复等操作,并实现应用部署、监控等功能。各节点上的SSH服务器默认使用22号端口侦听客户端连接请求,双方建立TCP连接后可进行数据信息的交互。
用户可根据本章节修改SSH服务端口号,提高SSH连接的安全性。
· 请确保所有节点都配置为相同的SSH服务端口号。
· 端口范围为1~65535,不推荐使用1~1024之间的知名端口号,禁止使用各方案端口矩阵中已定义的端口号,否则SSH服务可能启动失败。
· 若需要通过ISO方式升级Matrix,请在升级前确保集群中所有节点的navigator_config文件内容一致。可使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,查看该文件中的详细信息。
· 若修改已部署集群中的SSH服务端口号,请确认所有业务组件是否支持。
· 若为非root用户,执行如下命令前,请进行提权操作(在非root用户下执行su root命令即可)。
· 集群各节点/opt/matrix/config/navigator_config.json中的配置必须保持一致,否则会影响集群稳定性。
· 若需修改SSH服务端口号,请参见各产品版本使用指导书中的产品端口占用说明,以避免端口冲突。
· 在PolarDB或Matrix集群部署完成后,禁止修改SSH端口。
(1) 若集群未部署,登录节点后台,使用netstat -anp | grep after_port-number检查指定的端口号是否被占用,若未被占用,则无返回信息;若被占用,则返回如下信息。其中,after_port-number为用户想要指定的SSH服务新的端口号。举例如下:
¡ 12345端口号未被占用,可以修改为该端口号。
[root@node1 ~]# netstat -anp | grep 12345
¡ 1234端口号被占用,不可以修改为该端口号。
[root@node1 ~]# netstat -anp | grep 1234
tcp 0 0 0.0.0.0:1234 0.0.0.0:* LISTEN 26211/sshd
tcp6 0 0 :::1234 :::* LISTEN 26211/sshd
若集群已部署,除上述的检查外,还需要执行以下命令确认环境中是否有业务容器占用该端口(如果还有其他形式的端口占用,请根据实际情况检查)。具体如下:
¡ 12345端口号未被占用,可以修改为该端口号。
[root@node1 ~]# kubectl get svc -A -oyaml | grep nodePort | grep -w 12345
[root@node1 ~]# kubectl get pod -A -oyaml | grep hostPort | grep -w 12345
¡ 1234端口号被nodePort或hostPort占用,不可以修改为该端口号。
[root@node1 ~]# kubectl get svc -A -oyaml | grep nodePort | grep -w 1234
nodePort: 1234
[root@worker ~]# kubectl get pod -A -oyaml | grep hostPort | grep -w 1234
hostPort: 1234
(2) 使用vim /etc/ssh/sshd_config命令进入sshd服务的配置文件,将配置文件中端口号修改为用户想要指定的端口号(以12345为例),且需要删除注释符号。
图7-1 修改前的端口号为22
图7-2 修改后的端口号
(3) 修改完成后,需重启sshd服务。
[root@node1 ~]# systemctl restart sshd
(4) 查看新的端口号是否修改成功。以Master节点为例,若有如下返回信息,则表示修改成功。
[root@node1 ~]# netstat -anp | grep -w 12345
tcp 0 0 0.0.0.0:12345 0.0.0.0:* LISTEN 26212/sshd
tcp6 0 0 :::12345 :::* LISTEN 26212/sshd
(1) 使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,查看该文件中是否存在sshPort字段,若存在,将该字段取值修改为用户想要指定的端口号(以12345为例);若不存在,则需手动添加该字段并为其赋值。下面以x86版本为例进行说明。
{
"productName": "uc",
"pageList": ["SYS_CONFIG", "DEPLOY", "APP_DEPLOY"],
…略…
"matrixLeaderLeaseDuration": 30,
"matrixLeaderRetryPeriod": 2,
"sshPort": 12345
}
(2) 修改完成后,需重启Matrix服务。
[root@node1 ~]# systemctl restart matrix
(3) 查看新的端口号是否修改成功。以Master节点为例,若成功,则日志中最后一条信息如下。
[root@node1 ~]# cat /var/log/matrix-diag/Matrix/Matrix/matrix.log | grep "ssh port"
2022-03-24T03:46:22,695 | INFO | FelixStartLevel | CommonUtil.start:232 | ssh port = 12345.
集群主用Master节点通过SSH连接管理和监控集群中的所有节点,当通过命令行修改某一节点密码后,还需登录Matrix页面修改对应节点的密码,若其它场景也保存了节点密码,则需同步修改(如跳板机、部署在Matrix上的应用),否则将会导致集群异常。整个过程易遗漏、易出错,且需较高的时间和人力成本。
各节点上配置SSH密钥登录后,无需在多处修改节点密码,集群节点间也可进行互相操作。
当前支持root用户和非root用户进行SSH密钥配置。
· 请确保所有节点的SSH登录方式一致(如Matrix服务启动后,修改了某一节点的SSH登录方式,该操作需同步至所有节点。修改完成后请依次重启各节点Matrix服务)。
· Matrix(包括集群和单机模式)部署完成后,若因重建/升级等原因重装节点操作系统时,在操作系统安装完成后、重建/升级操作前,请确保已完成所有节点的SSH密钥登录配置,且所有节点SSH登录方式必须一致(都为密钥登录),否则将会导致操作失败。
· 首次部署统一数字底盘时,无需手动配置SSH密钥登录,系统将在创建Matrix集群时自动完成SSH密钥配置。
依次登录各节点后台进行SSH密钥配置。下面以node1节点为例,进行配置说明。
执行ssh-keygen -R命令时如果出现文件或目录不存在的报错,属正常现象,可忽略。
(1) root用户登录node1节点后台,执行如下命令,通过ED25519加密算法生成SSH对称认证所需的公钥和私钥文件。保存该公/私钥的文件名默认为/root/.ssh/id_ed25519,文件名不允许修改。
[root@node1 ~]# ssh-keygen -t ed25519
Generating public/private ed25519 key pair.
Enter file in which to save the key (/root/.ssh/id_ed25519):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_ed25519
Your public key has been saved in /root/.ssh/id_ed25519.pub
The key fingerprint is:
SHA256:GLeq7ZQlnKHRTWvefTwIAlAHyeB3ZfZt0Ovnfbkcbak root@node1
The key's randomart image is:
…略…
(2) 首先清理各节点的旧公钥信息。然后将生成的公钥拷贝至各个节点(包括当前登录的节点)。下面以集群中有三个Master节点并且SSH端口号为默认的22为例进行配置说明。其中,node1 IP地址为192.168.227.171;node2 IP地址为192.168.227.172;node3 IP地址为192.168.227.173。
[root@node1 ~]# ssh-keygen -R 192.168.227.171
[root@node1 ~]# ssh-keygen -R 192.168.227.172
[root@node1 ~]# ssh-keygen -R 192.168.227.173
[root@node1 ~]# ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
[root@node1 ~]# ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
[root@node1 ~]# ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
(3) 登录其它节点后台,执行步骤(1)和(2)命令。
(4) root用户登录node1节点后台,SSH到当前节点及其它节点,验证SSH密钥配置是否生效。下面以SSH到node2并且SSH端口号为默认的22为例进行配置说明。
[root@node1 ~]# ssh -p 22 [email protected]
依次登录各节点后台进行SSH密钥配置。
由于非root用户下部分命令需要以root权限执行,所以非root用户需配置admin到admin用户密钥配置、root到admin用户密钥配置。
执行ssh-keygen -R命令时如果出现文件或目录不存在的报错,属正常现象,可忽略。
(1) 配置admin到admin用户密钥配置
下面以3个Master节点都为admin用户为例,进行配置说明。
a. admin用户登录node1节点后台,执行ssh-keygen -t ed25519命令,生成SSH对称认证所需的公钥和私钥文件。保存该公/私钥的文件名默认为/home/admin/.ssh/id_ed25519,文件名不允许修改。
b. 首先清理各节点的旧公钥信息。然后将生成的公钥拷贝至各个节点(包括当前登录的节点)。下面以集群中有三个Master节点并且SSH端口号为默认的22为例进行配置说明。其中,node1 IP地址为192.168.227.171;node2 IP地址为192.168.227.172;node3 IP地址为192.168.227.173。
[admin@node1 ~]$ ssh-keygen -R 192.168.227.171
[admin@node1 ~]$ ssh-keygen -R 192.168.227.172
[admin@node1 ~]$ ssh-keygen -R 192.168.227.173
[admin@node1 ~]$ ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
[admin@node1 ~]$ ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
[admin@node1 ~]$ ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
c. 登录其它节点后台,执行步骤(a)和(b)命令。
d. admin用户登录节点后台,SSH到当前节点及其它节点,验证SSH密钥配置是否生效。
[admin@node1 ~]$ ssh -p 22 [email protected]
(2) 配置root到admin用户密钥配置
a. admin用户登录node1节点后台,并将用户切换至root用户下。
b. 请依次执行以下操作:生成新的公钥和私钥文件,清理旧的公钥信息,并将新公钥拷贝到所有节点(包括当前登录的节点)。
c. 登录其它节点后台,执行步骤(a)和(b)命令。
d. admin用户登录节点后台,并将用户切换至root用户下。SSH到当前节点及其它节点的admin用户,验证SSH密钥配置是否生效。
[root@node1 ~]# ssh -p 22 [email protected]
(1) 使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,查看该文件中是否存在sshLoginMode字段,若存在,将该字段取值修改为secret;若不存在,则需手动添加该字段并为其赋值。下面以x86版本为例进行说明。
{
…略
"sshLoginMode":"secret"
}
(2) 重启Matrix服务,使SSH登录方式修改生效。
[root@node1 ~]# systemctl restart matrix
(3) 查看修改的SSH登录方式是否生效。
[root@node1 ~]# cat /var/log/matrix-diag/Matrix/Matrix/matrix.log | grep "sshLoginMode"
2022-03-31T20:11:08,119 | INFO | features-3-thread-1 | CommonUtil.start:245 | ssh port = 22, sshLoginMode = secret.
· 对于使用内置NTP服务器的场景,在部署集群之前,需确保所有节点的系统时间和当前时间保持一致。对于使用外置NTP服务器作为时钟同步源的场景,需确保外置NTP服务器的时间与当前时间保持一致。如果NTP服务器网络不通、出现故障或时间不准确时,可能导致Matrix集群部署失败。
· 查看及修改节点系统时间的命令如下:date(查看系统时间);date -s yyyy-mm-dd(修改系统时间的年月日);date -s hh:mm:ss(修改系统时间的时分秒)。
· 在应用部署、升级过程中,不能执行重启Matrix服务、重启节点和断开节点服务器电源操作,否则会造成应用部署数据出现损坏(例如Etcd数据错误、磁盘文件损坏等),造成应用部署、升级失败。
(1) 依次登录各节点后台,执行sudo bash /opt/matrix/tools/env_check.sh命令进行环境检查,并根据检查结果进行相应处理。
· 统一数字底盘支持的所有操作系统都可执行env_check.sh脚本。
· 在CPU频率低于2000MHz的情况下,Matrix的自检脚本(env_check.sh)和健康检查模块会打印CPU频率告警。请检查服务器硬件是否满足要求,并确保CPU供电模式设置为高性能(performance)模式(例如NingOS系统可执行cpupower frequency-set -g performance命令)。
· 可在节点后台执行sudo bash /opt/matrix/tools/env_check.sh -h命令查看帮助,获取更多脚本使用方式。例如:查询Etcd磁盘IOPS性能的命令为sudo bash /opt/matrix/tools/env_check.sh -p -d /var/lib/etcd。
· 集群部署完成后,docker、chrony等服务会自动启动,无需关注其检查结果。
下表中所示的各项未在env_check.sh脚本中进行检查,请手动确认,确保安装Matrix的条件已经具备。
|
检测项 |
检测标准 |
|
网口 |
Matrix单独使用一个网口,不允许在此网口上配置子接口及子IP。 |
|
IP地址 |
· Matrix节点其它网口上的IP地址不允许和本节点Matrix使用的IP地址相同网段。 · 节点与Matrix集群其它节点通信使用的IP源地址,必须为建立Matrix集群使用的IP地址。可以使用命令ip route get targetIP获取主机访问目标IP时使用的源地址,其中targetIP为目标IP。 [root@node1 ~]# ip route get 100.100.5.10 100.100.5.10 via 192.168.10.10 dev eth0 src 192.168.5.10 |
|
时区 |
· 请确保Matrix所有节点的系统时区必须相同(可使用命令timedatectl查看各节点的系统时区),否则将会导致在GUI页面上增加节点失败。 · 若选择中国标准时区,请选择亚洲/上海,不允许选择“亚洲/北京”(未被正式收录)。 |
|
主机名 |
请确保主机名符合如下标准,否则集群将会建立失败。 · 各节点的主机名不能相同。 · 请勿使用默认主机名(localhost、localhost.localdomain、localhost4、localhost4.localdomain4、localhost6、localhost6.localdomain6)。 · 主机名称最长63个字符,仅支持小写字母、数字、连字符和小数点,不能以0开头且全为数字,不能以0x、连字符、小数点开头,不能以连字符、小数点结尾。 |
(2) 在部署统一数字底盘UDTP_Base_version_platform.zip组件前,请在各节点执行cat /proc/sys/vm/nr_hugepages命令检查大页是否开启,如果返回结果不是0,请记录该值,并执行echo 0 > /proc/sys/vm/nr_hugepages命令临时关闭大页。待部署UDTP_Base_version_platform.zip组件完成后,再将echo 0 > /proc/sys/vm/nr_hugepages命令中的数字0改为记录的值,并在各节点执行,以恢复大页配置。
· 可在Matrix上进行如下操作:上传、删除统一数字底盘应用安装包;部署、升级、扩容、卸载统一数字底盘应用;升级、重建集群节点;增加、删除Worker节点。
· 部署集群节点时,要求主机名称不得重复,当集群部署成功后,不允许修改集群节点的主机名。
· 集群部署过程中不支持登录集群各节点进行任何操作,也不支持在其他集群中添加当前集群部署中的节点。
(1) 在浏览器中输入Matrix的登录地址,进入如下图所示登录页面。
a. 若使用IPv4地址,登录地址格式为:https://ip_address:8443/matrix/ui。本文档后续配置均以IPv4配置为例。
b. 若使用IPv6地址,登录地址格式为:https://[ip_address]:8443/matrix/ui。
登录地址中参数含义如下:
ip_address为节点IP地址。
8443为缺省端口号。
采用集群部署模式时,未部署集群之前,ip_address可以是任意一个规划为Master节点的IP地址。
图8-1 Matrix登录页面
(2) 输入用户名和密码(默认用户名为admin,密码为Pwd@12345)后,单击<登录>按钮,默认进入Matrix的集群部署页面,部署双栈集群需要开启双栈按钮。
图8-2 集群单栈部署页面
部署集群节点前,需要先配置集群参数。配置集群参数,各参数的介绍如下两表所示。
|
参数 |
说明 |
|
北向业务虚IP |
集群对外提供服务的IP地址,该地址必须在Master节点所处的网段内。 |
|
Service IP地址池 |
用于为Service分配IP地址,不能与部署环境中的其它网段冲突。默认地址为10.96.0.0/16,一般保持缺省值。 |
|
容器IP地址池 |
用于为容器分配IP地址,不能与部署环境中的其它网段冲突。默认地址为177.177.0.0/16,一般保持缺省值。 |
|
虚IP模式 |
取值为内置虚IP、外置虚IP。内置模式下虚IP由Matrix下发到集群内,并由Matrix管理虚IP在集群节点间的漂移;外置模式下,虚IP由第三方平台或软件下发到集群外,不再由Matrix管理。默认为内置模式。 说明:E0713版本开始,新增该字段。 |
|
集群网络模式 |
· 单子网:集群内所有节点、虚IP必须在相同网段内,否则将无法互相通信。 · 多子网:多子网模式允许节点和虚IP处于不同子网。启用多子网模式前必须完成所有节点的路由配置。 · 单子网-VXLAN:集群内所有节点、虚IP必须在相同网段内,否则将无法互相通信。单子网-VXLAN模式仅支持IPv4网络。 ¡ 如果在集群上联交换机上配置安全策略如ACL,不允许以Service IP地址池和容器IP地址池中的地址为源的报文转发,需要使用单子网VXLAN。 ¡ 在公有云和私有云场景下,因为云上的网络限制,需要使用单子网VXLAN网络。 |
|
NTP服务器 |
· 用于保证集群内各节点系统时间的一致性,支持选择内置服务器和外置服务器。选择外置服务器时,需要配置NTP服务器地址,且该地址不可与集群内各节点的IP地址冲突。 · 本文档使用内置服务器作为NTP服务器,则部署集群时会首先进行时间同步,集群部署完成后,三台Master节点会定时同步时间,从而保证集群内各节点的系统时间保持一致。 · 如需部署上下级环境,必须为上级和下级配置相同的NTP服务器,以确保上下级的时间一致。 |
|
外置DNS服务器 |
用于解析K8s集群外部的域名,格式为IP:Port,部署统一数字底盘可根据实际需要配置外置DNS服务器。本文档中不配置此项。 · 容器解析域名时,集群外部的域名无法被内置DNS服务器解析,本平台将把需要解析的外部域名随机转发给一台外置DNS服务器来解析。 · 外置DNS服务器最多可以配置10个,各外置DNS服务器要求具有相同的DNS解析能力,并可以独立满足外部域名解析需求、无主备之分、无先后顺序之分。 · 建议所有的DNS服务器都能够访问根域,可使用命令行nslookup -port={port} -q=ns . {ip}查看是否可以访问。 |
|
自定义虚IP |
通常用于隔离集群网络与管理网络。不能与部署环境中的其它网段冲突。 |
表8-3 双栈集群参数说明
|
参数 |
说明 |
|
北向业务虚IP(IPv4、IPv6) |
集群对外提供服务的IP地址,该地址必须在Master节点所处的网段内,分别分配IPv4地址,IPv6地址。北向业务虚IP至少配置一个IPv4或IPv6,不可同时配置两个相同协议的IP。配置IPv6地址时,请勿以冒号结尾。 |
|
Service IP地址池 |
双栈环境下生效。 用于为Service分配IPv4、IPv6地址,默认IPv4地址为10.96.0.0/16,默认IPv6地址为fd00:10:96::/112,一般保持缺省值。集群部署后不允许更改。 该地址池不能与部署环境中其它网段冲突,否则可能会导致集群异常。 |
|
容器IP地址池 |
双栈环境下生效。 用于为容器分配IPv4、IPv6地址,默认IPv4地址为177.177.0.0/16,默认IPv6地址为fd00:177:177::/112,一般保持缺省值。集群部署后不允许更改。 该地址池不能与部署环境中其它网段冲突,否则可能会导致集群异常。 |
|
虚IP模式 |
取值为内置虚IP、外置虚IP。内置模式下虚IP由Matrix下发到集群内,并由Matrix管理虚IP在集群节点间的漂移;外置模式下,虚IP由第三方平台或软件下发到集群外,不再由Matrix管理。默认为内置模式。 说明:E0713版本开始,新增该字段。 |
|
集群网络模式 |
双栈模式下仅支持单子网模式。 单子网:集群内所有节点、虚IP必须在相同网段内,否则将无法互相通信。 |
|
NTP服务器 |
· 用于保证集群内各节点系统时间的一致性,支持选择内置服务器和外置服务器。选择外置服务器时,需要配置NTP服务器地址,且该地址不可与集群内各节点的IP地址冲突。 · 本文档使用内置服务器作为NTP服务器,部署集群时会首先进行时间同步,集群部署完成后,三台Master节点会定时同步时间,从而保证集群内各节点的系统时间保持一致。 · 如需部署上下级环境,必须为上级和下级配置相同的NTP服务器,以确保上下级的时间一致。 |
|
外置DNS服务器 |
用于解析K8s集群外部的域名,格式为IP:Port,部署统一数字底盘可根据实际需要配置外置DNS服务器。本文档中不配置此项。 · 容器解析域名时,集群外部的域名无法被内置DNS服务器解析,本平台将把需要解析的外部域名随机转发给一台外置DNS服务器来解析。 · 外置DNS服务器最多可以配置10个,各外置DNS服务器要求具有相同的DNS解析能力,并可以独立满足外部域名解析需求、无主备之分、无先后顺序之分。 · 建议所有的DNS服务器都能够访问根域,可使用命令行nslookup -port={port} -q=ns . {ip}查看是否可以访问。 |
|
自定义虚IP |
通常用于隔离集群网络与管理网络。不能与部署环境中的其它网段冲突。 |
若NTP服务器不与北向地址相通,可以先不增加NTP服务器。待集群创建完成后,在配置网卡网络时,通过修改集群参数再增加。
单机部署模式下,仅需增加一个Master节点即可部署集群。集群部署模式下,需要增加三个Master节点后,再部署集群。
不支持创建1Master+nWoker(n>0)模式的集群。
(1) 配置集群参数后,单击<下一步>按钮,进入创建集群页面,如下图所示。
(2) 单击Master节点区域的增加图标
,弹出增加节点窗口,如下图所示。
图8-6 增加双栈节点窗口
(3) 配置如下参数:
¡ 类型:显示为“Master”,且不可修改。
¡ IP地址:规划的Master节点的IP地址。支持批量添加Master节点,批量添加模式下,各Master节点的用户名和密码需相同。
¡ 用户名:节点操作系统的用户名。根据安装操作系统时实际选择的用户填写。集群中所有节点的用户名必须相同。
¡ 密码:节点操作系统的用户密码。
(4) 单击<确定>按钮,完成增加Master节点操作。
(5) 单击<开始部署>按钮,开始部署集群,当所有节点的进度达到100%时,表示集群部署成功。
集群部署成功后,主Master节点会在节点左上角显示标记
,其余未被标记的Master节点为备用Master节点。
(6) 集群部署完成后,配置网络和部署应用的操作可以先跳过,后期根据实际需要再进行配置。
Matrix部署完成后,如需执行kubectl命令,请断开重连当前SSH会话后再执行对应命令,否则kubectl命令无法执行,提示The connection to the server localhost:8080 was refused - did you specify the right host or port?
上传安装包时,需保证浏览器到集群之间的网络连接稳定,且连接带宽不能低于10Mbps,否则会导致安装包上传耗时长或上传失败。
应用包仅支持在Matrix页面进行部署,支持批量上传应用包,但必须先部署Base,再部署其他应用。
(1) 在浏览器中输入“https://ip_address:8443/matrix/ui”,登录Matrix。其中“ip_address”为北向业务虚IP地址。
(2) 单击[部署>应用]菜单项,进入应用部署页面。
(3) 部署模式选择“标准”。
图8-8 选择部署模式
(4) 单击<部署应用>按钮,进入安装Base界面。
图8-9 安装Base页面
(5) 单击<上传>按钮,在弹框中上传Base安装包。
图8-10 上传Base安装包
(6) Base上传完成后,在当前页面勾选Base应用安装包,并单击页面底部的<下一步>按钮。
请不要勾选其他应用包,否则无法安装Base。
图8-11 Base上传完成
(7) 在当前页面无需任何操作,直接单击页面底部的<下一步>按钮。
图8-12 应用选择
(8) 单击<修改>按钮,配置Base参数,配置完成后单击<确定>按钮保存配置。
当使用PolarDB数据库时,需要额外配置相关的数据库参数,具体请参见《第三方数据库PolarDB v2.0安装部署指导》。
表8-4 Base参数配置说明
|
配置项 |
配置项参数说明 |
|
资源档位 |
单机模式支持选择single_large、single_medium、single_small三种档位。 集群模式支持选择cluster_large、cluster_medium、cluster_small三种档位 |
|
部署协议 |
可选择http和https。 |
|
HTTP协议端口号 |
缺省值30000。 |
|
HTTPS协议端口号 |
缺省值30443。 |
|
CPU厂商信息 |
根据实际情况选择对应的CPU厂商。 |
|
是否使用第三方数据库 |
可选择true、false。 |
|
主题 |
可选择white、star。 |
|
语言 |
可选择zh_CN、en_US。 |
图8-13 参数配置页面
(9) 参数配置完成后,单击<部署>按钮,开始部署Base。
(10) Base部署完成后,原[部署>应用]页面自动更新为[部署>融合部署]页面,可在该页面下部署其他可选包。
支持在Matrix应用页面部署可选应用和组件。各场景需要部署的组件及应用包请参见“获取软件包”。
本文以标准配置为例,介绍在应用页面上部署Common可选应用和控制组件的过程。
控制组件部署完成后,若需要再部署统一数字底盘的可选应用包,请确保可选应用包的版本与必选应用包的版本相同,否则可能导致部署失败。
操作系统对于网口名称存在字符长度限制,最长为15个字符。在配置VLAN子接口时,由于网口名称需要叠加VLAN子接口,最多会增加5个字符。为了避免名称超长导致网络配置下发失败,请确保使用的网口名称不超过10个字符。
如果服务器使用多个网口接入网络,部署前需要在服务器上启用网口。网口上的配置如下:
(1) 远程登录统一数字底盘所在服务器,在服务器上修改网口配置文件。此处以修改网口ens34的网口配置文件为例。
(2) 打开并编辑网口文件。
[root@node1 /]# vi /etc/sysconfig/network-scripts/ifcfg-ens34
(3) 将网口配置文件中的BOOTPROTO和ONBOOT修改为如下图所示。BOOTPROTO配置为none表示不指定网口的启动协议,ONBOOT配置为yes表示开机自动启用网口连接。
(4) 使用以下命令ifdown和ifup命令重启网口。
[root@node1 /]# ifdown ens34
[root@node1 /]# ifup ens34
(5) 使用ifconfig命令查看网络信息。若网口状态为UP则表示网口启用成功。
(1) 在浏览器中输入“https://ip_address:8443/matrix/ui”,登录Matrix。其中“ip_address”为北向业务虚IP地址。
(2) 单击[部署>应用]菜单项,进入应用页面。
图9-1 部署管理页面
(1) 单击<安装包管理>按钮,进入安装包管理页面。
图9-2 安装包管理页面
(2) 单击<上传>按钮,在弹出的对话框中单击<选择文件>按钮,选择组件安装包和需要部署的统一数字底盘应用包,再单击<上传>按钮上传到系统。
在上传组件安装包时,系统会自动完成数据注册。如果重复上传同一组件的不同版本,系统仅保留最新上传版本的注册信息。若需安装历史上传版本,请手动重新注册或重新上传相应的安装包以更新注册信息。
图9-3 手动重新注册
图9-4 上传安装包
(1) 在应用页面,单击<安装>按钮,进入安装导航页面。
图9-5 应用页面
(2) 在“应用选择”步骤中,在场景选择区域,按需选择对应的场景。
¡ DC数据中心场景:传统数据中心场景,主要用于支撑企业或机构的IT业务系统运行,包括计算、存储、网络等基础资源的集中部署与管理。
¡ DC智算中心场景:面向人工智能、大数据和高性能计算业务的智能计算中心场景,结合AI算力集群与高速网络,支持智能化应用的训练与推理。
本文以“DC数据中心场景”为例。
部署完成后,两种场景可以通过视图的方式进行切换。
图9-6 场景选择
(3) 在Data Center区域下,勾选“SeerEngine-DC”组件。单击<下一步>按钮。
图9-7 应用选择
在“安装包选择”步骤,选择场景的组件安装包。单击<下一步>按钮。
图9-8 选择控制组件版本
在“资源配置”步骤,根据硬件配置选择对应的资源档位,硬件配置与资源档位的支持关系请参见“切换资源档位”。本文以数据中心业务集选择“集群_默认规模”为例。单击<下一步>按钮。
图9-9 资源配置
在“参数配置”步骤中,请按照页面导航栏的顺序依次完成各项参数配置。
全部组件参数配置完成后:
(1) 单击<部署>按钮,页面将展示本次将要部署的应用信息。
(2) 确认信息无误后,单击<确定>按钮开始部署。
(3) 部署过程中的进度将实时展示在页面上。
网络配置要求如下:
· 在物理服务器部署模式下,应根据网络规划,将控制组件的南向网络配置为MACVLAN类型或PASSTHROUGH类型。
· 在云平台部署模式下,控制组件的南向网络必须配置为PASSTHROUGH类型。
(1) 在参数配置步骤进行网络配置。
图9-10 网络配置
(2) 单击<创建网络>按钮,在网络配置框中配置如下参数:
¡ 指定网络类型、网络名称,并按需配置VLAN。
VLAN用于隔离多个MACVLAN网络,确保它们可以共享同一个上行口而不相互干扰。
当灾备网络和控制组件南向网络共用网口时,需要配置VLAN来隔离这两个网络,确保网络通信的有效性。配置的VLAN需要与管理交换机上灾备网络网关的VLAN相同。
¡ 在“子网”区域,单击<创建>按钮,在弹出的对话框中指定子网名称、子网网段、网关等参数。配置完成后单击<确定>按钮。
¡ 在“主机”区域,对指定主机关联上行口。
¡ 单击<确定>按钮,完成此网络的配置。
图9-11 创建控制组件的南向网络
单击<下一步>进入节点绑定页面。在该页面单击<选择节点>按钮,在弹出的对话框中为节点绑定子网。选择完成后单击<确定>按钮。
图9-12 节点绑定
单击<下一步>进入节点信息确认页面。组件的IP地址自动从绑定的子网网段中分配,如需修改,可在此页面单击<上一步>按钮。输入的IP地址必须在组件绑定的网络中的子网网段范围内。
图9-13 节点信息确认
(1) 在参数配置步骤进行网络配置。
图9-14 参数配置页面
(2) 单击<创建网络>按钮,在网络配置框中配置如下参数。
¡ 指定网络类型、网络名称。
¡ 在“子网”区域,单击<创建>按钮,在弹出的对话框中指定子网名称、子网网段、网关等参数。配置完成后单击<确定>按钮。
¡ 在“主机”区域,对指定主机关联上行口。
¡ 单击<确定>按钮,完成此网络的配置。
请注意每个PASSTHROUGH网络必须独占一个物理网卡。
图9-15 网络类型为PASSTHROUGH
单击<下一步>进入节点绑定页面。在该页面单击<选择节点>按钮,在弹出的对话框中为节点绑定子网。选择完成后单击<确定>按钮。
图9-16 节点绑定
单击<下一步>进入节点信息确认页面。组件的IP地址自动从绑定的子网网段中分配,如需修改,可在此页面单击<上一步>按钮。输入的IP地址必须在组件绑定的网络中的子网网段范围内。
图9-17 节点信息确认
在主机Overlay或混合Overlay组网中,需要部署vBGP组件以实现BGP路由的传递上报。vBGP组件支持单机和集群部署。
Matrix应用页面支持部署vBGP组件。
在开始部署vBGP之前,请确保Matrix集群和所需的统一数字底盘应用包已经安装完成。具体请参见“安装Matrix”和“部署统一数字底盘”。
在部署vBGP前,请先根据业务需求规划网络地址池。
· 在物理服务器部署模式下,vBGP的网络类型可配置为MACVLAN类型或PASSTHROUGH类型。
· 在云平台部署模式下,vBGP的网络类型需配置为PASSTHROUGH类型。
在云平台部署时,若南向网络类型选择为PASSTHROUGH,必须确保云平台支持并已放行虚IP功能,特别是用于vBGP虚IP地址,否则将影响服务通信。
本文以MACVLAN类型为例,子网中的IP地址个数按照如下表格计算。
表10-1 vBGP使用的网络类型和数量
|
组件名称 |
网络类型 |
网络数量 |
说明 |
|
|
vBGP |
管理和业务网络合一 |
MACVLAN(管理网络) |
1 |
既用于vBGP和SeerEngine-DC之间的互通,又用于承载业务流量 |
|
管理和业务网络分离 |
MACVLAN(管理网络) |
1 |
仅用于vBGP和SeerEngine-DC之间的互通 |
|
|
MACVLAN(业务网络) |
1 |
仅用于承载业务流量 |
||
图10-1 云数据中心场景(集群部署vBGP且管理和业务网络分离)
图10-2 云数据中心场景(单机部署vBGP且管理和业务网络分离)
SeerEngine-DC南向网络与vBGP管理网络属于不同的网段,需要在连接对应网口的交换机上配置路由表项,实现SeerEngine-DC南向网络与vBGP管理网络的三层互通。
表10-2 网络说明
|
网络名称 |
说明 |
|
管理网络 |
针对控制组件的网络,使用eth1和控制组件的南向IP进行通信,运行NETCONF管理协议。 |
|
业务网络 |
在混合Overlay、部署BGP的场景下,vBGP的虚IP落在业务网络中。在实际部署中,管理网络和业务网通常分别落在两块网卡上,达到管理和业务隔离的效果。 |
MACVLAN网络子网中的IP地址个数建议按照如下表格计算。
表10-3 子网IP地址池地址个数规划
|
组件名称 |
网络类型 |
最大集群成员个数 |
默认集群成员个数 |
IP地址计算方式 |
|
|
vBGP |
管理和业务网络合一 |
MACVLAN(管理网络) |
2 |
2 |
1*集群成员个数+1(集群IP) |
|
管理和业务网络分离 |
MACVLAN(管理网络) |
2 |
2 |
1*集群成员个数 |
|
|
MACVLAN(业务网络) |
2 |
2 |
1*集群成员个数+1(集群IP) |
||
以vBGP集群模式下,vBGP管理和业务网络合一为例,具体的IP地址规划可参见下表。
表10-4 IP地址规划
|
组件名称 |
网络类型 |
IP地址 |
说明 |
|
vBGP |
MACVLAN(管理网络) |
子网网段:192.168.13.0/24(网关为192.168.13.1) |
管理和业务网络合一 |
|
网络地址池:192.168.13.101~192.168.13.132 |
(1) 在浏览器中输入“https://ip_address:8443/matrix/ui”,登录Matrix。其中“ip_address”为北向业务虚IP地址。
(2) 单击[部署>应用]菜单项,进入应用页面。
图10-3 应用页面
(1) 单击<安装包管理>按钮,进入安装包管理页面。本例以部署x86版本软件包“vBGP-E1123H01-HELM-X64.zip”为例。
图10-4 安装包管理页面
(2) 单击<上传>按钮,在弹出的对话框中单击<选择文件>按钮,选择组件安装包和需要部署的统一数字底盘应用包,再单击<上传>按钮上传到系统。
图10-5 上传安装包
(1) 在部署管理页面,单击<安装>按钮,进入安装导航页面。
(2) 在“应用选择”步骤,在场景选择区域,请按照实际需求选择“DC数据中心场景”或者“DC智算中心场景”,本文以“DC数据中心场景”为例。
图10-6 场景选择
(3) 在Data Center区域下,勾选“vBGP(可选)”。单击<下一步>按钮。
图10-7 勾选“vBGP(可选)”
在“安装包选择”步骤,在Data Center区域下选择vBGP安装包。单击<下一步>按钮。
图10-8 选择vBGP版本
在“资源配置”步骤,vBGP仅有一个规模档位,即默认规模。单击<下一步>按钮。
图10-9 资源配置
在“参数配置”步骤中,请按照页面导航栏的顺序依次完成各项参数配置。
全部组件参数配置完成后:
(1) 单击<部署>按钮,页面将展示本次将要部署的应用信息。
(2) 确认信息无误后,单击<确定>按钮开始部署。
(3) 部署过程中的进度将实时展示在页面上。
(1) 选择网络方案,并进行网络配置。
a. 网络方案分为“管理和业务网络合一”和“管理和业务网络分离”。本文以选择“管理和业务网络合一”为例。
图10-10 选择网络方案
b. 单击<创建网络>按钮,可在网络配置框中,按照网络规划,配置各网络,具体配置如下:
- 指定网络类型、网络名称。并可以配置VLAN。
- 在“子网”区域,单击<创建>按钮,在弹出的对话框中指定子网名称、子网网段、网关等参数。配置完成后单击<确定>按钮。
- 在“主机”区域,对指定主机关联上行口。
- 单击<确定>按钮,完成此网络的配置。
图10-11 创建网络
(2) 单击<下一步>进入节点绑定页面。在该页面单击<选择节点>按钮,在弹出的对话框中选择两个节点,并为节点绑定子网。选择完成后单击<确定>按钮。
图10-12 节点绑定
图10-13 选择节点
配置完成后,可手动修改系统分配的IP地址和VRRP备份组号。
VRRP备份组号的取值范围为1~255,同一个网络中不能配置相同的VRRP备份组号。
图10-14 配置完成
(3) 单击<下一步>进入节点信息确认页面。组件的IP地址自动从绑定的子网网段中分配,如需修改,可在此页面单击<上一步>按钮。输入的IP地址必须在组件绑定的网络中的子网网段范围内。
图10-15 节点信息确认
(1) 选择网络方案,并进行网络配置。
a. 网络方案分为“管理和业务网络合一”和“管理和业务网络分离”。本文以选择“管理和业务网络合一”为例。
图10-16 选择网络方案
b. 单击<创建网络>按钮,可在网络配置框中,按照网络规划,配置各网络,具体配置如下:
- 指定网络类型、网络名称。并可以配置VLAN。
- 在“子网”区域,单击<创建>按钮,在弹出的对话框中指定子网名称、子网网段、网关等参数。配置完成后单击<确定>按钮。
- 在“主机”区域,对指定主机关联上行口。
- 单击<确定>按钮,完成此网络的配置。
请注意每个PASSTHROUGH网络必须独占一个物理网卡。
图10-17 创建网络
(2) 单击<下一步>进入节点绑定页面。在该页面单击<选择节点>按钮,在弹出的对话框中选择两个节点,并为节点绑定子网。选择完成后单击<确定>按钮。
图10-18 节点绑定
配置完成后,可手动修改系统分配的IP地址和VRRP备份组号。
VRRP备份组号的取值范围为1~255,同一个网络中不能配置相同的VRRP备份组号。
图10-19 配置完成
(3) 单击<下一步>进入节点信息确认页面。组件的IP地址自动从绑定的子网网段中分配,如需修改,可在此页面单击<上一步>按钮。输入的IP地址必须在组件绑定的网络中的子网网段范围内。
图10-20 节点信息确认
控制组件部署完成后将在统一数字底盘中加载对应菜单项,登录统一数字底盘即可使用SeerEngine功能。
统一数字底盘提供友好的GUI界面。具体登录方式如下:
(1) 在浏览器中输入统一数字底盘登录地址(默认登录地址:http://ip_address:30000),回车后会进入如图所示登录界面。
¡ ip_address:为统一数字底盘所在的集群北向业务虚IP地址。
¡ 30000为端口号。
(2) 输入用户名密码登录统一数字底盘,缺省用户名为admin,密码为Pwd@12345。登录成功后进入主页面。
SeerEngine-DC安装完成后,可180天内试用所有功能,超过试用期限后,需要获取License授权才能正常使用。
关于授权的申请和安装过程,请参见《H3C软件产品远程授权License使用指南》。
在License Server上安装产品的授权后,只需在产品的License管理页面与License Server建立连接即可获取授权,操作步骤如下:
(1) 登录统一数字底盘,单击[系统>License管理>License信息]菜单项,进入License信息管理页面。
(2) 在页面中配置License Server信息的参数。各参数介绍请参见下表。
|
参数 |
说明 |
|
IP地址 |
安装License Server的服务器上用于组件集群内各节点之间通信的IP地址 |
|
端口号 |
此处缺省值为“5555”,与License Server授权服务端口号保持一致 |
|
客户端名称 |
License Server中设置的客户端名称 |
|
客户端密码 |
License Server中设置的客户端名称对应的密码 |
(3) 配置完成后,单击<连接>按钮与License Server建立连接,连接成功后组件可自动获取授权信息。
本章节介绍控制组件的升级及卸载步骤,统一数字底盘的升级及卸载步骤请参见《H3C 统一数字底盘部署指导》。
控制组件可在Matrix应用页面进行升级和卸载。
(1) 登录Matrix,进入[部署>应用]页面。
图14-1 应用页面
(4) 单击<上传>按钮,在弹出的对话框中单击<选择文件>按钮,选择待升级的安装包,选择完成后单击<上传>按钮。
在上传组件安装包时,系统会自动完成数据注册。如果重复上传同一组件的不同版本,系统仅保留最新上传版本的注册信息。若需安装历史上传版本,请手动重新注册或重新上传相应的安装包以更新注册信息。
图14-2 手动重新注册
图14-3 升级页面
(5) 勾选待升级的安装包后,单击<升级>按钮,完成组件升级。
图14-4 勾选升级包
· 控制组件版本升级后,请手动清除浏览器缓存后再重新登录。
· 升级控制组件时,必须配套升级AIDC Agent,AIDC Agent的升级步骤请参见《H3C AIDC Agent安装部署指导》。
组件的热补丁版本必须和基线版本一致。
在Matrix应用页面支持对控制组件进行补丁升级。补丁升级可能会导致控制组件业务中断,请谨慎操作。
升级步骤如下:
(1) 登录Matrix,进入[部署>应用]页面。
图14-5 应用页面
(3) 单击组件对应操作列的热补丁升级
图标,进入热补丁管理页面。
(4) 在热补丁管理页面单击<上传>按钮,在弹出的对话框中选择并上传待升级的热补丁安装包。
图14-6 上传热补丁安装包
(5) 勾选上传完成的热补丁安装包后,单击<升级>按钮,进行热补丁升级操作。
图14-7 热补丁升级
(6) 如热补丁升级失败,单击<回滚>按钮,可将组件回退到升级之前的版本;或者单击<终止升级>按钮,结束本次升级。
(1) 登录Matrix,进入[部署>应用]页面。
(2) 勾选待卸载组件左侧的复选框,单击<卸载>按钮,卸载指定的组件。
图14-8 卸载组件
卸载控制组件热补丁的具体操作如下:
(1) 登录Matrix,进入[部署>应用]页面。
图14-9 应用页面
(3) 单击控制组件对应操作列的热补丁升级
图标,进入热补丁管理页面。
(4) 在已安装热补丁的操作区段,单击<卸载>按钮,在弹出的对话框中选择热补丁回退到的基线版本,并确保基线安装包存在。
图14-10 单击热补丁卸载按钮
图14-11 卸载热补丁确认
(5) 单击<确定>按钮开始卸载热补丁。
资源档位切换是指在已经部署的组件中,可通过简单的操作实现对组件的资源配置进行动态调整。用户可以根据实际需求,在不中断服务的情况下,改变组件所使用的内存等资源规格,以优化性能和资源利用。
· 在进行资源档位切换时,需确保目标资源配置与所需硬件配置要求相符,以避免性能不足或不稳定的情况发生。
· 低配不支持异地灾备。
表15-1 资源档位参数说明
|
硬件配置需求说明 |
控制组件规格描述 |
控制组件资源档位 |
统一数字底盘资源档位 |
|
单机/集群部署,低配 |
50设备/600服务器 |
单机/集群_小规模 |
UDTP_Base:单机/集群_小规模 |
|
集群部署,标配 |
300设备/6000服务器 |
集群_默认规模 |
UDTP_Base:集群_中规模 BMP_Common:集群_中规模 |
|
集群部署,高配 |
1000设备/20000服务器 |
集群_大规模 |
UDTP_Base:集群_中规模 BMP_Common:集群_默认规模 |
操作步骤如下:
(1) 登录Matrix,进入[部署>应用]页面。
图15-2 应用页面
(2) 单击<资源配置>按钮,在数据中心场景区域,可根据当前的硬件配置选择对应的资源档位,硬件配置与资源档位的支持关系请参见上表。
图15-3 资源配置页面
(3) 配置完成后,单击<确认>按钮。
切换资源档位会引起控制组件重启,请谨慎操作。
控制组件扩容有以下两种情况:
· 单机部署模式扩容为集群部署模式
· 集群模式扩容
此种模式下,需在Matrix上同时增加两个Master节点并与原Master节点组成三机集群,然后依次扩容统一数字底盘和控制组件。
具体配置步骤请参见《H3C 统一数字底盘部署指导》。
(1) 登录Matrix,进入[部署>应用]页面。
图16-1 应用页面
(2) 单击<扩容>按钮,进入扩容页面,在对应控制组件页签下进行如下配置:
a. 在列表中选择需要扩容的主机,完成网络和主机上行口的关联。
b. 在集群信息区域选择子网,单击<确定>按钮。
图16-2 选择主机和配置集群信息
c. 在主机信息区域,检查并确认集群IP和容器内网卡IP是否正确无误。
图16-3 配置主机信息
(3) 确认所有信息无误后,单击页面右下角的<扩容>按钮,在弹出的对话框中进行扩容确认。
(4) 单击<确定>按钮开始扩容。扩容开始后,可在界面上监控扩容进度,确保扩容过程顺利完成。
(5) 扩容完成后,检查新扩容的组件是否正常运行。
此种模式下,一次仅可扩容一个Worker节点,需在Matrix上先增加Worker节点,部署集群,然后扩容控制组件。
(1) 扩容控制组件前需确保统一数字底盘Matrix集群中已添加Worker节点,具体步骤请参见《H3C 统一数字底盘部署指导》。
(2) 登录Matrix,进入[部署>应用]页面。
图16-4 应用页面
(3) 选择需要扩容的控制组件,单击操作区段的
按钮,进入扩容页面。
(4) 选择需要扩容的主机,完成网络和主机上行口的关联。单击<确认>按钮。
图16-5 扩容页面
(5) 在主机信息区域确定容器内网卡IP等信息。
图16-6 主机信息区域
(6) 单击<扩容>按钮,进行组件的扩容操作。
(7) 由于一次仅可扩容一个Worker节点,若有多个Worker节点需要扩容,在上个Worker节点扩容完成后,需重新进入在主机信息区域,单击<扩容>按钮,对剩余Worker节点进行依次扩容。
当组成集群的Master节点位于不同的网段时,需要通过集群跨三层部署方式组件集群。
集群跨三层部署不支持以下情况:
· 不支持异地灾备。
· vBGP组件不支持跨三层部署。
· 不支持Underlay IPv6部署。
因低版本的VMware使用的vmxnet虚拟网口可能会导致VXLAN帧中的TCP数据包长度计算错误,所以使用VMware部署跨三层集群时,请使用VMware ESXi 6.7P07和7.0U3 (7.0.3)或更高版本。虚拟机网络适配器的适配器类型请选择E1000或E1000e。
如上图所示,统一数字底盘集群的三个Master节点中,Master1和Master2位于Fabric1管理网络中,Master3位于Fabric2的管理网络中,Fabric1和Fabric2间的管理网络位于不同的网段,通过三层网络实现互通。需要使用跨三层部署方式建立统一数字底盘集群,IP地址规划如下表所示。
表17-1 IP地址规划
|
组件名称 |
地址规划名称 |
IP地址 |
地址说明 |
|
统一数字底盘集群 |
Master1节点IP |
192.168.10.102/24 |
默认网关为192.168.10.1,设置在管理交换机1上 |
|
Master2节点IP |
192.168.10.103/24 |
||
|
Master3节点IP |
192.168.110.104/24 |
默认网关为192.168.110.1,设置在管理交换机2上 |
|
|
集群内部虚IP |
192.168.10.101/32 |
- |
|
|
北向业务虚IP |
192.168.10.100/32 |
- |
|
|
SeerEngine-DC |
南向网络1(绑定Master1和Master2) |
子网网段:192.168.12.0/24 网络地址池:192.168.12.101-192.168.12.132 |
使用MACVLAN类型网络,默认网关为192.168.12.1,设置在管理交换机1上 |
|
南向网络2(绑定Master3) |
子网网段:192.168.112.0/24 网络地址池:192.168.112.101-192.168.112.132 |
使用MACVLAN类型网络,默认网关为192.168.112.1,设置在管理交换机2上 |
|
|
南向网络3(集群虚IP) |
子网网段:8.8.8.0/24 网络地址池:8.8.8.8-8.8.8.8 |
无需在交换机上设置网关IP地址 |
|
|
管理交换机 |
管理交换机1 |
Vlan-interface 10:192.168.10.1/24 192.168.12.1/24 Vlan-interface 20:192.168.20.9/30 |
· 将管理交换机1上连接Master1和Master2的接口加入VLAN 10中。本例以Ten-GigabitEthernet1/0/25、Ten-GigabitEthernet1/0/26为例,统一数字底盘节点管理网络和SeerEngine-DC南向网络使用同一网口。 · 将管理交换机1上连接管理交换机2的接口添加到VLAN 20中,以接口Ten-GigabitEthernet1/0/27为例。 |
|
管理交换机2 |
Vlan-interface 11:192.168.110.1/24 192.168.112.1/24 Vlan-interface 20:192.168.20.10/30 |
· 将管理交换机2上连接Master3的接口加入VLAN 11中。本例以Ten-GigabitEthernet1/0/25为例,统一数字底盘节点管理网络和SeerEngine-DC南向网络使用同一网口。 · 将管理交换机2上连接管理交换机1的接口添加到VLAN 20中,以接口Ten-GigabitEthernet1/0/26为例。 |
进行本章节配置前,需先完成Underlay路由相关配置,确保节点间IP地址能够三层互通、节点与两个网关IP地址能够三层互通。
(1) 管理交换机1配置如下:
[device1] vlan 10
[device1-vlan10] quit
[device1] interface Vlan-interface10
[device1-Vlan-interface10] ip address 192.168.10.1 255.255.255.0
[device1-Vlan-interface10] ip address 192.168.12.1 255.255.255.0 sub
[device1-Vlan-interface10] quit
[device1] vlan 20
[device1-vlan20] quit
[device1] interface Vlan-interface20
[device1-Vlan-interface20] ip address 192.168.20.9 255.255.255.252
[device1-Vlan-interface20] quit
[device1] interface Ten-GigabitEthernet1/0/25
[device1-Ten-GigabitEthernet1/0/25] port link-mode bridge
[device1-Ten-GigabitEthernet1/0/25] port access vlan 10
[device1-Ten-GigabitEthernet1/0/25] quit
[device1] interface Ten-GigabitEthernet1/0/26
[device1-Ten-GigabitEthernet1/0/26] port link-mode bridge
[device1-Ten-GigabitEthernet1/0/26] port access vlan 10
[device1-Ten-GigabitEthernet1/0/26] quit
[device1] interface Ten-GigabitEthernet1/0/27
[device1-Ten-GigabitEthernet1/0/27] port link-mode bridge
[device1-Ten-GigabitEthernet1/0/27] port access vlan 20
[device1-Ten-GigabitEthernet1/0/27] quit
[device1] ip route-static 192.168.110.0 255.255.255.0 192.168.20.10
(2) 管理交换机2配置如下:
[device2] vlan 11
[device2-vlan11] quit
[device2] vlan 20
[device2-vlan20] quit
[device2] interface Vlan-interface11
[device2-Vlan-interface11] ip address 192.168.110.1 255.255.255.0
[device2-Vlan-interface11] ip address 192.168.112.1 255.255.255.0 sub
[device2-Vlan-interface11] quit
[device2] vlan 20
[device2-vlan20] quit
[device2] interface Vlan-interface20
[device2-Vlan-interface20] ip address 192.168.20.10 255.255.255.252
[device2-Vlan-interface20] quit
[device2] interface Ten-GigabitEthernet1/0/25
[device2-Ten-GigabitEthernet1/0/25] port link-mode bridge
[device2-Ten-GigabitEthernet1/0/25] port access vlan 11
[device2-Ten-GigabitEthernet1/0/25] quit
[device2] interface Ten-GigabitEthernet1/0/26
[device2-Ten-GigabitEthernet1/0/26] port link-mode bridge
[device2-Ten-GigabitEthernet1/0/26] port access vlan 20
[device2-Ten-GigabitEthernet1/0/26] quit
[device2] ip route-static 192.168.10.0 255.255.255.0 192.168.20.9
本章节仅描述跨三层部署与普通的二层部署差异的配置,其他配置步骤请参见《H3C 统一数字底盘部署指导》。
(1) 在配置集群参数时,需要将集群网络模式配置为多子网。
(2) 增加三个集群Master节点时,需要配置BGP相关参数,节点参数配置如下表所示。以master1节点为例,如下图所示。
|
节点 |
IP地址 |
Local/Router ID |
Local/AS Number |
Peers/IP |
Peers/AS Number |
|
master1 |
192.168.10.102 |
192.168.10.102 |
100 |
192.168.10.1 |
100 |
|
master2 |
192.168.10.103 |
192.168.10.103 |
100 |
192.168.10.1 |
100 |
|
master3 |
192.168.110.104 |
192.168.110.104 |
200 |
192.168.110.1 |
200 |
(3) Matrix集群创建完成后,需在集群节点连接的交换机上配置BGP协议,配置举例如下:
管理交换机1配置如下:
[device1] bgp 100
[device1-bgp] peer 192.168.10.102 as-number 100
[device1-bgp] peer 192.168.10.102 connect-interface Vlan-interface 10
[device1-bgp] peer 192.168.10.103 as-number 100
[device1-bgp] peer 192.168.10.103 connect-interface Vlan-interface 10
[device1-bgp] peer 192.168.110.1 as-number 200
[device1-bgp] peer 192.168.110.1 connect-interface Vlan-interface 20
[device1-bgp] address-family ipv4 unicast
[device1-bgp-ipv4] peer 192.168.10.102 enable
[device1-bgp-ipv4] peer 192.168.10.103 enable
[device1-bgp-ipv4] peer 192.168.110.1 enable
管理交换机2配置如下:
[device2] bgp 200
[device2-bgp] peer 192.168.110.104 as-number 200
[device2-bgp] peer 192.168.110.104 connect-interface Vlan-interface 11
[device2-bgp] peer 192.168.10.1 as-number 100
[device2-bgp] peer 192.168.10.1 connect-interface Vlan-interface 20
[device2-bgp] address-family ipv4 unicast
[device2-bgp-ipv4] peer 192.168.110.104 enable
[device2-bgp-ipv4] peer 192.168.10.1 enable
本章节仅描述控制组件跨三层部署与普通的二层部署差异的内容,其他内容请参见章节“部署控制组件”。本章节以在统一数字底盘页面进行操作为例进行说明。
(1) 部署控制组件时,在参数配置步骤中,请按照网络规划创建对应的MACVLAN类型网络。
(2) 在节点绑定时,单击<选择节点>按钮,在弹出的对话框中为节点绑定对应的网络。
图17-5 节点绑定
(3) 单击<下一步>进入节点信息确认页面,确认各节点信息。
(4) 控制组件部署完成后,在控制组件页面配置每个集群节点的路由信息,可配置OSPF和BGP,本章节以配置BGP为例,参数配置信息如下表所示。以配置master1为例,如下图所示。
|
节点 |
BGP实例配置 |
Network |
Neighbor配置 |
||
|
Router ID |
AS Number |
Neighbor |
Remote AS |
||
|
master1 |
192.168.12.101 |
100 |
8.8.8.8/32 |
192.168.12.1 |
100 |
|
master2 |
192.168.12.102 |
100 |
8.8.8.8/32 |
192.168.12.1 |
100 |
|
master3 |
192.168.112.101 |
200 |
8.8.8.8/32 |
192.168.112.1 |
200 |
图17-6 master1节点路由配置
(5) 在控制组件页面完成路由配置以后,需在管理交换机上进行相应的路由配置,具体配置如下:
管理交换机1配置如下:
[device1] bgp 100
[device1-bgp] peer 192.168.12.101 as-number 100
[device1-bgp] peer 192.168.12.101 connect-interface Vlan-interface 10
[device1-bgp] peer 192.168.12.102 as-number 100
[device1-bgp] peer 192.168.12.102 connect-interface Vlan-interface 10
[device1-bgp] address-family ipv4 unicast
[device1-bgp-ipv4] peer 192.168.12.101 enable
[device1-bgp-ipv4] peer 192.168.12.102 enable
管理交换机2配置如下:
[device2] bgp 200
[device2-bgp] peer 192.168.112.101 as-number 200
[device2-bgp] peer 192.168.112.101 connect-interface Vlan-interface 11
[device2-bgp] address-family ipv4 unicast
[device2-bgp-ipv4] peer 192.168.112.101 enable
2+1+1模式是一种低成本的故障恢复模式,用户需要在原有集群的配置上,额外增加一台物理服务器作为冷备成员存在。部署时需要将控制组件集群的3个节点部署在两个不同的机柜或机房中,同时建议在集群系统之外额外预留一台服务器,作为支持故障出现时紧急处理的冗余节点。在集群正常工作时,备用冗余节点不需要上电工作。当集群出现两台Master节点同时故障,导致集群无法工作时,备用节点可以在用户加电启动后快速加入集群,做到快速的灾备恢复。
集群2+1+1部署流程如下:
准备4台服务器,其中3台用于安装统一数字底盘集群,1台作为备份服务器。4台服务器的网口需要完全一致。
将4台服务器安装至不同位置,推荐安装方式为:用于安装集群的2个服务器安装在一个机柜(或机房)中,用于安装集群的另一个服务器和备份服务器安装在另一个机柜(或机房)中。
在3台节点上安装统一数字底盘,安装步骤请参见《H3C 统一数字底盘部署指导》。3个节点的IP地址建议部署在同一网段中,且保证节点间能够互通。
在集群中部署控制组件,部署步骤请参见“部署控制组件”。
在备份服务器上安装Matrix,安装完成后无需部署统一数字底盘。需要注意的是,备份服务器上安装的Matrix版本需要与3台集群节点中安装的Matrix版本相同。
以集群节点分别为控制组件1、控制组件2和控制组件3为例,进行集群灾备操作前,需要准备以下工作:
记录集群中三个节点的主机名、网口名称、节点IP地址、用户名及密码。
在备用节点上预装与集群节点相同版本的Matrix。
· 备用节点的盘符合磁盘分区必须和三个节点保持一致。
· 若集群节点的统一数字底盘为补丁版本,在备用节点上预装Matrix时,请保证备用节点预装与集群节点相同版本的Matrix。
对于三个Leader节点的集群,当两个节点(例如控制组件1和2)都出现故障时,意味着集群系统的多数节点出现异常,这时集群系统不能正常工作,需要尽快干预恢复。整个系统仅有控制组件3能够登录,同时控制组件3将自动进入紧急模式。
图18-2 两节点故障
可通过如下操作步骤恢复集群:
(1) 对备用节点进行上电操作(不接入管理网络),确认是否已安装Matrix,如未安装,可参见《H3C 统一数字底盘部署指导》进行安装,安装完成后请勿配置集群。
(2) 确认备用节点的主机名、网口名称、节点IP地址、用户名及密码与两个故障节点中的其中一个(本例以控制组件1为例)完全一致。
(3) 断开故障节点控制组件1和2的网络连接,并将备用节点接入管理网络。
(4) 登录控制组件3的Matrix Web页面,进入[部署 > 集群 > 集群部署]页面,单击控制组件1节点右上角的“设置”图标
,在下拉菜单中选择“重建”选项,在弹出窗口中选择重建方式:
¡ 方式一:单击上传与当前节点相同版本的软件包进行节点重建,并上传重建文件,单击<应用>按钮。
¡ 方式二:单击使用系统中原有的节点部署文件进行重建,单击<应用>按钮。
(5) 节点图标底色变绿后表示节点重建成功。节点重建完成后,当前页面仍处于紧急模式中,需退出并重新登录。建议使用北向业务虚IP重新登录Matrix Web页面。
图18-3 节点重建成功
图18-4 退出并重新登录
在集群正常后,可以对原有物理服务器进行修复和恢复。如果使用全新的物理服务器代替异常控制组件2,那么需要登录Matrix Web页面进行修复操作。如果原有的控制组件2的文件系统能够恢复,并可正常启动,则控制组件可以在加电启动后自动加入集群。此时集群恢复到3台均可用的正常状态。
· 节点重建完成后,备用节点将以控制组件1的身份加入集群,原控制组件1故障恢复后不能直接再次加入集群,推荐对恢复后控制组件1执行硬盘数据格式化后再预装Matrix,作为新的备用节点。
· 如果两台控制组件出现异常,请勿在唯一正常的节点上执行重启操作,否则将无法通过此方式恢复集群。
控制组件E71xx及之后的版本仅支持使用统一数字底盘提供的灾备功能,需部署扩展服务组件安装包(BMP_Extension_version_platform.zip)后,在[系统>应急管理>异地容灾]页面配置灾备功能。
本功能用于配置数据中心控制组件异地灾备(RDR,Remote Disaster Recovery)。异地灾备系统是指处于异地的两个站点之间做主备灾备。异地灾备系统正常运行时,对外提供服务站点的数据实时向对端站点同步,确保两站点间的数据一致。用户可通过界面操作配置手动倒换,当对外提供服务的站点出现故障时,例如整站点断电、站点网络故障、站点和外界相连的链路故障,故障站点的业务可被另一个站点接管,保持业务连续性,减少损失。
手动模式:即灾备系统不会自动监测主站点和备站点上的组件状态,由用户控制和指定组件在站点上的主用或备用状态,可以通过接管和降备功能,切换组件在站点上主用或备用状态。使用手动模式时,需要在主备站点上各部署一套相同版本的统一数字底盘。
带仲裁的自动倒换模式:灾备系统会自动监测组件状态,若站点的组件或统一数字底盘发生故障,例如站点断电、网络故障等,灾备系统会通过仲裁服务,自动切换组件在不同站点上的状态。该模式下,支持用户进行手动切换。使用带仲裁的自动倒换模式需要在主备站点上各部署一套相同版本的统一数字底盘,同时再单独部署仲裁服务作为第三个站点。仲裁服务支持两种部署方式:独立部署和合并部署。
表19-1 仲裁服务部署方式说明
|
部署方式 |
说明 |
|
独立部署 |
采用一台独立物理服务器部署仲裁服务 |
|
合并部署 |
复用主备站点中的某台服务器部署仲裁服务 |
推荐使用独立部署方式,如果采用合并部署方式,当仲裁服务所在服务器发生故障时,仲裁服务可能同时失效,无法进行自动倒换,需要切换至手动倒换模式。
具体配置流程如下。
(1) 分别在主备站点部署统一数字底盘(需要部署BMP_Extension)。
(2) 分别在主备站点部署数据中心控制组件。
(3) 部署仲裁服务(带仲裁的自动倒换模式下使用)。
(4) 创建灾备系统。
· 异地灾备场景下,若使用Underlay自动化部署业务,在管理交换机上配置DHCP中继时,需要同时指定主站点和备站点的控制组件集群IP作为中继服务器。
· 使用异地灾备功能时,需保证主备站点的灾备数据同步网络和控制组件IP地址均不同。
· 混合Overlay场景下不支持灾备,即vBGP组件不支持灾备部署。
表19-2 异地灾备场景下各组件使用的网络类型和数量
|
站点名称 |
组件名称 |
网络类型 |
网络数量 |
说明 |
|
主/备站点 |
SeerEngine-DC |
MACVLAN(南向网络) |
1 |
- |
|
MACVLAN(灾备数据同步网络) |
1 |
· 用于主备站点之间的数据同步,承载数据实时同步的流量 · 确保主备站点的灾备数据同步网络可以二层互通 · 推荐单独使用一个网口 |
表19-3 异地灾备场景下子网IP地址池地址个数规划
|
站点 |
组件名称 |
网络类型 |
最大集群成员个数 |
默认集群成员个数 |
IP地址计算方式 |
说明 |
|
主/备站点 |
SeerEngine-DC |
MACVLAN(南向网络) |
32 |
3 |
1*集群成员个数+1(集群IP) |
- |
|
MACVLAN(灾备数据同步网络) |
32 |
3 |
1*集群成员个数 |
单独网口 |
异地灾备场景下具体的IP地址规划请参见下表。
表19-4 异地灾备场景的IP地址规划
|
站点 |
组件名称 |
网络类型 |
IP地址 |
说明 |
|
主站点 |
SeerEngine-DC |
MACVLAN(南向网络) |
子网网段:192.168.12.0/24(网关为192.168.12.1) |
- |
|
网络地址池:192.168.12.101~192.168.12.132 |
||||
|
MACVLAN(灾备数据同步网络) |
子网网段:192.168.16.0/24(网关为192.168.16.1) |
推荐单独网口 主备站点的灾备数据同步网络和DC组件南向网络的网段不同 |
||
|
网络地址池:192.168.16.101~192.168.16.132 |
||||
|
备站点 |
SeerEngine-DC |
MACVLAN(南向网络) |
子网网段:192.168.12.0/24(网关为192.168.12.1) |
- |
|
网络地址池:192.168.12.133~192.168.12.164 |
||||
|
MACVLAN(灾备数据同步网络) |
子网网段:192.168.16.0/24(网关为192.168.16.1) |
推荐单独网口 主备站点的灾备数据同步网络和DC组件南向网络的网段不同 |
||
|
网络地址池:192.168.16.133~192.168.16.164 |
· 主备站点的统一数字底盘版本需要一致,并配置相同的HTTP或HTTPS传输协议。
· 异地灾备功能不支持主备站点使用不同的IP版本。
主备站点上部署相同版本的统一数字底盘,步骤如下。
(1) 在主备站点上部署Matrix。配置过程请参见“安装Matrix”。
(2) 在主备站点上部署统一数字底盘,请注意需要上传并部署包含异地灾备功能的安装包(BMP_Extension)。配置过程请参见《H3C 统一数字底盘部署指导》。主备站点需要配置相同的外置NTP服务器。
若指定备站点上已安装的组件未支持异地灾备功能或容灾关系不是备用,请先卸载后再安装。
(1) 获取数据中心控制组件安装包,主备站点上需部署相同版本的数据中心控制组件,且数据中心控制组件的安装包名称必须完全相同。
(2) 登录统一数字底盘页面,单击[部署>应用]菜单项,进入应用页面。
(3) 单击<安装包管理>按钮,将控制组件安装包上传到系统。上传完成后,回到应用页面单击<安装>按钮,进入应用选择页面。
选择“SeerEngine-DC”组件,单击<下一步>进行安装包选择。
图19-1 勾选“SeerEngine-DC”
在“安装包选择”步骤,选择数据中心场景的组件安装包。单击<下一步>按钮。
图19-2 安装包选择
在“资源配置”步骤,根据硬件配置选择对应的资源档位,硬件配置与资源档位的支持关系请参见“切换资源档位”。本文以数据中心业务集选择“集群_默认规模”为例。单击<下一步>按钮。
图19-3 资源配置
在“参数配置”步骤,请根据导航栏进行相关参数配置。
(1) 网络配置
按照章节“异地灾备场景的网络规划”中的网络规划,在主备站点上分别配置各组件所需的网络,关联上行口。
要求如下:单独配置一个MACVLAN类型网络作为灾备数据同步网络。
本例以主站点的网络配置为例。
图19-4 控制组件的南向网络配置
勾选全局异地灾备,配置灾备数据同步网络。
图19-5 勾选全局异地灾备
图19-6 灾备数据同步网络配置
单击<选择节点>按钮,配置南向网络和灾备数据同步网络,选择节点并对容器内网口IP进行确认。
图19-7 网络绑定
图19-8 节点绑定
组件的IP地址自动从绑定的子网网段中分配,如需修改,可在此页面单击<上一步>按钮。输入的IP地址必须在组件绑定的网络中的子网网段范围内。
图19-9 节点信息确认
(4) 确认无误后,单击<部署>按钮,开始部署。页面上将展示部署进度。
若使用带仲裁的自动倒换模式,需要单独部署仲裁服务作为第三个站点。具体部署步骤请参见《H3C 统一数字底盘部署指导》。
· 部署完成后,请在两个站点中选择一个站点作为主站点,在该站点的页面上创建灾备系统,无需在备站点上再次创建。
· 在创建灾备系统过程中,请保证主备站点间的网络连接处于正常状态,否则可能导致配置失败;若配置失败,请先确认网络连接是否正常。
· 创建灾备系统时,指定的主站点和备站点的登录用户名及密码必须相同。
· 灾备系统页面的数据不支持备份恢复,包括:主备站点名称、主备站点IP、备站点用户名密码、第三方站点IP等。
· 灾备系统创建后,主备站点上Matrix集群内部虚IP和节点IP均不允许修改。
(1) 登录主站点的统一数字底盘页面,单击[系统>应急管理>异地容灾]菜单项,进入灾备系统页面。
(2) 在站点配置区域输入主站点配置、备站点配置、倒换模式,单击<连接>按钮,等待灾备系统的站点配置完成。当心跳链路连接状态显示连接成功时,表示灾备系统的站点配置成功。站点配置成功后,备站点的用户、日志、备份恢复模块的配置将会自动和主站点同步,其中日志文件内容不会同步。
图19-10 创建灾备系统
在网络和系统稳定的情况下,如果需要进行灾备系统的手动倒换,操作步骤如下:
(1) 登录主用站点,进入[系统>应急管理>异地容灾]页面,在容灾关系配置区域,单击<降备>按钮,等待降备成功。
(2) 降备成功后,用户登录备用站点,进入[系统>应急管理>异地容灾]页面,在容灾关系配置区域,单击<升主>按钮,等待新主启动成功。
由于网络异常等情况造成原主站点异常,需要进行手动倒换的,此时如果原主站点页面无法访问,操作步骤如下:
(1) 通过黑洞路由/下电等操作,保证原主站点和设备之间的南向网络已经断开。
(2) 登录备用站点,进入[系统>应急管理>异地容灾]页面,在容灾关系配置区域,单击<升主>按钮,等待新主启动成功。
(3) 如果需要恢复原主站点,则需保证原主站点和设备之间的南向网络断开。等待原主以备用站点身份正常启动之后,才可以重新放开原主站点和设备之间的南向网络。
组件部署完成后,当网络中存在IP地址冲突或需要变更网络整体规划(如机房搬迁、子网掩码变更等)时,可对组件的网络进行变更。本章主要介绍控制组件的网络变更。
对组件进行网络变更会导致业务中断,请谨慎操作。
网络变更步骤如下:
(1) 登录Matrix,进入[部署>应用]页面。
图20-1 应用页面
(2) 单击组件左侧的
按钮,展开组件信息,单击组件的
按钮,进入网络变更向导页面。
(3) 在网络配置步骤,可以进行如下操作:
图20-2 网络变更向导页面
¡ 单击<创建网络>按钮,可以配置一个新的网络。
¡ 在已配置的网络中,单击<创建>按钮,在弹出的对话框中新增子网。
¡ 在主机区域创建或者修改主机的上行口。
(4) 单击<下一步>按钮,进入网络绑定步骤。选择需要绑定的网络和子网。
图20-4 网络绑定
(5) 单击<下一步>按钮,进入参数确认步骤。确认参数无误后,单击<确定>按钮,开始变更网络。页面上将展示网络变更进度。
图20-5 参数确认
(6) 如果网络变更失败,可单击<回滚>按钮,将网络回退到变更前状态;或单击<终止修改>按钮,退出网络变更流程。
网络变更后,与IP地址相关的部分配置需要手动进行修改。
若在[自动化>数据中心网络>Fabrics>参数设置>控制组件全局配置]中,已开启TFTP与Syslog服务。在网络变更后,请确认是否需要重新设置服务IP地址。
图20-6 重新设置服务IP地址
若在[系统>系统维护>数据中心控制组件>控制组件配置]中已进行了路由配置,在网络变更后需要重新进行配置。
图20-7 路由配置
若在[自动化>数据中心网络>Fabrics>自动化部署>配置片段]中,已增加的设备配置片段内容涉及控制组件的集群IP地址,在网络变更后,需要在配置片段内容中更新控制组件的集群IP地址,并将该配置片段下发至需要更新的设备上。
图20-8 配置片段页面
图20-9 修改配置片段
undo info-center loghost vpn-instance mgmt 192.168.89.10即删除旧的控制组件集群IP。
info-center loghost vpn-instance mgmt 192.168.89.11即设置新的控制组件集群IP。
若在[系统>系统维护>数据中心控制组件>控制组件配置]中配置了Region,在网络变更时会自动清空管理设备网段的配置,网络变更完成后需重新进行配置。
图20-10 修改Region
网络变更后,如果Matrix的集群北向业务虚IP地址变化,需要修改OpenStack Neutron插件配置中的URL配置项,具体请参考OpenStack插件的相关安装指导。
[SDNCONTROLLER]
url = http://127.0.0.1:30000
若License Server部署在Matrix集群中的一个节点上,且该节点的IP地址存在变更,在网络变更后需重新配置License Server信息。具体操作请参见“获取License授权”。
若在故障闭环功能中配置了分析组件信息,当Matrix北向业务虚IP发生变更时,分析组件中需要重新配置数据源管理中DC场景数据源的基本信息。配置步骤如下:
(1) 进入[分析>分析选项>资源管理>资产管理>数据源管理]页面。
(2) 单击DC场景对应数据源的“操作”区段的
按钮,在弹出的对话框中修改IP地址为新的Matrix北向业务虚IP。
(3) 单击<确定>按钮。
图20-11 数据源管理
图20-12 修改基本配置
若部署的vBGP为管理和业务网络分离模式,由于vBGP管理网络指向控制组件南向网络的明细路由不会主动刷新。在完成控制组件网络变更后,vBGP需要进行卸载并重新部署。
(1) 登录Matrix页面,单击“系统”页签,在弹出的菜单中选择“安全 > 安全策略”选项,进入安全策略页面。
(2) 单击<增加>按钮,进入增加安全策略页面。
(3) 在“基本设置”区域配置默认动作为“允许”。
(4) 在“规则信息”区域单击<增加>按钮,在弹出窗口中配置如下规则,配置完成后单击<确定>按钮。
¡ 源地址为节点上除Matrix使用的网卡外的其它网卡IP。
¡ 协议类型为TCP。
¡ 目标端口必须输入为:
8101,44444,2379,2380,8088,6443,10251,10252,10250,10255,10256。
¡ 动作为允许。
必须将所有节点上除Matrix使用的网卡外的其它网卡IP都加入到安全策略中。
例如节点1上除Matrix使用的网卡外还有一个网卡的IP为1.1.1.1,节点2上除Matrix使用的网卡外的网卡IP为2.2.2.2,节点3上除Matrix使用的网卡外的网卡IP为3.3.3.3,则需要在安全策略的规则中增加3条规则,源地址分别为1.1.1.1、2.2.2.2、3.3.3.3,协议类型都是TCP,目标端口都是“8101,44444,2379,2380,8088,6443,10251,10252,10250,10255,10256”,动作都为允许。
(5) 配置完成后,在页面右上方单击<确定>按钮。
(6) 在策略列表中启用指定的安全策略。可配置多条安全策略,但只允许启用1条策略。
图21-1 安全策略举例
(7) 开启被关掉的网卡,下面以eth33为例。
ifup eth33
集群各节点/opt/matrix/config/navigator_config.json中的配置必须保持一致,否则会影响集群稳定性。
(1) 登录集群中所有Master节点后台。
(2) 在navigator_config.json配置文件中,修改matrixLeaderLeaseDuration和matrixLeaderRetryPeriod参数取值。请确保集群中所有Master节点的参数配置相同。若配置文件中无上述两个参数,请手动增加。
下面以matrixLeaderRetryPeriod为2,matrixLeaderLeaseDuration为30为例进行修改。
[root@matrix01 ~]# vim /opt/matrix/config/navigator_config.json
{
…
"matrixLeaderLeaseDuration": 30,
"matrixLeaderRetryPeriod": 2,
…
}
(3) 修改完之后,重启集群服务。
[root@matrix01 ~]# systemctl restart matrix
· matrixLeaderLeaseDuration:用于配置集群主老化时间,取值为正整数,且大于等于matrixLeaderRetryPeriod * 10。
· matrixLeaderRetryPeriod:用于配置集群刷新主节点时锁的间隔时间,取值为正整数。
若扩容Matrix过程中长时间没有成功,可通过集群部署页面单击扩容节点的日志查看,是否是因为在ETCDINSTALL阶段停留时间过长(ETCDINSTALL-PENDING距离当前系统时间十五分钟以上视为停留过长),登录原单机环境后台执行etcdctl member list命令返回失败,则可通过如下方式将环境恢复至扩容前的状态,然后再次进行扩容:
(1) 登录原单机环境后台。
(2) 执行cp -f /opt/matrix/k8s/deployenv.sh.bk /opt/matrix/k8s/deployenv.sh命令还原deployenv.sh脚本。
(3) root用户通过systemctl stop matrix停止节点上Matrix服务。使用命令systemctl status matrix验证Matrix服务是否已经停止。若停止成功,则将在Active字段后显示运行信息为inactive (dead)。
[root@master1 ~]# systemctl stop matrix
非root用户通过sudo /bin/bash -c "systemctl stop matrix"停止节点上Matrix服务
[admin@node4 ~]$ sudo /bin/bash -c "systemctl stop matrix"
(4) 通过mv /etc/kubernetes/manifests/kube-apiserver.yaml /opt/matrix停止kube-apiserver。使用命令docker ps | grep kube-apiserver验证kube-apiserver服务是否已经停止。若无回显表示服务已停止。
[root@master1 ~]# mv /etc/kubernetes/manifests/kube-apiserver.yaml /opt/matrix
[root@master1 ~]# docker ps | grep kube-apiserver //查询是否已停止kube-apiserver
[root@master1 ~]# //无回显表示服务已停止
(5) root用户通过systemctl stop etcd完全停止etcd服务,使用命令systemctl status etcd验证etcd服务是否已经停止。若停止成功,则将在Active字段后显示运行信息为inactive (dead)。通过命令rm -rf /var/lib/etcd/default.etcd/删除etcd数据目录,确保/var/lib/etcd下面没有数据目录。
[root@master1 ~]# systemctl stop etcd
[root@master1 ~]# rm -rf /var/lib/etcd/default.etcd/
[root@master1 ~]# ll /var/lib/etcd/
非root用户通过sudo /bin/bash -c "systemctl stop etcd"完全停止etcd服务,并且通过命令sudo /bin/bash -c "rm -rf /var/lib/etcd/default.etcd/"删除etcd数据目录,确保/var/lib/etcd下面没有数据目录
[admin@node4 ~]$ sudo /bin/bash -c "systemctl stop etcd"
[admin@node4 ~]$ sudo /bin/bash -c "rm -rf /var/lib/etcd/default.etcd/"
[admin@node4 ~]$ ll /var/lib/etcd/
(6) 进入ETCD恢复脚本目录。
[root@master1 ~]# cd /opt/matrix/k8s/disaster-recovery/
(7) 执行etcd恢复脚本前,在etcd备份目录/opt/matrix/backup/etcd_backup_snapshot/找到最新的备份数据文件Etcd_Snapshot_Before_Scale.db。
root用户执行恢复操作命令如下
[root@master1 ~]# bash etcd_restore.sh Etcd_Snapshot_Before_Scale.db
非root用户执行恢复操作命令如下
[admin@node4 ~]$ sudo bash etcd_restore.sh Etcd_Snapshot_Before_Scale.db
(8) root用户通过systemctl restart etcd重启etcd服务
[root@master1 ~]# systemctl restart etcd
非root用户通过sudo /bin/bash -c "systemctl restart etcd"重启etcd服务
[admin@node4 ~]$ sudo /bin/bash -c "systemctl restart etcd"
(9) root用户通过systemctl restart matrix重启matrix服务
[root@master1 ~]# systemctl restart matrix
非root用户通过sudo /bin/bash -c "systemctl restart matrix"重启matrix服务
[admin@node4 ~]$ sudo /bin/bash -c "systemctl restart matrix"
(10) 恢复kube-apiserver
[root@master1 ~]# mv /opt/matrix/kube-apiserver.yaml /etc/kubernetes/manifests/
(11) 故障恢复完成后,登录Matrix集群部署页面,单击<开始部署>按钮再次扩容。
(1) 执行rm -rf /opt/matrix/data/ && systemctl restart matrix.service命令尝试恢复。
(2) 若该操作无法恢复,请手动上传Matrix安装包并解压,然后先后执行uninstall.sh和install.sh脚本卸载重装Matrix服务。
(3) 若依然无法恢复,请联系技术支持。
当在Matrix中添加节点失败,并且在/var/log/matrix-diag/Matrix/Matrix/matrix.log日志中报错“java.lang.NoClassDefFoundError”时,可执行以下操作解决:
(1) 执行rm -rf /opt/matrix/data/ && systemctl restart matrix.service命令尝试恢复。
(2) 若该操作无法恢复,请手动上传Matrix安装包并解压,然后先后执行uninstall.sh和install.sh脚本卸载重装Matrix服务。
(3) 若依然无法恢复,请联系技术支持。
当Matrix部署失败时,查看日志“phase IMAGE_INSTALL end. cname=ImageInstallPhase, phaseResult=false”则表示是在K8S阶段部署失败,可执行如下操作解决:
(1) 执行rm -rf /opt/matrix/data/ && systemctl restart matrix.service命令尝试恢复。
(2) 若该操作无法恢复,请手动上传Matrix安装包并解压,然后先后执行uninstall.sh和install.sh脚本卸载重装Matrix服务。
(3) 若依然无法恢复,请联系技术支持。
(1) 登录Matrix页面,进入[部署>集群>集群参数]页面。
(2) 单击<修改>按钮,将“开启双栈”置于启用状态后单击<确定>按钮。
(3) IPv4切换双栈:分别输入节点的IPv6地址和北向业务虚IP的IPv6地址。其中,节点的IPv6地址需要提前配置,可参考《H3C 统一数字底盘操作系统安装指导》的“网络和主机名”配置步骤,若操作系统已安装完成,可参考《H3C 统一数字底盘操作系统安装指导》的“操作系统安装完成后,在原网卡上配置IPv6地址”配置步骤进行配置。
(4) IPv6切换双栈:分别输入节点的IPv4地址和北向业务虚IP的IPv4地址。其中,节点的IPv4地址需要提前配置,可参考《H3C 统一数字底盘操作系统安装指导》的“网络和主机名”配置步骤,若操作系统已安装完成,可参考《H3C 统一数字底盘操作系统安装指导》的“操作系统安装完成后,在原网卡上配置IPv6地址”配置步骤进行配置。
(1) 登录Matrix页面,进入[观测>监控>应用监控]页面。
(2) 展开组件可以查看组件下的应用服务状态。
图21-2 查看应用服务
集群各节点/opt/matrix/config/navigator_config.json中的配置必须保持一致,否则会影响集群稳定性。
Matrix支持外部浏览器通过映射后的节点IP和虚IP访问Web页面,支持NAT映射和域名映射,不支持端口映射,必须使用8443端口。
如需使用映射IP访问Matrix页面,需在集群内各节点上进行以下操作:
(1) 将映射后的IP(或域名)加入到/opt/matrix/config/navigator_config.json的“httpHeaderHost”属性值中(若无该属性请手动补充,多个IP或域名使用英文逗号分隔),示例:"httpHeaderHost":"10.10.10.2,10.10.10.3"。
(2) 配置完后可以通过cat /opt/matrix/config/navigator_config.json | jq命令检查配置格式是否正确。
(3) 修改后需要通过service matrix restart重启服务生效,集群各节点配置需要保持一致。
拆除异地容灾或冷备系统以后,为了防止设备出现双主的情况,原备站点不会自动恢复WebSocket服务,如需恢复,请在备站点的任意节点上执行sh /opt/matrix/app/install/metadata/UNIFIED-PLATFORM-CONNECT/scripts/rdr/websocketRecoverRdr.sh命令进行恢复。
在worker节点上横向扩展WebSocket实例数量时,需通过手动增加Deployment的方式进行拓展,具体步骤如下:
(1) 进入任意目录,执行kubectl get deployment websocket-connection1 -n service-software -o yaml > connection1.yaml命令生成connection1.yaml文件。
(2) 执行sed "s/websocket-connection1/websocket-connection4/g;s/value: \"0\"/value: \"3\"/g;s/master: master1/worker: worker1/g" connection1.yaml > connection4.yaml命令生成要扩展的connection4.yaml。
(3) 执行kubectl apply -f connection4.yaml命令扩展Pod。
(4) 如果存在多个worker节点,需要继续扩展时,重复第(2)、(3)步。每次扩展时,需将websocket-connection4、value: "3"、worker1、connection4.yaml中的数字递增。例如,若需再扩展一个worker,相关参数应修改为websocket-connection5、value: "4"、worker2、connection5.yaml。
在升级、卸载软件时需手动清除worker节点上扩展的Deployment,具体步骤如下:
(1) 进入生成connection4.yaml文件的目录。
(2) 执行kubectl delete -f connection4.yaml命令删除扩展的Pod。
· 在安装第三方操作系统时,需要在软件选择步骤中选择“虚拟化主机”。如果未选择“虚拟化主机”,可能会导致缺少某些依赖包或安装错误版本的依赖包。
· 在执行yum group list命令之前,请先挂载虚拟光驱,否则命令会失败。
(1) 使用SSH登录到节点的后台。
(2) 在第三方系统安装完成后,准备好本地或网站的YUM源。然后,执行以下命令以检查是否安装了虚拟化主机软件。“已安装的环境组”表示当前系统中已安装的软件环境,而“可用环境组”表示可以通过YUM安装的软件环境。
[root@matrix01 ~]# yum group list
上次元数据过期检查:0:00:07 前,执行于 2024年11月26日 星期二 15时10分47秒。
可用环境组:
最小安装
基础设施服务器
文件及打印服务器
基本网页服务器
虚拟化主机
已安装的环境组:
带 UKUI GUI 的服务器
已安装组:
容器管理
无图形终端系统管理工具
可用组:
开发工具
传统 UNIX 兼容性
科学记数法支持
安全性工具
系统工具
智能卡支持
(3) 如果在“可用环境组”中存在“虚拟化主机”或“Virtualization Host”,可以直接使用yum group install -y "虚拟化主机"或者yum group install -y "Virtualization Host"命令安装虚拟化主机软件。
[root@matrix01 ~]#yum group install -y "虚拟化主机"
上次元数据过期检查:0:10:26 前,执行于 2024年11月26日 星期二 15时10分47秒。
….
….
….
已安装:
brltty-6.1-1.p01.ky10.x86_64 ………….完毕!
(4) 操作完成后,系统软件环境将补齐缺失的软件包。
(1) 安装依赖包后,执行Matrix安装时提示错误:runc版本低于rc6。
图21-3 安装Matrix时报错
(2) 问题的原因是操作系统安装时未选择虚拟化主机软件环境。
(3) 在安装依赖包的过程中,执行Docker组件安装后,runc版本已更新。但由于系统中已安装了默认的runc,导致使用的runc版本不正确。可以使用以下命令来检查runc的版本。
[root@matrix01 usr]# find /usr -name runc
/usr/bin/runc
/usr/local/bin/runc
(4) 通过执行runc -v命令检查每个runc的全路径,以找到正确的版本。下例中的其中一个runc版本为1.0.0-rc95,另一个为1.0.0-rc3。根据错误描述,由于rc3<rc6,所以rc95是正确的版本。只需用rc95的包覆盖rc3的包即可。
[root@ matrix01 usr]# /usr/bin/runc -v
runc version 1.0.0-rc95
commit: b9ee9c6314599f1b4a7f497e1f1f856fe433d3b7
spec: 1.0.2-dev
go: go1.13.15
libseccomp: 2.5.0
[root@ matrix01 usr]# /usr/local/bin/runc -v
runc version 1.0.0-rc3
commit: fabf83fd21f205c801571df4074024179eb03b44
spec: 1.0.0-rc5
(5) 执行如下命令进行覆盖。
[root@matrix01 usr]# cp /usr/bin/runc /usr/local/bin/runc
cp:是否覆盖'/usr/local/bin/runc'? y
[root@matrix01 usr]#
(6) 覆盖完成后重新执行安装脚本install.sh安装Matrix。
[root@ matrix01 usr]# sh install.sh
(1) 安装依赖包后,执行Matrix安装时提示错误:runc版本低于rc6。
图21-4 安装Matrix时报错
(2) 问题的原因是操作系统安装时未选择虚拟化主机软件环境。
(3) 在安装依赖包的过程中,执行Docker组件安装后,runc版本已更新。但由于系统中已安装了默认的runc,导致使用的runc版本不正确。可以使用以下命令来检查runc的版本。
[root@matrix01 usr]# find /usr -name runc
/usr/bin/runc
/usr/local/bin/runc
(4) 通过执行runc -v命令检查每个runc的全路径,以找到正确的版本。下例中的其中一个runc版本为1.0.0-rc95,另一个为1.0.0-rc3。根据错误描述,由于rc3<rc6,所以rc95是正确的版本。只需用rc95的包覆盖rc3的包即可。
[root@ matrix01 usr]# /usr/bin/runc -v
runc version 1.0.0-rc95
commit: b9ee9c6314599f1b4a7f497e1f1f856fe433d3b7
spec: 1.0.2-dev
go: go1.13.15
libseccomp: 2.5.0
[root@ matrix01 usr]# /usr/local/bin/runc -v
runc version 1.0.0-rc3
commit: fabf83fd21f205c801571df4074024179eb03b44
spec: 1.0.0-rc5
(5) 执行如下命令进行覆盖。
[root@matrix01 usr]# cp /usr/bin/runc /usr/local/bin/runc
cp:是否覆盖'/usr/local/bin/runc'? y
[root@matrix01 usr]#
(6) 覆盖完成后重新执行安装脚本install.sh安装Matrix。
[root@ matrix01 usr]# sh install.sh
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!
