01-正文
本章节下载: 01-正文 (2.99 MB)
目 录
16.1.1 节点中存在多个网卡配置IP地址并且网卡UP时,如何增加安全策略?
16.2.2 扩容Matrix时若在ETCDINSTALL阶段停留时间过长怎么办?
16.2.7 如何在Matrix页面开启统一数字底盘组件应用服务?
16.4.1 拆除异地容灾或冷备系统之后,原备站点不会自动恢复WebSocket服务怎么办?
16.4.2 如何在worker节点上横向扩展WebSocket实例数量?
16.4.3 如何清除worker上扩展的WebSocket实例数量?
16.5.1 安装第三方操作系统时未选择虚拟化主机,该如何处理?
16.5.2 第三方操作系统在部署Matrix时失败,并提示runc版本不正确,如何处理?
16.6.2 园区场景单机融合部署时如何调整集群最大微服务数量限制?
16.6.3 如何解决部署Analyzer-Platfom组件失败问题?
16.8.1 如何解决在“南北向网络合一”(南向无网络)场景下分析组件的SNMP-Trap采集功能不可用问题?
16.8.2 iFIT开启自动转换测量模式后,为什么不同时间粒度的趋势图数据会不一致?
分析组件聚焦于机器数据的价值挖掘,以大数据技术为基础,通过机器学习、深度学习等手段,从海量数据中分析有价值的信息,为企业网络、业务运维以及商业决策提供参考依据。分析组件通过对设备性能、用户接入、业务流量的实时数据采集和状态感知,通过大数据分析技术和人工智能算法,将网络的运行可视化,主动感知网络的潜在风险并自动预警。
分析组件支持对Campus、WAN、DC等多个场景的数据进行分析,涵盖网络设备的运行数据、网络业务与应用的流量数据,以及用户接入和网络使用的记录等多维度信息。
各场景功能简介:
· Campus场景:园区分析组件以用户体验保障为目的,通过Telemetry采集用户接入和使用网络的指标数据,使用大数据及AI技术分析用户体验健康度及体验问题,并结合网络设备健康度指标数据,关联分析影响用户体验的根因和处理建议。
· WAN场景:WAN分析组件作为广域网智能运维的核心引擎,通过采集状态数据、日志数据、流量数据等多维度网络信息,结合大数据、AI技术对数据进行汇总分析实现智能运维,提供全网健康度测评、应用流分析、容量预测,智能故障诊断等能力,是广域网智能运维的核心引擎。
· DC场景:数据中心分析组件以保障数据中心网络的高可靠、低延时为目的。通过全时全量采集网络设备运行信息,建立起全网的健康度评估体系,支持对数据中心内TCP/UDP的会话分析、应用的可视与分析、芯片级缓存监控和丢包分析。对数据中心网络运维实现了全方位支持与保障。
|
术语 |
说明 |
|
SeerCollector采集器 |
如果使用分析组件的TCP/UDP流分析、INT流分析功能,需要部署SeerCollector采集器 |
|
COLLECTOR采集组件 |
COLLECTOR采集组件为公共采集组件,提供采集服务,包括SNMP、GRPC、NETCONF等协议 |
分析组件部署流程汇总如下表所示。
|
步骤 |
具体操作 |
说明 |
|
服务器准备 |
准备1台或3台服务器用于安装统一数字底盘 |
必选 服务器配置需求请参见软硬件配置需求 |
|
安装统一数字底盘 |
在服务器上安装统一数字底盘Matrix集群 |
必选 磁盘RAID及分区规划请参见磁盘规划 |
|
部署统一数字底盘集群和应用,部署顺序: 1. UDTP_Base 2. BMP_Common 3. 其他可选组件 ¡ BMP_Connect ¡ BMP_Extension ¡ BMP_Syslog |
必选 其他可选组件的功能说明详见“获取软件包”章节,实际部署时可按需选择安装。需要注意的是,BMP_Syslog需在分析组件安装之前完成部署。 |
|
|
安装iWO |
可选 如需使用Campus无线运维功能,需要安装此组件。 |
|
|
配置准备 |
可选 |
|
|
部署分析组件 |
必选 |
· 融合场景指在同一个统一数字底盘的集群环境中,既安装控制组件产品,又安装分析组件产品,请务必先安装控制组件,再安装分析组件。
· 园区融合场景下,由于组件众多,在单机部署时会出现微服务数量超过集群默认最大限制,此时需要调整集群对微服务数量的限制,具体调整说明请参见园区场景单机融合部署时如何调整集群最大微服务数量限制?。
分析组件基于统一数字底盘部署,支持物理机部署和虚拟机部署,推荐部署在物理服务器上。支持两种部署模式(单机模式和集群模式)。
对于不同的场景和网络规模,分析组件所分析的业务量存在较大的差异。其中,产生大业务量的主要是网络业务应用流量数据。
硬件配置需求,是在部署基础平台及对应场景组件的环境中,仅根据分析组件所能够承载的业务量评估的结果,如需考虑场景组件所能承载的业务量,请进一步评估硬件资源需求。不同的业务量所需的硬件配置有差异。
· 对于安装部署统一数字底盘的服务器,其CPU架构需为x86-64(Intel64/AMD64)或ARM,系统硬盘为HDD(SAS/SATA)硬盘或SSD硬盘,数据硬盘可采用SSD固态硬盘或机械硬盘(SATA/SAS),磁盘条件允许时,建议将/sa_data/mpp_data和/sa_data/kafka_data分别配置为独立的RAID 5阵列;如受磁盘数量限制,也可将两者合并在同一个RAID5阵列中。RAID卡不低于1GB写缓存,支持数据掉电保护。
· 分析组件不同版本适配的CPU架构型号不同,具体请关注版本配套发布的文件。
· 如果使用分析组件的TCP流分析、INT流分析功能,需要部署SeerCollector采集器。请参见“SeerCollector采集器的服务器配置要求”。
· 数据盘必须使用独立的磁盘。
分析组件支持单机和集群部署,推荐3机集群部署模式。
各场景的硬件配置要求请参考资源计算工具。
支持如下操作系统:
· NingOS V3.1.0操作系统
· 银河麒麟 V10 SP2操作系统
· 银河麒麟 V10 SP3-2403操作系统
集群中所有节点必须安装相同版本的操作系统。
用户不需要安装客户端软件,使用浏览器即可访问分析组件。推荐使用的浏览器为Google Chrome 96及以上版本。
· 如果使用分析组件的TCP/UDP流分析、INT流分析功能,需要部署SeerCollector采集器。
· SeerCollector采集器在分析组件中的管理页面菜单路径为[分析>分析选项>采集管理>采集器管理>先知采集器]。
· SeerCollector采集器若使用Intel品牌的CPU,请确保其型号为E5-2690 v4及以上(可执行lscpu命令查看具体CPU型号),否则将导致SeerCollector采集器无法正常使用。
SeerCollector采集器需安装在物理服务器上。硬件配置要求请参考资源计算工具。
· SeerCollector采集器需要确保采集网卡对应的numa节点已被分配内存,否则无法识别网卡,将导致SeerCollector运行失败。具体步骤请参考如何查看numa节点是否被分配内存?。若未分配内存,需要尝试调整内存条位置,确保对应numa节点有被分配内存。
· SeerCollector采集器若选用海光服务器,不能手动关闭超线程。如何查看超线程功能是否开启请参考如何查看是否开启超线程?。
· SeerCollector采集器若选用海光服务器,首次安装完操作系统,需要开启硬件虚拟化功能,否则dpdk网卡不能正常收包,操作步骤请参考如何开启硬件虚拟化功能?。
· SeerCollector采集器若使用飞腾服务器,需要确保前16核对应的numa节点被分配内存(例如一个numa节点有8个核,node1为第0到第7核,node2为第8到第15核,则需要保证node1和node2被分配内存),查看是否被分配内存请参考如何查看numa节点是否被分配内存?。
· 分析组件不同版本适配的CPU架构型号不同,具体请关注版本配套发布的文件。
· 采集服务器上需要两个网口:一个网口负责采集业务,用于接收网络设备发送过来的镜像报文,该网口必须支持DPDK,且需要手动配置IP地址,以便在后续分析组件中增加采集节点时使用;另一个负责管理业务,用于与分析组件数据交互。
· 若选用麒麟系统,网卡bond必须配置IP地址,否则bond的网卡不可用。
表3-1 SeerCollector采集网卡支持列表(x86-64(Intel64)架构)
|
厂商 |
芯片 |
型号 |
型号系列 |
支持版本 |
|
Intel |
JL82599 |
H3C UIS CNA 1322 FB2-RS3NXP2D-2端口万兆光接口网卡(SFP+) |
CNA-10GE-2P-560F-B2 |
所有版本 |
|
JL82599 |
H3C UIS CNA 1322 FB2-RS3NXP2DBY-2端口万兆光接口网卡(SFP+) |
CNA-10GE-2P-560F-B2 |
所有版本 |
|
|
X550 |
H3C UNIC CNA 560T B2-RS33NXT2A-2端口万兆电接口网卡-1*2 |
|
所有版本 |
|
|
X540 |
UN-NIC-X540-T2-T-10Gb-2P(电接口网卡) |
|
所有版本 |
|
|
X520 |
UN-NIC-X520DA2-F-B-10Gb-2P |
|
所有版本 |
|
|
Mellanox |
MT27710 Family [ConnectX-4 Lx] |
NIC-ETH540F-LP-2P |
Mellanox Technologies MT27710 Family |
所有版本 |
|
MT27712A0-FDCF-AE[ConnectX-4Lx] |
NIC-620F-B2-25Gb-2P |
|
所有版本 |
|
|
Broadcom |
BCM57414 |
NetXtreme-E 10Gb/25Gb RDMA Ethernet Controller(rev 01) |
|
所有版本 |
|
磁盘RAID规划 |
分区名称 |
挂载点 |
最小容量 |
备注 |
|
2*600GB,RAID1 |
/dev/sda1 |
/boot/efi |
200MB |
EFI System Partition类型,仅UEFI模式需要配置该分区 |
|
/dev/sda2 |
/boot |
1024MB |
- |
|
|
/dev/sda3 |
/ |
590GB |
|
|
|
/dev/sda4 |
swap |
4GB |
swap类型 |
· SeerCollector采集器不需要数据盘存储。
· 当系统磁盘大于1.5T时,SeerCollector采集器系统盘可自动分区规划,否则可参考表3-2对系统盘手动分区规划。
表3-3 SeerCollector支持系统及CPU参考表
|
CPU |
操作系统 |
内核版本 |
适配分析组件版本 |
|
海光(x86) |
麒麟操作系统V10SP2 |
4.19.90-24.4.v2101.ky10.x86_64 |
支持所有版本 |
|
NingOS V3.1.0 |
5.10.0-136.12.0.86.4.nos1.x86_64 |
支持E7101及之后版本 |
|
|
Intel(X86) |
麒麟操作系统V10 SP2 |
4.19.90-24.4.v2101.ky10.x86_64 |
支持所有版本 |
|
麒麟操作系统V10 SP3-2403 |
4.19.90-89.18.v2401.ky10.x86_64 |
支持E7202及之后版本 |
|
|
NingOS V3.1.0 |
5.10.0-136.12.0.86.4.nos1.x86_64 |
支持E7101及之后版本 |
|
|
鲲鹏(ARM) |
麒麟操作系统V10 SP2 |
4.19.90-24.4.v2101.ky10.aarch64 |
支持所有版本 |
|
飞腾(ARM) |
麒麟操作系统V10 SP2 |
4.19.90-24.4.v2101.ky10.aarch64 |
支持所有版本 |
查看内核版本的方法如下:使用压缩软件(如WinRAR)打开“.iso”文件后,进入Packages目录,找到名称为kernel-version.rpm的文件,其中version代表内核版本。例如,文件路径Packages\kernel-3.10.0-957.27.2.el7.x86_64.rpm对应的内核版本为3.10.0-957.27.2.el7.x86_64。
推荐使用表3-3的操作系统。
· 若SeerCollector采集器需要重装或更新操作系统,必须先卸载SeerCollector采集器。
· 在安装操作系统时,请配置采集网口和管理网口的IP地址。
请根据1. 硬件配置要求,安装部署2. 操作系统要求中对应的操作系统,完成对SeerCollector采集器操作系统的安装。配置采集器时,将自动安装采集器软件包。
· 关闭SeerCollector采集器的防火墙并关闭防火墙开机自动启动功能。
a. 执行systemctl stop firewalld命令关闭防火墙。
b. 执行systemctl disable firewalld命令关闭防火墙自启动。
c. 执行systemctl status firewalld命令查看防火墙状态。当状态为Active: inactive (dead)时,表示防火墙已关闭。
[root@localhost ~]# systemctl status firewalld
firewalld.service - firewalld - dynamic firewall daemon
Loaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled; vendor preset: enabled)
Active: inactive (dead)
Docs: man:firewalld(1)
· 为了防止与业务路由冲突,需在操作系统的/etc/sysconfig/network-scripts/路径下找到以ifcfg为前缀的采集网卡配置文件,修改DEFROUTE参数值为no,进行保存即可。
安装包的名称格式如下表所示,其中version为版本号,platform为CPU架构类型。
统一数字底盘不在分析组件发布的版本中,请自行下载。
表3-4 组件应用包列表
|
名称 |
功能说明 |
|
|
统一数字底盘 |
UDTP_Base_version_platform.zip |
基础服务组件:提供融合部署、用户管理、权限管理、资源管理、租户管理、菜单管理、日志中心、备份恢复和健康检查等基础功能。 |
|
BMP_Common_version_platform.zip |
通用服务组件:提供大屏管理、告警、告警聚合和告警订阅等功能。 |
|
|
BMP_Connect_version_platform.zip |
连接服务组件:提供上下级站点管理、WebSocket通道管理和NETCONF通道管理功能。 |
|
|
BMP_Extension_version_platform.zip |
扩展服务组件:提供异地容灾、快照回滚、证书服务、自监控、智能算法库、单点登录和密码平台等功能。 |
|
|
BMP_Syslog_version_platform.zip |
Syslog服务组件:提供Syslog报文的收发、Syslog浏览和聚合、Syslog生成告警等功能。如需安装BMP_Syslog,请确保其在分析组件安装之前完成。 |
|
|
BMP_Report_version_platform.zip |
报表服务 |
|
|
分析组件 |
Analyzer_Platform_version_platform.zip |
基础平台组件应用包 |
|
Analyzer_Telemetry_version_platform.zip |
指标分析组件应用包 |
|
|
Analyzer_AI_version_platform.zip |
AI智能预测组件应用包 |
|
|
Analyzer_Diagnosis_version_platform.zip |
诊断分析组件应用包 |
|
|
Analyzer_SLA_version_platform.zip |
服务质量分析组件应用包 |
|
|
Analyzer_TCP_version_platform.zip |
TCP流分析组件应用包 |
|
|
Analyzer_WAN_version_platform.zip |
WAN应用分析组件应用包 |
|
|
Analyzer_NetStream_version_platform.zip |
NetStream流分析组件应用包 |
|
|
DTN_MANAGER_version.zip |
DTN主机管理组件应用包 |
|
|
Analyzer_Simulation_version_platform.zip |
WAN网络仿真组件应用包 |
|
|
Analyzer_User_version_platform.zip |
用户分析组件应用包 |
|
|
Analyzer_AV_version_platform.zip |
音视频分析组件应用包 |
|
|
Analyzer_Collector_version_platform.zip |
公共采集组件应用包 |
|
分析组件:
分析组件发布版本包:SEERANALYZER_version.zip,version为版本号。解压之后才能看到具体的安装包。
采集组件说明:
· COLLECTOR采集器: COLLECTOR采集器为公共采集组件。
· SeerCollector采集器: SeerCollector采集器在使用分析组件的TCP流分析、INT流分析功能时需要部署。
上传应用安装包之后,请参见如下命令对软件包执行MD5验证,确保软件包的完整性和正确性。
(1) 查看已上传的安装包。
[root@node1~]# cd /opt/matrix/app/install/packages/
[root@node1~]# ls
BMP_Common_E7301_x86.zip BMP_Connect_E7301_x86.zip
…略…
(2) 查看安装包的MD5值,以UDTP_Base_E7301_x86.zip为例。
[root@node1~]# md5sum UDTP_Base_E7301_x86.zip
652845e0b92bbdff675c7598430687e2 UDTP_Base_E7301_x86.zip
(3) 将上述步骤中获取到的MD5值与发布的软件版本文件MD5值进行比对,若一致,则软件包正确。
请参见资源计算工具中的要求进行磁盘配置和磁盘分区,请勿使用自动分区。
· 分析组件部署完成以后,不支持动态扩展硬盘,需要提前准备好硬盘,再安装部署。
· 分析组件的数据盘必须使用独立磁盘,并分别在“/sa_data/mpp_data”和“/sa_data/kafka_data”两个挂载点规划分区。请确保分区的文件系统类型为 ext4,否则将导致部署失败。若文件系统类型配置错误,可参考如何将数据盘分区的文件系统类型修改为ext4类型?修改文件系统类型。
· /opt/matrix/app/data/base-service/backupRecovery:业务备份数据存放使用,该分区的容量和各组件的业务备份数据大小有关,需要各组件确定占用的磁盘容量大小,在此基础上扩缩容。
· 由于园区无线运维组件需占用系统盘存储空间,Campus+无线运维场景对系统盘空间的要求高于仅部署Campus(不含无线运维)场景。
· 现场实施环境不建议数据盘做RAID0,数据安全风险很大。
· 如需在操作系统安装完成后手动创建数据盘分区,可参见“手动创建数据盘分区”章节进行操作。
· 解决方案组网推荐采用南向单协议栈。
· 网络需要在Analyzer-Collector公共采集组件安装时进行配置。
· 在规划南向网络的IP地址池时,IP网段区间不能包含北向业务虚IP地址,否则可能造成IP地址冲突。
· 只有在使用WAN仿真组件应用中的设备仿真功能时,才需要配置WAN仿真分析IP地址,具体配置方式请参考分析组件网络规划。
· 北向网络:即统一数字底盘中设置的北向业务虚IP,是集群对外提供服务的网络。
· 南向网络:COLLECTOR公共采集组件用于接收来自设备端的采集数据所使用的网络。需确保南向网络和待采集设备之间可达。目前南向支持三种网络方案,请根据实际组网选择:
¡ 南北向网络合一(南向无网络):分析组件不配置单独的南向网络。上云环境,仅支持此种网络。
¡ 南向单协议栈:创建一个网络并指定为南向网络,采集网络使用IPv4或IPv6。
¡ 南向双协议栈:创建两个南向网络,分别采集IPv4和IPv6的设备。
· 仿真网络:WAN场景部署仿真组件和DTN_MANAGER组件时用于管理仿真虚拟设备和DTN服务器所使用的网络。
· 北向网络是给用户通过Web页面和后端访问用的,同时也作为集群节点之间通信的网络,对带宽要求较高,要求北向网络能达到万兆带宽。
· 南向是给业务数据上报用的,是业务网络,一般不对外暴露访问,流量大,有带宽要求;采用南向主要是实现业务数据与管理网络的隔离,不相互干扰,如果采用不同网卡和不同网段,就实现了物理和网段双重隔离;
· 如果采用同一网卡不同网段,那么只实现网段隔离;如果采用相同网段且相同网卡(南北向合一),那么就完全没有隔离;根据实际业务需求进行网络模式选择。一般生产环境,管理网络和业务网络都不是同网段,管理网络都是通过堡垒机监管业务情况,所以一般都是有南向网络的,且与北向不同网段。
南北向网卡和网段配置复用说明:
· 南向网络的网卡和北向网络的网卡共用一张。
· 南向网络的网段和北向网络的网段相同。
· 在网卡和网段资源充足的情况下,推荐使用不同网卡和不同网段,即使用南向单协议,因为可以将南北向完全隔离,互不干扰。有双栈需求时可以选择南向双协议栈部署。
部署分析组件时,各场景网络规划:
· DC场景需要部署1个SeerCollector采集器节点,需提前规划SeerCollector采集器相关的IP地址。
· Campus场景,默认无需部署SeerCollector采集器节点,无需规划SeerCollector采集器IP地址。在需要DC场景的TCP流分析组件时,需规划采集器节点及IP地址。
· WAN场景无需部署SeerCollector采集器节点,无需规划SeerCollector采集器IP地址。
· WAN场景部署仿真组件应用且使用设备仿真时,需要规划仿真网络IP地址。
南北向网络合一(南向无网络),指分析组件数据采集共用统一数字底盘的网络,不单独创建附加网络。
单机模式下有一个分析组件节点和一个SeerCollector采集器节点,分析组件的网络规划如表4-1所示。
表4-1 分析组件网络规划-单机模式
|
网段 |
IP地址类型 |
IP地址个数 |
说明 |
网卡配置要求 |
|
网段一 |
统一数字底盘集群节点IP地址 |
1个(IPv4) |
部署统一数字底盘的主机IP地址 |
配置要求请参考软硬件配置需求 |
|
统一数字底盘北向业务虚IP地址 |
1个(IPv4) |
统一数字底盘集群对外提供服务的IP地址,部署统一数字底盘时确定 |
||
|
SeerCollector采集器数据上报IP地址 |
1个(IPv4) |
SeerCollector采集器向分析组件上报采集数据使用的IP地址 |
SeerCollector采集器网卡1 |
|
|
网段二 |
SeerCollector采集器数据采集IP地址 |
2个(IPv4) |
一个用于接收网络设备镜像报文,需要与设备业务口互通 另一个是SeerCollector采集器浮动IP地址(仅采集器集群模式下使用),用于被设备发现 |
SeerCollector采集器网卡2,必须是独立DPDK网卡 |
集群模式下有三个分析组件节点和一个SeerCollector采集器节点,分析组件的网络规划如表4-2所示。
表4-2 分析组件网络规划-集群模式
|
网段 |
IP地址类型 |
IP地址个数 |
说明 |
网卡配置要求 |
|
网段一 |
统一数字底盘集群节点IP地址 |
3个(IPv4) |
部署统一数字底盘的主机IP地址 |
配置要求请参考软硬件配置需求 |
|
统一数字底盘北向业务虚IP地址 |
1个(IPv4) |
统一数字底盘集群对外提供服务的IP地址,部署统一数字底盘时确定 |
||
|
SeerCollector采集器数据上报IP地址 |
1个(IPv4) |
SeerCollector采集器向分析组件上报采集数据使用的IP地址 |
SeerCollector采集器网卡1 |
|
|
网段二 |
SeerCollector采集器数据采集IP地址 |
2个(IPv4) |
一个用于接收网络设备镜像报文,需要与设备业务口互通 另一个是SeerCollector采集器浮动IP地址(仅采集器集群模式下使用),用于被设备发现 |
SeerCollector采集器网卡2,必须是独立DPDK网卡 |
南向单协议栈组网方案中,数据采集使用单独的网络,可使用IPv4或IPv6协议。
单机模式下有一个分析组件节点和一个SeerCollector采集器节点,分析组件的网络规划如表4-3所示。
表4-3 分析组件网络规划-单机模式南向单协议栈
|
网段 |
IP地址类型 |
IP地址个数 |
说明 |
网卡配置要求 |
|
网段一 |
统一数字底盘集群节点IP地址 |
1个(IPv4) |
部署统一数字底盘的主机IP地址 |
配置要求请参考软硬件配置需求 |
|
统一数字底盘北向业务虚IP地址 |
1个(IPv4) |
统一数字底盘集群对外提供服务的IP地址,部署统一数字底盘时确定 |
||
|
SeerCollector采集器数据上报IP地址 |
1个(IPv4) |
SeerCollector采集器向分析组件上报采集数据使用的IP地址 |
SeerCollector采集器网卡1 |
|
|
网段二 |
SeerCollector采集器数据采集IP地址 |
2个(IPv4) |
一个用于接收网络设备镜像报文,需要与设备业务口互通 另一个是SeerCollector采集器浮动IP地址(仅采集器集群模式下使用),用于被设备发现 |
SeerCollector采集器网卡2,必须是独立DPDK网卡 |
|
网段三 |
南向采集IP地址 |
4个(IPv4)或4个(IPv6) |
南向采集IP地址为容器附加网络地址,主动/被动采集网络分别需要2个IP地址,一个节点容器IP和一个集群虚IP地址,共4个IP地址 |
配置要求请参考软硬件配置需求 |
集群模式下有三个分析组件节点和一个SeerCollector采集器节点,分析组件的网络规划如表4-4所示。
表4-4 分析组件网络规划-集群模式南向单协议栈
|
网段 |
IP地址类型 |
IP地址个数 |
说明 |
网卡配置要求 |
|
网段一 |
统一数字底盘集群节点IP地址 |
3个(IPv4) |
部署统一数字底盘的主机IP地址 |
配置要求请参考软硬件配置需求 |
|
统一数字底盘北向业务虚IP地址 |
1个(IPv4) |
统一数字底盘集群对外提供服务的IP地址,部署统一数字底盘时确定 |
||
|
SeerCollector采集器数据上报IP地址 |
1个(IPv4) |
SeerCollector采集器向分析组件上报采集数据使用的IP地址 |
SeerCollector采集器网卡1 |
|
|
网段二 |
SeerCollector采集器数据采集IP地址 |
2个(IPv4) |
一个用于接收网络设备镜像报文,需要与设备业务口互通 另一个是SeerCollector采集器浮动IP地址(仅采集器集群模式下使用),用于被设备发现 |
SeerCollector采集器网卡2,必须是独立DPDK网卡 |
|
网段三 |
南向采集IP地址 |
8个(IPv4)或8个(IPv6) |
南向采集IP地址为容器附加网络地址,主动/被动采集分别需要4个IP地址,三个节点容器IP地址和一个集群虚IP地址,共8个IP地址 |
配置要求请参考软硬件配置需求 |
如果有SeerCollector采集器,“南向采集IP地址”和“SeerCollector采集器数据采集IP地址”两个地址需要使用相同的IP协议版本。
南向双协议组网方案中,数据采集使用单独的网络,并且需要同时配置IPv4和IPv6的地址。
单机模式下有一个分析组件节点和一个SeerCollector采集器节点,分析组件的网络规划如表4-5所示。
表4-5 分析组件网络规划-单机模式南向双协议栈
|
网段 |
IP地址类型 |
IP地址个数 |
说明 |
网卡配置要求 |
|
网段一 |
统一数字底盘集群节点IP地址 |
1个(IPv4) |
部署统一数字底盘的主机IP地址 |
配置要求请参考软硬件配置需求
|
|
统一数字底盘北向业务虚IP地址 |
1个(IPv4) |
统一数字底盘集群对外提供服务的IP地址,部署统一数字底盘时确定 |
||
|
SeerCollector采集器数据上报IP地址 |
1个(IPv4) |
SeerCollector采集器向分析组件上报采集数据使用的IP地址 |
SeerCollector采集器网卡1 |
|
|
网段二 |
SeerCollector采集器数据采集IP地址 |
2个(IPv4) |
一个用于接收网络设备镜像报文,需要与设备业务口互通 另一个是SeerCollector采集器浮动IP地址(仅采集器集群模式下使用),用于被设备发现 |
SeerCollector采集器网卡2,必须是独立DPDK网卡 |
|
网段三 |
南向采集IP地址IPv4 |
4个(IPv4) |
南向采集IP地址为容器附加网络地址,分为被动采集网络和主动采集网络,主动和被动采集网络分别需要2个IP地址,一个容器IP地址和一个集群虚IP地址,共需要4个IPv4地址 |
配置要求请参考软硬件配置需求
|
|
网段四 |
南向采集IP地址IPv6 |
4个(IPv6) |
南向采集IP地址为容器附加网络地址,分为被动采集网络和主动采集网络,主动和被动采集网络分别需要2个IP地址,一个容器IP地址和一个集群虚IP地址,共需要4个IPv6地址 |
集群模式下有三个分析组件节点和一个SeerCollector采集器节点,分析组件的网络规划如表4-6所示。
表4-6 分析组件网络规划-集群模式南向双协议栈
|
网段 |
IP地址类型 |
IP地址个数 |
说明 |
网卡配置要求 |
|
网段一 |
统一数字底盘集群节点IP地址 |
3个(IPv4) |
部署统一数字底盘的主机IP地址 |
配置要求请参考软硬件配置需求 |
|
统一数字底盘北向业务虚IP地址 |
1个(IPv4) |
统一数字底盘集群对外提供服务的IP地址,部署统一数字底盘时确定 |
||
|
SeerCollector采集器数据上报IP地址 |
1个(IPv4) |
SeerCollector采集器向分析组件上报采集数据使用的IP地址 |
SeerCollector采集器网卡1 |
|
|
网段二 |
SeerCollector采集器数据采集IPv4地址 |
2个(IPv4) |
一个用于接收网络设备镜像报文,需要与设备业务口互通 另一个是采集器浮动IP地址(仅采集器集群模式下使用),用于被设备发现 |
SeerCollector采集器网卡2,必须是独立DPDK网卡 |
|
网段三 |
南向采集IPv4地址 |
8个(IPv4) |
南向采集IP地址为容器附加网络地址,分为被动采集网络和主动采集网络,分别需要三个节点容器IP地址和一个集群虚IP地址 |
配置要求请参考软硬件配置需求 |
|
网段四 |
南向采集IPv6地址 |
8个(IPv6) |
南向采集IP地址为容器附加网络地址,分为被动采集网络和主动采集网络,分别需要三个节点容器IP地址和一个集群虚IP地址 |
单机模式下有一个仿真组件节点和一个DTN_MANAGER组件节点,组件的网络规划如下表所示。
表4-7 分析组件网络规划-单机模式仿真网络单协议栈
|
网段 |
IP地址类型 |
IP地址个数 |
说明 |
网卡配置要求 |
|
网段一 |
WAN仿真分析IP地址 |
3个(IPv4) |
一个用于DTN_MANAGER组件与DTN服务器互通 另外两个用于设备仿真网络连接 |
WAN仿真分析网卡,使用设备仿真功能时必须使用独立DPDK网卡 |
集群环境下,仿真组件和DTN_Manager只需要绑定1个节点,所需IP个数与单机模式一致。
具体请参考《H3C 统一数字底盘操作系统安装指导》。
如需使用PolarDB数据库,请参见《第三方数据库PolarDB v2.0安装部署指导》进行安装。
在安装PolarDB时,请在所有统一数字底盘节点和PolarDB节点上执行polardb_add_sshpass.sh脚本。具体步骤请参考《第三方数据库PolarDB v2.0安装部署指导》的安装部署章节。无论是重新安装统一数字底盘还是PolarDB,都需重新执行此步骤。此外,若扩容统一数字底盘,需要在扩容前执行此步骤。
(1) PolarDB数据库安装后,请以root用户登录PolarDB数据库集群任一节点,依次执行cd /root/polardb命令和pdbcli status --config config.yaml命令获取PolarDB代理节点的IP地址,执行结果中,“proxy”下的IP地址即为数据库代理所在节点IP地址。
(2) 然后,依次在所有代理节点上执行cat /opt/maxscale/polardb1/etc/maxscale.cnf |grep users_refresh_time命令查看“users_refresh_time”的参数值。若不为0,则请依次执行sed -i "s/users_refresh_time=5/users_refresh_time=0/" /opt/maxscale/polardb1/etc/maxscale.cnf 命令和systemctl restart polardb-proxy-polardb1.service命令以修改代理节点参数。
(1) 获取软件安装包,并将软件包拷贝至服务器的待安装目录下,或使用FTP等文件传输协议将软件包上传到指定目录。
¡ (推荐)root用户在/root目录下,或在/root下创建目录。
¡ (推荐)非root用户(如admin)在/home/admin下。
· 如果需要使用FTP、TFTP协议上传下载,请选择binary模式(二进制模式)传输,以免损坏软件包。
· 如需安装Matrix的E7105H04及以上版本,或E7302及以上版本,若Docker版本为20.10.24,可直接安装;若Docker版本低于20.10.24,请先安装任意低于E7105H04或E7302的Matrix版本,然后将Docker升级至20.10.24,最后再将Matrix升级到E7105H04或E7302及以上版本。
(2) 上传完成后,请参考验证软件包对Matrix的安装包进行MD5校验。
若使用root用户安装软件包,或者使用admin用户安装NingOS操作系统,可直接跳过该章节。
(1) 执行su root命令切换为root用户后,在root用户下确认/etc/passwd配置文件。已配置的非root用户名称是否与配置文件中的名称一致,此处以user为例,如下图所示。如果不一致请修改配置文件中的用户名,其他参数无需修改,保持默认设置即可。
[root@node1 ~]# vim /etc/passwd
…
user:x:1000:1001:user:/home/user:/bin/bash
…
(2) 在root用户下修改/etc/sudoers配置文件。
[root@node1 ~]# vim /etc/sudoers
…略…
## Allow root to run any commands anywhere
root ALL=(ALL) ALL
user ALL=(root) NOPASSWD:/bin/bash
## Allows members of the 'sys' group to run networking, software,
## service management apps and more.
# %sys ALL = NETWORKING, SOFTWARE, SERVICES, STORAGE, DELEGATING, PROCESSES, LOCATE, DRIVERS
## Allows people in group wheel to run all commands
%wheel ALL=(ALL) ALL
user ALL=(root) NOPASSWD:/bin/bash
user ALL=(root) NOPASSWD:/usr/bin/rpm,/bin/sh
…略…
(3) 在root用户下修改/etc/pam.d/login配置文件。
[root@node1 ~]# vim /etc/pam.d/login
#%PAM-1.0
auth substack system-auth
auth [user_unknown=ignore success=ok ignore=ignore auth_err=die default=bad] pam_securetty.so
…略…
(4) 在root用户下修改/etc/ssh/sshd_config配置文件。
若当前环境为统一数字底盘与PolarDB数据库的融合部署,请勿执行此步骤。
[root@node1 ~]# vim /etc/ssh/sshd_config
…略…
#LoginGraceTime 2m
PermitRootLogin no
…略…
(5) 修改完成后,执行systemctl restart sshd命令重启sshd服务。
所有节点的安装用户需保持一致,若选择非root作为安装用户,需要在脚本执行命令前添加sudo /bin/bash指令。
(1) 进入Matrix软件包(.zip文件)的存放路径,安装Matrix。软件包的名称格式为UDTP_Matrix_version_platform.zip,其中version为版本号,platform为CPU架构类型。下面以root用户、x86_64版本为例进行安装。
[root@node1 ~]# unzip UDTP_Matrix_E7301_x86_64.zip
[root@node1 ~]# cd UDTP_Matrix_E7301_x86_64
[root@node1 UDTP_Matrix_E7301_x86_64]# ./install.sh
…略…
Complete!
(2) 通过命令systemctl status matrix验证Matrix服务是否安装成功。若安装成功,则将在Active字段后显示运行信息为active (running)。剩余节点执行同样操作即可。
(3) 默认为中文界面,若需英文界面,则可通过如下方式修改:
a. 使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,修改defaultLanguage字段值为en(若文件中没有该配置,请直接增加该字段,字段后需要携带英文逗号),配置如下:
[root@node4 ~]# vim /opt/matrix/config/navigator_config.json
{
"defaultLanguage":"en",
"productName": "uc",
"pageList": ["SYS_CONFIG", "DEPLOY", "APP_DEPLOY"],
"defaultPackages": [],
"allowDeployedPackageIds": ["UNIFIED-PLATFORM-BASE"],
"url": "http:””://${vip}:30000/central/index.html#/ucenter-deploy",
"theme":"darkblue",
"matrixLeaderLeaseDuration": 30,
"matrixLeaderRetryPeriod": 2,
"sshPort": 22,
"sshLoginMode": "secret",
"features":{"stopNtpServerBeyondThreshold":"false"}
}
b. 执行systemctl restart matrix命令重启Matrix服务使生效配置,其他节点也依次按a、b步骤配置。
Matrix集群通过SSH连接进行节点的安装、升级、修复等操作,并实现应用部署、监控等功能。各节点上的SSH服务器默认使用22号端口侦听客户端连接请求,双方建立TCP连接后可进行数据信息的交互。
用户可根据本章节修改SSH服务端口号,提高SSH连接的安全性。
· 请确保所有节点都配置为相同的SSH服务端口号。
· 端口范围为1~65535,不推荐使用1~1024之间的知名端口号,禁止使用各方案端口矩阵中已定义的端口号,否则SSH服务可能启动失败。
· 若需要通过ISO方式升级Matrix,请在升级前确保集群中所有节点的navigator_config文件内容一致。可使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,查看该文件中的详细信息。
· 若修改已部署集群中的SSH服务端口号,请确认所有业务组件是否支持。
· 若为非root用户,执行如下命令前,请进行提权操作(在非root用户下执行su root命令即可)。
· 集群各节点/opt/matrix/config/navigator_config.json中的配置必须保持一致,否则会影响集群稳定性。
· 若需修改SSH服务端口号,请参见各产品版本使用指导书中的产品端口占用说明,以避免端口冲突。
(1) 若集群未部署,登录节点后台,使用netstat -anp | grep after_port-number检查指定的端口号是否被占用,若未被占用,则无返回信息;若被占用,则返回如下信息。其中,after_port-number为用户想要指定的SSH服务新的端口号。举例如下:
¡ 12345端口号未被占用,可以修改为该端口号。
[root@node1 ~]# netstat -anp | grep 12345
¡ 1234端口号被占用,不可以修改为该端口号。
[root@node1 ~]# netstat -anp | grep 1234
tcp 0 0 0.0.0.0:1234 0.0.0.0:* LISTEN 26211/sshd
tcp6 0 0 :::1234 :::* LISTEN 26211/sshd
若集群已部署,除上述的检查外,还需要执行以下命令确认环境中是否有业务容器占用该端口(如果还有其他形式的端口占用,请根据实际情况检查)。具体如下:
¡ 12345端口号未被占用,可以修改为该端口号。
[root@node1 ~]# kubectl get svc -A -oyaml | grep nodePort | grep -w 12345
[root@node1 ~]# kubectl get pod -A -oyaml | grep hostPort | grep -w 12345
¡ 1234端口号被nodePort或hostPort占用,不可以修改为该端口号。
[root@node1 ~]# kubectl get svc -A -oyaml | grep nodePort | grep -w 1234
nodePort: 1234
[root@worker ~]# kubectl get pod -A -oyaml | grep hostPort | grep -w 1234
hostPort: 1234
(2) 使用vim /etc/ssh/sshd_config命令进入sshd服务的配置文件,将配置文件中端口号修改为用户想要指定的端口号(以12345为例),且需要删除注释符号。
图7-1 修改前的端口号为22
图7-2 修改后的端口号
(3) 修改完成后,需重启sshd服务。
[root@node1 ~]# systemctl restart sshd
(4) 查看新的端口号是否修改成功。以Master节点为例,若有如下返回信息,则表示修改成功。
[root@node1 ~]# netstat -anp | grep -w 12345
tcp 0 0 0.0.0.0:12345 0.0.0.0:* LISTEN 26212/sshd
tcp6 0 0 :::12345 :::* LISTEN 26212/sshd
(1) 使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,查看该文件中是否存在sshPort字段,若存在,将该字段取值修改为用户想要指定的端口号(以12345为例);若不存在,则需手动添加该字段并为其赋值。下面以x86版本为例进行说明。
{
"productName": "uc",
"pageList": ["SYS_CONFIG", "DEPLOY", "APP_DEPLOY"],
…略…
"matrixLeaderLeaseDuration": 30,
"matrixLeaderRetryPeriod": 2,
"sshPort": 12345
}
(2) 修改完成后,需重启Matrix服务。
[root@node1 ~]# systemctl restart matrix
(3) 查看新的端口号是否修改成功。以Master节点为例,若成功,则日志中最后一条信息如下。
[root@node1 ~]# cat /var/log/matrix-diag/Matrix/Matrix/matrix.log | grep "ssh port"
2022-03-24T03:46:22,695 | INFO | FelixStartLevel | CommonUtil.start:232 | ssh port = 12345.
集群主用Master节点通过SSH连接管理和监控集群中的所有节点,当通过命令行修改某一节点密码后,还需登录Matrix页面修改对应节点的密码,若其它场景也保存了节点密码,则需同步修改(如跳板机、部署在Matrix上的应用),否则将会导致集群异常。整个过程易遗漏、易出错,且需较高的时间和人力成本。
各节点上配置SSH密钥登录后,无需在多处修改节点密码,集群节点间也可进行互相操作。
当前支持root用户和非root用户进行SSH密钥配置。
· 请确保所有节点的SSH登录方式一致(如Matrix服务启动后,修改了某一节点的SSH登录方式,该操作需同步至所有节点。修改完成后请依次重启各节点Matrix服务)。
· Matrix(包括集群和单机模式)部署完成后,若因重建/升级等原因重装节点操作系统时,在操作系统安装完成后、重建/升级操作前,请确保已完成所有节点的SSH密钥登录配置,且所有节点SSH登录方式必须一致(都为密钥登录),否则将会导致操作失败。
依次登录各节点后台进行SSH密钥配置。下面以node1节点为例,进行配置说明。
执行ssh-keygen -R命令时如果出现文件或目录不存在的报错,属正常现象,可忽略。
(1) root用户登录node1节点后台,执行如下命令,通过ED25519加密算法生成SSH对称认证所需的公钥和私钥文件。保存该公/私钥的文件名默认为/root/.ssh/id_ed25519,文件名不允许修改。
[root@node1 ~]# ssh-keygen -t ed25519
Generating public/private ed25519 key pair.
Enter file in which to save the key (/root/.ssh/id_ed25519):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_ed25519
Your public key has been saved in /root/.ssh/id_ed25519.pub
The key fingerprint is:
SHA256:GLeq7ZQlnKHRTWvefTwIAlAHyeB3ZfZt0Ovnfbkcbak root@node1
The key's randomart image is:
…略…
(2) 首先清理各节点的旧公钥信息。然后将生成的公钥拷贝至各个节点(包括当前登录的节点)。下面以集群中有三个Master节点并且SSH端口号为默认的22为例进行配置说明。其中,node1 IP地址为192.168.227.171;node2 IP地址为192.168.227.172;node3 IP地址为192.168.227.173。
[root@node1 ~]# ssh-keygen -R 192.168.227.171
[root@node1 ~]# ssh-keygen -R 192.168.227.172
[root@node1 ~]# ssh-keygen -R 192.168.227.173
[root@node1 ~]# ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
[root@node1 ~]# ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
[root@node1 ~]# ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
(3) 登录其它节点后台,执行步骤(1)和(2)命令。
(4) root用户登录node1节点后台,SSH到当前节点及其它节点,验证SSH密钥配置是否生效。下面以SSH到node2并且SSH端口号为默认的22为例进行配置说明。
[root@node1 ~]# ssh -p 22 [email protected]
依次登录各节点后台进行SSH密钥配置。
由于非root用户下部分命令需要以root权限执行,所以非root用户需配置admin到admin用户密钥配置、root到admin用户密钥配置。
执行ssh-keygen -R命令时如果出现文件或目录不存在的报错,属正常现象,可忽略。
(1) 配置admin到admin用户密钥配置
下面以3个Master节点都为admin用户为例,进行配置说明。
a. admin用户登录node1节点后台,执行ssh-keygen -t ed25519命令,生成SSH对称认证所需的公钥和私钥文件。保存该公/私钥的文件名默认为/home/admin/.ssh/id_ed25519,文件名不允许修改。
b. 首先清理各节点的旧公钥信息。然后将生成的公钥拷贝至各个节点(包括当前登录的节点)。下面以集群中有三个Master节点并且SSH端口号为默认的22为例进行配置说明。其中,node1 IP地址为192.168.227.171;node2 IP地址为192.168.227.172;node3 IP地址为192.168.227.173。
[root@node1 ~]# ssh-keygen -R 192.168.227.171
[root@node1 ~]# ssh-keygen -R 192.168.227.172
[root@node1 ~]# ssh-keygen -R 192.168.227.173
[root@node1 ~]$ ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
[root@node1 ~]$ ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
[root@node1 ~]$ ssh-copy-id -p 22 -i ~/.ssh/id_ed25519.pub [email protected]
c. 登录其它节点后台,执行步骤(a)和(b)命令。
d. admin用户登录节点后台,SSH到当前节点及其它节点,验证SSH密钥配置是否生效。
[root@node1 ~]$ ssh -p 22 [email protected]
(2) 配置root到admin用户密钥配置
a. admin用户登录node1节点后台,并将用户切换至root用户下。
b. 请依次执行以下操作:生成新的公钥和私钥文件,清理旧的公钥信息,并将新公钥拷贝到所有节点(包括当前登录的节点)。
c. 登录其它节点后台,执行步骤(a)和(b)命令。
d. admin用户登录节点后台,并将用户切换至root用户下。SSH到当前节点及其它节点的admin用户,验证SSH密钥配置是否生效。
[root@node1 ~]# ssh -p 22 [email protected]
(1) 使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,查看该文件中是否存在sshLoginMode字段,若存在,将该字段取值修改为secret;若不存在,则需手动添加该字段并为其赋值。下面以x86版本为例进行说明。
{
"productName": "uc",
"pageList": ["SYS_CONFIG", "DEPLOY", "APP_DEPLOY"],
…略
"matrixLeaderLeaseDuration": 30,
"matrixLeaderRetryPeriod": 2,
"sshPort": 22,
"sshLoginMode":"secret"
}
(2) 重启Matrix服务,使SSH登录方式修改生效。
[root@node1 ~]# systemctl restart matrix
(3) 查看修改的SSH登录方式是否生效。
[root@node1 ~]# cat /var/log/matrix-diag/Matrix/Matrix/matrix.log | grep "sshLoginMode"
2022-03-31T20:11:08,119 | INFO | features-3-thread-1 | CommonUtil.start:245 | ssh port = 22, sshLoginMode = secret.
分析组件适配的统一数字底盘版本请参见对应的版本说明书。
若需重装某个Master节点的操作系统,请在完成该节点的重装和重建后,在其他任意一个无需重装操作系统的Master节点上执行以下脚本:
进入/opt/matrix/app/deploy-tool/custom_file/APP-PUBLIC-COLLECTOR-E7102-时间戳/collection-exec-pre/fault_migration/,执行 sh -x faultMigration.sh $IP。
其中$IP为新建节点的管理IP,否则itoa-collect-multi容器将无限重启。
安装时请注意以下事项:
· 设置系统的日期和时间时,请根据自己的实际情况选择所需要的时区。
· 选择时区时,不允许选择“北京”,否则将会导致Base组件部署失败。
· 磁盘及分区规划请参考资源计算工具。
· 对于使用内置NTP服务器的场景,在部署集群之前,需确保所有节点的系统时间和当前时间保持一致。对于使用外置NTP服务器作为时钟同步源的场景,则无需修改节点的系统时间。
· 若NTP服务器不与南向地址相通,可以先不增加NTP服务器。待集群创建完成后,在配置网卡网络时,通过修改集群参数再增加。
· 集群部署完成后,请勿修改系统时间,否则可能导致集群异常。
· 主机名只能包含小写字母、数字、连字符和小数点,且不能以连字符、小数点起始或结束。
· 建立Matrix集群时,必须保证集群内各个节点的主机名互不相同,且符合主机名的命名规则,否则将会导致集群建立失败。
· Matrix集群部署完成后,请不要再对操作系统的主机名进行修改。
· 当网络列表显示多个网络时,请勿选择带<网线已拔出>标识的网卡。
· 当安装环境存在两张及以上数量网卡时,北向业务虚IP使用的网段必须和ifconfig命令查看到的第一块物理网卡的网段保持一致,否则会导致集群部署失败或Pod无法启动。
· 在网络和主机名配置页面可配置网卡,请确保在创建集群之前,完成网卡绑定的配置。
· 配置IPv4、IPv6地址时必须指定网关,否则在创建集群时可能出现问题。
· 操作系统安装完成后,建议不要使用ifconfig命令进行关闭、启动网卡的操作,否则可能导致环境异常。
· Matrix单独使用一个网口,不允许在此网口上配置子接口及子IP。
· Matrix节点其它网口的IP地址,不能和建立集群使用的IP处于同一网段。
· 在Matrix上进行操作时,请勿在统一数字底盘上进行如下操作:
¡ 上传、删除组件安装包。
¡ 部署、升级、扩容组件。
¡ 增加、修改、删除网络。
· 若选用NingOS V3.1.0部署,南向网络的网卡如果采用bond模式时,需要按如下方式修改网卡bond配置,否则影响采集组件使用。
a. 使用有管理员权限登录服务器后台,将配置文件/etc/sysconfig/network-scripts/ifcfg-xxx(bond网卡名称)中的IPV6_AUTOCONF配置为no:
图8-1 配置修改
b. 修改完成后,在后台执行命令nmcli c reload && nmcli c up xxx(bond网卡名称)。
· 修改节点时间的注意事项如下:
¡ 修改所有导入至SeerAnalyzer的设备的时区,需要与SeerAnalyzer服务器的时区保持一致。
¡ 修改SeerCollector采集器的时区,需要与SeerAnalyzer服务器的时区保持一致。
· 如需使用HTTPS协议,请在应用和组件安装完成后,登录统一数字底盘,点击[系统>系统配置>安全配置]菜单项,进入安全配置页面,启用HTTPS协议。
· 在部署SeerAnalyzer和SeerCollector前,请在各节点执行cat /proc/sys/vm/nr_hugepages命令检查大页是否开启,如果返回结果不是0,请记录该值,并执行echo 0 > /proc/sys/vm/nr_hugepages命令临时关闭大页。待部署SeerAnalyzer和SeerCollector完成后,再将echo 0 > /proc/sys/vm/nr_hugepages命令中的数字0改为记录的值,并在各节点执行,以恢复大页配置。
· 可在Matrix上进行如下操作:上传、删除统一数字底盘应用安装包;部署、升级、扩容、卸载统一数字底盘应用;升级、重建集群节点;增加、删除Worker节点。
· 部署集群节点时,要求主机名称不得重复,当集群部署成功后,不允许修改集群节点的主机名。
· 集群部署过程中不支持登录集群各节点进行任何操作,也不支持在其他集群中添加当前集群部署中的节点。
(1) 在浏览器中输入Matrix的登录地址,进入如下图所示登录页面。
a. 若使用IPv4地址,登录地址格式为:https://ip_address:8443/matrix/ui,例如:https://172.16.101.200:8443/matrix/ui。本文档后续配置均以IPv4配置为例。
b. 若使用IPv6地址,登录地址格式为:https://[ip_address]:8443/matrix/ui,例如:https://[2000::100:611]:8443/matrix/ui。
登录地址中参数含义如下:
ip_address为节点IP地址。
8443为缺省端口号。
采用集群部署模式时,未部署集群之前,ip_address可以是任意一个规划为Master节点的IP地址。
图8-2 Matrix登录页面
(2) 输入用户名和密码(默认用户名为admin,密码为Pwd@12345,若安装操作系统设置过密码,则按设置的填写)后,单击<登录>按钮,默认进入Matrix的集群部署页面,部署双栈集群需要开启双栈按钮。
图8-3 集群单栈部署页面
部署集群节点前,需要先配置集群参数。配置集群参数,各参数的介绍如下两表所示。
|
参数 |
说明 |
|
北向业务虚IP |
集群对外提供服务的IP地址,该地址必须在Master节点所处的网段内。 |
|
Service IP地址池 |
用于为Service分配IP地址,不能与部署环境中的其它网段冲突。默认地址为10.96.0.0/16,一般保持缺省值。 |
|
容器IP地址池 |
用于为容器分配IP地址,不能与部署环境中的其它网段冲突。默认地址为177.177.0.0/16,一般保持缺省值。 |
|
虚IP模式 |
取值为内置虚IP、外置虚IP。内置模式下虚IP由Matrix下发到集群内,并由Matrix管理虚IP在集群节点间的漂移;外置模式下,虚IP由第三方平台或软件下发到集群外,不再由Matrix管理。默认为内置模式。 说明:E0713版本开始,新增该字段。 |
|
集群网络模式 |
· 单子网:集群内所有节点、虚IP必须在相同网段内,否则将无法互相通信。 · 单子网-VXLAN:集群内所有节点、虚IP必须在相同网段内,否则将无法互相通信。单子网-VXLAN模式仅支持IPv4网络。 ¡ 如果在集群上联交换机上配置安全策略如ACL,不允许以Service IP地址池和容器IP地址池中的地址为源的报文转发,需要使用单子网VXLAN。 ¡ 在公有云和私有云场景下,因为云上的网络限制,需要使用单子网VXLAN网络。 |
|
NTP服务器 |
· 用于保证集群内各节点系统时间的一致性,支持选择内置服务器和外置服务器。选择外置服务器时,需要配置NTP服务器地址,且该地址不可与集群内各节点的IP地址冲突。 · 本文档使用内置服务器作为NTP服务器,则部署集群时会首先进行时间同步,集群部署完成后,三台Master节点会定时同步时间,从而保证集群内各节点的系统时间保持一致。 · 如需部署上下级环境,必须为上级和下级配置相同的NTP服务器,以确保上下级的时间一致。 |
|
外置DNS服务器 |
用于解析K8s集群外部的域名,格式为IP:Port,部署统一数字底盘可根据实际需要配置外置DNS服务器。本文档中不配置此项。 · 容器解析域名时,集群外部的域名无法被内置DNS服务器解析,本平台将把需要解析的外部域名随机转发给一台外置DNS服务器来解析。 · 外置DNS服务器最多可以配置10个,各外置DNS服务器要求具有相同的DNS解析能力,并可以独立满足外部域名解析需求、无主备之分、无先后顺序之分。 · 建议所有的DNS服务器都能够访问根域,可使用命令行nslookup -port={port} -q=ns . {ip}查看是否可以访问。 |
|
自定义虚IP |
通常用于隔离集群网络与管理网络。不能与部署环境中的其它网段冲突。 |
表8-2 双栈集群参数说明
|
参数 |
说明 |
|
北向业务虚IP(IPv4、IPv6) |
集群对外提供服务的IP地址,该地址必须在Master节点所处的网段内,分别分配IPv4地址,IPv6地址。北向业务虚IP至少配置一个IPv4或IPv6,不可同时配置两个相同协议的IP。配置IPv6地址时,请勿以冒号结尾。 |
|
Service IP地址池 |
双栈环境下生效。 用于为Service分配IPv4、IPv6地址,默认IPv4地址为10.96.0.0/16,默认IPv6地址为fd00:10:96::/112,,一般保持缺省值。集群部署后不允许更改。 该地址池不能与部署环境中其它网段冲突,否则可能会导致集群异常。 |
|
容器IP地址池 |
双栈环境下生效。 用于为容器分配IPv4、IPv6地址,默认IPv4地址为177.177.0.0/16,默认IPv6地址为fd00:177:177::/112,一般保持缺省值。集群部署后不允许更改。 该地址池不能与部署环境中其它网段冲突,否则可能会导致集群异常。 |
|
虚IP模式 |
取值为内置虚IP、外置虚IP。内置模式下虚IP由Matrix下发到集群内,并由Matrix管理虚IP在集群节点间的漂移;外置模式下,虚IP由第三方平台或软件下发到集群外,不再由Matrix管理。默认为内置模式。 说明:E0713版本开始,新增该字段。 |
|
集群网络模式 |
双栈模式下仅支持单子网模式。 · 单子网:集群内所有节点、虚IP必须在相同网段内,否则将无法互相通信。 |
|
NTP服务器 |
· 用于保证集群内各节点系统时间的一致性,支持选择内置服务器和外置服务器。选择外置服务器时,需要配置NTP服务器地址,且该地址不可与集群内各节点的IP地址冲突。 · 本文档使用内置服务器作为NTP服务器,部署集群时会首先进行时间同步,集群部署完成后,三台Master节点会定时同步时间,从而保证集群内各节点的系统时间保持一致。 · 如需部署上下级环境,必须为上级和下级配置相同的NTP服务器,以确保上下级的时间一致。 |
|
外置DNS服务器 |
用于解析K8s集群外部的域名,格式为IP:Port,部署统一数字底盘可根据实际需要配置外置DNS服务器。本文档中不配置此项。 · 容器解析域名时,集群外部的域名无法被内置DNS服务器解析,本平台将把需要解析的外部域名随机转发给一台外置DNS服务器来解析。 · 外置DNS服务器最多可以配置10个,各外置DNS服务器要求具有相同的DNS解析能力,并可以独立满足外部域名解析需求、无主备之分、无先后顺序之分。 · 建议所有的DNS服务器都能够访问根域,可使用命令行nslookup -port={port} -q=ns . {ip}查看是否可以访问。 |
|
自定义虚IP |
通常用于隔离集群网络与管理网络。不能与部署环境中的其它网段冲突。 |
若NTP服务器不与北向地址相通,可以先不增加NTP服务器。待集群创建完成后,在配置网卡网络时,通过修改集群参数再增加。
单机部署模式下,仅需增加一个Master节点即可部署集群。集群部署模式下,需要增加三个Master节点后,再部署集群。
(1) 配置集群参数后,单击<下一步>按钮,进入创建集群页面,如下图所示。
(2) 单击Master节点区域的增加图标
,弹出增加节点窗口,如下图所示。
图8-7 增加双栈节点窗口
(3) 配置如下参数:
¡ 类型:显示为“Master”,且不可修改。
¡ IP地址:规划的Master节点的IP地址。支持批量添加Master节点,批量添加模式下,各Master节点的用户名和密码需相同。
¡ 用户名:节点操作系统的用户名。根据安装操作系统时实际选择的用户填写。集群中所有节点的用户名必须相同。
¡ 密码:节点操作系统的用户密码。
(4) 单击<确定>按钮,完成增加Master节点操作。
(5) 单击<开始部署>按钮,开始部署集群,当所有节点的进度达到100%时,表示集群部署成功。
集群部署成功后,主Master节点会在节点左上角显示标记
,其余未被标记的Master节点为备用Master节点。
(6) 集群部署完成后,配置网络和部署应用的操作可以先跳过,后期根据实际需要再进行配置。
图8-8 集群部署完成
Matrix部署完成后,如需执行kubectl命令,请断开重连当前SSH会话后再执行对应命令,否则kubectl命令无法执行,提示The connection to the server localhost:8080 was refused - did you specify the right host or port?
上传安装包时,需保证浏览器到集群之间的网络连接稳定,且连接带宽不能低于10Mbps,否则会导致安装包上传耗时长或上传失败。
应用包仅支持在Matrix页面进行部署,支持批量上传应用包,但必须先部署Base,再部署其他应用。
(1) 在浏览器中输入“https://ip_address:8443/matrix/ui”,登录Matrix。其中“ip_address”为北向业务虚IP地址。
(2) 单击[部署>应用]菜单项,进入应用列表页面。
(3) 在单机部署模式下,用户可以选择标准部署模式或代理部署模式。组件安装完成后将无法更改部署模式。本章节以选择标准部署模式为例进行介绍。
¡ 标准部署模式:适用于标准架构的系统,以及Server-Proxy架构的Server端。支持部署统一数字底盘所有组件。
¡ 代理部署模式:用于Server-Proxy架构中的Proxy端,适用于U-Center产品。仅支持部署统一数字底盘的Base、Connect、UCP_BasePlat和UCP_CollectPlat组件。
· 如果需要将统一数字底盘从E7103版本升级到E7104或更高版本的精简proxy模式,请参考《精简proxy升级工具使用指导》获取具体方法。
· 如需修改部署模式(例如标准模式修改为代理模式),请重装Matrix。仅通过重装Base组件进行修改可能会导致其他组件部署异常。
图8-9 选择部署模式
(4) 单击<部署应用>按钮,进入安装Base界面。
图8-10 安装Base页面
(5) 单击<上传>按钮,在弹框中上传Base安装包。
图8-11 上传Base安装包
(6) Base上传完成后,在当前页面勾选Base应用安装包,并单击页面底部的<下一步>按钮。
请不要勾选其他应用包,否则无法安装Base。
(7) 在当前页面无需任何操作,直接单击页面底部的<下一步>按钮。
(8) 单击<修改>按钮,配置Base参数,配置完成后单击<确定>按钮保存配置。
当使用PolarDB数据库时,需要额外配置相关的数据库参数,具体请参考《第三方数据库PolarDB v2.0安装部署指导》。
表8-3 Base参数配置说明
|
配置项 |
配置项参数说明 |
|
资源档位 |
单机模式支持选择single_large、single_medium、single_small三种档位。 集群模式支持选择cluster_large、cluster_medium、cluster_small三种档位 |
|
部署协议 |
可选择http和https。 |
|
HTTP协议端口号 |
缺省值30000。 |
|
HTTPS协议端口号 |
缺省值30443。 |
|
CPU厂商信息 |
根据实际情况选择对应的CPU厂商。 |
|
是否使用第三方数据库 |
可选择true、false。 |
|
主题 |
可选择white、star。 |
|
语言 |
可选择zh_CN、en_US。 |
(9) 参数配置完成后,单击<部署>按钮,开始部署Base。
(10) Base部署完成后,原[部署>应用]页面自动更新为[部署>融合部署]页面,可在该页面下部署其他可选包。
统一数字底盘Base应用包部署完成后,可在Matrix的[部署>融合部署]页面融合部署统一数字底盘其他应用包和分析组件应用包。需要注意的是,如需部署BMP_Syslog应用包,需在分析组件安装之前完成部署。
· 在部署分析组件时,使用不同版本的统一数字底盘,配置过程会略有差异,具体配置操作可参考对应版本的统一数字底盘部署指导手册中“部署组件”章节。
· 分析组件可按需部署对应场景,在分析组件部署完成后,不可追加部署其他场景,需要卸载分析组件后重新部署。
· 分析组件部署后不支持修改主机名。
· 在部署分析组件时修改Matrix节点和集群IP地址,需要提前在[分析选项>任务管理]页面下将所有解析任务停用再修改,否则容易引发修改失败。
· 如何部署DTN主机,以及在分析组件上构建仿真网络请参见《H3C SeerAnalyzer-WAN仿真网络操作指导》。
· 仅支持统一数字底盘E7301及之后版本。
建议不要使用ifconfig命令进行关闭、启动网卡的操作,可能导致环境异常。
若有使用多块网卡的需求,需在服务器上启用网卡。启用网卡的配置步骤如下:
(1) 远程登录统一数字底盘所在服务器,在服务器上修改网卡配置文件。此处以修改网卡ethA09-2的网卡配置文件为例。
(2) 使用以下命令打开并编辑网卡文件。
[root@matrix01 /]# vi /etc/sysconfig/network-scripts/ifcfg-ethA09-2
(3) 将网卡配置文件中的BOOTPROTO和ONBOOT修改为如下图所示。BOOTPROTO配置为none表示不指定网卡的启动协议,ONBOOT配置为yes表示开机自动启用网卡连接。
图10-1 编辑网卡文件
(4) 新增网卡配置:NOZEROCONF=yes。
图10-2 编辑网卡文件
(5) 使用以下命令ifdown和ifup命令重启网卡。
[root@matrix01 /]# ifdown ethA09-2
[root@matrix01 /]# ifup ethA09-2
(6) 使用ifconfig命令查看网络信息。若网卡状态为UP则表示网卡启用成功。
登录Matrix页面,单击“部署”页签,在左侧导航树中选择“融合部署”菜单项,未部署任何分析组件时,如下图所示。
图10-3 组件部署导航页面
(1) 单击<安装包管理>按钮,进入“安装包管理”页面。
(2) 单击<上传>按钮,在弹出页面上单击<选择文件>按钮,选中分析组件安装包,然后单击<上传>按钮上传到系统。上传完成后,单击
返回“融合部署”页面。
· 在安装统一数字底盘的时候也可以先上传对应所需的组件。
· 在WAN场景中,分析组件不支持独立部署,仅支持控制组件和分析组件融合部署,并且需要优先安装控制组件。
分析组件目前分为多个组件应用包,用户可按实际需要选择性上传,组件应用包与业务场景的关系如下表所示。
|
组件 |
说明 |
Campus |
WAN承载 |
WAN分支 |
DC |
|
Analyzer-Platform |
公共基础组件 |
必选 |
必选 |
必选 |
必选 |
|
Analyzer-Collector |
公共采集组件 |
必选 |
必选 |
必选 |
必选 |
|
Analyzer-Telemetry |
指标分析 |
必选 |
必选 |
必选 |
必选 |
|
Analyzer-WAN |
WAN应用分析 |
可选,默认不需要 |
必选 |
必选 |
可选 |
|
Analyzer-NetStream |
NetStream流分析 |
可选,默认不需要 |
必选 |
必选 |
可选 |
|
Analyzer-Simulation |
WAN网络仿真分析 |
不可选 |
可选 |
不可选 |
不可选 |
|
DTN_Manager |
WAN DTN主机管理 |
不可选 |
可选(须配合Analyzer- Simlation) |
不可选 |
不可选 |
|
Analyzer-User |
用户分析 |
必选 |
不可选 |
不可选 |
不可选 |
|
Analyzer-AV |
音视频分析 |
可选 |
不可选 |
可选 |
不可选 |
|
Analyzer-SLA |
服务质量分析 |
可选 |
必选 |
不可选 |
可选(须配合SeerCollector采集器) |
|
Analyzer-TCP |
TCP流分析 |
可选(须配合SeerCollector采集器),默认不需要 |
不可选 |
不可选 |
必选(须配合SeerCollector采集器) |
|
Analyzer-Diagnosis |
诊断分析 |
必选 |
必选 |
必选 |
必选 |
|
Analyzer-AI |
AI智能预测 |
必选 |
必选 |
必选 |
必选 |
· Platform为公共基础组件,是必选安装包,其它组件根据实际业务场景需求进行选装。
· Telemetry组件是WAN/User/AV/SLA/TCP/Diagnosis/AI/NetStream组件的基础,当安装这些组件时,Telemetry组件必装。
· DTN_MANAGER组件是WAN网络仿真中使用设备仿真功能的基础,当使用WAN仿真中的设备仿真,DTN_MANAGER组件必装。
· 在配置仿真组件参数时,若“设备仿真”选择“是”,则仿真组件和DTN_MANAGER组件需要绑定仿真网络,否则设备仿真功能不可用。
· 组件选择说明中:“必选”表示对应场景推荐安装该组件;“可选”表示除非明确需要该组件的功能,对应场景下一般不安装该组件;“不可选”表示对应场景下该组件无法正常工作。
· 当DC场景支持NetStream/sFlow时,需安装NetStream组件。
如果没有部署SeerCollector采集器,需要取消TCP流分析(Analyzer-TCP组件)的勾选。
(1) 单击<安装>按钮,进入应用选择页面。
(2) 在应用选择页面勾选对应场景,系统将自动勾选对应场景需要安装的组件应用包。
图10-4 应用选择页面
选择应用时,应根据要部署的场景(Campus、DC、WAN)及上传安装包中的对应关系合理选择。
· Campus场景默认只需要部署如下组件:Platform、Collector、Telemetry、Diagnosis、AI、User。需应用分析时可部署:AV、SLA。
· DC场景默认只需要部署如下组件:Platform、Collector、Telemetry、Diagnosis、TCP、AI。
· WAN承载场景默认只需要部署如下组件:Platform、Collector、Telemetry、Diagnosis、WAN、AI、SLA、NetStream。
· WAN分支场景默认只需要部署如下组件:Platform、Collector、Telemetry、Diagnosis、WAN、AI、NetStream。
(3) 在应用选择页面找到“公共服务”应用组所在区域,勾选Analyzer-Collector。该组件用于提供gRPC、NETCONF协议的数据采集任务。
分析组件和采集组件选择完成后,单击<下一步>按钮,进入安装包选择页面。如下图所示。
如果环境上同一组件存在多个版本的安装包,可在该页面进行下拉选择指定版本的安装包。
图10-5 安装包选择页面
在资源配置页面选择对应的资源档位。选择完成后单击<下一步>按钮。
Collector、Platform、Simulation、DTN_MANAGER和AI组件支持参数配置,其余组件均不需要进行参数配置。
(1) 采集组件参数配置
a. 节点配置
- 单机模式:采集组件不支持节点绑定,默认部署在Master节点。
- 集群模式:采集组件支持任选Master或者Worker中的一个或三个节点部署,不启用节点绑定默认部署在Master节点。
- 分析组件与控制组件分离部署,采集组件推荐部署在Master节点。
- 分析组件与控制组件融合部署,采集组件推荐部署在Worker节点,推荐网络方案为南向网络(需要独占Worker节点一个网口,用于承载南向网络),如果网络方案为南北向合一,部分采集程序由于依赖集群北向虚IP仍然会在Master节点运行。
b. 网络配置
配置采集组件的南向采集IP地址。根据在组件选择页面选择的网络方案确定:
- “南北向网络合一”(南向无网络)方案:无需配置网络,直接进行下一步。在条件允许的情况下,推荐南北向网络隔离,即使用“南向单协议”或者“南向双协议”方案,不推荐使用“南北向网络合一”方案。
- “南向单协议”方案:在本页面创建一个IPv4或IPv6网络。
- “南向双协议”方案:在本页面创建一个IPv4和一个IPv6网络。
c. 网络绑定
网络绑定原则:
- 南北向网络合一(南向无网络)方案无需配置资源绑定。
- 南向单协议栈方案中需要将网络指定为管理网络。
- 南向双协议栈方案中,需要将IPv4网络指定为管理网络,将IPv6网络指定为默认网络。
d. 该页签下的所有参数配置完成后,单击<应用>按钮,即可保存配置。
图10-7 参数配置页面
(2) 分析平台组件参数配置
分析平台组件参数配置页面如下图所示。
图10-8 分析平台参数配置页面
a. 节点配置
节点配置功能可将部分Pod绑定到指定的物理节点,解决在融合部署场景节点资源不足的情况下,分析组件抢占其他组件资源的问题:
- 单机模式下不支持节点绑定,分析组件将部署在唯一的单机节点上。
- 集群模式下,若开启节点绑定功能,可指定分析组件在集群中部署的节点名称,支持选择集群中的任意节点,要求选择的节点数可以是1个,或者3个及以上;若不开启节点标签,分析组件将默认部署在集群中的所有节点上。
b. 该页签下的所有参数配置完成后,单击<应用>按钮,即可保存配置。
(3) AI预测分析参数配置
AI预测分析组件参数配置页面如下图所示。
图10-9 AI预测分析参数配置页面
a. 负载配置
该配置用于指定AI预测任务负载容器数量,默认为“负载节点数量*2”,例如该配置下方的节点配置如果绑定了3个节点,将会创建6个负载容器执行AI预测任务。也可以选择“自定义”单选框,填写具体的数值,创建指定数量的负载容器。推荐使用默认配置。
b. 节点配置
该配置为AI预测负载容器指定部署节点,默认关闭。集群模式下可选择打开“节点绑定”功能。开启节点绑定后可选择部署AI预测任务负载容器的节点名称,在不开启节点绑定功能的情况下,将使用分析平台配置页面配置的节点信息。
c. 该页签下的所有参数配置完成后,单击<应用>按钮,即可保存配置。
(4) 仿真组件参数配置(仅WAN场景需要配置)
Simulation组件的参数配置页面如下图所示。
图10-10 参数配置页面
a. 节点绑定
仿真组件支持任选Master中的一个节点部署。
- 若“设备仿真”配置为“是”则可与仿真设备建立连接关系。需要在页面创建一个IPv4网络(用于管理仿真虚拟设备和DTN服务器所使用的网络),创建完成后仿真组件需要绑定该网络。
- 若“设备仿真”配置为“否”,则无需绑定仿真网络。
c. 该页签下的所有参数配置完成后,单击<应用>按钮,即可保存配置。
(5) DTN-Manager组件参数配置(仅WAN场景使用设备仿真时需要配置)
若仿真组件将“设备仿真”配置为“是”,则需继续配置DTN-Manager组件的参数。
a. 节点绑定:建议与仿真组件绑定在同一个节点上。
b. 网络配置:网络配置可参考仿真组件的网络配置。
c. 网络绑定:建议与仿真组件绑定在同一个网络上。
该页签下所有参数配置完成后,即可保存配置。
图10-11 DTN-Manager组件参数配置页面
在各组件的参数配置页面配置完参数并单击<应用>按钮以后,单击<部署>按钮,部署组件。
部署完成后,在组件管理页面可以查看组件的详细信息。
SeerAnalyzer部署完成后将在统一数字底盘中加载对应菜单项,登录统一数字底盘即可使用SeerAnalyzer功能。
统一数字底盘提供友好的GUI界面。具体登录方式如下:
(1) 在浏览器中输入统一数字底盘登录地址(默认登录地址:http://ip_address:30000/central/index.html),回车后会进入如下图所示登录界面。
¡ ip_address:为统一数字底盘所在的集群北向业务虚IP地址。
¡ 30000为端口号。
(2) 输入用户名密码登录统一数字底盘,缺省用户名为admin,密码为Pwd@12345。登录成功后进入主页面。
统一数字底盘的注册步骤请参见《H3C统一数字底盘部署指导》。
分析组件安装完成后,可90天内试用所有功能,超过试用期限后,需要获取License授权才能正常使用。
关于授权的申请和安装过程,请参见《H3C软件产品远程授权License使用指南》。
(1) 登录统一数字底盘,依次单击[系统>License管理>License信息]菜单项,进入License信息页面。
(2) 在页面中配置License Server信息的参数,详细介绍请参见下表。
|
参数 |
说明 |
|
IP地址 |
安装License Server的服务器上用于统一数字底盘和分析组件集群内各节点之间通信的IP地址 |
|
端口号 |
此处缺省值为“5555”,与License Server授权服务端口号保持一致 |
|
用户名 |
License Server中设置的客户端名称 |
|
密码 |
License Server中设置的客户端名称对应的密码 |
(3) 配置完成后,单击<连接>按钮与License Server建立连接,连接成功后统一数字底盘和分析组件可自动获取授权信息。
(1) 请登录Matrix页面,登录地址:https://ip_address:8443/matrix/ui。其中ip_address为统一数字底盘的北向业务虚IP,默认用户名为admin,密码为Pwd@12345。
(2) 在Matrix页面单击[部署>融合部署]菜单项,进入组件部署导航页面。
(3) 勾选“分析组件”,单击左上角<卸载>按钮,完成组件卸载。
(4) (本步骤为非必选操作)登录SeerCollector采集器所在服务器,进入/usr/local/itoaAgent目录,执行bash uninstall.sh命令手动清除数据。(如果是非root用户,请执行sudo bash uninstall.sh)然后使用ps -aux | grep agent | grep -v grep命令检查,命令执行后无输出则证明卸载干净。
图13-1 清除数据
在统一数字底盘上支持对组件进行保留配置升级。升级组件可能会导致业务中断,请谨慎操作。
· 分析组件不支持E7101之前版本及其补丁版本升级至E7101及其之后版本。
· 分析组件暂不支持升级失败后的回滚操作。
· 对分析组件整体升级,即所有组件全部升级,版本号统一变成升级后的版本号。
· 对分析组件整体升级时,必须先升级Analyzer-Collector组件,然后升级Analyzer-Platform基础组件,再升级Analyzer-Telemetry组件,最后升级其它组件(无顺序要求)。
· 在E7301版本中,新增了Analyzer-NetStream组件,并将Netstream功能从Analyzer-WAN组件中独立出来。若需将E7301之前版本的NetStream功能升级至E7301及后续版本,必须先升级Analyzer-WAN组件,然后再安装Analyzer-NetStream组件。升级完成后,可能会发生数据迁移,导致无法查看全部历史数据。如果在NetStream流分析页面能够查看到最近一个月的数据,则表示数据迁移已成功完成。
· 升级Analyzer-Platform基础组件后,在任务管理模块下的flink类型的任务,任务参数(taskmanager进程内存限制、taskmanager容器内存限制、taskmanager容器cpu限制、taskmanager slot数、taskmanager副本数、并行度)会恢复成缺省值。
· 补丁包升级时,请按照对应版本说明书升级。
(1) 请登录Matrix页面,单击[部署>融合部署]菜单项,进入部署管理页面。
图14-1 融合部署页面-展开组件信息
图14-2 融合部署-升级页面1
图14-3 融合部署-升级页面2
(4) 单击<上传>按钮,上传待升级的安装包。
(5) 安装包上传成功后,勾选安装包。融合部署页面进行升级操作,支持批量升级,即一次勾选多个不同组件的安装包。勾选完成后,单击<升级>按钮,完成组件升级。
· 在进行扩容操作之前,请提前备份Matrix、统一数字底盘和组件。若扩容失败,可使用备份文件对配置和数据进行恢复。
· 组件的扩容操作只能在统一数字底盘上进行。
统一数字底盘和组件扩容有以下两种情况:
· 单机部署模式扩容为集群部署模式,此种模式下,需在Matrix上同时增加两个Master节点并与原Master节点组成三机集群,然后依次扩容统一数字底盘和组件。
· 集群模式扩容,此种模式下,需在Matrix上先增加Worker节点,部署集群,然后扩容组件。
(2) 扩容Matrix
(3) 扩容采集组件和分析组件
(4) 扩容中间件
· 分析组件运行无故障
· COLLECTOR公共采集组件运行无故障
· 扩容节点的系统、磁盘分区需要与已部署的节点保持一致且网络连通
(1) 登录到分析组件单机/集群任一Master节点。
(2) 查看分析组件Pod运行状态,显示0代表正常,非0值代表异常。若服务异常,请联系H3C技术支持工程师解决。
[root@matrix01 ~]# kubectl get po -nsa |grep –v NAME |grep -v Completed | grep -iv Running | wc -l
(3) 查看采集器Pod运行状态,显示0代表正常,非0值代表异常。若服务异常,请联系H3C技术支持工程师解决。
[root@matrix01 ~]# kubectl get po -ncommon |grep –v NAME | grep -iv Running | wc -l
(4) 登录统一数字底盘,在[分析>健康分析>网络健康度]页面查看网络健康状况是否正常。
(5) 登录统一数字底盘,在[分析>分析选项>任务管理]页面查看任务状况是否正常运行。
· 如果COLLECTOR公共采集组件南向附加网络使用单独的一块网卡,那么新增的节点也需要两块网卡,并且在统一数字底盘组件扩容后以及采集组件扩容之前启用该节点的南向网卡。
· 分析组件E71xx版本仅支持在底盘E7101及以上版本上进行单机扩容。
如需扩容统一数字底盘,需先扩容Matrix,且Matrix扩容后,统一数字底盘扩容前,请不要进行其他操作。
(1) 在新增的两台服务器上部署Matrix,应使用和原Matrix节点相同版本的软件包。
(2) 登录单机部署Matrix页面,单击“部署”页签,在弹出的菜单中选择“集群”,进入集群部署页面。
图15-1 单机Matrix环境
(3) 单击Master节点区域的增加图标
,增加2个Master节点。支持批量添加。
a. 扩容前请先进行备份操作,防止扩容失败后数据丢失。
图15-2 增加Master节点的提示(1)
b. 若已配置自定义虚IP,需确保自定义虚IP选择的网卡在集群各Master节点上都存在。
图15-3 增加Master节点的提示(2)
c. 单击提示框的<确定>按钮后,在弹出增加节点的对话框中配置相关参数。
图15-4 批量增加2个Master节点
d. 单击<应用>按钮后,即可完成增加Master节点的操作。
图15-5 完成2个Master节点增加完成
(4) 单击<开始部署>按钮,进行集群扩容。扩容时间较长,请耐心等待。
图15-6 集群扩容中
图15-7 集群扩容完成
(1) 登录Matrix,进入[部署>融合部署]页面。
(2) 单击<扩容>按钮,进入扩容页面。
图15-8 融合部署页面
(3) 配置相关参数后单击<应用>按钮,单击<扩容>按钮,等待扩容完成即可。
图15-9 融合部署页面扩容功能
(1) 进入Matrix的[部署>融合部署]页面。
(2) 单击<中间件管理>按钮,进入中间件管理页面。
(3) 分别单击seamq-analyse、seasqlcache-persistent、seasqlplus-sa操作列的扩容图标进行扩容操作。
图15-10 扩容中间件
集群部署模式扩容只需要扩容Matrix,不需要扩容统一数字底盘。
(1) 在新增的服务器上部署Matrix,应使用和原Matrix节点相同版本的软件包。
(2) 登录集群部署的Matrix页面,单击“部署”页签,在弹出的菜单中选择“集群”,进入集群部署页面。
(3) 单击Worker节点区域的增加图标,增加1个Worker节点。如需增加多个Worker节点,可重复单击增加图标;也可单击<批量增加>按钮,通过上传模板文件实现批量增加Worker节点。
图15-11 增加1个Worker节点
图15-12 批量增加Worker节点
(4) 单击<开始部署>按钮,进行集群扩容。扩容时间较长,请耐心等待。
图15-13 扩容完成
(1) 登录Matrix,进入[部署>融合部署]页面。
(2) 单击“扩容”图标,分别扩容Analyzer-Collector和Analyzer-Platform。
在集群环境中扩容Analyzer-Collector之前,必须绑定节点,否则将无法进行扩容。
图15-14 融合部署页面
图15-15 扩容Analyzer-Collector
图15-16 扩容Analyzer-Platform
(3) 在Analyzer-Collector和Analyzer-Platform的参数配置页面分别设置相关参数,然后单击<确定>按钮,等待扩容完成。
(1) 进入Matrix的[部署>融合部署]页面。
(2) 单击<中间件管理>按钮,进入中间件管理页面。
(3) 分别单击seamq-analyse、seasqlcache-persistent、seasqlplus-sa操作列的“扩容”图标进行扩容操作。
在配置扩容参数时,seasqlcache-persistent只能绑定1个或3个节点,而seasqlplus-sa新增节点的数量必须为偶数。
图15-17 扩容中间件
(1) 登录Matrix页面,单击“系统”页签,在弹出的菜单中选择“安全 > 安全策略”选项,进入安全策略页面。
(2) 单击<增加>按钮,进入增加安全策略页面。
(3) 在“基本设置”区域配置默认动作为“允许”。
(4) 在“规则信息”区域单击<增加>按钮,在弹出窗口中配置如下规则,配置完成后单击<确定>按钮。
¡ 源地址为节点上除Matrix使用的网卡外的其它网卡IP。
¡ 协议类型为TCP。
¡ 目标端口必须输入为:
8101,44444,2379,2380,8088,6443,10251,10252,10250,10255,10256。
¡ 动作为允许。
必须将所有节点上除Matrix使用的网卡外的其它网卡IP都加入到安全策略中。
例如节点1上除Matrix使用的网卡外还有一个网卡的IP为1.1.1.1,节点2上除Matrix使用的网卡外的网卡IP为2.2.2.2,节点3上除Matrix使用的网卡外的网卡IP为3.3.3.3,则需要在安全策略的规则中增加3条规则,源地址分别为1.1.1.1、2.2.2.2、3.3.3.3,协议类型都是TCP,目标端口都是“8101,44444,2379,2380,8088,6443,10251,10252,10250,10255,10256”,动作都为允许。
(5) 配置完成后,在页面右上方单击<确定>按钮。
(6) 在策略列表中启用指定的安全策略。可配置多条安全策略,但只允许启用1条策略。
图16-1 安全策略举例
(7) 开启被关掉的网卡,下面以eth33为例。
ifup eth33
集群各节点/opt/matrix/config/navigator_config.json中的配置必须保持一致,否则会影响集群稳定性。
(1) 登录集群中所有Master节点后台。
(2) 在navigator_config.json配置文件中,修改matrixLeaderLeaseDuration和matrixLeaderRetryPeriod参数取值。请确保集群中所有Master节点的参数配置相同。若配置文件中无上述两个参数,请手动增加。
下面以matrixLeaderRetryPeriod为2,matrixLeaderLeaseDuration为30为例进行修改。
[root@matrix01 ~]# vim /opt/matrix/config/navigator_config.json
{
…
"matrixLeaderLeaseDuration": 30,
"matrixLeaderRetryPeriod": 2,
…
}
(3) 修改完之后,重启集群服务。
[root@matrix01 ~]# systemctl restart matrix
· matrixLeaderLeaseDuration:用于配置集群主老化时间,取值为正整数,且大于等于matrixLeaderRetryPeriod * 10。
· matrixLeaderRetryPeriod:用于配置集群刷新主节点时锁的间隔时间,取值为正整数。
若扩容Matrix过程中长时间没有成功,可通过集群部署页面单击扩容节点的日志查看,是否是因为在ETCDINSTALL阶段停留时间过长(ETCDINSTALL-PENDING距离当前系统时间十五分钟以上视为停留过长),登录原单机环境后台执行etcdctl member list命令返回失败,则可通过如下方式将环境恢复至扩容前的状态,然后再次进行扩容:
(1) 登录原单机环境后台。
(2) 执行cp -f /opt/matrix/k8s/deployenv.sh.bk /opt/matrix/k8s/deployenv.sh命令还原deployenv.sh脚本。
(3) root用户通过systemctl stop matrix停止节点上Matrix服务。使用命令systemctl status matrix验证Matrix服务是否已经停止。若停止成功,则将在Active字段后显示运行信息为inactive (dead)。
[root@master1 ~]# systemctl stop matrix
非root用户通过sudo /bin/bash -c "systemctl stop matrix"停止节点上Matrix服务
[admin@node4 ~]$ sudo /bin/bash -c "systemctl stop matrix"
(4) 通过mv /etc/kubernetes/manifests/kube-apiserver.yaml /opt/matrix停止kube-apiserver。使用命令docker ps | grep kube-apiserver验证kube-apiserver服务是否已经停止。若无回显表示服务已停止。
[root@master1 ~]# mv /etc/kubernetes/manifests/kube-apiserver.yaml /opt/matrix
[root@master1 ~]# docker ps | grep kube-apiserver //查询是否已停止kube-apiserver
[root@master1 ~]# //无回显表示服务已停止
(5) root用户通过systemctl stop etcd完全停止etcd服务,使用命令systemctl status etcd验证etcd服务是否已经停止。若停止成功,则将在Active字段后显示运行信息为inactive (dead)。通过命令rm -rf /var/lib/etcd/default.etcd/删除etcd数据目录,确保/var/lib/etcd下面没有数据目录。
[root@master1 ~]# systemctl stop etcd
[root@master1 ~]# rm -rf /var/lib/etcd/default.etcd/
[root@master1 ~]# ll /var/lib/etcd/
非root用户通过sudo /bin/bash -c "systemctl stop etcd"完全停止etcd服务,并且通过命令sudo /bin/bash -c "rm -rf /var/lib/etcd/default.etcd/"删除etcd数据目录,确保/var/lib/etcd下面没有数据目录
[admin@node4 ~]$ sudo /bin/bash -c "systemctl stop etcd"
[admin@node4 ~]$ sudo /bin/bash -c "rm -rf /var/lib/etcd/default.etcd/"
[admin@node4 ~]$ ll /var/lib/etcd/
(6) 进入ETCD恢复脚本目录。
[root@master1 ~]# cd /opt/matrix/k8s/disaster-recovery/
(7) 执行etcd恢复脚本前,在etcd备份目录/opt/matrix/backup/etcd_backup_snapshot/找到最新的备份数据文件Etcd_Snapshot_Before_Scale.db。
root用户执行恢复操作命令如下
[root@master1 ~]# bash etcd_restore.sh Etcd_Snapshot_Before_Scale.db
非root用户执行恢复操作命令如下
[admin@node4 ~]$ sudo bash etcd_restore.sh Etcd_Snapshot_Before_Scale.db
(8) root用户通过systemctl restart etcd重启etcd服务
[root@master1 ~]# systemctl restart etcd
非root用户通过sudo /bin/bash -c "systemctl restart etcd"重启etcd服务
[admin@node4 ~]$ sudo /bin/bash -c "systemctl restart etcd"
(9) root用户通过systemctl restart matrix重启matrix服务
[root@master1 ~]# systemctl restart matrix
非root用户通过sudo /bin/bash -c "systemctl restart matrix"重启matrix服务
[admin@node4 ~]$ sudo /bin/bash -c "systemctl restart matrix"
(10) 恢复kube-apiserver
[root@master1 ~]# mv /opt/matrix/kube-apiserver.yaml /etc/kubernetes/manifests/
(11) 故障恢复完成后,登录Matrix集群部署页面,单击<开始部署>按钮再次扩容。
(1) 执行rm -rf /opt/matrix/data/ && systemctl restart matrix.service命令尝试恢复。
(2) 若该操作无法恢复,请手动上传Matrix安装包并解压,然后先后执行uninstall.sh和install.sh脚本卸载重装Matrix服务。
(3) 若依然无法恢复,请联系技术支持。
当在Matrix中添加节点失败,并且在/var/log/matrix-diag/Matrix/Matrix/matrix.log日志中报错“java.lang.NoClassDefFoundError”时,可执行以下操作解决:
(1) 执行rm -rf /opt/matrix/data/ && systemctl restart matrix.service命令尝试恢复。
(2) 若该操作无法恢复,请手动上传Matrix安装包并解压,然后先后执行uninstall.sh和install.sh脚本卸载重装Matrix服务。
(3) 若依然无法恢复,请联系技术支持。
当Matrix部署失败时,查看日志“phase IMAGE_INSTALL end. cname=ImageInstallPhase, phaseResult=false”则表示是在K8S阶段部署失败,可执行如下操作解决:
(1) 执行rm -rf /opt/matrix/data/ && systemctl restart matrix.service命令尝试恢复。
(2) 若该操作无法恢复,请手动上传Matrix安装包并解压,然后先后执行uninstall.sh和install.sh脚本卸载重装Matrix服务。
(3) 若依然无法恢复,请联系技术支持。
(1) 登录Matrix页面,进入[部署>集群>集群参数]页面。
(2) 单击<修改>按钮,将“开启双栈”置于启用状态后单击<确定>按钮。
(3) IPv4切换双栈:分别输入节点的IPv6地址和北向业务虚IP的IPv6地址。其中,节点的IPv6地址需要提前配置,可参考《H3C 统一数字底盘操作系统安装指导》的“网络和主机名”配置步骤,若操作系统已安装完成,可参考《H3C 统一数字底盘操作系统安装指导》的“操作系统安装完成后,在原网卡上配置IPv6地址”配置步骤进行配置。
(4) IPv6切换双栈:分别输入节点的IPv4地址和北向业务虚IP的IPv4地址。其中,节点的IPv4地址需要提前配置,可参考《H3C 统一数字底盘操作系统安装指导》的“网络和主机名”配置步骤,若操作系统已安装完成,可参考《H3C 统一数字底盘操作系统安装指导》的“操作系统安装完成后,在原网卡上配置IPv6地址”配置步骤进行配置。
(1) 登录Matrix页面,进入[观测>监控>应用监控]页面。
(2) 展开组件可以查看组件下的应用服务状态。
图16-2 查看应用服务
(1) 节点上安装操作系统完成后,修改所有节点ssh端口
修改/etc/ssh/sshd_config配置文件。
将#Port 22改为想要修改的端口,如Port 2244。
重启sshd服务:
systemctl restart sshd.service
查看新端口是否监听:
netstat –anp | grep –w 2244
(2) 使用vim /opt/matrix/config/navigator_config.json命令进入navigator_config文件,查看该文件中是否存在sshPort字段,若存在,将该字段取值修改为用户想要指定的端口号(以12345为例);若不存在,则需手动添加该字段并为其赋值。
{
"productName": "uc",
"pageList": ["SYS_CONFIG", "DEPLOY", "APP_DEPLOY"],
"defaultPackages": [],
"allowDeployedPackageIds": ["UNIFIED-PLATFORM-BASE"],
"url": "http:””://${vip}:30000/central/index.html#/ucenter-deploy",
"theme":"darkblue",
"matrixLeaderLeaseDuration": 30,
"matrixLeaderRetryPeriod": 2,
"sshPort": 12345,
"sshLoginMode": "secret",
"features":{"stopNtpServerBeyondThreshold":"false"}
}
(3) 修改完成后,需重启Matrix服务
[root@node-worker ~]# systemctl restart matrix
(4) 查看新的端口号是否修改成功,若成功,则日志中最后一条信息如下。
[root@node-worker ~]# cat /var/log/matrix-diag/Matrix/Matrix/matrix.log | grep "ssh port"
2022-03-24T03:46:22,695 | INFO | FelixStartLevel | CommonUtil.start:232 | ssh port = 12345.
ssh_port说明:
· 此端口为ssh远程其他节点端口,所以必须保证集群中所有节点(包括Master和Worker),只能使用统一的ssh端口。
· 务必同时重启所有节点Matrix服务,Matrix服务会读取配置文件中ssh端口。
(5) 部署Matrix
参照Matrix安装部署指导部署Matrix。
统一数字底盘和分析组件需升级为支持ssh端口修改的版本(E6215及更高版本) ,在未升级到支持ssh端口修改版本之前请不要更改ssh 默认端口,升级完成后方可参照上述(1)、(2)、(3)步骤修改ssh端口。
集群各节点/opt/matrix/config/navigator_config.json中的配置必须保持一致,否则会影响集群稳定性。
Matrix支持外部浏览器通过映射后的节点IP和虚IP访问Web页面,支持NAT映射和域名映射,不支持端口映射,必须使用8443端口。
如需使用映射IP访问Matrix页面,需在集群内各节点上进行以下操作:
(1) 将映射后的IP(或域名)加入到/opt/matrix/config/navigator_config.json的“httpHeaderHost”属性值中(若无该属性请手动补充,多个IP或域名使用英文逗号分隔),示例:"httpHeaderHost":"10.10.10.2,10.10.10.3"。
(2) 配置完后可以通过cat /opt/matrix/config/navigator_config.json | jq命令检查配置格式是否正确。
(3) 修改后需要通过service matrix restart重启服务生效,集群各节点配置需要保持一致。
拆除异地容灾或冷备系统以后,为了防止设备出现双主的情况,原备站点不会自动恢复WebSocket服务,如需恢复,请在备站点的任意节点上执行sh /opt/matrix/app/install/metadata/UNIFIED-PLATFORM-CONNECT/scripts/rdr/websocketRecoverRdr.sh命令进行恢复。
在worker节点上横向扩展WebSocket实例数量时,需通过手动增加Deployment的方式进行拓展,具体步骤如下:
(1) 进入任意目录,执行kubectl get deployment websocket-connection1 -n service-software -o yaml > connection1.yaml命令生成connection1.yaml文件。
(2) 执行sed "s/websocket-connection1/websocket-connection4/g;s/value: \"0\"/value: \"3\"/g;s/master: master1/role: worker/g" connection1.yaml > connection4.yaml命令生成要扩展的connection4.yaml。
(3) 执行kubectl apply -f connection4.yaml命令扩展Pod。
在升级、卸载软件时需手动清除worker节点上扩展的Deployment,具体步骤如下:
(1) 进入生成connection4.yaml文件的目录。
(2) 执行kubectl delete -f connection4.yaml命令删除扩展的Pod。
· 在安装第三方操作系统时,需要在软件选择步骤中选择“虚拟化主机”。如果未选择“虚拟化主机”,可能会导致缺少某些依赖包或安装错误版本的依赖包。
· 在执行yum group list命令之前,请先挂载虚拟光驱,否则命令会失败。
(1) 使用SSH登录到节点的后台。
(2) 在第三方系统安装完成后,准备好本地或网站的YUM源。然后,执行以下命令以检查是否安装了虚拟化主机软件。“已安装的环境组”表示当前系统中已安装的软件环境,而“可用环境组”表示可以通过YUM安装的软件环境。
[root@matrix01 ~]# yum group list
上次元数据过期检查:0:00:07 前,执行于 2024年11月26日 星期二 15时10分47秒。
可用环境组:
最小安装
基础设施服务器
文件及打印服务器
基本网页服务器
虚拟化主机
已安装的环境组:
带 UKUI GUI 的服务器
已安装组:
容器管理
无图形终端系统管理工具
可用组:
开发工具
传统 UNIX 兼容性
科学记数法支持
安全性工具
系统工具
智能卡支持
(3) 如果在“可用环境组”中存在“虚拟化主机”或“Virtualization Host”,可以直接使用yum group install -y "虚拟化主机"或者yum group install -y "Virtualization Host"命令安装虚拟化主机软件。
[root@matrix01 ~]#yum group install -y "虚拟化主机"
上次元数据过期检查:0:10:26 前,执行于 2024年11月26日 星期二 15时10分47秒。
….
….
….
已安装:
brltty-6.1-1.p01.ky10.x86_64 ………….完毕!
(4) 操作完成后,系统软件环境将补齐缺失的软件包。
(1) 安装依赖包后,执行Matrix安装时提示错误:runc版本低于rc6。
图16-3 安装Matrix时报错
(2) 问题的原因是操作系统安装时未选择虚拟化主机软件环境。
(3) 在安装依赖包的过程中,执行Docker组件安装后,runc版本已更新。但由于系统中已安装了默认的runc,导致使用的runc版本不正确。可以使用以下命令来检查runc的版本。
[root@matrix01 usr]# find /usr -name runc
/usr/bin/runc
/usr/local/bin/runc
(4) 通过执行runc -v命令检查每个runc的全路径,以找到正确的版本。下例中的其中一个runc版本为1.0.0-rc95,另一个为1.0.0-rc3。根据错误描述,由于rc3<rc6,所以rc95是正确的版本。只需用rc95的包覆盖rc3的包即可。
[root@ matrix01 usr]# /usr/bin/runc -v
runc version 1.0.0-rc95
commit: b9ee9c6314599f1b4a7f497e1f1f856fe433d3b7
spec: 1.0.2-dev
go: go1.13.15
libseccomp: 2.5.0
[root@ matrix01 usr]# /usr/local/bin/runc -v
runc version 1.0.0-rc3
commit: fabf83fd21f205c801571df4074024179eb03b44
spec: 1.0.0-rc5
(5) 执行如下命令进行覆盖。
[root@matrix01 usr]# cp /usr/bin/runc /usr/local/bin/runc
cp:是否覆盖'/usr/local/bin/runc'? y
[root@matrix01 usr]#
(6) 覆盖完成后重新执行安装脚本install.sh安装Matrix。
[root@ matrix01 usr]# sh install.sh
分析组件在部署或升级的过程中可能因为超时导致部署或升级失败,建议重试或终止升级后重试。若重试依旧失败,需要联系技术服务人员协助定位问题。
统一数字底盘采用Kubernetes+Docker的微服务技术架构,当前底盘默认对微服务数量的限制是不超过300个,在园区场景单机融合部署时,微服务数量会超过该限制,需要对Kubernetes启动参数进行调整,当前微服务数量不会超过400个,具体操作步骤如下:
(1) 首先确认当前单机环境已部署Matrix,且系统运行正常。
(2) 进入后台命令行,编辑Kubernetes的配置文件:
vi /etc/systemd/system/kubelet.service.d/10-kubeadm.conf
将--max-pods=300改为--max-pods=400
(3) 保存配置文件之后,重启kubelet服务即可生效
systemctl daemon-reload && systemctl restart kubelet
问题现象:部署Analyzer-Platform组件失败,且报错“环境中出现如下异常:路径:/mpp_data未挂载”。
解决方案:请检查数据盘是否是按照本文要求进行规划、且文件系统类型是否为ext4格式,若不是则请按照本文要求重新规划磁盘。
请在相关网站(如https://pkgs.org/)获取numactl软件包并安装。
(1) 查询网卡pcie地址,例如某个环境的采集网卡pcie是:43:00.1。
lspci | grep Eth
(2) 查询网卡所在numa节点id。
cat /sys/bus/pci/devices/0000\:43\:00.1/numa_node
(3) 执行命令:numactl –H,查询numa对应节点是否有被分配内存。
以步骤(2)查询到的numa node 4节点为例(4即为查询到的numa节点id,id不固定,根据实际部署情况而定),查询结果表明numa node 4有内存:
node 4 cpus: 24 25 26 27 28 29 72 73 74 75 76 77
node 4 size: 32768 MB
node 4 free: 27161 MB
通常来说,超线程功能在BIOS里是默认开启的,可在BIOS中找到Hyper-Thread项,查看超线程是否开启。
图16-4 查看超线程功能是否开启
(1) 进入SeerCollector采集器后台,修改/etc/default/grub文件,增加amd_iommu=on iommu=pt配置内容。
[root@h3clinux1 ~]# vi /etc/default/grub
复制如下内容对原文件配置内容进行覆盖:
GRUB_TIMEOUT=5
GRUB_DISTRIBUTOR="$(sed 's, release .*$,,g' /etc/system-release)"
GRUB_DEFAULT=saved
GRUB_DISABLE_SUBMENU=true
GRUB_TERMINAL_OUTPUT="console"
GRUB_CMDLINE_LINUX="crashkernel=auto rhgb quiet amd_iommu=on iommu=pt"
GRUB_DISABLE_RECOVERY="true"
(2) 执行如下命令。
¡ 如果服务器是UEFI启动,执行如下命令
[root@h3clinux1 ~]# grub2-mkconfig -o /boot/efi/EFI/*/grub.cfg
¡ 如果服务器是普通模式启动,执行如下命令
[root@h3clinux1 ~]# grub2-mkconfig -o /boot/grub2/grub.cfg
(3) 重启服务器。
[root@h3clinux1 ~]# reboot
问题现象:若采用“南北向网络合一”(南向无网络)方案部署公共采集组件且未安装network组件时,分析组件的SNMP-Trap采集功能不可用。
解决方案:进入[告警>告警配置>Trap过滤规则]页面,禁用“未定义Trap过滤”和“重复Trap过滤”规则,单击状态即可启用/禁用规则。
图16-5 禁用Trap过滤规则
这种现象主要是由于网络波动触发自动转换测量模式时,流标识符(FlowID)发生变化,导致聚合的5分钟和1小时数据可能不准确。网络恢复正常后,原始粒度趋势图与5分钟粒度趋势图、1小时粒度趋势图的数据将恢复一致。
问题现象:当按照资源计算工具的数据盘分区规划进行分区,但是未修改文件系统类型导致部署分析组件失败。
解决方案:
(1) 检查文件系统类型是否为ext4类型:
[root@sa1 ~]# mount -l | grep sa_data
/dev/vdb2 on /sa_data/kafka_data type xfs (rw,relatime,seclabel,attr2,inode64,noquota)
/dev/vdb1 on /sa_data/mpp_data type ext4 (rw,relatime,seclabel,data=ordered)
(2) 如果不是ext4类型,请按照如下操作修改为ext4类型。注意:要先卸载采集组件,采集的kafka数据也放在/sa_data/kafka_data下面。
(3) 去掉挂载(注意顺序,/sa_data要在最后)。
[root@sa1 ~]# umount /sa_data/kafka_data
[root@sa1 ~]# umount /sa_data/mpp_data
(4) 使用指令mkfs.ext4 /dev/vdb1重新格式化分区(非ext4的数据盘分区都要执行)。
(5) 使用指令获取新的UUID,过滤条件为对应的磁盘分区,用‘|’隔开。
[root@sa1 ~]# ll /dev/disk/by-uuid | grep -E 'vdb1|vdb2'
lrwxrwxrwx. 1 root root 10 Jun 7 15:40 89b86ff9-e7ee-4426-ba01-61e78ca6f4b1 -> ../../vdb2
lrwxrwxrwx. 1 root root 10 Jun 7 15:40 cac87013-f014-40df-9aca-af76888b1823 -> ../../vdb1
(6) 使用vim /etc/fstab命令替换新的UUID以及修改分区格式类型为ext4。
(7) 查看修改后的文件。
[root@ sa1 ~]# cat /etc/fstab
#
# /etc/fstab
# Created by anaconda on Wed Dec 7 15:44:15 2022
#
# Accessible filesystems, by reference, are maintained under '/dev/disk‘
# See man pages fstab(5), findfs(8), mount(8) and/or blkid(8) for more info
#
UUID=519f9af7-12ce-4567-b62c-2315cad14f56 / xfs defaults 0 0
UUID=83628a24-94f5-4937-b016-64d0f72bd98d /boot xfs defaults 0 0
UUID=3B96-1B3A /boot/efi vfat defaults,uid=0,gid=0,umask=0077,shortname=winnt 0 0
UUID=89b86ff9-e7ee-4426-ba01-61e78ca6f4b1 /sa_data/kafka_data ext4 defaults 0 0
UUID=cac87013-f014-40df-9aca-af76888b1823 /sa_data/mpp_data ext4 defaults 0 0
UUID=51987141-f160-4886-ad51-bc788ec2176c /var/lib/docker xfs defaults 0 0
UUID=4e91a1b8-4890-4a41-be00-098ded6b8102 /var/lib/etcd xfs defaults 0 0
UUID=2554963b-03e7-4be4-b214-7350f2eb3df9 /var/lib/ssdata xfs defaults 0 0
#UUID=a22041b8-7c7c-4730-bc1f-634306145e36 swap swap defaults 0 0
(8) 执行mount -a进行挂载。
出现下报错为正常现象:
mount: 挂载点 /sa_data/kafka_data 不存在
mount: 挂载点 /sa_data/mpp_data 不存在
(9) 创建不存在的目录。
[root@ sa1 ~]# mkdir -p /sa_data/kafka_data
[root@ sa1 ~]# mkdir -p /sa_data/mpp_data
(10) 再次执行mount -a进行挂载即可完成文件系统类型的修改。
(11) 集群环境请在所有分析组件节点执行同样的操作。
部署分析组件所需的2个数据盘分区随操作系统部署时进行创建,其具体创建过程请参见《H3C统一数字底盘部署指导》中的安装操作系统章节。如果在部署操作系统时未创建对应的数据盘分区,可在底盘部署完成之后进行手动创建。
根据资源计算工具规划的分区大小,在每个要部署分析组件的节点上确认数据盘剩余空间大小是否满足要求。
(1) 确认各节点磁盘剩余空间满足要求以后,通过fdisk命令,创建磁盘分区。
如下图所示,以在sdb磁盘上创建一个400GB空间的分区为例进行说明。
图16-6 创建磁盘分区
若出现“重新读取分区表失败”的提示,使用reboot命令重启节点即可。
如下图所示,在sdb磁盘中创建了一个400GB的空闲磁盘分区/dev/sdb1。
图16-7 查看当前磁盘分区信息
(2) 当使用fdisk命令发生如图16-8所示的报错,需要使用如图16-9所示的命令对数据盘进行处理。
图16-8 fdisk命令发生报错
(3) 按照上述操作,在需要部署分析组件的每个节点上创建2个分区,分区大小参考资源计算工具。
(1) 使用指令mkfs.ext4 /dev/sdb1格式化分区(非ext4的数据盘分区都要执行,上一节创建的分区,默认格式为xfs)。
(2) 使用指令获取新的UUID,过滤条件为对应的磁盘分区,用‘|’隔开。(这里以创建的2个分区分别为sdb1,sdb2为例)。
[root@sa1 ~]# ll /dev/disk/by-uuid | grep -E 'sdb1|sdb2'
lrwxrwxrwx. 1 root root 10 Jun 7 15:40 89b86ff9-e7ee-4426-ba01-61e78ca6f4b1 -> ../../sdb1
lrwxrwxrwx. 1 root root 10 Jun 7 15:40 cac87013-f014-40df-9aca-af76888b1823 -> ../../sdb2
(3) 使用vim /etc/fstab命令替换新的UUID以及修改分区格式类型为ext4。
(4) 查看修改后的文件。
[root@ sa1 ~]# cat /etc/fstab
#
# /etc/fstab
# Created by anaconda on Wed Dec 7 15:44:15 2022
#
# Accessible filesystems, by reference, are maintained under '/dev/disk‘
# See man pages fstab(5), findfs(8), mount(8) and/or blkid(8) for more info
#
UUID=519f9af7-12ce-4567-b62c-2315cad14f56 / xfs defaults 0 0
UUID=83628a24-94f5-4937-b016-64d0f72bd98d /boot xfs defaults 0 0
UUID=3B96-1B3A /boot/efi vfat defaults,uid=0,gid=0,umask=0077,shortname=winnt 0 0
UUID=89b86ff9-e7ee-4426-ba01-61e78ca6f4b1 /sa_data/kafka_data ext4 defaults 0 0
UUID=cac87013-f014-40df-9aca-af76888b1823 /sa_data/mpp_data ext4 defaults 0 0
UUID=51987141-f160-4886-ad51-bc788ec2176c /var/lib/docker xfs defaults 0 0
UUID=4e91a1b8-4890-4a41-be00-098ded6b8102 /var/lib/etcd xfs defaults 0 0
UUID=2554963b-03e7-4be4-b214-7350f2eb3df9 /var/lib/ssdata xfs defaults 0 0
#UUID=a22041b8-7c7c-4730-bc1f-634306145e36 swap swap defaults 0 0
(5) 执行mount -a进行挂载。
出现下报错为正常现象:
mount: 挂载点 /sa_data/kafka_data 不存在
mount: 挂载点 /sa_data/mpp_data 不存在
(6) 创建不存在的目录。
[root@ sa1 ~]# mkdir -p /sa_data/kafka_data
[root@ sa1 ~]# mkdir -p /sa_data/mpp_data
(7) 再次执行mount -a进行挂载即可完成文件系统类型的修改。
(8) 在每一个部署分析组件的节点上执行上述操作。
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!
