手册下载
H3C U-Center 2.0高危操作手册-5W102-整本手册.pdf (272.97 KB)
U-Center 2.0统一运维产品
高危操作手册
资料版本:5W102-20230807
Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
操作路径可能因版本迭代演进而发生变化,请以实际情况为准。
本文档描述了统一数字底盘和U-Center 2.0的高危操作和一些误操作,以及这些操作可能带来的影响。
请仔细阅读本文档中的信息,了解可能带来的风险并申请变更窗口。
只允许专业的维护人员执行高危操作,请避免任何误操作。如果操作不当,可能会导致服务中断或严重损失或损坏。
表1-1 Web类高危操作
|
操作大类 |
操作小类 |
描述 |
高危风险 |
|
硬件环境类 |
服务器异常断电 |
服务器非正常关机,直接切断电源。 |
服务器异常断电,可能会造成系统文件损坏,集群功能异常。 |
|
操作系统类 |
修改系统时间 |
· 随意修改系统时间。 · 使用date命令修改系统时间。 |
· 修改操作系统的目标时间必须在K8s所有组件证书有效期内,包括向前、向后修改,否则将会导致集群不可用。 · 需要修改系统时间时请不要直接在操作系统后台使用date命令修改,一定要通过Matrix页面的NTP服务器同步时间,否则将会导致集群不可用。 · 详细操作过程及注意事项可参见《时钟源修改说明》。 |
|
配置DNS服务器 |
随意配置DNS服务器。 |
· 建议不要在部署操作系统时配置DNS服务器。 · 建议在部署Matrix集群前,调用/opt/matrix/tools/env_check.sh文件进行环境检查。集群部署完成后统一进行OCC巡检即可。 · 建议所有的DNS服务器都能够访问根域,可使用命令行nslookup -port={port} -q=ns . {ip}查看是否可以访问。 |
|
|
修改后台密码,未同步到Matrix |
修改节点操作系统后台密码,未同步到Matrix。 |
· 软件包上传失败,业务备份失败。 · Matrix单机或集群功能异常。 |
|
|
LVM分区 |
标准分区修改LVM分区 |
· 将标准分区修改为LVM分区需要对磁盘进行操作,如果操作不当,可能会导致数据丢失的风险。 · 修改为LVM分区后,系统使用的磁盘空间会变大,可能会导致磁盘IO性能的降低,影响系统的性能。 |
|
|
扩容LVM分区 |
· 扩容LVM分区过程中可能会失败,导致LVM分区损坏或数据丢失等问题。 · 扩容LVM分区后,系统使用的磁盘空间会变大,可能会导致磁盘IO性能的降低,影响系统的性能。 · 在扩容LVM分区的过程中,如果操作不当,可能会导致数据丢失的风险。 |
||
|
Web界面操作类 |
断开授权连接 |
[系统-License管理-License信息]页面,单击<断开连接>按钮。 |
断开授权连接后会导致环境中需要授权的菜单无法访问,如监控、控制器菜单等,重新连接License Server后恢复。如需执行该操作,请提前确认。 |
|
系统访问控制 |
[系统-系统配置-安全配置-系统访问控制],增加访问地址。 · 必须真实有效为组网中PC的地址。 · 只有系统访问控制列表内的地址才能访问系统,支持设置单个IP地址、IP地址/子网掩码、IP地址段。 |
随意配置地址将会导致无法访问Web界面。 |
|
|
访问地址配置 |
[系统-系统配置-安全配置-访问地址配置],增加访问地址。 · 只有访问地址控制列表中的域名或者IP地址才能访问系统,需要保证访问地址符合实际网络场景。 |
集群将VIP做NAT映射到公网,或者配置DNS使用域名访问时,随意配置该地址可能导致无法访问Web界面。 |
|
|
修改节点IP和虚IP |
登录Matrx,在[部署>集群>集群参数>修改集群参数]页面的“高级”选项中,修改节点IP和虚IP。 |
· 修改过程中会造成业务中断。 · 存在集群参数修改失败的风险,可能导致业务整体不可用。 · 若非必须,不建议操作。 |
|
|
对节点进行禁用、升级、重建操作 |
登录Matrx,对指定节点进行禁用、升级、重建操作。 |
· 禁用风险:被禁用节点上的业务将会发生迁移,可能存在迁移失败的风险。例如:由于其他节点上的资源不足,导致迁移失败,最终导致业务丢失。 · 升级风险: ¡ 快速升级不影响业务。 ¡ 全量升级:将会进行业务迁移,存在失败风险。 · 重建风险: ¡ 部署network的集群场景,每个运行influxdb服务的节点在重建加入集群后,都需在该节点上执行/opt/matrix/app/install/metadata/UCENTER/kernel/network/perf/scripts/major2standby.py用以恢复网络监控数据的完整性。如果运行influxdb服务的节点1重建,未执行major2standby.py后继续重建运行influxdb服务的节点2,那么性能数据将丢失。 ¡ 全量重建:将会进行业务迁移,存在失败风险。 |
|
|
集群扩容 |
登录Matrx,通过增加节点,进行单机扩集群操作 |
· 单机环境扩容为集群环境时,可能由于服务器性能差导致某些命令执行超时等原因,最终导致扩容失败。 · 环境扩容失败后无法重新扩容,此时环境异常,需走备份恢复操作,将环境恢复至单机环境后再次进行扩容操作。 |
|
|
集群重置 (E0713版本开始支持该操作) |
登录Matrx,在[部署>集群>集群重置] |
· 集群重置后,所有已安装的应用都将被删除。 · 若非必须,不建议操作。 |
|
|
修改访问端口 |
[系统-系统配置-安全配置-HTTPS证书配置-传输协议配置],修改访问协议和端口号。 · 修改统一数字底盘系统访问协议和端口后,只有指定的协议和端口才能访问统一数字底盘系统页面。 |
外部系统调用统一数字底盘接口时,如果用户修改了统一数字底盘的协议和端口,就会导致外部系统无法访问统一数字底盘系统;客户需要同步修改外部系统访问统一数字底盘的协议和端口。 |
|
|
命令行操作 |
暴露PXC外部端口 |
输入配置命令,暴露pxc外部端口。 |
请勿随意暴露PXC外部端口,可能会引起后期升级失败。 |
表1-2 中间件及依赖服务高危操作
|
组件 |
操作项 |
操作举例 |
可能带来的风险 |
操作建议 |
|
IOP |
重建ETCD |
将ETCD副本数修改为0,然后删除ETCD本地文件,恢复ETCD的副本数,重启task-dispatcher |
可能丢失部分采集数据,且ETCD数据较多时(例如,IOM中监控的应用数量超过1000),可能恢复较慢 |
除非是ETCD无法启动,不建议重建ETCD集群 |
|
IOP、NTA、Res、ICC、Perf、Topo |
重建Kafka |
清理Kafka及Zookeeper数据,重启Kafka |
重建Kafka过程中,NTA的前端和后端间通信中断,新增设备及新增任务可能失败;流量采集可能无法进行。 重建Kafka过程中,Res、ICC、Perf、Topo的前端和后端间通信中断,新增设备、部署任务、设备性能监控可能失败;对网络设备可能无法同步、修改系统名称等操作。 IOM中的应用采集数据无法入库,导致前端数据不更新,系统无法进行资源探测、资源增加以及产生告警。 |
重建Kafka后,重启业务组件中使用过Kafka的组件中相关服务。 · IOM中需要重启如下服务 ¡ Itom-alarm-calculator ¡ itom-cmc ¡ itom-data-dispatcher ¡ itom-apm-rs ¡ itom-collector-cpp ¡ itom-collector-java · NTA中需要重启如下服务: ¡ itom-ntam-recevier-dm-ck ¡ itom-ntam-dispenser-dm-ck ¡ itom-ntam-rs · Res中需要重启如下服务 ¡ itom-net-res ¡ itom-res-rs ¡ itom-resdiscover-api ¡ itom-res-dm · ICC中需要重启如下服务: ¡ itom-icc-rs ¡ itom-icc-dm · Perf中需要重启如下服务: ¡ itom-perf-rs ¡ itom-perf-dm · Topo中需要重启如下服务: ¡ itom-topo-rs ¡ itom-topo-compute ¡ itom-topo-collect ¡ itom-nettopo-dm ¡ itom-l2topo-dm |
|
IOP、NTA |
重启节点 |
重启Matrix节点或重启节点所在对应的服务器 |
ETCD可能数据不一致,导致集群无法加入,部分采集器(IOM中的collecter、NTA中的recevier)不能正常运行 |
非必要不进行节点关闭或重启操作,如有必要,可能需要重建ETCD集群 |
|
IOP、Perf |
删除Influxdb本地数据文件 |
Ssdata目录下数据存满,想要清理文件,进入rm -rf /var/lib/ssdata/influxproxy-iop-x/ 路径,删除本地文件数据 |
历史数据丢失 |
删除时,请备份文件夹或者调整保留策略,使Influxdb自动删除旧的历史数据 |
|
IOP、Res、ICC、Perf |
搜索Redis的key |
· SMEMBERS key 返回集合中的所有成员 · HGETALL key 获取在哈希表中指定 key 的所有字段和值 · keys * (不建议使用该命令查询所有的key) |
当Redis数据很多时,执行这些命令可能会导致Redis长时间阻塞甚至宕机。 |
请勿执行本操作 |
|
NTA |
重启ucp-zk |
手动重启ucp-zk的Pod |
ClickHouse可能会报错停止运行,组件无法对外提供服务 |
Pod正常运行时请勿执行本操作 |
|
NTA |
重启ClickHouse |
手动重启ClickHouse的Pod |
ClickHouse可能会启动失败,组件无法对外提供服务 |
Pod正常运行时请勿执行本操作 |
|
功能分类 |
操作项 |
操作举例 |
可能带来的风险 |
操作建议 |
|
Linux服务 |
修改防火墙 修改强制访问控制 |
· systemctl start firewalld · vi/etc/selinux/config |
可能导致某些应用程序无法连接互联网 |
请保持防火墙,强制访问控制处于关闭状态 |
|
集群管理 |
修改主机名 |
通过vi /etc/hosts或vim /etc/hosts或hostnamectl命令修改主机名称 |
执行该命令可以修改主机名名称,将导致含有原主机名的配置文件失效,从而导致主机业务不可用 |
请勿执行本操作 |
|
系统管理 |
修改系统时间 |
date –s |
执行该命令将修改节点的系统时间,若集群中各节点的时间不同步,将导致集群业务异常 |
请谨慎执行本操作,操作前请评估所有可能产生的风险 |
|
系统管理 |
节点重启/关机 |
· reboot · shutdown · poweroff |
执行该命令将使节点重启或关机,将导致该节点不可用,节点上的业务将中断 |
请谨慎执行本操作,操作前请评估所有可能产生的风险,主机运行正常的情况下禁止该项操作,如有关机、重启等要求,请登录HDM进程执行 |
|
系统管理 |
结束任务进程 |
· kill · killall |
执行该命令将结束执行中的任务进程,若误操作,将导致对应的功能或业务异常 |
请谨慎执行本操作,操作前请评估所有可能产生的风险 |
|
系统管理 |
停止crond守护进程 |
· service crond stop · systemctl stop crond.service |
执行该命令将停止系统的守护进程crond,crond是linux用来定期执行程序的命令,停止该进程会造成操作系统异常,从而导致集群业务异常 |
请勿执行本操作 |
|
系统管理 |
释放存储空间 |
fstrim |
执行该命令将释放存储空间,释放过程中会占用存储I/O,导致存储高延时 |
请谨慎执行本操作,建议在业务空闲时执行本操作,或联系技术支持 |
|
系统管理 |
远程下载脚本 |
wget |
执行该命令可以远程下载脚本,来源未知的脚本的安全性无法保证,存在风险,运行脚本可能导致无法预知的问题 |
请谨慎执行本操作,操作前请明确脚本来源,确保脚本安全可靠无风险 |
|
系统管理 |
运行来源未知的脚本 |
无 |
来源未知的脚本的安全性无法保证,存在一定的风险,且脚本代码中可能隐藏高危操作指令,运行脚本可能导致无法预知的问题 |
谨慎执行本操作,操作前请明确脚本来源,确保脚本安全可靠,并评估运行脚本可能产生的风险 |
|
系统管理 |
系统管理 |
chroot |
执行该命令可以改变目录和引导文件等,会导致主机无法正常运行 |
请勿执行本操作 |
|
存储管理 |
性能测试 |
fio |
执行该命令可以对存储进行性能测试,可能会损坏磁盘;若直接对整盘进行测试,会损坏共享文件系统 |
建议在部署业务前进行性能测试;若部署业务后需要执行性能测试,请联系技术支持 |
|
存储管理 |
存储管理 |
fsmcli |
执行该命令可以对存储进行管理,若误操作,可能导致业务运行异常 |
请勿执行本操作 |
|
磁盘管理 |
格式化磁盘 |
mkfs |
执行该命令将格式化磁盘,若误操作,会造成磁盘数据丢失 |
请勿执行本操作 |
|
磁盘管理 |
重建分区 |
· fdisk · parted |
执行该命令可能导致磁盘分区信息被清除 |
请谨慎执行本操作,操作前请确认该主机上无任何业务运行 可以执行fdisk –l命令查看当前磁盘分区 |
|
网络配置 |
修改节点的网络配置 |
· ifdown · ifup · ifconfig down · ifconfig up · route |
执行该命令可以修改节点的网络配置,若误操作,将导致节点的网络异常,从而导致集群业务异常 |
请谨慎执行本操作,操作前请提前做好集群组网规划,并评估所有可能产生的风险 |
|
文件管理 |
修改文件或目录的所属群组 |
chgrp |
执行该命令可以修改文件或目录的所属群组,若误操作,可能导致集群业务异常 |
请谨慎执行本操作,操作前请评估所有可能产生的风险 |
|
文件管理 |
修改文件或目录的拥有者 |
chown |
执行该命令可以修改文件或目录的拥有者,若误操作,可能导致集群业务异常 |
请谨慎执行本操作,操作前请评估所有可能产生的风险 |
|
文件管理 |
修改文件或目录的权限 |
chmod |
执行该命令可以修改文件或目录的权限,若误操作,可能导致集群业务异常 |
请谨慎执行本操作,操作前请评估所有可能产生的风险 |
|
文件管理 |
递归删除目录 |
rm –rf |
执行该命令将删除目录中的子目录和文件并忽视提示信息。若误操作,可能导致重要文件或数据被删除 |
请谨慎执行本操作,操作前请确认不再需要该目录及目录中的所有子目录和文件,请勿执行本操作 |
|
文件管理 |
强制拷贝或移动文件 |
· cp –rf · mv -f |
执行该命令将强制拷贝或移动路径下的文件至新路径并忽略提示信息。若误操作,可能导致路径下原有文件被覆盖 |
请谨慎执行本操作,操作前请确认待移动的文件与新路径下的原有文件不存在重名 |
|
文件管理 |
操作设备文件描述符 |
· echo · dd |
执行该命令可以修改硬盘设备映射到/dev/目录下的文件,若误操作,可能破坏磁盘设备上的文件系统和已有数据,从而导致相关业务异常或数据丢失 |
请勿执行本操作 |
|
文件管理 |
修改文件 |
通过vi或vim命令修改文件内容 |
执行该命令可以修改文件内容,若误操作,可能导致文件内容错误,从而导致无法预知的问题 |
请谨慎执行本操作,操作前请评估所有可能产生的风险,禁止修改系统本身相关的文件 |
|
用户管理 |
删除操作系统用户 |
userdel |
执行该命令可以删除操作系统内部用户,若误操作,将导致该用户的服务异常 |
请勿执行本操作 |
