手册下载
H3C 统一数字底盘高危操作手册-E7xxx-5W101-整本手册.pdf (376.11 KB)
高危操作手册
资料版本:5W101-20250411
Copyright © 2025 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
操作路径可能因版本迭代演进而发生变化,请以实际情况为准。
本文档描述了统一数字底盘的高危操作和一些误操作,以及这些操作可能带来的影响。
请仔细阅读本文档中的信息,了解可能带来的风险并申请变更窗口。
一般情况下,只允许专业的维护人员执行高危操作,请避免任何误操作。如果操作不当,可能会导致服务中断或严重损失或损坏。
表1 硬件类高危操作
操作项 |
描述 |
高危风险 |
服务器异常断电 |
服务器非正常关机,直接切断电源。 |
服务器异常断电,可能会造成系统文件损坏,集群功能异常。也可能导致中间件的数据写入不完整,导致中间件异常,并且无法预先执行操作避免该风险。这些中间件可能包括PXC、PostgreSQL、Redis、Kafka、Zookeeper、Clickhouse、Vertica、Mariadb、Mongodb、GlusterFS以及国产中间件SeaSQL、PolarDB、SeaSQLCache、SeaMQ、Seakeeper、SeaSQLPlus、SeaIO。 |
系统分区使用率过高 |
人工导致系统分区使用率过高,如存放临时大文件等 |
系统分区满会影响使用该分区的业务,造成容器异常,中间件数据库异常等后果。 |
表2 系统类高危操作
操作项 |
描述 |
高危风险 |
修改系统时间 |
· 随意修改系统时间。 · 使用date命令修改系统时间。 |
· 修改操作系统的目标时间必须在K8s所有组件证书有效期内,包括向前、向后修改,否则将会导致集群不可用。 · 需要修改系统时间时请不要直接在操作系统后台使用date命令修改,请参见《统一数字底盘产品时钟源修改手册》进行修改,否则将会导致集群不可用。 · 详细操作过程及注意事项可参见《统一数字底盘产品时钟源修改手册》。 |
修改umask值 |
随意修改系统的umask值 |
· umask值大于0022会导致使用非root用户的主机服务和容器服务操作文件或文件夹权限不足,影响业务功能。 |
配置DNS服务器 |
随意配置DNS服务器。 |
· 建议不要在部署操作系统时配置DNS服务器。 · 建议在部署Matrix集群前,调用/opt/matrix/tools/env_check.sh文件进行环境检查。集群部署完成后统一进行OCC巡检即可。 · 建议所有的DNS服务器都能够访问根域,可使用命令行nslookup -port={port} -q=ns . {ip}查看是否可以访问。 |
修改后台密码,未同步到Matrix |
修改节点操作系统后台密码,未同步到Matrix。 |
· 软件包上传失败,业务备份失败。 · Matrix单机或集群功能异常。 |
LVM分区 |
标准分区修改为LVM分区 |
· 将标准分区修改为LVM分区需要对磁盘进行操作,如果操作不当,可能会导致数据丢失的风险。 · 修改为LVM分区后,系统使用的磁盘空间会变大,可能会导致磁盘IO性能的降低,影响系统的性能。 |
LVM分区 |
扩容LVM分区 |
· 扩容LVM分区过程中可能会失败,导致LVM分区损坏或数据丢失等问题。 · 扩容LVM分区后,系统使用的磁盘空间会变大,可能会导致磁盘IO性能的降低,影响系统的性能。 · 在扩容LVM分区的过程中,如果操作不当,可能会导致数据丢失的风险。 |
未按照部署指导升级 |
未按照部署指导升级,或升级过程中不合规操作,如重建节点等 |
影响集群功能 |
未按照文档执行后台脚本 |
执行脚本时没有仔细阅读文档,错误地执行了uninstall.sh脚本或者产品包内其他用途脚本。 |
未按照文档执行脚本可能造成集群损坏,软件被卸载,版本升级异常。 |
表3 Web界面类高危操作
操作路径 |
描述 |
高危风险 |
[系统-License管理-License信息]页面,单击<断开连接>按钮。 |
断开授权连接 |
断开授权连接后会导致环境中需要授权的菜单无法访问,如监控、控制器菜单等,重新连接License Server后恢复。如需执行该操作,请提前确认。 |
[系统-系统配置-安全配置-系统访问控制],增加访问地址。 · 必须真实有效为组网中PC的地址。 · 只有系统访问控制列表内的地址才能访问系统,支持设置单个IP地址、IP地址/子网掩码、IP地址段。 |
系统访问控制 |
随意配置地址将会导致无法访问Web界面。 |
[系统-系统配置-安全配置-访问地址配置],增加访问地址。 只有访问地址控制列表中的域名或者IP地址才能访问系统,需要保证访问地址符合实际网络场景。 |
访问地址配置 |
集群将VIP做NAT映射到公网,或者配置DNS使用域名访问时,随意配置该地址可能导致无法访问Web界面。 |
登录Matrix,在[部署>集群>集群参数>修改集群参数]页面的“高级”选项中,修改节点IP和虚IP。 |
修改节点IP和虚IP |
· 修改过程中会造成业务中断。 · 存在集群参数修改失败的风险,可能导致业务整体不可用。 · 若非必须,不建议操作。 |
登录Matrix,在[部署>集群>集群参数>修改集群参数]页面,开启双栈,并在“高级”选项中配置双栈IP地址。 |
单栈切换成双栈 |
· 修改过程中会造成业务中断。 · 存在切换失败的风险,可能导致业务整体不可用。 · 若非必须,不建议操作。 |
登录Matrix,对指定节点进行禁用、升级、重建操作。 |
对节点进行禁用、升级、重建操作 |
· 禁用风险: ¡ 被禁用节点上的业务将会发生迁移,可能存在迁移失败的风险。例如:由于其他节点上的资源不足,导致迁移失败,最终导致业务丢失。 ¡ 节点禁用再启用时,涉及分布式组件的数据重新同步,可能因为数据不完整导致同步失败,并且无法预先执行操作避免该风险,这些中间件可能包括:PXC、PostgreSQL、Redis、Kafka、Zookeeper、Clickhouse、Vertica、Mariadb、Mongodb、GlusterFS以及国产中间件SeaSQL、PolarDB、SeaSQLCache、SeaMQ、Seakeeper、SeaSQLPlus、SeaIO。 · 升级风险: ¡ 快速升级不影响业务。 ¡ 全量升级:将会进行业务迁移,存在失败风险。 · 重建风险: ¡ 节点重建时,涉及分布式组件的数据重新同步,可能因为数据不完整导致同步失败,且无法预先执行操作避免该风险。这些中间件可能包括:PXC、PostgreSQL、Redis、Kafka、Zookeeper、Clickhouse、Vertica、Mariadb、Mongodb、GlusterFS以及国产中间件SeaSQL、PolarDB、SeaSQLCache、SeaMQ、Seakeeper、SeaSQLPlus、SeaIO。 |
登录Matrix,通过增加节点,进行单机扩集群操作 |
集群扩容 |
· 单机环境扩容为集群环境时,可能由于服务器性能差导致某些命令执行超时等原因,最终导致扩容失败。 · 环境扩容失败后无法重新扩容,此时环境异常,需走备份恢复操作,将环境恢复至单机环境后再次进行扩容操作。 · 扩容操作会涉及分布式组件的数据重新同步,可能因为数据不完整导致同步失败,且无法预先执行操作避免该风险,这些中间件可能包括:PXC、PostgreSQL、Redis、Kafka、Zookeeper、Clickhouse、Vertica、Mariadb、Mongodb、GlusterFS以及国产中间件SeaSQL、PolarDB、SeaSQLCache、SeaMQ、Seakeeper、SeaSQLPlus、SeaIO。 |
[系统-系统配置-安全配置-HTTPS证书配置-传输协议配置],修改访问协议和端口号。 修改统一数字底盘系统访问协议和端口后,只有指定的协议和端口才能访问统一数字底盘系统页面。 |
修改访问协议和端口 |
外部系统调用统一数字底盘接口时,如果用户修改了统一数字底盘的协议和端口,就会导致外部系统无法访问统一数字底盘系统;客户需要同步修改外部系统访问统一数字底盘的协议和端口。 |
表4 中间件类高危操作
操作项 |
描述 |
高危风险 |
重启节点 |
重启Matrix节点或重启节点所在对应的服务器 |
重启节点后,涉及分布式组件的数据重新同步,可能因数据不完整导致同步失败,且无法预先执行操作避免该风险。这些中间件可能包括:PXC、PostgreSQL、Redis、Kafka、Zookeeper、Clickhouse、Vertica、Mariadb、Mongodb、GlusterFS以及国产中间件SeaSQL、PolarDB、SeaSQLCache、SeaMQ、Seakeeper、SeaSQLPlus、SeaIO 非必要不进行节点关闭或重启操作 |
搜索Redis的key |
· SMEMBERS key · 返回集合中的所有成员 · HGETALL key · 获取在哈希表中指定 key 的所有字段和值 · keys * (不建议使用该命令查询所有的key) |
当Redis数据很多时,执行这些命令可能会导致Redis长时间阻塞甚至宕机 请勿执行本操作 |
重启PXC、PostgreSQL、Redis、Kafka、Zookeeper、Clickhouse、Vertica、Mariadb、Mongodb、GlusterFS以及国产中间件SeaSQL、PolarDB、SeaSQLCache、SeaMQ、Seakeeper、SeaSQLPlus、SeaIO中间件 |
手动重启PXC、PostgreSQL、Redis、Kafka、Zookeeper、Clickhouse、Vertica、Mariadb、Mongodb、GlusterFS以及国产中间件SeaSQL、SeaSQLCache、SeaMQ、Seakeeper、SeaSQLPlus、SeaIO的Pod,或者重启PolarDB的cm/proxy/数据库内核服务 |
· 各中间件的pod重启,可能会导致控制文件、元数据文件、数据文件写入不完整,导致重启的节点无法加入集群,从而反复重启 · 另外,pod重启必然会触发数据的重新校验和同步,对CPU、内存、磁盘、网络都会产生额外需求,在硬件资源接近瓶颈时,可能会导致同步失败 · pod或业务正常运行时,请勿执行本操作 |
删除数据库 |
手动执行drop database等操作 |
执行该操作会导致数据丢失 如需要执行,建议了解所删除的数据库带来的影响,经过评估可行后再执行 |
频繁大批量更新或删除PostgreSQL库表数据 |
手动执行Update或delete from 等操作,一次性更新或删除超过1000条数据,或者10分钟内更新或删除超过100000条数据 |
表膨胀,标记删除的数据在后台无法及时回收,表中数据量不大,但实际占用空间很大 尽量避免类似操作,如必须进行该操作,需及时执行vacuum full等操作手动回收空间,需要注意这种操作会中断业务 |
节点间限速 |
节点间网络配置限速 |
影响节点间各中间件分布式服务的数据同步,可能导致不同节点间未同步的数据越来越多,最终导致集群无高可用 根据业务量评估节点间带宽需求,建议节点间带宽不低于1000Mbps |
表5 命令行类高危操作
模块 |
命令行 |
描述 |
高危风险 |
Linux服务 |
· systemctl start firewalld · vi/etc/selinux/config |
修改防火墙 修改强制访问控制 |
可能导致某些应用程序无法连接互联网 请保持防火墙和强制访问控制处于关闭状态 |
集群管理 |
通过vi /etc/hosts或vim /etc/hosts或hostnamectl命令修改主机名称 |
修改主机名 |
执行该命令可以修改主机名,将导致含有原主机名的配置文件失效,从而导致主机业务不可用 请勿执行本操作 |
系统管理 |
date -s |
修改系统时间 |
执行该命令将修改节点的系统时间,若集群中各节点的时间不同步,将导致集群业务异常 请谨慎执行本操作,操作前请评估所有可能产生的风险 |
系统管理 |
· reboot · shutdown · poweroff |
节点重启/关机 |
执行该命令将使节点重启或关机,将导致该节点不可用,节点上的业务将中断 请谨慎执行本操作,操作前请评估所有可能产生的风险,主机运行正常的情况下禁止该项操作,如有关机、重启等要求,请使用开关机文档中的方法 |
系统管理 |
· kill · killall |
结束任务进程 |
执行该命令将结束执行中的任务进程,若误操作,将导致对应的功能或业务异常 请谨慎执行本操作,操作前请评估所有可能产生的风险 |
系统管理 |
· service crond stop · systemctl stop crond.service |
停止crond守护进程 |
执行该命令将停止系统的守护进程crond,crond是Linux用来定期执行程序的命令,停止该进程会造成操作系统异常,从而导致集群业务异常 请勿执行本操作 |
系统管理 |
fstrim |
释放存储空间 |
执行该命令将释放存储空间,释放过程中会占用存储I/O,导致存储高延时 请谨慎执行本操作,建议在业务空闲时执行本操作,或联系技术支持 |
系统管理 |
wget |
远程下载脚本 |
执行该命令可以远程下载脚本,来源未知的脚本安全性无法保证,存在风险,运行脚本可能导致无法预知的问题 请谨慎执行本操作,操作前请明确脚本来源,确保脚本安全可靠无风险 |
系统管理 |
无 |
运行来源未知的脚本 |
来源未知的脚本安全性无法保证,存在一定的风险,且脚本代码中可能隐藏高危操作指令,运行脚本可能导致无法预知的问题 谨慎执行本操作,操作前请明确脚本来源,确保脚本安全可靠,并评估运行脚本可能产生的风险 |
系统管理 |
chroot |
系统管理 |
执行该命令可以改变目录和引导文件等,会导致主机无法正常运行 请勿执行本操作 |
存储管理 |
fio |
性能测试 |
执行该命令可以对存储进行性能测试,可能会损坏磁盘;若直接对整盘进行测试,会损坏共享文件系统 建议在部署业务前进行性能测试;若部署业务后需要执行性能测试,请联系技术支持 |
存储管理 |
fsmcli |
存储管理 |
执行该命令可以对存储进行管理,若误操作,可能导致业务运行异常 请勿执行本操作 |
磁盘管理 |
mkfs |
格式化磁盘 |
执行该命令将格式化磁盘,若误操作,会造成磁盘数据丢失 请勿执行本操作 |
磁盘管理 |
· fdisk · parted |
重建分区 |
执行该命令可能导致磁盘分区信息被清除 请谨慎执行本操作,操作前请确认该主机上无任何业务运行 可以执行fdisk -l 命令查看当前磁盘分区 |
网络配置 |
· ifdown · ifup · ifconfig down · ifconfig up · route |
修改节点的网络配置 |
执行该命令可以修改节点的网络配置,若误操作,将导致节点的网络异常,从而导致集群业务异常 请谨慎执行本操作,操作前请提前做好集群组网规划,并评估所有可能产生的风险 |
文件管理 |
chgrp |
修改文件或目录的所属群组 |
执行该命令可以修改文件或目录的所属群组,若误操作,可能导致集群业务异常 请谨慎执行本操作,操作前请评估所有可能产生的风险 |
文件管理 |
chown |
修改文件或目录的拥有者 |
执行该命令可以修改文件或目录的拥有者,若误操作,可能导致集群业务异常 请谨慎执行本操作,操作前请评估所有可能产生的风险 |
文件管理 |
chmod |
修改文件或目录的权限 |
执行该命令可以修改文件或目录的权限,若误操作,可能导致集群业务异常 请谨慎执行本操作,操作前请评估所有可能产生的风险 |
文件管理 |
rm -rf |
递归删除目录 |
执行该命令将删除目录中的子目录和文件并忽视提示信息。若误操作,可能导致重要文件或数据被删除 请谨慎执行本操作,操作前请确认不再需要该目录及目录中的所有子目录和文件,请勿执行本操作 |
文件管理 |
· cp -rf · mv -f |
强制拷贝或移动文件 |
执行该命令将强制拷贝或移动路径下的文件至新路径并忽略提示信息。若误操作,可能导致路径下原有文件被覆盖 请谨慎执行本操作,操作前请确认待移动的文件与新路径下的原有文件不存在重名 |
文件管理 |
· echo · dd |
操作设备文件描述符 |
执行该命令可以修改硬盘设备映射到/dev/目录下的文件,若误操作,可能破坏磁盘设备上的文件系统和已有数据,从而导致相关业务异常或数据丢失 请勿执行本操作 |
文件管理 |
通过vi或vim命令修改文件内容 |
修改文件 |
执行该命令可以修改文件内容,若误操作,可能导致文件内容错误,从而导致无法预知的问题 请谨慎执行本操作,操作前请评估所有可能产生的风险,禁止修改系统本身相关的文件 |
用户管理 |
userdel |
删除操作系统用户 |
执行该命令可以删除操作系统内部用户,若误操作,将导致该用户的服务异常 请勿执行本操作 |
网络配置 |
部署好组件之后再修改网卡名称,或先部署组件再做网卡绑定等操作 |
修改网卡名 |
polardb等中间件可能会用到网卡名称,修改后可能导致其集群间通信或集群管理异常 请勿执行本操作 |