手册下载
H3C vEPC3200核心网 故障处理手册(R3103)-6W100-整本手册.pdf (707.71 KB)
H3C vEPC3200核心网
资料版本:6W100
Copyright © 2020 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
本文档介绍vEPC3200产品软、硬件常见故障的诊断及处理措施。
设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。
在进行故障诊断和处理时,请注意以下事项:
· 设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。
¡ 记录具体的故障现象、故障时间、配置信息。
¡ 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
¡ 收集设备的日志信息和诊断信息(收集方法见1.2 收集设备运行信息)。
¡ 记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。
¡ 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
¡ 记录故障处理过程中配置的所有命令行显示信息。
· 更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
· 故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。
为方便故障快速定位,请不要修改网元日志打印的级别,缺省状态下为Brief。
设备运行过程中会产生log日志信息及记录设备运行状态的诊断信息。这些信息存储在相关网元目录中,可以通过EMS界面导出。
表1 设备运行信息介绍
分类 |
文件名 |
内容 |
操作日志 |
ems_action_log.txt |
用户通过EMS操作核心网的记录 |
diagfile日志 |
ems.log mme.log esgw.log epgw.log HSS.log |
设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、进程无法启动时的信息。 |
告警信息 |
alarm.txt |
系统运行过程中,上报给EMS网管的告警信息 |
对于diagfile日志,为了防止日志产生过多,有占满磁盘空间危险,当日志文件达到100M大小的时候,就会将日志文件转储压缩。同一个网元最多保存10个日志文件。
· 进入Log and Configuration页面时EMS后台会自动执行收集日志与配置操作,页面刷新可能略有延时。
· 日志收集需要一定时间,请不要在收集期间执行其他操作。
(1) 使用ADMIN账号登录EMS Web界面,具体方法略;
(2) 如果当前在某个节点的功能菜单中,可在Web页面的“功能导航栏”中依次点击“Settings >Home”将“功能导航栏”中的菜单切换成EMS的功能菜单;
(3) 在Web页面的“功能导航栏”中依次点击“Monitoring >Report >Log and Configuration”,如图1-1所示,进入Log and Configuration页面后,点击执行区的“Download”按钮下载日志与配置文件。
当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。
用户支持邮箱:service@h3c.com
技术支持热线电话:400-810-0504(手机、固话均可拨打)
针对客户的项目,提供有针对性的开局指导,规范开局配置,提前消除开局隐患,杜绝低级配置错误,保证项目的顺利进行。
另外,由于产品支持多种组网应用,各个局点的配置均不尽相同。本自检表检查一个比较全面的开局组网,实际开局时可以根据具体情况采用实际应用部分进行自检。
编码 |
检查项目 |
检查分项目 |
检查方法 |
结果 |
备注 |
1 |
外部环境检查 |
电源(直流/交流) |
查看电源监控系统或 测试电源输出电压 |
□合格 □不合格 □不涉及 |
电压输出正常,电源无异常告警。 |
机房清洁度(灰尘含量) |
检查机房的灰尘含 量 |
□合格 □不合格 □不涉及 |
每平方米灰尘颗粒数量≤3×104(3天内桌面无可见灰尘) |
||
温度(正常0℃~35℃) |
测试机房温度 |
□合格 □不合格 □不涉及 |
温度范围:0℃~35℃。建议为15℃~25℃。 |
||
湿度(正常20%~80%) |
测试相对湿度 |
□合格 □不合格 □不涉及 |
相对湿度:20~80%(无冷凝)。 |
||
其他状况(火警、烟尘) |
查看消防控制系统告警状态 |
□合格 □不合格 □不涉及 |
消防控制系统无告警。 |
||
2 |
服务器运行状态检查 |
查看系统网卡状态 |
查看服务器端口状态灯 |
□合格 □不合格 □不涉及 |
端口状态灯常亮。 |
查看系统CPU |
具体方法请参见手册第2章 |
□合格 □不合格 □不涉及 |
服务器CPU利用率不得大于80%。 |
||
查看系统内存 |
□合格 □不合格 □不涉及 |
内存利用率不得大于80%。 |
|||
查看系统硬盘 |
□合格 □不合格 □不涉及 |
硬盘空间利用率不得超过90%。 |
|||
3 |
软件运行状态检查 |
查看NTP状态 |
□合格 □不合格 □不涉及 |
NTP时钟同步服务状态为active (running)。 |
|
查看License状态 |
□合格 □不合格 □不涉及 |
各网元授权状态正常。 |
|||
查看vEPC3200相关进程状态 |
□合格 □不合格 □不涉及 |
相关进程运行正常。 |
|||
查看告警信息 |
□合格 □不合格 □不涉及 |
没有active的告警信息。 |
|||
查看vEPC3200状态 |
□合格 □不合格 □不涉及 |
所有网元状态都是Running状态。 |
|||
查看日志 |
□合格 □不合格 □不涉及 |
日志记录正常,没有超大文件。 |
|||
查看core文件 |
□合格 □不合格 □不涉及 |
Docker容器内如下目录中不存在core文件: · /home/h3c/corefile · /home/h3c/corefile/CORE_BAK |
|||
检查是否有抓包工具在运行 |
□合格 □不合格 □不涉及 |
不应有tcpdump和dpdk-pdump在运行。 |
|||
4 |
配置备份与导出 |
备份配置并将配置导出到本地PC |
□合格 □不合格 □不涉及 |
执行备份操作,并将备份后的配置文件epc_cfg_bak.tar.gz导出到本地PC。 |
开局自检时需要登录H3Linux、Docker容器、EMS和License server。本节介绍登录H3Linux、Docker容器、EMS和License server的方法。
必须保证本地维护PC与Docker Bridge的IP地址路由可达,否则,无法正常登录H3Linux。
# 通过SSH或SFTP等方式登录H3Linux,其中登录的IP地址为Docker Bridge的IP地址,H3Linux的初始用户名和密码分别为admin和admin@vEPC3200。如果用户名和密码已修改,请使用修改后的用户名和密码登录H3Linux。
# 通过SSH方式登录H3Linux,使用su命令切换root用户,其中,缺省的root用户密码为root@vEPC3200。如果root用户密码已修改,请使用修改后的密码。
[admin@localhost ~]$ su
Password:
必须保证本地维护PC与Docker容器的IP地址路由可达,否则,无法正常登录vEPC所在Docker容器。
# 通过SSH或SFTP等方式登录vEPC所在Docker容器,其中登录的IP地址为Docker容器的IP地址,Docker容器初始用户名和密码分别为root和root@vEPC3200。如果用户名和密码已修改,请使用修改后的用户名和密码登录vEPC所在Docker容器。
必须保证本地维护PC与EMS Web登录的IP地址路由可达,否则,无法正常登录EMS Web页面。
# 在本地维护PC上启动浏览器,并在浏览器地址栏中输入https://EMS Web登录IP,然后点击回车,进入vEPC的EMS Web登录页面。
# 在登录页面中输入用户名、密码,单击<登录>按钮即可登录EMS Web。在安装vEPC的过程中,系统自动创建了类型为ADMIN和OPERATOR的账号,其中:
· ADMIN账号的用户名为admin,密码为admin@EPC,具有最高的系统权限;
· OPERATOR账号的用户名为hssuser,密码为hssuser@EPC,具有HSS用户组的操作权限。
如果用户名和密码已修改,请使用修改后的用户名和密码登录EMS Web页面。
必须保证本地维护PC与License server登录的IP地址路由可达,否则,无法正常登录License server的Web页面。
# 在浏览器中输入License server的GUI登录地址(格式为:http://lics_ip_address:port/licsmanager/,如http://172.16.0.227:8090/licsmanager/),回车后会弹出登录界面。其中:
· lics_ip_address为License server软件安装所在服务器的IP地址,如果已配置HA功能,则该地址可以为虚拟IP地址或主License server的IP地址。
· port为HTTP端口号,缺省为8090。
# 在打开的登录界面中输入管理员的用户名和密码,单击<登录>按钮进入License server GUI首页。初始用户名和密码分别为admin和admin@h3c。如果用户名和密码已修改,请使用修改后的用户名和密码登录License server GUI首页。
# 通过SSH方式登录vEPC所在Docker容器,查看CPU使用情况。正常情况下top命令呈现出的各项CPU使用率都应在80%以下。因为lte.out进程是独占多个内核,这个统计除外。
[admin@localhost ~]# top
top - 10:15:18 up 3 days, 16:29, 3 users, load average: 7.76, 7.68, 7.69
Tasks: 485 total, 1 running, 484 sleeping, 0 stopped, 0 zombie
%Cpu(s): 17.7 us, 0.6 sy, 0.0 ni, 81.7 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 13145267+total, 97891592 free, 32105636 used, 1455444 buff/cache
KiB Swap: 4194300 total, 4194300 free, 0 used. 98304104 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
145908 root 20 0 12.9g 8.2g 3076 S 697.4 6.5 7889:55 lte.out
5968 root 20 0 2353692 320964 10220 S 7.9 0.2 407:14.69 mme
5140 root 20 0 1473424 689528 7268 S 5.0 0.5 254:54.04 pgw
5480 root 20 0 1144864 356520 6588 S 5.0 0.3 247:00.33 sgw
10 root 20 0 0 0 0 S 0.3 0.0 4:23.13 rcu_sched
2665 root 20 0 2798868 40588 12692 S 0.3 0.0 21:53.78 docker-containe
2975 root 20 0 227544 13776 1512 S 0.3 0.0 10:01.30 python
4529 root 20 0 1207164 183120 7436 S 0.3 0.1 34:18.96 HSS.exe
表3-1 top命令显示信息描述表
字段 |
描述 |
PID |
进程ID |
USER |
进程所者的用户名 |
PR |
优先级 |
NI |
Nice值: · 负值表示高优先级 · 正值表示低优先级 |
VIRT |
进程使用的虚拟内存总量,单位为kb。 |
RES |
进程使用的、未被换出的物理内存大小,单位为kb |
SHR |
共享内存大小,单位为kb |
S |
进程状态: · D表示不可中断的睡眠状态 · R表示运行状态 · S表示睡眠状态 · T表示跟踪或停止状态 · Z表示僵尸进程 |
%CUP |
上个刷新周期(3秒)内进程占用CPU的比例 |
%MEM |
进程使用的物理内存百分比 |
TIME+ |
进程使用的CPU时间统计,单位为1/100秒 |
COMMAND |
命令名或命令行 |
# 通过SSH方式登录H3Linux,查看内存使用情况。正常情况下内存利用率不得大于80%。
[admin@localhost ~]# free -m
total used free shared buff/cache available
Mem: 63865 51714 11252 97 898 11230
Swap: 32063 0 32063
表3-2 free -var命令显示信息描述表
字段 |
描述 |
Total |
系统总的物理内存和交换空间的大小 |
Used |
已被使用的物理内存和交换空间 |
Free |
空闲的物理内存和交换空间 |
Shared |
被共享使用的物理内存大小 |
buff/cache |
系统buffer和cache使用的物理内存大小 |
Available |
可以被应用程序使用的物理内存大小 |
# 通过SSH方式登录H3Linux,查看系统硬盘使用情况。正常情况下,安装完成后,overlay文件系统应保证有至少20G的剩余空间。
[admin@localhost ~]# df -h
Filesystem Size Used Avail Use% Mounted on
overlay 1.3T 16G 1.3T 2% /
tmpfs 32G 0 32G 0% /sys/fs/cgroup
devtmpfs 32G 4.0K 32G 1% /dev
shm 64M 0 64M 0% /dev/shm
/dev/mapper/h3linux-root 1.3T 16G 1.3T 2% /etc/hosts
tmpfs 32G 20M 32G 1% /run
tmpfs 6.3G 0 6.3G 0% /run/user/0
表3-3 df -h命令显示信息描述表
字段 |
描述 |
Filesystem |
文件系统 |
Size |
空间大小 |
Used |
已经被使用的空间大小 |
Avail |
剩余可用的空间大小 |
Use% |
已经被使用的空间占总空间的比例 |
Mounted on |
挂载到的目录 |
# 通过SSH方式登录H3Linux,查看NTP的运行状态。
[root@localhost ~]# systemctl status ntpd.service
● ntpd.service - Network Time Service
Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)
Active: active (running) since Tue 2019-09-03 01:01:29 CST; 12min ago
Main PID: 24684 (ntpd)
CGroup: /system.slice/ntpd.service
└─24684 /usr/sbin/ntpd -u sysntp:ntp -g
Sep 03 01:01:29 PLT-SERVER-100 systemd[1]: Starting Network Time Service...
Sep 03 01:01:29 PLT-SERVER-100 systemd[1]: Started Network Time Service.
# 仅当NTP时钟同步服务状态为active (running)时表明系统NTP时钟同步服务状态正常。
# 如图3-1所示,登录licence server后可以查看vEPC所有网元的licence授权概览。
# 如图3-2所示,依次点击“License->使用信息>授权信息”可以查看vEPC所有网元的详细信息。
不同类型的用户登录EMS Web后获取告警信息的方法类似,不同之处在于:
· ADMIN类型的用户可查看和清除所有网元的告警信息。
· HSSUSER和MONITOR类型的用户仅支持查看HSS网元的活动告警。
如无特殊说明,手册以ADMIN类型用户为例介绍查看告警信息的方法。
告警分为活动告警和历史告警,其中,活动告警为当前出现的告警;历史告警为定位后排除的告警、系统自动清除的告警或手动执行Clear操作的活动告警。
如图3-3中④所示,用户登录EMS Web后,可以在EMS Web主页上看到当前各网元的告警摘要,其中,红色、黄色和灰色依次代表Critical、Major和Minor级别的告警。点击告警摘要中的数字,可以在执行区中显示当前网元所有的活动告警。
图3-3 Web页面布局
(1)标识区 |
(2)辅助区 |
(3)网元列表 |
(4)网元告警摘要 |
(5)执行区 |
(6)功能导航栏 |
不同网元通过功能导航栏查看告警信息的方法相同,手册以查看HSS网元告警信息的方法为例进行介绍。
通过功能导航栏查看指定网元的所有告警和活动告警的步骤为:
# 使用ADMIN类型的账号登录vEPC EMS Web,具体操作过程略。
# 点击Web页面“网元列表”中的HSS,然后再点击其下的IP地址,将“功能导航栏”中的菜单切换成HSS的功能菜单。
# 在Web页面的“功能导航栏”中依次点击“Reports >Alarms Report”,打开HSS网元的Alarm Report页面。该页面显示网元所有告警,包括活动告警和历史告警。
图3-4 所有告警
# 如图3-5所示,点选Active Alarms,可显示当前未处理的活动告警信息。
# 通过SSH方式登录vEPC所在Docker容器,查看vEPC3200的运行状态。
[root@vEPC3200 /]# statusepc
[ems] Running
[esgw] Running
[epgw] Running
[mme] Running
[HSS] Running
[epc_dp] Running
[root@vEPC3200 ~]#
通常情况下,网元当前的日志文件不会超过100M,一旦超过100M,系统会启动日志切割功能,避免生成超大日志。
# 通过SSH方式登录vEPC所在Docker容器,查看MME的日志。
[root@vEPC3200 /]# cd /opt/lte/mme/log/
[root@vEPC3200 log]# ll
total 1812
-rw-rw-r-- 1 root root 1040871 Oct 15 18:15 mme.log
-rw-rw-r-- 1 root root 802288 Oct 15 18:05 mme.log.1
-rw-rw-r-- 1 root root 20 Oct 15 18:00 mme.log.2.gz
-rw-r--r-- 1 root root 62 Oct 15 18:00 mmeMonitor.log
-rw-rw-r-- 1 root root 0 Sep 25 15:41 mmeSubsTrace.log.1
在日志目录中:
· mme.log表示当前MME网元运行日志。
· mme.log.2.gz和mme.log.1表示切割后的MME网元运行日志。
· mmeMonitor.log表示MME网元监控脚本运行日志。
· mmeSubsTrace.log.1表示切割后的MME网元监控脚本运行日志。
# 通过SSH方式登录vEPC所在Docker容器,查看HSS的日志。
[root@vEPC3200 /]# cd /var/log/
[root@vEPC3200 log]# ll
total 32
-rw------- 1 root root 2023547 Nov 1 10:20 HSS.log
-rw------- 1 root root 12891577 Nov 1 04:00 HSS.log.1
-rw------- 1 root root 11283823 Nov 1 03:44 HSS.log.2
-rw-r--r-- 1 root root 52746 Nov 1 10:28 hssMonitoringLog
在日志目录中:
· HSS.log表示当前HSS网元运行日志。
· HSS.log.1和HSS.log.2表示切割后的HSS网元运行日志。
· hssMonitoringLog表示HSS网元监控脚本运行日志。
# 通过SSH方式登录vEPC所在Docker容器,查看SGW的日志。
[root@vEPC3200 /]# cd /opt/lte/esgw/log/
[root@vEPC3200 log]# ll
total 36
-rw------- 1 root root 21012 Oct 15 18:06 esgw.log
-rw------- 1 root root 2944 Oct 15 18:05 esgw.log.1
-rw------- 1 root root 1919 Oct 15 18:04 esgw.log.2.gz
-rw-r--r-- 1 root root 321 Oct 15 18:05 sgwMonitoringLog
在日志目录中:
· esgw.log表示当前SGW网元运行日志。
· esgw.log.1和esgw.log.2.gz表示切割后的SGW网元运行日志。
· sgwMonitoringLog表示SGW网元监控脚本运行日志。
# 通过SSH方式登录vEPC所在Docker容器,查看PGW的日志。
[root@vEPC3200 /]# cd /opt/lte/epgw/log/
[root@vEPC3200 log]# ll
total 84
-rw-rw-r-- 1 root root 76385 Oct 15 18:15 epgw.log
-rw-rw-r-- 1 root root 0 Oct 15 18:05 epgw.log.1
-rw-rw-r-- 1 root root 20 Oct 15 17:59 epgw.log.2.gz
-rw-r--r-- 1 root root 214 Oct 15 18:05 pgwMonitoringLog
在日志目录中:
· epgw.log表示当前PGW网元运行日志。
· epgw.log.1和epgw.log.2.gz表示切割后的PGW网元运行日志。
· pgwMonitoringLog表示PGW网元监控脚本运行日志。
# 通过SSH方式登录vEPC所在Docker容器,查看EMS的日志。
[root@vEPC3200 /]# cd /var/log/ems/
[root@vEPC3200 ems]# ll
total 282388
-rw-r--r-- 1 root root 9804 Nov 2 09:29 ems_action_log.txt
-rw-r--r-- 1 apache apache 74850089 Nov 2 10:25 ems.log
-rw-r--r-- 1 apache apache 104857644 Oct 28 10:50 ems.log.1
-rw-r--r-- 1 apache apache 104857606 Oct 13 13:03 ems.log.2
在日志目录中:
· ems_action_log.txt表示当前EMS页面的操作日志。
· ems.log表示当前EMS运行日志。
· ems.log.1和ems.log.2表示切割后的EMS运行日志。
# 通过SSH方式登录vEPC所在Docker容器,查看/home/h3c/corefile和/home/h3c/corefile/ CORE_BAK目录内是否有core文件生成。
[root@vEPC3200 /]# cd /home/h3c/corefile
[root@vEPC3200 corefile]# ll
[root@vEPC3200 corefile]#
[root@vEPC3200 /]# cd /home/h3c/corefile/CORE_BAK
[root@vEPC3200 CORE_BAK]# ll
[root@vEPC3200 CORE_BAK]#
# 正常情况下,两个目录下都没有core文件。
# 通过SSH方式登录vEPC所在Docker容器,使用ps aux | grep tcpdump和ps aux | grep dpdk-pdump命令查看是否有抓包工具在后台运行。
[root@vEPC3200 /]# ps aux | grep tcpdump
[root@vEPC3200 /]# ps aux | grep dpdk-pdump
# 正常环境下,不会运行抓包工具
# 通过SSH方式登录vEPC所在Docker容器,使用ems_configuration backup命令备份当前的配置。
[ root@vEPC3200 /]# ems_configuration backup
# 备份后的配置文件会保存到容器/var目录中。
# 通过SFTP登录vEPC所在Docker容器,将备份后的文件下载到本地PC。
服务器异常掉电后,概率性出现vEPC所在的服务器无法正常开机的情况。使用HDM口登陆设备,屏幕会打印如下错误提示信息。
Internal error xfs XFS_WANT_CORRUPTED_GOTO at line 1662 of file fs/xfs/libxfs/xfs_alloc.c Caller xfs_free_extent+0x130 [xfs]
Metadata corruption detected at xfs_agi_read_verify+0x5e/0x110 [xfs], xfs_agi block 0x2
Unmount and run xfs_repair
First 64 bytes of corrupted metadata buffer:
执行xfs_repair -L /dev/mapper/centos-root命令会清空日志,丢失用户文件。
该问题的原因是ext4文件系统被xfs文件系统替换,xfs被用作默认的文件系统。在带有xfs文件系统的机器上,当I/O出现异常断电时,文件系统会出现概率性损坏,包括数据丢失、数据不一致等问题。
当出现以上问题时,通过以下步骤处理:
(1) 通过HDM口登录设备。
(2) 执行xfs_repair /dev/mapper/centos-root命令。
¡ 故障恢复,则处理完毕。
¡ 故障仍然存在,请转至步骤3。
(3) 执行xfs_repair -L /dev/mapper/centos-root命令。
¡ 故障恢复,则处理完毕。
¡ 故障仍然存在,请转至步骤4。
(4) 请联系H3C技术支持工程师。
推荐用户采用如下硬件配置方案:
· 服务器采用R4900 G3。
· RAID卡采用P460,且支持RAID5功能。
以上硬件配置可保证文件损坏后可从备用硬盘中获取文件内容,避免引起系统无法启动。R4900 G3服务器配有超级电容,可以保证在服务器异常断电后,保持秒级以上时间继续供电,这段时间服务器CPU可以将cache中内容写入硬盘。
· 重启容器时所有业务都会中断
· 重启容器前请保存当前配置
通过ls命令查看系统中某个文件或文件夹是存在的,但通过rm命令无法删除,且该文件或文件夹无法被同名文件或文件夹覆盖。
该问题是由于容器文件系统和图形化的FTP、TFTP等工具不兼容导致,如果使用图形界面的FTP、TFTP工具,例如MobaXterm,对容器内的文件进行了删除操作,就可能导致该文件在图形工具中显示已删除,但在容器文件系统中仍然存在,且无法进行删除和覆盖。
当出现以上问题时,通过以下步骤处理:
(1) 通过SSH Docker网桥IP地址的方式登录H3Linux,执行cd /root/命令切换到root目录,然后执行./docker_restart 容器名命令重启docker容器。
¡ 故障恢复,则处理完毕。
¡ 故障仍然存在,请转至步骤2。
(2) 请联系H3C技术支持工程师。
当vEPC所处的服务器硬盘被占满时,若系统或软件再进行写操作,就会导致出现运行错误或告警提示。运行错误或告警提示包括但不限于以下几种:
· vEPC容器的/var/log下产生多个journal日志。
· vEPC容器的/home/h3c/corefile/下产生多个systemd-journal的core文件。
· 编辑文件失败,提示没有磁盘空间。
· 网元运行异常,且没有对应的新日志产生。
当出现所述的现象时,请按照3.4 查看系统硬盘中介绍的方法查看overlay系统文件空间是否被占满。如果硬盘已被占满,则继续排查磁盘空间被占满的原因,并在原因确定后,释放硬盘空间。
请按以下步骤排查磁盘空间被占满的原因:
(1) 通过SSH Docker容器IP地址的方式登录Docker容器,执行cd /命令切换到/目录。
(2) 执行以下步骤。
a. 执行du -h --max-depth=1 | sort -nr | head -5命令,查看/目录下各个目录的大小,并按目录从大到小排列,并显示top5目录。
b. 进入这些目录内,执行find . -type f -size +500M -print0 | xargs -0 du -h | sort -nr命令,显示目录下大于500M的文件。
c. 对大于500M的非系统文件直接删除或导出后删除。
- 故障恢复,则处理完毕。
- 故障仍然存在,请转至步骤3。
(3) 执行ps aux | grep tcpdump命令查看tcpdump是否在运行。
¡ 如果是,则执行ll -h命令查看tcpdump抓包文件大小。如果太大,则立即执行kill -9 $(pidof tcpdump)命令停止抓包进程,并导出抓包文件后删除抓包文件,或直接删除抓包文件。
- 故障恢复,则处理完毕。
- 故障仍然存在,请转至步骤4。
¡ 如果否,请转至步骤4。
(4) 根据3.9 查看日志中介绍的方法,依次切换到各个网元日志所在的目录,执行ll -h命令查看各日志文件的大小,如果太大,请导出并删除XXX.log以外的日志文件。如果XXX.log太大,可将该文件导出,然后执行echo 0>XXX.log命令,将该日志文件清空,以释放磁盘空间。
¡ 故障恢复,则处理完毕。
¡ 故障仍然存在,请转至步骤5。
(5) 执行cd /home/h3c/corefile命令切换到core文件所在目录,执行ll -h命令查看core文件大小,如果太大,请导出core文件后删除该core文件,以释放磁盘空间。
¡ 故障恢复,则处理完毕。
¡ 故障仍然存在,请转至步骤6。
(6) 请联系H3C技术支持工程师。
· 导出文件可使用TFTP工具
· 删除文件执行rm -rf XXX命令(XXX为文件名)
vEPC业务配置正确,但Ping不通容器的管理接口,出现不能访问EMS配置管理界面或业务流量不通等现象。
(1) 查看服务器网口状态指示灯是否正常。
¡ 正常,请转至步骤4;
¡ 不正常,请转至步骤2。
(2) 重新插拔网线或更换网线。
¡ 网口状态指示灯正常,请转至步骤4。
¡ 网口状态指示灯不正常,请转至步骤3。
(3) 重新插拔网卡或更换网卡。
¡ 网口状态指示灯正常,请转至步骤4。
¡ 网口状态指示灯不正常,请转至步骤8。
(4) 通过SSH Docker网桥IP地址的方式登录H3Linux,执行docker exec -it 容器名 bash命令进入容器,然后执行ip address命令查看容器各个接口IP是否正常。
¡ 如果IP配置正常,请转至步骤6。
¡ 如果IP配置不正常,请重新配置IP。
- 故障恢复,则处理完毕。
- 故障仍然存在,请转至步骤6。
(5) 执行route命令,查看容器内各个接口相关的路由是否正常。
¡ 如果路由配置正常,请转至步骤7。
¡ 如果路由配置不正常,请重新配置路由。
- 故障恢复,则处理完毕。
- 故障仍然存在,请转至步骤7。
(6) 通过SSH Docker网桥IP地址登录H3Linux,执行brctl show命令查看容器管理口所在网桥下的接口是否正常。正常情况下网桥下有一个物理接口和一个tap接口。
¡ 如果网桥配置正常,请转至步骤8。
¡ 如果网桥配置不正常,请重新配置网桥。
- 故障恢复,则处理完毕。
- 故障仍然存在,请转至步骤8。
(7) 请联系H3C技术支持工程师。
有关服务器网口状态指示灯的说明请参见服务器的用户手册。
命令 |
说明 |
brctl show |
查看网桥的具体信息 |
cd |
进入到文件系统的指定目录 |
docker exec -it 容器名 bash |
通过主机进入容器 |
du -h --max-depth=1 | sort -nr | head -5 |
显示当前目录内占用磁盘空间Top 5的目录 |
du -sh * |
查看目录内所有文件及文件夹的大小,以K、M、G为单位显示 |
./docker_restart 容器名 |
重启指定容器名的容器 |
echo 0>filename |
清空某个文件的内容 |
find . -type f -size +500M -print0 | xargs -0 du -h | sort -nr |
查找当前路径下,大于500M的文件,显示其详细信息,并按从大到小的顺序排列 |
ip address |
查看系统IP信息 |
ll -h |
查看文件大小,以K、M、G为单位显示 |
ps aux | grep XXX |
查找当前运行的进程,如:ps aux | grep tcpdump |
rm -rf |
强制删除文件 |
route |
路由查询、添加、删除命令,具体使用方法通过route --help查询 |
通过服务器的H5 KVM安装H3Linux时,操作系统镜像文件传输中断,导致安装H3 Linux失败。
使用服务器HDM内的非H5 KVM挂在操作系统镜像文件,然后安装H3Linux。如故障仍然存在,请联系H3C技术支持工程师。
当使用HDM口,通过H5 KVM方式连接服务器进行输入操作时,在未使用键盘切换大小写的情况下,出现输入同一个英文字母,有时出现大写形式,有时出现小写形式的情况或远端输入字母大小写状态与近端实际输入字母状态相反的情况(例如近端实际输入的字母是小写,但远程控制台中显示的字母是大写)。
使用服务器HDM内的非H5 KVM进行管理和配置。如故障仍然存在,请联系H3C技术支持工程师。
在HDM KVM中输入字符时,一旦输入错误,使用Backspace键删除字符时会出现乱码。
不同的终端仿真程序对一些特殊按键的编码和解码可能存在差异,例如在某些版本的H3C HDM KVM中输入字符时,一旦输入错误,使用Backspace键删除字符时会出现乱码。对于此类终端仿真程序,用户可以尝试使用组合键Ctrl+Backspace或Shift+Backspace删除字符;对于其他终端仿真程序,当出现乱码问题时,请查看对应软件的使用指导来解决该问题。如果按照以上方式处理后故障仍然存在,请联系H3C技术支持工程师。
安装H3Linux过程中,出现如图5-1提示“An unknown error has occurred”,导致系统安装失败。
该问题属于系统问题,或系统与硬件的兼容问题,需要断电重启,重新安装系统。如故障仍然存在,请联系H3C技术支持工程师。
在安装过程中,请保持屏幕常亮。息屏或PC进入休眠状态会导致网络传输中断,会同样出现以上错误,导致系统安装失败。
在配置Docker容器属性的过程中,因输入错误或其他原因中途退出配置过程,导致网口被DPDK程序占用,重新创建Docker容器时网口消失。
(1) 在H3Linux /root目录下执行命令vim /etc/docker_epc/interface.conf进入文本编辑器删除全部误绑定的DPDK网口名。
(2) 保存并退出vim编辑器。
(3) 在H3Linux /root目录下执行命令./dpdk-devbind.py --status查询网口PCI信息,如图5-2所示,红框部分为误绑定的DPDK网口PCI信息。
[root@localhost ~]# ./dpdk-devbind.py --status
Network devices using DPDK-compatible driver
============================================
0000:5f:00.0 '82599ES 10-Gigabit SFI/SFP+ Network Connection 10fb' drv=igb_uio unused=ixgbe
Network devices using kernel driver
===================================
0000:3d:00.0 'Ethernet Connection X722 for 10GbE SFP+ 37d3' if=enp61s0f0 drv=i40e unused=igb_uio
0000:3d:00.1 'Ethernet Connection X722 for 10GbE SFP+ 37d3' if=enp61s0f1 drv=i40e unused=igb_uio
0000:5f:00.1 '82599ES 10-Gigabit SFI/SFP+ Network Connection 10fb' if=ens1f1 drv=ixgbe unused=igb_uio
(4) 在H3Linux /root目录下依次执行命令./dpdk-devbind.py –u PCI address和./dpdk-devbind.py -b ixgbe PCI address解绑全部误绑定的DPDK网口,其中PCI address为误绑定的DPDK网口PCI信息。
(5) 如果通过以上步骤扔无法解绑DPDK网口,请联系H3C技术支持工程师。
卸载vEPC网元时出现如图5-3所示的错误提示信息。
vEPC网元卸载失败可能由于补丁卸载与网元包卸载存在相互依赖关系,卸载网元包之前请首先卸载所安装补丁文件。出现如图5-3错误提示,处理步骤如下:
(1) 通过SSH Docker容器IP地址的方式登录Docker容器,执行cd /root/命令切换到root目录。
(2) 执行rpm -qa | grep EPC命令查看当前vEPC已安装的补丁文件。
(3) 执行rpm -e 补丁文件名命令卸载当前列表中最新安装的补丁文件,然后再执行./quick_erase命令对网元进行卸载。
¡ 如果网元卸载成功,则处理完毕。
¡ 如果网元未卸载成功,请转至步骤4。
(4) 请联系H3C技术支持工程师。
升级过程中提示类似如下信息,导致升级失败。
mv: cannot remove ‘/root/QuickInstall/RPM/’: No such file or directory
cp: cannot create regular file ‘/root/QuickInstall/RPM/lte.out’: No such file or directory
……
error: db5 error(2) from dbenv->open: No such file or directory
error: cannot open Packages index using db5 – No such file or directory (2)
error: cannot open Packages database in /var/lib/rpm
升级过程中服务器掉电可能会导致补丁文件损坏,从而无法完成升级操作。可删除已上传的补丁文件,并重新上传补丁文件,重启服务器后,再次进行升级。如故障仍然存在,请联系H3C技术支持工程师。
安装或卸载补丁过程中执行了CTRL+C或CTRL+Z等强制退出操作,导致包括但不限于如下现象:
· 如图5-4所示,网元版本号消失(正常情况下Inactive下面会显示版本号)、EMS页面网元状态为红色。
图5-4 EMS页面网元状态异常
· 再次卸载补丁执行失败,如图5-5,提示“warning: waiting for transaction lock on /var/lib/rpm/.rpm.lock”。
产生这种问题的原因主要有以下2种:
· 在补丁的安装或卸载过程中,需要执行一些数据、文件的备份或恢复的操作,执行CTRL+C或CTRL+Z等强制结束安装或卸载的流程,导致备份或恢复的数据、文件丢失。
· Linux系统自身软件安装或卸载的锁机制导致卸载提示错误。
解决该类问题的方法首先是在安装或卸载的过程中不要强制退出流程,其次如果强制退出后,出现网元版本号消失、EMS页面网元状态为红色或再次卸载补丁出现如图5-4示的内容,请采用以下方法处理。
针对网元版本号消失、EMS页面网元状态为红色问题,处理步骤如下:
(1) 通过EMS的IP地址登陆EMS的WEB页面,查看EMS上网元的版本号及网元状态,出现如图5-2所示。
(2) 通过SSH Docker容器IP地址的方式登录Docker容器,执行cd /opt/补丁文件名称命令,查看该文件夹下是否有old_version文件,
¡ 如果没有,则执行touch old_version命令创建该文件,并执行vim命令,编辑该文件,写入安装补丁前的旧版本信息,例如“EPC3102P08”。
¡ 如果有,请转至步骤3。
(3) 执行cat /opt/lte/网元名称/etc/version_info命令,查看网元的版本信息是否正常。
¡ 如果版本信息为空,则执行vim命令对该文件进行编辑,填写补丁安装或卸载前的版本信息,例如“EPC3102P08”。
¡ 如果不为空,请转至步骤4
(4) 执行stop_epc命令,等待命令执行完毕后,再执行start_epc命令,待命令执行完毕后,查看网元状态。
¡ 故障恢复,则处理完毕。
¡ 故障仍然存在,请转至步骤5。
(5) 请联系H3C技术支持工程师。
针对再次卸载补丁出现如图5-5所示,处理步骤如下:
(1) 通过SSH Docker网桥IP地址的方式登录H3Linux,执行cd /root/命令切换到root目录。
(2) 执行./docker_restart 容器名命令,进行重启容器。
(3) 重新登录vEPC,然后执行卸载操作。
¡ 故障恢复,则处理完毕。
¡ 故障仍然存在,请转至步骤4。
(4) 请联系H3C技术支持工程师。
· 误删Docker容器系统文件或宿主机异常断电后,Docker容器损坏致使vEPC网元功能不可用。
· 宿主机异常断电后,Docker容器运行正常,但vEPC网元功能不可用。
(1) 通过SSH方式登录H3Linux,并获取Root权限,具体操作过程略。
(2) 执行./docker_rm命令删除已有Docker容器。
(3) 根据《H3C vEPC3200核心网 安装指导》中描述的方法,使用Docker镜像重新创建Docker容器,并在新容器内安装vEPC。
¡ 故障恢复,则处理完毕。
¡ 故障仍然存在,请转至步骤4。
(4) 请联系H3C技术支持工程师。
命令 |
说明 |
./docker_restart 容器名 |
容器重启命令 |
cat |
查看文件内容 |
cd |
进入指定路径 |
touch |
创建一个新文件 |
vim |
编辑文件 |
./dpdk-devbind.py --status |
查看宿主机上支持DPDK功能的网口,仅显示信息中出现82599ES或82599EB任意字符串时,表明该网口支持DPDK |
./dpdk-devbind.py –u PCI address |
解除DPDK程序绑定的网口 |
./dpdk-devbind.py -b ixgbe PCI address |
使用ixgbe程序驱动网口 |
docker ps -a |
查看Docker容器状态 |
./docker_rm |
删除Docker容器 |
rpm –e 补丁文件名 |
卸载补丁 |
./quick_erase |
卸载vEPC网元 |