• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C vEPC3200核心网 故障处理手册(R3103)-6W100

手册下载

H3C vEPC3200核心网 故障处理手册(R3103)-6W100-整本手册.pdf  (707.71 KB)

  • 发布时间:2020/1/20 13:55:37
  • 浏览量:
  • 下载量:

H3C vEPC3200核心网

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:6W100

 

Copyright © 2020 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 简介··· 1

1.1 故障处理注意事项·· 1

1.2 收集设备运行信息·· 1

1.2.1 登录EMS Web页面收集日志·· 2

1.3 故障处理求助方式·· 2

2 开局自检··· 3

2.1 自检目的·· 3

2.2 开局自检项·· 3

3 开局自检检查方法··· 5

3.1 开局自检准备·· 5

3.1.1 登录H3Linux· 5

3.1.2 登录vEPC所在Docker容器·· 5

3.1.3 登录EMS· 5

3.1.4 登录License server 6

3.2 查看系统CPU和相关进程·· 6

3.3 查看系统内存·· 7

3.4 查看系统硬盘·· 8

3.5 查看NTP状态·· 8

3.6 查看License状态·· 9

3.7 查看告警信息·· 9

3.7.1 告警分类·· 10

3.7.2 通过告警摘要查看指定网元的活动告警信息·· 10

3.7.3 通过功能导航栏查看指定网元的所有告警和活动告警·· 10

3.8 查看vEPC3200状态·· 11

3.9 查看日志·· 12

3.9.1 查看MME的日志·· 12

3.9.2 查看HSS的日志·· 12

3.9.3 查看SGW的日志·· 12

3.9.4 查看PGW的日志·· 13

3.9.5 查看EMS的日志·· 13

3.10 查看core文件·· 13

3.11 检查是否有抓包工具在运行·· 14

3.12 配置备份与导出·· 14

4 服务器类故障处理··· 15

4.1 服务器文件系统损坏·· 15

4.1.1 故障描述·· 15

4.1.2 故障处理步骤·· 15

4.2 无法删除或覆盖容器内的文件或文件夹·· 16

4.2.1 故障描述·· 16

4.2.2 故障处理步骤·· 16

4.3 硬盘空间被占满·· 16

4.3.1 故障描述·· 16

4.3.2 故障处理步骤·· 17

4.4 容器接口故障·· 18

4.4.1 故障描述·· 18

4.4.2 故障处理步骤·· 18

4.5 故障诊断命令·· 19

5 设备管理类故障处理··· 20

5.1 安装操作系统ISO文件传输失败·· 20

5.1.1 故障描述·· 20

5.1.2 故障处理步骤·· 20

5.2 安装vEPC过程中大小写输入异常·· 20

5.2.1 故障描述·· 20

5.2.2 故障处理步骤·· 20

5.3 安装vEPC过程中HDM出现乱码·· 20

5.3.1 故障描述·· 20

5.3.2 故障处理步骤·· 20

5.4 安装操作系统提示错误信息·· 20

5.4.1 故障描述·· 20

5.4.2 故障处理步骤·· 21

5.5 网口被DPDK程序占用·· 21

5.5.1 故障描述·· 21

5.5.2 故障处理步骤·· 21

5.6 安装补丁后无法卸载网元·· 22

5.6.1 故障描述·· 22

5.6.2 故障处理步骤·· 23

5.7 升级类故障·· 23

5.7.1 故障描述·· 23

5.7.2 故障处理步骤·· 24

5.8 安装或卸载补丁被中断·· 24

5.8.1 故障描述·· 24

5.8.2 故障处理步骤·· 24

5.9 vEPC网元功能不可用·· 25

5.9.1 故障描述·· 25

5.9.2 故障处理步骤·· 25

5.10 故障诊断命令·· 26

 


1 简介

本文档介绍vEPC3200产品软、硬件常见故障的诊断及处理措施。

1.1  故障处理注意事项

注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

·            设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

¡  记录具体的故障现象、故障时间、配置信息。

¡  记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡  收集设备的日志信息和诊断信息(收集方法见1.2  收集设备运行信息)。

¡  记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。

¡  记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡  记录故障处理过程中配置的所有命令行显示信息。

·            更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·            故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

1.2  收集设备运行信息

说明

为方便故障快速定位,请不要修改网元日志打印的级别,缺省状态下为Brief

 

设备运行过程中会产生log日志信息及记录设备运行状态的诊断信息。这些信息存储在相关网元目录中,可以通过EMS界面导出。

表1   设备运行信息介绍

分类

文件名

内容

操作日志

ems_action_log.txt

用户通过EMS操作核心网的记录

diagfile日志

ems.log

mme.log

esgw.log

epgw.log

HSS.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、进程无法启动时的信息。

告警信息

alarm.txt

系统运行过程中,上报给EMS网管的告警信息

 

说明

对于diagfile日志,为了防止日志产生过多,有占满磁盘空间危险,当日志文件达到100M大小的时候,就会将日志文件转储压缩。同一个网元最多保存10个日志文件。

 

1.2.1  登录EMS Web页面收集日志

说明

·         进入Log and Configuration页面时EMS后台会自动执行收集日志与配置操作,页面刷新可能略有延时。

·         日志收集需要一定时间,请不要在收集期间执行其他操作。

(1)       使用ADMIN账号登录EMS Web界面,具体方法略;

(2)       如果当前在某个节点的功能菜单中,可在Web页面的“功能导航栏”中依次点击“Settings >Home”将“功能导航栏”中的菜单切换成EMS的功能菜单;

(3)       Web页面的“功能导航栏”中依次点击“Monitoring >Report >Log and Configuration”,如1-1所示,进入Log and Configuration页面后,点击执行区的“Download”按钮下载日志与配置文件。

图1-1 Log and Configuration

 

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)

2 开局自检

2.1  自检目的

针对客户的项目,提供有针对性的开局指导,规范开局配置,提前消除开局隐患,杜绝低级配置错误,保证项目的顺利进行。

另外,由于产品支持多种组网应用,各个局点的配置均不尽相同。本自检表检查一个比较全面的开局组网,实际开局时可以根据具体情况采用实际应用部分进行自检。

2.2  开局自检项

编码

检查项目

检查分项目

检查方法

结果

备注

1

外部环境检查

电源(直流/交流)

查看电源监控系统或

测试电源输出电压

□合格

□不合格

□不涉及

电压输出正常,电源无异常告警。

机房清洁度(灰尘含量)

检查机房的灰尘含

□合格

□不合格

□不涉及

每平方米灰尘颗粒数量≤3×104(3天内桌面无可见灰尘)
注:灰尘粒子直径≥5μm
直观判断:三天内桌面无可见灰尘为好。

温度(正常0℃~35℃)

测试机房温度

□合格

□不合格

□不涉及

温度范围:0℃~35℃。建议为15℃~25℃。

湿度(正常20%~80%)

测试相对湿度

□合格

□不合格

□不涉及

相对湿度:2080%(无冷凝)。

其他状况(火警、烟尘)

查看消防控制系统告警状态

□合格

□不合格

□不涉及

消防控制系统无告警。

2

服务器运行状态检查

查看系统网卡状态

查看服务器端口状态灯

□合格

□不合格

□不涉及

端口状态灯常亮。

查看系统CPU

具体方法请参见手册第2

□合格

□不合格

□不涉及

服务器CPU利用率不得大于80%

查看系统内存

□合格

□不合格

□不涉及

内存利用率不得大于80%

查看系统硬盘

□合格

□不合格

□不涉及

硬盘空间利用率不得超过90%

3

软件运行状态检查

查看NTP状态

□合格

□不合格

□不涉及

NTP时钟同步服务状态为active (running)

查看License状态

□合格

□不合格

□不涉及

各网元授权状态正常。

查看vEPC3200相关进程状态

□合格

□不合格

□不涉及

相关进程运行正常。

查看告警信息

□合格

□不合格

□不涉及

没有active的告警信息。

查看vEPC3200状态

□合格

□不合格

□不涉及

所有网元状态都是Running状态。

查看日志

□合格

□不合格

□不涉及

日志记录正常,没有超大文件。

查看core文件

□合格

□不合格

□不涉及

Docker容器内如下目录中不存在core文件:

·         /home/h3c/corefile

·         /home/h3c/corefile/CORE_BAK

检查是否有抓包工具在运行

□合格

□不合格

□不涉及

不应有tcpdumpdpdk-pdump在运行。

4

配置备份与导出

备份配置并将配置导出到本地PC

□合格

□不合格

□不涉及

执行备份操作,并将备份后的配置文件epc_cfg_bak.tar.gz导出到本地PC


3 开局自检检查方法

3.1  开局自检准备

开局自检时需要登录H3LinuxDocker容器、EMSLicense server。本节介绍登录H3LinuxDocker容器、EMSLicense server的方法。

3.1.1  登录H3Linux

说明

必须保证本地维护PCDocker BridgeIP地址路由可达,否则,无法正常登录H3Linux

 

# 通过SSHSFTP等方式登录H3Linux,其中登录的IP地址为Docker BridgeIP地址,H3Linux的初始用户名和密码分别为adminadmin@vEPC3200。如果用户名和密码已修改,请使用修改后的用户名和密码登录H3Linux

# 通过SSH方式登录H3Linux,使用su命令切换root用户,其中,缺省的root用户密码为root@vEPC3200。如果root用户密码已修改,请使用修改后的密码。

[admin@localhost ~]$ su

Password:

3.1.2  登录vEPC所在Docker容器

说明

必须保证本地维护PCDocker容器的IP地址路由可达,否则,无法正常登录vEPC所在Docker容器。

 

# 通过SSHSFTP等方式登录vEPC所在Docker容器,其中登录的IP地址为Docker容器的IP地址,Docker容器初始用户名和密码分别为rootroot@vEPC3200。如果用户名和密码已修改,请使用修改后的用户名和密码登录vEPC所在Docker容器。

3.1.3  登录EMS

说明

必须保证本地维护PCEMS Web登录的IP地址路由可达,否则,无法正常登录EMS Web页面。

 

# 在本地维护PC上启动浏览器,并在浏览器地址栏中输入https://EMS Web登录IP,然后点击回车,进入vEPCEMS Web登录页面。

# 在登录页面中输入用户名、密码,单击<登录>按钮即可登录EMS Web。在安装vEPC的过程中,系统自动创建了类型为ADMINOPERATOR的账号,其中:

·            ADMIN账号的用户名为admin,密码为admin@EPC,具有最高的系统权限;

·            OPERATOR账号的用户名为hssuser,密码为hssuser@EPC,具有HSS用户组的操作权限。

如果用户名和密码已修改,请使用修改后的用户名和密码登录EMS Web页面。

3.1.4  登录License server

说明

必须保证本地维护PCLicense server登录的IP地址路由可达,否则,无法正常登录License serverWeb页面。

 

# 在浏览器中输入License serverGUI登录地址(格式为:http://lics_ip_address:port/licsmanager/,如http://172.16.0.227:8090/licsmanager/),回车后会弹出登录界面。其中:

·            lics_ip_addressLicense server软件安装所在服务器的IP地址,如果已配置HA功能,则该地址可以为虚拟IP地址或主License serverIP地址

·            portHTTP端口号,缺省为8090

# 在打开的登录界面中输入管理员的用户名和密码,单击<登录>按钮进入License server GUI首页。初始用户名和密码分别为adminadmin@h3c。如果用户名和密码已修改,请使用修改后的用户名和密码登录License server GUI首页。

3.2  查看系统CPU和相关进程

# 通过SSH方式登录vEPC所在Docker容器,查看CPU使用情况。正常情况下top命令呈现出的各项CPU使用率都应在80%以下。因为lte.out进程是独占多个内核,这个统计除外。

[admin@localhost ~]# top

top - 10:15:18 up 3 days, 16:29,  3 users,  load average: 7.76, 7.68, 7.69

Tasks: 485 total,   1 running, 484 sleeping,   0 stopped,   0 zombie

%Cpu(s): 17.7 us,  0.6 sy,  0.0 ni, 81.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st

KiB Mem : 13145267+total, 97891592 free, 32105636 used,  1455444 buff/cache

KiB Swap:  4194300 total,  4194300 free,        0 used. 98304104 avail Mem

 

   PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND

145908 root      20   0   12.9g   8.2g   3076 S 697.4  6.5   7889:55 lte.out

  5968 root      20   0 2353692 320964  10220 S   7.9  0.2 407:14.69 mme

  5140 root      20   0 1473424 689528   7268 S   5.0  0.5 254:54.04 pgw

  5480 root      20   0 1144864 356520   6588 S   5.0  0.3 247:00.33 sgw

    10 root      20   0       0      0      0 S   0.3  0.0   4:23.13 rcu_sched

  2665 root      20   0 2798868  40588  12692 S   0.3  0.0  21:53.78 docker-containe

  2975 root      20   0  227544  13776   1512 S   0.3  0.0  10:01.30 python

  4529 root      20   0 1207164 183120   7436 S   0.3  0.1  34:18.96 HSS.exe

表3-1 top命令显示信息描述表

字段

描述

PID

进程ID

USER

进程所者的用户名

PR

优先级

NI

Nice值:

·         负值表示高优先级

·         正值表示低优先级

VIRT

进程使用的虚拟内存总量,单位为kb

RES

进程使用的、未被换出的物理内存大小,单位为kb

SHR

共享内存大小,单位为kb

S

进程状态:

·         D表示不可中断的睡眠状态

·         R表示运行状态

·         S表示睡眠状态

·         T表示跟踪或停止状态

·         Z表示僵尸进程

%CUP

上个刷新周期(3秒)内进程占用CPU的比例

%MEM

进程使用的物理内存百分比

TIME+

进程使用的CPU时间统计,单位为1/100

COMMAND

命令名或命令行

 

3.3  查看系统内存

# 通过SSH方式登录H3Linux,查看内存使用情况。正常情况下内存利用率不得大于80%

[admin@localhost ~]# free -m

              total        used        free      shared  buff/cache   available

Mem:          63865       51714       11252          97         898       11230

Swap:         32063           0       32063

表3-2 free -var命令显示信息描述表

字段

描述

Total

系统总的物理内存和交换空间的大小

Used

已被使用的物理内存和交换空间

Free

空闲的物理内存和交换空间

Shared

被共享使用的物理内存大小

buff/cache

系统buffercache使用的物理内存大小

Available

可以被应用程序使用的物理内存大小

 

3.4  查看系统硬盘

# 通过SSH方式登录H3Linux,查看系统硬盘使用情况。正常情况下,安装完成后,overlay文件系统应保证有至少20G的剩余空间。

[admin@localhost ~]# df -h

Filesystem                Size  Used Avail Use% Mounted on

overlay                   1.3T   16G  1.3T   2% /

tmpfs                      32G     0   32G   0% /sys/fs/cgroup

devtmpfs                   32G  4.0K   32G   1% /dev

shm                        64M     0   64M   0% /dev/shm

/dev/mapper/h3linux-root  1.3T   16G  1.3T   2% /etc/hosts

tmpfs                      32G   20M   32G   1% /run

tmpfs                     6.3G     0  6.3G   0% /run/user/0

表3-3 df -h命令显示信息描述表

字段

描述

Filesystem

文件系统

Size

空间大小

Used

已经被使用的空间大小

Avail

剩余可用的空间大小

Use%

已经被使用的空间占总空间的比例

Mounted on

挂载到的目录

 

3.5  查看NTP状态

# 通过SSH方式登录H3Linux,查看NTP的运行状态。

[root@localhost ~]# systemctl status ntpd.service

ntpd.service - Network Time Service

   Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)

   Active: active (running) since Tue 2019-09-03 01:01:29 CST; 12min ago

 Main PID: 24684 (ntpd)

   CGroup: /system.slice/ntpd.service

           └─24684 /usr/sbin/ntpd -u sysntp:ntp -g

Sep 03 01:01:29 PLT-SERVER-100 systemd[1]: Starting Network Time Service...

Sep 03 01:01:29 PLT-SERVER-100 systemd[1]: Started Network Time Service.

# 仅当NTP时钟同步服务状态为active (running)时表明系统NTP时钟同步服务状态正常。

3.6  查看License状态

# 3-1所示,登录licence server后可以查看vEPC所有网元的licence授权概览。

图3-1 概览

 

# 3-2所示,依次点击“License->使用信息>授权信息”可以查看vEPC所有网元的详细信息。

图3-2 详细信息

 

3.7  查看告警信息

说明

不同类型的用户登录EMS Web后获取告警信息的方法类似,不同之处在于:

·         ADMIN类型的用户可查看和清除所有网元的告警信息。

·         HSSUSERMONITOR类型的用户仅支持查看HSS网元的活动告警

如无特殊说明,手册以ADMIN类型用户为例介绍查看告警信息的方法。

 

3.7.1  告警分类

告警分为活动告警和历史告警,其中,活动告警为当前出现的告警;历史告警为定位后排除的告警、系统自动清除的告警或手动执行Clear操作的活动告警。

3.7.2  通过告警摘要查看指定网元的活动告警信息

3-3中④所示,用户登录EMS Web后,可以在EMS Web主页上看到当前各网元的告警摘要,其中,红色、黄色和灰色依次代表CriticalMajorMinor级别的告警。点击告警摘要中的数字,可以在执行区中显示当前网元所有的活动告警。

图3-3 Web页面布局

1)标识区

2)辅助区

3)网元列表

4)网元告警摘要

5)执行区

6)功能导航栏

 

3.7.3  通过功能导航栏查看指定网元的所有告警和活动告警

说明

不同网元通过功能导航栏查看告警信息的方法相同,手册以查看HSS网元告警信息的方法为例进行介绍。

 

通过功能导航栏查看指定网元的所有告警和活动告警的步骤为:

# 使用ADMIN类型的账号登录vEPC EMS Web,具体操作过程略。

# 点击Web页面“网元列表”中的HSS,然后再点击其下的IP地址,将“功能导航栏”中的菜单切换成HSS的功能菜单。

# Web页面的“功能导航栏”中依次点击“Reports >Alarms Report”,打开HSS网元的Alarm Report页面。该页面显示网元所有告警,包括活动告警和历史告警。

图3-4 所有告警

 

# 3-5所示,点选Active Alarms,可显示当前未处理的活动告警信息。

图3-5 活动告警

 

3.8  查看vEPC3200状态

# 通过SSH方式登录vEPC所在Docker容器,查看vEPC3200的运行状态。

[root@vEPC3200 /]# statusepc

[ems] Running

[esgw] Running

[epgw] Running

[mme] Running

[HSS] Running

[epc_dp] Running

[root@vEPC3200 ~]#

3.9  查看日志

通常情况下,网元当前的日志文件不会超过100M,一旦超过100M,系统会启动日志切割功能,避免生成超大日志。

3.9.1  查看MME的日志

# 通过SSH方式登录vEPC所在Docker容器,查看MME的日志。

[root@vEPC3200 /]# cd /opt/lte/mme/log/

[root@vEPC3200 log]# ll

total 1812

-rw-rw-r-- 1 root root 1040871 Oct 15 18:15 mme.log

-rw-rw-r-- 1 root root  802288 Oct 15 18:05 mme.log.1

-rw-rw-r-- 1 root root      20 Oct 15 18:00 mme.log.2.gz

-rw-r--r-- 1 root root      62 Oct 15 18:00 mmeMonitor.log

-rw-rw-r-- 1 root root       0 Sep 25 15:41 mmeSubsTrace.log.1

在日志目录中:

·            mme.log表示当前MME网元运行日志。

·            mme.log.2.gzmme.log.1表示切割后的MME网元运行日志。

·            mmeMonitor.log表示MME网元监控脚本运行日志

·            mmeSubsTrace.log.1表示切割后的MME网元监控脚本运行日志

3.9.2  查看HSS的日志

# 通过SSH方式登录vEPC所在Docker容器,查看HSS的日志。

[root@vEPC3200 /]# cd /var/log/

[root@vEPC3200 log]# ll

total 32

-rw-------  1 root  root             2023547 Nov  1 10:20 HSS.log

-rw-------  1 root  root            12891577 Nov  1 04:00 HSS.log.1

-rw-------  1 root  root            11283823 Nov  1 03:44 HSS.log.2

-rw-r--r--  1 root  root               52746 Nov  1 10:28 hssMonitoringLog

在日志目录中:

·            HSS.log表示当前HSS网元运行日志。

·            HSS.log.1HSS.log.2表示切割后的HSS网元运行日志。

·            hssMonitoringLog表示HSS网元监控脚本运行日志

3.9.3  查看SGW的日志

# 通过SSH方式登录vEPC所在Docker容器,查看SGW的日志。

[root@vEPC3200 /]# cd /opt/lte/esgw/log/

[root@vEPC3200 log]# ll

total 36

-rw------- 1 root root 21012 Oct 15 18:06 esgw.log

-rw------- 1 root root  2944 Oct 15 18:05 esgw.log.1

-rw------- 1 root root  1919 Oct 15 18:04 esgw.log.2.gz

-rw-r--r-- 1 root root   321 Oct 15 18:05 sgwMonitoringLog

在日志目录中:

·            esgw.log表示当前SGW网元运行日志。

·            esgw.log.1esgw.log.2.gz表示切割后的SGW网元运行日志。

·            sgwMonitoringLog表示SGW网元监控脚本运行日志。

3.9.4  查看PGW的日志

# 通过SSH方式登录vEPC所在Docker容器,查看PGW的日志。

[root@vEPC3200 /]# cd /opt/lte/epgw/log/

[root@vEPC3200 log]# ll

total 84

-rw-rw-r-- 1 root root 76385 Oct 15 18:15 epgw.log

-rw-rw-r-- 1 root root     0 Oct 15 18:05 epgw.log.1

-rw-rw-r-- 1 root root    20 Oct 15 17:59 epgw.log.2.gz

-rw-r--r-- 1 root root   214 Oct 15 18:05 pgwMonitoringLog

在日志目录中:

·            epgw.log表示当前PGW网元运行日志。

·            epgw.log.1epgw.log.2.gz表示切割后的PGW网元运行日志。

·            pgwMonitoringLog表示PGW网元监控脚本运行日志。

3.9.5  查看EMS的日志

# 通过SSH方式登录vEPC所在Docker容器,查看EMS的日志。

[root@vEPC3200 /]# cd /var/log/ems/

[root@vEPC3200 ems]# ll

total 282388

-rw-r--r-- 1 root   root        9804 Nov  2 09:29 ems_action_log.txt

-rw-r--r-- 1 apache apache  74850089 Nov  2 10:25 ems.log

-rw-r--r-- 1 apache apache 104857644 Oct 28 10:50 ems.log.1

-rw-r--r-- 1 apache apache 104857606 Oct 13 13:03 ems.log.2

在日志目录中:

·            ems_action_log.txt表示当前EMS页面的操作日志。

·            ems.log表示当前EMS运行日志。

·            ems.log.1ems.log.2表示切割后的EMS运行日志。

3.10  查看core文件

# 通过SSH方式登录vEPC所在Docker容器,查看/home/h3c/corefile/home/h3c/corefile/ CORE_BAK目录内是否有core文件生成。

[root@vEPC3200 /]# cd /home/h3c/corefile

[root@vEPC3200 corefile]# ll

[root@vEPC3200 corefile]#

[root@vEPC3200 /]# cd /home/h3c/corefile/CORE_BAK

[root@vEPC3200 CORE_BAK]# ll

[root@vEPC3200 CORE_BAK]#

# 正常情况下,两个目录下都没有core文件。

3.11  检查是否有抓包工具在运行

# 通过SSH方式登录vEPC所在Docker容器,使用ps aux | grep tcpdumpps aux | grep dpdk-pdump命令查看是否有抓包工具在后台运行。

[root@vEPC3200 /]# ps aux | grep tcpdump

[root@vEPC3200 /]# ps aux | grep dpdk-pdump

# 正常环境下,不会运行抓包工具

3.12  配置备份与导出

# 通过SSH方式登录vEPC所在Docker容器,使用ems_configuration backup命令备份当前的配置。

[ root@vEPC3200 /]# ems_configuration backup

# 备份后的配置文件会保存到容器/var目录中。

# 通过SFTP登录vEPC所在Docker容器,将备份后的文件下载到本地PC


4 服务器类故障处理

4.1  服务器文件系统损坏

4.1.1  故障描述

服务器异常掉电后,概率性出现vEPC所在的服务器无法正常开机的情况。使用HDM口登陆设备,屏幕会打印如下错误提示信息。

Internal error xfs XFS_WANT_CORRUPTED_GOTO at line 1662 of file fs/xfs/libxfs/xfs_alloc.c Caller xfs_free_extent+0x130 [xfs]

Metadata corruption detected at xfs_agi_read_verify+0x5e/0x110 [xfs], xfs_agi block 0x2

Unmount and run xfs_repair

First 64 bytes of corrupted metadata buffer:

4.1.2  故障处理步骤

注意

执行xfs_repair -L /dev/mapper/centos-root命令会清空日志,丢失用户文件。

 

该问题的原因是ext4文件系统被xfs文件系统替换,xfs被用作默认的文件系统。在带有xfs文件系统的机器上,当I/O出现异常断电时,文件系统会出现概率性损坏,包括数据丢失、数据不一致等问题。

当出现以上问题时,通过以下步骤处理:

(1)       通过HDM口登录设备。

(2)       xfs_repair /dev/mapper/centos-root命令。

¡  故障恢复,则处理完毕。

¡  故障仍然存在,请转至步骤3

(3)       执行xfs_repair -L /dev/mapper/centos-root命令

¡  故障恢复,则处理完毕。

¡  故障仍然存在,请转至步骤4

(4)       请联系H3C技术支持工程师。

提示

推荐用户采用如下硬件配置方案:

·         服务器采用R4900 G3

·         RAID卡采用P460,且支持RAID5功能。

以上硬件配置可保证文件损坏后可从备用硬盘中获取文件内容,避免引起系统无法启动。R4900 G3服务器配有超级电容,可以保证在服务器异常断电后,保持秒级以上时间继续供电,这段时间服务器CPU可以将cache中内容写入硬盘。

 

4.2  无法删除或覆盖容器内的文件或文件夹

注意

·         重启容器时所有业务都会中断

·         重启容器前请保存当前配置

 

4.2.1  故障描述

通过ls命令查看系统中某个文件或文件夹是存在的,但通过rm命令无法删除,且该文件或文件夹无法被同名文件或文件夹覆盖。

4.2.2  故障处理步骤

该问题是由于容器文件系统和图形化的FTPTFTP等工具不兼容导致,如果使用图形界面的FTPTFTP工具,例如MobaXterm,对容器内的文件进行了删除操作,就可能导致该文件在图形工具中显示已删除,但在容器文件系统中仍然存在,且无法进行删除和覆盖。

当出现以上问题时,通过以下步骤处理:

(1)       通过SSH Docker网桥IP地址的方式登录H3Linux,执行cd /root/命令切换到root目录,然后执行./docker_restart 容器名命令重启docker容器。

¡  故障恢复,则处理完毕。

¡  故障仍然存在,请转至步骤2

(2)       请联系H3C技术支持工程师。

4.3  硬盘空间被占满

4.3.1  故障描述

vEPC所处的服务器硬盘被占满时,若系统或软件再进行写操作,就会导致出现运行错误或告警提示。运行错误或告警提示包括但不限于以下几种:

·            vEPC容器的/var/log下产生多个journal日志。

·            vEPC容器的/home/h3c/corefile/下产生多个systemd-journalcore文件。

·            编辑文件失败,提示没有磁盘空间。

·            网元运行异常,且没有对应的新日志产生。

4.3.2  故障处理步骤

当出现所述的现象时,请按照3.4  查看系统硬盘中介绍的方法查看overlay系统文件空间是否被占满。如果硬盘已被占满,则继续排查磁盘空间被占满的原因,并在原因确定后,释放硬盘空间。

请按以下步骤排查磁盘空间被占满的原因:

(1)       通过SSH Docker容器IP地址的方式登录Docker容器执行cd /命令切换到/目录。

(2)       执行以下步骤。

a.   执行du -h --max-depth=1 | sort -nr | head -5命令,查看/目录各个目录的大小,并按目录从大到小排列,并显示top5目录。

b.   进入这些目录内,执行find . -type f -size +500M -print0 | xargs -0 du -h | sort -nr命令,显示目录下大于500M的文件。

c.   对大于500M的非系统文件直接删除或导出后删除。

-     故障恢复,则处理完毕。

-     故障仍然存在,请转至步骤3

(3)       执行ps aux | grep tcpdump命令查看tcpdump是否在运行

¡  如果是,则执行ll -h命令查看tcpdump抓包文件大小如果太大,则立即执行kill -9 $(pidof tcpdump)停止抓包进程,并导出抓包文件后删除抓包文件,或直接删除抓包文件

-     故障恢复,则处理完毕。

-     故障仍然存在,请转至步骤4

¡  如果否,请转至步骤4

(4)       根据3.9  查看日志中介绍的方法,依次切换到各个网元日志所在的目录,执行ll -h命令查看各日志文件的大小,如果太大,请导出并删除XXX.log以外的日志文件。如果XXX.log太大,可将该文件导出,然后执行echo 0>XXX.log命令,将该日志文件清空,以释放磁盘空间。

¡  故障恢复,则处理完毕。

¡  故障仍然存在,请转至步骤5

(5)       执行cd /home/h3c/corefile命令切换到core文件所在目录执行ll -h命令查看core文件大小,如果太大,请导出core文件后删除该core文件,以释放磁盘空间

¡  故障恢复,则处理完毕。

¡  故障仍然存在,请转至步骤6

(6)       请联系H3C技术支持工程师。

提示

·         导出文件可使用TFTP工具

·         删除文件执行rm -rf XXX命令(XXX为文件名)

 

4.4  容器接口故障

4.4.1  故障描述

vEPC业务配置正确,但Ping不通容器的管理接口,出现不能访问EMS配置管理界面或业务流量不通等现象。

4.4.2  故障处理步骤

(1)       查看服务器网口状态指示灯是否正常。

¡  正常,请转至步骤4

¡  不正常,请转至步骤2

(2)       重新插拔网线或更换网线。

¡  网口状态指示灯正常,请转至步骤4

¡  网口状态指示灯不正常,请转至步骤3

(3)       重新插拔网卡或更换网卡。

¡  网口状态指示灯正常,请转至步骤4

¡  网口状态指示灯不正常,请转至步骤8

(4)       通过SSH Docker网桥IP地址的方式登录H3Linux,执行docker exec -it 容器名 bash命令进入容器,然后执行ip address命令查看容器各个接口IP是否正常。

¡  如果IP配置正常,请转至步骤6

¡  如果IP配置不正常,请重新配置IP

-     故障恢复,则处理完毕。

-     故障仍然存在,请转至步骤6

(5)       执行route命令,查看容器内各个接口相关的路由是否正常。

¡  如果路由配置正常,请转至步骤7

¡  如果路由配置不正常,请重新配置路由。

-     故障恢复,则处理完毕。

-     故障仍然存在,请转至步骤7

(6)       通过SSH Docker网桥IP地址登录H3Linux执行brctl show命令查看容器管理口所在网桥下的接口是否正常。正常情况下网桥下有一个物理接口和一个tap接口。

¡  如果网桥配置正常,请转至步骤8

¡  如果网桥配置不正常,请重新配置网桥。

-     故障恢复,则处理完毕。

-     故障仍然存在,请转至步骤8

(7)       请联系H3C技术支持工程师。

说明

有关服务器网口状态指示灯的说明请参见服务器的用户手册。

 

4.5  故障诊断命令

命令

说明

brctl show

查看网桥的具体信息

cd

进入到文件系统的指定目录

docker exec -it 容器名 bash

通过主机进入容器

du -h --max-depth=1 | sort -nr | head -5

显示当前目录内占用磁盘空间Top 5的目录

du -sh *

查看目录内所有文件及文件夹的大小,以KMG为单位显示

./docker_restart 容器名

重启指定容器名的容器

echo 0>filename

清空某个文件的内容

find . -type f -size +500M -print0 | xargs -0 du -h | sort -nr

查找当前路径下,大于500M的文件,显示其详细信息,并按从大到小的顺序排列

ip address

查看系统IP信息

ll -h

查看文件大小,以KMG为单位显示

ps aux | grep XXX

查找当前运行的进程,如:ps aux | grep tcpdump

rm -rf

强制删除文件

route

路由查询、添加、删除命令,具体使用方法通过route --help查询

 


5 设备管理类故障处理

5.1  安装操作系统ISO文件传输失败

5.1.1  故障描述

通过服务器的H5 KVM安装H3Linux时,操作系统镜像文件传输中断,导致安装H3 Linux失败。

5.1.2  故障处理步骤

使用服务器HDM内的非H5 KVM挂在操作系统镜像文件,然后安装H3Linux。如故障仍然存在,请联系H3C技术支持工程师。

5.2  安装vEPC过程中大小写输入异常

5.2.1  故障描述

当使用HDM口,通过H5 KVM方式连接服务器进行输入操作时,在未使用键盘切换大小写的情况下,出现输入同一个英文字母,有时出现大写形式,有时出现小写形式的情况或远端输入字母大小写状态与近端实际输入字母状态相反的情况(例如近端实际输入的字母是小写,但远程控制台中显示的字母是大写)。

5.2.2  故障处理步骤

使用服务器HDM内的非H5 KVM进行管理和配置。如故障仍然存在,请联系H3C技术支持工程师。

5.3  安装vEPC过程中HDM出现乱码

5.3.1  故障描述

HDM KVM中输入字符时,一旦输入错误,使用Backspace键删除字符时会出现乱码。

5.3.2  故障处理步骤

不同的终端仿真程序对一些特殊按键的编码和解码可能存在差异,例如在某些版本的H3C HDM KVM中输入字符时,一旦输入错误,使用Backspace键删除字符时会出现乱码。对于此类终端仿真程序,用户可以尝试使用组合键Ctrl+BackspaceShift+Backspace删除字符;对于其他终端仿真程序,当出现乱码问题时,请查看对应软件的使用指导来解决该问题。如果按照以上方式处理后故障仍然存在,请联系H3C技术支持工程师。

5.4  安装操作系统提示错误信息

5.4.1  故障描述

安装H3Linux过程中,出现如5-1提示“An unknown error has occurred”,导致系统安装失败。

图5-1 系统安装失败错误提示

 

5.4.2  故障处理步骤

该问题属于系统问题,或系统与硬件的兼容问题,需要断电重启,重新安装系统。如故障仍然存在,请联系H3C技术支持工程师。

说明

在安装过程中,请保持屏幕常亮。息屏或PC进入休眠状态会导致网络传输中断,会同样出现以上错误,导致系统安装失败。

 

5.5  网口被DPDK程序占用

5.5.1  故障描述

在配置Docker容器属性的过程中,因输入错误或其他原因中途退出配置过程,导致网口被DPDK程序占用,重新创建Docker容器时网口消失。

5.5.2  故障处理步骤

(1)       H3Linux /root目录下执行命令vim /etc/docker_epc/interface.conf进入文本编辑器删除全部误绑定的DPDK网口名

(2)       保存并退出vim编辑器。

(3)       H3Linux /root目录下执行命令./dpdk-devbind.py --status查询网口PCI信息,如5-2所示,红框部分为误绑定的DPDK网口PCI信息。

[root@localhost ~]# ./dpdk-devbind.py --status

 

Network devices using DPDK-compatible driver

============================================

0000:5f:00.0 '82599ES 10-Gigabit SFI/SFP+ Network Connection 10fb' drv=igb_uio unused=ixgbe

 

Network devices using kernel driver

===================================

0000:3d:00.0 'Ethernet Connection X722 for 10GbE SFP+ 37d3' if=enp61s0f0 drv=i40e unused=igb_uio

0000:3d:00.1 'Ethernet Connection X722 for 10GbE SFP+ 37d3' if=enp61s0f1 drv=i40e unused=igb_uio

0000:5f:00.1 '82599ES 10-Gigabit SFI/SFP+ Network Connection 10fb' if=ens1f1 drv=ixgbe unused=igb_uio

图5-2 查询网口PCI信息

 

(4)       H3Linux /root目录下依次执行命令./dpdk-devbind.py u PCI address./dpdk-devbind.py -b ixgbe PCI address解绑全部误绑定的DPDK网口,其中PCI address误绑定的DPDK网口PCI信息。

(5)       如果通过以上步骤扔无法解绑DPDK网口,请联系H3C技术支持工程师。

5.6  安装补丁后无法卸载网元

5.6.1  故障描述

卸载vEPC网元时出现如5-3所示的错误提示信息。

图5-3 网元卸载失败错误提示

 

5.6.2  故障处理步骤

vEPC网元卸载失败可能由于补丁卸载与网元包卸载存在相互依赖关系,卸载网元包之前请首先卸载所安装补丁文件。出现如5-3错误提示,处理步骤如下:

(1)       通过SSH Docker容器IP地址的方式登录Docker容器,执行cd /root/命令切换到root目录

(2)       执行rpm -qa | grep EPC命令查看当前vEPC已安装的补丁文件。

(3)       执行rpm -e 补丁文件名命令卸载当前列表中最新安装的补丁文件,然后再执行./quick_erase命令对网元进行卸载。

¡  如果网元卸载成功,则处理完毕。

¡  如果网元未卸载成功,请转至步骤4

(4)       请联系H3C技术支持工程师。

5.7  升级类故障

5.7.1  故障描述

升级过程中提示类似如下信息,导致升级失败。

mv: cannot remove ‘/root/QuickInstall/RPM/’: No such file or directory

cp: cannot create regular file ‘/root/QuickInstall/RPM/lte.out’: No such file or directory

……

error: db5 error(2) from dbenv->open: No such file or directory

error: cannot open Packages index using db5 – No such file or directory (2)

error: cannot open Packages database in /var/lib/rpm

5.7.2  故障处理步骤

升级过程中服务器掉电可能会导致补丁文件损坏,从而无法完成升级操作。可删除已上传的补丁文件,并重新上传补丁文件,重启服务器后,再次进行升级。如故障仍然存在,请联系H3C技术支持工程师。

5.8  安装或卸载补丁被中断

5.8.1  故障描述

安装或卸载补丁过程中执行了CTRL+CCTRL+Z等强制退出操作,导致包括但不限于如下现象:

·            5-4所示,网元版本号消失(正常情况下Inactive下面会显示版本号)EMS页面网元状态为红色。

图5-4 EMS页面网元状态异常

 

·            再次卸载补丁执行失败,5-5提示“warning: waiting for transaction lock on /var/lib/rpm/.rpm.lock”。

图5-5 卸载失败提示

 

5.8.2  故障处理步骤

产生这种问题的原因主要有以下2种:

·            在补丁的安装或卸载过程中,需要执行一些数据、文件的备份或恢复的操作,执行CTRL+CCTRL+Z等强制结束安装或卸载的流程,导致备份或恢复的数据、文件丢失。

·            Linux系统自身软件安装或卸载的锁机制导致卸载提示错误。

解决该类问题的方法首先是在安装或卸载的过程中不要强制退出流程,其次如果强制退出后,出现网元版本号消失、EMS页面网元状态为红色或再次卸载补丁出现如5-4示的内容,请采用以下方法处理。

针对网元版本号消失、EMS页面网元状态为红色问题,处理步骤如下:

(1)       通过EMSIP地址登陆EMSWEB页面,查看EMS上网元的版本号及网元状态,出现如图5-2所示。

(2)       通过SSH Docker容器IP地址的方式登录Docker容器执行cd /opt/补丁文件名称命令,查看该文件夹下是否有old_version文件,

¡  如果没有,则执行touch old_version命令创建该文件,并执行vim命令,编辑该文件,写入安装补丁前的旧版本信息,例如“EPC3102P08

¡  如果有,请转至步骤3

(3)       执行cat /opt/lte/网元名称/etc/version_info命令,查看网元的版本信息是否正常

¡  如果版本信息为空,则执行vim命令对该文件进行编辑,填写补丁安装或卸载前的版本信息,例如“EPC3102P08”。

¡  如果不为空,请转至步骤4

(4)       执行stop_epc命令,等待命令执行完毕后,再执行start_epc命令,待命令执行完毕后,查看网元状态。

¡  故障恢复,则处理完毕。

¡  故障仍然存在,请转至步骤5

(5)       请联系H3C技术支持工程师。

针对再次卸载补丁出现如5-5所示,处理步骤如下:

(1)       通过SSH Docker网桥IP地址的方式登录H3Linux,执行cd /root/命令切换到root目录

(2)       执行./docker_restart 容器名命令,进行重启容器。

(3)       重新登录vEPC,然后执行卸载操作。

¡  故障恢复,则处理完毕。

¡  故障仍然存在,请转至步骤4

(4)       请联系H3C技术支持工程师。

5.9  vEPC网元功能不可用

5.9.1  故障描述

·            误删Docker容器系统文件或宿主机异常断电后,Docker容器损坏致使vEPC网元功能不可用。

·            宿主机异常断电后,Docker容器运行正常,但vEPC网元功能不可用。

5.9.2  故障处理步骤

(1)       通过SSH方式登录H3Linux,并获取Root权限,具体操作过程略。

(2)       执行./docker_rm命令删除已有Docker容器。

(3)       根据《H3C vEPC3200核心网 安装指导》中描述的方法,使用Docker镜像重新创建Docker容器,并在新容器内安装vEPC

¡  故障恢复,则处理完毕。

¡  故障仍然存在,请转至步骤4

(4)       请联系H3C技术支持工程师。

5.10  故障诊断命令

命令

说明

./docker_restart 容器名

容器重启命令

cat

查看文件内容

cd

进入指定路径

touch

创建一个新文件

vim

编辑文件

./dpdk-devbind.py --status

查看宿主机上支持DPDK功能的网口,仅显示信息中出现82599ES82599EB任意字符串时,表明该网口支持DPDK

./dpdk-devbind.py u PCI address

解除DPDK程序绑定的网口

./dpdk-devbind.py -b ixgbe PCI address

使用ixgbe程序驱动网口

docker ps -a

查看Docker容器状态

./docker_rm

删除Docker容器

rpm –e 补丁文件名

卸载补丁

./quick_erase

卸载vEPC网元

 

新华三官网
联系我们