• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C SeerEngine-SDWAN系统日志信息参考-E632X-5W201

手册下载

H3C SeerEngine-SDWAN系统日志信息参考-E632X-5W201-整本手册.pdf  (910.21 KB)

  • 发布时间:2023/4/21 1:30:23
  • 浏览量:
  • 下载量:

H3C SeerEngine_SDWAN

系统日志信息参考

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W201-20230420

 

Copyright © 2021-2023新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



1 简介

系统日志用于通知用户控制器运行的内部事件。系统日志信息包含日志的参数介绍、产生原因、处理建议等,为用户进行系统诊断和维护提供参考。

本文假设您已具备数据通信技术知识,并熟悉H3C统一数字底盘和SeerEngine-SDWAN产品。

1.1  查看系统日志

登录SeerEngine-SDWAN,单击[系统]菜单项,进入系统设置页面,单击[日志管理>系统日志信息]菜单项,进入系统日志页面。可查看当前系统的日志信息,如1-1所示。

图1-1 系统日志信息列表

 

表1-1 日志字段说明

字段

描述

AD-WAN名称

控制器包含组件名称

级别

日志信息的严重等级

系统日志信息具有八种级别,用不同的图标表示,具体说明请参见1-5

日期/时间

生成系统日志信息的日期和时间

节点名称

生成系统日志信息的主机名称

服务名称

主机对应包含的服务名称

模块名称

各服务对应包含的模块名称

描述信息

系统日志具体内容,包含事件或错误发生的详细信息

 

1.2  Syslog日志格式说明

SeerEngine-SDWAN支持将系统日志通过Syslog协议发送至Syslog日志服务器。Syslog日志服务器的IP地址和端口号可以在统一数字底盘的[日志/配置/系统日志]页面中进行设置。

缺省情况下,控制器以Syslog协议发送的系统日志信息格式如下:

<PRI>TIMESTAMP Hostname Origin/severity/Keywords CONTENT

表1-2 Syslog日志字段说明

字段

描述

<PRI>

优先级标识符,优先级的计算公式为:facility×8severity

·     facility表示Syslog定义的程序模块,目前SeerEngine-SDWAN发送Syslog日志的facility一般为user-level,取值为1

·     severity表示Syslog协议定义的日志严重等级,具体说明请参见1-4

TIMESTAMP

时间戳记录了日志信息产生的时间,方便用户查看和定位系统事件

Hostname

生成该日志信息的控制器所在服务器或虚拟机的名称或IP地址

Origin

生成该系统日志信息的业务模块的名称,具体介绍请参见1-3

severity

SeerEngine-SDWAN定义的系统日志信息的等级,具体说明请参见1-5

Keywords

关键字,本字段为该日志信息的概述,用于搜索或助记

CONTENT

该日志的具体内容,包含事件或错误发生的详细信息

 

表1-3 业务模块列表

业务模块名称

说明

LINK

链路模块

DEVICE

设备模块

DATABASE

数据库模块

CONTROLLER

控制器模块

 

Syslog协议定义的日志严重等级如1-4所示,各等级的严重性依照数值从07依次降低。

表1-4 Syslog日志严重等级说明

级别

严重等级

描述

0

Emergency

表示紧急信息,可能导致系统不可用

1

Alert

表示必须立即修复的状态

2

Critical

表示严重信息

3

Error

表示错误信息

4

Warning

表示警告信息

5

Notice

表示正常出现但是重要的信息

6

Informational

表示需要记录的通知信息

7

Debug

表示调试过程产生的信息

 

SeerEngine-SDWAN定义的系统日志信息的等级如1-5所示,各等级的严重性依照数值从07依次降低。

表1-5 控制器系统日志等级说明

级别

图标

严重等级

描述

0

Emergency

表示致命信息,可能导致系统不可用

1

Alert

表示必须立即修复的严重告警状态

2

Critical

表示严重信息

3

Error

表示错误信息

4

Warning

表示警告信息

5

Notice

表示正常出现但是重要的关注信息

6

Info

表示需要记录的提示信息

7

Debug

表示调试过程产生的信息

 

1.3  文档使用说明

本文将系统日志信息按照业务模块分类,以表格的形式对日志信息进行介绍。有关表中各项的含义请参考1-6

表1-6 日志信息表内容说明

表项

说明

举例

关键字

日志信息的概述,用于搜索或助记

OPENFLOW_SESSION_UP

日志内容

显示日志信息的具体内容

An OpenFlow device with datapath ID $1 OpenFlow IP $2 descriptor $3 was connected to the controller $4.

参数解释

按照参数在日志中出现的顺序对参数进行解释

参数顺序用“$数字”表示,例如“$1”表示在该日志中出现的第一个参数

$1OpenFlow设备的Datapath ID

$2OpenFlow设备的管理IP地址

$3OpenFlow设备的描述信息

$4:控制器IP地址

日志等级

日志严重等级

Info

举例

日志信息举例

An OpenFlow device with datapath ID 01:21:cc:3e:5f:09:04:7f OpenFlow IP 192.168.100.1 descriptor 192.168.200.1 was connected to the controller 10.10.10.1.

日志说明

解释日志信息和日志生成的原因

有一台OpenFlow设备与控制器建立了连接。该日志会在网络设备和控制器建立OpenFlow连接时输出

处理建议

建议用户应采取哪些处理措施

系统正常运行时产生的信息,无需处理

 

2 LINK

本节介绍链路模块相关的日志信息。

2.1  链路下线

关键字

LINK_OFFLINE

日志内容

$1_$2_Link status changed to down

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

日志等级

Emergency

举例

Link status changed to down

日志说明

当链路下线时系统会发送未恢复的日志信息;当链路重新上线后,会发送已恢复的日志信息

处理建议

请检查链路相关的设备是否下线,以及相关的接口是否downBGP邻居是否下线

 

2.2  链路延时达到阈值

关键字

LINK_DELAY_EXCEED_THRESHOLD

日志内容

$1_$2_Current delay $3 exceeded alarm threshold $4

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:当前链路延时

$4:链路延时阈值

日志等级

Warning,Emergency

举例

172.39.20.73 To 172.39.20.76 Link1_Current delay 250ms exceeded alarm threshold 200ms.

日志说明

链路延时达到告警阈值时,发送相应的未恢复的日志信息;当链路延时低于阈值后,会对应发送已恢复的日志信息。告警阈值可手动配置,缺省情况下,严重告警阈值为200ms,紧急告警阈值为500ms

处理建议

请检查链路相关设备接入的网络是否稳定

 

2.3  链路抖动达到阈值

关键字

LINK_JITTER_EXCEED_THRESHOLD

日志内容

$1_$2_Current jitter $3 exceeded alarm threshold $4

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:当前链路抖动

$4:链路抖动阈值

日志等级

Warning,Emergency

举例

172.39.20.72 To 172.39.20.73 Link1_Current jitter 228ms exceeded alarm threshold 200ms

日志说明

抖动达到告警阈值时,发送相应的未恢复的日志信息;当链路抖动低于阈值后,会发送对应的已恢复的日志信息。告警阈值可手动配置,缺省情况下,严重告警阈值为50ms,紧急告警阈值为200ms

处理建议

请检查链路相关设备接入的网络是否稳定

 

2.4  链路丢包率达到阈值

关键字

LOSS_PACKET_EXCEED_THRESHOLD

日志内容

$1_$2_Current packet loss ratio $3 exceeded alarm threshold $4

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:当前链路丢包率

$4:链路丢包率阈值

日志等级

Warning,Emergency

举例

wan-172.39.20.73-Tunnel4-172.39.20.72-Tunnel4_Current packet loss 55% exceeded alarm threshold 50%

日志说明

丢包率达到告警阈值时,发送相应的未恢复的日志信息;当链路丢包率低于阈值后,会发送对应的已恢复的日志信息。告警阈值可手动配置,缺省情况下,严重告警阈值为30%,紧急告警阈值为50%

处理建议

请检查链路相关设备接入的网络是否稳定

 

2.5  链路带宽利用率

关键字

LOSS_BANDWIDTH_USAGE_THRESHOLD

日志内容

$1_$2_Current bandwidth usage ratio $3 exceeded alarm threshold $4

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:当前链路带宽利用率

$4:链路带宽利用率阈值

日志等级

Warning,Emergency

举例

172.39.20.72 To 172.39.20.73 Link1 Current bandWidth usage 100.0% exceeded alarm threshold 90%

日志说明

带宽利用率达到告警阈值时,发送相应的未恢复的日志信息;当链路带宽利用率低于阈值后,会发送对应的已恢复的日志信息。告警阈值可手动配置,缺省情况下,严重告警阈值为80%,紧急告警阈值为90%

处理建议

请检查链路相关设备接入的网络带宽是否满足流量要求

 

3 DEVICE

本节介绍设备相关的日志信息。

3.1  设备CPU使用率达到阈值

关键字

CPU_USAGE_EXCEED_THRESHOLD

日志内容

$1_$2_Current CPU usage $3 exceeded alarm threshold $4position chassis $5 slot $6

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:当前CPU使用百分比

$4CPU使用阈值

$5:当前设备的框位号

$6:板卡的槽位号

日志等级

Warning,Emergency

举例

172.39.20.72_Current CPU usage 86% exceeded alarm threshold 85%, position chassis:1 slot:4

日志说明

设备的CPU利用率达到告警阈值后发送未恢复的日志信息;当CPU使用率低于阈值后,会发送已恢复的日志信息。各系列设备缺省的告警阈值如下:

·     H3C MSR系列设备只有紧急告警阈值,为99%

·     其他型号的设备,严重告警阈值为85%,紧急告警阈值为90%

处理建议

若故障长时间未恢复,请联系H3C技术支持工程师

 

3.2  设备温度达到阈值

关键字

TEMPERATURE_EXCEED_THRESHOLD

日志内容

$1_$2_Current $3 temperature $4 exceeded alarm threshold $5position chassis $6 slot $7

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:传感器类型,取值包括inflowoutflowHotspot,表示入风口、出风口和热点传感器

$4:当前温度

$5:温度阈值

$6:当前设备的框位号

$7:板卡的槽位号

日志等级

Warning,Emergency

举例

172.39.20.72_Current inflow temperature 68 exceeded alarm threshold 65, position chassis:1 slot:4

日志说明

设备的温度达到告警阈值后发送未恢复的日志信息;当温度低于阈值后,会发送已恢复的日志信息。缺省情况下,各系列设备阈值如下:

·     H3C MSR系列设备,严重告警阈值为65,紧急告警阈值为75

·     H3C SR6600系列设备,严重告警阈值为72,紧急告警阈值为77

·     其他型号的设备严重告警阈值为75,紧急告警阈值为88

处理建议

请检查机房环境及设备环境的散热是否正常

 

3.3  设备剩余内存低于阈值

关键字

MEMORY_FREE_LOW_THRESHOLD

日志内容

$1_$2_Current free memory $3 is lower than alarm threshold $4position chassis $5 slot $6

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3当前剩余内存

$4剩余内存阈值

$5:当前设备的框位号

$6:板卡的槽位号

日志等级

Warning,Emergency

举例

172.39.20.72_Current free memory 135MB is lower than alarm threshold 256MB, position chassis:1 slot:4

日志说明

设备的剩余内存低于告警阈值后发送未恢复的日志信息;当剩余内存达到阈值后,会发送已恢复的日志信息。各系列设备缺省的告警阈值如下:

·     H3C MSR系列设备,严重告警阈值为256MB,紧急告警阈值为96MB

·     其他型号的设备严重告警阈值为128MB,紧急告警阈值为48MB

处理建议

若告警长时间未恢复,请联系H3C技术支持工程师

 

3.4  设备下线

关键字

DEVICE_OFFLINE

日志内容

$1_$2_Device went offline. Reason: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:设备下线告警类型

日志等级

Emergency

举例

172.39.20.72_Device went offline. Reason: UnManageable

日志说明

设备下线时生成该系统日志

处理建议

请根据设备下线告警类型选择相应的处理方式

 

3.5  设备升级重启

关键字

DEVICE_UPGRADE_REBOOT

日志内容

$1_$2_The device restarted after the controller upgraded software for it.

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

日志等级

WarningEmergency

举例

recovered_172.39.20.72_The device restarted after the controller upgraded software for it.

日志说明

控制器升级设备版本,设备重启时生成该系统日志

处理建议

控制器正常运行产生的日志,无需处理

 

3.6  未获取到设备型号信息

关键字

GET_DEVICE_MODEL_FAILED

日志内容

$1_$2_Failed to get the device model

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

日志等级

Emergency

举例

172.39.20.72_Failed to get the device model

日志说明

未获取到设备型号信息

处理建议

检查设备与控制器的NETCONF配置是否正确,或手动配置设备型号等信息

 

3.7  控制器与设备的连接中断

关键字

CONTROLLER_DEVICE_DISCONNECT

日志内容

$1_$2_The connection between controller and device is disconnected

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

日志等级

Emergency

举例

172.39.20.72_The connection between controller and device is disconnected

日志说明

当添加设备的方式断开后,发送未恢复的日志信息

·     当控制器与手动添加或通过BGP自动发现的设备断开连接时,日志内容显示为“连接中断”

·     当控制器与通过OpenFlow自动发现的设备断开连接时,日志内容显示为“OpenFlow连接中断”

处理建议

请检查设备与控制器的NETCONF配置是否正确或手动配置设备型号等信息

 

3.8  设备信息冲突

关键字

DEVICE_CONFLICT

日志内容

$1_$2_The device conflicts with device $3. Reason: $4

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:与此设备冲突的设备的名称

$4:冲突原因,取值包括IP地址、MAC地址和序列号

日志等级

Emergency

举例

172.39.20.72_The device conflicts with device1. Reason: IP

日志说明

设备IP地址、MAC地址或序列号冲突

处理建议

更改设备信息或将其中一台冲突的设备删除

 

3.9  板卡运行不稳定

关键字

BOARD_ALARM

日志内容

$1_$2_The board is running exceptionally. Board position: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:异常板卡位置

日志等级

Warning

举例

3_Main Processing Unit_The board is running exceptionally. Board position: 2/4

日志说明

板卡运行不稳定或启动异常时发送该日志

处理建议

请根据对板卡执行的操作对该日志进行处理:

·     如果当前板卡正在执行重启板卡的操作,则等待板卡恢复正常即可

·     如果确认已拔出板卡,请在SeerEngine-SDWAN控制器的[基础网络/资源/设备管理]页面,单击[设备板卡管理]页签,单击<确认拔出>按钮将此告警置为失效

·     如果确认板卡损坏,请联系H3C技术支持工程师

 

3.10  板卡异常

关键字

BOARD_ERROR

日志内容

$1_$2_The board fails. Please handle the board as soon as possible. Board position: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:异常板卡位置

日志等级

Emergency

举例

3_Main Processing Unit_The board fails. Please handle the board as soon as possible. Board position: 2/4

日志说明

板卡运行过程中损坏、重启或拔出板卡时发送该日志

处理建议

请在SeerEngine-SDWAN控制器的[基础网络/资源/设备管理]页面,单击[设备板卡管理]页签,查看板卡当前的运行状态,等待一段时间后查看板卡是否恢复正常。若无法恢复,请联系H3C技术支持工程师

 

3.11  板卡序列号冲突

关键字

BOARD_SN_CONFLICT

日志内容

$1_$2_The boards of the device have the same serial number. Board positions: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:异常板卡位置

日志等级

Warning

举例

3_Main Processing Unit_The boards of the device have the same serial number. Board positions: 3/4, 2/4

日志说明

同一设备的不同板卡具有相同的序列号时发送此日志

处理建议

请将其中一个板卡拔出,若主控板与其他板卡冲突,建议移除其他板卡

 

3.12  板卡替换

关键字

BOARD_REPLACE

日志内容

$1_$2_The board of the device is replaced. Board position: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:异常板卡位置

日志等级

Emergency

举例

3_Main Processing Unit_The board of the device is replaced. Board position: 2/4

日志说明

控制器检测到板卡序列号发生变化时发送此日志

处理建议

请根据对板卡执行的操作对该日志进行处理:

·     如果确认板卡发生了替换,请在SeerEngine-SDWAN控制器的[基础网络/资源/设备管理]页面,单击[设备板卡管理]页签,单击<确认替换>按钮

·     若未替换板卡而发送该日志,请联系H3C技术支持工程师

 

3.13  子卡异常

关键字

SUB_BOARD_ERROR

日志内容

$1_$2_There is a fault on the sub card. Please handle it as soon as possible. Sub card position: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:异常子卡位置

日志等级

Emergency

举例

VNIC-E1000_There is a fault on the sub card. Please handle it as soon as possible. Sub card position: 2/4

日志说明

子卡运行过程中损坏、重启或拔出时发送该日志

处理建议

请根据对子卡执行的操作对该日志进行处理:

·     如果当前子卡正在执行重启的操作,则等待子卡恢复正常即可

·     如果确认已拔出板子卡,请在SeerEngine-SDWAN控制器的[基础网络/资源/设备管理]页面,单击[设备板卡管理]页签,单击<确认拔出>按钮

·     如果确认子卡损坏,请联系H3C技术支持工程师

 

3.14  子卡替换

关键字

SUB_BOARD_REPLACED

日志内容

$1_$2_The sub card of the device is replaced. Sub card position: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:异常子卡位置

日志等级

Emergency

举例

VNIC-E1000_The subcard of the device is replaced. Subcard position: 2/4

日志说明

子卡序列号发生变化时发送该日志

处理建议

请根据对子卡执行的操作对该日志进行处理:

·     如果确认子卡发生了替换,请在SeerEngine-SDWAN控制器的[基础网络/资源/设备管理]页面,单击[设备板卡管理]页签,单击<确认替换>按钮

·     若未替换子卡即发送该日志,请联系H3C技术支持工程师

 

4 DATABASE

本节介绍数据库相关的日志信息。

4.1  MongoDB数据库启动失败

关键字

MONGODB_START_FAILED

日志内容

$1_$2_Failed to start MongoDB. Failure reason:$3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:失败原因

日志等级

Critical

举例

172.39.20.120_Failed to start MongoDB. Failure reason: host format error

日志说明

MongoDB数据库启动失败时发送该日志

处理建议

对于系统管理员来说,建议根据日志信息进行相应的处理:

·     端口被占用:更换为其他端口重试,或关闭占用端口的进程(port occupied)

·     主机格式错误:更改为正确的IP地址格式(host format error)

·     连接主机失败:检查网络连接是否正常,防火墙是否允许相应流量通过(failed connection host

·     数据库版本低于3.0:升级MongoDB的版本(the database version is below 3.0

·     数据库路径无效:设置正确的数据库路径(the path of database is invalid

·     数据库路径中存在MMAPv1的数据文件或者已经有一个MongoDB数据库实例在运行:采用手动启动MongoDB的方式或者关闭正在运行的数据库实例(MMAPv1 data files exist in the database path or there is already a database instance running

·     未知:尝试手动启动MongoDB,查看启动失败的原因(MongoDB server is existed, will shutdown and restart,please wait for 10 second

对于普通用户来说,无需关注。

 

4.2  MongoDB数据库连接失败

关键字

MONGODB_CONNECT_FAILED

日志内容

$1_$2_Failed to connect to MongoDB. Failure reason: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:失败原因

日志等级

Critical

举例

172.39.20.120_Failed to connect to MongoDB. Failure reason: account has not authorization

日志说明

数据库连接失败时发送该日志

处理建议

对于系统管理员来说,根据日志原因进行相应的处理:

·     主机端口错误或数据库没有启动:更改成正确的端口或重启数据库(host or port is wrong,or database service is not started

·     账户没有权限:设置一个拥有权限的数据库用户(account has not authorization

对于普通用户来说,无需关注。

 

4.3  MongoDB数据库连接中断

关键字

MONGODB_LOST_CONNECT

日志内容

$1_$2_lost to connect to MongoDB. Failure reason: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:失败原因

日志等级

Critical

举例

mongodb_Lost connection to MongoDB. Failure reason: account has not authorization

日志说明

数据库连接中断时发送该日志

处理建议

对于系统管理员来说,根据日志原因进行相应的处理:

·     主机端口错误或数据库没有启动:更改成正确的端口或重启数据库(host or port is wrong,or database service is not started

·     账户没有权限:设置一个拥有权限的数据库用户(account has not authorization

对于普通用户来说,无需关注。

 

4.4  MongoDB主机连接中断

关键字

MONGODB_LOST_HOST_CONNECT

日志内容

$1_$2_Lost connection to the host of MongoDB. Failure reason: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:失败原因

日志等级

Critical

举例

mongodb_Lost connection to the host of MongoDB. Failure reason: host or port is wrong,or database service is not started.

日志说明

主机连接中断时发送该日志

处理建议

对于系统管理员来说,根据日志原因进行相应的处理:

·     主机端口错误或主机没有启动:更改成正确的端口或重启主机(host or port is wrong,or database service is not started

对于普通用户来说,无需关注。

 

4.5  Datastore数据库不可用

关键字

DATA_STORE_INTERRUPT

日志内容

$1_$2_The database is unavailable

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

日志等级

Critical

举例

172.39.18.26_The database is unavailable

日志说明

由于控制器集群分裂,ODL自带的数据库不可读或者不可写时发送未恢复的日志,集群重新正常工作后,发送已恢复的日志

处理建议

SeerEngine-SDWAN控制器的[保障/运维管理/集群管理]页面检查并修复状态异常的控制器

 

5 CONTROLLER

本节介绍控制器相关的日志信息。

5.1  控制器内存使用率达到阈值

关键字

CONTROLLER_MEMORY_EXCEED_THRESHOLD

日志内容

$1_$2_Current controller memory usage $3 exceeded alarm threshold $4

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3当前内存使用百分比

$4:内存使用阈值,单位为百分比

日志等级

Warning,Emergency

举例

172.39.36.5_Current controller memory usage 54.38% exceeded alarm threshold 50%

日志说明

控制器内存使用达到阈值时发送该日志。告警阈值可手动配置,缺省情况下,严重级别日志阈值为80%,紧急级别日志阈值为90%

处理建议

对于系统管理员来说,建议排查:

·     请检查内存使用阈值设置是否合理

·     查看控制器进程,关闭冗余进程,释放内存

对于普通用户来说,无需关注。

 

5.2  控制器硬盘使用率达到阈值

关键字

CONTROLLER_DISK_EXCEED_THRESHOLD

日志内容

$1_$2_Current disk usage $3 of controller disk partition $4 exceeded alarm threshold $5

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:当前硬盘使用百分比

$4:硬盘分区名称

$5:硬盘使用阈值,单位为百分比

日志等级

Warning,Emergency

举例

172.39.36.5_Current disk usage 81% of controller disk partition / exceeded alarm threshold 80%

日志说明

控制器硬盘不同分区达到阈值发送日志。日志阈值可手动配置,缺省情况下,严重级别日志阈值为80%,紧急级别日志阈值为90%

处理建议

·     请检查内存硬盘使用阈值设置是否合理

·     清除相应硬盘中的冗余文件,释放硬盘空间

 

5.3  控制器CPU使用率达到阈值

关键字

CONTROLLER_CPU_EXCEED_THRESHOLD

日志内容

$1_$2_Current controller CPU usage $3 exceeded alarm threshold $4

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3:当前CPU使用百分比

$4CPU使用阈值,单位为百分比

日志等级

Warning,Emergency

举例

172.39.36.5_Current controller CPU usage 85% exceeded alarm threshold 80%

日志说明

控制器CPU达到阈值发送日志。日志阈值可手动配置,缺省情况下,严重级别日志阈值为80%,紧急级别日志阈值为90%

处理建议

对于系统管理员来说,建议排查:

·     请检查CPU使用阈值设置是否合理

·     查看控制器进程,关闭冗余进程释放CPU空间

对于普通用户来说,无需关注。

 

5.4  Akka集群Leader变化

关键字

AKKA_LEADER_CHANGE

日志内容

$1_$2_Cluster akka leader changed. New leader: $3

参数解释

$1:日志来源

$2:日志的恢复状态,仅当日志恢复时携带此参数,取值为Recover

$3Akka集群新Leader控制器的IP地址

日志等级

Info

举例

192.168.25.46_Cluster akka leader changed. New leader:  192.168.25.46

日志说明

当控制器集群Leader改变时,新Leader控制器和原Leader控制器都会发送日志

处理建议

系统运行中产生的信息,无需处理

 

新华三官网
联系我们