03-Portal故障处理手册
本章节下载: 03-Portal故障处理手册 (317.33 KB)
用户访问任意非Portal Web服务器网页,或者直接访问Portal Web服务器,无法推出Portal登录页面。
本类故障的常见原因主要包括:
· 主机、服务器和设备之间的路由不通。
· 浏览器开启了HTTP代理功能。
· 用户输入的网址内携带了非标准的TCP端口号。
· 中间网络或DNS服务器出现问题。
· 设备上的HTTPS重定向功能不能正常使用。
· 用户访问的HTTPS协议的网站开启了HSTS(HTTP Strict Transport Security,HTTP严格传输安全协议)功能。
· Portal服务器无法识别转义后的URL特殊字符。
· Portal服务器配置错误。
本类故障的诊断流程如图1-1所示:
图1-1 Portal认证页面无法弹出的故障诊断流程图
(1) 确认终端和Portal服务器上的路由配置是否正确。
在终端上关闭防火墙功能后,执行Ping操作检查Portal服务器是否可达,如果Ping不通,首先需要确认终端和Portal服务器上的路由配置是否正确,同时需要注意:
¡ Portal服务器到终端的回程路由是否配置正确。
¡ 终端或者Portal服务器上是否存在有多个网卡。
在有多个网卡的情况下,终端和服务器之间的流量不一定全部经过配置有Portal认证的网络。以Windows终端为例,在cmd窗口上执行route print命令查看具体的路由信息,然后确定用户的Web访问流量是从哪个网卡出去。
最后,采取分段Ping的手段定位问题。首先从终端Ping网关(需要先取消认证,否则Ping不通),然后再从网关上Ping服务器。
(2) 终端的浏览器上是否开启了HTTP代理功能。
浏览器上开启了HTTP代理功能会导致用户无法访问Portal认证页面。以Windows IE浏览器为例,请打开IE浏览器,单击“工具”,选择“Internet选项>连接>局域网设置>代理服务器”中,关闭HTTP代理功能。
(3) 输入的网址是否使用非标准TCP端口
非标准TCP端口是指非80或非443端口。用户输入的网址中若包含非标准TCP端口,会导致Portal认证页面无法弹出,例如http://10.1.1.1:18008。对于HTTP协议的网址,请使用80;对于HTTPS协议的网址,请使用443。
(4) 中间网络或DNS服务器出现问题。
a. 确认设备上是否将DNS服务器IP地址配置为允许访问的地址。
b. 检查中间网络连通性以及排查DNS服务器故障,在网关上进行流量统计(分别对连接终端下行接口和连接DNS服务器的上行接口)或镜像获取终端访问DNS服务器的报文,确认网关是否已将DNS请求发出,但却未收到回应报文。
(5) HTTPS重定向功能是否开启。
a. 确认用户是否访问HTTPS网站。若是,由于Portal需要对用户的HTTPS请求进行重定向。在配置内部侦听端口号之前,需确保该端口号没有被其他服务占用,请先通过display tcp命令查看已被占用的TCP端口号。
b. 检查HTTPS重定向服务器关联的SSL服务器端策略是否存在,若不存在,请完善相关配置。
(6) HTTPS网站开启了HSTS功能。
HTTPS网站开启了HSTS功能后,要求浏览器必须使用HTTPS访问,而且证书必须要合法。设备对用户浏览器进行HTTPS重定向时,设备会使用自签名证书(设备没有目标网站的证书,只能使用自签名证书)伪装成目标网站和浏览器建立SSL连接,此时浏览器一旦检测到证书不受信任,将会导致HTTPS重定向失败,无法弹出Portal认证页面。这种情况依赖于具体网站配置的HSTS协议的强制要求,无法解决。此时,建议用户更换其他网站进行尝试。
(7) Portal服务器配置是否正确。
¡ 检查Portal服务器上是否配置了IP地址组,以及是否将设备与IP地址组关联。
¡ 检查终端IP地址是否在Portal服务器上配置的IP地址组范围内。
(8) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息和告警信息。
¡ 服务器上Portal相关配置截图。
¡ 设备与服务器之间的抓包文件。
¡ 在浏览器上对问题现象进行截图。
¡ 在设备上通过display portal rule命令查看用于报文匹配的Portal过滤规则信息。
¡ 出现问题时,在设备上通过debugging portal、debugging http-redirect all和debugging ip packet命令收集Debug信息。
无
无
Portal用户认证失败或者认证异常。
本类故障的常见原因主要包括:
· 设备上Portal服务器视图下配置的共享密钥和Portal认证服务器上配置的不一致。
· 设备上Portal服务器视图下配置的Portal认证服务器地址不存在。
· Portal报文非法。
· Portal用户使用的认证域配置错误。
· RADIUS视图下配置共享密钥与RADIUS服务器上配置的不一致。
· 获取用户物理信息失败。
· RADIUS服务器认证拒绝。
· RADIUS服务器无响应。
· 授权ACL或者User Profile下发失败。
本类故障的诊断流程如图1-2所示。
图1-2 Portal认证失败的故障诊断流程图
(1) 检查设备上Portal服务器视图下配置的共享密钥与Portal认证服务器上配置的是否一致。
如图1-3所示,以iMC服务器为例,当输入“用户名”和“账号密码”,点击“上线”后登录界面上出现“向设备发送请求超时”的提示,表示设备上Portal服务器视图下配置的共享密钥有可能与服务器上配置的不一致。
图1-3 Portal登录界面打印错误提示
此时,可以通过如下方法来检查:
¡ 在设备上执行debugging portal error命令,打开Portal错误调试信息开关。如果设备上打印如下信息,则可以确认设备和Portal服务器配置的共享密钥不一致。
*Jul 28 17:51:20:774 2021 Sysname PORTAL/7/ERROR: -MDC=1; Packet validity check failed due to invalid key.
¡ 通过display portal auth-error-record命令查看用户Portal认证异常记录中的Auth error reason字段是否显示为“Packet validity check failed due to invalid authenticator”。
如果确认不一致,请修改设备上Portal服务器视图下配置的共享密钥或者Portal认证服务器上配置的共享密钥,使其两者保持一致。
(2) 检查设备上Portal服务器视图下配置的Portal认证服务器地址是否存在。
当设备收到Portal服务器发送的认证报文时,设备会校验报文的源IP地址是否在设备上已配置的Portal认证服务器地址列表中。如果不在,则认为认证报文是非法报文,会将它丢弃。
如图1-4所示,以iMC服务器为例,当输入“用户名”和“账号密码”,点击“上线”后登录界面上出现“向设备发送请求超时”的提示,表示设备上Portal服务器视图下配置的Portal认证服务器地址可能不存在。
图1-4 Portal登录界面打印错误提示
此时,可以通过如下方法来检查:
¡ 在设备上执行debugging portal error命令,打开Portal错误调试信息开关。如果设备上打印如下信息,则可以确认设备上配置的Portal认证服务器IP地址错误。
*Jul 28 19:15:10:665 2021 Sysname PORTAL/7/ERROR: -MDC=1;Packet source unknown. Server IP:192.168.161.188, VRF Index:0.
¡ 通过display portal auth-error-record命令查看用户Portal认证异常记录,查看Auth error reason字段中是否显示为“Packet source unknown. Server IP:X.X.X.X, VRF index:0”。
如果确认不正确,请在设备的Portal服务器视图下,执行ip命令修改Portal服务器的IP地址。
(3) 检查Portal报文是否非法。
设备收到Portal服务器发送的Portal协议报文后,会对报文做合法性校验。如果报文长度不对、报文校验段错误,则该报文将被视为非法报文而丢弃。
可以通过如下方法来检查Portal协议报文是否非法:
¡ 通过display portal packet statistics命令查看是否存在非法报文计数增长,如果存在,可通过在设备上执行debugging portal error命令,打开Portal错误调试信息开关排查具体原因。
¡ 通过display portal auth-error-record命令查看用户Portal认证异常记录,查看Auth error reason字段是否显示为“Packet type invalid”或者“Packet validity check failed because packet length and version don't match”。
如果Portal协议报文非法,请确认报文非法的原因并进行修改,使Portal协议报文成为合法报文。
(4) 检查Portal用户使用的认证域配置。
Portal用户将按照如下先后顺序选择认证域:接口上指定的Portal用户使用的ISP域-->用户名中携带的ISP域-->系统缺省的ISP域。如果根据以上原则决定的认证域在设备上不存在,且设备上为未知域名的用户指定了此不存在的ISP域,将会导致用户将无法认证。
通过display portal命令查看认证接口上是否引用了认证域。
¡ 如果引用了认证域,确认设备上是否存在该认证域以及该域下的认证、授权、计费方案是否配置准确。
¡ 如果没有引用认证域,请检查用户名中携带的域是否存在,如果不存在,请检查是否存在缺省认证域并确认缺省域下配置是否正确。
如图1-5所示,以iMC为例,当输入“用户名”和“账号密码”,点击“上线”后登录界面上出现“设备拒绝请求”的提示,表示设备上认证域可能配置不正确。
图1-5 Portal登录界面打印错误提示
此时,可以通过如下方法来检查:
¡ 在设备上执行debugging portal error命令,打开Portal错误调试信息开关。如果设备上打印如下信息,则可能是设备上认证域配置错误,需要进一步排查。
*Jul 28 19:49:12:725 2021 Sysname PORTAL/7/ERROR: -MDC=1; User-SM [21.0.0.21]: AAA processed authentication request and returned error.
¡ 通过display portal auth-fail-record命令查看Auth error reason字段是否显示为“AAA authentication failed”或“AAA returned an error”。
如果认证域配置不正确,请执行相应的命令将Portal用户使用的认证域配置修改正确。
(5) 检查RADIUS视图下配置共享密钥是否与RADIUS服务器上配置的一致。
如图1-6所示,以iMC服务器为例,当输入“用户名”和“账号密码”,点击“上线”后登录界面上出现“向设备发送请求超时”的提示,表示RADIUS视图下共享密钥和服务器上配置的不一致。
图1-6 Portal登录界面打印错误提示
在设备上执行debugging radius error命令,打开RADIUS错误调试信息开关。如果设备上打印如下信息,则可以确认设备上RADIUS视图下配置共享密钥和RADIUS服务器上配置的不一致。
*Jul 28 19:49:12:725 2021 Sysname RADIUS/7/ERROR: -MDC=1; The response packet has an invalid Response Authenticator value.
当设备向RADIUS服务器发起认证请求时,服务器会首先对请求报文使用共享密钥进行校验,如果校验失败,服务器会通知设备校验失败。如果共享密钥配置错误,请将RADIUS视图下共享密钥和服务器上配置的保持一致。
(6) 检查是否获取用户物理信息失败。
用户上线过程中Portal会查找用户物理信息,并根据对应的物理信息确定用户所在的接口等信息。如果查找物理信息失败,则用户会上线失败。
可通过如下方式进行检查:
¡ 在设备上执行debugging portal event命令,打开Portal事件调试信息开关。如果设备上打印如下信息,表示获取用户物理信息失败。
*Jul 28 19:49:12:725 2021 Sysname PORTAL/7/ERROR: -MDC=1; User-SM [21.0.0.21]: Failed to find physical info for ack_info.
¡ 通过display portal auth-error-record或者display portal auth-fail-record命令查看Auth error reason字段是否显示为“Failed to obtain user physical information”或“Failed to get physical information”。
确认获取用户物理信息失败后,请排查设备是否存在该认证用户的表项,如果不存在,请进一步排查具体原因。
(7) 检查RADIUS服务器是否认证拒绝。
a. RADIUS服务器回应认证拒绝有多种原因,最常见的有用户名密码错误、RADIUS服务器授权策略无法匹配等。这些问题,首先需要查看服务器端的认证日志或者在设备上通过debugging radius error命令打开RADIUS错误调试信息开关查看相关的Debug信息找到根本原因后,再调整服务器、终端或设备配置。
b. 执行display portal auth-fail-record命令,通过查看显示信息中的Auth error reason字段确认用户Portal认证失败原因。
(8) 检查RADIUS服务器是否无响应。
¡ 可通过如下三种方式来检查RADIUS服务器是否回应。
¡ 执行display radius scheme命令,通过State字段查看服务器状态。如果为Blocked,则表示服务器不可用。
¡ 查看设备是否打印如下日志:
RADIUS/4/RADIUS_AUTH_SERVER_DOWN: -MDC=1; RADIUS authentication server was
blocked: server IP=192.168.161.188, port=1812, VPN instance=public.
¡ 在设备上执行debugging radius event命令打开RADIUS事件调试信息开关,如果设备上打印如下信息,表示RADIUS服务器无回应。
*Jul 28 19:49:12:725 2021 Sysname RADIUS/7/evnet: -MDC=1; Reached the maximum retries.
确认RADIUS服务器无响应后,可根据如下步骤进行处理:
a. 确认服务器是否添加了设备IP地址。
- 如果没有添加,请添加正确的设备IP地址。如果已经添加,那么需要确定服务器添加的设备IP地址与认证请求的源IP地址是否一致(设备默认出接口的IP地址作为向RADIUS服务器发送RADIUS报文时使用的源IP地址)。
- 如果已添加,则需确认服务器上添加的设备IP地址必须为认证请求的源IP地址。
b. 确认设备和服务器上同时获取报文确认中间链路是否存在问题,例如中间网络存在防火墙,防火墙未放通RADIUS(默认认证端口:1812)报文。如果出现大量用户无法认证,设备上的日志里出现RADIUS服务器Down记录,那么大概率是服务器或中间网络出现异常,需要逐一排查。
(9) 检查是否授权ACL或者UserProfile下发失败。
如果设备上开启了Portal的授权信息严格检查模式,当认证服务器下发的授权ACL、User Profile在设备上不存在或者设备下发User Profile失败时,设备将强制Portal用户下线。
a. 通过查看display portal命令的Strict checking字段确认设备上是否开启了严格检查,再根据用户需求判断是否需要开启。如果不需要,直接关闭。如果需要,请执行步骤b。
b. 通过在设备上执行display acl或者display user-profile命令,确认AAA服务器是否授权了不存在的ACL或者User Profile。如果不存在,请确认服务器是否需要授权或者在设备上增加相应的ACL或User Profile配置。
(10) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
¡ display portal auth-error-record、display portal auth-fail-record收集信息。
¡ Portal服务器上Portal相关配置截图。
¡ 设备与AAA服务器间的抓包文件。
¡ 在客户端浏览器上对问题现象截图。
¡ 通过开启debugging portal命令收集调试信息。
无
· RADIUS/4/RADIUS_AUTH_SERVER_DOWN
Portal用户上线一段时间后掉线。
本类故障的常见原因主要包括:
· 用户会话超时时间超时。
· 用户闲置切断。
· 计费更新失败。
· 用户流量达到阈值。
· 服务器强制用户下线。
· 用户在线探测失败下线。
· 用户上线的接口down。
本类故障的诊断流程如图1-7所示。
图1-7 Portal认证用户掉线的故障诊断流程图
(1) 通过portal logout-record enable命令,开启Portal用户下线信息记录功能。
(2) 检查用户会话超时时间是否超时。
如果AAA服务器给Portal用户下发了会话时长,即用户单次在线时长。用户在线时长超过会话时长后,设备会触发用户下线。
可通过如下三种方法确认是否因会话超时导致Portal用户下线:
¡ 查看AAA服务器上记录的用户下线记录。
¡ 通过display portal logout-record命令查询用户下线记录。
<Sysname> display portal logout-record all
Total logout records: 1
User name : gkt
User MAC : 0800-2700-94ad
Interface : Vlan-interface100
User IP address : 21.0.0.20
AP : N/A
SSID : N/A
User login time : 2021-07-29 11:05:58
User logout time : 2021-07-29 11:05:58
Logout reason : Session timeout
¡ 在设备上执行debugging portal error命令,打开Portal错误调试信息开关。如果设备上打印如下信息,则可以确认因用户会话超时导致Portal用户下线。
*Jul 28 17:51:20:774 2021 Sysname PORTAL/7/ERROR: -MDC=1; Session timer timed out and the user will be logged off.
用户会话超时触发的下线属于正常下线,用户重新上线即可。
(3) 检查是否为用户闲置切断。
如果设备或者AAA服务器授权了用户闲置切断时长,用户上线后,设备会周期性检测用户的流量,若某用户在指定的闲置检测时间内产生的流量小于指定的数据流量,则会被强制下线。
可通过如下三种方法确认是否因用户闲置切换功能导致Portal用户下线:
¡ 查看AAA服务器上记录的用户下线记录。
¡ 通过display portal logout-record命令查询用户下线记录。
<Sysname> display portal logout-record all
Total logout records: 1
User name : gkt
User MAC : 0800-2700-94ad
Interface : Vlan-interface100
User IP address : 21.0.0.20
AP : N/A
SSID : N/A
User login time : 2021-07-29 11:05:58
User logout time : 2021-07-29 11:05:58
Logout reason : Idle timeout
¡ 在设备上执行debugging portal error命令,打开Portal错误调试信息开关。如果设备上打印如下信息,则可以确认因用户会话超时导致Portal用户下线。
*Jul 28 17:51:20:774 2021 Sysname PORTAL/7/ERROR: -MDC=1; Idle-cut timer timed out and the user will be logged off.
¡ 用户闲置切断触发的下线属于正常下线,用户重新上线即可。
(4) 检查是否为计费更新失败。
远程Portal认证用户上线,设备会定期向AAA服务器发送计费更新报文。当设备与AAA服务器链路不通或者服务器故障时,计费更新报文会发送失败。当达到最大重传次数后,如果计费更新报文还是发送失败并且设备上配置了用户计费更新失败策略(通过accounting update-fail offline命令配置),则触发用户下线。
可通过如下方法确认是否因计费更新失败导致用户下线:
¡ 通过display portal logout-record命令查询用户下线记录。
<Sysname> display portal logout-record all
Total logout records: 1
User name : gkt
User MAC : 0800-2700-94ad
Interface : Vlan-interface100
User IP address : 21.0.0.20
AP : N/A
SSID : N/A
User login time : 2021-07-29 11:05:58
User logout time : 2021-07-29 11:05:58
Logout reason : Accounting update failure
¡ 通过display interface查看设备上连接AAA服务器的端口是否发生过变化,检查AAA服务器否有异常记录等。或者通过display radius scheme命令显示的State字段查看服务器状态是否为Block,如果是,则可能是计费更新失败导致的下线。
¡ 在设备上执行debugging portal error命令,打开Portal错误调试信息开关。如果设备上打印如下信息,则可以确认因用户会话超时导致Portal用户下线。
*Jul 28 17:51:20:774 2021 Sysname PORTAL/7/ERROR: -MDC=1; Processed accounting-update failed and user logout.
如果确认是计费更新失败导致的用户下线,请检查设备与服务器之间的链路状态,以及设备和AAA服务器的相关计费配置是否发生过更改。
(5) 检查是否为用户流量达到阈值。
用户上线时,如果AAA服务器下发了流量阈值,当用户的流量超过AAA服务器下发的流量阈值时,设备就会强制用户下线。
¡ 可通过如下方法确认是否因用户流量达到阈值导致用户下线:
¡ 查看AAA服务器上记录的用户下线记录。
¡ 通过display portal logout-record命令查询用户下线记录。
<Sysname> display portal logout-record all
Total logout records: 1
User name : gkt
User MAC : 0800-2700-94ad
Interface : Vlan-interface100
User IP address : 21.0.0.20
AP : N/A
SSID : N/A
User login time : 2021-07-29 11:05:58
User logout time : 2021-07-29 11:05:58
Logout reason : User traffic reached threshold
¡ 用户流量达到阈值触发的下线属于正常下线,用户重新上线即可。
(6) 检查是否为AAA服务器主动踢用户下线。
设备上开启了RADIUS session control功能后,若收到AAA服务器的断开连接请求,则会立马强制对应的用户下线。首先查看设备上是否开启了(通过radius session-control enable命令配置)。如果开启了,则可以通过如下方法查看是否因AAA服务器强制用户下线导致用户下线:
¡ 查看AAA服务器上记录的用户下线记录。
¡ 通过display portal logout-record命令查询用户下线记录。
<Sysname> display portal logout-record all
Total logout records: 1
User name : gkt
User MAC : 0800-2700-94ad
Interface : Vlan-interface100
User IP address : 21.0.0.20
AP : N/A
SSID : N/A
User login time : 2021-07-29 11:05:58
User logout time : 2021-07-29 11:05:58
Logout reason : Force logout by RADIUS server
服务器为何强制用户下线,请联系服务器管理员进行确认。
(7) 检查是否为Portal用户在线探测失败导致用户下线。
如果设备上开启了Portal用户在线探测功能(通过portal user-detect命令配置),设备会定期向用户终端发送探测报文。若在指定探测次数内,设备未收到终端的回应,则强制用户下线。
确认设备上是否开启了Portal用户在线探测功能。如果开启了,则可以通过如下方法确认是否因用户在线探测失败导致用户下线:
¡ 查看AAA服务器上记录的用户下线记录。
¡ 通过display portal logout-record命令查询用户下线记录。
<Sysname> display portal logout-record all
Total logout records: 1
User name : gkt
User MAC : 0800-2700-94ad
Interface : Vlan-interface100
User IP address : 21.0.0.20
AP : N/A
SSID : N/A
User login time : 2021-07-29 11:05:58
User logout time : 2021-07-29 11:05:58
Logout reason : User detection failure
如果确认是因Portal用户在线探测导致用户下线,请检查终端和设备之间的链路状态,排查终端没有回应探测报文的原因。
(8) 检查Portal用户上线的接口是否down。
如果Portal用户上线的接口down了一段时间后,设备会强制从该接口接入的Portal用户全部下线。
¡ 可通过如下方法确认是否因接口down导致用户下线:
¡ 查看AAA服务器上的用户下线记录。
¡ 通过display interface命令查看接口的状态是否发生过变化,如果发生变化的时间正好和用户下线的时间接近,则可能是接口down触发的用户下线。
¡ 通过display portal logout-record命令查询用户下线记录。
<Sysname> display portal logout-record all
Total logout records: 1
User name : gkt
User MAC : 0800-2700-94ad
Interface : Vlan-interface100
User IP address : 21.0.0.20
AP : N/A
SSID : N/A
User login time : 2021-07-29 11:05:58
User logout time : 2021-07-29 11:05:58
Logout reason : Interface down
如果确认是接口down导致的下线,请排查接口down的原因,如网线口松动等。
(9) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
¡ Portal服务器上Portal相关配置截图。
¡ AAA服务器上记录的用户下线记录。
¡ 设备与服务器间的抓包文件。
¡ 在客户端浏览器上对问题现象截图。
¡ 通过开启debugging portal命令收集调试信息。
无
无
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!