手册下载
H3C SecPath W2000-G[AK][V]系列Web应用防火墙
故障处理手册
Copyright © 2020新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
在目前网络状况越来越复杂的情况下,只通过表面的故障现象,进行定位和恢复是非常困难的。掌握系统的故障处理理论,可以科学的将复杂的故障问题分解为多个模块,缩小故障范围。
故障的处理难以根据现象直接推导出故障原因,不同原因可能会导致相同的故障现象。本节提供的故障处理流程主要用于指导用户科学地处理故障,有效地将故障范围缩小。从而达到提高故障处理效率,减少处理时间的目的。
在目前网络应用越来越多的情况下,网络组成也越来越复杂。这种情况导致一旦设备出现故障,进行定位和处理也更加困难。系统化的故障处理,有利于将大型、综合、复杂的现象分隔缩小范围,从而达到对故障现象的准确定位,如下图所示。
(1) 信息收集:发生故障后应该第一时间收集故障的相关信息,而不是盲目的进行故障恢复;
(2) 故障定位:根据收集的故障信息,进行故障的初步定位,从而有效的缩小故障的范围;
(3) 列举可能原因:根据定位后的结果,列出所有的可能原因;
(4) 制定方案:以故障原因的可能性大小,辅助参考是否容易实施,制定故障排查的顺序,同时每种原因也要制订故障排查方案;
(5) 故障排查:按照方案依次进行故障的排查,根据排查结果决定是否继续排查下一个原因;
(6) 恢复初始状态:在排除特定故障后,如果没有解决问题,需要恢复为故障的初始状 态,避免引入其它故障;
(7) 故障记录:完成故障处理后,需要将故障排查过程进行文档化记录,以便故障排查 经验的记录和传递。
收集信息是进行故障定位的基础,信息收集得越完整越及时,就越有利于准确快速的定位。
通常故障现象是由最终用户发现异常,设备管理员在收到报告后应第一时间完成确认。通过与上报故障的最终用户沟通,可以收集到较多有效故障描述信息。通常由用户直接报告的故障现象描述并不完整,需要引导用户提供更详细准确的信息。通常比较有效的提问包含:
· 是某个业务故障还是所有业务故障?
· 什么时候出的故障,之前工作是正常的吗?
· 故障现象是持续发生,还是间断性的发生?
· 是否可以重现?重现步骤是什么样的?
· 故障发生后,您又做了哪些故障恢复操作,结果如何?之前是否发现过类似故障,如何解决的?
从受故障影响的用户收到报告,并收集到一些故障现象后。还需要从其它相关用户那里继续收集有用的信息,以辅助进行定位判断。通常需要确认:
· 其它人是否出现相同或类似故障?
· 发生故障时是否修改了配置?正常情况下是什么样的?
· 发生故障前,用户可能做了哪些操作,操作的顺序是什么样的?
· 网络拓扑结构。
· 从设备的历史记录中获取大量重要信息,如各个链路的流量图、设备的CPU状态、告警日志等信息。
故障定位的目的是找出故障的原因,是故障处理中的核心工作。是否可以准确定位依赖于前面收集到的故障信息,信息收集的越完整越准确就越可以准确快速的定位。
网络出现故障的原因较多。通常在刚完成配置情况下出现网络故障的原因为:
· 配置错误或者不完整。
· 配置的策略过于严格。
· 设备/协议兼容性问题。
对于实际运行网络中出现的故障,通常是因为:
· 设备变更,如配置修改、版本升级等。
· 网络中链路故障。
· 周边设备配置改动。
· 流量异常,如突发超高流量。
· 硬件故障。
部署为透明模式时,在处理故障时,可以将WAF设置为Bypass状态来初步判断是否是WAF出现故障。
故障处理的目的是消除故障现象,恢复网络正常运转,同时不会引起其它故障。
通过收集的故障现象列举可能的原因。该步骤通常需要故障人员具有较高的技术水平和经验。根据用户的技术水平不同,可以列举出的可能原因的数量是不一样的。
制定故障排查方案时需要考虑如下多种情况,用户需要根据自己的网络状况、故障严重程度进行调整。
· 确定可能原因排查的顺序
· 制定故障排查方案,需要确定各故障原因的排查顺序。以故障原因的可能性大小为主,并参考排查的成本、排查的便利性进行排序。
· 确定各原因故障排查定位的方法和工具
· 设备提供了多种故障诊断的方法和工具,这些工具和方法适用的情况各不相同。需要在制定方案时就确定,用哪种工具可以唯一的确定或排查是否该原因导致。
· 确定各故障排查的时间
· 这些故障排查方法需要尽量安排在流量较小的时间,比如需要对运营商的网络作设备的替换,因为受影响用户比较多,一般会选择凌晨2~3点进行排查。当然,如果用户对可能造成的网络故障不太敏感,则不需要考虑排查时间的问题。
· 确定故障原因后的处理方式
· 在确定故障原因后,需要明确故障恢复的步骤,避免再次造成网络故障。
在完成方案制定后,按照方案依次进行故障排查。在进行排查之前,需要将网络恢复到实施上一个循环前的状态。如果保留上一方案对网络的改动,可能会对故障跟因的定位产生干扰并且可能导致新的故障。
收集的诊断信息主要包括:当前配置、接口信息、故障时间、系统版本、告警日志等大量有用信息。在设备发生故障后,请将收集的诊断信息发送给技术支持,会有助于尽快完成故障的定位和解决。
可以通过WAF上的抓包工具进行抓包,然后对数据包进行分析,如图1-2所示。
图1-2 WAF抓包工具
通过将系统诊断日志导出,能够更好的分析WAF的CPU、内存、硬盘等系统日志信息以便于更好的进行故障排查。
(1) 选择[日志报表>日志>系统日志] ,选择导出文件类型,单击[导出日志]按钮,如图1-3所示;
图1-3 系统日志
(2) 保存系统日志。
通过查看设备的接口系统状态、硬件信息、软件版本、资源使用率等信息能够有助于加快故障的排除。
故障设备使用的系统软件的版本是进行定位的重要信息。
选择[状态监控>系统状态>系统信息],如图1-4所示。
查看接口的状态信息常用于定位设备接口对接故障、查看报文丢包统计。
选择[状态监控>系统状态>网络信息],如图1-5所示。
图1-5 接口信息
接口信息说明表如表1-1所示。
表1-1 接口信息说明表
参数 |
说明 |
接口 |
显示接口名称 |
IP 地址 |
显示分配给接口的IP地址。如果接口工作在交换模式,则显示为0.0.0.0 |
状态 |
显示接口网卡工作是否正常:“up”或“down” |
工作模式 |
显示接口工作模式:“route” “transparent” “bond” |
Rx packet |
在接口上接收到的数据包的总数 |
Error |
在接口上接收到的错误包的总数 |
Tx packet |
通过接口发送的数据包的总数 |
Error packet |
通过接口发送的错误包的总数 |
系统资源包含CPU、内存、硬盘。在用户上网速度变慢的情况下,可以查看设备的CPU和内存使用率,确认是否资源不足。在需要系统版本更新前,请查看硬盘是否有足够空间。
选择[状态监控>系统状态>系统信息],如图1-6所示。
查看流经设备的实时流量大小及流量历史记录。
选择[状态监控>系统状态>网络信息],选择需要查看的网络接口,如图1-7所示。
系统日志和告警日志是发生故障后重要的参考信息,发生故障时产生的告警和日志可以帮助维护人员尽快完成定位。
系统日志记录的是WAF系统事件的名称和发生时间。
选择[日志报表>日志>系统日志],如图1-8所示。
系统事件主要对系统事件发生的时间、等级进行记录,如下表所示。
表1-2 系统日志参数说明
参数 |
说明 |
日期时间 |
显示系统事件发生的日期和具体时间 |
系统事件 |
显示系统发生事件的简单描述信息 |
告警日志是对攻击事件的记录审计,常见的SQL注入、XSS、CSRF等攻击行为都可以通过告警日志进行记录。在WAF中有4种类型的告警日志:WEB安全日志、入侵防护日志、病毒日志、爬虫日志。
(1) 选择[日志报表>日志>WEB安全日志],如下图所示;
图1-9 查看WEB安全日志
(2) 选择[日志报表>日志>入侵防护日志],如图1-10所示;
图1-10 查看入侵防护日志
(3) 选择[日志报表>日志>病毒日志],如图1-11所示;
图1-11 查看病毒日志
(4) 选择[日志报表>日志>爬虫日志],如图1-12所示。
图1-12 查看爬虫日志
4种告警日志的详细信息参数说明分别如下表所示。
表1-3 WEB安全日志详细信息说明表
参数 |
说明 |
日期时间 |
检测和拦截到攻击的日期和具体时间 |
客户端IP |
试图访问Web服务器的用户IP地址 |
服务器IP |
Web服务器端的IP地址 |
方法 |
显示对Web服务器的访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作 |
协议 |
显示发动攻击连接的协议类型 |
URL |
具体的URL的名称 |
攻击名称 |
显示拦截到的攻击的具体名称 |
攻击域 |
显示攻击发生的区域,即攻击发生在哪里,比如:URL参数,POST表单,Cookie等 |
攻击级别 |
匹配的攻击所属的级别 |
动作 |
针对攻击的动作 |
操作 |
点击放行后,实际是在安全策略-内容安全-URL访问控制中,将IP地址设置为无过滤 |
表1-4 入侵防护日志详细信息说明表
参数 |
说明 |
日期时间 |
检测和拦截到攻击的日期和具体时间 |
来源IP |
攻击源的IP地址 |
源端口 |
攻击的源端口 |
目的地址 |
攻击目的地址 |
目的端口 |
攻击的目的端口号 |
协议 |
显示连接所使用的协议类型 |
风险级别 |
匹配特征的级别 |
威胁类型 |
匹配特征威胁的类型 |
威胁ID |
匹配到特征的ID |
动作 |
显示对攻击采取的动作 |
表1-5 病毒日志详细信息说明表
参数 |
说明 |
日期时间 |
检测和拦截到病毒的日期和具体时间 |
客户端IP |
试图访问Web服务器的用户IP地址 |
服务器端IP |
Web服务器端的IP地址 |
协议 |
显示连接所使用的协议类型 |
URL |
具体的URL的名称 |
文件名 |
显示携带病毒的文件名称 |
恶意软件名称 |
检测到的恶意软件的名称 |
动作 |
显示对病毒文件采取的动作 block_log表示阻止并记录日志 logged表示仅记日志 |
表1-6 爬虫日志详细信息说明表
参数 |
说明 |
日期时间 |
检测到网络爬虫的日期和具体时间 |
客户端IP |
试图访问Web服务器的用户IP地址 |
服务器端IP |
Web服务器端的IP地址 |
方法 |
显示对Web服务器的访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作 |
协议 |
显示连接所使用的协议类型 |
URL |
具体的URL的名称 |
User Agent |
显示爬虫的User Agent信息 |
动作 |
显示系统所采取的动作 |
WAF的Web管理页面无法正常登录。
(1) 首先使用网络诊断工具ping WAF的管理地址,检查WAF是否存活;
(2) 如果ping不通,可通过串口登录WAF后台(登录名:admin,密码:admin),使用display interface命令查看管理口IP是否丢失;若丢失,假设使用GE0/0作为管理口,管理IP为183.1.5.22,可通过命令行set interface GE0/0 ip 183.1.5.22/24将地址重新添加上;
(3) 若管理口IP未丢失,但是仍ping不通,可使用display management trusted-host命令查看是否设置了其它信任主机;若设置了,可通过unset management trusted-host all命令将信任主机删除。
(4) 若可以ping通管理口IP,但登录不了页面,可登录WAF后台,使用display management命令查看是否https的端口号被修改了;如果被修改为非443端口,可通过set management https-port 443将其修改恢复。
(5) 如果按上述操作仍然无法登录WAF的Web管理页面,请搜集信息并发送给新华三技术支持人员协助分析。
上传License失败时通常会有提示信息,请根据提示信息处理。
上传License文件时提示出错,上传失败。
(1) 检查确认License文件是否匹配设备产品信息,如设备序列号及设备硬件信息,如果有问题请重新申请License文件;
(2) 检查确认License文件是否出现损坏等情况,如果有问题请重新申请License文件;
(3) 检查确认License是否过期,如果过期请续购License;
(4) 如果按上述操作仍然无法成功导入license文件,请搜集信息并发送给新华三技术支持人员协助分析。
在“系统维护>系统更新>特征库”页面,已启用了特征库/引擎自动更新,但是却更新失败。
(1) H3C布置有多个更新中心,系统是根据域名连接更新中心的,因此,需要事先设置好DNS服务器,WAF才能进行特征库的自动更新;
(2) 点击“系统配置>主机”页面,在下方的“首选DNS服务器”处设置好能够解析公网域名的DNS服务器,如8.8.8.8等,并点击应用;
图4-1 设置DNS服务器
(3) 如果按上述操作仍然无法自动更新特征库,请搜集信息并发送给新华三技术支持人员协助分析。
已将特征库下载到本地,通过本地上传更新特征库,但是病毒特征库更新失败。
(1) 检查上传的病毒特征库文件是否是正确的文件,若不是,重新导入正确的病毒特征库文件进行上传;
(2) 由于病毒特征库和IPS、Web特征库有所不同,在导入病毒特征库时,需要验证该WAF设备的序列号,因此如果导入的特征库不包含该设备的序列号,会导致更新不成功;可以重新在网站下载最新的病毒特征库,导入进行更新;
(3) 如果按上述操作仍然无法成功更新病毒特征库,请搜集信息并发送给新华三技术支持人员协助分析。
WAF部署为反向代理模式,已配置好代理地址,但是ping不通该地址。
图5-1 反向代理模式组网示意图
(1) 根据实际组网,检查交换机上相应接口的IP、交换机上的路由等是否都配置正确,保证客户端到WAF的反向代理地址是路由可达的;
(2) 若网络没有问题,登录到WAF的Web页面,点击“网络配置>网络接口”页面,在接口列表中点击名称为veth1的接口,进入其编辑页面;由于配置代理地址后,代理地址都与WAF中的虚接口veth1相关联,所以,如果不启用该接口的ping访问方式,会导致ping不通代理地址;需要勾选ping管理访问方式,并点击应用;
图5-2 启用veth1口的ping管理方式
(3) 如果按上述操作仍然无法ping通代理地址,请搜集信息并发送给新华三技术支持人员协助分析。
WAF部署为反向代理模式,组网部署好,但是打入攻击没有防护。
图5-3 反向代理模式组网示意图
(1) 点击“安全策略>策略引用”页面, 查看上联接口、入侵防护策略、web安全策略、服务器安全组(即被防护服务器)是不是正确配置;
(2) 其中,反代模式下,上联接口需要选择veth0口,服务器安全组需要添加防护的服务器的真实IP,此外,需要点击启用该条策略;
图5-4 策略引用页面
(3) 如果按上述操作WAF仍然无法防护攻击,请搜集信息并发送给新华三技术支持人员协助分析。
对服务器发送带有攻击的报文,攻击被拦截,但是在告警日志中查询不到相应的日志。
(1) 攻击匹配到WAF的策略后,会根据相应策略的设置动作进行处理,如果要对攻击记录日志,需要设置该策略包含记录日志的动作;
(2) 对于基本特征库中的策略,可将其“日志”一项设置为“记录”,下图以SQL注入策略为例;
图5-5 基本特征库策略开启日志记录
(3) 对于安全选项中的策略,可将其“动作”一项设置为“阻止并记日志”,下图以暴力破解攻击/扫号攻击检查策略为例;
图5-6 安全选项中策略开启日志记录
(4) 如果攻击匹配到的策略已设置为记录日志,但还是查询不到日志,可以点击“系统配置>日志>系统日志设置”页面,查看是否已启用记录各项类型的日志,若没有启用,勾选启用并应用;
图5-7 系统日志设置中启用各类型日志记录
(5) 若按上述步骤还是查询不到日志,可以查看设备的时间是否和实际时间有偏差;由于日志页面默认显示的是当天的日志,如果时间不一致,会导致部分日志不显示在默认页面,需要手动修改时间范围才能显示对应区间日志;
图5-8 日志页面默认显示当天的日志,可修改时间范围查询对应区间日志
(6) 可以在“系统配置>主机”页面查看设备时间,如果和实际时间有偏差,可以手动修改为一致;之后再进行攻击,查看默认日志页面是否有日志记录;
图5-9 修改设备时间
(7) 如果按上述操作仍然无法查询到攻击的告警日志,请搜集信息并发送给新华三技术支持人员协助分析。
访问服务器,但是查询不到相应的访问日志。
(1) 如果要WAF记录访问日志,需要在策略中开启该功能;在“安全策略>WEB安全策略>协议安全”中勾选“记录Web访问日志”,并点击确定;
图5-10 启用记录Web访问日志
(2) 如果按上述操作仍然无法记录访问日志,请搜集信息并发送给新华三技术支持人员协助分析。
WAF部署为透明模式且进、出口使用一对Bypass口时,当出现网络故障时可以将WAF切换为bypass状态,用于初步判断是否是WAF出现故障。当WAF切换到Bypass状态后,设备进、出两个网络接口呈短路状态,WAF不再处理过往的流量。
可在“网络配置>高可用性>BYPASS配置”页面,勾选强制Bypass,并点击应用。
图6-1 启用强制Bypass
当发生的问题通过排查无法解决。
可在“系统维护>技术支持”页面,点击生成技术支持文件,将该文件发送给新华三技术支持人员协助分析。
图6-2 H3C SecPath WAF生成技术支持文件
WAF使用过程中出现CPU、内存较高的情况。
由于导致CPU和内存较高的情况较为复杂,从WEB页面较难分析出具体原因,因此建议按照具体情况的紧急性采取对应措施。
(1) 如果CPU、内存较高时,导致正常业务流量受到影响,针对特别紧急且采用透明模式部署的情况,在确认链路采用BYPASS对接口的情况下可以直接强制BYPASS,使WAF不再处理过往的流量,具体步骤可参照6.1小节;
(2) 如果CPU、内存较高时,情况没有特别紧急,建议参照6.2小节收集技术支持文件,将该文件发送给新华三技术支持人员协助分析。
已部署、配置好WAF,并且已配置、启用了所需的相关策略,在没有攻击的情况下如何判断WAF已生效。
由于WAF对于Web访问行为的记录是与“Web安全策略”关联的,因此,可以通过开启访问日志记录并查看是否产生访问日志来判断WAF是否已生效。
(1) 在“安全策略>WEB安全策略>协议安全”中勾选“记录Web访问日志”,并点击确定;
图6-3 启用记录Web访问日志
(2) 当有访问流量经过WAF时,点击“日志报表>日志>访问日志”查看,如果产生了访问日志,说明WAF的防护功能已经生效。
图6-4 查看访问日志
业务经WAF设备转发时存在丢包故障。
(1) 分别在停用、启用策略情况下,在业务的流入和流出口进行抓包对比,查看是否是硬件、组网等非软件问题导致的;
(2) 抓包方法:点击“网络配置>网络诊断”页面,选择需要抓包的接口,点击执行,抓包完成后点击停止按钮,并点击导出按钮导出抓包文件进行查看;
图6-5 使用tcpdump抓包
(3) 分析抓包文件后,如果确认是某些策略开启导致的,可逐个关闭相应策略,缩小问题范围,最终定位问题原因;
(4) 如果按上述操作仍然排查不出丢包故障的原因,请搜集信息并发送给新华三技术支持人员协助分析。
正常的业务访问被WAF阻断。
(1) 针对特别紧急且采用透明模式部署的情况,在确认链路采用BYPASS对接口的情况下可以直接强制BYPASS,使WAF不再处理过往的流量,具体步骤可参照6.1小节;
(2) 针对不是特别紧急的情况,可以在日志中使用过滤查询,查询IP地址对象可以为受影响的终端或服务器;
图6-6 在日志中过滤查询
(3) 在过滤后的日志中查看是否有阻拦动作的日志,如果有,可以根据该日志条目的攻击类别进行例外添加或功能关闭,再进一步查看业务状态是否正常;
(4) 如果按上述操作仍不能解决正常业务访问被WAF阻断的情况,请搜集信息并发送给新华三技术支持人员协助分析。
Web 漏洞扫描邮件发送失败。
(1) 点击“系统配置>邮件配置”页面,查看是否正确设置了邮件参数,若没有配置,需设置接受邮件、发送邮件、邮件服务器及勾选扫描报告及报表邮件;
图6-7 邮件配置
(2) 在“web漏洞扫描>扫描任务”中添加新的任务或者编辑某个已有任务,在“报告订阅”一栏中添加和“邮件配置”页面相同的收件箱,并在扫描报告中选中扫描报告,并点击发送;
图6-8 报告订阅中添加收件箱
图6-9 手动点击发送
(3) 如果按上述操作Web漏洞扫描邮件仍然发送失败,请搜集信息并发送给新华三技术支持人员协助分析。
已经设置了SNMP Traps参数,但进行攻击后未在SNMP服务器上接收到告警消息。
(1) 点击“系统配置>主机”页面,确认是否勾选了启用SNMP,若未勾选,启用并点击应用;
图6-10 启用SNMP
(2) 目前,只有触发病毒事件才能收到SNMP Traps告警消息;
(3) 如果按上述操作仍然接收不到病毒事件的SNMP Traps告警消息,请搜集信息并发送给新华三技术支持人员协助分析。