• 文章搜索:
  • 唯快不破

        • 分享到...

        • 新浪微博
        • 腾讯微博
        • 推荐到豆瓣 豆瓣空间
        • 分享到搜狐微博 搜狐微博
        • 分享到QQ空间 QQ空间
        • 分享到腾讯朋友 腾讯朋友
        • 网易微博分享 网易微博
        • 添加到百度搜藏 百度搜藏
        • 转贴到开心网 开心网
        • 转发好友 告诉聊友
    • 推荐
    • 打印
    • 收藏

    UIS之维护速战

    作者:  |  上传时间:2014-11-25  |  关键字:UIS之维护速战

    一、UIS简介:

    1. UIS概述

    UIS统一基础架构系统是对整个机架架构的创新,它融合了:

    l 计算(刀片服务器B390、B590系列)

    l 存储(刀片存储D3000)

    l 网络(虚拟网络连接Virtual Connect模块、刀片交换机B6300系列)

    l 电源、风扇散热系统等

    这种融合架构对于数据中心的集成和优化起了很大作用。融合架构部件较多,如何快速、有效、全面地进行维护日志的收集和解读,将对于我们定位UIS问题有很大的帮助。

    本文将简单介绍一下UIS统一基础架构系统中的OA(Onboard Administrato)管理模块,以及如何通过它来收集UIS各类部件的维护日志,并介绍OA日志的解读方法。

    2.OA模块简介

    OA模块可以说是刀片机箱的大脑,它主要有下面几个功能:

    l 检测组件的插入和卸下

    辨认组件(产品名称、部件号和序列号),通过读取FRU EEPROM(只需部件接通电源)获取,针对刀片服务器需通过 iLO芯片获取FRU EEPROM信息,VC(Virtual Connect)通过MP(Management Processor)管理芯片获取FRU EEPROM信息。

    l 管理电源和散热

    控制所有组件的电源状态;读取整个机箱内的各个温度传感器,然后更改机箱中不同区域的风扇速度,以使能耗降到较低,并使散热效率升到较高高。

    l 控制组件(包括远程控制和远程控制台)

    l 获取组件的固件版本信息,并可更新这些组件

    IT管理员可以通过下面三种方式访问OA:

    l 通过Web浏览器(GUI)

    l 通过文本命令行(CLI)

    l 通过内置在刀片机箱前面板的LED显示器(Insight Display)

    推荐使用GUI管理方式访问OA,进行UIS的管理和维护日志信息收集。下面将介绍如何通过OA进行UIS各部件维护日志的收集。

    二、UIS维护日志:

    2.1 UIS日志种类介绍

    UIS统一基础架构根据构成部件划分,主要有四大类日志:

    l 刀片服务器主动健康系统日志(Active Health System Log,简称AHS日志)

    主动健康系统功能集成在服务器iLO芯片中,只要服务器加电,即使不开机也会记录服务器硬件信息,能够监控所有重要的硬件配置、操作事件和硬件状态。当服务器出现疑似硬件问题时,通过解读AHS日志能够很好的判断、定位问题。

    l 阵列卡ADU诊断报告

    ADU(Array Diagnostics Utility)诊断报告需要在服务器阵列卡中进行操作收集,它能够收集、诊断当前阵列卡所管理的磁盘驱动器、逻辑驱动器(Raid)等状态信息,如刀片服务器和D3000刀片存储中的磁盘告警、故障,以及阵列降级等问题。

    l 网络互连模块日志

    UIS统一基础架构中,针对互连接入主要有两大网络模块:VC模块和刀片交换机。

    VC模块可以提供VC Supportdump日志用于定位模块问题;刀片交换机可以提供Diagnostic-information诊断日志进行模块问题定位。

    l OA管理模块Showall日志

    OA管理模块的Showall日志通过各部件上的iLO、MP、EEPROM芯片能够采集整个UIS的刀片服务器、刀片存储、网络互连模块以及风扇、电源系统、温感等状态信息,能够从整体上把握UIS各个部件的工作状态,快速定位UIS的相关问题。

    2.2 UIS日志收集

    UIS不同日志的收集方法不同,比如通过OA、iLO等模块收集。下面将介绍四大类日志的收集方法:

    2.2.1 AHS日志收集

    AHS日志可以直接通过iLO界面进行收集:

    1)打开IE浏览器,输入iLO的URL地址“https://IP”,其中的IP地址为iLO的地址信息。比如输入:https://192.168.21.104,然后输入iLO的用户名和密码信息。

    2)下载AHS日志:在“Information->Active Health System Log”界面选择AHS日志范围,然后点击“Download”下载AHS日志。

    3)点击“Download”按钮后,将AHS日志下载到本地磁盘,得到文件后缀名称为.ahs的文件。

    2.2.2 ADU诊断报告收集

    当需要更深入地诊断磁盘或阵列硬件问题的时候,可按照如下方式收集ADU报告。

    1)SUV转接头插到刀片服务器前部SUV接口上,U盘插入SUV外接USB口。

    ADU诊断报告需要进入阵列卡的SSA(ACU)功能模块并使用U盘进行收集。另外,由于刀片服务器上没有直接的USB口,需要SUV转接头插到刀片服务器前部的SUV接口上,进行USB接口的扩展,从而接入U盘收集ADU日志。

    2)在服务器启动的过程中,根据提示按<F5>键,进入SSA(ACU)功能模块。

    进入刀片自带P220i阵列卡SSA(ACU)功能模块:

    如果刀片服务器使用D3000刀片存储,那么进入D3000的阵列卡P420i进行维护、管理,需要通过使用D3000的刀片服务器启动界面进入SSA(ACU)功能模块,需在P420i下的提示按<F5>键(第二个阵列卡的F5)进入,如下图:

    3)以P220i阵列卡SSA界面为例,在SSA配置界面,选择阵列控制器下的“Diagnostics/SmartSSD”选项卡,点击“Run Array Diagnostic Reports”按钮。

    4)选择相应的阵列卡,点击“Generate Diagnostic Report”按钮来保存诊断报告。此时需要确保服务器已经插入了U盘。

    如下界面表示服务器正在生成诊断报告。

    5)选择保存日志的USB设备,点击右下角的“Save Report”按钮下载到U盘。

    诊断报告保存完成后,拔出U盘。查看U盘,可以发现ADU报告的压缩包。

    2.2.3 VC Supportdump日志收集

    1) 下载最新版本的VCSU(Virtual Connect Support Utility),在Windows系统下双击进行安装。

    2)安装Virtual Connect Support Utility之后,在Windows中选择“开始->程序->Hewlett-Packard->Virtual Connect Support Utility->Virtual Connect Support Utility-Command Promp,打开VCSU命令行界面,如下截图:

    3)收集Supportdump文件:

    输入如下命令:

    vcsu -a supportdump -i <oa ip> -u <oa管理员账号> -p <oa管理员密码> -vcu <vcm管理员账号> -vcp <vcm管理员密码>

    如上图,注意完成后的提示信息(SUCCESS:Support dump file download and saved)表示Supportdump成功采集并保存,收集的Supportdump文件在VCSU的安装文件夹中可以找到。

    2.2.4 OA Showall日志收集

    OA Showall日志可以通过OA界面进行收集:

    1) 打开IE浏览器,输入OA的URL地址“https://IP”,其中的IP地址为Active OA的地址信息。比如输入:https://192.168.21.110,然后输入OA的用户名和密码信息。

    2) 收集Showall日志:在“Enclosure Information->Configuration Scripts”界面点击“SHOW ALL”查看OA Showall日志。

    三、OA Showall日志解读:

    OA是整个UIS的管理中枢,维护人员在排查、定位问题时,OA的Showall日志能够帮助我们快速排查、定位问题,下面将介绍对OA Showall日志重要部分的解读。OA Showall日志从维护常用字段来看有如下常用关键字段:

    关键字段

    可查看内容

    SHOW HEALTH

    查看UIS整体各部件工作状态

    SHOW DISPLAY EVENT

    查看UIS各部件重要事件日志

    SHOW SYSLOG

    查看系统日志,包含OA、刀片服务器、VC的管理芯片日志记录

    SHOW INTERCONNECT

    查看网络互连模块相关信息

    SHOW FRU

    查看UIS中支持查询备件号的部件相关信息,方便进行备件更换。包含OA、刀片服务器、网络互连模块、风扇、电源等,基本涵盖UIS中的所有重要部件

    SHOW SERVER

    查看刀片服务器的相关信息

    SHOW FIRMWARE

    查看UIS所有部件的固件版本信息


    3.1 SHOW HEALTH日志解读

    我们维护时一般先从SHOW HEALTH部分着手,它主要包含:Enclosure Health、Blade Health、Interconnect Health、Power Supply Health、Fan Health、Onboard Administrator Health六大部分,根据这六大部分的状态我们再看是否需要看更具体的细分日志。以下只拿出部分日志简要说明:

    3.1.1 Enclosure Health

    Enclosure Health记录UIS8000机框供电、风扇冷却系统的健康状态,如:

    Enclosure: OK //机框状态由以下两个状态决定

    Power Subsystem: OK //机框供电子系统

    Cooling Subsystem: OK //机框风扇冷却子系统

    3.1.2 Blade Health

    Blade Health记录刀片服务器的健康状态,如:

    Blade Health:

    Bay Status Problem Corrective Action

    1 OK

    2 OK

    3 Absent

    刀片槽位1、2刀片服务器状态正常,刀片槽位3没有安装刀片服务器。

    3.1.3 Interconnect Health

    Interconnect Health记录网络互连模块的健康状态,如:

    Interconnect Health:

    Bay Status Problem Corrective Action

    1 OK

    2 OK

    3 Absent

    网络互连模块槽位1、2状态正常,网络互连模块槽位3没有安装网络互连模块。

    3.1.4 Power Supply Health

    Power Supply Health记录电源模块健康状态,如:

    Bay Status Problem Corrective Action

    1 OK

    2 OK

    3 Absent

    4 OK

    5 Absent

    6 Absent

    电源槽位1、2、4状态正常,电源槽位3、5、6没有安装电源模块。

    3.1.5 Fan Health

    Fan Health记录风扇的健康状态,如:

    Bay Status Problem Corrective Action

    1 OK

    2 OK

    3 OK

    4 OK

    5 OK

    6 OK

    7 OK

    8 OK

    9 OK

    10 OK

    风扇槽位10个风扇全部安装,且全部状态正常。

    3.1.6 Onboard Administrator Health

    Onboard Administrator Health记录OA模块的健康状态,如:

    Bay Status Problem Corrective Action

    1 OK

    2 OK

    两个OA槽位均安装了OA模块,且工作状态正常。

    3.2 日志分析实际案例

    【问题现象】工程师小S反馈某局点UIS上有刀片服务器无法正常开机启动。

    【处理过程】

    1)经过远程电话支持,可以确定有问题的只有这一个刀片服务器,更换刀片槽位后故障跟随刀片服务器走,且现场查看UIS供电上没有异常。所以,基本可以确定刀片服务器存在问题,请小S反馈OA Showall日志(收集日志时,问题刀片安装在槽位2)。

    2)通过SHOW HEALTH中的Blade Health部分,可以明确的看到刀片槽位2服务器状态Error,并且建议检查MP日志,即服务器的管理芯片iLO日志。

    Blade Health:

    Bay Status Problem Corrective Action

    1 OK

    2 Error Device Failure MP reports device has failed. Check MP log for more details.

    3)通过SHOW SERVER STATUS ALL查看刀片服务器的具体信息:

    Blade #2 Status:

    Power: Off

    Current Wattage used: 0

    Health: Failed //刀片状态Failed

    Unit Identification LED: Off

    Virtual Fan: 0%

    Diagnostic Status:

    Internal Data OK

    Management Processor OK

    I/O Configuration OK

    Power OK //供电状态正常

    Cooling OK

    Device Failure Failed //设备硬件状态Failed

    Device Degraded OK

    VCM Configured OK

    iLO Network OK

    Mezzanine Card OK

    可以确定刀片服务器供电正常,但是存在硬件错误。

    4)进一步按照日志中的排查建议,通过SHOW SYSLOG SERVER ALL查看服务器的管理芯片的重要日志记录(OA通过iLO芯片获取而来的IML日志)发现:

    <EVENT

    SEVERITY="Critical"

    CLASS="Rack Infrastructure"

    LAST_UPDATE="12/09/2013 04:27"

    INITIAL_UPDATE="12/09/2013 04:13"

    COUNT="26"

    DESCRIPTION="Server Blade Enclosure Inadequate Power On:Not Enough Power(Enclousure Serial Number **********,Slot2) "

    记录到的信息是刀片服务器供电不足导致,需要确认UIS整体供电功率是否超负荷。

    5)查看机框电源信息SHOW ENCLOSURE POWER_SUMMARY:

    Enclosure Bay Output Allocation:

    Bay Power Allocated (Watts DC)

    Devices 2169

    Interconnects + 214

    Fans + 500

    -------

    = 2883

    可以看到电源模块已经输出的总功率为2883瓦。

    Enclosure Output Power Summary:

    Enclosure Watts DC

    Power Capacity 4900

    Power Allocation - 2883

    Power Available = 2017

    电源系统还有2017瓦的供电能力,所以不存在UIS供电系统功率不足问题。

    那么,该问题已经很明确,属于刀片服务器主板自身供电异常导致服务器无法正常开机启动;由于刀片服务器没有可拆卸的电源背板,供电背板集成在主板上,所以需要更换刀片服务器主板解决该问题。保险起见,后续也采集了该服务器的AHS日志来佐证该故障。

    最后,工程师小S更换刀片主板成功解决该问题。

    四、小结:

    本文主要介绍了UIS中的各种维护日志以及这些日志的收集方法。由于UIS部件较多,OA Showall日志可以统筹全局帮助我们快速定位某些问题,或者定位到问题部件。可是,也因为OA日志有着自身的局限性,如采集的日志由于种类繁多,所以针对刀片服务器、网络互连模块等部件更细化的日志无法记录,所以当使用OA Showall日志快速定位到问题点却又无法准确判定的问题时,我们还需要如AHS、ADU、VC Supportdump、刀片交换机Diag等日志协同定位问题。