• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C服务器 以太网卡用户指南-6W101

01-正文

本章节下载 01-正文  (10.90 MB)

01-正文


1 Broadcom以太网卡

1.1  适配的网卡

说明

·     由于产品版本升级或其他原因,本文档内容会不定期进行更新。

·     对于本文档中没有介绍的网卡,请联系技术支持。

·     本文中展示的软件界面,以某个软件版本为准进行示例;由于软件会不定期更新,请以产品实际显示的软件界面为准。

·     本文为产品通用资料。对于定制化产品,请用户以产品实际情况为准。

·     本手册中,所有部件的型号做了简化。比如网卡型号NIC-10GE-2P-530F-B2,代表用户可能看到的以下型号:UN-NIC-10GE-2P-530F-B2-1-X、ST-NIC-10GE-2P-530F-STD-F、BD-NIC-10GE-2P-530F-B2-1-F、UIS-NIC-10GE-2P-530F-B2。

 

本文档适用于如下型号的卡,关于网卡的详细信息请参见服务器兼容的部件查询工具

·     NIC-BCM957412-F-B-10Gb-2P

·     NIC-BCM957414-F-B-25Gb-2P

·     NIC-10GE-2P-530F-B2

·     NIC-ETH330T-LP-4P

·     NIC-ETH531F-LP-2P

·     NIC-ETH630F-LP-2P


1.2  网卡配置界面及参数说明

本节内容以NIC-ETH531F-LP-2P网卡为例进行介绍。其他网卡,请以实际界面显示情况为准。

1.2.1  BIOS Setup Advanced

图1-1图1-2所示,在BIOS Setup Advanced界面,通过PCIe设备的Slot Number和网卡设备的Port Number对应的选项,进入网口配置Main界面。

图1-1 BIOS Setup Advanced图形化界面

  

 

图1-2 BIOS Setup Advanced文本界面

 

1.2.2  网卡的配置主界面

网卡的配置主界面如图1-3图1-4所示,主要包含网卡的产品信息、当前连接状态、MAC地址、PCIe Bus地址等信息。具体参数说明如表1-1所示。

图1-3 网卡配置图形化主界面

 

图1-4 网卡配置文本主界面

 

表1-1 Main界面参数

界面参数

功能说明

Blink LEDs

设置数值0-15(秒),网口将会按照设置的数值闪烁LED灯,

仅在支持Blink LEDs的网卡上展示该选项

Link Status

显示网口的链路状态

Physical Link Speed

显示网卡的物理链路速度

Chip Type

显示网卡的芯片型号

PCI Device ID

显示网卡的PCIe Device ID

Bus:Drvice:Function

显示网卡的PCIe总线地址信息

Permanent MAC Address

显示网卡的永久MAC地址

Virtual MAC Address

显示网卡的虚拟MAC地址

Restore Defaults

恢复默认值

 

1.2.3  Firmware Image Menu

Firmware Image Menu界面如图1-5图1-6所示,主要包含网卡的固件版本信息,具体参数说明如表1-2所示:

图1-5 Firmware Image Menu图形化界面

 

图1-6 Firmware Image properties文本界面

 

表1-2 Firmware Image Menu界面参数

界面参数

功能说明

Family Firmware Version

网卡的固件版本信息

Boot Code

网卡的引导代码

MBA

网卡的MBA信息

EFI

网卡的UEFI驱动版本信息

iSCSI Boot

网卡的iSCSI引导

CCM

网卡的CMM信息

NCSI

网卡的NSCI版本信息

RDMA FW

网卡RDMA的固件版本信息

 

1.2.4  Device Configuration Menu

说明

NIC-ETH330T-LP-4P网卡不支持该功能。

 

Device Configuration Menu界面如图1-7图1-8所示,主要包含网卡虚拟化相关配置,具体参数说明如表1-3所示。

图1-7 Device Configuration Menu图形化界面

 

图1-8 Device Configuration Menu文本界面

 

表1-3 Device Configuration Menu界面参数

界面参数

功能说明

Multi-Function Mode

设置网卡的工作模式,支持如下选项:

1 - SF - 单网卡模式

2 - NPAR1.0 - 物理分区模式,用于分离虚拟端口

Number of VFs Per PF

设置网卡每个物理网口的虚拟网口数量,可配置值范围:0~64

SR-IOV

设置启用/禁用网卡虚拟化功能,该功能可配置Number of VFs Per PF选项数值

Number of MSI-X Vectors per VF

设置网卡虚拟网口的MSI-X向量数,可配置范围:0~128

Maximum Number of PF MSI-X Vectors

设置网卡物理网口的MSI-X向量的最大数,可配置范围:0~512

Link FEC

设置网卡链路前向纠错模式,支持如下选项:

·     1 - Disable - 禁用

·     2 - CL74 - Fire Code

·     3 - CL91 - Reed Solomon

·     4 - CL74&CL91 - Both

Operational Link Speed

设置网卡的操作链路速度,支持如下选项:

·     1 - AutoNeg - 自动协商,

·     2 - 1Gbps - 1G

·     3 - 10Gbps - 10G

Support RDMA

设置启用/禁用网卡端口的RDMA功能,该功能解决了网络传输中服务器端数据处理的延迟

DCB Protocol

设置启用/禁用网卡DCB协议, 该协议功能保证了以太网络不丢包

LLDP nearest bridge

设置启用/禁用网卡LLDP最近的网桥状态, 该功能是单向协议,只有主动通告一种工作方式,无需确认,不能查询、请求

Auto-negotiation Protocol

设置网卡自协商时使用的协议,支持如下选项:

·     1 - IEEE and BAM

·     2 - IEEE and Consortium

·     3 - IEEE 802.3by

·     4 - BAM Only

·     5 - Consortium Only

Media Auto Detect

设置启用/禁用网卡固件自动检测链路收发器的功能,如果DAC电缆可以支持AN,则启用AN和强制速度

Default EVB Mode

设置网卡默认边缘虚拟桥接模式,支持如下选项:

·     1 - VEB

·     2 - VEPA

·     3 - None

Enable PME Capability

设置启用/禁用网卡PME功能,电源管理事件

Flow Offload

设置启用/禁用网卡流量分流模式,该功能仅支持Linux系统,Windows与VMware系统不支持

Live Firmware Upgrade

设置启用/禁用网卡实时固件升级功能,该功能以最少的停机时间和最少的流量中断来启用设备固件升级,避免主机重启,设备重启和驱动程序重新加载。仅Linux系统支持该功能

Adapter Error Recovery

设置启用/禁用网卡适配器错误恢复功能,该功能从致命错误中恢复固件,而无需人工干预

 

1.2.5  MBA Configuration Menu

MBA Configuration Menu界面如图1-9图1-10所示,主要包含网卡工作在BIOS Legacy模式下的配置,具体参数说明如表1-4所示。

图1-9 MBA Configuration Menu图形化界面

 

图1-10 MBA Configuration Menu文本界面

 

表1-4 MBA Configuration Menu图形化界面参数

界面参数

功能说明

Option ROM

设置启用/禁用网卡引导选项ROM,该功能主要设置网卡在Legacy模式下是否有网络引导项

Legacy Boot Protocol

设置网卡传统引导协议(又称为预启动执行环境),支持如下选项:

1 - PXE - 优先使用PXE启动,如果失败则尝试iSCSI

2 - iSCSI - 优先使用iSCSI启动,如果失败则尝试PXE

3 - None - 无启动项,关闭PXE和iSCSI启动功能

Boot Strap Type

设置网卡引导程序类型,支持如下选项:

·     1 - Auto Detect - 自动检测

·     2 - BBS - 从BBS引导

·     3 - Int 18h - 先从BIOS这之中的次序引导

·     4 - Int 19h - 先从Boot ROM引导

Hide Setup Prompt

设置启用/禁用网卡隐藏设置提示,该功能只在ROM初始阶段显示设置

Setup Key Stroke

设置网卡进去配置菜单的击键,支持如下选项:

·     1 - Ctrl-S

·     2 - Ctrl-B

Banner Message Timeuot

设置网卡条幅消息超时时间,该功能指定POST期间OptionROM标志显示的秒数,可配置范围:0-15

Pre-boot Wake On LAN

设置启用/禁用网卡的Wake LAN功能,该功能允许在带内通过发送一个魔法数据包(magic packet)唤醒服务器,仅在支持WOL功能的网卡展示该选项

VLAN Mode

设置启用/禁用网卡启动的VLAN模式

VLAN ID (1-4094)

设置网卡启动的VLAN ID,仅在Virtual Lan Mode Enable时有效,可配置值范围:1-4094

Boot Retry Count

设置网卡引导重试次数,支持如下选项:

·     0 - No Retry – 没有重试

·     1 - 1 Retry - 重试1次

·     2 - 2 Retry - 重试2次

·     3 - 3 Retry - 重试3次

·     4 - 4 Retry - 重试4次

·     5 - 5 Retry - 重试5次

·     6 - 6 Retry - 重试6次

·     7 – Indefinite Retries - 无限循环重试

 

1.2.6  iSCSI General Parameters

iSCSI General Parameters界面如图1-11图1-12所示,主要包含网卡iSCSI功能的常规配置项,具体参数说明如表1-5所示。

图1-11 iSCSI General Parameters图形化界面

 

图1-12 iSCSI General Parameters文本界面

 

表1-5 iSCSI General Parameters界面参数

界面参数

功能说明

TCP/IP Parameters via DHCP

设置启用/禁用网卡通过DHCP获取target参数的功能,开启后,target的IP地址、子网掩码、网关地址、DNS将会从DHCP服务器获取。关闭后,target的IP地址、子网掩码、网关地址、DNS将从iSCSI First Target Parameters菜单获取

IP Autoconfiguuration

设置网卡IP自动配置

iSCSI Parameters via DHCP

设置启用/禁用网卡通过DHCP配置iSCSI参数的功能

CHAP Authentication

设置启用/禁用iSCSI initiator和target之间的双向CHAP认证

Boot to iSCSI Target

设置网卡从iSCSI target 启动,支持如下选项:

·     1 - Enable,启用

·     2 - Disable,禁用

·     3 - One time disabled,仅禁用一次,下次启动后启用

DHCP Vendor ID

设置网卡DHCP供应商ID,可配置范围:0-32个字符

Link Up Delay Time

设置网卡链路连通延迟时间,以秒为单位,可配置范围:0-255

Use TCP Timestamp

设置启用/禁用网卡使用TCP时间戳的功能

Target as First HDD

设置启用/禁用网卡作为系统中第一个硬盘驱动

LUN Busy Retry Count

设置网卡LUN忙时重试次数,以2秒为间隔,可配置范围:0-60

IP Version

设置iSCSI启动使用IPv4和IPv6协议

 

1.2.7  iSCSI Initiator Parameters

iSCSI Initiator Parameters界面如图1-13图1-14所示,主要包含网卡iSCSI启动器相关的设置,具体参数说明如表1-6所示。

图1-13 iSCSI Initiator Parameters图形化界面

 

图1-14 iSCSI Initiator Parameters文本界面

 

表1-6 iSCSI Initiator Parameters界面参数

界面参数

功能说明

IP Address

设置网卡iSCSI启动器的IPv4地址

Subnet Mask

设置网卡iSCSI启动器的IPv4子网掩码

Default Gateway

设置网卡iSCSI启动器的IPv4默认网关

Primary DNS

设置网卡iSCSI启动器的IPv4 DNS地址

Secondary DNS

设置网卡iSCSI启动器的备用IPv4 DNS地址

iSCSI Name

设置网卡iSCSI启动器的IQN(iSCSI Qualified Name)

CHAP ID

设置网卡iSCSI启动器CHAP ID,如果CHAP Mutual Authentication使能,该参数也将用于iSCSI启动器端反向认证的用户名

CHAP Secret

设置网卡iSCSI启动器CHAP密码,如果CHAP Mutual Authentication使能,该参数也将用于iSCSI启动器端反向认证的密码

IPv6 Default Gateway

设置网卡iSCSI启动器的IPv6默认网关

IPv6 Address

设置网卡iSCSI启动器的IPv6地址

IPv6 Primary DNS

设置网卡iSCSI启动器的IPv6 DNS地址

IPv6 Prefix Length

设置网卡iSCSI启动器的IPv6前缀长度

 

1.2.8  iSCSI First Target Parameters

iSCSI First Target Parameters界面如图1-15图1-16所示,主要包含网卡iSCSI目标相关的设置,具体参数说明如表1-7所示。

图1-15 iSCSI First Target Parameters图形化界面

 

图1-16 iSCSI First Target Parameters文本界面

 

表1-7 iSCSI First Target Parameters界面参数

界面参数

功能说明

Connect

配置开启/关闭网卡从iSCSi target的连接,如果在iSCSI general parameters界面配置DHCP Parameter使能,则本参数将会被忽略。

IP Address

配置网卡iSCSI target端的IPv4地址

TCP port

配置网卡iSCSI target端的TCP端口号,默认3260

Boot LUN

配置网卡从iSCSI target端引导启动的LUN(Logical Unit Number)

iSCSI Name

配置网卡iSCSI target端的IQN(iSCSI Qualified Name)

CHAP ID

配置iSCSI target CHAP认证ID

CHAP Secret

配置iSCSI target CHAP认证密码


1.3  网卡信息查询

1.3.1  驱动版本

1. Linux操作系统

使用“ethtool -i <网口名>”命令可查询网卡驱动版本,如图1-17所示。

图1-17 Linux系统下查询网卡驱动版本

 

2. Windows操作系统

按下“Windows 徽标键+R键”,即需要将Windows键和字母R同时按下。在弹出的“运行(Run)”窗口输入“devmgmt.msc”并按回车,调出设备管理器(Device Manager)

设备管理器(Device Manager中选择网络适配器(Network adapters,在该网卡的属性页面(Adapter Properties中可查询网卡的驱动版本信息(Driver Version,如图1-18所示。

图1-18 Windows系统下查询网卡驱动版本

 

 

1.3.2  固件版本

1. Linux操作系统

使用“ethtool -i <网口名>”命令或配合使用lspci –vvv –s <bus>命令查询网卡固件版本,如图1-19所示。

图1-19 Linux系统下查询网卡固件版本

 

2. Windows操作系统

同时按下“Windows 徽标键+R键”,在弹出的“运行(Run)”窗口输入“cmd”并按回车,调出命令提示符(Command)。在命令提示符(Command)中进行网卡固件升级,升级时可显示升级网卡的固件版本信息,如图1-20所示。

图1-20 Windows系统下查询网卡固件版本

 

1.3.3  光模块信息

1. Linux操作系统

使用“ethtool -m <网口名>”可查询当前网卡的光模块信息,如图1-21所示。

图1-21 Linux系统下查询网卡光模块信息

 

2. Windows操作系统

博通网卡不支持该项操作。

1.3.4  MAC地址查询

1. Linux操作系统

使用“ifconfig <网口名>”命令可查询到该网卡的MAC地址,如图1-22所示。

图1-22 Linux系统下查询网卡MAC地址

 

2. Windows操作系统

同时按下“Windows 徽标键+R键”,在弹出的“运行(Run)”窗口输入“cmd”并按回车,调出命令提示符(Command)。在命令提示符(Command)中输入ipconfig命令可查询网卡的MAC地址(MAC Address,如图1-23所示。

图1-23 Windows系统下查询网卡MAC地址

 


1.4  网卡配置

1.4.1  PXE启动配置

1. 功能简介

PXE(Preboot eXecution Environment,预启动执行环境)是一种使用网络接口启动服务器的机制。Broadcom系列网卡的PXE功能由Broadcom NetXtreme驱动程序提供,添加额外的循环条目以支持传统 PXE 模式。

Preboot驱动程序首先初始化网卡设备,检测端口协议(以太网或Infiniband),然后启动端口。网卡通过DHCP服务器分配IP地址和网络参数,并获取操作系统内核镜像文件的源地址。PreBoot驱动程序通过TFTP服务器、iSCSI目标或其他服务访问操作系统内核。

2. 配置准备

网卡默认开启PXE功能,无需额外配置。使用网卡PXE功能需要先安装网卡驱动。可访问H3C官网,单击:支持https://www.h3c.com/cn/BizPortal/Content/images/icon-crumbs-arrow.png文档与软件https://www.h3c.com/cn/BizPortal/Content/images/icon-crumbs-arrow.png软件下载,在按产品检索处选择“服务器”,在软件下载页面,通过选择或搜索,获取网卡驱动并参考网卡配套的版本说明书进行安装。

3. 配置步骤

在服务器启动过程中,根据提示按下DeleteEsc进入BIOS Setup界面。

图1-24所示,选择Advanced页签 >Network Stack Configuration,然后按Enter

图1-24 Advanced界面

 

图1-25所示,依次将Ipv4 PXE Support和Ipv6 PXE Support选项设置为Enabled

图1-25 UEFI模式开启PXE服务

 

说明

本节仅介绍使能网卡PXE功能的步骤。如需使用PXE功能,还需要搭建PXE Server,PXE Server的搭建方法为业界通用,可以通过互联网获取。

 

4. 验证配置

服务器上电启动,在POST界面按F12从PXE启动。在启动菜单中选中网卡启动项,按Enter从网卡启动。

1.4.2  SR-IOV配置

说明

NIC-ETH330T-LP-4P网卡不支持该功能。

 

1. 功能简介

SR-IOV(Single Root I/O Virtualization,单根I/O虚拟化)允许用户整合其网络硬件资源,并在整合的硬件上同时运行多个虚拟机。虚拟化还为用户提供了丰富的功能,例如I/O共享、整合、隔离和迁移,以及简化管理。虚拟化可能会因管理程序的开销导致性能降低,PCI-SIG引入了SR-IOV规范,通过创建VF来解决性能问题,虚拟功能是一种直接分配给虚拟机的轻量级PCIe功能,绕过管理程序层进行主数据移动。

PF是全功能的PCIe功能,VF是PF分离出的轻量级PCIe功能,可直接将VF指定给相应的应用程序,虚拟功能共享物理设备的资源,并在没有CPU和虚拟机管理程序开销的情况下执行I/O。

broadcom网卡能够在每个端口显示64个虚拟实例(Virtual Functions, VFs)(以实际情况为准),并独立配置这些VFs。每一个VF都可视为连接到物理功能(Physical function, PF)的附加设备。VF与PF共享相同的资源,其端口数等于PF的端口数。

SR-IOV通常与支持SR-IOV的虚拟机监控程序配合使用,以提供虚拟机对网络资源的直接硬件访问,从而提高性能。

2. 配置准备

配置SR-IOV需要如下完成如下准备工作:

·     安装网卡驱动程序:访问H3C官网,获取网卡驱动。参照网卡配套的版本说明书安装驱动程序。

·     操作系统的Hypervisor需要支持SR-IOV。

3. 配置步骤

(1)     进入BIOS Setup界面。

(2)     如图1-26所示,选择Advanced页签 > PCI Subsystem Settings,按Enter

图1-26 Advanced界面

 

(3)     进入图1-27所示界面,选择SR-IOV Support,设置为Enabled。然后按ESC,直至退回到BIOS Setup主界面。

图1-27 PCI Subsystem Settings界面

 

(4)     在进入服务器系统后,按图1-28所示界面,将“amd_iommu=on iommu=pt”语句添加到指定位置,开启IOMMU支持功能。

图1-28 修改grub文件

 

(5)     配置完毕后重启服务器。

4. 验证配置

(1)     如图1-29所示,进入系统后,执行“dmesg –L | grep –i IOMMU”命令,确认IOMMU是否成功开启。

图1-29 确认IOMMU是否成功开启

 

(2)     如图1-30所示,执行“echo NUM > /sys/class/net/ethX/device/sriov_numvfs”命令,为某个PF端口分配指定的VF数量,其中NUM表示要分配的VF数量,ethX表示PF端口名称。执行完成后,可使用命令“lspc -vvv | grep –i eth”确认是否成功分配。

图1-30 分配VF

 

(3)     如图1-31所示,执行“virt-manager”命令,运行虚拟机管理器,然后选择[File/New Virtual Machine],新建虚拟机。

图1-31 添加虚拟网卡

 

(4)     安装驱动并执行“ifconfig ethVF hw ether xx:xx:xx:xx:xx:xx”命令为虚拟网卡配置MAC地址后,即可正常使用。其中ethVF表示虚拟网卡的名称,xx:xx:xx:xx:xx:xx表示MAC地址。

1.4.3  WoL配置

说明

·     如下网卡不支持WOL:NIC-BCM957412-F-B-10Gb-2P、NIC-BCM957414-F-B-25Gb-2P、NIC-10GE-2P-530F-B2

1. 功能简介

Wake-On-LAN简称WOL,是一种电源管理功能;如果存在网络活动,则允许设备将操作系统从待机或休眠模式中唤醒。许多主板厂商支持IBM提出的网络唤醒标准。该标准允许网络管理员远程开机,以便进行文件升级、资源跟踪和设备清点等工作。

2. 配置准备

Wake on lan唤醒需要满足如下条件:

·     网卡支持WoL功能。目前OCP形态网卡以及NIC-ETH531F-LP-2P网卡支持此功能。

·     BIOS下开启wake on lan相关选项。

·     记录网卡的mac地址。

3. 配置步骤

(1)     进入BIOS Setup界面。

(2)     如图1-32所示,选择Advanced页签 >通过PCIe设备的Slot Number和网卡设备的Port Number对应的选项进入网口配置Main界面> MBA Configuration Menu,按Enter进入后,找到Pre-boot Wake On LANenabled。然后保存并重启。

图1-32 开启BIOS 下Pre-boot Wake On LAN

 

(3)     如图1-33所示,使用ethtool interface查询网卡是否支持wake on lan

¡     Supports wake-on:g表示支持网络唤醒

¡     Supports wake-on:d表示不支持网络唤醒

¡     Wake-on:g表示启用wake on lan

¡     Wake-on:d表示禁用wake on lan

图1-33 查看网卡 wake on lan选项

 

(4)     若查询Wake-ond时,需要使用如下命令开启网卡wake on lan功能。

ethtool -s interface wol g

4. 验证配置

在Client端使用命令ether-wakeMAC】或者使用其他唤醒工具远程操作机器开机。

1.4.4  RoCE 配置

说明

NIC-10GE-2P-530F-B2、NIC-ETH330T-LP-4P网卡不支持该功能。

 

1. 功能简介

2. RDMA over Converged Ethernet (RoCE)简介

RDMA(Remote Direct Memory Access,远程直接内存访问)是为了解决网络传输中服务器端数据处理的延迟而产生的,无需使用CPU,就可以从一个主机或服务器的内存直接访问另一主机或服务器的内存。它释放了CPU去执行其应做的工作,比如运行应用程序和处理大量数据。这既提高了带宽又降低了延迟、抖动和 CPU 消耗。

目前有三种RDMA网络,如图1-34所示,分别是Infiniband、RoCE(RDMA over Converged Ethernet)、iWARP。

·     InfiniBand是一种专为RDMA设计的网络,从硬件级别保证可靠传输,提供更高的带宽和更低的时延。但是成本高,需要支持IB网卡和交换机。

·     RoCE基于Ethernet 做RDMA,消耗的资源比iWARP 少,支持的特性比iWARP多。可以使用普通的以太网交换机,但是需要支持RoCE的网卡。

·     iWARP基于TCP的RDMA网络,利用TCP达到可靠传输。相比RoCE,在大型组网的情况下,iWARP的大量TCP连接会占用大量的内存资源,对系统规格要求更高。可以使用普通的以太网交换机,但是需要支持iWARP的网卡。

图1-34 RDMA网络种类

 

图1-35 RDMA网络种类对比

 

3. RoCE类型

RoCE协议存在RoCEv1和RoCEv2两个版本,这取决于所使用的网络适配器或网卡,如图1-36是两种Roce的数据包格式。

·     RoCE v1:RoCE v1是基于以太网链路层实现的RDMA协议(交换机需要支持PFC等流控技术,在物理层保证可靠传输),允许在同一个VLAN中的两台主机进行通信。RoCE V1协议在以太层的typeID是0x8915

·     RoCE v2:RoCE v2克服了RoCE v1绑定到单个VLAN的限制。通过改变数据包封装,包括IP和UDP标头,RoCE v2现在可以跨L2和L3网络使用

注:RoCE不需要打开子网管理器。

图1-36 RoCE v1与RoCE v2数据包格式

 

4. GID 表分布

每当以太网设备的一个网络端口配置了一个IP地址时,就会在GID(Global Identifier,全局ID)表格中创建一个表项。每个表项包含:【GID值】,【GID类型】,【网络设备】。对于两种模式都支持的设备端口,表中会存在两个GID,有相同的值,但是类型不同,如图1-37,表项中的网络设备是该GID关联的以太网设备的IP地址。

图1-37 GID表信息

 

在系统文件sysfs中查看GID的路径如下:

·     GID值:/sys/class/infinband/<device>/ports/<port>/gids/<index>

·     GID类型:/sys/class/infinband/<device>/ports/<port>/gid_attrs/types/<index>

·     GID网络设备:/sys/class/infinband/<device>/ports/<port>/gid_attrs/ndevs/<index>

5. 配置准备

安装网卡驱动程序:可访问H3C官网,单击:支持https://www.h3c.com/cn/BizPortal/Content/images/icon-crumbs-arrow.png文档与软件https://www.h3c.com/cn/BizPortal/Content/images/icon-crumbs-arrow.png软件下载,在按产品检索处选择“服务器”,在软件下载页面,通过选择或搜索,获取网卡驱动并参考网卡配套的版本说明书进行安装。

RoCE 的驱动程序是作为独立的驱动包需和其他驱动模块一样进行安装。如图1-38所示,驱动安装完毕后可使用ibv_devices查看RoCE 的设备信息。

图1-38 查看RoCE 的驱动版本信息

 

6. 配置步骤

7. RoCE 无损以太网配置

为了可靠地运行,RoCE需要一种形式的流量控制。虽然可以使用全局流控制,但出于性能原因,这通常是不可取的。

使用RoCE的正常和最佳方法是使用优先流控制(PFC,Priority-based Flow Control)。要使用PFC,必须在流路径中的所有端点和交换机上启用它。

要启用RoCE,交换机应做如下配置:

·     面向主机的端口应配置为访问端口,并使用全局暂停或端口控制协议(PCP)进行优先级流控制

·     面向网络的端口应配置为中继端口,并使用端口控制协议(PCP)用于优先流控制

8. 配置RoCE LAG

RoCE LAG(RoCE Link Aggregation,RoCE链路聚合) 是一种用于模拟 IB 设备的以太网绑定的功能,仅适用于双端口卡。

RHEL7.内核版本 4.9 及更高版本支持此功能

当同一张网卡的两个以太网接口配置绑定为以下模式时,将进入 RoCE LAG 模式:

·     active-backup (mode 1)

·     balance-xor (mode 2)

·     802.3ad (LACP) (mode 4)

图1-39 RoCE LAG测试拓扑

 

配置步骤示例如下:

(2)     确保在服务器上启用绑定,按照发行版操作系统手册创建bond0接口。

(3)     按如下方式编辑/etc/sysconfig/network-scripts/ifcfg-bond0,设置bond0接口,如下示例bond模式为active-backup(mode 1)

DEVICE=bond0

NAME=bond0

TYPE=bond

BONDING_MASTER=yes

IPADDR=22.22.22.6 #the other server should have different IP on the same subnet

PREFIX=24

BOOTPROTO=none

ONBOOT=yes

NM_CONTROLLED=no

BONDING_OPTS="mode=active-backup miimon=100 updelay=100 downdelay=100"

(4)     按如下方式编辑/etc/sysconfig/network-scripts/ifcfg-ens817设置网络适配器的其中一个物理端口。

DEVICE=ens817

TYPE=Ethernet

ONBOOT=yes

MASTER=bond0

SLAVE=yes

BOOTPROTO=none

(5)     按同样方式编辑/etc/sysconfig/network-scripts/ifcfg-ens817d1设置网络适配器的另一个物理端口。

DEVICE=ens817d1

TYPE=Ethernet

ONBOOT=yes

MASTER=bond0

SLAVE=yes

BOOTPROTO=none

(6)     按如下命令重启网口或者驱动。

执命令重启网口:

# ifdown bond0

# ifup bond0

执行命令重启驱动:

# /etc/init.d/network restart

(7)     确保可以使用bond0可以在两台服务器之前ping通。

(8)     执行cat /proc/net/bonding/bond0命令可以查看bond0口的正确状态信息。

# cat /proc/net/bonding/bond0

Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)

Bonding Mode: fault-tolerance (active-backup)

Primary Slave: None

Currently Active Slave: ens817

MII Status: up

MII Polling Interval (ms): 100

Up Delay (ms): 100

Down Delay (ms): 100

 

Slave Interface: ens817

MII Status: up

Speed: 40000 Mbps

Duplex: full

Link Failure Count: 6

Permanent HW addr: e4:1d:2d:26:3c:e1

Slave queue ID: 0

 

Slave Interface: ens817d1

MII Status: up

Speed: 40000 Mbps

Duplex: full

Link Failure Count: 6

Permanent HW addr: e4:1d:2d:26:3c:e2

Slave queue ID: 0

(9)     运行perftests工具来检查RDMA,例如使用ib_send_bw。。

在其中一个host端执行ib_send_bw,命令如下: ib_send_bw -D60 -f --report_gbits

在client端执行ib_send_bw,命令如下: ib_send_bw 22.22.22.6 -D60 -f --report_gbits

9. 开启或禁用RoCE

默认情况下,RoCE 在所有bnxt_re设备上启用。启用 RoCE 后,到 UDP 端口 4791 的所有流量都被设备视为 RoCE 流量。

如果您只对以太网(无 RDMA)感兴趣并希望将流量转发到此端口,您可以通过 sysfs 查看或禁用 RoCE:

·     查看RoCE状态:cat /sys/devices/{pci-bus-address}/roce_enable

·     禁用RoCE:echo 0 > /sys/devices/{pci-bus-address}/roce_enable

·     启用RoCE:echo 1 > /sys/devices/{pci-bus-address}/roce_enable

1.4.5  LLDP开启与关闭

说明

NIC-ETH330T-LP-4P网卡不支持该功能。

 

1. 功能简介

LLDP(Link Layer Discovery Protocol,链路层发现协议)是IEEE 802.1ab中定义的链路层发现协议。LLDP是一种标准的二层发现方式,可以将本端设备的管理地址、设备标识、接口标识等信息组织起来,并发布给自己的邻居设备,邻居设备收到这些信息后将其以标准的管理信息库MIB(Management Information Base,管理信息库)的形式保存起来,以供网络管理系统查询及判断链路的通信状况。它不是一个配置、控制协议,无法通过该协议对远端设备进行配置,它只是提供了关于网络拓扑以及管理配置的信息,这些信息可以被用于管理、配置的目的。

说明

网卡LLDP功能使能后,LLDP报文将由网卡固件处理。网卡将终结掉LLDP报文,不再上送OS,因此第三方工具LLDPAD将无法进行LLDP处理。如需使用OS下第三方工具LLDP功能,需要将网卡固件的LLDP功能禁用。

 

2. 配置准备

将待测网卡和交换机进行连接,确保链路正常。

3. 配置步骤

(1)     在BIOS下选择Advanced页签 >通过PCIe设备的Slot Number和网卡设备的Port Number对应的选项进入网口配置Main界面> Device Configuration Menu,按Enter进入后,找到LLDP nearest bridgeenable。然后保存并重启;

图1-40 BIOS下开启LLDP功能

4. 验证配置

进入交换机侧查询对应端口的LLDP信息,此处使用H3C交换机演示,执行查询命令:

display lldp neighbor-information interface Twenty-FiveGige 1/0/9

1. 如图所示,网卡LLDP功能处于禁用状态,没有LLDP报文发送至交换机。

图1-41 查询交换机侧LLDP报文

2. 如图所示,网卡LLDP功能处于启用状态, LLDP报文发送至交换机。

图1-42 重启后查询交换机侧LLDP报文

 

1.4.6  Bonding配置

1. 功能简介

Bonding技术,能将多块物理网卡上的网卡绑定到一个虚拟网口上,让多块网卡看起来是一个单独的以太网接口设备,用来确保服务器网络质量。

网卡Bonding可以通过以下两种方式确保服务器网络服务质量:

·     网络负载均衡:将多个网卡通过Bonding技术来作为一块使用,共用同一IP地址,将流量通过一定算法进行分配,使流量在多块网卡间负载均衡,同时也能突破单个网口的吞吐量限制。

·     网络冗余:确保服务器网络设备的稳定性,当服务器上一块网卡出现故障时可以将流量切换到另一块网卡,继续提供正常的网络服务。

Bonding 包括如下7 种模式,其中常用的有mode 0、mode 1 和mode 6 三种:

·     mode=0,即:(balance-rr)Round-robin policy(平衡轮循环策略),数据包在两个Slave之间顺序依次传输。需要在交换机侧配置静态链路聚合;

·     mode=1,即:(active-backup)Active-backup policy(主-备策略)。只有主设备处于活动状态,当主设备宕机后备设备转换为主设备;

·     mode=2,即:(balance-xor)XOR policy(平衡策略),基于指定的传输HASH 策略传输数据包。需要在交换机侧配置静态链路聚合;

·     mode=3,即:broadcast(广播策略),在每个Slave 接口上传输每个数据包,此模式提供了容错能力。需要在交换机侧配置静态链路聚合;

·     mode=4,即:(802.3ad)IEEE 802.3ad Dynamic link aggregation(IEEE 802.3ad 动态链路聚合),创建一个聚合组,它们共享同样的额定速率和双工设定,外出流量的Slave选择是基于传输hash 策略的。此模式需要在交换机侧配置动态链路聚合;

·     mode=5,即:(balance-tlb)Adaptive transmit load balancing(适配器传输负载均衡)。不需要任何特别的交换机支持,在每个Slave上根据当前的负载(根据速度计算)分配外出流量,如果正在接受流量的Slave故障,另一个Slave 接管失败Slave 的MAC 地址;

·     mode=6,即:(balance-alb)Adaptive load balancing(适配器适应性负载均衡)。该模式包含了balance-tlb 模式,同时加上针对IPV4 流量的接收负载均衡,通过ARP 协商实现,不需要交换机支持。BONDING 驱动截获本机发送的ARP 应答,并把源硬件地址改为BOND 中某个Slave的唯一硬件地址,从而使得不同的对端使用不同的硬件地址进行通信。

2. 配置准备

配置Bonding需要做以下准备:

(1)     系统支持Bonding功能

(2)     网卡所连接的交换机,需要配置聚合组

3. 配置步骤

本文以在RHEL7.5 系统下配置mode=6 为例介绍操作步骤。

(1) 如图1-43所示,在“/etc/sysconfig/network-scripts/”目录下,

创建bond0-ifcfg 配置文件并填写以下内容:

BOOTPROTO=static

DEVICE=bond0

NAME=bond0

TYPE=Bond

BONDING_MASTER=yes

ONBOOT=yes

IPADDR=192.168.50.88 #设置bond0 接口地址

PREFIX=24 #设置子网掩码

GATEWAY=

DNS=

BONDING_OPTS=”miimon=100 mode=6” #设置每100ms 检测一次mii链路,Bonding 模式为mode=6

图1-43 网卡Bonding配置文件示例

 

(2) 编辑 Slave网口的配置文件。如图1-44所示,将如下内容写入配置文件:

ONBOOT=yes

MASTER=bond0

SLAVE=yes

对于其他要加入bond0 的Slave网口,也进行相同操作。

图1-44 网卡Slave接口配置文件示例

 

(3) 图1-45所示,执行“service network restart”命令,重启网络服务,使bond0 生效。

图1-45 重新启动网络服务

4. 验证配置

操作系统命令行下执行“cat /proc/net/bonding/bond0”命令查看bond0 和网卡信息。如图1-46,bond0 以及两个Slave 接口已经UP。

图1-46 Bonding接口信息查询

 

1.4.7  FEC配置

说明

NIC-10GE-2P-530F-B2、NIC-ETH330T-LP-4P网卡不支持该功能。

 

1. 功能简介

FEC(forward error correction,前向纠错)在数据发送端为数据报文附加纠错信息,接收端利用纠错信息纠正数据报文传输过程中产生的误码。该技术可以有效降低信道误码率,提高信号质量,从而延伸物理介质的最远传输距离,但也会带来一些传输延时。如果两端的FEC模式不匹配,则物理链路无法连通。

图1-47 FEC基本原理

 

FEC主要分为BASE-R FEC和RS-FEC两种。

·     BASE-R FEC在IEEE CLAUSE 74中定义,主要服务于10GBASE-KR、40GBASE-KR4、40GBASE-CR4和100GBASE-CR10 PHYs。

·     RS-FEC在IEEE CLAUSE 108中定义,主要服务于25GBASE-CR、25GBASE-CR-S、25GBASE-KR、25GBASE-KR-S和25GBASE-SR PHYs。

·     在IEEE CLAUSE 91中定义了RS-FEC也可服务于100G BASE-CR4、100G BASE-KR4和100G BASE-SR4 PHYs。

表1-8 FEC模式与物理介质关系表

物理介质

接口名称

FEC模式

光纤

25GBASE-SR

RS-FEC

直连铜缆

25GBASE-CR

FEC or RS-FEC

直连铜缆

25GBASE-CR-S

BASE-R FEC or disabled

电子背板

25GBASE-KR

BASE-R FEC or RS-FEC

电子背板

25GBASE-KR-S

BASE-R FEC or disabled

双绞线

25GBASE-T

N/A

 

表1-8所示,IEEE标准定义了两种背板和电缆接口,带-S的短距接口使用高质量背板或者电缆,可以不使用FEC纠错功能,将信号传输时延降至最低,用于短距离传输;不带-S的标准接口是为了降低组网成本,允许使用低成本电缆和背板,同时开启FEC纠错功能,用于长距离传输。

2. 配置准备

将网卡和交换机进行连接(或对接其他网卡),确保链路link up。

3. 配置步骤

FEC模式设置可以采用ethtool工具。

·     使用ethtool工具配置fec模式

(1)     查看当前网口的支持的FEC模式,执行ethtool --show-fec <网口名>

(2)     如需修改网口的FEC模式,执行ethtool --set-fec <网口名> encoding off/baser/rs/auto(配置立即生效,重启后恢复)

(3)     如需修改网口的FEC模式且重启后生效,可修改rc.locl文件。编辑/etc/rc.d/rc.local文件,写入shell命令:

¡     ethtool --set-fec <网口名> encoding off/baser/rs/auto

¡     启动rc-local服务:systemctl enable rc-local

¡     重启服务器

图1-48 使用ethtool设置FEC模式

 

4. 验证配置

使用ethtool工具查看fec模式。

执行命令:ethtool --show-fec <网口名>,如图1-49所示。

图1-49 使用ethtool查询FEC模式


2 Mellanox以太网卡

2.1  适配的网卡

说明

·     由于产品版本升级或其他原因,本文档内容会不定期进行更新。

·     对于本文档中没有介绍的网卡,请联系技术支持。

·     本文中展示的软件界面,以某个软件版本为准进行示例;由于软件会不定期更新,请以产品实际显示的软件界面为准。

·     本文为产品通用资料。对于定制化产品,请用户以产品实际情况为准。

·     本手册中,所有部件的型号做了简化。比如网卡型号NIC-620F-B2-25Gb-2P,代表用户可能看到的以下型号:ST-NIC-25GE-2P-620F-STD-B、NIC-620F-B2-25Gb-2P、NIC-620F-B2-25Gb-2P-1-X。

 

本文档适用于如下型号的网卡,关于网卡的详细信息请参见服务器兼容的部件查询工具

·     NIC-620F-B2-25Gb-2P

·     NIC-ETH641F-LP-2P

·     NIC-MCX4121A-F-B-25Gb-2P

·     NIC-MCX4621A-ACAB-2*25G

·     NIC-MCX512A-ACAT-F-2*25Gb

·     NIC-ETH-MCX4421A-ACQN-2P

·     NIC-ETH-MCX515A-CCAT-1P

·     NIC-ETH-MCX516A-CCAT-2P

·     NIC-ETH-MCX542B-ACAN-2P

·     NIC-ETH-MCX623106AN-CDAT-2P

·     NIC-ETH-MCX623432AN-ADAB-2P

·     NIC-ETH-MCX631102AN-ADAT

·     NIC-ETH-MCX631432AN-ADAB-2P


2.2  网卡配置界面及参数说明

本节内容以NIC-ETH-MCX623106AN-CDAT-2P网卡为例进行介绍。其他网卡,请以实际界面显示情况为准。

2.2.1  BIOS Setup Advanced

图2-1图2-2所示,在BIOS Setup Advanced界面,通过PCIe设备的Slot Number和网卡设备的Port Number对应的选项,进入网口配置Main界面。

图2-1 BIOS Setup Advanced图形化界面

 

图2-2 BIOS Setup Advanced文本界面

2.2.2  网卡的配置主界面

网卡的配置主界面如图2-3图2-4所示,主要包含网卡的产品信息、当前连接状态、MAC地址、PCIe Bus地址等信息。具体参数说明如表2-1所示。

图2-3 网卡配置图形化主界面

 

图2-4 网卡配置文本主界面

 

表2-1 Main界面参数

界面参数

功能说明

Blink LEDs

设置数值0-15(秒),网口将会按照设置的数值闪烁LED灯,

仅在支持Blink LEDs的网卡上显示该选项

Device Name

显示网卡的Product Name

Chip Type

显示网卡的芯片型号

PCI Device ID

显示网卡的PCIe Device ID

PCI Address

显示网卡的PCIe总线地址信息,Bus:Drvice:Function

Link Status

显示网口的连接状态

Network Link Type

允许用户配置网卡的连接模式,支持在Ethernet/Infiniband/VPI模式切换,仅在Infiniband设备上显示该选项

Link Speed

设置网卡的工作速率

MAC Address

显示网卡出厂分配的MAC地址

Virtual MAC Address

显示网卡的虚拟MAC地址

Socket Direct Operation

设置网卡Socket Direct功能的开启或关闭

 

2.2.3  Firmware Image properties

Firmware Image properties界面如图2-5图2-6所示,主要包含网卡的固件版本信息,具体参数说明如表2-2所示:

图2-5 Firmware Image properties图形化界面

 

图2-6 Firmware Image properties文本界面

 

表2-2 Firmware Image properties界面参数

界面参数

功能说明

Family Firmware Version

网卡的固件版本信息

EFI Version

网卡的UEFI驱动版本信息

 

2.2.4  NIC Configuration

NIC Configuration界面如图2-7图2-8所示,主要包含网卡工作在BIOS Legacy模式下的配置,具体参数说明如表2-3所示。

图2-7 NIC Configuration图形化界面

 

图2-8 NIC Configuration文本界面

 

表2-3 NIC Configuration界面参数

界面参数

功能说明

Banner Message Timeout

设置在Legacy模式下,网卡的提示信息等待时间(0~14s),在等待期间用户可根据提示输入按键,进入Legacy模式的网卡配置界面

Legacy Boot Protocol

设置在Legacy模式下网口的启动协议,支持如下选项:

·     1 - None - 无启动项,关闭PXE和iSCSI启动功能

·     2 - PXE - 优先使用PXE启动,如果失败则尝试iSCSI

·     3 - iSCSI - 优先使用iSCSI启动,如果失败则尝试PXE

·     4 - PXE without fail-over - 始终使用PXE启动,失败后不会尝试iSCSI

·     5 - iSCSI without fail-over - 始终使用iSCSI启动,失败后不会尝试PXE

IPv4/IPv6 Support

设置PXE启动使用IPv4或IPv6协议,支持如下选项:

·     1 - IPv4

·     2 - IPv6

·     3 - IPv4/IPv6 - 该模式下,如果IPv4启动失败,将会尝试从IPv6启动

Virtual LAN Mode

设置开启或关闭网卡启动的VLAN模式

Virtual LAN ID

设置网卡启动的VLAN ID,仅在Virtual Lan Mode Enable时有效,取值范围为:1~4094

Boot Retry Count

设置网卡启动的重试次数,支持如下选项:

·     0 - 不重试

·     1 - 重试1次

·     2 - 重试2次

·     3 - 重试3次

·     4 - 重试4次

·     5 - 重试5次

·     6 - 重试6次

·     7 - 无限循环重试

Wake on LAN

设置开启或关闭网卡的Wake LAN功能,该功能允许在带内通过发送一个魔法数据包(magic packet)唤醒服务器,仅在支持WOL功能的网卡显示该选项

 

2.2.5  iSCSI Configuration

iSCSI Configuration界面如图2-9图2-10所示,包含网卡iSCSI相关配置的菜单入口,具体参数说明如表2-4所示。

图2-9 iSCSI Configuration图形化界面

 

图2-10 iSCSI Configuration文本界面

 

表2-4 iSCSI Configuration图形化界面参数

界面参数

功能说明

iSCSI General Parameters

设置网卡iSCSI的通用参数

iSCSI initiator Parameters

设置网卡iSCSI的启动器参数,例如“IP地址,子网掩码等”

iSCSI First Target Parameters

设置网卡iSCSI首个目标设备的配置项

 

2. iSCSI General Parameters

iSCSI General Parameters界面如图2-11图2-12所示,主要包含网卡iSCSI功能的通用配置项,具体参数说明如表2-5所示。

图2-11 iSCSI General Parameters图形化界面

 

图2-12 iSCSI General Parameters文本界面

 

表2-5 iSCSI General Parameters界面参数

界面参数

功能说明

Boot to Target

设置网卡从iSCSI target 启动,支持如下选项:

·     1 - Enable,开启

·     2 - Disable,禁用

·     3 - One time disabled,仅禁用一次,下次启动后开启

TCP/IP Parameters via DHCP

设置开启或关闭网卡通过DHCP获取target参数的功能。

·     开启该功能后,target的IP地址、子网掩码、网关地址、DNS将会从DHCP服务器获取

·     关闭该功能后,target的IP地址、子网掩码、网关地址、DNS将从iSCSI First Target Parameters菜单获取

CHAP Mutual Authentication

设置开启或关闭iSCSI initiator和target之间的双向CHAP认证

IP Version

设置iSCSI启动使用IPv4或IPv6协议

 

3. iSCSI initiator Parameters

iSCSI initiator Parameters界面如图2-13图2-14所示,主要包含网卡iSCSI启动器相关的设置,具体参数说明如表1-6所示。

图2-13 iSCSI initiator Parameters图形化界面

 

图2-14 iSCSI initiator Parameters文本界面

 

表2-6 iSCSI initiator Parameters界面参数

界面参数

功能说明

IP Address

设置网卡iSCSI启动器的IPv4地址

Subnet Mask

设置网卡iSCSI启动器的IPv4子网掩码

Default Gateway

设置网卡iSCSI启动器的IPv4默认网关

Primary DNS

设置网卡iSCSI启动器的IPv4 DNS地址

iSCSI Name

设置网卡iSCSI启动器的IQN(iSCSI Qualified Name)

CHAP ID

设置网卡iSCSI启动器CHAP ID,如果CHAP Mutual Authentication使能,该参数也将用于iSCSI启动器端反向认证的用户名

CHAP Secret

设置网卡iSCSI启动器CHAP密码,如果CHAP Mutual Authentication使能,该参数也将用于iSCSI启动器端反向认证的密码

IPv6 Default Gateway

设置网卡iSCSI启动器的IPv6默认网关

IPv6 Address

设置网卡iSCSI启动器的IPv6地址

IPv6 Primary DNS

设置网卡iSCSI启动器的IPv6 DNS地址

IPv6 Prefix Length

设置网卡iSCSI启动器的IPv6前缀长度

 

4. iSCSI First Target Parameters

iSCSI First Target Parameters界面如图2-15图2-16所示,主要包含网卡iSCSI首个目标设备的配置项,具体参数说明如表2-7所示。

图2-15 iSCSI First Target Parameters图形化界面

 

图2-16 iSCSI First Target Parameters文本界面

 

表2-7 iSCSI First Target Parameters界面参数

界面参数

功能说明

Connect

配置开启或关闭网卡从iSCSi target的连接,如果在iSCSI general parameters界面配置DHCP Parameter使能,则本参数将会被忽略。

IP Address

配置网卡iSCSI target端的IPv4地址

IPv6 Address

配置网卡iSCSI target端的IPv6地址,该参数需要先设置IPv4/IPv6 suppport为IPv6后才可配置

TCP port

配置网卡iSCSI target端的TCP端口号,默认为3260

Boot LUN

配置网卡从iSCSI target端引导启动的LUN(Logical Unit Number)

iSCSI Name

配置网卡iSCSI target端的IQN(iSCSI Qualified Name)

CHAP ID

配置iSCSI target CHAP认证ID

CHAP Secret

配置iSCSI target CHAP认证密码


2.2.6  Power Configuration

Power Configuration界面如图2-17图2-18所示,主要包含网卡电源管理相关配置,具体参数说明如表2-8所示。

图2-17 Power Configuration图形化界面

 

图2-18 Power Configuration文本界面

 

表2-8 Power Parameters界面参数

界面参数

功能说明

Advanced Power Settings

当设置为 Enabled 时,可以配置其他电源设置参数

Slot Power Limiter

设置为禁用时,允许设备从PCIe供电槽耗电超过25W

RT PPS ENABLED ONPOWERUP

设置为 TRUE 时,PPS_OUT 将在上电时激活,当固件功能rt_pps_out_default_sup-ported设置为True时该选项才可配置

 

2.2.7  Device Level Configuration

Device Level Configuration界面如图2-19图2-20所示,主要包含网卡虚拟化相关配置,具体参数说明如表2-9所示。

图2-19 Device Level Configuration图形化界面

 

图2-20 Device Level Configuration文本界面

 

表2-9 Device Level Configuration图形化界面参数

界面参数

功能说明

Virtualization Mode

设置网卡的虚拟化模式,支持如下选项:

·     1 - None - 关闭虚拟化模式

·     2 - SR-IOV - 网卡开启SR-IOV虚拟化模式

PCI Virtual Function Advertised

设置网卡可供驱动使用的最大VF(virtual function)数量,仅在Virtualization Mode配置为SR-IOV模式时有效

 

2.3  网卡信息查询

2.3.1  驱动版本

1. Linux操作系统

使用“ethtool -i <网口名>”命令可查询网卡驱动版本,如图2-21所示。

图2-21 Linux系统下查询网卡驱动版本

 

2. Windows操作系统

同时按下“Windows 徽标键+R键”,在弹出的“运行(Run)”窗口输入“devmgmt.msc”并按回车,调出设备管理器(Device Manager)

设备管理器(Device Manager中选择网络适配器(Network adapters,在该网卡的属性页面(Adapter Properties中可查询网卡的驱动版本信息(Driver Version,如图2-22所示。

图2-22 在设备管理器中查询网卡驱动版本

 

2.3.2  固件版本

1. Linux操作系统

使用“ethtool -i <网口名>”命令可查询网卡固件版本,如图2-23所示。

图2-23 Linux系统下查询网卡固件版本

 

2. Windows操作系统

同时按下“Windows 徽标键+R键”,在弹出的“运行(Run)”窗口输入“devmgmt.msc”并按回车,调出设备管理器(Device Manager)

设备管理器(Device Manager中选择网络适配器(Network adapters,在该网卡的属性页面(Adapter Properties中可查询网卡的固件版本信息(Firmware Version,如图2-24所示。

图2-24 在设备管理器中查询网卡固件版本信息

 

2.3.3  光模块信息

1. Linux操作系统

使用“ethtool -m <网口名>”可查询当前网卡的光模块信息,如图2-25所示。

图2-25 Linux系统下查询网卡光模块信息

 

2. Windows操作系统

在Windows操作系统下,读取光模块信息需要安装MFT工具集,可从Mellanox工具下载链接获取。

安装完毕后,开启cmd命令行,执行“mst status”查询MST设备名,如图2-26所示。

图2-26 查询网卡设备名

 

使用“mlxlink -d <MST设备名> -m”查看当前网卡使用的光模块信息,如图2-27所示。

图2-27 查询光模块信息

 

2.3.4  MAC地址查询

1. Linux操作系统

使用“ifconfig <网口名>”命令可查询到该网卡的MAC地址,如图2-28所示。

图2-28 Linux系统下查询网卡MAC地址

 

2. Windows操作系统

同时按下“Windows 徽标键+R键”,在弹出的“运行(Run)”窗口输入“devmgmt.msc”并按回车,调出设备管理器(Device Manager)

设备管理器(Device Manager中选择网络适配器(Network adapters,在该网卡的属性页面(Adapter Properties中可查询网卡的MAC地址(Current MAC Address,如图2-29所示。

图2-29 在设备管理器中查询网卡MAC地址


2.4  网卡配置

2.4.1  PXE启动配置

1. 功能简介

PXE(Preboot eXecution Environment,预启动执行环境)是一种使用网络接口启动服务器的机制。Mellanox系列网卡的PXE功能由Nvidia PreBoot驱动程序提供,可以支持从InfiniBand和以太网启动。

Preboot驱动程序首先初始化网卡设备,检测端口协议(以太网或Infiniband),然后启动端口。网卡通过DHCP服务器分配IP地址和网络参数,并获取操作系统内核镜像文件的源地址。PreBoot驱动程序通过TFTP服务器、iSCSI目标或其他服务访问操作系统内核。

2. 配置准备

网卡默认开启PXE功能,无需额外配置。若网卡PXE功能未正常开启,请参照如下步骤配置开启。

配置网卡开启PXE功能需要先安装网卡驱动。可访问H3C官网,单击:支持https://www.h3c.com/cn/BizPortal/Content/images/icon-crumbs-arrow.png文档与软件https://www.h3c.com/cn/BizPortal/Content/images/icon-crumbs-arrow.png软件下载,在按产品检索处选择“服务器”,在软件下载页面,通过选择或搜索,获取网卡驱动并参考网卡配套的版本说明书进行安装。

3. 配置步骤

设置步骤分为“开启网卡PXE配置”和“开启BIOS PXE配置”两部分。其中:“开启网卡PXE配置”用于指导网卡固件的参数配置,正确配置后网卡才会出现在PXE菜单中;“开启BIOS PXE配置”用于指导开启BIOS下PXE选项的总开关。

开启网卡PXE配置

通过mlxconfig工具(网卡驱动程序附带此工具)设置开启PXE/UEFI功能。

mlxconfig -y -d <device> set <option>=1

其中<device>为网卡PCI Bus Number,<option>为如下三个选项:

·     EXP_ROM_UEFI_ARM_ENABLE

·     EXP_ROM_UEFI_x86_ENABLE

·     EXP_ROM_PXE_ENABLE

如果为较低版本固件,EXP_ROM_UEFI_ARM_ENABLE和EXP_ROM_UEFI_x86_ENABLE可能不存在,则只需要设置EXP_ROM_PXE_ENABLE选项即可,如图2-30所示。

图2-30 网卡PXE配置

 

开启BIOS PXE配置

在服务器启动过程中,根据提示按下DeleteEsc进入BIOS Setup界面。

图2-31所示,选择Advanced页签 >Network Stack Configuration,然后按Enter

图2-31 Advanced界面

 

图2-32所示,依次将Ipv4 PXE Support和Ipv6 PXE Support选项设置为Enabled

图2-32 UEFI模式开启PXE服务

 

说明

本节仅介绍使能网卡PXE功能的步骤。如需使用PXE功能,还需要搭建PXE Server,PXE Server的搭建方法为业界通用,可以通过互联网查询获取。

 

4. 验证配置

服务器上电启动,在POST界面按F12从PXE启动。在启动菜单中选中Mellanox网卡,按Enter从网卡启动。

2.4.2  SR-IOV配置

1. 功能简介

SR-IOV(Single Root I/O Virtualization,单根I/O虚拟化)允许用户整合其网络硬件资源,并在整合的硬件上同时运行多个虚拟机。虚拟化还为用户提供了丰富的功能,例如I/O共享、整合、隔离和迁移,以及简化管理。虚拟化可能会因管理程序的开销导致性能降低,PCI-SIG引入了SR-IOV规范,通过创建VF来解决性能问题,虚拟功能是一种直接分配给虚拟机的轻量级PCIe功能,绕过管理程序层进行主数据移动。

PF是全功能的PCIe功能,VF是PF分离出的轻量级PCIe功能,可直接将VF指定给相应的应用程序,虚拟功能共享物理设备的资源,并在没有CPU和虚拟机管理程序开销的情况下执行I/O。

Mellanox网卡能够在每个端口显示127个虚拟实例(Virtual Functions, VFs),并独立配置这些VFs。每一个VF都可视为连接到物理功能(Physical function, PF)的附加设备。VF与PF共享相同的资源,其端口数等于PF的端口数。

SR-IOV通常与支持SR-IOV的虚拟机监控程序配合使用,以提供虚拟机对网络资源的直接硬件访问,从而提高性能。

2. 配置准备

配置SR-IOV需要如下完成如下准备工作:

·     安装网卡驱动程序:访问H3C官网,获取网卡驱动。参照网卡配套的版本说明书安装驱动程序。

·     操作系统的Hypervisor需要支持SR-IOV。

3. 配置步骤

(1)     进入BIOS Setup界面。

(2)     如图2-33所示,选择Advanced页签 > PCI Subsystem Settings,按Enter

图2-33 Advanced界面

 

(3)     进入图2-34所示界面,选择SR-IOV Support,设置为Enabled。然后按ESC,直至退回到BIOS Setup主界面。

图2-34 PCI Subsystem Settings界面

 

(4)     如图2-35所示,选择Socket Configuration页签 > IIO Configuration > Intel@ VT for Directed I/O (VT-d),按Enter

图2-35 Socket Configuration界面

 

(5)     进入图2-36所示界面,选择Intel@ VT for Directed I/O (VT-d),设置为Enable。然后按ESC,直至退回到BIOS Setup主界面。

图2-36 Intel@ VT for Directed I/O (VT-d)界面

 

(6)     如图2-37所示,选择Advanced页签 > Mezz网卡的第一个端口(这是全局的开关),按Enter。设置Multi-Function Mode为SR-IOV,然后保存配置并重启系统。

图2-37 设置Multi-Function Mode

 

(7)     在系统启动阶段,按E进入图2-38所示界面,然后按方向键进行翻页,并在指定位置加入“intel_iommu=on iommu=pt”来开启IOMMU支持功能,设置完成后按Ctrl-x继续启动系统。

图2-38 修改grub启动配置

 

(8)     在系统启动后,使用如下命令检查网卡固件SR-IOV使能情况,如图2-39所示:

mlxconfig -d /dev/mst/mt4115_pciconf0 q

如果默认配置无法满足需求,则可以使用mlxconfig设置开启SR-IOV功能,并配置最大VF的数量:

mlxconfig -d /dev/mst/mt4115_pciconf0 set SRIOV_EN=1 NUM_OF_VFS=16

图2-39 查询网卡固件SR-IOV使能状态

 

(9)     配置完毕后重启服务器。

4. 验证配置

(1)     如图2-40所示,进入系统后,执行“dmesg | grep IOMMU”命令,确认IOMMU是否成功开启。

图2-40 确认IOMMU是否成功开启

 

(2)     如图2-41所示,执行“echo NUM > /sys/class/net/ethX/device/sriov_numvfs”命令,为某个PF端口分配指定的VF数量,其中NUM表示要分配的VF数量,ethX表示PF端口名称。执行完成后,可使用命令“lspc | grep Mellanox”确认是否成功分配。

图2-41 分配VF

 

(3)     如图2-42所示,执行“virt-manager”命令,运行虚拟机管理器,然后选择[File/New Virtual Machine],新建虚拟机。

图2-42 添加虚拟网卡

 

(4)     安装驱动并执行“ifconfig ethVF hw ether xx:xx:xx:xx:xx:xx”命令为虚拟网卡配置MAC地址后,即可正常使用。其中ethVF表示虚拟网卡的名称,xx:xx:xx:xx:xx:xx表示MAC地址。

2.4.3  WoL配置

1. 功能简介

Wake-On-LAN简称WOL,是一种电源管理功能。如果存在网络活动,则允许设备将操作系统从待机或休眠模式中唤醒。许多主板厂商支持IBM提出的网络唤醒标准。该标准允许网络管理员远程开机,以便进行文件升级、资源跟踪和设备清点等工作。

2. 配置准备

Wake on lan唤醒需要满足如下条件:

·     网卡支持WoL功能。目前仅OCP形态网卡以及NIC-620F-B2-25Gb-2P网卡支持此功能。

·     BIOS下开启wake on lan相关选项。

·     记录网卡的MAC地址。

3. 配置步骤

(1)     进入BIOS Setup界面。

(2)     如图2-43所示,选择Advanced页签 > Platform Configuration > Miscellaneous Configuration,按Enter进入,然后按ctrl+shift+f8打开隐藏选项,设置Wake On Lan Supportenable。然后保存并重启。

图2-43 开启BIOS Wake On Lan Support

 

(3)     如图2-44所示,使用ethtool interface查询网卡是否支持wake on lan

·     Supports wake-on:g表示支持网络唤醒。

·     Wake-on:g表示启用wake on lan

·     Wake-on:d表示禁用wake on lan

图2-44 查看网卡 wake on lan选项

 

(4)     若查询Wake-ond时,需要使用如下命令开启网卡wake on lan功能。

ethtool -s interface wol g

4. 验证配置

使用命令ether-wakeMAC】或者使用其他唤醒工具远程操作机器开机。

2.4.4  RoCE配置

1. 功能简介

RDMA over Converged Ethernet (RoCE)简介

RDMA(Remote Direct Memory Access,远程直接内存访问)是为了解决网络传输中服务器端数据处理的延迟而产生的,无需使用CPU,就可以从一个主机或服务器的内存直接访问另一主机或服务器的内存。它释放了CPU去执行其应做的工作,比如运行应用程序和处理大量数据。这既提高了带宽又降低了延迟、抖动和 CPU 消耗。

目前有三种RDMA网络,如图2-45所示,分别是Infiniband、RoCE(RDMA over Converged Ethernet)、iWARP。

·     InfiniBand是一种专为RDMA设计的网络,从硬件级别保证可靠传输,提供更高的带宽和更低的时延。但是成本高,需要支持IB网卡和交换机。

·     RoCE基于Ethernet 做RDMA,消耗的资源比iWARP 少,支持的特性比iWARP多。可以使用普通的以太网交换机,但是需要支持RoCE的网卡。

·     iWARP基于TCP的RDMA网络,利用TCP达到可靠传输。相比RoCE,在大型组网的情况下,iWARP的大量TCP连接会占用大量的内存资源,对系统规格要求更高。可以使用普通的以太网交换机,但是需要支持iWARP的网卡。

图2-45 RDMA网络种类

 

图2-46 RDMA网络种类对比

 

RoCE类型

RoCE协议存在RoCEv1和RoCEv2两个版本,这取决于所使用的网络适配器或网卡,如图2-47是两种Roce的数据包格式。

·     RoCE v1:RoCE v1是基于以太网链路层实现的RDMA协议(交换机需要支持PFC等流控技术,在物理层保证可靠传输),允许在同一个VLAN中的两台主机进行通信。RoCE V1协议在以太层的typeID是0x8915

·     RoCE v2:RoCE v2克服了RoCE v1绑定到单个VLAN的限制。通过改变数据包封装,包括IP和UDP标头,RoCE v2现在可以跨L2和L3网络使用

注:RoCE不需要打开子网管理器。

图2-47 RoCE v1与RoCE v2数据包格式

 

GID表分布

每当以太网设备的一个网络端口配置了一个IP地址时,就会在GID(Global Identifier,全局ID)表格中创建一个表项。每个表项包含:【GID值】,【GID类型】,【网络设备】。对于两种模式都支持的设备端口,表中会存在两个GID,有相同的值,但是类型不同,如图2-48,表项中的网络设备是该GID关联的以太网设备的IP地址。

图2-48 GID表信息

在系统文件sysfs中查看GID的路径如下:

·     GID值:/sys/class/infinband/<device>/ports/<port>/gids/<index>

·     GID类型:/sys/class/infinband/<device>/ports/<port>/gid_attrs/types/<index>

·     GID网络设备:/sys/class/infinband/<device>/ports/<port>/gid_attrs/ndevs/<index>

2. 配置准备

安装网卡驱动程序:可访问H3C官网,单击:支持https://www.h3c.com/cn/BizPortal/Content/images/icon-crumbs-arrow.png文档与软件https://www.h3c.com/cn/BizPortal/Content/images/icon-crumbs-arrow.png软件下载,在按产品检索处选择“服务器”,在软件下载页面,通过选择或搜索,获取网卡驱动并参考网卡配套的版本说明书进行安装。

RoCE 的驱动程序是作为 mlx5 和其他模块的一部分安装。如图2-49所示,驱动安装完毕后可使用ibv_devinfo查看MLNX_OFED版本信息。

图2-49 查看MLNX_OFED版本信息

 

3. 配置步骤

RoCE 无损以太网配置

为了可靠地运行,RoCE需要一种形式的流量控制。虽然可以使用全局流控制,但出于性能原因,这通常是不可取的。

使用RoCE的正常和最佳方法是使用优先流控制(PFC,Priority-based Flow Control)。要使用PFC,必须在流路径中的所有端点和交换机上启用它。

要启用RoCE,交换机应做如下配置:

·     面向主机的端口应配置为访问端口,并使用全局暂停或端口控制协议(PCP)进行优先级流控制

·     面向网络的端口应配置为中继端口,并使用端口控制协议(PCP)用于优先流控制

配置RoCE LAG

RoCE LAG(RoCE Link Aggregation,RoCE链路聚合) 是一种用于模拟 IB 设备的以太网绑定的功能,仅适用于双端口卡。

RHEL7.内核版本为4.9及更高版本支持此功能。

当同一张网卡的两个以太网接口配置绑定为以下模式时,将进入 RoCE LAG 模式:

·     active-backup (mode 1)

·     balance-xor (mode 2)

·     802.3ad (LACP) (mode 4)

图2-50 RoCE LAG测试拓扑

 

配置步骤示例如下:

(1)     确保在服务器上启用绑定,按照发行版操作系统手册创建bond0接口。

(2)     按如下方式编辑/etc/sysconfig/network-scripts/ifcfg-bond0,设置bond0接口,如下示例bond模式为active-backup(mode 1)

DEVICE=bond0

NAME=bond0

TYPE=bond

BONDING_MASTER=yes

IPADDR=22.22.22.6 #the other server should have different IP on the same subnet

PREFIX=24

BOOTPROTO=none

ONBOOT=yes

NM_CONTROLLED=no

BONDING_OPTS="mode=active-backup miimon=100 updelay=100 downdelay=100"

(3)     按如下方式编辑/etc/sysconfig/network-scripts/ifcfg-ens817,设置网络适配器的其中一个物理端口。

DEVICE=ens817

TYPE=Ethernet

ONBOOT=yes

MASTER=bond0

SLAVE=yes

BOOTPROTO=none

(4)     按同样方式编辑/etc/sysconfig/network-scripts/ifcfg-ens817d1,设置网络适配器的另一个物理端口。

DEVICE=ens817d1

TYPE=Ethernet

ONBOOT=yes

MASTER=bond0

SLAVE=yes

BOOTPROTO=none

(5)     按如下命令重启网口或者驱动。

执命令重启网口:

# ifdown bond0

# ifup bond0

执行命令重启驱动:

# /etc/init.d/network restart

# /etc/init.d/openibd restart

(6)     确保可以使用bond0可以在两台服务器之前ping通。

(7)     执行cat /proc/net/bonding/bond0命令可以查看bond0口的正确状态信息。

# cat /proc/net/bonding/bond0

Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)

Bonding Mode: fault-tolerance (active-backup)

Primary Slave: None

Currently Active Slave: ens817

MII Status: up

MII Polling Interval (ms): 100

Up Delay (ms): 100

Down Delay (ms): 100

 

Slave Interface: ens817

MII Status: up

Speed: 40000 Mbps

Duplex: full

Link Failure Count: 6

Permanent HW addr: e4:1d:2d:26:3c:e1

Slave queue ID: 0

 

Slave Interface: ens817d1

MII Status: up

Speed: 40000 Mbps

Duplex: full

Link Failure Count: 6

Permanent HW addr: e4:1d:2d:26:3c:e2

Slave queue ID: 0

(8)     运行perftests工具来检查RDMA,例如使用ib_send_bw。

在其中一个host端执行ib_send_bw,命令如下: ib_send_bw -D60 -f --report_gbits

在client端执行ib_send_bw,命令如下: ib_send_bw 22.22.22.6 -D60 -f --report_gbits

开启或禁用RoCE

默认情况下,RoCE在所有 mlx5 设备上启用。启用RoCE后,到UDP端口4791的所有流量都被设备视为RoCE流量。

如果您只对以太网(无 RDMA)感兴趣并希望将流量转发到此端口,您可以通过 sysfs 查看或禁用 RoCE:

·     查看RoCE状态:cat /sys/devices/{pci-bus-address}/roce_enable

·     禁用RoCE:echo 0 > /sys/devices/{pci-bus-address}/roce_enable

·     启用RoCE:echo 1 > /sys/devices/{pci-bus-address}/roce_enable

2.4.5  LLDP开启与关闭

1. 功能简介

LLDP(Link Layer Discovery Protocol,链路层发现协议)是IEEE 802.1ab中定义的链路层发现协议。LLDP是一种标准的二层发现方式,可以将本端设备的管理地址、设备标识、接口标识等信息组织起来,并发布给自己的邻居设备,邻居设备收到这些信息后将其以标准的管理信息库MIB(Management Information Base,管理信息库)的形式保存起来,以供网络管理系统查询及判断链路的通信状况。它不是一个配置、控制协议,无法通过该协议对远端设备进行配置,它只是提供了关于网络拓扑以及管理配置的信息,这些信息可以被用于管理、配置的目的。

说明

网卡LLDP功能使能后,LLDP报文将由网卡固件处理。网卡将终结掉LLDP报文,不再上送OS,因此第三方工具LLDPAD将无法进行LLDP处理。如需使用OS下第三方工具LLDP功能,需要将网卡固件的LLDP功能禁用。

 

2. 配置准备

1)     OS下安装MFT工具集(Mellanox工具下载链接);

2)     将待测网卡和交换机进行连接,确保链路正常。

3. 配置步骤

(1)     执行mst start启动工具服务。

(2)     使用mst status查看网卡的Device ID,如果出现一台服务器上同时存在多张不同型号Mellanox网卡的情况,可以查看其中的domain:bus:dev.fun信息判断是否为待测网卡。

 

图2-51 查询网卡设备地址

 

(3)     执行命令查看网卡的LLDP状态,

mlxconfig –d [MST_device] q | grep -i lldp

关注如下配置项:

LLDP_NB_DCBX_P1=0

LLDP_NB_RX_MODE_P1=0

LLDP_NB_TX_MODE_P1=0

值为0表示port1口的LLDP功能为关闭状态。

图2-52 查询网口LLDP配置状态

 

(4)     进入交换机侧查询对应端口的LLDP信息,此处使用H3C交换机演示,执行查询命令:

display lldp neighbor-information interface Twenty-FiveGige 1/0/9

如图所示,网卡LLDP功能处于禁用状态,没有LLDP报文发送至交换机。

图2-53 查询交换机侧LLDP报文

 

(5)     执行如下命令开启port1口的LLDP功能,配置完成之后按照提示重启服务器。

mlxconfig -d [MST_device]set LLDP_NB_DCBX_P1=1, LLDP_NB_RX_MODE_P1=2, LLDP_NB_TX_MODE_P1=2

开启(查询)port2 LLDP的方法同上,修改如下三个选项即可:

LLDP_NB_DCBX_P2=1, LLDP_NB_RX_MODE_P2=2, LLDP_NB_TX_MODE_P2=2

4. 验证配置

(1)     重启后再次查看待测网卡的LLDP状态(当前port 1口的LLDP功能是开启状态,port 2口为关闭状态)。

图2-54 重启后检查网口LLDP配置状态

 

(2)     进入交换机侧查询对应端口的LLDP信息如图所示,可查看到网卡的相关信息。

图2-55 重启后查询交换机侧LLDP报文

 

2.4.6  Bonding配置

1. 功能简介

Bonding技术,能将多块物理网卡上的网卡绑定到一个虚拟网口上,让多块网卡看起来是一个单独的以太网接口设备,用来确保服务器网络质量。

网卡Bonding可以通过以下两种方式确保服务器网络服务质量:

·     网络负载均衡:将多个网卡通过Bonding技术来作为一块使用,共用同一IP地址,将流量通过一定算法进行分配,使流量在多块网卡间负载均衡,同时也能突破单个网口的吞吐量限制。

·     网络冗余:确保服务器网络设备的稳定性,当服务器上一块网卡出现故障时可以将流量切换到另一块网卡,继续提供正常的网络服务。

Bonding 包括如下7 种模式,其中常用的有mode 0、mode 1 和mode 6 三种:

·     mode=0,即:(balance-rr)Round-robin policy(平衡轮循环策略),数据包在两个Slave之间顺序依次传输。需要在交换机侧配置静态链路聚合;

·     mode=1,即:(active-backup)Active-backup policy(主-备策略)。只有主设备处于活动状态,当主设备宕机后备设备转换为主设备;

·     mode=2,即:(balance-xor)XOR policy(平衡策略),基于指定的传输HASH 策略传输数据包。需要在交换机侧配置静态链路聚合;

·     mode=3,即:broadcast(广播策略),在每个Slave 接口上传输每个数据包,此模式提供了容错能力。需要在交换机侧配置静态链路聚合;

·     mode=4,即:(802.3ad)IEEE 802.3ad Dynamic link aggregation(IEEE 802.3ad 动态链路聚合),创建一个聚合组,它们共享同样的额定速率和双工设定,外出流量的Slave选择是基于传输hash 策略的。此模式需要在交换机侧配置动态链路聚合;

·     mode=5,即:(balance-tlb)Adaptive transmit load balancing(适配器传输负载均衡)。不需要任何特别的交换机支持,在每个Slave上根据当前的负载(根据速度计算)分配外出流量,如果正在接受流量的Slave故障,另一个Slave 接管失败Slave 的MAC 地址;

·     mode=6,即:(balance-alb)Adaptive load balancing(适配器适应性负载均衡)。该模式包含了balance-tlb 模式,同时加上针对IPV4 流量的接收负载均衡,通过ARP 协商实现,不需要交换机支持。BONDING 驱动截获本机发送的ARP 应答,并把源硬件地址改为BOND 中某个Slave的唯一硬件地址,从而使得不同的对端使用不同的硬件地址进行通信。

2. 配置准备

配置Bonding需要做以下准备:

(1)     系统支持Bonding功能

(2)     网卡所连接的交换机,需要配置聚合组

3. 配置步骤

本文以在RHEL7.5 系统下配置mode=6 为例介绍操作步骤。

(1) 如图2-56所示,在“/etc/sysconfig/network-scripts/”目录下,

创建bond0-ifcfg 配置文件并填写以下内容:

BOOTPROTO=static

DEVICE=bond0

NAME=bond0

TYPE=Bond

BONDING_MASTER=yes

ONBOOT=yes

IPADDR=192.168.50.88 #设置bond0 接口地址

PREFIX=24 #设置子网掩码

GATEWAY=

DNS=

BONDING_OPTS=”miimon=100 mode=6” #设置每100ms 检测一次mii链路,Bonding 模式为mode=6

图2-56 网卡Bonding配置文件示例

 

(2) 编辑 Slave网口的配置文件。如图2-57所示,将如下内容写入配置文件。

ONBOOT=yes

MASTER=bond0

SLAVE=yes

对于其他要加入bond0 的Slave网口,也进行相同操作。

图2-57 网卡Slave接口配置文件示例

 

(3) 图2-58所示,执行“service network restart”命令,重启网络服务,使bond0 生效。

图2-58 重新启动网络服务

 

4. 验证配置

操作系统命令行下执行“cat /proc/net/bonding/bond0”命令查看bond0 和网卡信息。如图2-59 ,bond0 以及两个Slave 接口已经UP。

图2-59 Bonding接口信息查询

 

2.4.7  FEC配置

1. 功能简介

FEC(forward error correction,前向纠错)在数据发送端为数据报文附加纠错信息,接收端利用纠错信息纠正数据报文传输过程中产生的误码。该技术可以有效降低信道误码率,提高信号质量,从而延伸物理介质的最远传输距离,但也会带来一些传输延时。如果两端的FEC模式不匹配,则物理链路无法连通。

图2-60 FEC基本原理

 

FEC主要分为BASE-R FEC和RS-FEC两种。

·     BASE-R FEC在IEEE CLAUSE 74中定义,主要服务于10GBASE-KR、40GBASE-KR4、40GBASE-CR4和100GBASE-CR10 PHYs。

·     RS-FEC在IEEE CLAUSE 108中定义,主要服务于25GBASE-CR、25GBASE-CR-S、25GBASE-KR、25GBASE-KR-S和25GBASE-SR PHYs。

·     在IEEE CLAUSE 91中定义了RS-FEC也可服务于100G BASE-CR4、100G BASE-KR4和100G BASE-SR4 PHYs。

表2-10 FEC模式与物理介质关系表

物理介质

接口名称

FEC模式

光纤

25GBASE-SR

RS-FEC

直连铜缆

25GBASE-CR

FEC or RS-FEC

直连铜缆

25GBASE-CR-S

BASE-R FEC or disabled

电子背板

25GBASE-KR

BASE-R FEC or RS-FEC

电子背板

25GBASE-KR-S

BASE-R FEC or disabled

双绞线

25GBASE-T

N/A

 

表2-10所示,IEEE标准定义了两种背板和电缆接口,带-S的短距接口使用高质量背板或者电缆,可以不使用FEC纠错功能,将信号传输时延降至最低,用于短距离传输;不带-S的标准接口是为了降低组网成本,允许使用低成本电缆和背板,同时开启FEC纠错功能,用于长距离传输。

2. 配置准备

(1)     OS下安装MFT工具集(Mellanox工具下载链接)。

(2)     将网卡和交换机进行连接(或对接其他网卡),确保链路link up。

3. 配置步骤

FEC模式设置可以采用ethtool工具或mlxlink工具(MFT工具集包含此工具)。

·     方法一:使用ethtool工具配置fec模式

a.     查看当前网口的支持的FEC模式,执行ethtool --show-fec <网口名>

b.     如需修改网口的FEC模式,执行ethtool --set-fec <网口名> encoding off/baser/rs/auto(配置立即生效,重启后恢复)

c.     如需修改网口的FEC模式且重启后生效,可修改rc.locl文件。编辑/etc/rc.d/rc.local文件,写入shell命令:

-     ethtool --set-fec <网口名> encoding off/baser/rs/auto

-     启动rc-local服务:systemctl enable rc-local

-     重启服务器

·     方法二:使用mlxlink工具配置fec模式

d.     安装mft工具,启动工具服务,执行mst start

e.     执行命令mst status,查询设备名,如图2-61所示。

图2-61 查询网卡设备名

 

f.     设置当前网口的FEC模式,执行mlxlink -d /dev/mst/[MST_devices] --fec nf/fc/rs,如图2-62所示。

图2-62 设置网口FEC模式

 

4. 验证配置

·     方法一:使用ethtool工具查看fec模式

执行命令:ethtool --show-fec <网口名>,如图2-63所示:

图2-63 使用ethtool查询FEC模式

 

·     方法二:使用mlxlink工具查看fec模式

执行命令:mlxlink -d /dev/mst/[MST_devices] --show_fec,如图2-64所示:

图2-64 使用mlxlink查询网口fec模式


3 Intel以太网卡

3.1  适配的网卡

说明

·     由于产品版本升级或其他原因,本文档内容会不定期进行更新。

·     对于本文档中没有介绍的网卡,请联系技术支持。

·     本文中展示的软件界面,以某个软件版本为准进行示例;由于软件会不定期更新,请以产品实际显示的软件界面为准。

·     本文为产品通用资料。对于定制化产品,请用户以产品实际情况为准。

·     本手册中,所有部件的型号做了简化。比如网卡型号NIC-X710DA2-F-B-10Gb-2P,代表用户可能看到的以下型号:UN-NIC-X710DA2-F-B-10Gb-2P-F2、UN-NIC-X710DA2-F-B-10Gb-2P-2、NIC-X710DA2-F-B-10Gb-2P。

 

本文档适用于如下型号的网卡,关于网卡的详细信息请参见服务器兼容的部件查询工具

·     NIC-ETH-E810CQDA1G1P5-1P

·     NIC-ETH-E810XXVDA2G1P5-2P

·     NIC-X710DA2-F-B-10Gb-2P

·     NIC-X710DA4-F-B-10Gb-4P

·     NIC-X710-DA2-F-C-2x10Gb

·     CNA-560T-B2-10Gb-2P

·     CNA-10GE-2P-560F-B2


3.2  网卡配置界面及参数说明

本节内容以NIC-X710DA2-F-B-10Gb-2P网卡为例进行介绍。其他网卡,请以实际界面显示情况为准。

3.2.1  BIOS Setup Advanced

图1-1图1-2所示,在BIOS Setup Advanced界面,通过PCIe设备的Slot Number和网卡设备的Port Number对应的选项,进入网口配置Main界面。

图3-1 BIOS Setup Advanced图形化界面

 

图3-2 BIOS Setup Advanced文本界面

 

3.2.2  网卡的配置主界面

网卡的配置主界面如图3-3图3-4所示,主要包含网卡的产品信息、当前连接状态、MAC地址、PCIe Bus地址等信息。具体参数说明如表3-1所示。

图3-3 网卡配置图形化主界面

 

图3-4 网卡配置文本主界面

 

表3-1 Main界面参数

界面参数

功能说明

Blink LEDs

设置数值0-15(秒),网口将会按照设置的数值闪烁LED灯,

仅在支持Blink LEDs的网卡上展示该选项

UEFI Driver

显示UEFI驱动

Adapter PBA

显示网卡PBA

Device Name

显示设备名称

Chip Type

显示网卡的芯片型号

PCI Device ID

显示网卡的PCIe Device ID

PCI Address

显示网卡的PCIe总线地址信息,Bus:Drvice:Function

Link Status

显示网口的连接状态

MAC Address

显示网卡出厂分配的MAC地址

Virtual MAC Address

显示网卡的虚拟MAC地址

 

3.2.3  Firmware Image properties

Firmware Image properties界面如图3-5图3-6所示,主要包含网卡的固件版本信息,具体参数说明如表3-2所示:

图3-5 Firmware Image properties图形化界面

 

图3-6 Firmware Image properties文本界面

 

表3-2 Firmware Image properties界面参数

界面参数

功能说明

Option ROM Version

网卡的Option ROM版本信息

Unique NVM/EEPROM ID

网卡的NVM/EEPROM ID

NVM Version

网卡固件版本信息

 

3.2.4  NIC Configuration

NIC Configuration界面如图3-7图3-8所示,主要包含网卡的功能信息,具体参数说明如表3-3所示。

图3-7 NIC Configuration图形化界面

 

图3-8 NIC Configuration文本界面

 

表3-3 NIC Configuration界面参数

界面参数

功能说明

Link Speed

链接速率

Wake on LAN

网卡的Wake LAN功能,该功能允许在带内通过发送一个魔法数据包(magic packet)唤醒服务器

LLDP Agent

持续启用或禁用固件的LLDP代理。注意:禁用固件的LLDP代理也会禁用DCB功能。禁用固件代理允许来自交换机的LLDP数据包不受阻碍地传递到操作系统。有些操作系统层LLDP代理和软件定义的网络层LLDP代理需要这些数据包才能正常工作


3.3  网卡信息查询

3.3.1  驱动版本

1. Linux操作系统

使用“ethtool -i <网口名>”命令可查询网卡驱动版本,如图3-9所示。

图3-9 Linux系统下查询网卡驱动版本

 

2. Windows操作系统

同时按下“Windows 徽标键+R键”,在弹出的“运行(Run)”窗口输入“devmgmt.msc”并按回车,调出设备管理器(Device Manager)

设备管理器(Device Manager中选择网络适配器(Network adapters,在该网卡的属性页面(Adapter Properties中可查询网卡的驱动版本信息(Driver Version,如图3-10所示。

图3-10 Windows系统下查询网卡驱动版本

 

3.3.2  固件版本

1. Linux操作系统

使用“ethtool -i <网口名>”命令或配合使用lspci –vvv –s <bus>命令查询网卡固件版本,如图3-11所示。

图3-11 Linux系统下查询网卡固件版本

 

2. Windows操作系统

访问H3C官网,获取Intel网卡在Windows下的固件安装包,上传该安装包至服务器解压并执行解压后的exe文件,可查询到网卡的固件版本信息,如图3-12所示。

图3-12 Windows系统下查询网卡固件版本

 

3.3.3  光模块信息

1. Linux操作系统

使用“ethtool -m <网口名>”可查询当前网卡的光模块信息,如图3-13所示。

图3-13 Linux系统下查询网卡光模块信息

 

2. Windows操作系统

Intel网卡不支持在windows操作系统下查询光模块信息。

3.3.4  MAC地址查询

1. Linux操作系统

使用“ifconfig <网口名>”命令可查询到该网卡的MAC地址,如图3-14所示。

图3-14 Linux系统下查询网卡MAC地址

 

2. Windows操作系统

同时按下“Windows 徽标键+R键”,在弹出的“运行(Run)”窗口输入“cmd”并按回车,调出命令行

在命令行输入“ipconfig /all”查看网卡的MAC地址如图3-15所示。

图3-15 Windows系统下查询网卡MAC地址

 

3.3.5  速率查询

1. Linux操作系统

使用“ethtool <网口名>”命令查看网卡速率,如图3-16所示。

图3-16 Linux系统下查询网卡速率

 

2. Windows操作系统

打开控制面板->网络和共享中心(Network and Internet)->更改适配器设置(Change adapter settings),右键查看该网卡的状态,可获取网卡的速率。如图3-17图3-18所示。

图3-17 Windows系统下更改适配器设置

 

图3-18 Windows系统下查看网卡速率


3.4  网卡配置

3.4.1  PXE启动配置

1. 功能简介

PXE(Preboot eXecution Environment,预启动执行环境)是一种使用网络接口启动服务器的机制。Intel系列网卡的PXE功能由Intel PreBoot驱动程序提供。

Preboot驱动程序首先初始化网卡设备,检测端口协议(以太网或Infiniband),然后启动端口。网卡通过DHCP服务器,分配IP地址和网络参数,并获取操作系统内核镜像文件的源地址。PreBoot驱动程序通过TFTP服务器、iSCSI目标或其他服务访问操作系统内核。

2. 配置准备

网卡默认开启PXE功能,无需额外配置,如网卡PXE功能未正常开启,请参照如下步骤配置开启。

配置网卡开启PXE功能需要安装网卡驱动。可访问H3C官网,单击:支持https://www.h3c.com/cn/BizPortal/Content/images/icon-crumbs-arrow.png文档与软件https://www.h3c.com/cn/BizPortal/Content/images/icon-crumbs-arrow.png软件下载,在按产品检索处选择“服务器”,在软件下载页面,通过选择或搜索,获取网卡驱动并参考网卡配套的版本说明书安装。

3. 配置步骤

配置步骤主要分为“在BIOS下开启PXE选项总开关”和“在BIOS下开启网卡PXE”。

4. 在BIOS下开启PXE选项总开关

在服务器启动过程中,根据提示按下DeleteEsc进入BIOS Setup界面。如图3-19所示,选择Advanced页签 >Network Configuration,然后按Enter

图3-19 Advanced界面

 

图3-20所示,依次将Ipv4 PXE Support和Ipv6 PXE Support选项设置为Enabled

图3-20 UEFI模式开启PXE服务

 

5. 在BIOS下开启网卡PXE

图3-20基础上,选择PCIE NIC Configuration页签,然后按Enter,设置网卡的PXE为Enabled。如图3-21所示。

图3-21 开启网卡PXE

 

说明

·     本节仅介绍使能网卡PXE功能的步骤。如需使用PXE功能,还需要搭建PXE Server,PXE Server的搭建方法为业界通用,可以通过互联网获取。

 

6. 验证配置

服务器上电启动,在POST界面按F12从PXE启动。在启动菜单中选中Intel网卡,按Enter从网卡启动。

3.4.2  SR-IOV配置

1. 功能简介

SR-IOV(Single Root I/O Virtualization,单根I/O虚拟化)允许用户整合其网络硬件资源,并在整合的硬件上同时运行多个虚拟机。虚拟化还为用户提供了丰富的功能,例如I/O共享、整合、隔离和迁移,以及简化管理。虚拟化可能会因管理程序的开销导致性能降低,PCI-SIG引入了SR-IOV规范,通过创建VF来解决性能问题,虚拟功能是一种直接分配给虚拟机的轻量级PCIe功能,绕过管理程序层进行主数据移动。

PF是全功能的PCIe功能,VF是PF分离出的轻量级PCIe功能,可直接将VF指定给相应的应用程序,虚拟功能共享物理设备的资源,并在没有CPU和虚拟机管理程序开销的情况下执行I/O。

每一个VF(Virtual Functions,VFs)都可视为连接到物理功能(Physical function, PF)的附加设备。VF与PF共享相同的资源,其端口数等于PF的端口数。

SR-IOV通常与支持SR-IOV的虚拟机监控程序配合使用,以提供虚拟机对网络资源的直接硬件访问,从而提高性能。

2. 配置准备

配置SR-IOV需要如下完成如下准备工作:

·     安装网卡驱动程序:访问H3C官网,获取网卡驱动。参照网卡配套的版本说明书安装驱动程序。

·     操作系统的Hypervisor需要支持SR-IOV。

3. 配置步骤

(1)     进入BIOS Setup界面。

(2)     如图3-22所示,选择Advanced页签 > PCI Subsystem Settings,按Enter

图3-22 Advanced界面

 

(3)     进入图3-23所示界面,选择SR-IOV Support,设置为Enabled。然后按ESC,直至退回到BIOS Setup主界面。

图3-23 PCI Subsystem Settings界面

 

(4)     如图3-24所示,选择Advanced页签 > IIO Configuration > Intel@ VT for Directed I/O,按Enter

图3-24 Socket Configuration界面

 

(5)     进入图3-25所示界面,选择Intel@ VT for Directed I/O,设置为Enabled。然后按ESC,直至退回到BIOS Setup主界面。

图3-25 Intel@ VT for Directed I/O界面

 

(6)     在系统启动阶段,按E进入图3-26所示界面,然后按方向键进行翻页,并在指定位置加入“intel_iommu=on iommu=pt”来开启IOMMU支持功能,设置完成后按Ctrl-x继续启动系统。

图3-26 修改grub启动配置

 

4. 验证配置

(1)     如图3-27所示,进入系统后,执行“dmesg | grep IOMMU”命令,确认IOMMU是否成功开启。

图3-27 确认IOMMU是否成功开启

 

(2)     如图3-28所示,执行“echo NUM > /sys/class/net/ethX/device/sriov_numvfs”命令,为某个PF端口分配指定的VF数量,其中NUM表示要分配的VF数量,ethX表示PF端口名称。执行完成后,可使用命令“ip link”确认是否成功分配。

图3-28 分配VF

 

(3)     如图3-29所示,执行“virt-manager”命令,运行虚拟机管理器,然后选择[File/New Virtual Machine],新建虚拟机。

图3-29 添加虚拟网卡

 

(4)     虚拟机开机并安装驱动,在虚拟机下可成功识别到虚拟网卡,并可正常使用。

3.4.3  RoCE配置

说明

·     仅NIC-ETH-E810CQDA1G1P5-1P、NIC-ETH-E810XXVDA2G1P5-2P网卡支持该功能,且支持的RDMA传输类型为iWARP和RoCEv2。

 

1. 功能简介

2. RDMA over Converged Ethernet (RoCE)简介

RDMA(Remote Direct Memory Access,远程直接内存访问)是为了解决网络传输中服务器端数据处理的延迟而产生的,无需使用CPU,就可以从一个主机或服务器的内存直接访问另一主机或服务器的内存。它释放了CPU去执行其应做的工作,比如运行应用程序和处理大量数据。这既提高了带宽又降低了延迟、抖动和 CPU 消耗。

目前有三种RDMA网络,如图3-30所示,分别是Infiniband、RoCE(RDMA over Converged Ethernet)、iWARP。三种RDMA网络的对比如图3-31所示。

·     InfiniBand是一种专为RDMA设计的网络,从硬件级别保证可靠传输,提供更高的带宽和更低的时延。但是成本高,需要支持IB网卡和交换机。

·     RoCE基于Ethernet 做RDMA,消耗的资源比iWARP 少,支持的特性比iWARP多。可以使用普通的以太网交换机,但是需要支持RoCE的网卡。

·     iWARP基于TCP的RDMA网络,利用TCP达到可靠传输。相比RoCE,在大型组网的情况下,iWARP的大量TCP连接会占用大量的内存资源,对系统规格要求更高。可以使用普通的以太网交换机,但是需要支持iWARP的网卡。

图3-30 RDMA网络种类

 

图3-31 RDMA网络种类对比

 

3. RoCE类型

RoCE协议存在RoCEv1和RoCEv2两个版本,这取决于所使用的网络适配器或网卡,如图3-32是两种Roce的数据包格式。

·     RoCE v1:RoCE v1是基于以太网链路层实现的RDMA协议(交换机需要支持PFC等流控技术,在物理层保证可靠传输),允许在同一个VLAN中的两台主机进行通信。RoCE V1协议在以太层的typeID是0x8915

·     RoCE v2:RoCE v2克服了RoCE v1绑定到单个VLAN的限制。通过改变数据包封装,包括IP和UDP标头,RoCE v2现在可以跨L2和L3网络使用

注:RoCE不需要打开子网管理器

图3-32 RoCE v1与RoCE v2数据包格式

 

4. 配置准备

安装网卡驱动程序和RDMA驱动程序:访问H3C官网,获取网卡驱动。参照网卡配套的驱动版本说明书安装驱动程序。安装完成后可使用ibv_devices命令获取RDMA设备名。如图3-33所示。

图3-33 获取RDMA设备名

 

5. 配置步骤

6. RoCE模式切换

Intel 800系列网卡支持RoCEv2和iWARP两种协议,默认情况下,启用的是iWARP。

可以通过如下命令启用Intel 800系列网卡的RoCE模式:

# rmmod irdma
# modprobe irdma roce_ena=1

如果需要服务器开机进入操作系统后,网卡自动进入RoCE模式,可以通过如下操作实现:

l     创建irdma驱动模块配置文件:touch /etc/modprobe.d/irdma.conf

l     编辑文件,写入参数:options irdma roce_ena=1

 

7. RoCE 无损以太网配置

为了可靠地运行,RoCE需要一种形式的流量控制。虽然可以使用全局流控制,但出于性能原因,这通常是不可取的。

使用RoCE的正常和最佳方法是使用优先流控制(PFC, Priority-based Flow Control)。要使用PFC,必须在流路径中的所有端点和交换机上启用它。

要启用RoCE,交换机应做如下配置:

·     面向主机的端口应配置为访问端口,并使用全局暂停或端口控制协议(PCP)进行优先级流控制

·     面向网络的端口应配置为中继端口,并使用端口控制协议(PCP)用于优先流控制

8. 配置RoCE LAG

RoCE LAG(RoCE Link Aggregation,RoCE链路聚合) 是一种用于模拟 IB 设备的以太网绑定的功能,仅适用于双端口卡。拓扑如图3-34所示。RHEL7.内核版本 4.9 及更高版本支持此功能。

当同一张网卡的两个以太网接口配置绑定为active-backup (mode 1)模式时,将进入 RoCE LAG 模式:

图3-34 RoCE LAG测试拓扑

 

配置步骤示例如下:

(2)     确保在服务器上启用绑定,按照发行版操作系统手册创建bond0接口。

(3)     按如下方式编辑/etc/sysconfig/network-scripts/ifcfg-bond0,设置bond0接口,如下示例bond模式为active-backup(mode 1)

DEVICE=bond0

NAME=bond0

TYPE=bond

BONDING_MASTER=yes

IPADDR=22.22.22.6 #the other server should have different IP on the same subnet

PREFIX=24

BOOTPROTO=none

ONBOOT=yes

NM_CONTROLLED=no

BONDING_OPTS="mode=active-backup miimon=100 updelay=100 downdelay=100"

(4)     按如下方式编辑/etc/sysconfig/network-scripts/ifcfg-ens817设置网络适配器的其中一个物理端口。

DEVICE=ens817

TYPE=Ethernet

ONBOOT=yes

MASTER=bond0

SLAVE=yes

BOOTPROTO=none

(5)     按同样方式编辑/etc/sysconfig/network-scripts/ifcfg-ens817d1设置网络适配器的另一个物理端口。

DEVICE=ens817d1

TYPE=Ethernet

ONBOOT=yes

MASTER=bond0

SLAVE=yes

BOOTPROTO=none

(6)     按如下命令重启网口或者驱动。

执命令重启网口:

# ifdown bond0

# ifup bond0

执行命令重启网络服务:

# systemctl restart network

(7)     确保可以使用bond0可以在两台服务器之前ping通。

(8)     执行cat /proc/net/bonding/bond0命令可以查看bond0口的正确状态信息。

# cat /proc/net/bonding/bond0

Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)

Bonding Mode: fault-tolerance (active-backup)

Primary Slave: None

Currently Active Slave: ens817

MII Status: up

MII Polling Interval (ms): 100

Up Delay (ms): 100

Down Delay (ms): 100

 

Slave Interface: ens817

MII Status: up

Speed: 40000 Mbps

Duplex: full

Link Failure Count: 6

Permanent HW addr: e4:1d:2d:26:3c:e1

Slave queue ID: 0

 

Slave Interface: ens817d1

MII Status: up

Speed: 40000 Mbps

Duplex: full

Link Failure Count: 6

Permanent HW addr: e4:1d:2d:26:3c:e2

Slave queue ID: 0

9. 验证配置

10. iWARP模式:此为默认模式

带宽测试:

Server:ib_send_bw -d <设备名> -i 1 -F --report_gbits -D 60 –R

Client:ib_send_bw -d <设备名> -i 1 -F --report_gbits -D 60 -R <sut ip>

时延测试:

Server:ib_send_lat -d <设备名> -i 1 -F --report_gbits -D 60 –R

Client:ib_send_lat -d <设备名> -i 1 -F --report_gbits -D 60 -R <sut ip>

11. RoCEv2模式

带宽测试:

Server:ib_send_bw -d <设备名> -i 1 -F --report_gbits -D 60 -q 4

Client:ib_send_bw -d <设备名> -i 1 -F --report_gbits -D 60 -q 4 <sut ip>

时延测试:

Server:ib_send_lat -d <设备名> -i 1 -F --report_gbits -D 60

Client:ib_send_lat -d <设备名> -i 1 -F --report_gbits -D 60  <sut ip>

3.4.4  LLDP开启与关闭

1. 功能简介

LLDP(Link Layer Discovery Protocol,链路层发现协议)是IEEE 802.1ab中定义的链路层发现协议。LLDP是一种标准的二层发现方式,可以将本端设备的管理地址、设备标识、接口标识等信息组织起来,并发布给自己的邻居设备,邻居设备收到这些信息后将其以标准的管理信息库MIB(Management Information Base,管理信息库)的形式保存起来,以供网络管理系统查询及判断链路的通信状况。它不是一个配置、控制协议,无法通过该协议对远端设备进行配置,它只是提供了关于网络拓扑以及管理配置的信息,这些信息可以被用于管理、配置的目的。

说明

·     网卡LLDP功能使能后,LLDP报文将由网卡固件处理。网卡将终结掉LLDP报文,不再上送OS,因此第三方工具LLDPAD将无法进行LLDP处理。如需使用OS下第三方工具LLDP功能,需要将网卡固件的LLDP功能禁用。

·     CNA-560T-B2-10Gb-2P、CNA-10GE-2P-560F-B2网卡不支持该功能。

 

2. 配置准备

将待测网卡和交换机进行连接,确保链路正常。

3. 配置步骤

在BIOS下关闭/开启网卡LLDP功能,关闭/开启方法见3.2.4  NIC Configuration中的LLDP Agent选项。

4. 验证配置

(1)     BIOS下关闭网卡LLDP功能,进入交换机侧(此处以H3C交换机为例)查询对应端口的LLDP信息如图3-35所示,交换机侧不再收到网卡LLDP Agent发出的LLDP报文。

图3-35 关闭网卡LLDP后查询交换机侧LLDP邻居信息

 

(2)     BIOS下开启网卡LLDP功能,进入交换机侧查询对应端口的LLDP信息如图3-36所示,可以看到网卡相关信息。

图3-36 开启网卡LLDP后查询交换机侧LLDP报文

 

3.4.5  Bonding配置

1. 功能简介

Bonding技术,能将多块物理网卡上的网卡绑定到一个虚拟网口上,让多块网卡看起来是一个单独的以太网接口设备,用来确保服务器网络质量。

网卡Bonding可以通过以下两种方式确保服务器网络服务质量:

·     网络负载均衡:将多个网卡通过Bonding技术来作为一块使用,共用同一IP地址,将流量通过一定算法进行分配,使流量在多块网卡间负载均衡,同时也能突破单个网口的吞吐量限制。

·     网络冗余:确保服务器网络设备的稳定性,当服务器上一块网卡出现故障时可以将流量切换到另一块网卡,继续提供正常的网络服务。

Bonding 包括如下7 种模式,其中常用的有mode 0、mode 1 和mode 6 三种:

·     mode=0,即:(balance-rr)Round-robin policy(平衡轮循环策略),数据包在两个Slave之间顺序依次传输。需要在交换机侧配置静态链路聚合;

·     mode=1,即:(active-backup)Active-backup policy(主-备策略)。只有主设备处于活动状态,当主设备宕机后备设备转换为主设备;

·     mode=2,即:(balance-xor)XOR policy(平衡策略),基于指定的传输HASH 策略传输数据包。需要在交换机侧配置静态链路聚合;

·     mode=3,即:broadcast(广播策略),在每个Slave 接口上传输每个数据包,此模式提供了容错能力。需要在交换机侧配置静态链路聚合;

·     mode=4,即:(802.3ad)IEEE 802.3ad Dynamic link aggregation(IEEE 802.3ad 动态链路聚合),创建一个聚合组,它们共享同样的额定速率和双工设定,外出流量的Slave选择是基于传输hash 策略的。此模式需要在交换机侧配置动态链路聚合;

·     mode=5,即:(balance-tlb)Adaptive transmit load balancing(适配器传输负载均衡)。不需要任何特别的交换机支持,在每个Slave上根据当前的负载(根据速度计算)分配外出流量,如果正在接受流量的Slave故障,另一个Slave 接管失败Slave 的MAC 地址;

·     mode=6,即:(balance-alb)Adaptive load balancing(适配器适应性负载均衡)。该模式包含了balance-tlb 模式,同时加上针对IPV4 流量的接收负载均衡,通过ARP 协商实现,不需要交换机支持。BONDING 驱动截获本机发送的ARP 应答,并把源硬件地址改为BOND 中某个Slave的唯一硬件地址,从而使得不同的对端使用不同的硬件地址进行通信。

2. 配置准备

配置Bonding需要做以下准备:

(1)     系统支持Bonding功能

(2)     网卡所连接的交换机,需要配置聚合组

3. 配置步骤

本文以在RHEL7.5 系统下配置mode=6 为例介绍操作步骤。

(1) 如图3-37所示,在“/etc/sysconfig/network-scripts/”目录下,

创建bond0-ifcfg 配置文件并填写以下内容:

BOOTPROTO=static

DEVICE=bond0

NAME=bond0

TYPE=Bond

BONDING_MASTER=yes

ONBOOT=yes

IPADDR=192.168.50.88 #设置bond0 接口地址

PREFIX=24 #设置子网掩码

GATEWAY=

DNS=

BONDING_OPTS=”miimon=100 mode=6” #设置每100ms 检测一次mii链路,Bonding 模式为mode=6

图3-37 网卡Bonding配置文件示例

 

(2) 编辑 Slave网口的配置文件。如图3-38所示,将如下内容写入配置文件:

ONBOOT=yes

MASTER=bond0

SLAVE=yes

对于其他要加入bond0 的Slave网口,也进行相同操作。

图3-38 网卡Slave接口配置文件示例

 

(3) 图3-39所示,执行“service network restart”命令,重启网络服务,使bond0 生效。

图3-39 重新启动网络服务

4. 验证配置

操作系统命令行下执行“cat /proc/net/bonding/bond0”命令查看bond0 和网卡信息。如图3-40,bond0 以及两个Slave 接口已经UP。

图3-40 Bonding接口信息查询

 

3.4.6  FEC配置

说明

·     仅NIC-ETH-E810CQDA1G1P5-1P、NIC-ETH-E810XXVDA2G1P5-2P网卡支持该功能

 

1. 功能简介

FEC(forward error correction,前向纠错)在数据发送端为数据报文附加纠错信息,接收端利用纠错信息纠正数据报文传输过程中产生的误码。该技术可以有效降低信道误码率,提高信号质量,从而延伸物理介质的最远传输距离,但也会带来一些传输延时。如果两端的FEC模式不匹配,则物理链路无法连通。FEC基本原理如图3-41所示。

图3-41 FEC基本原理

 

FEC主要分为BASE-R FEC和RS-FEC两种。

·     BASE-R FEC在IEEE CLAUSE 74中定义,主要服务于10GBASE-KR、40GBASE-KR4、40GBASE-CR4和100GBASE-CR10 PHYs。

·     RS-FEC在IEEE CLAUSE 108中定义,主要服务于25GBASE-CR、25GBASE-CR-S、25GBASE-KR、25GBASE-KR-S和25GBASE-SR PHYs。

·     在IEEE CLAUSE 91中定义了RS-FEC也可服务于100G BASE-CR4、100G BASE-KR4和100G BASE-SR4 PHYs。

 

表3-4 FEC模式与物理介质关系表

物理介质

接口名称

FEC模式

光纤

25GBASE-SR

RS-FEC

直连铜缆

25GBASE-CR

FEC or RS-FEC

直连铜缆

25GBASE-CR-S

BASE-R FEC or disabled

电子背板

25GBASE-KR

BASE-R FEC or RS-FEC

电子背板

25GBASE-KR-S

BASE-R FEC or disabled

双绞线

25GBASE-T

N/A

 

表3-4所示,IEEE标准定义了两种背板和电缆接口,带-S的短距接口使用高质量背板或者电缆,可以不使用FEC纠错功能,将信号传输时延降至最低,用于短距离传输;不带-S的标准接口是为了降低组网成本,允许使用低成本电缆和背板,同时开启FEC纠错功能,用于长距离传输。

2. 配置准备

将网卡和交换机进行连接(或对接其他网卡),确保链路link up。

3. 配置步骤

FEC模式设置可以采用ethtool工具。

(1)     查看当前网口的支持的FEC模式,执行ethtool --show-fec <网口名>

(2)     如需修改网口的FEC模式,执行ethtool --set-fec <网口名> encoding off/baser/rs/auto(配置立即生效,重启后失效)

(3)     如需修改网口的FEC模式且重启后生效,可修改rc.locl文件。编辑/etc/rc.d/rc.local文件,写入shell命令:

¡     ethtool --set-fec <网口名> encoding off/baser/rs/auto

¡     启动rc-local服务:systemctl enable rc-local

¡     重启服务器

4. 验证配置

使用ethtool工具查看fec模式

执行命令:ethtool --show-fec <网口名>,如图3-42所示。

图3-42 使用ethtool查询FEC模式

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们