探索InfiniBand网络的奥秘 (探索inq英语)

文章编号:11189 更新时间:2024-03-16 分类:互联网资讯 阅读次数:

资讯内容

在高性能计算项目中,InfiniBand(IB)这一设计用于大规模、易扩展机群的网络通信技术起着重要作用。它可以用于计算机内部或外部的数据互连,包括服务器与存储系统之间的直接或交换连接,以及存储系统之间的连接。InfiniBand最显著的特点之一是高带宽、低延迟,因此被广泛应用于高性能计算(HPC)、高性能集群应用服务器和高性能存储领域。

探索InfiniBand网络的奥秘探索in

InfiniBand网络的带宽随着时间不断演进,从SDR、DDR、QDR、FDR、EDR、HDR到NDR,这些速度均是基于4x链路速度。在InfiniBand网络中,使用的线缆与传统的以太网线缆和光纤线缆有所不同。为适应不同的连接场景,需要使用专门的InfiniBand线缆,包括DAC高速铜缆、AOC有源线缆以及光模块,速率分为QDR(40G)、EDR(100G)、HDR(200G)以及NDR(400G),封装模块包括QSFP+、QSFP28、QSFP56以及OSFP。

在连接InfiniBand设备方面,200GHDR InfiniBand网络通常有两种方式:一种是直接与200GHDR设备相连,使用200Gto200G线缆;另一种是与100GHDR设备相连,此时需要使用200Gto2X100G线缆,将设备一个物理200G(4X50G)QSFP56端口分割为2个虚拟的100G(2X50G)端口。

以上是对InfiniBand技术的详细分析,若有帮助,请点这里↓↓↓


计算机网络之RDMA技术(十二)InfiniBand简介

姓名:周肇星;学号;学院:通信工程学院

【嵌牛导读】RDMA技术全称远程直接数据存取,就是为了解决网络传输中服务器端数据处理的延迟而产生的。RDMA通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和上下文切换的开销,因而能解放内存带宽和CPU周期用于改进应用系统性能。本专题将针对RDMA技术进行介绍!

【嵌牛鼻子】计算机网络,高性能网络,RDMA

【嵌牛提问】读完本文,对RDMA技术的InfiniBand有所认识了吗?

【嵌牛正文】

InfiniBand架构是一种支持多并发链接的“转换线缆”技术,它是新一代服务器硬件平台的I/O标准。由于它具有高带宽、低延时、 高可扩展性的特点,它非常适用于服务器与服务器(比如复制,分布式工作等)、服务器和存储设备(比如SAN和直接存储附件)以及服务器和网络之间(比如LAN, WANs和the Internet)的通信

随着CPU性能的飞速发展,I/O系统的性能成为制约服务器性能的瓶颈。于是人们开始重新审视使用了十几年的PCI总线架构。虽然PCI总线结构把数据的传输从8位/16位一举提升到32位,甚至当前的64位,但是它的一些先天劣势限制了其继续发展的势头,PCI总线有如下缺陷:

因此,Intel、 Cisco、 Compaq、 EMC、 富士通等公司共同发起了InfiniBand架构,其目的是为了取代PCI成为系统互连的新技术标准,其核心就是将I/O系统从服务器主机中分离出来

== InfiniBand采用双队列程序提取技术,使应用程序直接将数据从适配器送入到应用内存 ==(称为RDMA或远程直接存储器存取), 反之依然。在TCP/IP协议中,来自网卡的数据先拷贝到核心内存,然后再拷贝到应用存储空间,或从应用空间将数据拷贝到核心内存,再经由网卡发送到Internet。这种I/O操作方式,始终需要经过核心内存的转换,它不仅增加了数据流传输路径的长度,而且大大降低了I/O的访问速度、增加了CPU的负担。而SDP则是将来自网卡的数据直接拷贝到用户的应用空间,从而避免了核心内存参入。这种方式就称为零拷贝,它可以在进行大量数据处理时,达到该协议所能达到的最大的吞吐量

物理层 定义了在线路上如何将比特信号组成符号,然后再组成帧、 数据符号以及包之间的数据填充等,详细说明了构建有效包的信令协议等

链路层 定义了数据包的格式以及数据包操作的协议,如流控、 路由选择、编码、解码等

网络层 通过在数据包上添加一个40字节的全局的路由报头(Global Route Header,GRH)来进行路由的选择,对数据进行转发。在转发的过程中,路由器仅仅进行可变的CRC校验,这样就保证了端到端的数据传输的完整性

传输层 再将数据包传送到某个指定的队列偶(Queue Pair,QP)中,并指示QP如何处理该数据包以及当信息的数据净核部分大于通道的最大传输单元MTU时,对数据进行分段和重组

注意HCA与TCA的区别

== IBA子网由端节点、交换机、路由器和子网管理器组成 ==

每个端口具有一个GUID(Globally Unique Identifier),GUID是全局唯一的,类似于以太网MAC地址

运行过程中,子网管理代理(SMA)会给端口分配一个本地标识(LID),LID仅在子网内部有用

通道适配器提供了一种内存转换和保护(Memory Translation & Protection,MTP)机制,它将虚拟地址转换为物理地址,并验证访问权限

== 交换机根据目的地LID进行转发 ==

IBA交换机支持单播转发,并可能支持多播转发

子网管理器能够配置交换机,包括加载其转发表

== 基于数据包的全局路由头(GRH)进行路由 ==,并在数据包从子网传递到子网时替换数据包的本地路由头

每个子网由一个唯一的子网标识符,与端口的GUID捆绑在一起构成端口的== GID(Global Identifier) ==

虚拟通道(Virtual lanes,VL)提供了一种在单条物理链路中创建多个虚拟链接的机制

QP是硬件和软件之间的一个虚拟接口,架构的设定是为每个适配器提供2^24个QP

用户调用API发送接收数据的时候,实际上是将数据放入QP当中,然后==以轮询的方式将QP中的请求一条条的处理,其模式类似于生产者-消费者模式==

QP是队列结构,按顺序存储着软件给硬件下发的任务(WQE)

WQE中包含从哪里取出多长的数据,并且发送给哪个目的地等等信息

虽然IB协议将QP称为虚拟接口,但是它是有实体的:

英伟达InfiniBand技术有多少了解的,请问具体指的是什么?

InfiniBand是一种高速互连技术,主要用于计算集群和数据中心。 提供服务器、存储和网络设备之间高带宽、低延迟的连接。 支持需要快速数据传输速率和低延迟的高性能计算(HPC)应用,如科学模拟、大数据分析、大模型训练、生命科学、医药研发、3D渲染、地质勘探、遥感测绘等领域。 蓝海大脑液冷GPU解决方案支持1~20块 GPU卡,采用InfiniBand技术,适用于深度学习训练及推理、生命科学、医药研发、虚拟仿真等场景,覆盖服务器、静音工作站、数据中心等多种产品形态,量身定制,满足客户全场景需求。

RoCE网络详解

以太网技术目前在全球互联的因特网中始终占据主导地位,但在高带宽、低延时的专有网络中却透露出许多弊端。随着网络融合概念的兴起,在IETF发布了的DCB(Data Center Bridging)标准中,基于RDMA/Infiniband的无损链路得以解决,以太网终于在专有网络领域内拥有了自己的标准,同时也提出了RoCE(RDMA over Converged Ethernet)的概念。经过版本的升级(从RoCEv1到RoCEv2),10Gb及以上的新型NIC和switch基本都集成了RoCE支持。

2010年4月,IBTA发布了RoCE,此标准是作为 Infiniband Architecture Specification 的附加件发布的,所以也称为IBoE(InfiniBand over Ethernet)。这时的RoCE标准是在以太链路层之上用IB网络层代替了TCP/IP网络层,所以不支持IP路由功能。RoCE V1协议在以太层的typeID是 0x8915 。 在RoCE中,infiniband的链路层协议头被去掉,用来表示地址的GUID被转换成以太网的MAC。Infiniband依赖于无损的物理传输,RoCE也同样依赖于无损的以太传输,这一要求会给以太网的部署带来了成本和管理上的开销。以太网的无损传输必须依靠L2的QoS支持,比如PFC(Priority Flow Control),接收端在buffer池超过阈值时会向发送方发出pause帧,发送方MAC层在收到pause帧后,自动降低发送速率。这一要求,意味着整个传输环节上的所有节点包括end、switch、router,都必须全部支持L2 QoS,否则链路上的PFC就不能在两端发挥有效作用。

由于RoCEv1的数据帧不带IP头部,所以只能在L2子网内通信。为了解决此问题,IBTA于2014年提出了RoCE V2,RoCEv2扩展了RoCEv1,将GRH(Global Routing Header)换成UDP header + IP header,扩展后的帧结构如下图所示。

对应一个具体的报文示意图如下图所示。

值得注意的两点:

Linux内核在4.9通过软件的实现了 RoCEv2 ,即 Soft-RoCE 。不同于RoCE,softRoCE适用于任何以太环境,无需依赖NIC、switch、L2QoS等支持。softRoCE 的目标是在所有支持以太网的设备上都可以部署RDMA传输,其实现可分成两部分,对上通过 librxe 与RDMA stack(libibverbs)耦合,对下通过 与linux stack layer3耦合,用户通过某个eth NIC的UDP隧道为虚拟的RDMA设备传输RoCE数据。

&RoCE可以运行在无损网络环境和有损网络环境中,如果运行在有损网络环境中,称为弹性RoCE(Resilient RoCE);如果运行在无损网络环境中,称为无损RoCE(Lossless RoCE)。

总结:尽管RoCE对链路层和物理层存在特殊依赖,但是在部署新型的数据中心时,对于较新型switch、NIC、SOC基本上都会集成网络融合DCB和RDMA支持。所以在新建Data Center、SAN时,性能最优的RoCE是最佳选择。而在旧DC、SAN扩容或者成本敏感型的优化时,仅需要RNIC的iWRAP或者完全不依赖任何硬件的softRoCE更加适合。

123RoCE: An Ethernet-InfiniBand Love Story 4InfiniBand™ Architecture Specification Release 1.2.1 Annex A16: RoCE 5InfiniBand™ Architecture Specification Release 1.2.1 Annex A17: RoCEv2 6RoCEv2 CNP Packet Format Example

标签: idc机房数据中心光模块

本文地址: https://yihaiquanyi.com/article/ee6594698a45bc098c4b.html

上一篇:深度解析大型网站架构的要素深度解析大型机...
下一篇:疯狂世界IDC断网事件盘点疯狂世界2018豆瓣...

发表评论