News

MetaX Technical Blog

News

【智算芯闻】面向GPU网络的光互连（1）：房间里有两头大象？

Date: 2022-05-31来源：光启智能研究院韩佳巍

摘要

GPU加速的计算系统可为诸多科学应用提供强大的计算能力支撑，亦是业界推动人工智能革命的重要手段。为了满足大规模数据中心和高性能计算场景的带宽拓展需求，光通信和光互连技术正在迅速而广泛地渗入此类系统的各个网络或链路层级。作为系列文章的第一篇，本文试图对GPU网络中光互连的历史趋势、短期的需求和权衡做出简要梳理。

1. GPU网络

目前，以超级计算机或者仓库规模数据中心为具体形式，高性能计算（High-Performance Computing, HPC）系统正在愈发地借力GPU来实现计算加速。根据TOP500项目新近发布的第58期商用HPC榜单[1]，在排名前10位的机器系统中，至少有7家相应机构使用了NVIDIA的GPU产品作为专用计算加速器。在算力需求高速增长的时代背景下，这些多GPU协同计算系统不仅成为人们应对传统科学应用（如药物发现、气候预测、基因组测序等）中大规模计算挑战的基础选项，而且为人工智能、机器学习等数据科学领域的自动化和效率提升提供了有效手段。

然而，在学界和业界矢志不渝追求更为强大的HPC机器的同时，其系统成本却在不断上升。据美国哥伦比亚大学的K. Bergman课题组估算[2]，当今单个先进计算系统的资金购置成本约为1.5-2亿美元；而其5年期的总体拥有成本（包括购置成本和运行成本）却能达到购置成本的2倍上下。另一方面，从通信网角度出发，HPC或数据中心对更高带宽和更低功耗的需求始终彼此环绕、相因相生。随着信息处理和传送的能耗被更多放置在环保视角进行审视，人们一边惊叹于信息流量迅猛增长的社会现实，一边又力图采用新型技术来有效降低每个通信比特的功耗。因此，在经济适用、节能高效的前提下，采用何种技术手段来继续扩展HPC计算资源，是当下亟需解决的重要问题。

图1. NVSwitch拓扑图（来源于参考资料[4]）

一般地，计算系统有两种扩展方式：1）增强单个节点的计算能力（向上扩展）；2）增加互连节点的数目（向外拓展）。在这两种情况下，实现高品质的交换互连就成为保障GPU加速的HPC大规模运算性能的关键。对于向上扩展的通信交换而言，NVIDIA的NVSwitch可谓表现不俗：在将由8-16个A100 NVIDIA GPU所构建的局部网部署于DGX A100系统之后，NVSwitch可为其提供的带宽高达6.4 Tb/s [3]。而为了拓展A100在多GPU系统中的计算能力，NVIDIA更是进一步提升了I/O带宽：如图1所示，通过更快的信号传输，并使得单GPU的链路数目增加至12，A100的NVLink3（一种长距离50 Gb/s非归零信号、无前向纠错的GPU互连技术）已将每个方向的GPU带宽提升到300 GB/s。

图2. Summit超级计算机的网络结构（来源于参考资料[6]）

而更多的GPU加速HPC则采用了向外拓展方式。这些计算系统立足于无限带宽或以太网等交换互连结构，将数以万计的GPU加速节点通过多级交换与链路连接起来。IBM Summit超级计算机的网络体系就是一个典型例子[5]。如图2所示，设定其基准网络由1620个36端口交换机和分布于324个机架的5832个计算服务器（节点）构成。该网络包含18个核心交换机，而每一个核心交换机都是由54个交换专用集成电路（18个脊交换机和36个叶交换机）组成。单个核心交换机的648个端口与机架顶端（Top-of-Rack, TOR）交换机相连，从而形成三层的胖树网络。在图2中，单个机架包括2个TOR和18个节点，且每个节点都配置了1个网络接口卡（标记为NIC）、2个CPU（标记为C）和6个GPU（标记为G）。每个网络接口卡将2个CPU和TOR互连起来，而每个CPU则与3个GPU相连接。

大规模数据中心和HPC系统所消耗的功率已达数百万瓦特。而当人们的眼球更多地被百亿亿次计算等高端需求所吸引的同时，这些系统的功耗场景却正在变得越发不切实际。事实上，GPU加速的计算系统对增加芯片外I/O数目的依赖与日俱增。而由于带宽密度和功率消耗的限制，常规的电互连技术已无法满足未来板到板、芯片到芯片的互连需求。因此，当人们被吞吐量和成本所逼迫而进退维谷之时，在低功耗和高速率方面独具优势的光互连技术则被寄以厚望。

2. 光互连和商用HPC：过去17年

在对商用HPC系统中光互连的演变历程进行简要回顾之前，我们不妨首先着眼于厘清光互连距离各层级的功耗目标（以pJ/bit或mW/Gbps衡量）和成本目标（以单比特成本$/Gbit衡量）。此外，带宽密度（以Gbps/mm或Gbps/mm²衡量）亦是HPC系统设计中的一项重要考量因素。

表1. 光互连的能耗和成本目标[7]

如表1所示，从数据中心之间的互连、数据中心内部的互连，一直深入到芯片上的互连，互连体系的不同层面在功耗和成本方面需求迥异，因而对应着不同的市场玩家和技术方案。与电互连相比较，表1向我们展示了光互连在彰显其技术优势时所需要达到的目标能耗和成本预算。考虑到HPC计算机包括多核、多处理器系统，而这些核之间的通信速率通常可以达到每秒数十吉比特(Gigabits)，故互连系统必须能够处理每秒数个太比特(Terabit)级别的速率[8]。与此类似，对于服务器之间的通信而言，由于许多处理器需要以极快的速率通信，此类互连链路亦有必要实现每秒多个太比特的速率量级。

在某种程度上，电互连技术是能够应对上述互连流量的。虽然电学链路依旧在芯片到芯片、芯片上等短距离通信中占据主导地位，但是其高信道串扰、铜线的高信道损耗、接脚数目约束等因素却极大限制了系统能效和带宽。此外，高速电互连要求特定而精确的阻抗匹配，这会使得系统仅适配于某种固定的硬件配置。与此相反，光互连具有低损耗、高符号速率、距离不敏感、不受电磁干扰等特征；同时，由于无需阻抗匹配，光互连对开放式体系结构更加友好。因此，在速率和性能得以保障的前提下，光通信技术能够在降低互连功耗方面扮演非常重要的角色。根据IBM和STMicroelectronics由HPC性能趋势发展而做出的预测，同时实现光互连的成本低于$0.1/Gbps、功耗低于1 pJ/bit是具备现实可行性的[8]。

图3. ASCI Purple系统的交换机架：左图为全部部署电缆的试制系统，右图为全部部署光缆的机架（来源于参考资料[9]）

从历史上看，最先使用光通信和光互连的是存储链路。这在很大程度上是因为其所需带宽（受限于磁盘存取速度）相对不高而总成本较低，且计算机架到存储机架的距离相对较长。2005年，IBM引入了ASCI Purple大型计算系统，正式开创了在机架到机架的集群链路中使用光通信和光互连的先例。在该系统的试制阶段，机架到机架的集群互连全部配置有电学链路；然而，随着光学链路的价格在这段时期持续走低，系统中相对较长的链路迅速被光通信替换、占据。正如图3所示，此种变化大幅减轻了缆线部署的拥阻困难。

图4. Power 775系统计算抽屉：8个集成了光互连方案的路由器MCM（来源于参考资料[9]）

对光互连的成功初体验使得人们信心大增。于是，2011年，IBM在其Power 775超级计算系统的机架内部和机架到机架集群结构中相继使用了光学缆线背板。为了充分利用这些光学背板的优势，光学模组和路由器芯片被一并放置在同一个一级封装内部，亦即一个玻璃陶瓷多芯片模组（Multi-Chip Module, MCM）之上。如图4所示，这种系统的计算抽屉（Computing Drawer）单侧包含8个路由器芯片MCM及其相关光学模组。单个MCM具有28个发射模块和28个接收模块，且任意一个模块都含有12路通道，单通道速率为10 Gbit/s。由图4右上方的插图可见，在最底层的玻璃陶瓷载板之上是安装好的路由器芯片，而56个光学模块则以平面网格阵列封装。每一个路由器MCM都和微处理器MCM通过电路相连。通过在路由器MCM上辅以光学手段，互连带宽将由MCM的底部（电路）和顶部（光路）共同决定。

图5. Power 775系统双级多对多网络（来源于参考资料[10]）

读者或许已经熟知：对于集群结构而言，采用智能网络拓扑技术可在减低带宽成本的同时，令计算性能依旧保持在合理水平。但这并非没有代价：举例来说，虽然网状网和环形网对于互连的需求相对较少，但是却需要更多中继，并因此导致在远距离节点之间传送数据有着更长的时延。IBM Power 775超级计算机便是双级多对多网络（亦被称为蜻蜓网络）[10]架构的一个典型例子。如图5所示，该网络可为系统中任意节点之间提供低时延、高带宽的互连，非常适用于大型计算工作量场景。每个节点都由一个四芯片模块之上的4个Power7芯片组成，且32个节点通过一个多对多网络互连起来并形成一个超节点（Supernode）；系统中所有的超节点进一步通过第二级的多对多网络来实现连接。

图6. Blue Gene/L三维环形网（来源于参考资料[11]）

而在另一方面，IBM自2005年起就在Blue Gene机器中使用了一类环形网拓扑[11]。如图6所示，该环形网由环绕在边缘的“最近邻”互连构成。而为了能到达更远的节点，人们就需要引入多个中继，从而在节点和节点之间得到更长的时延。尽管如此，整个网络却可以大幅降低互连数量，且互连距离也明显变短。值得一提的是，在2011年，Fujitsu进一步探索使用了一类六维环形网，其出品的K计算机甚至可在完全摒弃使用光通信的前提下满足互连需求[12]。

然而，对于一个给定的拓扑来说，提升HPC系统的性能则意味着人们必须在每一个封装层级（如芯片外、模组外、机架间等）上实现带宽拓展。举例来说，第一代和第二代Blue Gene机器皆针对环形网使用了电互连方案；然而，为了适应更高的数据速率，其后续的相关代际产品则需使用光互连方案。提升信道速率可减少每个传送比特的成本和功耗、增加带宽密度，是满足HPC系统扩展需求的重要手段。然而，当数据速率超过10 Gb/s时，受频率相关损耗、频率共振效应、串扰等因素影响，电互连手段在系统设计过程中越来越显得左支右绌。

图7. 当信道速率提升时，电互连会经受损耗、串扰、反射等信号一致性劣化现象

图7向我们展示了一个已插入数个板卡的典型电学背板。由于集肤效应和介电损耗的影响，敷铜处的高频损耗会持续增大；在每一个封装或者连接器的接头处，如果线路阻抗没有得到完全匹配，那么信号将会被部分反射并造成信号衰减。而正如我们在本节开头所提到的那样，光互连不仅不会经受这样的信号一致性衰减，而且还可以提供一些额外的优势（比如较小的线缆体积和连接器尺寸等）。因此，工业界在大型HPC系统中采用光通信和光互连的情形稳定增长；乃至于在2012年，人们于一个独立的HPC超级计算机中所使用的光信道数目已经能够和2008年全球范围内的并行光互连数目大体相当。

自2018年开始，市场分析和工程技术人员开始将注意力转移到缩短光互连和专用集成电路（Application Specific Integrated Circuit, ASIC）之间的物理距离上来。而这种变化的关键驱动力就是高速数据速率下铜线互连的固有衰减限制。于是，人们自2019年开始将铜线的绝对传输限度设定在100 Gbps/m，并建议针对高于此速率限度的互连场景使用光路信道[13]。彼时，光通信和光互连技术开始迅速向着HPC系统的更深层级渗透，而诸如板上光学（On-Board Optics, OBO）、用光子集成电路替代传统集成电路等新兴概念也开始被业界广泛讨论。

图8. 基于OBO的HPC模型的图形用户界面框架（来源于参考资料[15]）

OBO旨在实现高密度、高能效、低损耗的Tb/s量级板上数据传输[14]。出于完全替代铜线布线的考量，它被认为是解决电互连链路中低带宽和距离/速率相关能量耗散等问题的有效方案。图8描述了TTM Technologies基于OBO技术的HPC系统设计路线图。该图所展示的示例性HPC组网由4个机架组成，且每个HPC机架均包括有3个底架。在第4个HPC机架上方是一组由8个光学印刷电路板（Optical Printed circuit board, OPCB）所形成的底架。每个OPCB都为GPU预留了部署空间，且包含有一系列插座。这些插座可支持4组光电芯片、2组光电路由器芯片以及它们之间引脚连接。其中，收发器光电芯片可起到CPU和板级光波导之间的接口作用，而光电路由芯片则将众CPU芯片和板外器件连接起来。

迄今为止，光互连的发展演变已不再局限于满足前面板的连线需求，更是开始将光子集成电路、OBO和背板的连线需求纳入视野。尽管光互连的渗透和上升趋势已十分明显，但是出于对HPC系统成本的考虑，人们对于使用短距离拓扑（如网状网和环形网）究竟在多大程度上可以减少光学链路的数目依然是十分好奇的。而这恰恰反映在光互连和电互连二者的成本比较（见3.1节）、以及由此而导致的HPC性能权衡之上。也就是说，尽管使用电互连会使得更多的远距离节点之间具备较长时延的特征，但是建立一个与HPC性能保障相关算法高度耦合的拓扑结构仍旧是当下颇具吸引力的一个选项。

3. 短期的需求和权衡

HPC系统的客户群有着若干清晰而明确的优先事项。首先，购置成本和运行成本自有其上限，而这其中的重要一项便是电源功率的成本。其次，HPC系统客户还对高数据吞吐量、低时延、低误码率、最小化误差校正、高可靠性（包括对部件失效的故障检测和预先警报）均有需求。而暂且抛开上述各项需求的重要性不谈，HPC系统的终端用户通常对和通信网直接打交道并不感兴趣——他们只想看到简便的通信抽象模型。

在HPC系统中部署光通信和光互连并非简单意味着 “用光缆替代电线”。它对于能够提升系统性价比的各种光学解决方案（如波分复用技术、集成光电子、光交换等）都有着极高需求。然而，这些解决方案又会反过来对HPC场景提出新的技术要求。例如，当人们试图将单向光学链路的功耗降低到10 mW/Gbps、甚至1 mW/Gbps时，就需要将成本和功率同时维持在合理水平；当人们的目的是增大系统总带宽时，则需要对如何实现光互连的低成本、大规模制造特点进行重新思考；而为了实现低功耗链路，光模块必须被放置在距信号源更接近的位置，进而对高密度模块（如达到1 Tbps/cm²）产生需求。因此，人们需要在不同的光互连需求之间仔细寻求技术均衡。

图9. HPC系统中光互连的四类短期需求

在英语谚语中，人们用“房间里的大象”来表述那些显而易见、却被人们刻意回避甚至否认的事实。而正如图9所示，当人们聚精会神地讨论增大带宽及其密度、优化封装和可靠性的同时，却对于持续上升的资金成本和功率消耗不甚关心。在下文中，我们将分类探讨HPC系统的四类短期需求，并简要分析如何利用光互连技术来满足这些需求。

3.1 成本：房间里的第一头大象

和一条光学链路紧密相关的成本因素包括：材料、组装、生产、测试、调节。其中，材料成本包括基板、透镜、激光器阵列、光电二极管阵列、微控制器、驱动芯片、接收机芯片、光电连接器、光缆、散热器；组装和生产成本包括组装生产率和设备费用、手工装配和自动装配等；测试和调节成本包括测试时间、测试仪器成本、误码率需求和测试时间的关系等。人们需要对上述诸多成本因素做出全面考虑。举例来说，当光模块带宽、信道数量、系统中光学集成水平均有所提升时，测试成本就会占据总成本的更大比例。这种情况下，具有分阶段测试（光学供应商测试和系统组装测试）或者自测试能力的光模块就会成为重要需求。

在一个性能领先的HPC系统中，计算处理和存储的成本可大幅挤占互连成本，使得后者仅占总资金成本的约10-15%。这就意味着，若我们以成本为2亿美元的大型计算系统为例，其互连成本至多为3千万美元。笔者认为这一现象对当前的光互连技术形成了极大威胁。我们不妨来算一笔账：假设单个百亿亿次计算系统有10万至100万个终端，而在最佳状况下，每个终端附有1.5个光通信链路（每个链路的速率为400 Gb/s），那么该系统总共拥有至多150万个光通信链路；而为了满足3千万美元的互连预算，这些光通信链路的成本计价最高可达$0.05/Gbps。和目前被广泛接受的$1/Gbps相比，即便在没有计入电互连和其他互连成本的前提下，该成本计价依然显得很是咄咄逼人。

基于上述成本考量，为了在短距离场景下与铜线互连开展终极竞争，光互连尚有漫漫征途。事实上，对1米以内的通信链路来说，目前的光学成本约在铜线成本的10-30倍以上；而最显著的情况却是：对于以厘米计的甚短距离通信场景，铜线的成本几近为零。

克服光互连成本挑战的关键是从一个更大规模的市场区隔出发，减低HPC终端用户的资金成本并充分利用批量制造的优势。供应商须针对电接口产品的每一项重新设计投入更多资金，因此他们需要在哪些设计需要大幅修改、哪些设计需要重复使用等方面做出选择；而工业界也需通过精诚合作来降低这些选择的风险和代价。当前，人们在HPC连接器的物理接口方面已基本达到一致。尽管如此，供应链厂商如何在HPC和数据中心两类市场间充分利用批量制造的协同效应？他们在多大程度上能够做到这一点？这些开放式问题尚有待业界人士去广泛讨论和实践。

3.2 功耗：房间里的第二头大象

光互连的功耗不仅需要考虑光通信链路自身，而且需要将“去往光”和“由光来”的电路部分也包括进来。通常，HPC终端用户不会将电源功率需求作为首要考虑。然而，倘若功率消耗和系统性能呈线性增长关系，那么计算系统的功率需求就会快速超越其成本预算。此外，功率消耗也是板上和机架内部冷却需求的重要考量因素。对于电源功率成本来说，普遍的经验法法则是约1美元/百万瓦特/年。当前的计算系统普遍运行在5-7百万瓦特范围，且业界已将百亿亿次计算系统的功耗限定于2千万瓦特之内。我们可以由此估算：在一个新生HPC系统的5年生命期之内，其电功率成本可高达1亿美元。

我们继续以上述2千万瓦特为例来算另一笔账：计算存储和处理会大幅挤占通信网的电源功率，使得后者占据总体系统功率的约20%，即4百万瓦特。而电交换会消耗这些功率的一半左右，这意味着留给互连的功率预算约为2百万瓦特。当今实际系统的普遍功耗为35 pJ/bit。然而，我们再以3.1节中百亿亿次计算系统为例，可以得出跨越整个系统（包括交换和所有中间连接）的单个光学链路的功耗需小于3.3 pJ/bit/。换一个方式来看，当今实际系统普遍运行在5 Gflop/J，而百亿亿次计算系统大约以50 Gflop/J（20 pJ/flop）运行，二者有着10倍区别。

互连链路的较低利用率使得功效有所减低。与铜线互连有所不同的是，即便信道不在发射或接收状态，光链路依旧在消耗功率。在忽略波分复用所导致的系统损伤时，激光器的功耗需求或为0.1 pJ/bit。然而，当互连链路的利用率为10%时，激光器功耗需求会达到1 pJ/bit。虽然互连链路利用率有很大的提升空间，但是当其过高时又会造成线路竞争和排队等其它问题。而从通信组网角度来看，在交换芯片带宽由12.8 Tb/s（2016年）上升至102.4 Tb/s（2025年）的时间段内，光互连相对整个网络的功率占比会从约30%增大到高于50%。在目前的典型HPC系统中，光链路的能量需求已经在铜线链路能量需求的2倍之上。因此，采用预失真、均衡、判决反馈均衡器等信号增强技术，对于进一步提升光互连的功效具有重要意义。

3.3 带宽密度

在当今的功耗和成本状况下，光通信和光互连自身又需要何种改变来促进HPC系统的性能提升呢？提升带宽密度或许就是最为直接的答案。这意味着光子集成电路的供应商或许会在商用HPC性能提升方面大有作为。在过去17年里，尽管数据速率已被大幅度提升，但是功耗效率的改进却始终不能尽如人意。而要实现数据速率的进一步提升，以太网相关产品则需要从100 Gb/s向着1 Tb/s推进；随着光纤并带（Fiber Ribbons）的使用，以太网相关产业界甚至有可能在5年之内实现10 Tb/s。

电互连的无中继距离已经变得非常短。当前，铜线互连大都基于单通道8-16 Gb/s的差分信号形式，而更高的单通道速率会降低互连能效。受此启发，业界部分人士认为HPC系统的互连需要大规模使用波分复用和光子集成技术。正如先前在长距离光纤链路中，波分复用技术在没有大幅增加成本、功耗和复杂度的前提下为系统带宽提供了一个“非线性”增长过程。尽管推动波分复用单模光纤的初始成本相对较高，但是通过增加更多波长信道方式来提升互连性能又会降低成本。类似地，因为HPC系统机器内部的互连距离相对较长，所以基于光子集成电路的相干通信方案也会展示出强大的适用能力。

然而，另一部分业界人士却对是否有必要在短期内使用高度光子集成技术持有怀疑态度。同时，他们认为波分复用技术亦有其自身的缺点。事实上，总带宽受到通道数量、单通道的波长数量、单波长的数据速率、名义数据速率共同影响。虽然拓展带宽可以从这四者中任一方面去推进，但是人们还是会面临更多潜在的挑战。举例来说，虽然利用多级信号（如当前被广泛推进的PAM4）可大幅提升数据速率，但是误码率会有明显上升，这反而进一步增大了时延和功耗。与数据中心系统不同，这种后果却并非是HPC场景所能接受的。

3.4 封装和可靠性

百亿亿次计算系统中的各类部件将会对革新性的封装技术有更多需求。目前，先进封装的引脚分配已超越6000引脚，简单增加引脚分配对拓展系统性能的作用十分有限。同时，可靠性也越发被人们视为一个关键问题：在计算机达到一百万甚至以上核的情况下，巨大数量的焊点和缆线就成为系统失效的最大潜在来源。目前，业界已将百亿亿次计算系统的目标失效率定义在每日单次故障。面对系统部件数目呈百倍增长和追求更高比特速率的现实，达到这一故障目标将会是不小的挑战。可靠性管理可通过降低部件故障率和使用冗余网络拓扑相结合的方式来实现。这种方法可在链路失效时提供迂回路由或备用信道，可作为保障链路正常运行的故障切换手段。

针对封装和可靠性需求的应对方案包括三个方面。首先，光路I/O的面板装配可行性正在变小，而光电/电光变换器件和处理器之间的物理距离必须要变得更短。为了在处理器和存储器旁边部署光收发器件，或者为了能够允许在组装之后进行零件替换，部分技术人员早已开始尝试进行相关插入器的设计。然而，学界和业界对于是否能够把激光器放置于芯片之上、激光器是否必须远离电子器件等问题尚有争论。其次，HPC系统供应商对于实现成本最小化的封装有着独特的倾向。因此，从设计简单和故障率低的需求出发，敷有光学路径的板卡设计要比光缆连接更具吸引力。再次，除了关注单个光信道的失效情形之外，人们还应当把注意力更多放在整体链路中单端点的失效情形和减小多信道的失效率上来。

4. 小结

面向GPU网络的光互连技术正在快速走入大型数据中心和高性能计算场景之中，并且对于高聚合带宽、低成本、低功耗、高封装密度和可靠性有着较为急切的需求。为满足这些短期需求，光互连需要在各类HPC系统优化方案中取得技术均衡。而从市场角度来看，计算系统供应商和部件供应商则需要寻求更为紧密的合作。

在本系列文章的第二篇，笔者将会对GPU网络光互连的各类光学技术、长期需求、策略和计划做出梳理。

参考资料

[1] https://top500.org/lists/top500/2021/11/

[2] S. Rumley et al., "Optical interconnects for extreme scale computing systems," Parallel Computing 64, 65-80 (2017)
[10] B. Arimilli et al., "The PERCS high-performance interconnect," in 2010 18th IEEE Symposium on High Performance Interconnects, 75-82
[11] A. Gara et al., "Overview of the Blue Gene/L system architecture," IBM Journal of Research and Development 49, 195-212, (2005)
[12] Y. Ajima et al., "The Tofu interconnect," in 2011 IEEE 19th Annual Symposium on High Performance Interconnects, 87-94
[13] B. H. Lee, " Market & Industrial Trends of Optical Interconnect," in 2019 IEEE CPMT Symposium Japan (ICSJ), 19-24
[14] https://www.onboardoptics.org/_files/ugd/8abe6c_7ef360
9c2ff542b0bcc170f69eb40924.pdf
[15] P. Maniotis, et al., "Application-oriented on-board optical technologies for HPCs," Journal of Lightwave Technology 35, 3197-3213 (2017)

[3] J. Choquette et al., "The A100 datacenter GPU and Ampere architecture," in 2021 IEEE International Solid- State Circuits Conference (ISSCC), 48-50

[4] https://www.pny.eu/content/53-66-professional-dgx-a100-5-miracles

[5] C. B. Stunkel et al., "The high-speed networks of the Summit and Sierra supercomputers," IBM Journal of Research and Development 64, 3:1-3:10 (2020)

[6] P. Maniotis et al., "Toward lower-diameter large-scale HPC and data center networks with co-packaged optics," Journal of Optical Communications and Networking 13, A67-A77 (2021)

[7] S. J. B. Yoo, "The role of photonics in future computing and data centers," IEICE Transactions on Communications E97-B, 1272-1280 (2014)

[8] C. A. Thraskias et al., "Survey of photonic and plasmonic interconnect technologies for intra-datacenter and high-performance computing communications," IEEE Communications Surveys & Tutorials 20, 2758-2783 (2018)

内容检索

MetaX Technical Blog

News

【智算芯闻】面向GPU网络的光互连（1）：房间里有两头大象？

摘要

1. GPU网络

图1. NVSwitch拓扑图（来源于参考资料[4]）

图2. Summit超级计算机的网络结构（来源于参考资料[6]）

2. 光互连和商用HPC：过去17年

表1. 光互连的能耗和成本目标[7]

图3. ASCI Purple系统的交换机架：左图为全部部署电缆的试制系统，右图为全部部署光缆的机架（来源于参考资料[9]）

图4. Power 775系统计算抽屉：8个集成了光互连方案的路由器MCM（来源于参考资料[9]）

图5. Power 775系统双级多对多网络（来源于参考资料[10]）

图6. Blue Gene/L三维环形网（来源于参考资料[11]）

图7. 当信道速率提升时，电互连会经受损耗、串扰、反射等信号一致性劣化现象

图8. 基于OBO的HPC模型的图形用户界面框架（来源于参考资料[15]）

3. 短期的需求和权衡

图9. HPC系统中光互连的四类短期需求

3.1 成本：房间里的第一头大象

3.2 功耗：房间里的第二头大象

3.3 带宽密度

3.4 封装和可靠性

4. 小结

[1] https://top500.org/lists/top500/2021/11/

[3] J. Choquette et al., "The A100 datacenter GPU and Ampere architecture," in 2021 IEEE International Solid- State Circuits Conference (ISSCC), 48-50

[4] https://www.pny.eu/content/53-66-professional-dgx-a100-5-miracles

[5] C. B. Stunkel et al., "The high-speed networks of the Summit and Sierra supercomputers," IBM Journal of Research and Development 64, 3:1-3:10 (2020)

[6] P. Maniotis et al., "Toward lower-diameter large-scale HPC and data center networks with co-packaged optics," Journal of Optical Communications and Networking 13, A67-A77 (2021)

[7] S. J. B. Yoo, "The role of photonics in future computing and data centers," IEICE Transactions on Communications E97-B, 1272-1280 (2014)

[8] C. A. Thraskias et al., "Survey of photonic and plasmonic interconnect technologies for intra-datacenter and high-performance computing communications," IEEE Communications Surveys & Tutorials 20, 2758-2783 (2018)

[9] M. A. Taubenblatt, "Optical interconnects for high-performance computing," Journal of Lightwave Technology 30, 448-457 (2012)

Related News