博通推出Tomahawk5芯片解锁AI网络

2022-11-21 09:51:07 戴伊亚

导读芯片制造商表示，亚马逊、谷歌和Meta等云巨头不想被锁定在Nvidia的InfiniBand中。他们希望一切都转移到标准以太网上。一段时间以来，计算机

芯片制造商表示，亚马逊、谷歌和Meta等云巨头不想被锁定在Nvidia的InfiniBand中。他们希望一切都转移到标准以太网上。一段时间以来，计算机网络领域的专家一直在谈论第二个网络。通常的网络是将客户端计算机连接到服务器的网络，即LAN。人工智能的兴起在该网络“背后”创建了一个网络，一个“横向扩展”网络，用于运行AI任务，例如必须在数千个GPU上进行训练的深度学习程序。

这导致了开关芯片供应商Broadcom所说的严重僵局。Nvidia是运行深度学习的GPU芯片的主要供应商，它也正在成为互连芯片的网络技术的主要供应商，使用它在2020年收购Mellanox时添加的InfiniBand技术。

一些人认为，危险在于一切都与一家公司捆绑在一起，没有多元化，也没有办法建立一个由许多芯片竞争的数据中心。

“Nvidia正在做的是说，我可以以几千美元的价格出售一个GPU，或者我可以以50万到100万美元以上的价格出售相当于一个集成系统，”高级副总裁RamVelaga说。和网络芯片巨头Broadcom的核心交换组总经理，在接受ZDNet采访时。

Velaga告诉ZDNet：“这与云提供商的关系并不顺利，”意思是亚马逊和Alphabet的谷歌以及Meta和其他公司。这是因为这些云计算巨头的经济基础是在扩展计算资源时削减成本，这就要求避免单一采购。

“所以现在这个行业存在这种紧张局势，”他说。

为了解决这种紧张局势，Broadcom表示解决方案是遵循以太网技术的开放网络路径，远离InfiniBand的专有路径。

Broadcom周二推出了该公司最新的交换芯片Tomahawk5，能够在端点之间互连总计每秒51.2太比特的带宽。

“与我们进行了接触，说，嘿，看，如果以太网生态系统能够帮助解决InfiniBand能够为GPU互连带来的所有好处，并将其带入以太网等主流技术，那么它就可以普遍使用，并创建一个非常大的网络结构，它将帮助人们凭借GPU的优点而不是专有网络的优点取胜，”Velaga说。

Tomahawk5现已上市，紧随其后的是两年前Broadcom的前一部分Tomahawk4，后者是每秒25.6太比特的芯片。

Tomahawk5部分旨在通过添加InfiniBand保留的功能来平衡竞争环境。关键区别在于延迟，即从A点发送第一位数据到B点的平均时间。延迟一直是InfiniBand的优势，这对于从GPU到内存再返回的过程变得尤为重要，为AI中的大型神经网络获取输入数据或获取参数数据。

一种称为RDMAoverConvergedEthernet或RoCE的新技术缩小了InfiniBand和以太网之间的延迟差距。借助RoCE，开放标准胜过NvidiaGPU和Infiniband的紧密耦合。

Velaga说：“一旦获得RoCE，就不再有无限带宽的优势了。”“以太网的性能实际上与InfiniBand的性能相当。”

“我们的论点是，如果我们能够执行InfiniBand，芯片到芯片，并且你有一个实际上正在寻找以太网成功的整个生态系统，你就有了用以太网取代infiniband的方法，并允许广泛的GPU生态系统成功，”Velaga说。

broadcom-ram-velaga-headshot-2022

Broadcom核心交换事业部总经理RamVelaga说，像亚马逊这样的云计算巨头“坚持认为GPU可以卖给他们的唯一方式是使用可以通过以太网传输的标准NIC接口”。

博通，2022年

提及广泛的GPU生态系统实际上是在暗指AI市场中提供新颖芯片架构的众多竞争硅供应商。

它们包括大量资金雄厚的初创公司，例如CerebrasSystems、Graphcore和SambaNova，但它们也包括云供应商自己的芯片，例如谷歌自己的TensorProcessingUnit或TPU，以及亚马逊的Trainium芯片。如果计算资源不依赖于Nvidia出售的单一网络，那么所有这些努力可能会有更多机会。

“今天的云计算巨头们说，我们想构建自己的GPU，但我们没有InfiniBand结构，”Velaga观察到。“如果你们能给我们一种等效于以太网的结构，我们就可以自己完成剩下的工作。”

Broadcom打赌，随着延迟问题的解决，InfiniBand的弱点将变得明显，例如该技术可以支持的GPU数量。“InfiniBand一直是一个有一定规模限制的系统，可能有1000个GPU，因为它并没有真正的分布式架构。”

此外，以太网交换机不仅可以服务于GPU，还可以服务于Intel和AMDCPU，因此将网络技术整合为一种方法具有一定的经济效益，Velaga建议。

Velaga说：“我预计这个市场最快的采用将来自GPU互连，并且在一段时间内，我可能预计平衡将是550，因为你将拥有可以使用的相同技术对于CPU互连和GPU互连，以及销售的CPU远多于GPU的事实，你将对数量进行标准化。”GPU将消耗大部分带宽，而CPU可能会消耗以太网交换机上的更多端口。

根据这一愿景，Velaga指出了AI处理的特殊能力，例如总共256个端口，每秒200千兆比特的以太网端口，是所有交换芯片中最多的。Broadcom声称这种密集的200-gig端口配置对于实现“平坦、低延迟的AI/ML集群”非常重要。

尽管Nvidia在数据中心领域有很大的影响力，今年数据中心GPU的销售额预计将达到160亿美元，但买家、云公司也有很大的影响力，而且优势在他们这一边。

“大云公司想要这个，”Velaga谈到从InfiniBand转向以太网时说。Velaga说：“当你拥有这些拥有强大购买力的庞大云时，他们已经表明他们有能力迫使供应商分解，这就是我们正在驾驭的势头。”“所有这些云确实不希望这样，他们坚持认为GPU可以卖给他们的唯一方法是使用可以通过以太网传输的标准NIC接口。

“这已经发生了：你看看亚马逊，他们就是这样购买的，看看Meta、谷歌，他们就是这样购买的。”

标签：

免责声明：本文由用户上传，如有侵权请联系删除！