采用第四代张量核心的NVIDIAHopperH100是时钟换时钟速度的两倍

2022-08-23 11:23:22 弘卿新

导读 NVIDIA在HotChips34上进一步剖析其HopperH100GPU，让我们体验第四代张量核心架构所提供的功能。虽然AMD在其HPCGPU上采用MCM方法，但NVIDIA

NVIDIA在HotChips34上进一步剖析其HopperH100GPU，让我们体验第四代张量核心架构所提供的功能。虽然AMD在其HPCGPU上采用MCM方法，但NVIDIA决定暂时坚持单片设计。因此，他们的HopperH100是使用台积电4N工艺节点制造的最大GPU之一，该设计专为NVIDIA进行了优化和制造。

H100GPU是一款怪兽级芯片，采用最新的4纳米技术，并结合了800亿个晶体管以及最先进的HBM3内存技术。H100基于PG520PCB板构建，该板具有30多个电源VRM和一个使用TSMC的CoWoS技术将HopperH100GPU与6堆栈HBM3设计相结合的大型集成中介层。HopperH100GPU的一些主要技术包括：

132个SM(每时钟2倍性能)

第四代张量核心

线程块簇

第二代多实例GPU

机密计算

PCIeGen5.0接口

全球首款HBM3DRAM

更大的50MBL2缓存

第4代NVLink(900GB/s总带宽)

新的夏普支持

NVLink网络

在六个堆栈中，保留两个堆栈以确保良率完整性。但是新的HBM3标准允许以3TB/s的速度提供高达80GB的容量，这太疯狂了。相比之下，目前最快的游戏显卡RTX3090Ti仅提供1TB/s的带宽和24GB的VRAM容量。除此之外，H100HopperGPU还采用最新的FP8数据格式，通过其新的SXM连接，它有助于适应芯片设计的700W电源设计。它还提供两倍的FP32和FP64FMA速率和256KBL1高速缓存(共享内存)。

因此，按照规格，NVIDIAHopperGH100GPU由一个巨大的144SM(流式多处理器)芯片布局组成，总共有8个GPC。这些GPC共有9个TPC，每个TPC进一步由2个SM单元组成。这使我们每个GPC有18个SM，而在完整的8个GPC配置中，我们有144个。每个SM最多由128个FP32单元组成，这应该给我们总共18,432个CUDA内核。

NVIDIAKeplerGK110GPU相当于HopperH100GPU上的单个GPC，第4代张量核心速度提高2倍

以下是您可以从H100芯片中获得的一些配置：

GH100GPU的完整实现包括以下单元：

8个GPC，72个TPC(9个TPC/GPC)，2个SM/TPC，每个完整GPU144个SM

每个SM128个FP32CUDA核心，每个完整GPU18432个FP32CUDA核心

每个SM4个第四代张量核心，每个完整GPU576个

6个HBM3或HBM2e堆栈，12个512位内存控制器

60MB二级缓存

第四代NVLink和PCIeGen5

具有SXM5主板外形的NVIDIAH100GPU包括以下单元：

8个GPC，66个TPC，2个SM/TPC，每个GPU132个SM

每个SM128个FP32CUDA核心，每个GPU16896个FP32CUDA核心

每个SM4个第四代张量核心，每个GPU528个

80GBHBM3、5个HBM3堆栈、10个512位内存控制器

50MB二级缓存

第四代NVLink和PCIeGen5

这比完整的GA100GPU配置增加了2.25倍。NVIDIA还在其HopperGPU中利用了更多的FP64、FP16和Tensor内核，这将极大地提高性能。这将是与英特尔的PonteVecchio竞争的必要条件，后者也有望采用1:1FP64。NVIDIA表示，Hopper上的第4代张量核心在同一时钟下可提供2倍的性能。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！