采用第四代张量核心的NVIDIAHopperH100是时钟换时钟速度的两倍

弘卿新
导读 NVIDIA在HotChips34上进一步剖析其HopperH100GPU,让我们体验第四代张量核心架构所提供的功能。虽然AMD在其HPCGPU上采用MCM方法,但NVIDIA

NVIDIA在HotChips34上进一步剖析其HopperH100GPU,让我们体验第四代张量核心架构所提供的功能。虽然AMD在其HPCGPU上采用MCM方法,但NVIDIA决定暂时坚持单片设计。因此,他们的HopperH100是使用台积电4N工艺节点制造的最大GPU之一,该设计专为NVIDIA进行了优化和制造。

H100GPU是一款怪兽级芯片,采用最新的4纳米技术,并结合了800亿个晶体管以及最先进的HBM3内存技术。H100基于PG520PCB板构建,该板具有30多个电源VRM和一个使用TSMC的CoWoS技术将HopperH100GPU与6堆栈HBM3设计相结合的大型集成中介层。HopperH100GPU的一些主要技术包括:

132个SM(每时钟2倍性能)

第四代张量核心

线程块簇

第二代多实例GPU

机密计算

PCIeGen5.0接口

全球首款HBM3DRAM

更大的50MBL2缓存

第4代NVLink(900GB/s总带宽)

新的夏普支持

NVLink网络

在六个堆栈中,保留两个堆栈以确保良率完整性。但是新的HBM3标准允许以3TB/s的速度提供高达80GB的容量,这太疯狂了。相比之下,目前最快的游戏显卡RTX3090Ti仅提供1TB/s的带宽和24GB的VRAM容量。除此之外,H100HopperGPU还采用最新的FP8数据格式,通过其新的SXM连接,它有助于适应芯片设计的700W电源设计。它还提供两倍的FP32和FP64FMA速率和256KBL1高速缓存(共享内存)。

因此,按照规格,NVIDIAHopperGH100GPU由一个巨大的144SM(流式多处理器)芯片布局组成,总共有8个GPC。这些GPC共有9个TPC,每个TPC进一步由2个SM单元组成。这使我们每个GPC有18个SM,而在完整的8个GPC配置中,我们有144个。每个SM最多由128个FP32单元组成,这应该给我们总共18,432个CUDA内核。

NVIDIAKeplerGK110GPU相当于HopperH100GPU上的单个GPC,第4代张量核心速度提高2倍

以下是您可以从H100芯片中获得的一些配置:

GH100GPU的完整实现包括以下单元:

8个GPC,72个TPC(9个TPC/GPC),2个SM/TPC,每个完整GPU144个SM

每个SM128个FP32CUDA核心,每个完整GPU18432个FP32CUDA核心

每个SM4个第四代张量核心,每个完整GPU576个

6个HBM3或HBM2e堆栈,12个512位内存控制器

60MB二级缓存

第四代NVLink和PCIeGen5

具有SXM5主板外形的NVIDIAH100GPU包括以下单元:

8个GPC,66个TPC,2个SM/TPC,每个GPU132个SM

每个SM128个FP32CUDA核心,每个GPU16896个FP32CUDA核心

每个SM4个第四代张量核心,每个GPU528个

80GBHBM3、5个HBM3堆栈、10个512位内存控制器

50MB二级缓存

第四代NVLink和PCIeGen5

这比完整的GA100GPU配置增加了2.25倍。NVIDIA还在其HopperGPU中利用了更多的FP64、FP16和Tensor内核,这将极大地提高性能。这将是与英特尔的PonteVecchio竞争的必要条件,后者也有望采用1:1FP64。NVIDIA表示,Hopper上的第4代张量核心在同一时钟下可提供2倍的性能。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!