Birentech详细介绍中国最强大的GPU BirenBR100

广宜朗
导读 本月早些时候,我们报道了来自中国的公司Birentech正在开发其迄今为止最快的GPU,即BirenBR100。根据该公司公开披露的信息,BirenBR100的目

本月早些时候,我们报道了来自中国的公司Birentech正在开发其迄今为止最快的GPU,即BirenBR100。根据该公司公开披露的信息,BirenBR100的目标是成为一款通用GPU,在AI处理方面提供比NVIDIA的A100GPU更快的性能。现在,在HotChips34上,该公司向我们展示了有关其BirenGPGPU阵容中的规格和架构的更多细节。

BirentechBR100是中国必须提供的旗舰通用GPU,采用内部GPU架构,采用7nm工艺节点并在其芯片中容纳770亿个晶体管。GPU采用TSMC的2.5DCoWoS设计制造,还配备了300MB的片上缓存、64GB的HBM2e,内存带宽为2.3TB/s,并支持PCIeGen5.0(CXL互连协议)。整个芯片尺寸为1074mm2,超出了工艺节点的标线限制。

谈到架构本身,BirenBR100由两个小芯片组成,每个小芯片包含16个SPC或流处理集群。每个SPC有16个EU,其中四个EU形成一个内部计算单元或CU,连接到64KB的L1缓存(LSC),而SPC具有跨所有执行单元的共享8MBL2缓存。因此,总共有32个SPC,具有512个执行单元、256MB的L2缓存和8MB的L1缓存。

深入了解执行单元会发现16个流处理核心(V-Core)和一个张量引擎(T-Core)。有40KB的TLR(线程本地寄存器)、4个SFU和一个TDA(张量数据加速器)。有趣的是,每个CU可以包含4、8和多达16个EU。V-Core本身是一个通用SIMT处理器,具有16核,支持FP32、FP16、INT32和INT16以及SFU、加载/存储和数据处理,同时处理深度学习操作,如BatchNorm、ReLu、等。它还具有增强的SIMT模型,可以在32个SPC上以超标量模式(静态和动态)运行多达128K线程。对于T-Cores,张量设计用于加速AI操作,例如MMA、Convolution等。

Birentech披露了该芯片的各种性能指标。它提供高达2048TOPs(INT8)、1024TFLOPs(BF16)、512TFLOPs(TF32+)和256TFLOPs(FP32),根据性能数据,看起来这款芯片将比NVIDIAAmpere更快A100,至少在纸上。在各种HPC工作负载中,该GPU已与NVIDIAAmpereA100进行了比较,看起来与主要竞争对手相比,它可以提供高达2.6倍的平均加速和高达2.8倍的加速。

Birentech详细介绍中国最强大的GPU,BirenBR100:7nm上的1074mm2,770亿个晶体管,在550W下比NVIDIAAmpere快2.8倍

在相同的GPU性能指标中,HopperH100GPU提供了近2倍或2.5倍的性能。该芯片还支持64通道编码和512通道编码。至于互连,该芯片配备8BLink解决方案,可提供2.3TB/s的外部I/O带宽。

有趣的是,与NVIDIAH100相比,BR100在整体晶体管数量方面并不落后。H100在新的N4工艺节点上具有800亿个晶体管,而BR100仅比7nm工艺节点落后30亿个晶体管。这将导致更大的裸片尺寸。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!