详解壁仞刚刚发布的GPU单芯片PFLOP

来源:电子工程专辑

8月9日壁仞科技的首颗GPU芯片发布之际，发布会上播放的宣传片还真是能让人联想起英伟达“IamAI”的那则著名视频。而壁仞科技选择的这条赛道，和大部分做AI芯片的国内厂商都不大一样：其GPU芯片、板卡和系统是要和英伟达正面硬碰硬，用于云上大规模的AI训练与推理，以及HPC的。

壁仞科技创始人、董事长、CEO张文说从最初走访20家客户的反馈来看，大家都想要一款“国产大算力芯片”。虽说“做通用GPU芯片，99%都做不下去”，但“我思考，周期长、壁垒高、投入大，换句话说就是资本密集、人才密集和资源密集的需求。这三点恰好都是我的长项。”于是在成功说服投资人以后，壁仞就开启了这一征程。

壁仞科技成立于年9月，用张文的话来说“三年时间，发展到千人团队、芯片从PPT到量产”是个奇迹。今年3月底就有壁仞BR芯片成功点亮的消息，“全球通用GPU算力记录，第一次由中国企业创造。”张文说，“中国通用GPU芯片，第一次进入每秒1千万亿次的计算新时代。”

而从壁仞科技的宣传片来看，其GPU芯片要覆盖“从微观细胞到浩瀚宇宙，从坚实的道路到虚拟的空间”，从生物科学、工业设计、生产制造，到农业耕作、航天航海、地质勘探与宇宙探索。大约算是与英伟达的全方位市场重合了。要做到这些可真的不容易，也绝不仅仅是算力堆砌所能轻易达成的。本文我们就详细谈谈壁仞科技本次发布的1个架构、2颗芯片（及对应的OAMmodule与PCIe板卡）、1台服务器，以及对应于生态建设的软件栈。

两颗芯片：BR与BR

这次壁仞科技发布了两颗芯片：BR和BR。这两者的区别主要在于BR是两片相同的die（或chiplet）封装到一起；BR则只用了1片die，所以相关算力与IO等参数大多为前者的一半，适配不同的市场需求。

所以我们将注意力主要放在BR身上。从一些关键数据就可以看出本次发布的BRGPU是真正的“大”芯片。壁仞在宣传中提到“创下全球（通用GPU芯片的）算力记录”“单芯片算力达到PFLOPS级别”“峰值算力是国际厂商在售旗舰产品3倍以上”。

从制造和封装技术的堆料来看，应该更能体会其规模，包括7nm工艺、“亿个晶体管”，以及张文提到的“0mm”左右的diesize。这个diesize数字当然也就突破了光刻机所能处理的reticlelimit，所以是将两片die封装到一起。

从壁仞科技联合创始人、CTO洪洲的介绍来看，BR明确采用了台积电的2.5DCoWoS-S封装方案——两片die和周边HBM2e内存都放在一片硅中介（siliconinterposer）上。我们在刚刚发布的《先进封装的现在和将来》一文中详细介绍过这种先进封装技术，国内厂商在用的应当还寥寥无几。

而且dietodie互连采用超高速GPAM4SerDes，die间通讯带宽达到了GB/s——这个速度可一点也不比某“国际大厂”发布没多久的GraceHopperSuperchip的NVLink-C2C差。

基于以上数字，推荐感兴趣的同学去比一比，以及IntelPonteVecchioGPU，在diesize、晶体管数量和先进封装技术的应用上都有一定的可比性；也能更进一步地体会壁仞BR大约是怎样的定位。

实际上，英伟达在今年GTC上发布、尚未上市的Hopper架构的GHdiesize为mm，亿个晶体管。“大芯片”之间过招，在堆料上真的已经到了白热化程度。

BR的理论算力水平如上图所示，不同格式与精度的算力值，对应于BR在训练和推理方面的适用性。壁仞提到的“全球算力记录”和突破PFLOPS，应该就是指BF16格式（TFLOPS）。

这里有个TF32+，是壁仞新推的一种数据格式，后文将会提到。在AI训练中相对关键的BF16、TF32/TF32+峰值理论算力，都有着很漂亮的水平；着力推理的Int8也达到了TOPS。

其他配置数据还包括2.5D封装在一起的64GBHBM2e内存，“超MB片上缓存”，2.3TB/s外部I/O带宽，64路高清编码、路高清解码加速。

对比“国际厂商在售旗舰”的峰值算力数据——这很显然比的就是Ampere架构的A；AI计算相关主要数据格式的差异还是实打实的（FP32的数据，属于欺负A的算力侧重点了；而且A堆的FP64算力在HPC领域也是很重要的）。

据说在“开发者云上的实测算力”，BR的数据还更好看一些。有兴趣的同学还可以拿尚未发售的英伟达Hopper新架构来比一比，虽然这种峰值算力对比的意义并不算特别大。另外要考虑对比双方的芯片产品大规模铺货的时间。

到更为真实的负载中，跑主流、具代表性的网络，包括CV、NLP，还有现在很流行的Transformer，壁仞BR仍然是有不小的优势的，“平均加速比2.6x”。不过这种涉及到实际业务的对比，不仅是芯片本身，还要带上系统、软件的对比，应当进一步明确对比对象和内容。我们很期待未来看到壁仞BR及对应系统参与MLPerf基准测试。

实则从这些与竞品的性能对比数据，是能够发现壁仞研发团队的前瞻性的。这家公司年定义BR芯片，到如今产品发布历经3年时间，AI与通用计算加速市场环境变化不小。首次做芯片，就要预见未来3年的算力增长，并在对应时间节点把产品拿出来，既有风险又有难度。

另外，单die的BR主要配置与参数如下图所示。据说即便是单die的BR，相比于“国际厂商在售旗舰”仍然有着1.4-1.6倍的算力优势，包括上述不同数据格式，与主流模型基准测试性能比较。

有关芯片架构、特性、存储子系统、IO互连的部分此处还尚未提到；比如说主机接口PCIeGen5，也特别支持了CXL互连协议；还有壁仞自研的BLink点对点全互连技术能将8个GPU有效连接在一起等等。我们将这部分放到本文的最后。

芯片构成模组、板卡和服务器以后

更往上的板级系统层面，BR、BR芯片当然是需要对应到具体的产品形态的。这次壁仞发布了两款具体的硬件产品：壁砺和壁砺，分别应用了BR和BR芯片，这两款产品分别以OAM（OCPAcceleratorModule）模组与PCIe板卡的形态存在。算力规格之外，功耗分别对应W和W。

壁仞科技联合创始人、总裁徐凌杰特别提到，其中壁砺“在板级和系统层面做了非常多的创新”。供电方面，“我们专门为这套系统打造了48V电源，有着超高的电源密度和开关频率，提供稳定的供电和超高的电源效率。”

而在散热方面，“我们在板卡上采用快速均温技术，增加了热腔体积和撞风面积，有效提升了散热效率。”徐凌杰表示，“我们还优化了散热器的外形，能够在不影响散热的前提下降低5%以上的风阻。”除此之外，“考虑到系统的稳定性和可靠性，我们也设计了一套专门的中断和保护机制。”右图的热力图表现的是OAM模组之上温度的分布情况。

系统和性能扩展相关的部分，应该也是很多人
转载请注明原文网址：http://www.13801256026.com/pgsp/pgsp/7076.html