时间:2024/1/26来源:本站原创作者:佚名

来源:电子工程专辑

8月9日壁仞科技的首颗GPU芯片发布之际,发布会上播放的宣传片还真是能让人联想起英伟达“IamAI”的那则著名视频。而壁仞科技选择的这条赛道,和大部分做AI芯片的国内厂商都不大一样:其GPU芯片、板卡和系统是要和英伟达正面硬碰硬,用于云上大规模的AI训练与推理,以及HPC的。

壁仞科技创始人、董事长、CEO张文说从最初走访20家客户的反馈来看,大家都想要一款“国产大算力芯片”。虽说“做通用GPU芯片,99%都做不下去”,但“我思考,周期长、壁垒高、投入大,换句话说就是资本密集、人才密集和资源密集的需求。这三点恰好都是我的长项。”于是在成功说服投资人以后,壁仞就开启了这一征程。

壁仞科技成立于年9月,用张文的话来说“三年时间,发展到千人团队、芯片从PPT到量产”是个奇迹。今年3月底就有壁仞BR芯片成功点亮的消息,“全球通用GPU算力记录,第一次由中国企业创造。”张文说,“中国通用GPU芯片,第一次进入每秒1千万亿次的计算新时代。”

而从壁仞科技的宣传片来看,其GPU芯片要覆盖“从微观细胞到浩瀚宇宙,从坚实的道路到虚拟的空间”,从生物科学、工业设计、生产制造,到农业耕作、航天航海、地质勘探与宇宙探索。大约算是与英伟达的全方位市场重合了。要做到这些可真的不容易,也绝不仅仅是算力堆砌所能轻易达成的。本文我们就详细谈谈壁仞科技本次发布的1个架构、2颗芯片(及对应的OAMmodule与PCIe板卡)、1台服务器,以及对应于生态建设的软件栈。

两颗芯片:BR与BR

这次壁仞科技发布了两颗芯片:BR和BR。这两者的区别主要在于BR是两片相同的die(或chiplet)封装到一起;BR则只用了1片die,所以相关算力与IO等参数大多为前者的一半,适配不同的市场需求。

所以我们将注意力主要放在BR身上。从一些关键数据就可以看出本次发布的BRGPU是真正的“大”芯片。壁仞在宣传中提到“创下全球(通用GPU芯片的)算力记录”“单芯片算力达到PFLOPS级别”“峰值算力是国际厂商在售旗舰产品3倍以上”。

从制造和封装技术的堆料来看,应该更能体会其规模,包括7nm工艺、“亿个晶体管”,以及张文提到的“0mm”左右的diesize。这个diesize数字当然也就突破了光刻机所能处理的reticlelimit,所以是将两片die封装到一起。

从壁仞科技联合创始人、CTO洪洲的介绍来看,BR明确采用了台积电的2.5DCoWoS-S封装方案——两片die和周边HBM2e内存都放在一片硅中介(siliconinterposer)上。我们在刚刚发布的《先进封装的现在和将来》一文中详细介绍过这种先进封装技术,国内厂商在用的应当还寥寥无几。

而且dietodie互连采用超高速GPAM4SerDes,die间通讯带宽达到了GB/s——这个速度可一点也不比某“国际大厂”发布没多久的GraceHopperSuperchip的NVLink-C2C差。

基于以上数字,推荐感兴趣的同学去比一比,以及IntelPonteVecchioGPU,在diesize、晶体管数量和先进封装技术的应用上都有一定的可比性;也能更进一步地体会壁仞BR大约是怎样的定位。

实际上,英伟达在今年GTC上发布、尚未上市的Hopper架构的GHdiesize为mm,亿个晶体管。“大芯片”之间过招,在堆料上真的已经到了白热化程度。

BR的理论算力水平如上图所示,不同格式与精度的算力值,对应于BR在训练和推理方面的适用性。壁仞提到的“全球算力记录”和突破PFLOPS,应该就是指BF16格式(TFLOPS)。

这里有个TF32+,是壁仞新推的一种数据格式,后文将会提到。在AI训练中相对关键的BF16、TF32/TF32+峰值理论算力,都有着很漂亮的水平;着力推理的Int8也达到了TOPS。

其他配置数据还包括2.5D封装在一起的64GBHBM2e内存,“超MB片上缓存”,2.3TB/s外部I/O带宽,64路高清编码、路高清解码加速。

对比“国际厂商在售旗舰”的峰值算力数据——这很显然比的就是Ampere架构的A;AI计算相关主要数据格式的差异还是实打实的(FP32的数据,属于欺负A的算力侧重点了;而且A堆的FP64算力在HPC领域也是很重要的)。

据说在“开发者云上的实测算力”,BR的数据还更好看一些。有兴趣的同学还可以拿尚未发售的英伟达Hopper新架构来比一比,虽然这种峰值算力对比的意义并不算特别大。另外要考虑对比双方的芯片产品大规模铺货的时间。

到更为真实的负载中,跑主流、具代表性的网络,包括CV、NLP,还有现在很流行的Transformer,壁仞BR仍然是有不小的优势的,“平均加速比2.6x”。不过这种涉及到实际业务的对比,不仅是芯片本身,还要带上系统、软件的对比,应当进一步明确对比对象和内容。我们很期待未来看到壁仞BR及对应系统参与MLPerf基准测试。

实则从这些与竞品的性能对比数据,是能够发现壁仞研发团队的前瞻性的。这家公司年定义BR芯片,到如今产品发布历经3年时间,AI与通用计算加速市场环境变化不小。首次做芯片,就要预见未来3年的算力增长,并在对应时间节点把产品拿出来,既有风险又有难度。

另外,单die的BR主要配置与参数如下图所示。据说即便是单die的BR,相比于“国际厂商在售旗舰”仍然有着1.4-1.6倍的算力优势,包括上述不同数据格式,与主流模型基准测试性能比较。

有关芯片架构、特性、存储子系统、IO互连的部分此处还尚未提到;比如说主机接口PCIeGen5,也特别支持了CXL互连协议;还有壁仞自研的BLink点对点全互连技术能将8个GPU有效连接在一起等等。我们将这部分放到本文的最后。

芯片构成模组、板卡和服务器以后

更往上的板级系统层面,BR、BR芯片当然是需要对应到具体的产品形态的。这次壁仞发布了两款具体的硬件产品:壁砺和壁砺,分别应用了BR和BR芯片,这两款产品分别以OAM(OCPAcceleratorModule)模组与PCIe板卡的形态存在。算力规格之外,功耗分别对应W和W。

壁仞科技联合创始人、总裁徐凌杰特别提到,其中壁砺“在板级和系统层面做了非常多的创新”。供电方面,“我们专门为这套系统打造了48V电源,有着超高的电源密度和开关频率,提供稳定的供电和超高的电源效率。”

而在散热方面,“我们在板卡上采用快速均温技术,增加了热腔体积和撞风面积,有效提升了散热效率。”徐凌杰表示,“我们还优化了散热器的外形,能够在不影响散热的前提下降低5%以上的风阻。”除此之外,“考虑到系统的稳定性和可靠性,我们也设计了一套专门的中断和保护机制。”右图的热力图表现的是OAM模组之上温度的分布情况。

系统和性能扩展相关的部分,应该也是很多人
转载请注明原文网址:http://www.13801256026.com/pgsp/pgsp/7076.html

------分隔线----------------------------