一块芯片比iPad还大,全球最大AI处理器刚刚更新了2代,A100看了会沉默

子豪 发自 凹非寺

量子位 报道 | 公众号 QbitAI

还记得那个全球面积最大、整块芯片比键盘还大的AI超算处理器Cerebras WSE吗?

刚刚,这款芯片发布了 2代(www.91fn.cn)。

作为第二代晶圆级引擎, WSE-2以 2.6万亿个晶体管和 85万个AI优化内核,再次刷新记录。

与一代WSE相比,WSE-2虽然在面积上没有变化 (依然很大),二者看起来没什么差别。

但是,芯片的所有性能特征,包括:晶体管数、内核数、内存、内存带宽和结构带宽,均比一代 增加了一倍以上

有哪些升级?

2019年8月,Cerebras推出了 尺寸破纪录的AI芯片——“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE),其中包含1.2万亿个晶体管。

并且在2020年,展示了基于WSE的AI计算机CS-1,计算速度超Joule 200倍以上。

我们将WSE-2与一代,以及A100进行了比较:

可以看到,WSE-2有很大幅度的升级,采用了 7nm制造工艺,多项数据都是一代的 两倍之多

比起英伟达的A100,WSE-2 多了2.55万亿个晶体管;内核数是A100的 123倍;缓存是其 1000倍;可提供的内存带宽,则达到了A100的 13万倍

为什么采用大芯片?

据Cerebras官方网站介绍,

当今最先进的模型,需要几天或几周的时间进行训练,并且通常在数十、数百甚至数千个GPU上进行分布式训练,以使训练时间更可控。

这些庞大的处理器集群很难编程,并且面临通信和同步费用高的瓶颈。

而WSE-2将用于业界最快的AI计算机CS-2。

Cerebras系统(图源:spectrum)

CS-2专门为加速AI应用而设计,旨在实现 快速、灵活的训练和 低延迟的数据处理,可以在更小的空间和更低的功耗下,提供更高的计算性能。

这使得CS-2拥有更高的计算密度、更快的内存和更高的带宽互连,从而将训练速度提升数个数量级、使推理的延迟更低,并且易于部署。

Cerebras芯片,将集群的AI计算和内存资源带到单个设备上,一个CS-2的性能相当于整个GPU集群的性能,同时具有单个设备的简单性。

CS-2在一个芯片上有85万个内核,提供了集群规模的速度,同时 避免了通信缓慢的问题。

同时这也意味着,即使是最大、最复杂的ML模型,也 不需要分布式训练或并行编程,因此能节省数周的模型调整和配置时间。

由于形成了最高带宽、最低延迟的通信结构,因此 大型模型的实时推理延迟得以降低,无需量化、缩小规模和牺牲精度。

Cerebras系统

晶圆级引擎的应用

此前,不少实验室与计算机中心已经部署了Cerebras WSE和CS-1。包括:

爱丁堡大学的超级计算中心,利用WSE进行自然语言处理、基因组学和COVID-19的相关研究。

在美国阿贡国家实验室(ANL),WSE被用于COVID-19研究、重力波检测和材料发现等;并且在癌症疗法研究中,使癌症模型的实验周转时间,减少了300倍以上。

制药企业葛兰素史克的高级副总裁金·布兰森,则表示:

其增加了生成的编码器模型的复杂性,同时将训练时间减少了80倍。

……

对于WSE-2的应用,

国际调研公司Tirias Research首席分析师Jim McGregor认为:

“显然,对用于大型数据集的Cerebras晶圆级解决方案,有些公司和实体很感兴趣。

但是在企业层面,还有数百万的其他AI应用,以及一些Cerebras不能处理的情况,这就是英伟达拥有SuprPod和Selene超级计算机的原因。

“与英伟达相比,Cerebras更像是一个小众平台,二者的广度无法相提并论。”

Moor Insights&Strategy的分析师Patrick Moorhead也表示:

“ Cerebras确实提供了承诺的核心……

不过Nvidia解决方案更加灵活,几乎可以安装在任何服务器机箱中。”

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

加入AI社群,拓展你的AI行业人脉

量子位「AI社群」招募中!欢迎AI从业者、关注AI行业的小伙伴们扫码加入,与 50000+名好友共同关注人工智能 行业发展&技术进展

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

主营产品:蒸汽清洗机加热器,锅炉加热器