广告

Cerebras全球最大芯片WSE升级二代:参数翻番,功耗不变

时间:2021-04-21 作者:综合报道 阅读:
4月20日,Cerebras Systems 公司再次刷新历史,推出为超级计算机任务而打造的第 2 代 Wafer Scale Engine (WSE-2)芯片。与一代WSE相比,WSE-2虽然在面积上没有变化,但却拥有创纪录的 2.6 万亿个晶体管以及 85万个 AI 优化的内核,芯片的所有性能特征,包括:晶体管数、内核数、内存、内存带宽和结构带宽,均比一代增加了一倍以上。
广告

差不多两年前(2019年8月),SeaMicro 创始人安德鲁·费尔德曼(Andrew Feldman)创办的 Cerebras  Systems 公司公司,揭开了芯片设计领域的一场革命,他们将整片晶圆制成了一个巨大的芯片。

以往的芯片制造流程,是从硅锭切下一片晶圆后在Fab中进行加工,一片晶圆能被切成数百颗独立的芯片。而这颗名为晶圆级引擎(Wafer Scale Engine,WSE-1)的处理器直接把整片晶圆做成了一颗芯片,面积与12英寸晶圆所能截取的最大矩形面积一样——比iPad还大。

不过,这颗芯片的每一块区域都能被称为内核,它们以一种复杂的方式与其他内核相互连接。互联的设计是为了保持所有内核的高速运转,以便所有晶体管能够作为一个整体一起工作。在 2019 年推出的WSE-1中,Cerebras 融入了 40 万个内核和 1.2万亿个晶体管,采用的是 16 纳米工艺进行制造,可同时专注于AI和HPC(High Performance Computing,高性能计算机群)工作负载。

更狠的第二代(WSE-2)来了

4月20日,Cerebras Systems 公司再次刷新历史,推出为超级计算机任务而打造的第二代 Wafer Scale Engine (WSE-2)芯片。与一代WSE相比,WSE-2虽然在面积上没有变化,但却拥有创纪录的 2.6 万亿个晶体管以及 85万个 AI 优化的内核,芯片的所有性能特征,包括:晶体管数、内核数、内存、内存带宽和结构带宽,均比一代增加了一倍以上。

这得益于WSE-2采用基于台积电(TSMC)的N7工艺(7nm)打造,使得逻辑电路可以按比例缩小,并在一定程度上缩小了SRAM,让新芯片上可以容纳更多AI内核。Feldman 说,有了这样的先进工艺支持,Cerebras 可以在同样的8*8英寸,面积约46225mm2的芯片中塞进更多的晶体管。

WSE-2与一代对比(图自:AnanTech

值得注意的是,在功能提升的前提下,Cerebras还能够保持其系统功耗不变(23 kW)。

对比市场上第二大AI处理器,英伟达的Ampere A100面积约为826mm2,具有0.054万亿个晶体管。WSE-2比它多了2.55万亿个晶体管;内核数是A100的123倍;缓存是其1000倍;可提供的内存带宽,则达到了A100的13万倍。

Cerebras还引用了1000倍的板载内存,带有40 GB的SRAM,而Ampere A100则为40 MB。

 

最初推出WSE-1的时候,很多人担心这么大的晶圆做芯片,万一其中一块不良,是否整个报废?对此Cerebras解释说,他们通过设计一种可以绕开任何制造缺陷的系统来实现100%的良率,核心与带有FMAC数据路径的2D Mesh连接

Cerebras在WSE-1用了1.5%的额外核心来容纳缺陷,但由于台积电工艺的提升,这个数值被进一步缩小了。

晶圆级引擎存在的意义 

WSE的出现,是因为训练神经网络需要花费较多的时间,即便是当今最先进的模型,也需要几天或几周的时间进行训练,大型网络则需要数周。通常做法是在数十、数百甚至数千个GPU上进行分布式训练,以使训练时间更可控。

其中最大的瓶颈,是这些庞大的处理器集群很难编程,而且数据必须在处理器和外部 DRAM 存储器之间进行多次传输,既浪费时间又消耗能源。所以WSE研发团队的初衷是扩大芯片,使它与 AI 处理器内核一起容纳所需的所有数据,一个CS-2的性能相当于整个GPU集群的性能,同时具有单个设备的简单性。。

其设计的关键是自定图形编译器,采用pyTorch或TensorFlow将每一层映射到芯片的物理部分,从而允许在数据流过时进行异步计算。拥有如此大的处理器意味着数据永远不会掉队,也不需要在内存中等待,不浪费功率,并且可以以流水线的方式连续地移至计算的下一个阶段。编译器和处理器的设计还考虑到了稀疏性,无论批处理大小如何都可以实现高利用率,或者可以使参数搜索算法同时运行。

Cerebras设计的独特性,让它能够超越制造过程中出现的常见物理限制,即标线限制。处理器的设计限制,往往取决于芯片的最大尺寸,因为很难通过Cross link连接两个区域。这是Cerebras的杀手锏之一,该公司仍然是唯一一家能提供这种规模处理器的公司。

在Hot Chips 2020,该公司首席硬件架构师Sean Lie表示,Cerebras对客户的主要好处之一是能够简化工作负载,以前需要使用GPU / TPU机架的工作,现在可以以计算相关的方式在单个WSE上运行。

产品和合作伙伴

Cerebras的第一代WSE作为CS-1的完整系统的一部分一起打包出售,不少实验室与计算机中心已经部署了Cerebras WSE和CS-1。

  • 爱丁堡大学的超级计算中心,利用WSE进行自然语言处理、基因组学和COVID-19的相关研究。
  • 在美国阿贡国家实验室(ANL),WSE被用于COVID-19研究、重力波检测和材料发现等;并且在癌症疗法研究中,使癌症模型的实验周转时间,减少了300倍以上。
  • 制药企业葛兰素史克的高级副总裁金·布兰森表示:“其增加了生成的编码器模型的复杂性,同时将训练时间减少了80倍。”
  • Lawrence Livermore将一台CS-1与其23 PFLOP“拉森”超级计算机配对。匹兹堡超级计算机中心以500万美元的价格购买了两个系统,并将这些系统连接到他们的Neocortex超级计算机上,以实现同步AI和增强的计算能力。

对于WSE-2的应用,国际调研公司Tirias Research首席分析师Jim McGregor认为:“显然,对用于大型数据集的Cerebras晶圆级解决方案,有些公司和实体很感兴趣。但是在企业层面,还有数百万的其他AI应用,以及一些Cerebras不能处理的情况,这就是英伟达拥有SuprPod和Selene超级计算机的原因。与英伟达相比,Cerebras更像是一个小众平台,二者的广度无法相提并论。”

目前Cerebras在多伦多、圣地亚哥、东京和旧金山拥有约300名员工。该公司首席执行官安德鲁·费尔德曼(Andrew Feldman)表示,作为一家公司,他们已经实现了盈利,已经部署了CS-1的客户很多,并且在启动商业系统时已经有更多的客户在远程试用CS-2。 

除了AI之外,由于芯片的灵活性使流体动力学和其他计算仿真成为可能,因此Cerebras在典型的商业高性能计算市场(例如石油、天然气和基因组学)中吸引了很多客户。

CS-2的部署将于今年晚些时候的第三季度开始,价格已从2-3百万美元升至“几百万”美元。

责编:Luffy Liu

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微芯片设计将推动AI实时边缘计算 AI边缘计算是AI+边缘计算结合的深度应用,然而,在实时性方面,AI边缘计算一直未有突破。不过,最近的微芯片设计将有力的推动这一领域的发展。
  • 通过无排放绿色能源系统实现智慧城市的碳中和战略目标 城市正发展得越来越壮大,越来越有韧性,但要真正实现繁荣,城市还需要一个更强大、更智能、更绿色的能源系统。最近,我们与日立ABB电网公司(Hitachi ABB Power Grids)电网整合(Grid Integration)业务的产品管理和策略主管André Burdet进行了交谈,讨论了可再生能源、交通运输和数字网络该如何发展,以满足城市的需求。
  • 走本土化策略的TE Connectivity,今年慕展有哪些本土化 在应对国际贸易大环境的不确定性时,越来越多的国外企业在中国强调“本土化”策略——这好像也是如今在中国有广阔市场的科技企业的共识。前不久的慕尼黑上海电子展上,我们采访的多家跨国企业都表达了这方面的态度。比如TE Connectivity这次在慕展上甚至专门开辟了相关TE中国汽车事业部本土化的区域,强调“深耕本土、创新共赢”。
  • 拆解海康威视智能热成像摄像机,关键器件来自华为海思和 海康威视(Hikvision)开发的热成像摄像机之所以吸引System Plus Consulting的原因在于其人工智能(AI)功能。在System Plus Consulting看来,该热成像摄像机的亮点在于结合了东西方设计的精华——中国制造的微测辐射热计和摄影机处理器,以及非中国的AI/模拟等处理组件…
  • 语音助手和服务机器人如何利用智能情境感知技术? 今天的许多声控设备都能听懂、解释并执行指令。然而,它们并不具备情境感知能力。下一代“始终监听”设备使用机器学习来了解用户。情境感知让自然的声音、大城市的喧嚣、用户的声音等等都变得有意义。
  • 传奇AI公司现身超算中心,心中对手只有英伟达 Habana Labs日前宣布,其人工智能(AI)训练和推理加速器将为加州大学圣地亚哥分校圣地亚哥超级计算机中心(SDSC)的Voyager超级计算机提供高性能的AI计算能力,计划于2021年秋季投入使用。
  • Intel 11代酷睿1处理器正式发布:10 今晚,Intel发布的11带酷睿处理器采用10nm制程,面向高性能移动桌面版。同时发布的还有同样架构的至强W-11000系列,面向高性能移动工作站。
  • AMD RX 6600系列或配备8GB显存 MD的RX 6600系列可能配备的不是之前传闻的6或12GB显存,二是8GB。可能包含64MB的内置Infinity Cache。
  • Silicon Labs全新Matter解决方案简 物联网行业的成功取决于简便性、可靠性和安全性,Matter无线解决方案使开发人员可以专注于创新并将产品推向市场,以实现无缝的消费者体验。
  • 新思科技为中兴通讯提供BSIMM软件 安全对于任何构建和使用软件的企业和个人来说都至关重要, 中兴通讯采取积极主动的安全举措,包括采用新思科技(Synopsys)的Coverity 静态应用安全测试、Defensics 模糊测试、Black Duck 软件组成分析以及软件安全构建成熟度模型(BSIMM)评估等。
  • 外资AGV企业为什么玩不转中国市场? 一方面是中国移动机器人企业近几年获得了长足的发展,另一方面也与外企在中国的战略布局有关。文|大峻随着AGV行业的不断发展,企业间的交流与合作也越来越多,无论是国外企业的“走进来”还是中国企业的“走出去
  • 4月动力电池数据的一些分析 在汽协的数据发布以后,我觉得有一些内容可以解释了,其实比对国内中国汽车动力电池产业创新联盟数据、上险数据还有SNE的数据,这里国内电池产量和装机量已经出现很大的背离原因现在有解释了。这里有几个因素,一
  • 韩国监狱关不住三星太子 来源/华商韬略( ID:hstl8888)作者/李君图片/图虫创意清算最大的财阀三星李家,是文在寅对竞选承诺的兑现,但他刚刚才撕开一个口子,就已经“站在烈烈风中”了。1/ 危局韩国青瓦台,一封封求情信
  • 计算摄影的威力,一加 9 Pro广角体验 “方便”,一直被很多人所追求。上班顺路有早点摊,是一种“方便”;入住的酒店楼下有便利店,也是一种“方便”。可能有人会说,图方便不就是“懒”吗?这种看法不完全错误,但可不适用于所有情况。如果用更方便的做
  • 博众精工科创板上市:市值84亿 博众精工主要从事自动化设备、自动化柔性生产线、自动化关键零部件以及工装夹(治)具等产品的研发、设计、生产、销售及技术服务。文|新战略2021年5月12日,博众精工科技股份有限公司正式在上交所科创板上市
  • 拒绝亮机卡:AMD这次太良心了! AMD RDNA2家族已经诞生了两个核心,包括RX 6900、RX 6800系列的Navi 21、RX 6700系列的Navi 22。据说,接下来的RX 6600系列将会使用Navi 23小核心。那么
  • 砸 200 亿美元进军芯片代工,英特尔孤注一掷的自救 ▲ 了解更多精彩内容 点击上方蓝字关注我们作为曾经的硅谷缔造者之一,文化上的自满与错失移动浪潮的战略失误已经令这位芯片巨头远远落后于其他竞争对手。英特尔 7 纳米芯片仍然在路上除了
  • 嵌入式方案设计文档该怎么写? 俗话说,不会写文档的工程师不是好的工程师!如果你只会写代码,而从不写文档,迟早有一天会“出事”。这不是危言耸听,现实生活中有很多活生生的例子。1不写文档有什么后果?如果不写文档,开发过程中就会出现类似
  • 中国电信5G承载STN集采:华为、中兴、烽火和新华三中标 5月12日,中国电信公示《2021年STN设备建设工程集中采购项目》STN-B标包中标候选人。根据评审结果,中标候选人推荐如下:1.第一中标候选人(1)单位名称:华为技术有限公司和华为技术服务有限公司
  • 图文解说S参数(基础篇) 1、简介:从时域与频域评估传输线特性简介:从时域与频域评估传输线特性良好的传输线,讯号从一个点传送到另一点的失真(扭曲),必须在一个可接受的程度内。而如何去衡量传输线互连对讯号的影响,可分别从时域与频
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了