广告

全球最大芯片WSE,遇上全球最快AI计算机CS-1

时间:2019-11-22 作者:网络整理 阅读:
今年8月,芯片初创公司Cerebras Systems 在Hot Chips上展出了比脸还大,号称是“世界上最大”的半导体器件Wafer Scale Engine(WSE)。这款芯片首次亮相时,很多人质疑它的实用性,但在9月,Cerebras就宣布与美国能源部(DOE)达成合作,如今它又在加速深度学习的新系统上找到了自己存在的意义……
广告
ASPENCORE

今年8月,芯片初创公司Cerebras Systems 在Hot Chips上展出了比脸还大,号称是“世界上最大”的半导体器件Wafer Scale Engine(WSE)。电子工程专辑曾经对此进行报道:《初创公司用整块晶圆做出史上最大芯片》immEETC-电子工程专辑

作为目前世界上最大的芯片,WSE的面积达到46,225平方毫米,采用16nm工艺,晶圆大小的处理器阵列内,晶体管数量达到了 1.2 万亿,装了400,000个内核。光是直立高度就约 26 英寸,在一个机架中只能安装三台,整体功率达到了 20kW,且其中有 4kW 是用于冷却。immEETC-电子工程专辑

WSE首次亮相时,很多人质疑它的实用性,随后在9月,Cerebras宣布与美国能源部(DOE)达成合作,将利用WSE进行基础和应用科学、医学研究,充分发挥其超大规模AI的优势。WSE会进驻美国能源部下属Argonne(阿贡)国家实验室、利弗莫尔国家实验室,与传统超级计算机合作,加速AI工作。immEETC-电子工程专辑

现在,它又在加速深度学习的新系统上找到了自己存在的意义。immEETC-电子工程专辑

20191122-cerebras-1.jpgimmEETC-电子工程专辑

图自:Cerebras主页immEETC-电子工程专辑

强大到能让计算体验快得离谱

在日前举办的超级计算 2019 峰会(Supercomputing 2019 Event)上,Cerebras正式发布了与美国能源部合作的成果——基于WSE芯片的全球最快的深度学习计算系统 CS-1。新款 CS-1 能够为晶圆级芯片提供 15kW 的功率(由于电源效率低下而损失了 1kW)。immEETC-电子工程专辑

其支持的 Cerebras Wafer Scale 引擎,是有史以来最大的 GPU 的 56 倍、核心的 78 倍、片上内存的 3,000 倍,内存带宽是 10,000 倍,以及 33,000 倍的带宽(PB/s)。immEETC-电子工程专辑

换言之,CS-1 能够带来快得离谱的计算体验。除此之外,它还能够与开源机器学习框架配合使用(如 PyTorch 和 TensorFlow),以提高应用的灵活性。immEETC-电子工程专辑

CerebrasNvidiasmall.pngimmEETC-电子工程专辑

晶圆级芯片的大小,与一台 iPad 平板电脑相当(图自:EETimes)immEETC-电子工程专辑

这样一套惊人的设备,其售价显然也是相当高昂,该公司一位发言人称,其成本在数百万美元。美国能源部的阿贡(Argonne) 国家实验室已经买了一台,用于处理大规模的人工智能计算问题,主攻可用于癌症研究和治疗的药物等基础科学实验。immEETC-电子工程专辑

所有数据就直接存在芯片上

Cerebras是硅谷初创公司,虽然刚刚成立三年,但凭借几次重要发布,目前已经融资超过 2 亿美元。如此受瞩目是因为其在人工智能芯片制造上采取了一种“不走寻常路”的方法——将所有数据保存在一块巨大的芯片上,以便系统更快运行。immEETC-电子工程专辑

AI 系统一般会搭载许多芯片协同工作。但这存在一个显著问题,在芯片之间进行数据传输很慢,并且会限制芯片的分析速度。immEETC-电子工程专辑

成立之初,Cerebras 就希望建立一种专门为深度学习优化的新型计算机,为特定的工作负载选择正确的计算机体系结构。immEETC-电子工程专辑

Cerebras 表示,与其他系统相比,CS-1 的每一个组件都专门针对人工智能工作优化,可以以更小的尺寸和更少的能源消耗下提供更高的计算性能。immEETC-电子工程专辑

CS-1 高度达到 26 英寸(约 66 厘米),大概相当于一个小的行李箱。据相关报道,一个机架中包含了1,000 个 GPU 的集群,50 千瓦的功率。immEETC-电子工程专辑
20191122-cerebras-2.jpgimmEETC-电子工程专辑
CS-1 的侧视图,图自: Cerebras官网immEETC-电子工程专辑

这个性能有多强大呢?对比一下谷歌的 TPU v3,CS-1 功耗是它的五分之一,体积只有它的三十分之一,但速度却是整个 TPU v3 的三倍。immEETC-电子工程专辑

分钟完成传统芯片几个月的任务

Cerebras 为 CS-1 设计了专门的系统和软件平台,以从史上最大芯片 WSE 上的 40 万个计算内核和 18G 高性能片上存储器中提取极限处理能力。immEETC-电子工程专辑

在人工智能计算中,芯片越大越好。更大的芯片处理信息更快,能在更短的时间内得到训练结果。但是,仅有优异的处理器性能还远不足够。像 WSE 这样的高级处理器必须与专用的软件相结合才能实现破纪录的性能。因此,Cerebras 专门为这一巨型芯片开发了 CS-1 内置系统和软件平台,各方面都为加速人工智能计算专门设计。immEETC-电子工程专辑

Cerebras 首席执行官安德鲁·费尔德曼(Andrew Feldman)在接受 VentureBeat 采访时说:“这是从 300 毫米晶圆中切割出的最大“正方形“。尽管我们拥有最大、最快的芯片,但我们知道,一个非凡的处理器未必足以提供非凡的性能。如果想提供非常快的性能,那么就需要构建一个系统。而且并不是说把法拉利的引擎放进大众汽车里,就能得到法拉利的性能。如果想要获得 1000 倍的性能提升,需要做的就是打破瓶颈。”immEETC-电子工程专辑
20191122-cerebras-3.jpgimmEETC-电子工程专辑
Cerebras 首席执行官安德鲁·费尔德曼(Andrew Feldman)immEETC-电子工程专辑
immEETC-电子工程专辑
Cerebras 表示,他们是唯一一家从头开始建立专用系统这一任务的公司。通过优化芯片设计、系统设计和软件的各个方面,CS-1 目前的性能令人满意。immEETC-电子工程专辑

通过 CS-1 和配套的系统软件, AI 需要几个月才能完成的工作现在可以在几分钟内完成,而需要几个星期完成的工作可以在几秒钟内迅速完成。immEETC-电子工程专辑

CS-1 不仅从根本上减少了训练时间,而且还为降低延迟设立了新的标杆。对于深度神经网络,单一图像的分类可以在微秒内完成,比其他解决方案快几千倍。immEETC-电子工程专辑

“这是一台由 40 万个专用人工智能处理器组成的人工智能系统。”费尔德曼说。immEETC-电子工程专辑

20191122-cerebras-4.jpgimmEETC-电子工程专辑
immEETC-电子工程专辑
CS-1 分解图。图自: Cerebras官网immEETC-电子工程专辑

 目前,CS-1 的第一台机器已经完成对 Argonne 国家实验室交付,正被用于研究癌症的神经网络的开发,帮助理解和治疗创伤性脑损伤,CS-1 的性能使其成为 AI 中最复杂问题的潜在解决方案。immEETC-电子工程专辑

Argonne 实验室是一个多学科的科学与工程研究中心,CS-1 可以将全球最大的超级计算机站点比现有的 AI 加速器性能提升 100 到 1000 倍。immEETC-电子工程专辑

通过将超级计算能力与 CS-1 的 AI 处理能力结合使用,Argonne 实验室现在可以加快深度学习模型的研发,以解决现有系统无法实现的问题。immEETC-电子工程专辑

“我们与 Cerebras 合作已有两年多了,我们非常高兴将新的 AI 系统引入 Argonne。”Argonne 实验室的计算、环境和生命科学副实验室主任 Rick Stevens 表示,“通过部署 CS-1,我们大大缩短了神经网络的训练时间,使我们的研究人员能够大大提高工作效率,从而在癌症、颅脑外伤以及当今社会重要的许多其他领域的深度学习研究中得到显著进步。”immEETC-电子工程专辑

深度学习是人工智能的一个领域,它允许计算机网络从大量的非结构化数据中进行学习,然而深度学习模型需要大量的计算能力,并正在挑战当前计算机系统能够处理的极限,Cerebras CS-1 的推出试图解决这一问题。immEETC-电子工程专辑

Argonne 实验室部署 CS-1 以加强人工智能模型的训练,它的第一个应用领域是癌症药物反应预测,这个项目是美国能源部和国家癌症研究所合作的一部分,旨在利用先进的计算机和人工智能来解决癌症研究中的重大挑战问题。增加的 Cerebras CS-1 正在努力支持 Argonne 扩大,主要提倡先进的计算,这也有望利用 AI 功能在 2021 年发布的 Aurora exascale 系统实现百亿亿次级连接。immEETC-电子工程专辑

美国能源部负责人工智能与技术的副部长 Dimitri Kusnezov 在一份声明中说:“在能源部,我们相信与私企合作是加速美国人工智能研究的重要组成部分。我们期待着与 Cerebras 建立长期而有成效的伙伴关系,这将有助于研究下一代人工智能技术,并改变能源部的运营、业务和任务的形势。”immEETC-电子工程专辑

费尔德曼说:“我认为,我们将在未来五年内迎来一个非常激动人心的职业生涯。我认为,一小群人可以改变世界,这确实是企业家的口头禅。你不需要一个大公司,不需要数十亿美元,只要一小群杰出的工程师就能真正改变世界。我们始终相信这一点。”immEETC-电子工程专辑

仍存在质疑:高昂价格、内存过小、算法瓶颈?

当然,对于这样一个全新的 AI 系统,许多网友也提出了质疑。immEETC-电子工程专辑

20191121-cerebras.pngimmEETC-电子工程专辑
immEETC-电子工程专辑
Reddit 上针对 CS-1 的一个讨论中,名为“yusuf-bengio”的网友表示,在实际操作中这种“晶圆规模的 AI 处理器”可能存在瓶颈,比如:immEETC-电子工程专辑

• 价格。制造这样一个芯片比小型的 GPU 昂贵得多;immEETC-电子工程专辑
• 内存过小。存在延迟或带宽瓶颈;immEETC-电子工程专辑
• 算法瓶颈。如果要使用整个芯片,就必须训练一个极小批量的模型,这反过来会影响准确性。 immEETC-电子工程专辑
immEETC-电子工程专辑
内存的问题也引起了许多网友的共鸣,有网友表示,这个芯片只能用 batch_size 1 训练,18GB 的静态随机存取存储器(SRAM)直接使得 Megatron,T5,甚至是 GPT-2 这些模型不能使用。immEETC-电子工程专辑

两大亮点

最后,尽管有质疑,还是再来看看 Cerebras 公布的这台全世界最快计算机的两大亮点。immEETC-电子工程专辑

CS-1 系统  immEETC-电子工程专辑
20191122-cerebras-5.jpgimmEETC-电子工程专辑

Cerebras 声称 CS-1 是最快的人工智能计算机。图自: Cerebras官网immEETC-电子工程专辑
immEETC-电子工程专辑
“ CS-1 是一个单一的系统,可以比最大的集群提供更多的计算性能,还省去了集群搭建和管理的开销。”Tirias Research 首席分析师凯文 · 克雷韦尔(Kevin Krewell)在一份声明中表示, “CS-1 在单个系统中提供如此多的计算机,不仅可以缩短训练时间,还可以减少部署时间。总体而言,CS-1 可能大幅缩短项目的整体时间,而这是人工智能研究效率的关键指标。”immEETC-电子工程专辑
immEETC-电子工程专辑
相比于 GPU 集群需要数周或数月才能建立起来、需要对现有模型进行大量修改、消耗数十个数据中心的机器以及需要复杂的专用 InfiniBand 进行集群搭建不同,CS-1 的搭建使用需要数分钟。immEETC-电子工程专辑
immEETC-电子工程专辑
用户只需接入标准的 100Gb 以太网到交换机,就可以用惊人的速度开始训练模型。immEETC-电子工程专辑
immEETC-电子工程专辑
Cerebras 软件平台immEETC-电子工程专辑
20191122-cerebras-6.jpgimmEETC-电子工程专辑
 近距离观察 Cerebras 芯片。图自: Cerebras官网immEETC-电子工程专辑
immEETC-电子工程专辑
CS-1 非常易于部署和使用,但是 Cerebras 的目的不仅是加快训练时间,还要加快研究人员验证新想法所需的端到端时间,从模型定义到训练,从调试到部署。immEETC-电子工程专辑
immEETC-电子工程专辑
Cerebras 软件平台旨在允许机器学习研究人员在不改变现有工作流程的情况下利用 CS-1 的性能,用户可以使用行业标准的机器学习框架(如 TensorFlow 和 PyTorch)为 CS-1 定义模型训练。immEETC-电子工程专辑
immEETC-电子工程专辑
一个强大的图形编译器自动将这些模型转换为针对 CS-1 优化的可执行文件,并提供一组可视化工具进行直观的模型调试和分析。immEETC-电子工程专辑
immEETC-电子工程专辑
费尔德曼说: “我们使用开源软件,并尽可能使程序简单化。”但是目前所知的是,这个系统既不是基于 x86,也不是基于 Linux。immEETC-电子工程专辑

责编:Luffy LiuimmEETC-电子工程专辑

本文综合自EETimes、Cerebras官网、大数据文摘、techweb报道immEETC-电子工程专辑

ASPENCORE
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 人工智能在自动驾驶车辆中的作用 自动驾驶车辆在农业、运输和军事等领域开始成为一种现实,普通消费者在日常生活中使用自动驾驶车的那一天也在迅速来临。自动驾驶车辆根据传感器信息和AI算法来执行必要的操作,它需要收集数据、规划并执行行驶路线。而这些不同的任务,尤其是规划和执行行驶路线需要非传统的编程方法,它依赖AI中的机器学习技术。
  • 自连科技的物联网技术如何赋能医疗和工业应用? 正如自连科技的愿景——“自动连接一切”所表达的那样,自连科技致力于为一切物、人、位置、时间等提供自动连接在一起的能力。比如,一张纸、一杯水和一双筷子都可以联网。而在这“一切”连接的数据采集与连接环节,自连的三大产品线——无线网桥、智能数据网关及嵌入式模块可以满足不同状态和规格的设备或连接物之间、局域无线连接协议和广域无线通信的需求。
  • AI芯片市场迎接爆炸性成长 MarketsandMarkets预测,全球AI芯片市场规模到2026年将达到578亿美元,随着越来越多机器至少成为半自动化,工业与汽车计算机视觉应用可望取得最高的年成长率。
  • 超低功耗传感器方案如何赋能智能楼宇 随着楼宇变得越来越智能化,它们的功能也将扩展,从而为用户提供更个性化的体验,如访问控制和其他安全功能。这不单纯是在房间空着时关灯实现节能,还包括仅允许授权人员进入房间,自动为个人网络访问肃清不安全因素,确保室内网络安全,甚至帮助查找物品。
  • 从Hot Chips 32看最新AI产品趋势 Hot Chips,全球高性能芯片领域最负盛名的业界盛会。本文中,赛灵思人工智能业务高级总监姚颂将深度解读此次大会上人工智能与机器学习领域所呈现出的三大发展趋势。
  • ReRAM助力实现更像人脑的AI系统 米兰理工大学开发了利用以色列业者Weebit之ReRAM技术的硬件,结合卷积神经网络(CNN)的效率以及启发自人脑的棘波神经网络(SNN)之可塑性,让硬件系统能在不忘记先前撷取信息的训练任务之情况下,再学习新事物。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了