向右滑动:上一篇 向左滑动:下一篇 我知道了
广告

“遁隐”的Groq终于开始揭开其AI架构的神秘面纱

时间:2020-01-06 作者:Sally Ward-Foxton 阅读:
自从Groq “高调”没出现在自己赞助的AI硬件峰会之后,EETimes日前采访了这个开始从“潜伏”状态进入大众视野的神秘公司,与其高层领导团队进行了访谈,详细了解了他们关于其软件定义的硬件TSP。

自从“高调”没出现在自己赞助的AI硬件峰会之后,AI加速器初创公司Groq日前对其临门抽脚的原因做出了一些解释。8wTEETC-电子工程专辑

Groq联合创始人兼CEO Jonathan Ross说:“客户优先,我们非常注重客户需求。”8wTEETC-电子工程专辑

EETimes建议可以派个人参加峰会,只要介绍一下公司情况也许就能避免一场公关危机,但Ross拒绝了,坚称他们的决定是正确的。8wTEETC-电子工程专辑

Jonathan Ross (来源: Groq)8wTEETC-电子工程专辑

Ross说:“我们信守:展示出来,不要只是说。我们确实为AI硬件峰会准备了演示,但后来不得不优先考虑客户,首先将产品提供给客户,所以在峰会上我们无法展示。当时我们可以选择继续介绍无法演示的产品,或者撤出;最终,我们决定撤出。”“结果还不错,”他坚称。 “客户非常满意。”8wTEETC-电子工程专辑

Ross之前曾在Google的张量处理器(TPU)开发团队工作,Groq的许多高管都曾在Google工作过很长时间。8wTEETC-电子工程专辑

这家神秘的AI加速器初创公司拥有70名员工,迄今已筹集了6700万美元资金,并于最近完成了第二轮融资。EETimes日前采访了这个开始从“潜伏”状态进入大众视野的神秘公司,与其高层领导团队进行了访谈,了解到更多有关该公司的信息。8wTEETC-电子工程专辑

软件定义的硬件

Groq不寻常的软件优先方法始于构建一个原型编译器,而不是硬件原型。围绕编译器,再构建硬件结构,由此产生的TSP有一个简化的硬件设计,但所有执行程序都在软件中进行。软件实质上协调了所有数据流和时序,从而确保计算不停顿,而且延迟和性能都是可预测的。8wTEETC-电子工程专辑

Groq首席架构师Dennis Abts解释道:“我们将大量的控制权交给了编译器,这样就能够在软-硬件接口上进行一些折中……从而获得了确定性执行的结果。”8wTEETC-电子工程专辑

Abts是一位在Google数据中心工作了12年的资深人士,他还曾在科雷(Cray)公司担任硬件架构师十多年。Abts解释说,编译器即可以控制程序执行,也可以控制功耗状况,因此,在编译时可以准确预测到精确、可重复的执行时间,以及每个模型运行的功耗。8wTEETC-电子工程专辑

Abts说:“我们认为这使我们在易用性方面更具优势。” 编译时即了解执行时间和功耗情况意味着“可以从模型开发的角度进行快速试验,部署系统时对所能达到的性能胸有成竹。”8wTEETC-电子工程专辑

编译器可以完全控制芯片,无论是动态的,还是静态的。8wTEETC-电子工程专辑

他说:“没有什么动态分析代码之说,因为静态与动态是一样的,这样可以实现一些非常好的特性。”8wTEETC-电子工程专辑

Groq采用软件定义硬件的方法来提供确定性操作和可预测的延迟(来源:Groq)8wTEETC-电子工程专辑

这种方法的首要特性是消除了大多数架构所需的同步步骤,一般在计算和传输计算结果之间需要同步。无同步开销意味着可以大规模部署模型而不会产生尾延迟,而据Abts称尾延迟是目前数据中心的一大难题。Groq的芯片可以在编译时预先知道所有延迟。8wTEETC-电子工程专辑

“我们还避免了在前端引入很多复杂的硬件,比如推测执行、分支预测,很多复杂的控制结构可以被轻松地分解出来。” 他说。 “有很多原因导致我们采取这样的措施,尤其是因为激进的推测技术很可能被黑客利用,导致一些硬件安全漏洞,而遭受像Spectre和Meltdown之类的病毒攻击。”8wTEETC-电子工程专辑

8wTEETC-电子工程专辑

TSP不是FPGA

将软件定义的硬件与确定性操作相结合的概念可能会让人想到FPGA,但Ross强调TSP绝对不是FPGA。SambaNova最近也提出了“软件定义的硬件”这个概念,其细节正在逐步浮现(SambaNova仍处于“潜伏”状态),但他们表示正在开发可重新配置的数据流架构,并致力于开发用于编程加速器的语言。Groq的方法和SambaNova的概念之间是否存在重叠,EETimes对此也表达了疑惑。8wTEETC-电子工程专辑

 “这是一个全新的概念,”Ross指出。 “想象一个FPGA可以在每个周期重新配置,我们的芯片工作方式就类似于这样。但它不是FPGA,没有查找表…你可以按周期完全更改芯片功能,甚至可以确切地知道芯片的每个部分在每一时刻做什么,你的控制可以达到非常精细的程度,但它不是FPGA,我们与其它公司所开发的完全不同。”8wTEETC-电子工程专辑

研究机构Tirias首席分析师Kevin Krewell却表示:“ Groq的方法的确与常规FPGA和SambaNova的方法非常相似。”8wTEETC-电子工程专辑

针对目前为止Groq所分享的信息,Krewell表达了一些担忧。8wTEETC-电子工程专辑

他说:“TSP的设计看起来非常精细,我对每平方毫米的计算效率仍有顾虑。可能存在许多难点,比如设计是静态编译的,这意味着一次只能处理一种类型的机器学习算法。而根据工作负载的不同,有些任务需要不同的机器学习模型,例如推荐、图像处理和语音处理。”8wTEETC-电子工程专辑

第一颗芯片

Groq的TSP将大量的算术逻辑单元(ALU)与大量的片上存储器结合,同时提供充足的带宽馈送数据给ALU(> 60TB/s)。8wTEETC-电子工程专辑

根据EETimes看到的展示幻灯片(Groq后来拒绝分享该幻灯),其裸片的照片显示了三列ALU与两条大内存条交错排布(ALU约占芯片面积的40%,内存约占50%)。Groq官网上的数据显示,TSP的运算能力可以达到400 TOPS,但并未明确达到该算力的具体条件,只提到这是INT8运算的峰值性能。另外,尽管TSP同时支持整数运算和浮点运算,但公司目前仍坚定地专注于AI推理。8wTEETC-电子工程专辑

Groq拥有70名全职员工,迄今为止已筹集了6700万美元资金(图片来源:Groq)8wTEETC-电子工程专辑

Groq工程副总裁Michelle Tomasko说:“我们已经流片成功,而且第一次就启动正常工作了。第一周我们就实现了在芯片上运行程序,六周后就开始向客户提供样品……现在我们已经取得了很大进展,A0芯片即将投产。”8wTEETC-电子工程专辑

Tomasko详细介绍了TSP的确定性机制将如何改善客户的系统验证时间,并补充说,能够在芯片推出之前就交付编译器,意味着客户可以提前针对TSP体系结构开发新模型。8wTEETC-电子工程专辑

她说:“等到客户拿到硬件时,内容已经准备就绪。确定性使我们能够在传统体系架构中进行我们自己的硅前验证测试…,这很复杂,有许多不同的控制系统,因此存在竞争条件、边界条件以及需要排除的东西。当我们针对这些问题时,就知道确定性核心机制将起作用,并且它们确实运行得很好。”8wTEETC-电子工程专辑

加入Groq之前,Tomasko在Google工作了3年,此前她还曾在Nvidia工作过。8wTEETC-电子工程专辑

她说:“Nvidia人力资源充足,一旦确定了追求目标,他们可以非常轻松地解决架构问题。但事实是,利用我们的架构可以迅速灵活地执行操作,这是我们能够领先于像Nvidia这样的巨头之关键所在。”8wTEETC-电子工程专辑

Groq目前致力于数据中心和自动驾驶汽车应用中的AI推理。首席运营官Adrian Mendes表示,超大规模数据中心客户对TSP能够解决尾延迟问题兴趣浓厚,因为这有助于大型数据中心的横向扩展。同时,企业数据中心和一级OEM厂商则对TSP可以预处理代码的能力很感兴趣。低延迟对于金融业的高频交易应用也具有极大的吸引力。8wTEETC-电子工程专辑

Mendes说,“‘微秒级’的延迟与总体确定性机制相结合,使得TSP非常适用于像自动驾驶这样的安全攸关应用。”8wTEETC-电子工程专辑

Mendes说:“自八月开始,我们已经向少数客户交付了硬件,已经部署在客户的数据中心内,一些应用已经在其上运行,而且效果很好。”8wTEETC-电子工程专辑

Groq的TSP现已提供PCIe板卡样品。8wTEETC-电子工程专辑

(参考原文: 'No-Show'Groq Partially Unveils AI Architecture,by Sally Ward-Foxton)8wTEETC-电子工程专辑

责编:Amy Guan8wTEETC-电子工程专辑

本文为《电子工程专辑》2020年1月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅 8wTEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Sally Ward-Foxton
Sally Ward-Foxton是EE Times特派记者,她专注于EE Times美国版的AI技术和相关话题,以及EE Times欧洲版杂志中的欧洲企业报道。 Sally base在英国伦敦,她报道电子行业已有15年,曾为Electronic Design、ECN、Electronic Specifie撰写设计、电子元件类文章。 她拥有剑桥大学的电气和电子工程硕士学位。
您可能感兴趣的文章
  • 新处理IC让个人隐私不再“全暴露”? DeCloak开发了一款新的隐私处理芯片,可用于“去识别”(de-identifying)个人的隐私数据,让数据汇聚/分析系统就像“见林不见树”,虽能窥全貌,却只是雾里看花…
  • 2019年EDA/IP收购业务盘点 2019年半导体市场EDA/IP行业依旧火热,当然也出现了一些并购案。本文对2019年EDA/IP收购业务进行简要的盘点。
  • 苹果2亿美元买下这家公司或改进Siri? 据外媒Geekwire报道,继16年花费2亿美元收购西雅图AI创业公司Turi之后,苹果又用相近的价格买下了另一家西雅图AI创业公司Xnor.ai。
  • 阿里达摩院发布《2020十大科技趋势》:芯片领域迎来重大 2020是如此科幻的年份,步入2020年,仿佛回到久违的未来。科技浪潮新十年开启,蓄势已久的智能革命将迎来颠覆性的技术变局。1月2日,阿里达摩院再度重磅向业界发布《2020十大科技趋势》,对AI、芯片、云计算、区块链、量子计算以及工业互联网等科技领域的未来发展做了重要预测。
  • 2020,如何在全面复苏的半导体行业里做到“很能打”? 2020年全球半导体产业有望迎来全面复苏,其中,人工智能/物联网颠覆创新成为了新的增长引擎。但种类繁多的终端设备、高度分散的客户群、多样化的应用和新的生态系统也在不断改写IoT市场的参与规则,那么,该如何成为新的行业领袖?
  • NVIDIA的5年黄金时光,这“不是一家芯片公司” 今年的GTC China大会,NVIDIA公司创始人兼CEO的黄仁勋在主题演讲中用两个小时的时间,去细数一年来NVIDIA的工作。在具体的产品形态上,除了“下一代机器人处理器AGX Orin”在新发布产品中是颗具体的芯片——而且还采用软件定义这种更为通用的方案,在我们看来,NVIDIA今年的努力重点就是软件。GTC China 2019的两个关键词,无非就是软件和通用。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告