自从Groq “高调”没出现在自己赞助的AI硬件峰会之后,EETimes日前采访了这个开始从“潜伏”状态进入大众视野的神秘公司,与其高层领导团队进行了访谈,详细了解了他们关于其软件定义的硬件TSP。

自从“高调”没出现在自己赞助的AI硬件峰会之后,AI加速器初创公司Groq日前对其临门抽脚的原因做出了一些解释。

Groq联合创始人兼CEO Jonathan Ross说:“客户优先,我们非常注重客户需求。”

EETimes建议可以派个人参加峰会,只要介绍一下公司情况也许就能避免一场公关危机,但Ross拒绝了,坚称他们的决定是正确的。

Jonathan Ross (来源: Groq)

Ross说:“我们信守:展示出来,不要只是说。我们确实为AI硬件峰会准备了演示,但后来不得不优先考虑客户,首先将产品提供给客户,所以在峰会上我们无法展示。当时我们可以选择继续介绍无法演示的产品,或者撤出;最终,我们决定撤出。”“结果还不错,”他坚称。 “客户非常满意。”

Ross之前曾在Google的张量处理器(TPU)开发团队工作,Groq的许多高管都曾在Google工作过很长时间。

这家神秘的AI加速器初创公司拥有70名员工,迄今已筹集了6700万美元资金,并于最近完成了第二轮融资。EETimes日前采访了这个开始从“潜伏”状态进入大众视野的神秘公司,与其高层领导团队进行了访谈,了解到更多有关该公司的信息。

软件定义的硬件

Groq不寻常的软件优先方法始于构建一个原型编译器,而不是硬件原型。围绕编译器,再构建硬件结构,由此产生的TSP有一个简化的硬件设计,但所有执行程序都在软件中进行。软件实质上协调了所有数据流和时序,从而确保计算不停顿,而且延迟和性能都是可预测的。

Groq首席架构师Dennis Abts解释道:“我们将大量的控制权交给了编译器,这样就能够在软-硬件接口上进行一些折中……从而获得了确定性执行的结果。”

Abts是一位在Google数据中心工作了12年的资深人士,他还曾在科雷(Cray)公司担任硬件架构师十多年。Abts解释说,编译器即可以控制程序执行,也可以控制功耗状况,因此,在编译时可以准确预测到精确、可重复的执行时间,以及每个模型运行的功耗。

Abts说:“我们认为这使我们在易用性方面更具优势。” 编译时即了解执行时间和功耗情况意味着“可以从模型开发的角度进行快速试验,部署系统时对所能达到的性能胸有成竹。”

编译器可以完全控制芯片,无论是动态的,还是静态的。

他说:“没有什么动态分析代码之说,因为静态与动态是一样的,这样可以实现一些非常好的特性。”

Groq采用软件定义硬件的方法来提供确定性操作和可预测的延迟(来源:Groq)

这种方法的首要特性是消除了大多数架构所需的同步步骤,一般在计算和传输计算结果之间需要同步。无同步开销意味着可以大规模部署模型而不会产生尾延迟,而据Abts称尾延迟是目前数据中心的一大难题。Groq的芯片可以在编译时预先知道所有延迟。

“我们还避免了在前端引入很多复杂的硬件,比如推测执行、分支预测,很多复杂的控制结构可以被轻松地分解出来。” 他说。 “有很多原因导致我们采取这样的措施,尤其是因为激进的推测技术很可能被黑客利用,导致一些硬件安全漏洞,而遭受像Spectre和Meltdown之类的病毒攻击。”

TSP不是FPGA

将软件定义的硬件与确定性操作相结合的概念可能会让人想到FPGA,但Ross强调TSP绝对不是FPGA。SambaNova最近也提出了“软件定义的硬件”这个概念,其细节正在逐步浮现(SambaNova仍处于“潜伏”状态),但他们表示正在开发可重新配置的数据流架构,并致力于开发用于编程加速器的语言。Groq的方法和SambaNova的概念之间是否存在重叠,EETimes对此也表达了疑惑。

 “这是一个全新的概念,”Ross指出。 “想象一个FPGA可以在每个周期重新配置,我们的芯片工作方式就类似于这样。但它不是FPGA,没有查找表…你可以按周期完全更改芯片功能,甚至可以确切地知道芯片的每个部分在每一时刻做什么,你的控制可以达到非常精细的程度,但它不是FPGA,我们与其它公司所开发的完全不同。”

研究机构Tirias首席分析师Kevin Krewell却表示:“ Groq的方法的确与常规FPGA和SambaNova的方法非常相似。”

针对目前为止Groq所分享的信息,Krewell表达了一些担忧。

他说:“TSP的设计看起来非常精细,我对每平方毫米的计算效率仍有顾虑。可能存在许多难点,比如设计是静态编译的,这意味着一次只能处理一种类型的机器学习算法。而根据工作负载的不同,有些任务需要不同的机器学习模型,例如推荐、图像处理和语音处理。”

第一颗芯片

Groq的TSP将大量的算术逻辑单元(ALU)与大量的片上存储器结合,同时提供充足的带宽馈送数据给ALU(> 60TB/s)。

根据EETimes看到的展示幻灯片(Groq后来拒绝分享该幻灯),其裸片的照片显示了三列ALU与两条大内存条交错排布(ALU约占芯片面积的40%,内存约占50%)。Groq官网上的数据显示,TSP的运算能力可以达到400 TOPS,但并未明确达到该算力的具体条件,只提到这是INT8运算的峰值性能。另外,尽管TSP同时支持整数运算和浮点运算,但公司目前仍坚定地专注于AI推理。

Groq拥有70名全职员工,迄今为止已筹集了6700万美元资金(图片来源:Groq)

Groq工程副总裁Michelle Tomasko说:“我们已经流片成功,而且第一次就启动正常工作了。第一周我们就实现了在芯片上运行程序,六周后就开始向客户提供样品……现在我们已经取得了很大进展,A0芯片即将投产。”

Tomasko详细介绍了TSP的确定性机制将如何改善客户的系统验证时间,并补充说,能够在芯片推出之前就交付编译器,意味着客户可以提前针对TSP体系结构开发新模型。

她说:“等到客户拿到硬件时,内容已经准备就绪。确定性使我们能够在传统体系架构中进行我们自己的硅前验证测试…,这很复杂,有许多不同的控制系统,因此存在竞争条件、边界条件以及需要排除的东西。当我们针对这些问题时,就知道确定性核心机制将起作用,并且它们确实运行得很好。”

加入Groq之前,Tomasko在Google工作了3年,此前她还曾在Nvidia工作过。

她说:“Nvidia人力资源充足,一旦确定了追求目标,他们可以非常轻松地解决架构问题。但事实是,利用我们的架构可以迅速灵活地执行操作,这是我们能够领先于像Nvidia这样的巨头之关键所在。”

Groq目前致力于数据中心和自动驾驶汽车应用中的AI推理。首席运营官Adrian Mendes表示,超大规模数据中心客户对TSP能够解决尾延迟问题兴趣浓厚,因为这有助于大型数据中心的横向扩展。同时,企业数据中心和一级OEM厂商则对TSP可以预处理代码的能力很感兴趣。低延迟对于金融业的高频交易应用也具有极大的吸引力。

Mendes说,“‘微秒级’的延迟与总体确定性机制相结合,使得TSP非常适用于像自动驾驶这样的安全攸关应用。”

Mendes说:“自八月开始,我们已经向少数客户交付了硬件,已经部署在客户的数据中心内,一些应用已经在其上运行,而且效果很好。”

Groq的TSP现已提供PCIe板卡样品。

(参考原文: 'No-Show'Groq Partially Unveils AI Architecture,by Sally Ward-Foxton)

责编:Amy Guan

本文为《电子工程专辑》2020年1月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅 

阅读全文,请先
您可能感兴趣
虽然人工智能和机器学习的应用越来越广泛,但在繁杂的电子设计中,能够帮助工程师实现什么类型的决策呢?工程师又将如何看待在设计中让人工智能进行这些决策呢?本文所揭示的一个设计趋势是,绝大多数的工程师们都信任人工智能,认为它们会在建模设计、元器件选型、加快新产品上市方面发挥越来越大的作用。
电子工程专辑刚刚介绍了《谷歌发布多模态大模型Gemini》,这是谷歌自称强于OpenAI技术的目前最强大的AI,然而据彭博社报道称,Google在关于"双子座"的性能视频演示中作假了。
ST已经在汽车、智慧工业和物联网等应用领域大力部署边缘AI。STM32系列的32位Arm Cortex微控制器已将适合边缘计算的低功耗版本涵盖其中。为了让不熟悉AI的人更容易上手,NanoEdge AI Studio整合了机器学习函数库,可以为任何指定的应用自动搜索和配置最适合的解决方案。
尽管SK海力士利用TSV技术,使其HBM产品一直保持业界领先水平,但仍需解决产能偏低、成本过高的问题。为此,SK海力士持续研发主打封装技术TSV外,还在关注“扇出型晶圆级封装”,将其视为促使未来利润产生的新的增长动力和技术。
近2年全球存储产业行情变化,深圳市时创意电子有限公司董事长倪黄忠用“过山车”这个词来形容。2021年存储严重缺货,包括晶圆短缺,颗粒短缺,产能短缺,库存短缺,供不应求的终端需求使得存储价格大幅上涨,不少存储厂商赚的盆满钵满。随之而来的是2022年的产能过剩,与2021年全然相反的局面,包括晶圆、颗粒、产能、库存都处于供过于求的状态,价格一路下滑至2023年的Q1-Q2,包括美光、SK海力士、三星等存储厂商营收巨额亏损。在存储厂商们一系列的减产延长、去库存等措施下,2023 年Q3-Q4迎来了存储价格上涨的趋势,晶圆、颗粒供给趋紧。
由于全球生成式AI的井喷式发展,作为AI芯片的主要生产商,英伟达第三财季的营收创造历史记录,同比增长超过一倍,净利润暴涨超12倍。11月22日,英伟达(NVIDIA)公布了截至2023年10月29日的2024财年第三财季的财报:营收创历史纪录达到181.2亿美元,同比增长206%,环比增长34%,净利润92.43亿美元,同比暴涨1259%;毛利率74%,同比提升20.4%;每股摊薄收益为3.71美元,较上年同期的0.27美元增长1274%。
根据TrendForce集邦咨询最新OLED技术及市场发展分析报告统计,在近期发表的摺叠新机中,UTG的市场渗透率已逾九成,随着摺叠手机规模持续成长,预估2023年UTG产值将达3.6亿美元;2024年可望挑战6亿美元。
随着终端及IC客户库存陆续消化至较为健康的水位,及下半年iPhone、Android阵营推出新机等有利因素,带动第三季智能手机、笔电相关零部件急单涌现,但高通胀风险仍在,短期市况依旧不明朗,故此波备货仅以急单方式进行。此外,台积电(TSMC)、三星(Samsung)3nm高价制程贡献营收亦对产值带来正面效益,带动2023年第三季前十大晶圆代工业者产值为282.9亿美元,环比增长7.9%。
治精微推出具过压保护OVP、低功耗、高精度运放ZJA3018
无线技术每天都在拯救生命,有些非常方式是人们意想不到的。在美国加利福尼亚州Scotts Valley,一名路过的慢跑者发现一处住宅冒出火焰后,按响了门铃,试图通知屋主。屋主不在家中,但无线门铃连接到了智能家居中枢,提醒屋主慢跑者试图联系。屋主立即向他提供了安全密码,让他跑进房子,从火场中救出了宠物。
相信每个硬件工程师应该都用过DC-DC,那么分压反馈电阻的取值有没有想过呢?实际应用中大抵都是直接抄的手册中推荐的分压电阻阻值,就算没有正好对应输出电压的分压阻值,也一般是选择接近的电阻大小。但是,总
近日,Wi-Fi联盟宣布Wi-Fi 7规范将于第一季度末最终确定,为企业采用标准化硬件打开大门。 “基于 IEEE 802.11be 技术的 Wi-Fi CERTIFIED 7 将于 2024 年第一
有奖问卷调查:各位工程师朋友,作为全球知名的授权半导体和电子元器件代理商,贸泽电子 Mouser多年来一直倾心为中国工程师服务,助力本土创新! 时至年终,为了更好的服务工程师朋友,我们特别推出“贸泽电
广告分割线12月11日,臻鼎科技集团与协成昌集团(Saha Group)达成了战略合作协议。当晚还举办了“2023庆祝战略合作签约暨鹏晟科技动土典礼晚宴”。本次战略合作协议的签订将进一步促进双方的合作
点击左上角“锂电联盟会长”,即可关注!有需要联系,王经理:18058289318相关阅读:锂离子电池制备材料/压力测试!锂电池自放电测量方法:静态与动态测量法!软包电池关键工艺问题!一文搞懂锂离子电池
本文来源:物联传媒本文作者:市大妈前几年,对大部分人来说,FWA是一个比较陌生的领域,尽管早在3G和4G时代就已经得到一定的发展。后来,随着5G的发展,FWA作为当前5G应用量级最大的场景之一,被更多
点击左上角“锂电联盟会长”,即可关注!文 章 信 息干法改性工艺新认识,助力锂离子电池高镍正极材料实现高结构稳定和热稳定性能第一作者:吴锋通讯作者:苏岳锋*,陈来*通讯单位:北京理工大学,北京理工大学
近日,懂车帝在漠河举办2023年“懂车帝冬测”活动,问界、小鹏、理想、比亚迪、特斯拉等主流19款新能源车型,进行冬季性能测试。其中,发布的关于在严寒情况下的插电混动车型纯电续航达成率测试结果,其中华为
巨头动向腾讯今年回购金额已超过去10年总额12月11日,腾讯公告称,当日耗资约4.03亿港元,回购133万股股份。年初至今,腾讯已经出手113次,累计回购数量约1.28亿股,累计回购金额超过422亿港
 /记得星标我/比大部分人早一步看见未来乡村振兴,产业兴旺是重点。今年是加快建设农业强国的起步之年,在陕西,陕西移动依托自身信息技术优势,在电子商务、养殖业、农业等方面注智赋能,推动特色产业稳步发展,