速度快10倍,Groq芯片一夜爆红!英伟达要被赶下神坛?

EETOP 2024-02-21 11:45

点击这里👇关注我,记得标星哦~

近日,AI芯片创企Groq(不是马斯克的Gork)开放了自家产品的免费试用。相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆互联网讨论。其大模型每秒能输出750个tokens,比GPT-3.5快18倍,自研LPU推理速度是英伟达GPU的10倍。为此网友惊呼 大模型最快推理芯片的一哥换人了,不再是英伟达了

Groq名字与马斯克的大模型Grok读音类似,成立于2016年,定位为一家人工智能解决方案公司。

Groq爆火主要是因为其处理速度非常快。据媒体报道,该公司的芯片推理速度较英伟达GPU提高10倍,成本只有其1/10。

运行的大模型生成速度接近每秒500 tokens,碾压ChatGPT-3.5大约40 tokens/秒的速度。

极限情况下,Groq的Llama2 7B甚至能实现每秒750 tokens,为GPT-3.5的18倍。

在Groq的创始团队中,有8人来自谷歌早期TPU核心设计团队,但Groq并未选择TPU、GPU、CPU等路线,而是自研了语言处理单元(LPU)。

Groq官网显示,在 Groq LPU™推理引擎上运行的Meta AI的Llama 2 70B的性能优于所有其他基于云的推理提供商,吞吐量提高了18倍。

能否取代英伟达?

不过,速度并不是AI发展的唯一决定性因素。在Groq爆火的同时,也有一些质疑声音。

首先,Groq似乎只是看起来便宜。Groq的一张LPU卡仅有230MB的内存,售价为2万多美元。

有网友分析,英伟达H100的成本效益应为Groq的11倍。

更为关键的是,Groq LPU完全不配备高带宽存储器(HBM),而是仅配备了一小块的超高速静态随机存取存储器(SRAM),这种SRAM的速度比HBM3快20倍。

这也意味着,与英伟达的H200相比,在运行单个AI模型时需要配置更多的Groq LPU。

另据Groq员工透露,Groq的LLM在数百个芯片上运行。

对此,腾讯科技的芯片专家姚金鑫认为,Groq的芯片目前并不能取代英伟达。

以下是姚金鑫转写的文章:

有关Groq芯片跑大模型超越英伟达芯片的文章火爆了朋友圈,这是个非常好的案例来科普,甚至反思一些现象。

首先,从技术上解释还原一下这件事情的本来面目,然后基于这件事情,表达几个对背后引人深思现象的看法。

一、速度快,但成本奇高

技术上解释:

按照Groq的信息,这颗AI芯片的规格如下:

几个关键信息点:SRAM的容量是230MB,带宽80TB/s,FP16的算力是188TFLOPs。

按照当前对大模型的推理部署,7B的模型大约需要14G以上的内存容量,那么为了部署一个7B的模型,大约需要70片左右的芯片,根据透露的信息,一颗芯片对应一张计算卡,按照4U服务器配置8张计算卡来计算,就需要9台4U服务器(几乎占了一个标准机柜了),总共72颗计算芯片,在这种情况下,算力(在FP16下)也达到了惊人的188T * 72 = 13.5P,如果按照INT8来算就是54P。54P的算力来推理7B的大模型,用大炮打蚊子来形容一点也不为过。

如果是英伟达,朋友圈文章对标的是H100,其采用的是80G的HBM,这个容量可以部署5个7B的大模型实例;我们再来看算力,稀疏化后,H100在FP16下的算力将近2P,在INT8上也将近4P。

那么就可以做个对比,如果从同等算力来看,如果都是用INT8来推理,采用Groq的方案需要9台包含72片的服务器集群,而如果是H100,达到同等算力大约需要2台8卡服务器,此时的INT8算力已经到64P,可以同时部署的7B大模型数量达到80多个。原文中提到,Groq对Llama2-7B的Token生成速度是750 Tokens/s,如果对标的是H100服务器,那这2台总共16颗的H100芯片,并发吞吐就高到不知道哪里去了。如果从成本的角度,9台的Groq服务器,也是远远贵过2台H100的服务器(即使此刻价格已经高到离谱),

Groq:2万美金72=144万美金,服务器2万美金9=18万美金,纯的BOM成本160万美金以上(全部都是按照最低方式来计算)。

H100: 30万美金2 = 60万美金(国外),300万人民币2=600万人民币(国内实际市场价)

这还没有算机架相关费用,和消耗的电费(9台4U服务器几乎占用整个标准机柜)。

如果是70B的模型,同样是INT8,要用到至少600张卡,将近80台服务器,成本会更高。

实际上,部署推理性价比最高的,恰恰是4090这种神卡。

二、速度,在这里成了Groq的双刃剑。

可是为什么Groq和自媒体都有意无意地引导人们已经超越英伟达了呢?并且大多数人都还相信了呢?

这首先是因为英伟达在本次AI浪潮中的绝对领先地位,使得全球都翘首以盼挑战者。每次吸引眼球的文章,总会在最初被人相信,除了这个原因之外,还是因为在做对比时的“套路”,故意忽略其他因素,用单一维度来做比较。这就好比那句名言“抛开事实不谈,难道你就没有一点错的地方吗?”

抛开场景来谈对比,其实是不合适的。对于Groq这种架构来讲,也有其尽显长处的应用场景,毕竟这么高的带宽,对许多需要频繁数据搬运的场景来说,那就是再好不过了。

总结起来,Groq的架构建立在小内存,大算力上,因此有限的被处理的内容对应着极高的算力,导致其速度非常快。

现在把句话反过来,Groq极高的速度是建立在很有限的单卡吞吐能力上的。要保证和 H100同样吞吐量,你就需要更多的卡。速度,在这里成了Groq的双刃剑。

春节打折倒计时2天!创芯大讲堂全场75折!

EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论 (0)
  • 科技云报道原创。世界是复杂的,没有人知道未来会怎样,但如果单纯从技术的角度,我们总是能够沿着技术发展的路径,找到一些主导未来趋势的脉络。从Sora到Suno,从OpenAI到Copilot、Blackwell,这些热词在大众眼里或许还分不清楚,但很多人已经用上各种“ChatGPT”,或聊天或创作。不知不觉间,我们已经卷入新一轮AI浪潮中。这轮人工智能浪潮,自ChatGPT这类生成式AI工具问世,被迅速引爆。AI大模型从研究走向应用,复用成本大幅降低,各种应用得以更快渗透进各行各业。IDC发布报告
    科技云报到 2024-04-17 14:45 69浏览
  •   作者介绍  一、政策持续推动中国新车评价规程(C-NCAP)于今年1月18日正式发布,新版评价规程基于中国道路交通事故研究现状及中国汽车基础数据研究成果,旨在推动中国道路交通从“零死亡”向“零伤亡”再向“零事故”的终极目标不断前进,将于 2024 年 7 月 1 日起正式实施。在这版更新后的主动安全测试项中,引入了三个基于C-V2X技术的测评场景:CCRH(High Speed Car to Car Rear——车辆高速直行于前方静止目标车辆测试场景)
    虹科测试测量TM 2024-04-17 14:48 78浏览
  • 在数字信息技术飞速发展的今天,各行各业都在经历着数字化转型的浪潮。作为培养驾驶人才的重要场所,驾校也不例外。依托科技的进步和互联网数据平台的普及,驾校数字化发展趋势已经成为行业发展的新引擎,它不仅改变了传统教学模式,也为学员提供了更加便捷、高效的学习体验。 驾校数字化发展的首要表现是教学管理系统的智能化。传统的驾校管理多依赖纸质档案和人工操作,效率低下且易出错。而现代的驾校通过引入智能管理系统,实现了学员信息、车辆调度、教练分配等环节的自动化管理。这些系统能够实时更新数据,为驾校管理层
    lauguo2013 2024-04-17 09:40 88浏览
  • 一、根据开发手册网口一节参照如下:自动永久配置静态 IP 地址通过 ifconfig 命令和 ip 命令配置的 IP 地址断电之后就会丢失,如果需要使 IP 地址永久生效,就需要修改网络管理工具相应的配置文件。 使用 systemd-networkd 管理工具配置动态获取 IP 地址root@myir-remi-1g:~# cd /root@myir-remi-1g:/# lsbin   dev       &nbs
    智者学派 2024-04-17 17:04 73浏览
  • 为了和大家探讨网络安全领域中的关键问题,我将分两期来展示如何使用ntopng和NetFlow/IPFIX检测Dos攻击。在本篇中,我先简单介绍网络安全面临的挑战、为何网络流量分析在应对网络安全挑战中起重要作用,此外,我会介绍在此次检测中使用到的工具软件。一、网络安全挑战近年来,由于网络攻击和在线安全威胁的增加令人担忧,造成这种增长的原因包括以下几个方面:l l对技术的依赖性越来越强:随着我们对各种设备的依赖性增加,与互联网的连接也日益紧密,这为攻击者提供了更多的机会。网络中的每个连接点
    虹科网络可视化 2024-04-17 13:21 49浏览
  • 非常荣欣参加了这次《码上行动:用ChatGPT学会Python编程》试读体验活动,同时非常感谢面包板论坛举办此活动。本书印刷还是非常新颖,具有精美漫画。下图为图书正面。 本书的内容从零基础开始,由浅入深地介绍Python的基础语法及相关概念,无须任何编程经验即可阅读学习。在讲解相关知识点时,均配有示例代码,方便读者结合代码进行理解,边学边练。本书在教授 Python知识的同时,也演示了ChatGPT工具的使用。除了通过向ChatGPT提问的方式获取信息和指导,书中还进一步介绍了ChatGPT在
    shenwen2007_656583087 2024-04-17 01:33 144浏览
  • 随着双碳战略发展,利用无线通信等先进技术推动电力系统数智化升级已成为构建可持续社会的必由之路。电力系统各环节存在多、远、广等特点,面对着部署成本高、安全要求高、上线周期长等挑战,广和通电力模组实现了成本性能双优,是智慧电网规模化部署的卓越连接方案。国家能源局于2023年6月发布《新型电力系统发展蓝皮书》,规划了新型电力系统形态。在新型电力系统中,电源将逐渐向不确定性强、弱可控出力的新能源发电装机占主导过渡。电网侧将向交直流混联大电网、微电网、局部直流电网和可调节负荷的能源互联网转变。负荷侧将向柔
    物吾悟小通 2024-04-16 18:49 39浏览
  • ams OSRAM,智能传感器和发射器的全球领导者,日前在2024法兰克福照明与建筑技术展(Light + Building 2024,下称法兰克福照明展)上精彩上演一场光影革命,通过颠覆性的照明技术和极致创新的产品阵容,生动诠释了“感知光的力量”主题,成功聚焦全球照明行业的关注与赞誉。自1999年创办以来,两年一届的法兰克福照明展已成为国际照明领域最具影响力的盛会之一,可谓是行业热点风向标。此次,我们也邀请了艾迈斯欧司朗照明全球应用高级总监Vincent Chen,就展会现场热点和LED技术发
    艾迈斯欧司朗 2024-04-17 16:15 66浏览
  • 科技云报道原创。北京冬奥运AI 虚拟人手语主播、杭州亚运会数字人点火、新华社数字记者、数字航天员小诤......当随着越来越多数字人出现在人们生活中,整个数字人行业也朝着多元化且广泛的应用方向发展,快速拓展到不同行业、不同场景。面向C端,数字人帮助用户生产内容和辅助工作,如:数字人练口语、和数字人玩游戏等;面向B端,数字人是企业的“工具人”,应用于金融、影视、电商、直播等行业,提高行业生产和运营效率。毫无疑问,数字人是一门好生意,但其规模化落地依然面临着人才、成本、场景、技术等层层困难。其中,最
    科技云报到 2024-04-17 14:08 81浏览
  • 科技云报道原创。AI大模型正在倒逼数字基础设施产业加速升级。过去一年半,AI大模型标志性的应用相继出现,从ChatGPT到Sora一次次刷新人们的认知。震撼的背后,是大模型参数指数级的增长。这种数据暴涨的压力,快速传导到了大模型的底层基础设施。作为支撑大模型的底座“三大件”——算力、网络、存储,都在快速的迭代。算力方面,英伟达用了两年的时间就将GPU从H100升级到了H200,让模型的训练性能提升了5倍。网络方面,从之前的25G升级到现在的200G,网络带宽提升了6倍。随着RDMA大规模的应用,
    科技云报到 2024-04-17 13:45 54浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦