Groq LPU在LLMPerf排行榜上超越了基于GPU的云服务提供商(如英伟达)。由Groq LPU驱动的Meta Llama 2模型推理性能是顶级云计算供应商的18倍,在大语言模型任务上,LPU比英伟达的GPU性能快10倍,但价格和耗电量都仅为后者的十分之一。

AI这个巨大的风口上,每天都有新闻在刷新人们的认知。在OpenAI推出文本转视频大模型Sora火爆全网后,一家2016年成立的初创公司Groq又凭借其同名大模型火出圈。

在传统的生成式AI中,等待是稀松平常的事情,字符一个个蹦出,半天才能回答完毕。但在Groq模型启动器上运行的大语言模型(LLM),能够每秒输出近500个token,有网友将其与GPT-4、Gemini对标,看看它们完成一个简单代码调试问题所需的时间,没想到Groq完全碾压两者,输出速度比Gemini快10倍,比GPT-4快18倍。

当模型收到提示后,几乎能够立即生成答案。这些答案不仅真实可信,还附有引用,长度更是达到数百个单词。(不过就答案质量来说,Gemini和GPT-4更好。) 

科普一下什么是tokens,以及在大模型中是干什么的。在大模型训练、推理、生成的时候,会把文本切分成最小单元即token。比如你问ChatGPT一个问题,ChatGPT会先把你完整的话切成tokens再进行计算。当ChatGPT回答的时候,也不是一下子全部输入出来,而是一个token一个token的蹦出来。

有网友震惊地说:它回复的速度比我眨眼还快。

目前,Groq还提供100万token的免费试用,进入官网,目前有两种可以自选的模型:Mixtral8x7B-32k,Llama 270B-4k。 地址:https://groq.com/ 

也可以在Poe上免费体验Groq:https://poe.com/Mixtral-8x7b-Groq 

与此同时,Groq API也向开发者提供,完全兼容OpenAI API。Mixtral 8x7B SMoE可以达到480 token/S,100万token价格为0.27美元。极限情况下,用Llama2 7B甚至能实现750 token/S。

Groq可不是卖模型的,人家是做芯片的

其实Groq并不是OpenAI那样的大模型公司,它只是一个模型启动器,主页运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k,目的是为了展现其主力产品——针对大型语言模型(如GPT和Llama)AI推理设计的语言处理单元(LPU,Language Processing Units),这是一种专用芯片(ASIC)。

这家公司由前谷歌(Google)资深工程师乔纳森·罗斯(Jonathan Ross)创立,他曾经也是Google自研AI芯片TPU的设计者之一,被称为“TPU之父”。 联合创始人道格拉斯·怀特曼(Douglas Wightman)也来自谷歌TPU团队,并先后创立了四家公司。该公司首席技术官吉姆·米勒(Jim Miller)曾是亚马逊云计算服务AWS设计算力硬件的负责人,CMO曾主导了苹果Macintosh的市场发布。

这样的技术背景帮助Groq迅速确立了在处理单元创新领域的领导者地位。

Ross 曾表示,“Groq 的存在是为了消除‘富人和穷人’,并帮助人工智能社群中的每个人发展。 而推理是实现这一目标的关键,因为‘速度’是将开发人员的想法转化为商业解决方案的关键。”

据Groq官网的测试资料显示,Groq LPU在LLMPerf排行榜上超越了基于GPU的云服务提供商(如英伟达)。由Groq LPU驱动的Meta Llama 2模型推理性能是顶级云计算供应商的18倍,在大语言模型任务上,LPU比英伟达的GPU性能快10倍,但价格和耗电量都仅为后者的十分之一。

具体在能耗方面,英伟达GPU需要大约10到30焦耳才能生成响应中的tokens,而Groq LPU芯片仅需1到3焦耳,在推理速度大幅提升10倍的同时,其能耗成本仅有英伟达GPU的十分之一,这等于是性价比提高了100倍。

图片来源:GIT HUB

速度之源是全新的TSP架构和SRAM

卓越的token吞吐量、低延迟性能、更低的功耗和价格,使得Groq一跃成为NVIDIA、AMD和Intel等AI推理硬件市场的直接竞争者。

Groq LPU基于新的张量流处理器(Tensor-Streaming Processor,TSP)架构,其内存单元与向量和矩阵深度学习功能单元交错,从而利用机器学习工作负载固有的并行性对推理进行加速。

在运算处理的同时,每个TSP都还具有网络交换的功能,可直接通过网络与其他TSP交换信息,无需依赖外部的网络设备,这种设计提高了系统的并行处理能力和效率。

结合新设计的Dragonfly网络拓扑,hop数减少、通信延迟降低,使得传输效率进一步提高;同时软件调度网络带来了精确的流量控制和路径规划,从而提高了系统的整体性能。性能指针达到750 TOPS(INT8)和188 TeraFLOPS(FP16),并具有320×320融合点乘矩阵乘法和5,120个向量ALU。

Groq LPU拥有80 TB/s的带宽和230 MB的本地静态随机访问存储器 (SRAM)容量,提供了超快的推理速度,每秒可服务高达480个tokens。具体到不同的模型,能够以每秒300个tokens的速度服务Llama 2 70B模型,以及每秒750个tokens服务较小的Llama 2 7B模型,推理性能翻了一番多。

其特殊内存SRAM的容量是230MB,带宽80TB/s,在INT8、FP16下算力为188TFLOPs

华尔街见闻此前文章提及,Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。

如下图所示,有推特网友问了一个和营销有关的专业问题,Groq在四秒钟之内就输出了上千词的长篇大论。

还有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题。

结果,Groq的输出速度比Gemini快10倍,比GPT-4快18倍。

此外,Groq的LPU推理引擎在ArtificialAnalysis.ai进行的首个独立LLM基准检验中领先,超越了八大云服务提供商的关键性能指针。基准检验结果如此出色,检测工具甚至必须调整图表轴以适应Groq的性能水平。

Groq的LPU推理引擎通过Groq API提供,为客户提供Tokens-as-a-Service,用于实验和生产的应用。Groq可支持多种用于模型推理的机器学习开发框架,包括PyTorch、TensorFlow和ONNX。但不支持使用LPU推理引擎进行ML训练。 

据介绍,公司已在各种活动中展示了其LLM的低延迟性能,并已将其硬件部署到阿贡国家实验室的ALCF AI测试床,为全球研究人员提供AI加速器访问。

电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默(Matt Shumer)在演示中亲自体验了Groq的强大功能。他称赞Groq快如闪电,能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。更令人惊讶的是,它超过3/4的时间用于搜索信息,而生成答案的时间却短到只有几分之一秒。

LPU将在目标市场与GPU竞争

目前,AI芯片市场主要是由英伟达主导,H100也公认是训练大语言模型最需要的GPU。据Groq介绍,其LPU旨在解决 CPU 和 GPU 等旧技术的限制。 当面对大量运算需求时,传统的处理架构往往无法满足要求。

据与Groq关系密切的投资人k_zeroS在其 X 平台账号发文表示,Groq 的 LPU 不需要像 Nvidia GPU 那样快速的数据传输,因为它们的系统中没有高带宽存储器(HBM)。它们使用SRAM,其速度比 GPU 使用的速度大约快 20 倍。由于推理运行使用的数据比模型训练少得多,因此 Groq 的 LPU 更节能。与用于推理任务的 Nvidia GPU 相比,它从外部内存读取的数据更少,功耗也更少。

LPU 的运作方式与 GPU 不同。 它使用时序指令集计算机(Temporal Instruction Set Computer)架构,与GPU使用的SIMD(单指令,多数据)不同。这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求,不必像 GPU 使用HBM那样频繁地从内存重载数据。 

这也有助于避免 HBM 短缺问题并降低成本,目前HBM的供应除了依赖于三星和海力士,在封装上也依赖台积电的CoWoS技术。

Groq 声称其技术可以凭借其强大的芯片和软件在人工智能任务中取代 GPU,对用户而言,最直观的体验就是“快”。

有从事人工智能开发的用户称赞,Groq是追求低延迟产品的“游戏规则改变者”,低延迟指的是从处理请求到获得响应所需的时间。

另一位用户则表示,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”,并认为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品。

举个形象的例子就是:

把LPU和GPU比作两个厨师,LPU有一个高效的工具箱(SRAM),里面装着他需要的所有材料,他可以随手拿到任何东西,不需要走远路。而GPU的材料都在一个大仓库(HBM)里,每次需要材料时,都要跑到仓库去拿,这就花费了更多时间。即使仓库很大,能存很多材料(高带宽),但往返跑动的时间就使得整个烹饪过程变慢了。

LPU结构

撼动了英伟达的地位?没那么简单

不过真相可能并没有那么简单。震撼过后,很多行业大佬一算账,发现这个快的代价可能有点高。

有网友分析,英伟达 H100 的成本效益应为 Groq 的 11 倍。

业内大佬贾扬清也算了一笔账,因为Groq小得可怜的内存容量(230MB),在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。

在第三方网站上,搭载Groq芯片的加速卡售价为2万多美元,差不多15万人民币,低于NVIDIA H100的2.5-3万美元。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

芯片专家姚金鑫(J叔)在接受《腾讯科技》采访时,进行了更详细的解释:

按照Groq的信息,这颗AI芯片的规格如下:

从芯片的规格中,可以看到几个关键信息点:SRAM的容量是230MB,带宽80TB/s,FP16的算力是188TFLOPs。

按照当前对大模型的推理部署,7B的模型大约需要14G以上的内存容量,那么为了部署一个7B的模型,大约需要70片左右的芯片,根据透露的信息,一颗芯片对应一张计算卡,按照4U服务器配置8张计算卡来计算,就需要9台4U服务器(几乎占了一个标准机柜了),总共72颗计算芯片,在这种情况下,算力(在FP16下)也达到了惊人的188T * 72 = 13.5P,如果按照INT8来算就是54P。54P的算力来推理7B的大模型,用大炮打蚊子来形容一点也不为过。

目前社交媒体广泛传播的文章对标的是英伟达H100,其采用的是80G的HBM,这个容量可以部署5个7B的大模型实例;我们再来看算力,稀疏化后,H100在FP16下的算力将近2P,在INT8上也将近4P。

那么就可以做个对比,如果从同等算力来看,如果都是用INT8来推理,采用Groq的方案需要9台包含72片的服务器集群,而如果是H100,达到同等算力大约需要2台8卡服务器,此时的INT8算力已经到64P,可以同时部署的7B大模型数量达到80多个。

原文中提到,Groq对Llama2-7B的Token生成速度是750 Tokens/s,如果对标的是H100服务器,那这2台总共16颗的H100芯片,并发吞吐就高到不知道哪里去了。如果从成本的角度,9台的Groq服务器,也是远远贵过2台H100的服务器(即使此刻价格已经高到离谱)。

● Groq:2万美金*72=144万美金,服务器2万美金*9=18万美金,纯的BOM成本160万美金以上(全部都是按照最低方式来计算)。

● H100:30万美金*2 = 60万美金(国外),300万人民币*2=600万人民币(国内实际市场价)

如果是70B的模型,同样是INT8,要用到至少600张卡,将近80台服务器,成本会更高。

这还没有算机架相关费用,和消耗的电费(9台4U服务器几乎占用整个标准机柜)。实际上,部署推理性价比最高的,恰恰是4090这种神卡。

因此姚金鑫(J叔)认为,抛开场景来谈对比,其实是不合适的。对于Groq这种架构来讲,也有其尽显长处的应用场景,毕竟这么高的带宽,对许多需要频繁数据搬运的场景来说,那就是再好不过了。

总结来说,Groq的架构建立在小内存,大算力上,因此有限的被处理的内容对应着极高的算力,导致其速度非常快。但反之,Groq极高的速度是建立在很有限的单卡吞吐能力上的。要保证和 H100同样吞吐量,你就需要更多的卡。

毕竟还是小公司,生存是第一要务

虽然埋头研发7年后一炮而红,但Groq目前的团队还相对较小,其总部位于加州山景城,该公司仅有180余名员工,甚至还不到英特尔等大型芯片制造商所需工程师数量的四分之一。不过目前,Groq的官网正在招人,技术岗位年薪为10万~50万美元,非技术岗位则为9万~47万美元。

Ross等人的目标是在Groq复制他在谷歌的成功经验,打造一个内部芯片项目,引领整个行业向新技术迈进。他希望吸引少数关键客户,通过广泛部署Groq芯片为公司提供稳定的收入来源,推动公司的独立发展。目前,这家初创公司已开始向潜在客户发送样品。

Groq还有个日常操作是叫板喊话各位大佬。

去年11月,当马斯克发布人工智能模型Grok时,Groq公司的开发者们就发了一篇文章说马斯克撞名自己的公司。信写的挺逗的,但这波流量他们是一点没吃到。

当时GPTs商店推出之后,Groq还喊话OpenAI创始人/CEO奥特曼:“用GPTs就跟深夜读《战争与和平》一样慢……”。

一名自称Groq工作人员的用户与网友互动时,也高调地表示,Groq的目标是打造最快的大模型硬件,并扬言:“三年时间内赶超英伟达”。

在去年底的采访中,Ross表示,考虑到GPU的短缺和高昂的成本,他相信Groq未来的发展潜力:“在12个月内,我们可以部署10万个LPU,在24个月内,我们可以部署100万个LPU。”

Groq LPU由知名电子元件生产商莫仕(molex)旗下的BittWare代工,同时该厂也为英特尔和AMD代工加速卡。

Ross 在形容公司现状的时候,则没有像之前在网上贴大字报那样高调,他表示:“这就像猎杀大象,你只需要少数猎物就能维持自己的生命,尤其在我们还如此弱小的时候。”

责编:Luffy
阅读全文,请先
您可能感兴趣
苹果收购DarwinAI,将有助于苹果进一步推动这方面的努力——打造出更小型的人工智能系统。未来,苹果也将整合过去在汽车自动驾驶领域的AI研究成果,在苹果手机、AI耳机等探索更多、更好的落地方向。
最近英伟达在AI PC媒体会上,展示了Chat with RTX。其中RAG检索增强生成技术给我们留下了深刻印象,AI PC现在总算是有点用了...
尽管边缘AI带来了巨大的潜力和机遇,但开发人员在实现过程中也面临着来自软件和硬件等诸多方面的挑战。因此,为开发者提供指引和信息,并考虑融合和统一各种工具的用户体验,以简化人工智能库的设计流程,是非常重要的。
最近AI标志性人物奥特曼和英特尔CEO基辛格做了一场炉边对谈,聊了聊AI发展究竟需要投入多少芯片、多少钱的问题。7万亿美刀?
随着生成式AI的登场与演进,越来越多的组织加速探索其相关业务价值。然而,内部部署基础设施是一个极高的门槛。本文作者的观点是,云技术将促进生成式AI的普及,因为蓬勃发展的云服务已将门槛大幅降低,初创公司和企业都能获得促进创新和推动变革的能力,可以说人人都将从中受益。现在是所有人该行动起来的时候了!
自ChatGPT火爆以来,人工智能的大模型进入高速发展的时期。众所 周知,在服务端/云端的GPT,OpenAI、Google展开了激烈竞争,PC行业的AI大模型在2024年也得到了各大PC制造商的推动。在手机领域,本地化的AI大模型也开始了白热化的竞争。其中,三星、OPPO、vivo、荣耀等都推出了搭载AI大模型的旗舰手机。
笙科电子的新一代的射频芯片A9146M4已经成功通过WiSUN FAN 1.0认证。这一认证不仅标志着我们在无线通信领域的技术实力,更证明了我们对客户提供高质量无线产品的承诺。WiSUN(Wireless Smart Utility Network)是一种专为物联网(IoT)应用而设计的无线通信标准。
在全球行业变革转型的浪潮中,产业升级换代的步伐日益加快。近日,广东省工信厅公布了国家第八批制造业单项冠军企业名单,大普技术凭借其在5G基站高稳时钟领域的创新技术、先进制造和工艺、卓越品质以及市场占有率全球领先,跻身“英雄榜”,从专精特新“小巨人”企业跃升为“国家级制造业单项冠军企业”。
近年来,汽车雷达市场一直需要平衡性能和成本的入门级汽车成像雷达解决方案。全球各地的OEM都可以利用这些解决方案,而在中国等地区,新兴电动汽车(EV)制造商对这类解决方案的需求很大。为此,恩智浦推出了一个专用的芯片组,包括16nm FinFET S32R41汽车成像雷达处理器和TEF82xx RFCMOS收发器,采用双级级联配置。
STM32U0新系列MCU融合前沿设计技术和先进的制造工艺,能效水平取得了巨大的飞跃,包括待机模式下极低的静态功耗和卓越的唤醒性能,使MCU在省电的睡眠模式下工作的时间更长,最大限度地降低平均能耗需求。
为加快数字厦门建设,打造引领厦门经济高质量发展“数字引擎”,日前,厦门市数据管理局发布《厦门市加快数字经济发展行动计划(2024-2025年)》(以下简称《方案》)。《方案》提出,到2025年,全市数
随着物联网的爆炸式增长,设备通过无处不在的有线和无线连接相互连接和通信。这种超连接性允许收集大量数据,然后将这些数据进行收集、分析从而做出明智的决策。从数据中获取见解并根据这些见解做出自主决策的能力是
(1)目前深入浅出通信原理,看到连载42。虽然慢,但是每次看,总是会有点收获。所以,算是暂时形成正反馈了吧,觉得有收获,所以就坚持看,然后坚持看,就又有点收获,挺好!最近,看到了关于如何用IQ调制实现
 智能汽车安全新媒体 AES 20244月11日-12日,由谈思实验室和谈思汽车联合主办的「第五届中国国际汽车以太网峰会」将在上海盛大开幕!本届会议将汇集数百位主机厂商、汽车一二级供应商、传感器、汽车
近日,市场研究公司 Omdia 的高级研究员 Kang Min-soo 在“Omdia 韩国显示器大会”上表示,索尼将为三星电子年底发布的 XR 头显供应 Micro OLED 屏幕,屏幕规格为 1.
Vision Board搭载全球首颗 480 MHz Arm Cortex-M85芯片,拥有Helium和TrustZone技术的加持。SDK包里集成了OpenMV机器视觉例程,配合MicroPyth
点击左上角“锂电联盟会长”,即可关注!2024年3月18日下午,习近平总书记在湖南省长沙市考察巴斯夫杉杉电池材料有限公司,了解当地加快发展新质生产力、扩大高水平对外开放等情况。巴斯夫杉杉电池材料有限公
 智能汽车安全新媒体 (谈思汽车讯)3月19日,易车网公布了最新的2024年3月11日至3月17日(第11周)中国乘用车市场MPV销量排名。数据显示,此前热度极高的理想MEGA目前排名国内MPV市场第
3月,气温慢慢变暖,芯片市场上的询单似乎稍微变多了一些,不过还没有明显复苏。本月MCU的需求似乎有了缓和,8位、32位、甚至16位的MCU的热度都开始升高。此外,受益于AI需求的增长,博通的某些交换机
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质