瀚博在去年的WAIC上发布了SV100系列AI芯片。这是一家将赛道选择在云、数据中心、边缘的AI推理(inference)方向的企业。此前瀚博半导体创始人兼CEO钱军在采访中提到,暂避英伟达在AI训练(training)市场的锋芒,且AI推理的市场价值也已经大于训练市场,所以选择了这样的市场方向。但今年瀚博的新品更新中,除了板卡产品更新外,预告的GPU——而且是能做渲染的GPU……

今年的WAIC(世界人工智能大会)似乎特别反映时代特点,不仅有疫情在持续扰乱生活工作——WAIC大会推迟两个月至今,还做了限流,大会规模因此受到限制;与此同时英伟达/AMD高性能GPU遭遇出口限制的消息又上了头条;更是让国内厂商在WAIC大会上成为真正的主角,包括国产AI芯片企业。

大环境似乎客观上给了国产GPU/AI芯片更大的发展空间。和去年的WAIC比起来,今年AI芯片企业的新品和生态更新还真是能看到国产GPU/AI芯片企业在走向成熟:已经不止于喊理论峰值算力数字和未来愿景了,而把宣传重点更多的放在了效率、生态、合作、落地、算力规模扩展之类的话题上。

其中一个典型代表是瀚博半导体。瀚博在去年的WAIC上发布了SV100系列AI芯片。这是一家将赛道选择在云、数据中心、边缘的AI推理(inference)方向的企业。此前瀚博半导体创始人兼CEO钱军在采访中提到,暂避英伟达在AI训练(training)市场的锋芒,且AI推理的市场价值也已经大于训练市场,所以选择了这样的市场方向。

但今年瀚博的新品更新中,除了板卡产品更新外,预告的GPU——而且是能做渲染的GPU,似乎表明瀚博的野心不止于此。

“算力不是看绝对值”

在AI技术、AI芯片发展到一定阶段后,有越来越多的芯片企业开始强调有效算力、算力效率、算力密度之类的概念——而且是从端侧到云的不同企业都在谈这件事。今年WAIC上,我们听到不止一家企业用PUE(Power Usage Effectiveness,数据中心总能耗/IT设备能耗)来表征能源效率,虽然这是个更偏系统层面的指标。

当我们到具体的业务中去看算力和效率的时候,就不是拼芯片堆料的问题,还涉及到系统级硬件、软件框架、库、工具链、生态这种难度显著更大的组成部分。钱军在WAIC的人工智能大芯片产业落地论坛上提到了“算力密度”。他将算力密度剖成两部分,其一是芯片单位面积内可达成的算力,其二是每瓦性能(Perf/W)。“算力密度”因此也更能衡量一家芯片企业的实力。

从大方向来看,这和国家碳达峰、碳中和战略吻合。工信部的数字显示,近5年内全国算力每年增长大约30%,中国的算力总规模已经位列全球第二。钱军说,新基建、东数西算等各类工程的推进,都是在做算力整合,“这是数字经济高速发展,高算力需求增长必须的”。

博半导体创始人兼CEO 钱军

论坛上中国移动就提到了“算力网络”的概念,中国移动(上海)产业研究院技术部总经理阴启明在主题演讲中说:“国家统计局和信通院的数据显示了算力和经济发展之间的关系。算力仅1%的增长,对经济增长的正向作用就相当显著。”

但与此同时“数据中心能耗,我们国家现在每年都有10%以上的增长。每年的电费,有将近3%是服务于数据中心的。”这是中国移动提出“算力网络”的原因,“算力网络是将不同的算力孤岛做连接”,降低算力成本、提高算力可用性。如将东数西算工程“与双碳经济匹配”。

这是国家战略大方向层面的。实际从企业的角度来看,更低的TCO(总拥有成本)才是追求“算力密度”更实际的东西:以更低的成本获得相同的有效算力;并且散热、电费、运维之类的成本也需要足够低。国家与企业层面两者异曲同工的目标,都要求芯片达成更高的算力效率和“算力密度”,这应当已经是这两年的共识了。

发布数据中心推理卡,和边缘推理卡

基于这样的时代和需求背景,瀚博半导体在论坛上发布了两款推理卡新品:核心部分仍然是基于此前发布的SV100系列推理芯片;这两款产品分别是数据中心推理卡载天VA10,以及面向边缘(edge)的AI推理加速卡载天VE1

去年瀚博发布SV102芯片时,也同时发布了载天VA1加速卡。载天VA10和载天VE1应该是属于不同功耗段和算力场景的产品持续补全。去年瀚博入选EE Times的Silicon 100,钱军在接受采访时就提到瀚博半导体的产品未来是要覆盖各功耗段不同需求的应用场景的。载天VA10和载天VE1的问世也就不足为奇了。

瀚博载天VA1载天VA10

官方公布有关载天VA10的主要配置数据包括:Int8推理性能400 TOPS(16卡服务器总芯片峰值算力6.4 Peta-OPS);“超低延时”;支持160路1080p30 H.264/H.265视频解码,支持8K分辨率;TDP 150W,被动散热;全高3/4长单宽;PCIe Gen 4 x16接口;32GB/64GB内存,支持ECC...

从配置来看,载天VA10适合多种需要高实时性的云端AI应用部署,如直播视频增强、智慧交通管理、实时语义理解等场景。

既然谈“算力密度”,那么要比的就是到具体业务中的性能表现了。瀚博给了3组数字,来对比载天V10和“主流150W推理GPU”、“双槽位165W推理GPU”。3组数据分别对比最高吞吐率,3款板卡都达到最高性能时的延时,以及同样低延时水平下的吞吐率对比。对比项目包括了ResNet-50和YoloV3网络。

这里的“主流150W推理GPU”应该就是安培架构A10——这算是个比较合理的对比对象,虽然A10实则能做的事情也会更多一些,包括不同精度的数据类型支持,还有图形上的光追支持等;而“双槽位165W推理GPU”是指A30?——A30在定位上其实已经开始有FP64的HPC了,还用上了HBM2。

“评价算力,不能只看它的绝对值,不能只看一个400TOPS。”钱军说,“和主流GPU推理卡对比,载天VA10的吞吐率达到了它的2倍以上;而在达到最高性能时,载天VA10的延时、处理每一帧的延时,只有主流GPU的6%,这对实时性有要求的AI应用会有很大的提升”,“对需要交互的应用很重要”。

“在达到1ms的低延时下,我们的性能指标是主流GPU的将近3倍。”从系统层面来看,虽然我们不知道瀚博具体是怎么比的,钱军也并未提到如何将时延做到这样的程度,但时延和吞吐的显著优势的确令载天VA10非常适用于前文提到的直播视频增强、智慧交通管理、实时语音语义理解等场景。

WAIC瀚博的展位上也展示了一些需要实时处理的应用,以体现自家产品的优势,比如AI视频处理中的智能ROI优化编码、色彩增强、超分等。

载天VE1P载天VE1S

而面向边缘的载天VE1分成了主动散热的载天VE1S和载天VE1P。其主要参数包括100TOPS int8算力,40-65W TDP,60路1080p30视频解码支持,8GB/16GB LPDDR4x内存,PCIe Gen4 x8接口。

在“适应边缘复杂环境”这一点上,除了这次我们见到的主动与被动散热的两款板卡,钱军说后期还会推出其他设计。

和“主流边缘GPU”的对比数据具体如上图所示,对比的三组数据与前面的载天VA10的对比基本类似,都是先比最大吞吐率,然后在最大吞吐率下比延时,以及同等低时延水平下的吞吐。

尤其延时数字同样惊艳,并确保高吞吐。这里的“主流边缘GPU”瀚博没有明确,我们推测可能为NVIDIA A2。“基于超高吞吐率和超低延时的优势,载天VE1非常适合用于智慧交通全息路由,工业质检等非常复杂的场景。”

英博超算的自动驾驶扫地车,应用了博的边缘方案

积累中走向成熟

这次瀚博新板卡的发布让我们感觉,国产AI芯片厂商是在快步走向成熟的。一方面是很积极地去提“算力密度”这样的概念——虽然我们并没有看到瀚博真的给出die size和每瓦算力的确切数字,但对比方式比过去更有意义。

另一方面,瀚博在谈芯片产品优势项的时候,现在会更多的会去谈应用场景。而且这次的“人工智能大芯片产业落地论坛”上,瀚博也找来了不少合作伙伴,包括已经应用了瀚博芯片和板卡的,或者正准备步入合作的,去谈AI技术在场景内的应用,包括在互联网、智慧交通、运营商等不同领域的合作伙伴。

比如快手视频高级专家何刚就在演讲中提到快手正在与瀚博积极合作,“我们测了瀚博载天VA1,性能相比通用GPU——从算法开发人员的角度来看,从算法效果和算法加速程度和功耗上,都胜过通用GPU。”高新兴科技集团股份有限公司高级副总裁吴冬升提到在智慧交通领域,正“和瀚博一起探索边缘设备上如何更好地支撑车联网典型应用场景”。

有生态、有合作,AI技术才会真的发展。而且我们也在这次论坛上看到瀚博与上海交通大学人工智能研究院签约,开展校企合作——这就属于产学研合作的常规必要操作了,也是当前AI技术发展的必由之路。

另外拓展生态、给予上层支持的基础是软件栈——其实软件及各种框架、库、中间件的完善程度才是一家AI芯片/GPU企业是否走向成熟的最直观表现。

VastStream软件栈大框架和我们去年看到的差不多,包括level 0底层统一设计、各种算子库、管理监测工具等。各具体组成部分应该是现阶段的瀚博马不停蹄在做更新和完善的。钱军提到“我们逐渐完善VACL推理接口;提供业界标准的FFmpeg VAAPI plugins;提供不同层次的抽象与封装API;提供开发、监测、监控的系统工具。”毕竟这是产品落地的基本构成。

这张图总结了从底层硬件,到驱动、runtime、库和应用的“统一计算架构”,及瀚博的核心技术:包括底层的芯片和系统;统一的存储管理;接口、链接一致性技术;算力资源的池化;以及底层软件会作为未来产品迭代,甚至新形态芯片的基底;模块化的各类库、功能则可适配不用的客户需求。

据说这种“统一计算架构”是让计算密集型应用达到最优的秘诀。“一体化的软硬件共同设计、统一的架构,助力实现实时的图形渲染、AI增强处理、视频编解码等各种应用需求”。

实际在尚未预告GPU的即将到来之际,会上多处提及图形渲染,及这张架构图上Graphics Core、DirectX、OpenGL、Vulkan之类的元素出现,就可见瀚博“密谋”GPU大概也不是一天两天了。

博的GPU要来了

瀚博的展位上有个空置位在演示图形渲染demo,但还没有具体的产品。实际这次预告准备发布GPU的内容,在论坛上所占篇幅并不大,但却成了大家关注的焦点。不仅是因为“国产GPU”这个词现在本身很热,还在于这颗即将发布的7nm工艺GPU是要做图形渲染的,而且也延续做AI和视频。国内应该还没有这样的GPU。

瀚博形容这颗面向数据中心的SG100 GPU拥有“业界领先的渲染性能”。钱军在接受采访时说:“其实在创业初期,GPU渲染能力本来就是在我们计划中的。我们的第一颗芯片里面,就有一个小型的GPU在里面,因为视频要做画框、文字就需要用到GPU——只不过不需要高性能。”

而已经做出来的AI推理芯片是瀚博进入市场和落地的“切入点”。“我们选择的第一个突破口是AI+视频,AI更多的是在推理。”在这个市场逐步站稳脚跟之后,迈向原本的目标也就很好理解了。而具备图形渲染能力的GPU,是瀚博发展中的一环。这一点和钱军,以及瀚博半导体创始人兼CTO张磊都有AMD相关背景和积累大概有很大关系。

“致力于为像素世界提供浩瀚算力”是瀚博的SLOGAN。“如果有了视频,增强、分析,那是计算机处理的一个方向;另一个方向是pixel还没有产生,那就需要去创造出来。”钱军说的有句话大概能高度概括同时做渲染作为瀚博发展路上一部分的原因:“像素世界如果只能看,而不能产生,那不是完整的拼图。”所谓的“产生”就要靠GPU图形渲染。

具体到技术和生态难度上,“我觉得在渲染这一侧,GPU生态还好。图形渲染有各种各样的API,DX、OpenGL、Vulkan…这些API有完整定义。这种情况下,整个user mode driver、API层最基本的东西是比较完整定义好的,关键是怎么尽快把东西做出来,这还是挺复杂的。后面还要做各种适配。”“这是要去做的生态。瀚博也一直在这方面投入。我们每天都在进步,而且做的还不错。”针对GPU的前期发展,“我们会像前期做AI一样,先选择一些行业、领域去做。”

另外就这颗一切尚未知的GPU,钱军虽然并未提及SG100会采用怎样的架构和芯片,但他强调了弹性扩展保持性能线性度的重要性。“在可扩展性上一定要做好。而且GPU涉及到很多的数据,那么cache coherency、数据搬运、存储访问之类的问题都要做好,这是完整的、系统性的设计。上云之后还要做虚拟化,要跟上层结合,很多东西都要做。”

不止于GPU,要打造综合算力平台

最后值得一提的是,“元宇宙”实则也作为瀚博主导的这个论坛,乃至整个WAIC的一大议题在做探讨。我们听得比较新颖的思路是,有好几名从业者都谈到,“元宇宙”并不是被某个人在某个场合突然提出来,然后大家都跑去付诸实现的;而是在诸多技术发展到如今——包括区块链、5G通讯、4K/8K视觉、图形计算、AI、IoT等发展到高级阶段时,必然共同促成的新的发展方向。

AI、视频、渲染实则都是这其中的重要组成部分。张磊说元宇宙里,“AI和渲染一样重要”。钱军说:“如果你相信元宇宙以后真的会做起来,大家对于渲染的需求会呈现爆炸式增长。” 这么来想瀚博推数据中心做渲染的GPU的逻辑,是否就更为顺理成章了呢?且基于瀚博统一计算架构可让“更多的加速核融入到SoC框架里面。”钱军说,“如果我们以后把其他硬件加速核加入到产品中来,也不要吃惊。”

“未来的像素世界需要强大的算力,但如果像素世界只能看而不能产生,那不是我们的完整拼图,我们的目标就是把算力相关技术完美结合在一起。”钱军表示,“我们会基于瀚博统一计算架构,不断研发创新算力引擎,让算力更加高效。我们会在这个领域不断创新,支撑更大的算力平台,不断打造完善核心技术,致力于做全球领先的综合算力平台,用世界级的芯片支撑的强大算力。我们还携手合作伙伴,加速在各地、各场景的产业化落地的步伐,赋能更多企业和政府机构实现智能化升级”。

责编:Luffy
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
联发科刚刚发布了天玑8200芯片——这是天玑8000系列家族的新品更新。其实上一代天玑8100的发布也就是今年3月份的事。相隔8月后,联发科就更新了该系列新品。
在IEDM 2022上,Intel发了多篇研究paper,内容包括2D材料、3D封装技术、断电不会丢失状态的晶体管、嵌入式存储等。我们选择其中一部分来谈一谈,这些技术都有望在近未来,在芯片上发光发热;而对这些技术的了解也有利于我们把握半导体制造技术的未来。
炬芯科技在音频领域深耕多年,承继与发扬近20多年的研发沉淀和经验,特别是在蓝牙音频领域,有着行业领先地位。很重要一点原因,就是炬芯科技在音频领域的不断投入,为追求极致的高品质声音体验,全面提升公司在声学领域的专业水平,炬芯科技建立的声学实验室.....
5G与AI的融合与协同,是未来技术发展的重要趋势,也是助力移动通信实现革命性突破的关键。通过搭载第5代5G调制解调器到天线的解决方案骁龙X70,和支持高频多连接并发的Wi-Fi 7解决方案FastConnect 7800,第二代骁龙8移动平台向全球用户提供了全频段、最高速率、低时延、稳定的移动连接体验。
对于一些追求高性能、高性价比的手机厂商来说,T820确实是一个不错的选择,也足够中低端手机使用。从另一个层面来看,从芯片设计角度来说,在华为海思受限之后,紫光展锐还是有力地替补上来。但整体来看,中国手机芯片未来发展之路任重道远,还需在5G手机芯片领域持续取得进步。
尽管技术不断进步,但一直以来,耳机/耳塞都是以源设备的配件而存在。但如今,将以独立源设备呈现的新一代耳机即将面世。来自本文作者的观点是,被定义为“耳戴式计算”的、具有专属操作系统的新一代“耳机3.0”,借助于边缘人工智能和广泛的生态系统,将支持用户自定义各种丰富的实用功能。
德州仪器首席执行官Rich Templeton当选SIA副主席
由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
- 该扩建项目将助力 Soitec 巴西立(Pasir Ris)工厂实现年产能翻番,300mm SOI(绝缘体上硅)晶圆产能将达到约 200 万片/年。
- 新加坡工厂产能提升是 Soitec 战略增长计划的一部分,可满足全球日益增长的晶圆需求,也是提升法国总部产能的补充举措。
- 该项目扩建面积为 45,000 平方米,并将助力 Soitec 到 2026 年实现新加坡员工总数翻倍,达到逾 600 名员工。
本文介绍了目前比较成熟的已经得到广泛应用的三种信道建模方法并分析了各自的优缺点。坤恒顺维公司可以提供上述三种完整的信道建模软件。优异的信道模型对于准确预测无线电波的传播特性,支持无线通信系统的架构设计极其重要,好的信道建模方法对于用户方便高效的测试验证通信系统的性能更是不言而喻。因此在具体实际应用种,应综合考虑具体环境、条件以及要求有针对性的选择最符合实际测试的方法以提高测试效率。
今天有空,在GitHub翻了各种库,挑出下面有意思的库~Open.HD 使用现成的商业 (COTS) WiFi 适配器,但它不会在标准 WiFi 模式下运行它们,这不适合低延迟或超长距离视频传输。相反
尊敬的行业同仁:亚化咨询最新推出《中国SiC月报2022》,主要包含:三代半导体行业评论(月度更新)三代半导体行业政策、市场动向(月度更新)行业重大动向(月度更新)SiC项目建设动态(月度更新)SiC
贾浩楠 发自 副驾寺智能车参考 | 公众号 AI4Auto极氪汽车,被曝上市重大进展。根据路透社的消息,极氪汽车已经向美国SEC递交了IPO申请,寻求在美上市。而且是“秘密递交申请”,拟募资10亿美元
关注美光获取动态城市喧哗的马路上,新能源汽车正已肉眼可见的速度在街头巷尾快速增长。这些新型智能汽车背后,离不开 eMMC 等汽车级内存和存储半导体的默默付出。目前,eMMC 已经广泛应用于汽车娱乐系统
你没看错,张飞实战电子"内部培训视频打包72集",现在限时限量超低价出售。        只要满足以下2个简单的条件,即可0.1元购买       1、对硬件电路设计/开关电源课程有强烈需求     
来源:《中国半导体大硅片年度报告2022》亚化咨询数据显示,2021年全球半导体硅片市场快速增长,整体销售额达157.44亿元,过滤掉交叉部分仅计算销售到IDM/Fab部分的话(过滤部分为销售给纯外延
化学机械抛光(CMP)是实现晶圆全局平坦化的关键工艺。CMP工艺贯穿硅片制造、集成电路制造与封装测试环节。抛光液和抛光垫是CMP工艺的核心耗材,占据CMP材料市场80%以上。 鼎龙股份、华海清科为代表
 深圳市城市规划设计研究院有限公司 PART.1企业介绍深圳市城市规划设计研究院(简称“深规院”),起步于1990年高速发展的深圳,作为具有雄厚技术实力的城市规划咨询研究设计机构,在长期全方位参与深圳
如何看待中国自主汽车品牌冲击中高端市场?背景:11月,比亚迪官宣,旗下高端汽车品牌定名为“仰望”。11月16日,在比亚迪第300万辆新能源汽车下线仪式上,比亚迪集团董事长王传福在表示,明年将推出一款专
众所周知,随着企业转向比集中式云数据中心更低的延迟、更安全和私密的处理,网络边缘计算持续快速增长。市场上正部署数十亿的网络边缘计算设备,而且随着时间的推移,它们会变得越来越先进。机器学习和深度神经网络