广告

摩尔定律失效,FPGA迎来黄金时代?

时间:2019-09-19 作者:黄烨锋 阅读:
应对摩尔定律挑战的一个典型方案是异构集成和3D-IC。这也是现在比较流行的所谓more than Moore ( 超越摩尔定律),在封装层面的革新,是许多人认定延伸摩尔定律的一种可行方案。
广告

奉行摩尔定律的历史,本质上已经不复存在了。现在业界很流行的讲法是Jim Keller提的“domain-specific (领域专用)”,即虽然晶体管数量很难按照定律攀升,但具体应用场景,对性能的渴求依然不变。为了保持芯片的性能提升,唯有针对特定场景或“特定领域”制造芯片,甚至发展成专用芯片,性能和能效比自然又能完成新一轮的飞跃。

比如谷歌在发展人工智能的过程中,脱离GPU自己开发了AI专用芯片TPU——这是个ASIC。“谷歌开始做了,Facbook,亚马逊,百度、阿里巴巴就都有可能跟进。你会发现,这些做数据中心的大型企业都会想办法做自己的芯片。这些芯片本身不一定赚钱,因为它量有限,又不对外出售,但芯片会驱动这些数据中心企业自身业务的优化,在系统层面产生经济效益。”在上海举行的CISES(中国国际半导体高层峰会)上,赛灵思中央工程部芯片技术副总裁吴欣先生和我们聊道。

赛灵思中央工程部芯片技术副总裁 吴欣

我们在《深度学习的兴起,是通用计算的挽歌?》一文中曾经探讨过这个问题。除了台积电、Intel这类从事制造工艺一线生产的企业,通用计算在摩尔定律上的难以为继几乎是行业共识,不过针对“domain-specific”真正的发展方向,不同层级的半导体行业参与者,在看法上却可能有着很大差别。

甚至仅是针对某一个门类的应用场景,比如AI芯片,市场参与者的态度都差别甚大。在今年的WAIC世界人工智能大会上,有学者提到AI芯片就分成两个派系,其一是谷歌TPU、地平线征途、Intel Nervana,赛灵思DPU IP为代表的专为卷积神经网络(CNN)提供加速的芯片,其二是Graphcore、Wave Computing、华为为代表,所推出的具有弱编程特性的AI芯片。这种某个特定领域相对通用,以及绝对专用的思路,都在摩尔定律发展停滞的时代,显得格外有趣。

更有趣的是,天生具有可重配置灵活应变能力的FPGA,在这样一个时代交替的过程里,异军突起,两大领头企业一个被Intel战略收购,一个股票与收入连连创纪录, 应用领域全面扩展,似乎迎来了其发展历程中的新黄金时代。

那么, FPGA 究竟将在这个时代扮演何种角色?这是我们和吴欣,这个在FPGA的发明者赛灵思公司就职26年,经历过从0.6um 到 7纳米共14 代以上芯片技术开发工作的业界资深人士所探讨的话题。

最适用的才是最好的

应对摩尔定律挑战的一个典型方案是异构集成和3D-IC。这也是现在比较流行的所谓more than Moore ( 超越摩尔定律),在封装层面的革新,是许多人认定延伸摩尔定律的一种可行方案。“赛灵思的异构集成已经做了很多年了。这张图我们也用了好几年了。”

下面这张图就是典型的一些芯片堆叠方案。这些方案的核心思路,是一块芯片上包含不同die模块,每个die可以用不同的工艺来制造,这些die再通过各类封装技术集成到同一颗成品芯片内。不同芯片互联时,会有个中介层(interposer),位于封装基板(package substrate)以及die之间。Die与die的通讯通过interposer内的互联进行。所谓的“2.5D”封装也属于此类,典型如台积电的CoWoS、Intel的EMIB(EMIB有时也被认为是单独的一个类别,因为它是在substrate中加入了一层silicon bridge)。
20190919-201.png
图片来源:赛灵思

在所谓的3D封装(active interposer)中,interposer内部除了电路之外,也可以存在其他器件,典型的比如Intel的Foveros技术。3D-IC有时又指die堆叠,通过TSV一类技术在多层间实现互联,典型如索尼应用于图像传感器和ISP堆叠互联的Cu-Cu dielectric hybrid bonding,相比micro bump的密度增加将近百倍——我们在之前的文章中也提过。这类方案能够实现芯片制造和设计的效率最大化,这某种程度上是降低成本的一种方案;高速互联的3D封装,还能提升传输性能。这是它被称作摩尔定律延续的原因。

上面这张图的纵轴是连接密度,即单位面积内有多少个连接;横轴是布线密度。不同的异构封装方案,集成度是有差异的,这张图上,“越往右上角,功能就越强。左下角功能会弱一些,但成本低。”
20190919-202.jpg
上图红色部分,是当赛灵思的FPGA按照横轴工艺节点发展,原有的照摩尔定律可实现最大逻辑单元数量;而橙色部分,则是采用异构集成之后的数量

那么是否3D封装一定更好,或者上面这张图右上角就比左下角更好呢?用吴欣的话来说:“异构集成没有好与不好之分,只有适用和不适用。”“你的产品最适合哪个,就去选哪个。”

“我们2011做的第一颗异构集成芯片是V2000T。当时,如果我们不用异构集成的话,要做这么大的芯片,很大。”吴欣用手稍稍比划了一下,“这么大的芯片,一片12寸的晶圆(wafer)在比较早期这样的芯片的良率只是两个。因为良率与面积的关系不呈线性而是呈指数关系。如果这颗芯片切分成四块,每片wafer就能有100个good dies,每四个组成一颗芯片,就有25颗芯片,考虑到额外的一些损失:哪怕损失一半,那也有12个半。相比不做异构集成,有6倍的益处。对客户来说,也就不需要花6倍的价钱去买。”

但从经济方面考虑,这种收益也并不是绝对的。“再举个例子,2014年我们知道5G是个方向,针对5G我们当时第一次把数模转换和可编程模块放在一起。我们做了一个65nm的ADC/DAC (数模转换),加上我们自己的可编程模块是28nm,两个异构集成在一起。客户说产品的确不错,但无法满足价格考量。所以一直到3年以后,工艺进步至16nm,我们最后还是把它集成在了一个单独的芯片上,monolithic (单芯片),造价也终于可接受了。”吴欣所说的这个例子,应该是指现如今赛灵思正火的融数字与模拟为一体的RFSoC 产品系列。

“所以没有好和不好之分,只有最适合你的。”

Domain-specific的艺术

“在做这种异构集成的时候,不像过去那样——不是先想好要做异构集成,然后再去做;而是,要从架构的角度出发,我要做一个什么样的架构。这个架构要做单片也好、两个或三个die也好,架构上它们要能够可扩展。再进一步软件做什么,硬件做什么制程做什么。而不是为了做异构集成而去做异构集成。”

这两年提“架构创新”的行业参与者实际上很多,因为摩尔定律迟滞,所以才更需要架构革新。我们今年就听过各层级参与者在架构方面的革新理念,比如Cadence、Mentor这些EDA层级的参与者,除了宣传自家机器学习IP以外,就是在EDA工具流程中融入机器学习。

不过更重要的是,“系统设计(system design)”成为一个新的争夺高地。Cadence在今年的CDNLive China 2019大会上曾经提到,更偏向整个系统设计的下游企业,很多都更喜欢自己造芯片,比如iPhone的A系列SoC,以实现更佳系统性能和能耗比,与此同时还兼顾安全性。谷歌TPU亦属此类。这其实也是芯片越来越从通用偏向“domain-specific”的一种表现方式。

或许不同层级的参与者对“系统(system)”的范围界定有差异,但个中思路却是一致的。吴欣告诉我们:“以前system architecture都由system厂商去做,比如思科、谷歌就做自己的system architecture,这里面Intel只提供芯片,中间软件则由微软提供。但这种相对通用的方式,效率没那么高:这个时候通用芯片提供商不会在意客户怎么用芯片,,微软会告诉客户要怎么算,就把它算出来就好。”

“但现在你会发现,数据中心最大的成本是什么?是能源(功耗)。他们花了那么多钱去运营数据中心,然后又要花那么多钱去提供能源和冷却系统。通用芯片的效率就没有那么高,或者并不是那么好用。为了优化,谷歌于是就做了自己的TPU。”这实则也是吴欣所说,从架构的角度出发,围绕应用场景做芯片的一个具体例证。

从这个角度来看,或许现如今芯片制造商的一个很大竞争对手,已经是自己下游客户了——他们越发考虑自己做针对特定应用场景,domain-specific,同时能够和整个系统扣合更紧密的芯片。像赛灵思这样的上游玩家,为客户提供系统设计的支持实际上才显得更加迫切。

20190919-203.png

在去年的Hot Chips大会上,我们就看到赛灵思题为Adaptable Intelligence: the Next Computing Era(灵活应变的智能:下一个计算时代)的主题演讲,其中提到赛灵思做出的系统级架构支持,如上图所示。吴欣特别为我们解释说:“我们原本是做最下面这层芯片。而现在为了最上层客户不同的客户需求不同,比如汽车、5G或者医疗的客户,我们及业界就把中间层级都准备好,这样每个客户就可以把自己的需求、算法很容易地融入进来。”

“大家都希望用相对domain-specific的架构,不同的客户需要不同的东西。赛灵思就提供这样一个平台,需要5G就放5G的平台,即便是5G本身,不同的参与者,比如中兴、诺基亚、爱立信,每家都有自己的算法。并非一颗芯片给所有人就都好用,但有些东西又是可以共用的,我们提供这样一个开放的平台。”

“不同的人有特别的需求,比如车载,Nissan和Mercedes想做的应用可能就不一样。应用场景不同、算法不同,我们是要让每个人都能适用。”所以,赛灵思对于domain-specific的理解,实际上更偏向于在保有FPGA灵活基础上的“专用”,针对客户仍然提供多样化的选择。

自己造芯片是趋势吗?

实际上,这里赛灵思为客户提供相对灵活的domain-specific选择,与下游客户自己选择做domain-specific的ASIC芯片,是两套方案。在吴欣看来,像谷歌这样有足够业务规模,自己做芯片设计能够促成应用层面足够经济效益的,毕竟还是少数。“而且谷歌的AI技术,也不是只需要一个TPU,它也需要我们的芯片,也需要x86。”所以并不是都会由自己去做。

半导体行业协会(SIA)2017年估算,针对新一代技术节点建工厂,配套制造设备,大约需要70亿美元。在过去25年间,构建最新制程节点工厂的投入每年平均提升11%,如果加上工艺开发,则可将成本每年推升13%(2001-2014)。实际上,现如今参与最先进制程工艺制造的市场参与者已经只剩三家了。按照历年数据,理想情况下如果这几名参与者的市场份额均分,则企业复合年增长率约14%。这样一来,和13%的成本提升两相抵消,才产生了盈余。未来5nm、3nm的成本攀升还要持续。

“从 28/20nm开始,制造成本就开始上升得比较多。主要原因是多次曝光(multi-patterning)。以前还是用193nm的光刻技术。到了20nm,只能通过多次曝光去曝出这些比193nm自身小了很多的线条。这样一来光刻的成本就增加了。简单来说,本来是一次曝光,现在两次:原来一个机台一天可以做2000片wafer,若两次曝光就只能做1000片了。一片wafer从头到尾大概需要几十步的光刻步骤,如果里面有一半需要两次曝光,成本就增加了25%。”吴欣说。

除了人尽皆知的在3nm节点时期,FinFET转向GAA,在结构上带来的成本推升,“就光刻技术来说,整个业界花了二三十年的时间把EUV(极紫外光)做出来,今后几代光刻都会使用EUV。在3nm以后,大概EUV本身就需要multi-patterning,或者加上High-NA(高数值孔径)。EUV光刻机,一台机台就需要2亿美金。台积电、Intel的新工艺生产线都需要十几台这样的设备。这些都是制造成本攀升的组成部分。”
20190919-204.jpg
来源:BEOL Interconnect Innovations for Improving Performance, Paul Besser, NCCAVS

“后端(BEOL)的金属工艺,还需要有更新的技术来支持,金属电阻挑战性加强。”上面这张图来自2017年Paul Besser在NCCAVS的讲义,主要说的是铜线线宽与电阻(Rs)之间的关系。在其中的相应很窄线宽区域内,产生了较高的电阻。“这一层我们叫MD/VD,这一层的电阻大概会吃掉3%的性能。下一代缩一半,影响就扩大到6%,再下一代则增加到12%。所以技术进步的好处都会被它吃掉,我们就需要有新的技术工艺,或者新的架构来解决问题。”

上面这些说的还只是制造成本,在设计成本上。“以前工艺迭代,我们设计芯片,只需要了解65nm比90nm小多少,我们直接把90nm上的设计,拿到65nm工艺上,重新设计一下马上就能做,整个过程半年、一年就完成了。但现在,7nm和16nm有很多不一样的地方,不能把16nm的设计直接放到7nm里面去用,从架构到设计,到后面每部分工作都不一样——唯有重新优化才能做到最好的优化。”

“我们16nm最大的FPGA芯片VU19P,有350亿个晶体管。
20190919-205.jpg
”设计越来越复杂,设计周期变长,需要的人员变多。做设计,过去可能只需要1年,现在就需要2年;参与芯片设计的人员过去可能是1000人,现在变成2000人(或4000人/年),成本提升到4倍。这对芯片设计而言就成了很大的负担。必须要有足够多的钱和人才,才能把芯片做出来。”

“现在和过去相比,每一代增加至少30-50%的设计成本。要自己做芯片,要准备好4000人/年,做出来之后4000人还要再做下一代。有多少业务能够承受这样的设计成本?”“有多少企业能够自己做芯片?即便谷歌,TPU部门也并不是很大,远不到自己设计、维持、运营的程度,其它的芯片供应商在这方面在为谷歌提供服务,这也是因为谷歌有钱,并不是人人都能做。”“甚至不光是设计团队的问题,现在做一套7nm mask就将近上千万美元一套。”

“以前一年超过几十万颗的量,你就可以自己做ASIC,但现在不是,没有几百几千万,没有那么大的芯片需求量,最终是不划算的。采用FPGA,或自己做芯片,这个成本收益的对接点正越来越靠后。”

5G、自动驾驶,没有想象中发展那么快

新工艺成本激增的速度,在行业平均的复合年增长率几近持平的情况下,那些市场规模足够大的参与者才有机会持续获利。”能够承受4000人/年设计成本的行业其实不多:手机是一个,因为更换频繁;电脑CPU也是,毕竟电脑也是要更新的;存储器是一个,它很特殊,数据中心等领域都需要存储,而且不嫌多;另外,游戏需求加上AI机器学习、深度学习的需要,所以GPU也是可持续的业务。”

FPGA在这个过程中,实际上是比较特殊的存在。“我们的客户各行各业的都有,每个客户拿FPGA去做不同的东西,成本会被大家分担掉,而且每个客户也就不需要花很多钱。总的市场让我们也能够走下去。”

如今出现了一些新的推动力,比如5G、自动驾驶、AI,它们都被认为是半导体行业的重要驱动力和新的机遇。不过这些行业是否如很多人所想的那样会那么快。

“其实每一代移动通讯技术基本都做了10年,而5G恐怕连10年都不止。现在大家都在做sub-6GHz的部分,而且现在主要是NSA(non-standalone),借用4G的架构和基础设施。将来4G基础设施都换成5G,才能达到5G预期的延迟(laterncy),之后才会考虑毫米波部分的发展。”

“5G最大的挑战是大量的投资资金,钱需要从更新的应用中来;所以要解决钱的问题,最终还是要靠时间。5G大概需要很长时间才会慢慢成熟起来。”

“AI、自动驾驶也是很热门的话题,但汽车的可靠性、质量要求远高于其他领域。PPM每高出一点,就是关乎许多人生命安全的问题。而且自动驾驶的成本,未来还要求做到比传统技术更低,一般人才会愿意去购买自动驾驶汽车。但要求高可靠性,成本就会很高。这之间形成矛盾,整个转换过程会很漫长。”
“应用场景也好,架构也好,其实一直都在变。”

“赛灵思是希望,当你没有4000人/年的设计成本,没有上千万、上亿的市场时,你也可以做自己需要的domain-specific的芯片,我们可以让你做到。你可能只需要400人,甚至40人就可以做出来。”“而当每次场景、架构发生变化的时候,你也不需要再用4000人/年去重新做一颗芯片,而只需要花20分钟,重新编程,重新修改。”

“等到自动驾驶汽车、5G这些市场真正成熟以后,市场规模足够大了,10-20年以后,部分行业参与者那个时候要开始做自己的专用芯片,那是可以的。不过即便到那时,即便达到Nissan、Mercedes的市场容量,做专用芯片是否划算,是否可持续成长,都将一直是挑战。”
20190919-206.jpg
ACAP新一代计算平台,是赛灵思对上述理念的践行,是期望以AI和部分模块的固定化实现更高的效率,同时又有FPGA的灵活性。“FPGA比较方便,编程比较快,但以前效率没那么高。编程本身需要很多资源。数据在里面走的时候远没有ASIC来的快,或者也没有GPU快。我们也考虑这个问题,所以我们在里面放了很多硬化模块。数据要走这些模块时,我们就已经准备好了,所以不会比用ASIC来得慢。

显然在赛灵思的眼中,摩尔定律的放缓甚至失效,以及3D-IC异构集成为摩尔定律的“续命”,都是FPGA发展的重要机遇。基于两个原因:一是domain-specific成为推动特定行业、领域发展的关键词;二是半导体从设计到制造成本越来越高,一般的行业和企业都难以承受。以及在5G、自动驾驶等新兴行业尚需发展时间的情况下,这些都让FPGA成了优选。

责编:Yvonne Geng

  • 赛灵思不卖中国,怎么个好法?!
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • 从SmartNIC到DPU,拥挤的赛道上站满了高手 普通网络接口卡(NIC)是基于专用集成电路(ASIC)设计的以太网控制器,定位于高效迁移服务器的网络数据包,通常包括不同程度的为优化性能而设计的传统卸载。而SmartNIC与它的根本区别在于……
  • 一种基于FPGA的图神经网络加速器解决方案 在宏观层面上,GNN的架构与传统CNN有很多相似之处,诸如卷积层、池化、激活函数、机器学习处理器(MLP)、全连接层(FC layer)等模块,这些都可以应用到GNN。下图展示了一个相对简单的GNN架构……
  • 数据引力时代,你可能对自适应计算的力量一无所知 赛灵思之所以将今年的技术日(Xilinx Technology Day, XTD)主题选定为“‘适’逢芯动,聚创未来”,就是希望在当前复杂多变的环境下,通过自适应计算平台汇集数据、汇聚生态,实现加速创新的美好愿景。
  • 复旦微电今日登陆科创板,股价暴涨770% 复旦微电是一家从事超大规模集成电路的设计、开发、测试,并为客户提供系统解决方案的专业公司。公司目前已建立健全安全与识别芯片、非挥发存储器、智能电表芯片、FPGA芯片和集成电路测试服务等产品线,产品广泛应用于金融、社保、城市公共交通、电子证照、移动支付、防伪溯源、智能手机、安防监控、工业控制、信号处理、智能计算等众多领域。
  • 详述一种更为有效的AC-AC自动电压调节器 (AVR)开发方 自动电压调节器 (AVR) 通常也称为稳压器,它通过补偿输入电压的波动来调节供电电压电平,在许多工业和住宅应用中都很常见。本文我们将阐述开发人员如何使用GreenPAK SLG46537V IC 等可编程ASIC来开发AVR,并且将详细描述整个系统设计和GreenPAK设计。
  • 紫光展锐、紫光国微等发布公告,就母公司财务状况披露自 7月9日,紫光集团发布公告宣称收到北京市第一中级人民法院送达的关于债权人向法院申请紫光集团破产重整的通知书。针对于破产重整的消息对外界披露。紫光集团旗下紫光展锐、紫光国微等企业已发布了关于自身经营情况的披露……
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • ​快人一步,一触即发|芯海科技信号 视频来源:iQOO手机官方微博8月17日晚,iQOO8系列未来电竞旗舰重磅发布,通过屏下双控压感实现更多样的操控体验,双指变四指手速度倍增,在保持机身简洁的同时助你成为自带BUFF的竞技
  • 泰艺电子推出小型化恒温控制晶体振 泰艺电子,频率控制解决方案的领先供货商,推出全新 NN 系列恒温控制晶体振荡器(OCXO),能够满足严格的频率稳定度要求,同时具备优越的相位噪声性能。
  • 半导体净利润暴增234.52%!市场传言不攻自破,闻泰科技ODM业务并未亏损
  • 半导体招聘!高薪职位!  中国半导体论坛 振兴国产半导体产业!    1.宁波比亚迪半导体有限公司工艺工程师设备工程师技术开发工程师2.北方华创微电子装备有限公司工艺工程师射频工程师清洗机工艺工
  • 友恩开关电源芯片U65113E为你打开新天地 手机品牌几分天下的大局似乎已尘埃落定,TCL却借助旗下子品牌雷鸟在发布会上推出了雷鸟旗下的首款智能手机--雷鸟FF1手机。不得不说,平静的湖面下,永远有波涛在流动。竞争从未停止过。譬如这颗5W的开关电
  • 探讨电路仿真的未来 今年早些时候,IEEE 微波理论和技术学会 (MTT-S) 授予 Qorvo 研究员 Michael Roberg 博士 2021 年度杰出青年工程师奖。该奖项旨在表彰
  • 最强国产自研CPU公司表态:没人可以“卡我们的脖子” 在国内多家研发处理器的公司中,龙芯中科选择的路线有所不同,现在已经全面转向自己的指令集。龙芯高管表示这条路很难走,但好处也是最大的,那就是没人可以“卡我们的脖子。8月26日,在成都举行的2021成都新
  • 教育照明25强专访丨兴特能源:已为近5万间教室提供教育照明解决方案 点击上方蓝字 关注我们日前,在由深圳市照明与显示工程行业协会举办的第八届中国LED首创大会上,深圳市兴特能源科技有限公司荣获“2020年中国LED行业教育照明25强企业”称号。近日,每日LED记者就教
  • 半导体精品公众号推荐!  中国半导体论坛 振兴国产半导体产业! 信息爆炸的时代更需要断舍离如何更加高效的获取高质量的信息在碎片化的时代里收获满满?2021年,半导体人只需关注5个公众号半导体技术天地ID:
  • 谁在操控中国电信股价? 8月26日,中国电信A股收盘时股价下跌了2.5%,这是回归A股以来第五个交易日,股价两次一字跌停,市值从5500多亿跌到现在的4300多亿,损失至少1200亿市值。现在中国电信股价4.71元,盘中一度
  • 均衡的秘密之CTLE 黄刚 | 文CTLE是什么?上篇文章也提到了,直白的翻译为连续时间线性均衡。它是在接收端芯片上的一种技术。之前也提到了,它的作用可以在传输损耗较大的链路,有效的改善接收端眼图的性能。对于有过高速串行信
  • 台积电涨价,iPhone13将提价!  中国半导体论坛 振兴国产半导体产业!    8月27日消息,据报道,苹果计划提高iPhone 13系列的价格,以弥补其主要芯片代工厂台积电涨价所带来的成本上升,从而“减
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了