真自主!龙芯3A6000深入揭秘:最强大的不是跑分而是它们

原创 硬件世界 2023-11-29 23:25

2023年11月28日,北京国家会议中心,主题为“到中流击水”的龙芯产品发布暨用户大会盛大上演。

在4000多位合作伙伴、权威媒体、专家学者、主管部门领导的见证下,新一代通用处理器龙芯3A6000、打印机主控芯片龙芯2P0500重磅发布,众多围绕龙芯3A6000的整机产品登场亮相,龙芯处理器核IP、龙芯自主指令系统架构授权计划公布。

多年后如果回望半导体国产化之路,这无疑是一个关键的时刻。


极具革命色彩的开幕式


“龙芯之母”黄令仪院士今年4月离开了我们,大屏幕上打出的她的豪言壮语令人动容

一、龙芯3A6000:硬件性能飞跃、终于基本完成

龙芯中科董事长胡伟武发表主题演讲《将自主进行到底》,而大会主题“到中流击水”,代表龙芯走到了一个关键的时刻,正在经历第二次转型,从政策性市场为主转向开放性市场为主。

龙芯3A6000处理器由龙芯中科基于自主的LoongArch龙架构指令集,完全自主设计,有着优异的性能表现,堪称我国自主桌面处理器设计的又一个里程碑。

龙芯3A6000龙芯第四代微架构LA64的首款产品,采用自主成熟工艺制造,4个物理核心,支持同时多线程技术(SMT2),因此有8个逻辑核心,主频为2.5GHz。

内存还是双通道DDR4-3200,而在安全方面集成可信模块,支持安全启动方案和SM2、SM3、SM4国密算法。

龙芯微架构已经演进了四代,第一代GS464曾用于龙芯3A1000、龙芯3B1500,第二代GS464E曾用于龙芯3A2000、龙芯3A3000,第三代GS464V/LA464曾用于龙芯3A4000、龙芯3A5000。

可以看到,每代微架构都对应两代产品,整体采用架构、工艺交替升级的策略,十分类似Intel当年的Tick-Tock策略。

第四代微架构LA664全面提升了各项指标,尤其是首次将4发射提升到6发射,同时在ROB、定点/向量物理寄存器、发射队列、功能部件、载入/存储队列等各项指标上,都实现了50%到100%的提升,幅度相当之大。

这一代架构上,龙芯终于突破了同时多线程技术,追上了Intel、AMD,而且从官方数据还是实测看效率也是相当高的。

性能方面大家见过不少数据了。根据中国电子技术标准化研究院赛西实验室的测试结果,龙芯3A6000 SPEC CPU 2006、SPEC CPU 2017、Stream、Unixbench各项测试的成绩都非常突出,无论单核性能还是多核性能,无论整数性能还是浮点性能,都实现了大幅度的跨越,甚至远远超过Intel、AMD几代产品的提升。

综合相关测试结果,龙芯3A6000处理器总体性能与Intel 2020年上市的第10代酷睿i3-10100四核处理器基本相当。

要知道,现在很多用户还是八九代酷睿的配置。

胡伟武强调,经过多年的“补课”,龙芯3A6000终于基本完成了这一任务,与当今主流处理器的差距已经基本全部补齐。

要知道,2002年的龙芯一号,和当时主流的奔腾4差距有20多倍。

2021年的龙芯3A5000已经将这一差距缩小到不到1倍,相当于第三代酷睿i3四核心,而仅仅两年后,我们就几乎完全追了上来!

龙芯3A6000还只是全新微架构的第一站,未来一两年我们还将看到面向服务器的龙芯3C6000、龙芯3D6000、龙芯3E6000,分别支持16核心32线程、32核心64线程、64核心128线程,大大缩小和世界领先产品的差距,无论单核性能还是多核性能。

针对移动终端,下一步将是龙芯2K3000,微架构有所不同采用LA364,当然也是自主的LoongArch龙架构指令集,最多8核心8线程。

龙芯3C6000目前已经完成设计,单芯片放入16个核心,内存支持四通道DDR4-3200,扩展连接支持64条PCIe 4.0,实现成倍乃至数量级的提升。

虽然和世界最先进的十二通道DDR5、128条PCIe 5.0还有一代的差距,但也并非不可逾越的鸿沟。

再通过龙链技术(Loongson Coherent Link),将两颗、四颗龙芯3C6000整合在一起,就可以得到龙芯3D6000、龙芯3E6000。

这是一项支撑Chiplet晶粒设计的关键技术,可以对标Intel CXL、NVIDIA NVLink、AMD Infinity Fabric等先进互连技术,相比于传统PCIe总线可以大大提高效率、降低延迟。

同时,龙链技术支持高速缓存一致性协议传输,可以保证CPU与GPU、CPU与GPGPU、GPGPU与GPGPU之间高速、稳定互相连接,完全扩展开来。

最关键的是,这一切都基于龙芯全自研的物理接口,无论标准性、性能和效率,还是扩展性、升级性都可以自主掌握。

针对笔记本、云终端的新一代龙芯2K3000,目前已经完成前端设计,后续还有不少工作要做,包括内核、后端、外围等等。

它最多可以做到8核心,单核性能可媲美上代桌面级的龙芯3A6000,集成自研密码模块,支持PCIe 4.0、SATA 3、USB 3、HDMI等丰富的扩展和输入输出。

很关键的一点,它会集成新一代自研的LG200 GPGPU核心,不但能用来做图形渲染,还能做到计算加速、AI加速,是一个统一高效的新架构。

作为龙芯自研的第二代图形核心,LG200已经突破了GPGPU的关键技术,图形渲染支持OpenGL 4.0,通用计算支持OpenCL 3.0,AI加速支持INT8整数张量加速。

它还支持多节点互连,结合龙链技术,未来会有同样架构的专用独立GPGPU芯片!

在路线图上,服务器级的龙芯3D7000、龙芯3E7000,桌面级的龙芯3B6000、龙心3B7000也都安排上了,它们都会是LA664微架构的升级版本。


二、龙芯3A6000:软件生态成型 第三大体系屹立

有了硬件,更需要系统软件生态跟上,目前龙架构已经初具规模。

在国内,众多操作系统、基础应用软件都已经有了龙架构版本,满足基本的办公、娱乐需求已经毫无障碍。

在国外,龙架构得到了几乎所有开源社区、开源软件的快速支持,包括Linux系统内核、GCC/LLVM两大支柱性编译器、Rust/Golang/Pascal等传统与新兴编程语言、Nodejs/.net等主流应用开发框架等等,基于这些开源支持甚至已经可以打造出一套完整的龙芯开源系统。

现在,龙架构也有了自己的开源生态编号258,真正与x86、Arm、RISC-V处于等同的地位,可以说是得到了“官方认证”。

更可喜的是,一些国外基础软件也开始关注龙架构并予以支持,这是非常不容易的。

面对规模最为庞大的x86应用生态,龙芯并没有一味等待应用适配自己,也采取了二进制转译执行的策略,通过将x86指令翻译为龙架构指令、将Windows接口翻译为Linux接口函数,使之可以直接运行。

当然,这么做代价是很大的,会明显影响执行效率和性能(官方称最高可达80%),但至少能跑起来,能有的用。

目前,龙芯已经可以运行大量的x86/Windows应用,在办公、娱乐方面可以保证流畅的体验,甚至可以在龙芯服务器上执行EDA芯片设计,从而用龙芯设计龙芯。

面向未来,龙芯希望用一两年的时间,让绝大多数x86/Windows应用都可以跑在龙芯上,可以满足商用需求。

下一代龙芯处理器也会进一步完善二进制翻译,比如支持x87 80位浮点指令。

当然,龙芯自己也设计了大量第一方软件,满足特定需求,尤其是龙芯浏览器,可以最大程度上满足我国信息系统基于IE浏览器环境的兼容适配问题。

当然,这并非长久之计,更合理和长远的做法还是让网银等“老顽固”跟上时代,2023年了还抱着ActiveX不放实在说不过去。

经过20多年的不断摸索和努力,龙芯在硬件、软甲上已经基本完成了“补课”的过程,性能达到市场主流水平,软件生态基本建成,形成了独立于x86、Arm之外的第三体系。

虽然这个体系还是比较薄弱的,各方面差距都很大,但是从0到1的阶段性跨越已经完成,最艰难的步骤已经基本完成,接下来就是一点一点继续完善。


三、龙芯开放授权:从CPU核到指令集 永久免费

从硬IP到软IP,龙芯CPU的所有主要IP,都是自主研发的,可以牢牢掌握在自己手中。

但这并不意味着,龙芯的IP只为自己所用,正在开始走向开放,首先是CPU核的开放授权,然后还会开放龙架构指令集。

首批开放授权的龙芯CPU IP核有三种,分别是面向MCU微控制器的LA132、面向嵌入式的LA264、面向嵌入式和终端的LA364,它们的性能可分别对标Cortex-M4、Cortex-A55、Cortex-A75,后两者也是前两年智能手机移动平台的主流。

至于面向桌面和服务器领域的比较新的LA464、LA664,暂时不会开放。

以上都是基于LoongArch龙架构指令集的IP核,注意命名方式:LA代表LoongArch龙架构,第一位数字代表流水线发射数,后两位数字代表32/64位架构。

LA132是单发射顺序流水线设计,也是唯一的32位指令集。

对比Cortex-M4,它的流水线更长一些,可选支持浮点运算与指令、数据缓存,性能略微领先。

LA264是双发射10级乱序流水线,可选支持128位SIMD,可配置单/双/四核心,每个核心都有自己的一级数据和指令缓存,多核心共享二级缓存,可以直接交付多核簇,加快开发。

28nm工艺下,它的单个核心典型面积只有区区1.1平方毫米,就这还包含32KB一级数据缓存、32KB一级指令缓存,而典型评论可达1.3GHz。

LA364可以看作是LA264的增强版,三发射11级乱序流水线,标配128位SIMD。

28nm工艺下典型面积仅为3.86平方毫米(包括64KB一级指令缓存、64KB一级数据缓存),典型频率可达1.5GHz,性能在同类产品中属于一流水平。

以上这些CPU IP核,还都会持续迭代优化,包括提升流水线调度与执行效率、针对特定领域的应用提供定制加速、与自主工艺的深入磨合(你懂的)。

龙架构指令集现在应有2000多条指令,正考虑开放授权,正在起草相应的技术规范协议。

只要签署同意这个规范协议,就可以永久免费使用龙架构指令,而且可以自行增加符合规范的指令,既扩展性能、能力,也保证兼容性。

在发布会现场,首批10家企业与龙芯中科签订了CPU核IP授权协议,包括:

苏州雄立科技有限公司、大唐可再生能源试验研究院有限公司、得一微电子股份有限公司、山东领能电子科技有限公司、三峡智控科技有限公司、国家超级计算无锡中心、北京得瑞领新科技有限公司、北京科技大学工业互联网研究院、西安微电子技术研究所、北方自动控制技术研究所。

其中,苏州雄立科技集成龙芯CPU IP的网络交换芯片XL63系列已经研制成功,并批量交付市场,相关系统解决方案接近20款。

XL63系列是雄立科技自主研发的低功耗、高集成度、高安全的三层千兆网络交换芯片,集成多个龙架构CPU IP核心,可提供充足的运算能力。

它支持28Gbps交换带宽;集成最多24端口千兆PHY,并支持QSGM II和SGM II模式,具有二层、三层交换功能,支持NAT/NAPT,支持SYNC-E和IEEE1588V2,可满足企业和工业以太网接入业务需求。


四、龙芯整机:日益壮大的“朋友圈”

大会现场还举行了基于龙芯3A6000处理器的整机产品发布仪式,合作伙伴达到了50多家。

其中,可以看到一些我们耳熟能详的品牌和产品,比如同方计算机、联想开天、攀升、海尔雷神、方正数码、上海华硕。

也有一些你可能不太熟悉、但同样是行业大牌:航天七〇六、超越科技、升腾资讯、国光信息、北方自控、视睿、宝德网安、百信、黄河信产、大众电子、西计、北联国芯、航天龙梦、卓怡恒通、云涌科技、上海六联、智微智能、高能计算机、腾凌科技、百代存储、天安星控、派若乐、龙迈科技、众达、盛博科技、昆山嘉提、江苏嘉擎、集和诚、迅为电子、驭芯科技、深中微、航普电子、华龙讯达、道莅智远、吉斯凯达、配天技术、智流形机器人、松科智能、电科网安、高鸿信安、天融信、铵泰克、宽域、木链科技、全讯汇聚、长焜科技。

他们不但带来了台式机、笔记本,还有各种各样的服务器、工作站、特种计算机、工控计算机、工控器、网络安全设备、主板、存储产品、网关/管控/组态一体机、防火墙、密码机、机器人控制器、等等。

正是他们的众星捧月,才让龙芯还有了大展拳脚的空间。

一定程度上可以说,正是这一份长长的名单,才真正体现了龙芯的强大之处。

其中,华硕的到来让人意外有惊喜,全球第一大主板厂商带来了第一款龙芯主板:XC-LS3A6M。

该主板集成龙芯3A6000处理器、龙芯7A2000芯片组,DrMOS聚合式供电,提供两条DDR4内存插槽、一条PCIe x16(物理带宽x8)/一条PCIe x8、一条PCIe x4扩展插槽、四个SATA接口、两个M.2接口、双千兆以太网、VGA/HDMI输出接口、前后多个USB接口。

它还贴心提供了多重硬件防护、物理网络开关、DEBUG指示灯等等,还有可以确保持久耐用的五重保护、多项严苛测试。

作为最会玩的主板品牌,华硕还对龙芯3A6000进行了各种超频,BIOS里自带的狂暴模式可以将频率超到2637.5MHz(核心电压1.25V),超频幅度5.5%,可以带来2.2%的浮点性能提升、3.3%的整数性能提升。

华硕甚至尝试了液氮超频,-196.5℃低温下达到了3GHz,没有出现Cold Bug,可以稳定运行甚至进行压力测试。

而且,这只是目前BIOS的限制,并不是龙芯的限制。


五、龙芯2P0500:打印机也要自主

在国产化办公场景中,打印机、扫描仪、复印机等一直是个老大难问题,硬件上无法自主可控,软件上也和国产协同格格不入。

龙芯2P0500是一款适用于单/多功能打印机的主控SoC芯片,是打印/扫描整机中的核心控制部件。

它主要用于打印数据接收、解析和处理,打印引擎控制,扫描时序控制,扫描数据,图像处理,马达控制等工作,单芯片即可满足打印、扫描、复印等多种典型应用需求。

它采用异构大小核结构,包括一个龙芯LA364核心、两个龙芯LA132核心,三个核心共享512KB二级缓存,同时集成DDR3内存、GMAC、OTG等多种功能模块。

龙芯中科基于龙芯2P0500推出了打印机、扫描仪、复印机等多种解决方案,并与国内多个主流打印机整机厂家合作,完成打印、扫描、复印等多种应用适配。

大会现场,12家打印机厂商与龙芯中科签订了协议,将共建国产打印机新生态。

它们包括:长城信息股份有限公司、中船汉光科技股份有限公司、上海汉图科技有限公司、西安电子科技大学、恒科科技产业有限公司、宁波华高信息科技有限公司、云南南天电子信息产业股份有限公司、北京辰光融信技术有限公司、北京高德品创科技有限公司、天津光电通信技术有限公司、浙江沧田智能信息科技有限公司、大连中盈科技股份有限公司。


六、龙芯方案展示:玩原神、聊微信都不是事儿

在大会展区,近60家龙芯合作伙伴展出数百款基于龙芯CPU的解决方案,涵盖信息化办公、工业控制、智能制造、智能家居、数字五金等多个场景。

在游戏体验区,搭载龙芯3A6000处理器的电脑支持畅玩《云·原神》、《古墓丽影》等大型3D游戏。

在工作体验区,不但可以使用QQ、微信、钉钉等常用办公软件,中望CAD、云桌面、WPS、数字孪生开发引擎软件等行业应用也可以流畅地运行在龙芯电脑上。

还有五金电子区、自主工业自动化展区、教育体验区、国产自主打印机体验区等等特色展区,都展现着龙芯生态的稳健发展。


硬件世界 共同研究探讨硬件知识及相关信息
评论 (0)
  • TCXO频率精度和温度特性远高于普通振荡器,低于恒温晶振。但不需预热且功耗低,从而在野外作业,移动设备,通讯导航设备中广泛应用。温补晶振TCXO的波形输出包括CMOS, LVDS, HCSL, 削峰正弦波。 KT_CS削峰正弦波是常见的输出波形,今天凯擎小妹聊一下温补晶振(KT)中削峰正弦波(CS)这类晶振。在正弦波的波峰上削峰,更接近于方波。这样的波形有以下优势:1. 非谐波抑制:通过削峰技术有效减小非谐波频率的振幅,降低了相位噪声水平,提高了信号质量。2. 电磁干扰减少:
    koan-xtal 2024-03-01 07:47 116浏览
  • 在电子设备领域,“驱动”一词占据着至关重要的地位,充当推动信号、控制和电源的力量。这个复杂世界中的一个重要组件是隔离式栅极驱动器,这项技术在确保各种电子系统高效、安全运行方面发挥着关键作用。什么是栅极驱动器?从本质上讲,栅极驱动器是一种负责控制电子电路中功率晶体管开关的设备。它充当中介,将信号传输到这些晶体管的栅极,促进电路的打开和关闭,从而允许或阻止电流的流动。该过程的效率和可靠性对于电子设备的最佳性能至关重要。隔离:安全性和可靠性的关键隔离式栅极驱动器中的术语“隔离”蕴藏着其重要性的秘密。与
    腾恩科技-彭工 2024-03-01 16:23 96浏览
  • 2 月 29 日,全球智能城市出行品牌小牛电动发布“新世代性能旗舰”电摩NX、电自NXT,以及“全场景智驾越野电摩”X3三款新品。同时,与知名体育电竞俱乐部——JDG京东电子竞技俱乐部携手,打造“英雄的联盟”超级形象,引领Z世代潮流。在“高配置、高续航及年轻化”定位下,电摩NX和电自NXT,以及“全场景智驾越野电摩”X3均实现了续航、安全、智能方面的技术再突破,覆盖日常通勤、短途出行、野外探险等多个出行场景,为消费者提供更好的续航、安全和智能体验。可以说,本次新品发布会是小牛电动全场景高端化布局
    刘旷 2024-03-01 14:04 97浏览
  • WSL2(Windows Subsystem for Linux 2)是Windows系统下的一个功能,允许你在Windows环境下运行Linux子系统。下面是在Windows系统下搭建和使用WSL2的步骤:1. 系统要求必须运行Windows 10版本2004及更高版本(内部版本19041及更高版本)或Windows 11。2. 启用WSL2打开PowerShell以管理员身份运行,执行以下命令以启用适用于Linux的Windows子系统和虚拟机平台。bash复制代码dism.exe /onl
    丙丁先生 2024-03-01 11:48 93浏览
  • 在不断创新的电子世界中,一个关键组件在确保电子设备无缝运行方面默默地发挥着至关重要的作用:光耦合器。光耦合器经常被普通消费者忽视,它是电路板上的无名英雄,在维护电子系统的完整性和安全性方面发挥着关键作用。什么是光耦合器?光耦合器也称为光隔离器,是一种利用光波将电路的两个部分电隔离的装置。这个巧妙的组件由发光二极管(LED)和光电探测器(通常是光电晶体管或光电达林顿管)组成。光耦合器提供的输入和输出侧之间的隔离具有许多优点,使其成为现代电子设计不可或缺的一部分。在电路设计中,光耦可以用于多种应用场
    腾恩科技-彭工 2024-03-01 16:21 80浏览
  • 今天是开学前的一周,也是和一家公司签订了订单培养的协议,这个学期10名已经挑选好的学生去公司带薪实习。学生的选取条件是专业基础好,性格外向,就业意向强,也能很快的适应企业的工作环境。企业是和学校一直有合作的企业。合同已经签订,学生利用周末的时间准备好自己的行李及必备用品去单位提供的宿舍。学生去企业实习的优势是多方面的,以下是一些主要的优势:通过实习,学生可以亲身参与到具体的工作中,了解企业运营的实际情况,加深对所学专业的理解。在实习过程中,学生可以接触到不同的工作任务和挑战,从而提升自己的专业能
    curton 2024-03-01 23:42 83浏览
  • 全球领先的高性能现场可编程门阵列(FPGA)和嵌入式FPGA(eFPGA)半导体知识产权(IP)提供商Achronix Semiconductor公司宣布,该公司将参加由私募股权和风险投资公司Baird Capital举办的“Baird车技术与出行大会(Baird Vehicle Technology & Mobility Conference)”。Achronix此举是为了联络更多的创新者和投资者,共同推动更加先进的FPGA技术更广泛地应用于智能汽车、自动驾驶、ADAS和其他先进出行方式。B
    电子科技圈 2024-02-29 18:45 126浏览
  • Rufus是一个可以帮助格式化和创建可引导USB闪存盘的工具,如USB随身碟、记忆棒等。使用Rufus制作可启动的U盘,可以参考以下步骤:下载并安装Rufus软件。打开浏览器,搜索Rufus官方网站,下载最新版本的Rufus软件,然后双击下载的安装包,按照提示完成软件的安装。准备U盘和系统镜像文件。插入一个空白的U盘到电脑的USB接口,下载想要制作成启动盘的操作系统镜像文件,并将其保存到电脑的硬盘上。使用Rufus制作U盘启动盘。打开Rufus软件,在软件界面的“设备”选项中,选择插入的U盘。在
    丙丁先生 2024-03-01 11:51 82浏览
  •      数字医疗将物联网、大数据和人工智能等前沿技术集成应用于医疗卫生的领域,可以实现健康医疗服务的数据化、标准化和智能化。它涵盖了医院信息服务、健康管理、医患沟通、医药电商和药物研发等方面。    中国的大数据与医疗结合的需求重点在辅助诊断、患者虚拟助手、医学影像分析等方面。在中国,AI技术在影像识别和辅助诊断领域的应用较为广泛,在其他场景中的应用也快速发展,展现出多元发展态势。     日前,参加某数字集团的座
    广州铁金刚 2024-03-01 17:21 100浏览
  •  配图来自Canva可画在风风火火搞了一年大模型之后,外界对于AI大模型对百度到底有多大的拉动作用,始终抱有期待,外部投资人也在期待百度AI的现实回报。2月28日,百度发布了2023年第四季度及全年业绩。财报显示,2023年百度总营收达1345.98亿元,归属百度的净利润为(non-GAAP)287亿元,同比增长39%;四季度营收为349.51亿元,归属百度的净利润(non-GAAP)为77.55亿元,同比增长44%。2023年,百度全年营收和利润均超市场预期。不过,面对超预期的财报,
    刘旷 2024-03-01 11:34 56浏览
  • 这几天上头给出一个参考电路,并对比项目中电路进行了几轮来回讨论。数字工程师介入模拟电路的讨论、设计,而且投入实际应用,可能遇到很多挫折、打击,回头看看,对技术的理解,对系统架构的认识逐渐清晰。这是个什么电路呢,如下图所示:也不知上头是从那篇文章中找来的电路,扔给我们的意思是让我们对照当前项目中电路看看是否什么可以借鉴汲取的地方!经过讨论,提出上图主要有2点值得我们注意:1)、最近一直在讨论使用的极零相消2)、放大器+AC耦合思想上述电路两个放大器输出均跟有AC耦合电容,领导说为何他印象中看到的几
    coyoo 2024-03-01 12:00 124浏览
  • 两轮自平衡PID小车是一种利用PID(比例-积分-微分)控制算法来实现自动平衡和移动的机器人。这种小车通常包含电机驱动、传感器、电源、微控制器等部分。其中,微控制器是小车的核心,负责处理传感器数据、执行PID算法,以及控制小车的电机。在这个场景中,32-bit Arm® Cortex®-M4F内核的微控制器是一个理想的选择,因为它具有高性能、低功耗和丰富的外设接口。Cortex-M4F还支持浮点运算和DSP指令,这对于执行PID算法是非常有利的。对于两轮自平衡PID小车,I2C接口通常用于连接一
    丙丁先生 2024-03-01 11:46 74浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦