中国提出创新算法:NVIDIAGPU性能提升800倍!

原创 硬件世界 2025-02-04 23:39

据报道,中国的研究人员发明了一种创新的高性能算法,可以大幅提升NVIDIA消费级GPU的科学计算性能,最高达惊人的800倍!

这一算法来自深圳北理莫斯科大学的团队,该校由北京理工大学、莫斯科国立罗蒙诺索夫大学联合创立。

新的算法增强了近场动力学(Peridynamics)的计算效率,这是一种前沿的非局部理论,可以解决材料断裂、损坏等复杂的物理问题,广泛用于航空、工程、军事等领域。

但是,近场动力学的计算非常复杂,传统模拟方法效率不够高。

深圳北理莫斯科大学团队基于NVIDIA CUDA编程技术,创建了新的PD-General框架,优化了算法设计和内存管理,充分利用了GPU的大规模并行计算能力。

在一块普通的RTX 4070显卡上,新的算法比传统串行算法速度提升了惊人的800倍,对比新的OpenMP并行算法也提升了足足100倍。

在涉及上百万粒子的大规模模拟中,新算法完成4000步迭代所需的时间还不到5分钟。

而在大规模2D单轴拉伸问题中,新算法只用不到2分钟,就完成了695万次单精度迭代。

新算法拥有广阔的应用前景,包括但不限于:

- 航空与国防领域:改进航空器结构材料应力与失效的模型。

- 工程与制造领域:提升建筑与工业材料测试的效率。

- 军事研究:加快防御性材料的抗冲击研究。

最为关键的是,这一算法不需要高性能的GPU芯片,不会受到美国制裁限制,只需普通的消费级家用GPU就可以完成。

如果能迁移支持国产GPU硬件,那就更完美了!

再说说国产软硬件。

DeepSeek V3、R1系列开源AI大模型在多语言理解、复杂推理任务中展现了卓越性能,不仅推动了AI技术的普及与发展,更是对开源社区的极大贡献。

目前,各家科技巨头都已纷纷开始支持、部署DeepSeek,国产硬件也在加速支持。

作为国产全功能GPU创新企业,摩尔线程快速实现了对DeepSeek蒸馏模型推理服务的高效部署,可让更多开发者基于摩尔线程全功能GPU,进行AI应用创新。

一键体验地址:

https://playground.mthreads.com

此外,用户也可以基于摩尔线程MTT S80、MTT S4000显卡,进行DeepSeek-R1蒸馏模型的推理部署。

其实早在1月28日,就已经有B站UP主在摩尔线程MTT S80上手动完成实践:

https://www.bilibili.com/video/BV18YfQYEEs2

通过DeepSeek提供的蒸馏模型,能够将大规模模型的能力迁移至更小、更高效的版本,在国产GPU上实现高性能推理。

摩尔线程基于自研全功能GPU,通过开源与自研双引擎方案,快速实现了对DeepSeek蒸馏模型的推理服务部署。

开源框架适配:

基于Ollama开源框架,摩尔线程完成DeepSeek-R1-Distill-Qwen-7B蒸馏模型的部署,并在多种中文任务中展现了优异的性能,验证摩尔线程自研全功能GPU的通用性与CUDA兼容性。

自研引擎加速:

通过摩尔线程自主研发的高性能推理引擎,结合软硬件协同优化技术,通过定制化的算子加速和内存管理,显著提升了模型的计算效率和资源利用率。

这一引擎不仅支持DeepSeek蒸馏模型的高效运行,还为未来更多大规模模型的部署提供了技术保障。 

最后,摩尔线程即将开放自主设计的夸娥(KUAE)GPU智算集群,全面支持DeepSeek V3、R1模型,以及新一代蒸馏模型的分布式部署。

夸娥集群集成先进推理技术与分布式计算框架,将确保大规模模型的高效稳定运行,助力开发者快速实现业务落地。

当然,在前沿科技上,我们还有很大差距,比如量子计算机。

量子计算机被视为计算的未来,各种突破也是接连不断。加拿大创业公司Xanadu就宣布,他们打造了全球第一台可扩展联网的、模块化的、基于光子的量子计算机“Aurora”,而且能在室温下运行,可用于药物研发、机器学习算法研究。

相关论文已发表在《自然》杂志。

Xanadu表示,量子计算机一直面临提高性能(纠错和容错)、可扩展性(网络)两大问题,现在他们已经解决了后者。

Aurora光量子计算机采用模块化设计,配备35颗光子芯片,连接光纤长度达13公里,它们分为四个相似的单元,分布在4台机架服务器上,可实现光互联与联网。

通过光纤互连联网,多达84个压缩器、36个光子数分辨探测器,能在每个时钟周期提供12个物理光子量子比特模式。

作为基于光子的量子计算机,它使用光子量子比特来处理数据,也就是根据算法,使用透镜、光纤和其他光学元件,并在多个芯片上组合和重组激光束。

在此之前,量子计算机研究一直在努力增加量子比特的数量,比如Google Willow拥有105个,IBM Condor则多达1121个。

但是,Xanadu Aurora只需要12个,而且非常容易扩展。

这台光量子计算机已经通过了一系列严格的基准测试,其中一次测试连续稳定运行了2个小时。

传统的超导量子计算机都需要保持低温运行环境,但是Xanadu Aurora的服务器机架可以在室温下运行,当然光子计数探测器仍然需要在另一个房间保持低温。

Xanadu目前拥有220名员工,已经从多家投资者和加拿大联邦政府融资2.81亿美元。

他们计划2029年建立第一个量子数据中心,包含数千台服务器、100万个量子比特。

接下来,Xanadu需要努力攻克光量子计算机的容错性。

另外,美国PsiQuantum、法国Quandela等也都在研究光量子计算机,不过使用的是中性原子和离子等材料。


硬件世界 共同研究探讨硬件知识及相关信息
评论
  • 文:杜杰编辑:孙聪颖如果说2024年是手机的AI元年,三星应该是第一个站出来表示同意的,毕竟在ChatGPT热热闹闹的同时,三星S24是第一批“吃螃蟹”的。在经过了一年的AI试水之后,今年开年三星就率先在海外发布了进一步重构AI的S25,而今天该系列的国行版正式发布,大家最感兴趣的就是这部搭载原生AI的S25在国内的表现到底如何。无感的AI与去年S24小打小闹不同,今年S25在AI方面堪称是全面化、本地化,而从软硬件整合方面来看,显然AI已经成为S25的灵魂。经过这两年各路AI应用的训练,大家或
    华尔街科技眼 2025-02-13 19:30 127浏览
  • 今日,长虹官宣旗下AI TV正式接入DeepSeek,并支持在“深度思考(满血R1)”和“快速响应”两个版本间自由切换,这意味着行业首个能深度思考的AI TV智能体已全面上线。据长虹相关负责人表示,目前,长虹电视用户终端的升级工作已全部结束,所有搭载了沧海智能体的长虹AI TV均已正式接入DeepSeek。通过深度融合DeepSeek的模型能力,持续升级用户的智能交互体验,真正做到让用户一次购买,就能享受产品的持续进化,让电视始终处于不断发展、永无最终形态的进化进程中。据了解,用户无需复杂的操作
    华尔街科技眼 2025-02-13 12:00 176浏览
  • 在电路板Layout设计时,有时候会遇到高速差分信号对间或者对内需要交叉走线的情况,这不仅会导致Layout困难,而且交叉走线导致的via增加和绕线也会影响高速信号的信号质量。鉴于这个问题,一些高速差分信号在标准中就定义了其可以对内或者对间交叉连接,而不影响数据对接。现根据标准定义,将各个高速差分信号是否支持对间或对内翻转列出来,供设计参考。注:1. 列出的高速差分信号不全,后续陆续补充;2. 具体使用时,还需要咨询芯片供应商是否支持。USB2.0不支持对间和对内翻转USB3.0支持对内极性翻转
    durid 2025-02-14 08:23 78浏览
  • 前言最近正好想要做一个定位器,正好可以用嘉立创的STM32F407的板子,还要淘晶驰的串口屏配合NEO-6M做一个GPS实时定位感觉设计到的知识点还是挺全面的,包括串口通信,还要定时器硬件NEO-6M采用串口通信,默认9600(可以通过软件改115200)搭配有源天线,在室外定位很好用淘晶驰很火的串口屏,通过自带的软件可以随便画界面,还是很方便的可通过 USART HMI 软件进行全界面可视化编辑、支持 “C 语言代码” 和 “0 代码” 双模式编程,广泛应用于工业控制、智能家居等领域的智能串口
    小恶魔owo 2025-02-13 23:05 97浏览
  • 前言基于 ESP32 设计开发的智能流动环境检测车,旨在克服传统固定监测方式的不足。该车能够在不同环境场景下灵活移动,深入到各个角落进行环境数据采集,大大拓展了环境监测的范围和灵活性。通过集成多种先进的传感器,如 BMP280 用于精确采集温湿度和气压数据,ESP32cam 摄像头能够捕捉直观的图像信息,再结合网络 API 获取的天气预报信息,实现了多源数据的综合采集与分析,为全面、准确地了解环境状况提供了丰富的数据支持。展示整车展示APP展示云端展示功能1.除草(12v割草机)2.环境检测3.
    小恶魔owo 2025-02-13 11:43 246浏览
  • 案例概况ABB能源自动化公司通过宏集Cogent DataHub软件将电厂设施的数据实时传输到公司办公室,实现了OPC隧道/镜像解决方案,在电厂和公司网络之间建立了一个安全、可靠的连接,确保数据传输的高度安全,减少入侵风险。(一)应用背景1.确保电厂与公司办公室之间的安全数据传输ABB能源自动化公司为发电厂提供软件和控制系统,确保发电厂设备在最佳速度和效率下运行。在近期的项目中,ABB发现若能直接在公司办公室监控电厂的运行情况,将大大提高工作效率。于是ABB项目工程师Michele开始寻找一种可
    宏集科技 2025-02-13 16:38 115浏览
  • 我跟EET的相识,起源于一次国际电子工程会议,当时我是为了去听国际行业趋势和新技术产品,以公司海外英文名报名参加的,在非常不经意间,我在会场的群里发表了少许观点,没想到当场就有很多人加我微信,微信加得手软,有位VIP席位上的美国有排名的科学家(她当时在上海中科院任职)约了与我共进午餐,隔年这位美国科学家还带来了国际合作,我们公司与亚洲最大的技术顾问公司签了战略合作及一些实际合作项目。所以,我挺早就在EET面包板上了,只不过那些年我所在的公司的国际业务繁忙,还要忙着参加美国分公司的筹备,于是下班后
    牛言喵语 2025-02-14 02:15 73浏览
  • 文心一言免费对于创业来说是一个很大的机遇,加油!虽然是一个很大的挑战,但是好处还是很大的。文心一言的免费开放为创业者提供了一个低成本甚至零成本使用先进人工智能技术的机会。在以往,创业者若想在项目中融入AI技术,往往需要支付高昂的研发或授权费用。而现在,他们可以直接利用文心一言的强大功能,如语言理解、生成能力、深度搜索等,来构建自己的产品或服务,从而显著降低创业成本。文心一言的全面免费开放为创业者提供了广阔的创新空间。创业者可以基于文心一言开发出各种创新的应用和服务,满足市场的多样化需求。例如,利
    curton 2025-02-14 13:37 50浏览
  • ​随着GNSS技术的不断进步,各类设备广泛采用该技术实现高精度定位,并推动了其在众多领域的广泛应用。对于关键行业如汽车制造和基础设施,设备的可用性和可靠性被视为基本准则,GNSS作为提供“绝对位置”信息的关键传感器,其稳定性和可靠性尤为关键。为此,中国已为汽车行业制定了详细的GNSS定位规范和行业标准。GNSS模拟器解决方案支持:BD 420005—2015 《北斗/全球卫星导航系统(GNSS)导航单元性能要求及测试方法》BD 420023—2019 《北斗/全球卫星导航系统(GNSS) RTK
    德思特测试测量 2025-02-13 15:35 135浏览
  • 文心一言准备免费,说实话,这个是好事情,但是他也会产生非常大的影响,总体来说,对技术的发展还是起到积极的作用。文心新苑为什么要免费呢?无非就是市场的原因,绝对不是文心一言不想利用这个AI赚钱。我分析下原因:1、市场竞争:在人工智能技术高速发展的背景下,各类AI产品层出不穷,市场竞争日益激烈。尤其是DEEPSEEK的出现,真是的非常重大的一个事件,作为同类产品,文心一言非常无奈的被迫的选择全面免费策略,旨在迅速提高用户量,争夺市场份额。通过免费使用,文心一言能够吸引更多用户,形成网络效应,进而提升
    curton 2025-02-14 10:30 54浏览
  • 一、前言随着自动驾驶技术的快速发展,庞大的测试数据和复杂的场景需求为性能与安全评估带来了巨大挑战。如何高效管理海量数据、挖掘关键场景,并满足以Euro NCAP(European New Car Assessment Programme,欧洲新车安全评鉴协会)为代表的严格评估标准,已成为行业亟待解决的核心问题。这不仅关乎技术研发的效率与精度,更是智能驾驶车辆进入市场、提升竞争力的关键前提。本文我们将围绕如何应对海量数据所带来的挑战进行探讨,分享提高场景测试与性能安全评估的见解。二、 场
    康谋 2025-02-13 10:44 124浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦