据报道,中国的研究人员发明了一种创新的高性能算法,可以大幅提升NVIDIA消费级GPU的科学计算性能,最高达惊人的800倍!
这一算法来自深圳北理莫斯科大学的团队,该校由北京理工大学、莫斯科国立罗蒙诺索夫大学联合创立。
新的算法增强了近场动力学(Peridynamics)的计算效率,这是一种前沿的非局部理论,可以解决材料断裂、损坏等复杂的物理问题,广泛用于航空、工程、军事等领域。
但是,近场动力学的计算非常复杂,传统模拟方法效率不够高。
深圳北理莫斯科大学团队基于NVIDIA CUDA编程技术,创建了新的PD-General框架,优化了算法设计和内存管理,充分利用了GPU的大规模并行计算能力。
在一块普通的RTX 4070显卡上,新的算法比传统串行算法速度提升了惊人的800倍,对比新的OpenMP并行算法也提升了足足100倍。
在涉及上百万粒子的大规模模拟中,新算法完成4000步迭代所需的时间还不到5分钟。
而在大规模2D单轴拉伸问题中,新算法只用不到2分钟,就完成了695万次单精度迭代。
新算法拥有广阔的应用前景,包括但不限于:
- 航空与国防领域:改进航空器结构材料应力与失效的模型。
- 工程与制造领域:提升建筑与工业材料测试的效率。
- 军事研究:加快防御性材料的抗冲击研究。
最为关键的是,这一算法不需要高性能的GPU芯片,不会受到美国制裁限制,只需普通的消费级家用GPU就可以完成。
如果能迁移支持国产GPU硬件,那就更完美了!
再说说国产软硬件。
DeepSeek V3、R1系列开源AI大模型在多语言理解、复杂推理任务中展现了卓越性能,不仅推动了AI技术的普及与发展,更是对开源社区的极大贡献。
目前,各家科技巨头都已纷纷开始支持、部署DeepSeek,国产硬件也在加速支持。
作为国产全功能GPU创新企业,摩尔线程快速实现了对DeepSeek蒸馏模型推理服务的高效部署,可让更多开发者基于摩尔线程全功能GPU,进行AI应用创新。
一键体验地址:
https://playground.mthreads.com
此外,用户也可以基于摩尔线程MTT S80、MTT S4000显卡,进行DeepSeek-R1蒸馏模型的推理部署。
其实早在1月28日,就已经有B站UP主在摩尔线程MTT S80上手动完成实践:
https://www.bilibili.com/video/BV18YfQYEEs2
通过DeepSeek提供的蒸馏模型,能够将大规模模型的能力迁移至更小、更高效的版本,在国产GPU上实现高性能推理。
摩尔线程基于自研全功能GPU,通过开源与自研双引擎方案,快速实现了对DeepSeek蒸馏模型的推理服务部署。
开源框架适配:
基于Ollama开源框架,摩尔线程完成DeepSeek-R1-Distill-Qwen-7B蒸馏模型的部署,并在多种中文任务中展现了优异的性能,验证摩尔线程自研全功能GPU的通用性与CUDA兼容性。
自研引擎加速:
通过摩尔线程自主研发的高性能推理引擎,结合软硬件协同优化技术,通过定制化的算子加速和内存管理,显著提升了模型的计算效率和资源利用率。
这一引擎不仅支持DeepSeek蒸馏模型的高效运行,还为未来更多大规模模型的部署提供了技术保障。
最后,摩尔线程即将开放自主设计的夸娥(KUAE)GPU智算集群,全面支持DeepSeek V3、R1模型,以及新一代蒸馏模型的分布式部署。
夸娥集群集成先进推理技术与分布式计算框架,将确保大规模模型的高效稳定运行,助力开发者快速实现业务落地。
当然,在前沿科技上,我们还有很大差距,比如量子计算机。
量子计算机被视为计算的未来,各种突破也是接连不断。加拿大创业公司Xanadu就宣布,他们打造了全球第一台可扩展联网的、模块化的、基于光子的量子计算机“Aurora”,而且能在室温下运行,可用于药物研发、机器学习算法研究。
相关论文已发表在《自然》杂志。
Xanadu表示,量子计算机一直面临提高性能(纠错和容错)、可扩展性(网络)两大问题,现在他们已经解决了后者。
Aurora光量子计算机采用模块化设计,配备35颗光子芯片,连接光纤长度达13公里,它们分为四个相似的单元,分布在4台机架服务器上,可实现光互联与联网。
通过光纤互连联网,多达84个压缩器、36个光子数分辨探测器,能在每个时钟周期提供12个物理光子量子比特模式。
作为基于光子的量子计算机,它使用光子量子比特来处理数据,也就是根据算法,使用透镜、光纤和其他光学元件,并在多个芯片上组合和重组激光束。
在此之前,量子计算机研究一直在努力增加量子比特的数量,比如Google Willow拥有105个,IBM Condor则多达1121个。
但是,Xanadu Aurora只需要12个,而且非常容易扩展。
这台光量子计算机已经通过了一系列严格的基准测试,其中一次测试连续稳定运行了2个小时。
传统的超导量子计算机都需要保持低温运行环境,但是Xanadu Aurora的服务器机架可以在室温下运行,当然光子计数探测器仍然需要在另一个房间保持低温。
Xanadu目前拥有220名员工,已经从多家投资者和加拿大联邦政府融资2.81亿美元。
他们计划2029年建立第一个量子数据中心,包含数千台服务器、100万个量子比特。
接下来,Xanadu需要努力攻克光量子计算机的容错性。
另外,美国PsiQuantum、法国Quandela等也都在研究光量子计算机,不过使用的是中性原子和离子等材料。