9月19日,阿里云CTO周靖人在云栖大会上发布了通义千问新一代开源模型Qwen2.5,并且其旗舰模型Qwen2.5-72B在性能上超越了Llama 405B,成为全球开源大模型的新标杆。
图源:阿里云
Qwen2.5系列模型不仅包括了大语言模型、多模态模型、数学模型和代码模型,还提供了不同尺寸的版本以适应不同的应用需求,总计上架超过100个版本。
在MMLU-redux等十多个基准测评中,Qwen2.5-72B表现超越Llama3.1-405B 图源:阿里云
Qwen2.5系列支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超过29种主流语言。与Qwen2类似,Qwen2.5语言模型支持高达128K tokens,并能生成最多8K tokens的内容。
从技术角度来看,与前一版本相比,Qwen2.5的理解能力、逻辑推理、指令遵循和代码能力分别提升了9%、16%、19%和10%,中文能力持续领先业界。
具体来说,Qwen2.5系列模型在中文能力方面领先业界的技术细节主要体现在以下几个方面:
一是多语言支持和上下文长度:Qwen2.5系列模型支持高达128K的上下文长度,能够生成最多8K内容。这种长文本处理能力使得模型在理解和生成中文文本时更加灵活和准确。
二是预训练数据的质量和规模:该系列模型使用了大规模的高质量数学数据进行预训练,并包括由Qwen2-Math生成的合成数据。此外,其预训练数据共3TB,主要涉及公共网络文档、百科全书、书籍、代码等,其中以中文和英文为主,这保证了模型在中文上的表现。
三是指令执行和结构化数据理解:Qwen2.5-LLM在指令执行、长文本处理以及结构化数据理解等方面有显著提升,这些特性对于中文处理尤为重要,因为中文常常需要更复杂的语境理解和语法分析
同时,本次发布的Qwen2.5-Math在更大规模的高质量数学数据上进行了预训练,包括由Qwen2-Math生成的合成数据。在融合了Qwen2-math的技术后,Qwen2.5的数学能力也得到了快速提升。在MATH基准上,Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。
Qwen2.5-Math还增加了对中文的支持,并通过CoT、PoT和TIR的能力来加强其推理能力。其中Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4-o。
此外,Qwen2.5系列模型采用了Apache2.0许可证进行开源,这使得开发者可以自由地使用和修改这些模型。