斯坦福大学廉价AI模型s1引发的开源盛宴：通义千问Qwen的崛起

author 02-11 37 抢沙发

默认

摘要： 近日，斯坦福大学和华盛顿大学的研究人员仅花费不到50美元的云计算费用，训练出一个名为s1的AI推理模型，其性能与OpenAI的o1和DeepSeek的R1等顶尖模型相当，引发了广泛...

近日，斯坦福大学和华盛顿大学的研究人员仅花费不到50美元的云计算费用，训练出一个名为s1的AI推理模型，其性能与OpenAI的o1和DeepSeek的R1等顶尖模型相当，引发了广泛关注。然而，s1模型并非完全从零开始训练，其基座模型正是阿里云的通义千问Qwen。这一消息的确认，将阿里云通义千问推向了聚光灯下，也展现了开源模型的巨大潜力与发展速度。

阿里云官方证实，s1模型以通义千问Qwen2.5-32B-Instruct开源模型为基础，仅用16块H100 GPU进行26分钟的监督微调便取得了如此优异的成果，甚至在竞赛数学问题上超越了o1-preview 27%。这不仅突显了Qwen模型的强大性能，也证明了基于预训练模型进行微调的高效性，为AI模型的低成本、快速开发提供了新的范例。

事实上，这并非Qwen模型第一次在开源社区崭露头角。此前，DeepSeek官方已透露其R1模型的推理能力部分源于基于Qwen-32B蒸馏的模型，这些模型在多项能力上达到了与OpenAI o1-mini相当的水平。这一事件进一步巩固了Qwen在开源社区的领导地位，使其逐渐取代Llama，成为事实上的标杆基座模型。

自2023年8月以来，阿里云已陆续开源Qwen、Qwen1.5、Qwen2、Qwen2.5等多个版本，涵盖了大语言模型、多模态模型、数学模型和代码模型等多种类型。这些模型在HuggingFace、Chatbot Arena以及司南OpenCompass等国内外权威榜单上屡获佳绩，性能全球领先，多次荣获“全球开源冠军”称号。

目前，Qwen的衍生模型数量已突破9万，超过Llama系列，成为全球最大的生成式语言模型族群。这一庞大的生态系统吸引了全球AI模型开发者积极参与，促进了不同技术之间的比较和发展，进一步推动了Qwen的普及和应用。

总而言之，s1模型的成功并非偶然，它背后是阿里云通义千问Qwen长期技术积累和开源战略的体现。Qwen模型的强大性能、开源策略以及蓬勃发展的衍生模型生态，正在深刻地改变着AI领域的格局，也预示着开源模型在未来AI发展中将扮演越来越重要的角色。这起事件也为我们提供了宝贵的启示：在AI领域，强大的基础模型与灵活的开源策略相结合，将极大地推动技术进步和应用创新。

标签： DeFi NFT 元宇宙 Web3 区块链技术