本文作者:author

斯坦福大学廉价AI模型s1引发的开源盛宴:通义千问Qwen的崛起

斯坦福大学廉价AI模型s1引发的开源盛宴:通义千问Qwen的崛起摘要: 近日,斯坦福大学和华盛顿大学的研究人员仅花费不到50美元的云计算费用,训练出一个名为s1的AI推理模型,其性能与OpenAI的o1和DeepSeek的R1等顶尖模型相当,引发了广泛...

近日,斯坦福大学和华盛顿大学的研究人员仅花费不到50美元的云计算费用,训练出一个名为s1的AI推理模型,其性能与OpenAI的o1和DeepSeek的R1等顶尖模型相当,引发了广泛关注。然而,s1模型并非完全从零开始训练,其基座模型正是阿里云的通义千问Qwen。这一消息的确认,将阿里云通义千问推向了聚光灯下,也展现了开源模型的巨大潜力与发展速度。

阿里云官方证实,s1模型以通义千问Qwen2.5-32B-Instruct开源模型为基础,仅用16块H100 GPU进行26分钟的监督微调便取得了如此优异的成果,甚至在竞赛数学问题上超越了o1-preview 27%。这不仅突显了Qwen模型的强大性能,也证明了基于预训练模型进行微调的高效性,为AI模型的低成本、快速开发提供了新的范例。

事实上,这并非Qwen模型第一次在开源社区崭露头角。此前,DeepSeek官方已透露其R1模型的推理能力部分源于基于Qwen-32B蒸馏的模型,这些模型在多项能力上达到了与OpenAI o1-mini相当的水平。这一事件进一步巩固了Qwen在开源社区的领导地位,使其逐渐取代Llama,成为事实上的标杆基座模型。

自2023年8月以来,阿里云已陆续开源Qwen、Qwen1.5、Qwen2、Qwen2.5等多个版本,涵盖了大语言模型、多模态模型、数学模型和代码模型等多种类型。这些模型在HuggingFace、Chatbot Arena以及司南OpenCompass等国内外权威榜单上屡获佳绩,性能全球领先,多次荣获“全球开源冠军”称号。

目前,Qwen的衍生模型数量已突破9万,超过Llama系列,成为全球最大的生成式语言模型族群。这一庞大的生态系统吸引了全球AI模型开发者积极参与,促进了不同技术之间的比较和发展,进一步推动了Qwen的普及和应用。

总而言之,s1模型的成功并非偶然,它背后是阿里云通义千问Qwen长期技术积累和开源战略的体现。Qwen模型的强大性能、开源策略以及蓬勃发展的衍生模型生态,正在深刻地改变着AI领域的格局,也预示着开源模型在未来AI发展中将扮演越来越重要的角色。 这起事件也为我们提供了宝贵的启示:在AI领域,强大的基础模型与灵活的开源策略相结合,将极大地推动技术进步和应用创新。

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

验证码

评论列表 (暂无评论,37人围观)参与讨论

还没有评论,来说两句吧...