本文作者:author

清华大学KTransformers开源项目:24G显存运行671B参数大模型,成本降低95%以上

清华大学KTransformers开源项目:24G显存运行671B参数大模型,成本降低95%以上摘要: 近年来,大规模语言模型(LLM)的部署和推理对计算资源的需求日益增长,成为个人研究者和小型团队的巨大挑战。为解决这一问题,清华大学KVCache.AI团队联合趋境科技推出的KTra...

近年来,大规模语言模型(LLM)的部署和推理对计算资源的需求日益增长,成为个人研究者和小型团队的巨大挑战。为解决这一问题,清华大学KVCache.AI团队联合趋境科技推出的KTransformers开源项目,近期更新实现了在仅有24GB显存的消费级显卡(例如4090 24G)上本地运行DeepSeek-R1和V3两个671B参数的“满血版”大模型。

KTransformers通过异构计算、先进量化技术和稀疏注意力机制等技术,显著提升了模型计算效率。其核心在于将计算复杂的MLA注意力机制放在GPU上,而参数量大但计算简单的FNN(MOE)部分则在CPU上运行。这种策略充分利用了MoE模型的稀疏性,即使使用4bit量化也能有效降低显存需求。测试结果显示,实际内存占用约380G,显存占用约14G,预处理速度最高达286 tokens/s,推理生成速度最高达14 tokens/s。

更令人惊喜的是,KTransformers大幅降低了运行成本。有用户测算,搭建一套本地运行环境的成本不到7万元,与动辄200万元的A100/H100服务器相比,节省了95%以上。

然而,该方案也存在一些限制。本地部署的速度与高价服务器相比仍有差距,且只能提供单人服务,无法满足高并发需求。此外,该方案目前主要针对DeepSeek的MOE模型,对其他模型的兼容性还有待进一步验证,并且依赖于英特尔的AMX指令集。

尽管如此,KTransformers的突破仍具有重要意义。它降低了大模型的准入门槛,为个人研究者和小型团队提供了更经济实惠的选择,并可能刺激对高显存消费级显卡的需求。但从长期来看,这项技术主要优化了现有资源的利用率,对硬件厂商的影响可能有限。

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

验证码

评论列表 (暂无评论,19人围观)参与讨论

还没有评论,来说两句吧...