
DeepSeek开源FlashMLA:国产GPU的春天?

DeepSeek开源FlashMLA:国产GPU的春天?
一石激起千层浪,DeepSeek在上周宣布开源周计划后,今日正式开源了首个代码库——FlashMLA。这可不是普通的代码库,它是一个针对Hopper GPU优化的高效型MLA解码核,其意义甚至被业内人士誉为”国产GPU的重大利好”。
FlashMLA的GitHub项目上线6小时内便收获超过5000星,Fork数量也迅速攀升至188。如此火爆的场面,让一位港股上市公司CTO惊呼:”太强了!”
FlashMLA究竟有何魅力?
它基于英伟达Hopper架构GPU,针对可变长度序列进行了优化。而MLA(多头潜在注意力机制)正是DeepSeek V2、V3模型的核心技术,能够显著提升模型训练和推理效率,降低计算成本。此前,清华大学教授郑纬民院士就曾指出,DeepSeek自研的MLA架构是其模型训练成本下降的关键原因。
此次DeepSeek直接开源FlashMLA,意味着将核心MLA底层代码免费开放,让广大开发者可以复用代码,用更少的GPU服务器完成同样的任务,直接降低推理成本。这对希望进行底层优化和AI应用开发的群体来说,无疑是一大福音。
FlashMLA在英伟达H800 SXM5 GPU上的基准测试表现亮眼:内存速度高达3000 GB/s,计算上限达到580TFLOPS。考虑到美国出口管制规定,H800的带宽上限被设定为600 GB/s,FlashMLA的优化效果可见一斑,这将帮助开发者最大限度地“压榨”英伟达H系列芯片的性能。
一位专注于AI硬件研究的投资人表示,FlashMLA能够让LLM在H800上运行得更快、更高效,尤其适用于高性能AI任务,能显著提升大模型的响应速度和吞吐量,对于实时生成任务(如聊天机器人)至关重要。
更重要的是,FlashMLA的开源,对于国产GPU也是重大利好。目前国产GPU性能普遍较弱,但FlashMLA提供的优化思路和方法论,能够帮助国产GPU大幅提升性能。即使架构不同,国产GPU的推理性能提升也指日可待。
FlashMLA的开源,不仅是DeepSeek技术实力的展现,更是对整个AI产业的贡献。它将加速AI应用的开发和普及,推动AI技术的创新和发展,尤其对国产GPU的崛起有着重要的促进作用,或许预示着国产GPU的春天真的来了。
还没有评论,来说两句吧...