免责声明:所有资讯不构成任何投资理财建议。

月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖

2025-02-21 17:02:43

作者:Andrew Lu,晚点团队

图片来源:由无界AI生成

2 月 18 日,Kimi 和 DeepSeek 同一天发布新进展,分别是 MoBA 和 NSA,二者都是对 “注意力机制”(Attention Mechanism)的改进。

今天,MoBA 的一位主要研发同学 Andrew Lu 在知乎发帖,自述研发过程的三次踩坑,他称为 “三入思过崖”。他在知乎的签名是“新晋 LLM 训练师”。

这条回答下的一个评论是:“从开源论文、开源代码出发,现在已经进化到开源思维链了嘛。”

注意力机制之所以重要,是因为它是当前大语言模型(LLM)的核心机制。回到 2017 年 6 月那篇开启 LLM 革命的 Transformer 八子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一切),该论文被引用次数至今已达 15.3 万。

注意力机制能让 AI 模型像人类一样,知道在处理信息时该 “重点关注” 什么、“忽略” 什么,抓住信息中最关键的部分。

在大模型的训练阶段和使用(推理)阶段,注意力机制都会发挥作用。它的大致工作原理是,当输入一段数据,如 “我喜欢吃苹果”,大模型会计算句子中每一个词(Token)与其他词的关系,从而理解语义等信息。

而当大模型需要处理的上下文越来越长,标准 Transformer 最初采用的 Full Attention(全注意力机制)对计算资源的占用变得不可忍受,因为原初流程是,需要全部计算所有输入词的重要性分数,再加权计算后得到哪些是最重要的词,它的计算复杂度会随文本变长而平方级(非线性)增长。如 MoBA 论文的 “摘要” 部分所写:

“传统注意力机制中固有的计算复杂性的平方增加,带来令人望而却步的计算开销。”

同时,研究者们又追求大模型处理的上下文能足够长——多轮对话、复杂推理、记忆能力……这些设想中 AGI 应该具备的特性都需要更长长长长的上下文能力。

如何找到一个既没那么占用计算资源和内存,又不损失模型性能的注意力机制优化方法,于是成为大模型研究的重要课题。

这是数家公司将注意力交汇到 “注意力” 上的技术背景。

在 DeepSeek NSA 和 Kimi MoBA 之外,今年 1 月中旬,另一家中国大模型创业公司 MiniMax 也在其首个开源模型 MiniMax-01 中大规模实现了一种新的注意力机制。MiniMax 创始人闫俊杰当时告诉我们,这是 MiniMax-01 最主要的创新点之一。

面壁智能联合创始人、清华大学计算机系副教授刘知远的团队也在 2024 年发表过 InfLLM,其中也涉及一种稀疏注意力改进,该论文被 NSA 的论文引用。#p#分页标题#e#

这几个成果中,NSA、MoBA、InfLLm 里的注意力机制都属于 “稀疏注意力机制”(Sparse Attention);而 MiniMax-01 的尝试则主要是另一个方向:“线性注意力机制”(Linear Attention)。

SeerAttention 作者之一,微软亚研院高级研究员曹士杰告诉我们:总体来说,线性注意力机制对标准注意力机制的改动更多、更激进,想直接解决随文本变长,计算度平方爆炸(所以是非线性的)的问题,可能的一个代价是,会损失对长上下文的复杂依赖关系的捕捉;稀疏注意力机制则是利用注意力固有的稀疏性,尝试寻找一种较为稳健的优化方式。

同时在此推荐曹士杰老师在知乎上关于注意力机制的高赞回答:https://www.zhihu.com/people/cao-shi-jie-67/answers

(他回答了 “梁文锋参与发表的 DeepSeek 新论文 NSA 注意力机制,有哪些信息值得关注?会带来哪些影响?” 这个问题。)

MoA(Mixture of Sparse Attention) 的共同一作,清华大学 NICS-EFC 实验室博士傅天予说,在稀疏注意力机制的大方向下:“NSA 和 MoBA 都引入了动态注意力方法,即能动态选择需要计算细粒度注意力的 KV Cache 块,相比一些使用静态方法的稀疏注意力机制,能提升模型性能。这两个方法也都是在模型训练中就引入了稀疏注意力,而非仅在推理时引入,这也进一步提升了模型性能。”

(注:KV Cache 块是存储之前计算的 Key 标签和 Value 值的缓存;其中 Key 标签指注意力机制相关计算中,用于标识数据特征或数据位置等信息的标识标签,以便在计算注意力权重时,能与其他

声明:本文版权归原作者所有,发布此文为传递更多市场信息,不代表本站的观点和立场,请自行参考。如作者信息标记有误,请第一时间联系我们处理!