MiniMax押注线性注意力,让百万级长文本只用1/2700算力
Transformer 架构主导着生成式 AI 浪潮的当下,但它并非十全十美,也并非没有改写者。
MiniMax-01 就以变革者之姿搅动开源社区,押注线性注意力机制并将其扩展到前所未有的4560 亿参数规模。
这是一场技术冒险,也可能是架构创新的下一个里程碑。

△ MiniMax-01 技术文档
本期「大模型创新架构」主题访谈,量子位邀请到MiniMax-01 架构负责人钟怡然,聊聊线性注意力从实验室走向工业级大模型的全过程,以及他对模型架构的思考和洞藏。
以下为量子位与MiniMax 钟怡然的对话实录整理:
非主流技术路线先行者
量子位:能否先简单介绍一下自己?
MiniMax 钟怡然:我是钟怡然,现在是 MiniMax 的高级研究总监,主要负责网络架构的设计和多模态理解大模型。在 MiniMax 主要工作是主导设计 MiniMax-01 的网络结构。
之前我在上海人工智能实验室担任青年科学家新架构探索组的 PI,负责非 transformer 架构的高效训练建模方法,以及视听语言多模态融合的研究。
量子位:你是什么时候开始研究线性 attention 的?为什么选择这条技术路线?
MiniMax 钟怡然:最早是在 2021 年 7 月份开始研究线性 attention。这其实源于我 2020 年博士毕业时做的一篇论文《invertible attention》,当时可逆神经网络和 attention 机制都比较火,我们就把两者结合起来研究。

△《invertible attention》论文
后来,我们团队中有成员对数学很感兴趣,而 linear attention 这样的高效序列建模方法对数学要求较高,需要很多公式推导,正好契合了团队的兴趣,所以我们选择了这个方向。
量子位:当时 linear attention 在行业内是什么状态?
MiniMax 钟怡然:当时它是非常非主流的,做的人很少,因为那时大部分研究者都在做 transformer。transformer 在 NLP 领域基本上已经有大一统的趋势。
我们当时想着,与其继续做 transformer 泯然众人,不如做 something different。
量子位:你如何判断 linear attention 路线的技术潜力?
MiniMax 钟怡然:我们的初衷很直接——解决 transformer 二次计算复杂度的问题。当时我们也测试了很多方法,包括 sparse transformer 和 linear attention。
结果发现 sparse transformer 确实能 work,显存和速度都比 transformer 快,而 linear attention 效果不好,速度也很慢。但我们仍选择了 linear attention。
一方面是因为它在数学上很有意思,我们认为它的效果不应该这么差;另一方面,我们认为 sparse attention 的上限就是 full attention,它很难超越,而 linear attention 还有超越的可能性。
量子位:能否介绍一下什么是线性 attention?
MiniMax 钟怡然:线性 attention 本质上是一个 kernel trick。在 transformer 中,Q、K、V 三个矩阵相乘时,因为维度不同,先乘 QK 还是先乘 KV 会导致计算复杂度不同。
先乘 KV 可以把计算复杂度变成线性,但问题是 QK 相乘后会经过 softmax,而 softmax 不满足交换律,无法简单地拆分成先乘 KV。所以 linear attention 的第一步就是要去掉 softmax。
但去掉 softmax 会影响结果,接下来的任务就是在去掉 softmax 的情况下,让结果保持一致性,这就是 linear attention 要做的事情。

△MiniMax-Text-01 架构示意
量子位:线性注意力与稀疏 attention、线性 RNN 架构有什么本质区别?
MiniMax 钟怡然:稀疏 attention 本质上仍是一个 softmax attention,只是它计算的点比 dense attention 矩阵要少,比如 sliding window attention 只计算窗口内的 attention score,通过少算来达到加速目的。
而 linear RNN 和 linear attention 本质上是一个东西,只是有些人把它叫 RNN,有些人把它叫 attention。
因为所有东西都可以写成 RNN 形式。比如 lightning attention 对应 rwkv4,而 rwkv-7 其实是改进版的 gated delta net,它们虽然本质相似,但实现细节不同。

△《RWKV-7 "Goose" with Expressive Dynamic State Evolution》论文
量子位:对线性注意力机制的研究有哪些关键节点?
MiniMax 钟怡然:最早大概在 2018-19 年,有研究发现可以通过 kernel trick 降低 transformer softmax attention 的理论计算复杂度,但当时效果不好,效率也低。
2019-20 年,主流还是sparse attention,谷歌等公司提出了很多 sparse attention 变种。之后linear attention才开始出现,但面临效果不好、速度不快的局面。
研究人员主要采取两条路线改进:一是通过对 softmax 函数的逼近,让分布符合 softmax;二是我们选择的路线,不再关心怎么逼近 softmax,而是用完全不同的方法建模。
我们在 2021 年 10 月发表了第一篇论文《COSFORMER : RETHINKING SOFTMAX IN ATTENTION》,用 cos 函数取代了 softmax 操作,让计算可以拆分。
2022 年上半年,我们发表了第二篇《The Devil in linear transformer》,分析了 linear attention 效果变差的原因并给出解决方案,这是lightning attention 的前身。

△《The Devil in linear transformer》论文
后来我们还研究了专门为 linear attention 服务的位置编码,以及长卷积,发表了 TNN,《TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING》,这是与 S4(mamba 的前身)类似的方法。
最后我们推出了lightning attention,通过改进 decay 方式和网络结构,效果上 match 了 transformer,并通过分块算法(tiling technique)使速度更快。
量子位:怎么看待目前非 transformer 架构的技术路线?
** 钟怡然:linear attention 其实就是非 transformer 的方法。非 transformer 架构现在除了类 RNN 的路线,其他路线都式微了。
比如 CNN 像那个长卷积、大核卷积,效果不好逐渐就被淘汰了的感觉,不过在某些方面其实还蛮强,在序列建模,比如说异常检测任务上面还是有一定效果的。
非 transformer 架构其实就三个,一个是linear attention,一个是长卷积,一个是linear RNN。
但实际上这三个都可以统一成一个,我们把它叫做linear complexity model**。我们写了一篇文章把这三个事情都囊括在一起了。

△《Unlocking the Secrets of linear Complexity Sequence Model from A Unified Perspective》论文
量子位:lightning attention 与 Mamba、RWKV 的核心区别是什么?
MiniMax 钟怡然:最核心的区别是 lightning attention 是最简单的 linear attention。Mamba 和 RWKV 都使用 data dependent decay,而 lightning attention 为了速度,使用的是 handcraft decay,即人为指定的 decay。
虽然可学习的 decay 效果会更好一些,但会牺牲速度。比如 RWKV-7 比 gating delta net 慢 10-15%,而 gated delta net 速度又比 lightning attention 慢一半左右。
RWKV 的建模效果确实比 lightning attention 好,但速度慢,且仍未解决 retrieval 问题。
量子位:线性注意力的上限高且可行,现在是行业共识了吗?
MiniMax 钟怡然:不是,如果是共识的话,大家都会去 scale up linear attention 模型了。而且去现在也不是共识,如果现在是共识,大家也会全部做 linear,但可以看到并没有。
但对我们来说,在 23 年下半年的时候就已经看到了这一点。当时我问了很多人,跟很多人聊过,他们最常提出的点是他们知道 linear attention 在小规模上确实 work,但觉得一旦 scale up 上去就会不行。
我当时就想那我就把它 scale 上去给大家看看。现在 minimax-01 出来之后,就没人怀疑 linear attention 在大规模下的能力了。
从小尝试到大落地
量子位:你认为 linear attention 的上限能超越 full attention 吗?
MiniMax 钟怡然:我们现在可以看到 hybrid 架构比纯 transformer 要好。但纯 linear attention 的最大问题是 retrieval 能力,这是学术界目前难以解决的问题。
现有方法虽然复杂,速度也慢,仍然无法完全解决,这也是为什么必须走向 hybrid 架构的原因。
量子位:当时决定从实验室出来是因为观察到了什么样的节点?
MiniMax 钟怡然:在 2023 年 5-6 月份,我们内部已经有 lightning attention 2,这是当时世界上第一个速度比 Flash attention 还快的 linear attention 实现。
我们认为它已经越过了工业红线,技术成熟度非常高,可以 scale up 了。
量子位:如何定义这个工业红线?
MiniMax 钟怡然:首先效果上比 transformer 好,其次比 transformer 快。这样它就具备取代 transformer 的能力了。我们当时在 15B 规模的 dense model 上验证了这一点。
量子位:当时从实验室出来的节点上,为什么最终和 MiniMax 走到了一起?
MiniMax 钟怡然:当时其实和一些大厂都有聊过。但最后还是和MiniMax把这个事做成了。
首先 cosformer 是我跟俊杰合作的文章,我们之间有合作的基础,俊杰之前在商汤的时候就是我老板。23 年底的时候俊杰就约我吃饭,他是比较相信技术的这些前沿的可能性。我的理解是他当时也在找技术突破的点。
当时 MiniMax 已经完成了对 Moe 的研究,下一步的技术突破点其实很少了。当时 lightning attention 已经发了,mamba 也火了,所以在他眼里是一个可行的方向。
量子位:这和 MiniMax 做互动陪伴产品有关系吗?
MiniMax 钟怡然:没有什么关联,闫俊杰更关心的是模型的上限,怎么能够进一步突破这个天花板。
量子位:linear attention 在大众视野里可能更多是一个突破效率的方向,而不是突破天花板。
MiniMax 钟怡然:这里面的点是在于,首先每个厂商的算力是恒定的,能把模型加速得越快,能吃的数据就越多,产出的模型就越好。在算力恒定的情况下,就是模型越快越好。
量子位:现在有观察到数据见顶的情况吗?
MiniMax 钟怡然:现在还没有吧。数据还是在一直 scale 的阶段,但可能不会像 23 年那么激进。
因为数据永远在增加,每天都会有新的数据出来,对于模型来说,它每天都有新数据去处理。互联网每天生产的数据就是有那么多,通过清洗,我们仍然能得到新的数据出来。
量子位:相比于人类发展这么多年已经存在的数据来说,数据增速放缓了吗?
MiniMax 钟怡然:其实不一定,你看中国上下五千年积攒出来的也就那几本书。但随着互联网的发展,数据量的增长是非常陡峭的一个曲线,可能互联网之前产生的整体数据,比不上之后一年产生的数据。
量子位:在 scale up 过程中,lightning attention 面临了哪些挑战?
MiniMax 钟怡然:为了验证它的可扩展性,我们首先做了 scaling law 实验,从小模型逐步扩展到 7B、9B,最后 scale 到 400 多 B 的模型。
而且我们从理论上证明了 linear 的容量比 transformer 大。
我们把容量定义为 RNN 的 current states 大小。对 transformer 来说,容量大小是 O ( d ) ,d 是 size;对 linear attention 来说,容量大小是 d ² /h,由于 d 远大于 h,所以容量更大。
最终实现上我们也验证了 hybrid 模型比纯 transformer 效果更好。
量子位:4M 长度的序列窗口是如何实现的?
MiniMax 钟怡然:对 lightning 来说,训练长度可以是任意的。只要算力打满,训练 8K、32K 或 128K 的速度是一样的,TGS(token per GPU per second)是相同的。
而 transformer 因为是 n ² 的计算复杂度,sequence 越长,计算复杂度增长太快,latency 呈二次曲线上升。在 1M 长度时,softmax attention 的 latency 是 lightning attention 的2,700 倍。
量子位:后续做到无限上下文窗口还有哪些技术挑战需要应对?
MiniMax 钟怡然:我们现在的 hybrid 架构中还有 1/8 的 softmax attention,在 1M 长度下这是瓶颈,这 1/8 带来的 latency 远高于剩下 7/8 的 linear attention。
如果要进行长文本优化,肯定要考虑优化 softmax attention 部分,可以借鉴稀疏注意力方式,让它更快、更轻。
另外,我们也考虑让 softmax 和 linear attention 的混合比例更极端,不再是 1/8,可能是 1/16 或 1/32。最激进的方案是整个模型只放一层 softmax,但为了保险我们没有采用,主要考虑是对 retrieval 能力的影响。
量子位:为什么 retrieval 能力对模型如此重要?
MiniMax 钟怡然:**retrieval 是 in-context learning 的基础,是必要条件 **。
你必须记住上下文中的信息才能做 in-context learning,而 in-context learning 是现在所有大模型高阶能力的基础,比如CoT ( Chain of Thought ) ,特别是long CoT,它们都依赖 retrieval 能力。
决胜新架构
量子位:你有关注到行业内,对 FFN 和 attention 最新的架构改进吗?
MiniMax 钟怡然:FFN 的改进就是 Moe,我也关注了字节的 Ultra Mem,但我觉得它是一个有损的东西,是有损的压缩,未来它 scale up 上去可能会有问题,不过我们没有 scale up,我只能说它可能会有问题。

△《ULTRA-SPARSE MEMORY NETWORK 》论文
因为 FFN 基本上就是这些。Moe 这块我们的改进无外乎从之前的大专家改成现在的小专家模式,让它变得更加稀疏,然后再往下做一些加速,还需要进一步研究。
再对它进行优化的话,因为 FFN 就是矩阵乘法了,优化就只能像 Nvidia 他们在 CUDA 层面上做一些矩阵乘法的最底层优化。
量子位:有关注到行业内对 attention 架构方面的改进吗?
MiniMax 钟怡然:attention 上的改进基本上就是 linear。我们也在考虑未来会不会做一个更强的 Linear,在目前基础上,把 Linear attention 做进一步加速
改进方向有很多种方案,一个是改 decay,还有就是改里面的一些小 trick,具体可以期待我们的新 paper。
量子位:咱们目前的上下文长度和推理成本的这个比率算是比较先进吗?
MiniMax 钟怡然:**一旦牵涉到把 sequence length 拉长的话,我们是有很明显的算力成本优势 **,越长,成本优势会越明显,无论是推理还是训练。
比如说在 1M 上,linear attention 所消耗的算力是 full attention 的 1/2700。相比之下,因为我们仍然有 1/8 的 full attention,那基本上就是它就是 transformer 架构的 1/8,因为 linear attention 基本上不算开销了,基本没有开销。

△linear attention 处理长输入效率和全球顶尖模型对比
量子位:计算开销这么低的话能实现计算瓶颈吗?
MiniMax 钟怡然:现在确实是访存瓶颈,decoding 的时候是访存瓶颈,而不是计算瓶颈。因为 lightning 很快,实在太快了,没有办法让访存也像计算占用一样少的资源。主要是因为实际应用中的序列长度都不够长。
未来如何让它成为计算瓶颈,那就是看怎么样去优化访存了。这些会是工程那边需要负责的事情。
量子位:如果线性注意力成为下一代主流架构了,什么样的硬件适配改进会更适合它呢?
MiniMax 钟怡然:这里面非常 tricky 的一件事情就是,我们需要考虑的是序列长度。如果你的序列长度关注于 8K、32K,那么 attention 总共也就占比百分之十几,剩下的百分之八十几都是后面的 FFN 部分。
即使你把 attention 全部优化到极致,到了 0,你也只优化了百分之十几的时延。但如果把序列长度拉长的话,attention 的占比就会越来越大,这是相比于 full attention 来说,但对 linear attention 来说,它的占比是不变的。
因为 FFN 也是线性的,linear attention 也是线性的,它的占比大概是 10% 左右,这个是几乎不变的,即使在 1M 情况下它也是百分之十几的占比。
但如果是 full attention 的话,attention 计算可能就占了百分之 99,后面的 FFN 只占了百分之 1 了。所以 linear attention 只会在长文上有优势。
如果线性架构成为主流的话,后面可能就是追求低能耗的硬件,只能把能耗降低。包括脉冲神经网络芯片(Spiking Neural Network, SNN)可能会更适合,其实也有人在做。

△脉冲神经网络芯片示意展望 AGI 之路
量子位:对模型开源效果有哪些期待呢?
MiniMax 钟怡然:首先是宣传上的效果。我个人觉得开源除了展示一些肌肉以外,最重要的还是看大家后续怎么能够用起来,我觉得小模型开源可能是未来我们比较考虑做的。
还有怎么让大家能够 finetune 的一些基建做起来,可能也是需要考虑的。开源是我们以后长期的事情,之后旗舰模型应该会持续开源。
量子位:未来非 hybrid 的某个纯血架构有跑出来的可能吗?
MiniMax 钟怡然:目前没有方法能比 hybrid 做得更好,特别是在速度方面。加入一小部分 softmax attention,在序列长度不是特别长的情况下,速度优势非常明显,特别是 flash attention 出现后。
纯血架构的研究仍在进行,但难度很大,已经没有低垂的果实了。我们有一些技术方案,但实现都不简单,最终取决于我们需要做到多长的序列长度。
另一个问题是,超长文本是否有强烈的刚需?虽然像 Claude 等模型已达到 200K 上下文,但用户似乎对当前已有长度也很满意。未来 agent 应用可能会带来对超长序列的需求,但目前还没有成熟的 benchmark。
但我觉得这个问题就像 Nvidia 会为未来的游戏开发超前性能的显卡一样,虽然现在还用不上,但这是面向未来的技术。
比如 deep research 需要模型读取几十个网站的内容,处理时间在几十分钟级别,这可能是长文本的一个应用方向。
量子位:你觉得 CoT 之后的下一个大事情可能会是什么呢?
MiniMax 钟怡然:这个我们想过,首先现在的 reasoning model 是比较火的,今年的主流还会是 reasoning 这一块。之后的话,我们很难想到纯语言模型未来还有什么特别大的变革。
我也跟别的老师聊过,他们的感觉是大家会去重新减少模型开销,就让 reasoning 的速度越来越快,让它的价格变得越来越低,在维持效果的情况下把成本往下压。
因为天花板很快就接近了,现在绝大多数的情况都是在对大模型能力进行查漏补缺。但如果说还有更大的技术突破,短期内可能比较少见,我们还没看到。
量子位:MiniMax 在探索了线性注意力之后,下一个可能探索的方向是什么呢?
MiniMax 钟怡然:下一个可能是去探索多模态的架构,具体指的是我们要不要做这种原生的生成理解统一大模型的架构。
量子位:以 AGI 为终点,计算复杂度 O ( n ² ) 还是 O ( n ) 的模型会是更好的答案?
MiniMax 钟怡然:那当然是 O ( n ) 了。从拟人化来说,人肯定是 O ( n ) 复杂度的。就比如说打个比方,如果人的复杂度是 O ( n ² ) ,那么我跟你说话的速度会变得越来越慢。
因为对 transformer 来说,它的 inference 的 complexity 是 O ( n ² ) 的计算复杂度,也就是我吐第一个 token 和吐第 100 个 token 的时延是不一样的。
我们人类无法想象这样的事情,因为人从降生下来之后总没有重启过,是一直在吐东西的,所以人的计算复杂度就是恒定的。
量子位:人一定是智能的最优解吗?
MiniMax 钟怡然:我们目前只能这么想,还有一些人做仿生智能的路线,我们没有太关注那些方向。
量子位:以 AGI 为终局的话,模型哪些方向的改进是最重要的事情?
MiniMax 钟怡然:除了语言建模以外,还有一个就是学习方式的问题。你怎样去学习,以及从环境当中学习,与环境的交互当中学习很重要,毕竟现在的多模态理解还是非常的缺数据。
而且机器即使是 few-shot 的学习目前也都是带标注的,但人的学习是不带标注的。那么怎么把所有的东西统一在一个自建构的框架下面,也是一个问题。
代码:https://github.com/MiniMax-AI/MiniMax-01
模型:https://huggingface.co/MiniMaxAI/MiniMax-Text-01, https://huggingface.co/MiniMaxAI/MiniMax-VL-01
技术报告:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf