Top Keywords for 张小珺Jùn｜商业访谈录

119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

Podcast: 张小珺Jùn｜商业访谈录
Published On: Mon Nov 03 2025
Description: 今天这集节目，我们将讨论一个在当下非常关键的话题：人工智能的算法与架构创新。嘉宾是我们的往期嘉宾返场，她是MIT在读博士杨松琳，研究方向是线性注意力机制。我们将从最新发布的几个模型Kimi Linear、Minimax M2、Qwen3-Next切入。松琳参与讨论Kimi Linear和Qwen3-Next的部分工作，是Kimi Linear论文的作者之一。算法创新为什么在2025年变得尤为重要？它的背后原因是，数据、算力和算法是驱动人工智能的三驾火车，在数据撞墙的无奈前提下，各个模型公司不得不重新开始“雕模型架构”，以期Scaling Law的魔法继续。而由于中国的算力相对美国有限，这反而让中国的AI算法创新走在了世界前沿。这集节目你将听到，近几年架构最大突破是DeepSeek的MoE（混合专家模型），它让MoE成为了全球共识；而下一个突破的重要方向可能就是Attention（注意力机制）。中国公司在Attention展开了不同技术bet（押注）：截至目前已发布模型，DeepSeek正在探索Sparse Attention（稀疏注意力机制）；Kimi正在探索Linear Attention（线性注意力机制）；Minimax在年初的M1版本中探索Linear Attention，而在刚发布的M2版本中又回退到 Full Attention（全局注意力机制）。节目中，松琳将讲解她参与的这篇《Kimi Linear: An Expressive, Efficient Attention Architecture》的工作，并分析以上这些公司在Attention上的不同抉择；与此同时，她也将带领大家考古人工智能算法变种史，并预演未来算法与架构的改进方案。本集比较硬核，会有一些专业难度，大家可以根据自己的实际需要收听嗷:)因为嘉宾的工作环境会出现中英夹杂，希望大家多多理解和支持。04:00 个人、研究主线与线性注意力机制的探索之路06:27 松琳做过一个开源库：flash-linear-attention（简称FLA）07:04 怎么通俗理解Linear Attention的Linear？11:19 聊聊最近参与的新工作，前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》（Kimi Linear：一种具有强表达能力与高效率的注意力架构）（FLA库的另一个作者Zhang, Yu邀请）12:20 为什么Kimi在年初开始需要重新设计注意力机制？设计的背景和目标在Linear Attention下，推理阶段的计算与显存成本都显著降低；而使用Full Attention时，长文本解码的代价会非常高昂14:39 《Kimi Linear》论文重点讲解：KDA模块（Kimi Delta Attention，增量注意力机制）18:56 Kimi内部有一个Scaling Ladder（规模阶梯），在一个规模下面表现好就在下一个规模下面去scale，就像通关20:20 Kimi Linear Attention vs DeepSeek Sparse Attention：Kimi走线性注意力路线，DeepSeek走稀疏注意力路线，都想解决长文本decoding（长上下文生成）的效率问题23:01 Minimax从M1到M2的架构变化，从Linear Attention退回到Full Attention，为什么？27:00 硅谷的注意力机制方案不方便说，但可以浅聊一下OpenAI有paper的方案28:05 Linear Attention从2020年发明出来开始后的前进线索每一次大家关心Linear Attention都是因为大家撞到了Context Wall最近长文本的decoding卷土重来，让人们不由自主审视这一套技术38:16 纯Linear Attention是无效的，混合注意力机制还是有很多全局注意力层，这样下限有保证40:30 Kimi Linear每3层KDA插入1层全注意力层，三比一的比例快变成共识了Minimax之前用的是七比一，但现在大家逐渐回到三比一——这成为不共识的混合注意力机制中的共识了42:32 权衡（Trade-off）表达能力（expressivity）与计算效率（efficiency）Minimax曾经也提到，混合线性注意力/混合滑窗注意力在“多跳推理”上会有缺陷对于“多跳推理”，如果我们开发一些硬件高效但表达能力更好的RNN（循环神经网络），这个GAP有可能缩小46:28 chunkwise algorithm for parallelization（分块并行算法）47:55 如何设计Attention？两条主流和一些非主流路线49:36 结合Linear Attention和Sparse Attention的未来理想方案Linear Attention和Sparse Attention没什么竞争关系，Linear Attention的竞争对手可能是Sliding-Window Attention（滑窗注意力）工业界Linear Attention和Sparse Attention结合的探索似乎还没开始我想象中的理想方案是：把混合注意力的全局注意力（Full Attention）换成稀疏注意力（Sparse Attention）只要Sparse Attention选得准，完全可以取代Full Attention，但现在的问题是它选不准55:36 公平的比较：Linear Attention vs Sliding-Window Attention（滑窗注意力）57:05 Transformer → MoE → Linear/Sparse Attention的算法演变，背后动因是给定你相同的FLOPs（浮点运算量），利用这些FLOPs，取得更低的损失函数MoE（混合专家）是更高效的FNN（前馈神经网络）的替代品58:26 近几年架构方面突破最大的是MoE，下一个突破可能是Attention；Transformer就两个模块，一个是FFN，一个是Attention；现在FFN已经雕成MoE，现在Attention大家也可以雕一下01:01:28 数据、算法、算力是驱动人工智能的三驾马车，当数据遇到数据强，算法创新变得更重要01:02:48 架构的未来：1、能不能干掉全局注意力？它是阻止context window继续scale up的主要瓶颈2、Continue Learning，让AI自己学习01:04:30 如何把Linear Attention的Transformer继续scale up?01:07:43 中国AI的算法创新相比海外肯定是更强的——因为没有那么多卡（不过美国公司更多投入优化器一点，国内在逐步重视01:10:56 其他训练细节：NoPE vs. RoPE01:12:09 DeepSeek-OCR01:12:55 松琳也参与了Qwen3-Next，没有参与Minimax M201:13:39 “雕”架构的人01:15:16 自己的心路：“当你很清楚你要做什么的时候，你是不会遇到什么挫折的”经验分享：PhD还挺顺利的，得益于我入学之前的半年考古01:23:12 说到考古，我们在最后聊聊从Transformer开始的算法变种历史01:29:50 Delta Rule算法、硬件亲和、DeepSeek非常追求硬件和算法的匹配01:42:23 给更年轻的年轻人的建议嘉宾往期节目：《逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”》谈到的论文：《Kimi Linear: An Expressive, Efficient Attention Architecture》《MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention》《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》

The note was deleted

The note was saved

Your message was sent

My Sentiment & Notes 119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案