M6体育app2026世界杯(中国)官方app下载当线性小心力学会「写入前念念考」: 并行化的多步顾忌写入

来源：未知作者：admin 发布时间：2026-06-15 06:03 浏览：197

Transformer依托刚烈的建模才调和Scaling效能在推选范围被泛泛应用于超长序列建模和生成式推选等方针，但

复杂度，能在不作念序列截断的情况下处理恣意长度的行动序列，

的缱绻支出不得不作念出各式和解：举例将self-attention改为cross-attention或local-attention、序列截断、序列压缩等。这些弃取虽缓解了缱绻压力，但不可幸免地蚀本了序列中的长程行动模式。受LLM范围线性小心力（LinearAttention）及羼杂架构磋商的启发，线性小心力自然具备

可能是推选范围比Transformer更匹配的底层架构。然而，现存线性小心力模子每步只可作念rank-1的浅层写入，建模质料与Transformer仍有差距；而具有多步深度写入才调的TTT（Test-TimeTraining）虽质料突破，却因串行依赖导致检修婉曲量比线性小心力慢，难以工业部署。

为此，腾讯告白本事团队与北京大学协调提倡PRISM（ParallelResidualIterativeSequenceModel）——在保执线性小心力

复杂度的同期，竣事TTT级别多步深度写入的序列模子。PRISM通过分析TTT-MLP的梯度结构，揭示其高抒发力源于步长×残差×方针的多步迭代模式，并发现这一高抒发力与串行瓶颈是湮灭根因（权重迭代更新）的两面。基于这一洞悉，PRISM在兼容parallelscan的线性景色上显式重建了该迭代模式，通过局部anchor代理撤消token间串行，通过闭合式瞻望算撤消step间串行，最终呈现为一个合资的残差拟合过程：第一步当然退化为线性小心力的轨范写入，后续步以不到10%的参数增量叠加低秩修正。在四个序列推选基准上，PRISM匹配TTT质料且婉曲量进步174倍；与极少Transformer层构成羼杂架构后超越纯Transformerbaseline。

该责任已被机器学习范围顶级会议ICML2026委派，论文题目“PRISM:ParallelResidualIterativeSequenceModel”。

一、布景：从无穷背包到有限背包

（一）Transformer的无穷背包与线性小心力的有限背包

Transformer的Attention机制现实上是一个"无穷背包"：它把每一个token的KV都圆善保存在KVCache中，推理时一一比对。这带来了极强的抒发力，但存储和缱绻量随序列长度N呈

增长，当高下文达到百万token量级时，即便顶尖GPU也难以承受。

为此，一系列线性复杂度序列模子（如LinearAttention、RWKV、Mamba、GatedDeltaNet等）提倡了"有限背包"决议：用一个固定大小的景色矩阵

压缩存储通盘历史信息。不论序列多长，S的大小不变，复杂度降为

背包容量有限，每来一个新token，模子必须决定往里写什么、同期擦掉什么。这个"写与擦"的轨则，决定了有限背包模子的天花板。但在深入策动"写与擦"之前，咱们先要回话一个更基本的问题。

（二）有限背包现实上是RNN，为何还能并行？

确乎如斯，有限背包模子的数学形状现实上即是RNN：

每一步的景色，无法径直并行化。那为什么大家说LinearAttention/Mamba是"可并行的"？

一步步算到

，这看起来自然串行，必须从

依赖上一步的

枢纽在于一个数学手段：ParallelScan（并行前缀扫描）。

当递推联系（recurrence）的形状知足线性结构

（其中

都只依赖现时输入，不依赖

）时，这个递推不错被改写为知足聚拢律的二元运算。一朝知足聚拢律，就不错用肖似"求前缀和"的形状并行缱绻，其旨趣与经典的parallelprefixsum算法辩论，区别仅在于基础运算从标量加法扩充为"矩阵乘法+加法"。

具体来说，N步的串行递推不错在

），但在GPU上墙钟时间大幅裁减。

的深度内完成，代价是多作念了一些冗余缱绻（总缱绻量变成

但这里有一个很强的前提：和必须是历史景色无关的，它们只然而现时输入的函数，不行依赖或需要读取

才能算出来，聚拢律就不成立了，就无法应用parallelscan竣事并走时算。

。一朝

GDN知足这个条目：

都只依赖现时输入。是以GDN不错用parallelscan并行检修。

和

（三）为什么并行这样病笃？GPU的"搬运工"瓶颈

一个常见的曲解是将"串行慢"归因于更多的浮点运算。现实上，瓶颈在别处。当代GPU的缱绻中枢（TensorCore/CUDACore）算力极为充沛，A100GPU每秒能作念312万亿次浮点运算（312TFLOPS）。信得过的瓶颈不是"算"，而是"搬"。

GPU的存储分为两层：

HBM（HighBandwidthMemory，高带宽显存）：容量大（40-80GB），但读写速率"慢"（约2TB/s）。模子参数、state矩阵S、中间activation都存在这里。

SRAM（片上缓存）：容量小（每个SM约192KB），但读写速率极快（约19TB/s，快10倍）。GPU的缱绻中枢只可径直考查SRAM。

打个比喻：SRAM像责任台（小但垂手而得），HBM像仓库（大但每次取货要走一回）。

是以每一次缱绻都要资格一个"搬运"过程：把数据从HBM搬进SRAM，在SRAM里算完，再把收尾搬回HBM。这个搬运的时间时时远超缱绻本人，这即是所谓的memory-bound（存储带宽瓶颈）。

Parallelscan+fusedkernel的信得过威力在于：把通盘序列的N步递推打包成一个大算子（fusedkernel），S矩阵只需要从HBM搬进SRAM一次，在SRAM里承接算完通盘步，再搬且归。数据搬运次数从

降到

要是不行parallelscan（比如TTT），每个token都要独就地跑一遍迭代缱绻，每个token都要独占一次HBM与SRAM之间的搬运，搬运次数是

退化到

，硬件运用率断崖式下降。实测TTT-MLP比GDN慢174倍，根源不在于浮点运算量的等比增多，而在于HBM↔SRAM数据搬运次数从

能否适配parallelscan不仅是算法设计上的好意思学选拔，更径直决定了10-100倍的现实运行速率各别。

（四）Rank-1写入的瓶颈

以GDN（GatedDeltaNet）为代表的线性小心力模子，每个token对S作念的是一次rank-1更新：

"擦"的部分竣事了选拔性淡忘：是全局scalargate限度举座衰减，

在方朝上作念rank-1的选拔性淡忘，为新写入腾出空间。信得过的瓶颈在“写”：每次只可往S里写入一个rank-1的外积

的顾忌矩阵上只更正了"一溜”。

（即两个向量的乘积，收尾矩阵的通盘行都是湮灭个方针的缩放），相称于在通盘

要是一个token佩带的语义是多维度的（它同期是某个句法结构的要素、某个语义脚色的载体、某个topic的枢纽词），rank-1的一溜写入无法同期在这些维度上作念细巧诊疗。信息在压缩写入时不可幸免地丢失。

中枢矛盾：背包有限，每次却只允许写一溜。这是现时通盘线性复杂度模子的共有瓶颈。

（五）TTT的突破与代价

既然rank-1写入太浅，一个当然的宗旨是：让模子学会更深的写入轨则。

TTT（Test-TimeTraining）系列责任采纳了一种根人道不同的计谋：把顾忌景色从一个linear矩阵S升级为一个MLP的权重矩阵。每来一个token，对MLP的权重作念多步梯度下降（multi-stepGD），迟缓艰深写入内容。这带来了权贵的质料进步。

但TTT的多步GD冲突了历史景色无关前提。每步的梯度

，带来174倍的速率差距。

了债

不再是输入的纯函数，parallelscan的数学前提从压根上被冲突。后果很径直：每个token的缱绻都要独就地、串行地跑一遍梯度下降轮回，fusedkernel打包不了，HBM与SRAM搬运次数从

又依赖前一步，这让

，而

依赖现时权重

PRISM要治理的中枢问题：设计一个多步写入机制，同期知足两个条目——(1)像TTT一样有步长×残差×方针的多步迭代深度；(2)像GDN一样

都是历史景色无关的，能被打包成parallelscan的fusedkernel。

二、分析：TTT-MLP为什么后果好，但速率慢？

开云体育app2026世界杯中国官网下载

在设计PRISM之前，米乐体育M6 Sports咱们首先深入分析TTT-MLP的梯度结构，弄明晰它的高抒发力到底从何而来。

（一）步长×残差×方针模式的深刻

TTT-MLP的景色是两层网罗

。伸开其W₂的梯度更新：

每步更新具有一个结构模式：

步长：

，每个hiddenunit的activation，限度写入强度

残差：，现时还没写好的部分，跟着更新迟缓递减

方针：

每步更新是以方针每步不同

，写入的方针，因为

TTT-MLP的高抒发力正来自这个步长×残差×方针模式：多步残差递减提供了优化深度（depth），W₁多行提供多个方针则提供了抒发宽度（width/rank-L）（即同期修改S矩阵的L个平定维度）。

（二）高抒发力与串行是湮灭根因的两面

枢纽洞悉：驱动步长×残差×方针模式的是权重每步更新。正是因为

每步都在变，方针才会变（width），残差才会减（depth）。但湮灭个“权重每步更新”也恰正是串行的根源。

具体来说，它形成了两个维度的串行瓶颈：

1.Token间串行（Inter-tokenSeriality）

瓶颈A（淡忘与写入的耦合）：TTT的梯度更新让S的淡忘和写入纠缠在一皆，recurrence无法写成第一节所述的线性情式

，parallelscan的前提不再知足。

瓶颈B（残差依赖历史景色）：每个token的残差

，通盘token的缱绻过程只可列队实践。

需要读取前一个token的精准景色

2.Step间串行（Intra-stepSeriality）

瓶颈C（方针与残差的同步）：在多步GD中，第l+1步的写入方针必须恭候第l步的权重更新完结才能笃定，残差也必须等上一步算完才能得到，强制引入一个无法伸开的轮回。

瓶颈C是最中枢的矛盾：它同期是rank-L抒发力的载体和步间串行的根源。因此撤消瓶颈C不行简便取消迭代，必须在取消同步耦合的同期保留多方针和残差递减带来的抒发力。

三、技艺：PRISM的设计与竣事

基于上述分析，PRISM的计谋相称明确：在兼容parallelscan的线性景色S上显式重建TTT-MLP的步长×残差×方针模式，然后分维度撤消串行。

（一）中枢迭代形状：步长×残差×方针

PRISM显式构造了TTT-MLP的多步迭代模式：

每步是

（步长×残差×方针），L步积累rank-L写入。

与TTT-MLP的对应联系：

为什么PRISM必须用学得的

的外积，对loss求梯度时，行方针老是与k共线，梯度的行方针锁死在k方朝上，L步GD积累恒久rank-1。TTT-MLP之是以能rank-L，是因为

而不行径直作念多步GD？因为在线性景色S上，线性景色的写入是

MLPhiddenlayer的非线性提供了隐式的多方针。PRISM在线性景色上莫得hiddenlayer，必须显式引入L个可学习方针来补回这一才调。

（二）撤消Token间串行：A/B分歧+局部Anchor代理

淡忘/写入分歧（治理瓶颈A）：PRISM的淡忘项保执跟GDN十足一致

内。使迭代式保执

，通盘非线性操作收尾在写入项

形状，parallelscan骨架不动，Mamba的scankernel径直复用。

局部Anchor代理（治理瓶颈B）：用局部历史景色

（局部anchor基于短卷积（ShortConv）竣事）替代全局景色S。Anchor只依赖局部输入窗口，不读S，通盘token的迭代缱绻不错同期运行。

至此，序列级别的parallelscan已十足规复。anchor让不同token的迭代不错同期启动，但每个token里面的L步之间仍需端正实践（瓶颈C）。

（三）撤消Step间串行：解耦链+闭合式瞻望算

治理瓶颈C。因为有了anchor，两条链当然解耦：

Directionchain解耦：

，因为anchor是事先给定的局部统计量（不依赖迭代过程），通盘L个方针不错同期算出。

Residualchain线性化：将迭代内的GELU非线性采纳进事先缱绻好的缩放统共（preconditioner）

，梯度下降的迭代过程退化为纯element-wise线性递推：

由此多步迭代推算得到闭合式：

L步的串行轮回被消解为单步闭合式缱绻。通盘多步梯度下降缱绻过程不错编译成一个fusedkernel，数据只需要从HBM搬进SRAM一次。

（四）架构全貌与GDN退化

多步梯度下降缱绻过程的原始产出是L个rank-1迭代缱绻：

不雅察迭代第一步使

，就得到了GDN+非线性修正项的形状：

，此前锋无前序输出，残差等于运行输入本人，且无需经过非线性变换，因此第一步的写入当然退化为

PRISM不错视为一种多步残差拟算缱绻过程，L=1时精准退化为GDN。后续步仅仅在第一步的基础上追加非线性修正，且不错使用lowrank网罗增量，稀奇参数目不杰出基础模子的10%。

四、实验收尾

（一）序列推选

在公开序列推选基准Amazon上，PRISM发扬与Transformerbaseline后果接近，杰出大大都线性小心力类技艺。缱绻效能方面，PRISM与GDN同级，比TTT-MLP快174倍。

（二）讲话建模（基于SlimPajama2B检修，130M参数）

在更大限制的讲话建模实验上（SlimPajama2Btokens，Mistraltokenizer），PRISM相似得回了全面当先：

PRISM在WikiTextPPL、LAMBADAPPL和9项Zero-Shot卑劣任务平均准确率上均为最优，当先GDN3.2个百分点。

（三）组件消融

检修PPL各别极小，但卑劣泛化各别浩大。单步solver(L=1)的检修PPL险些等于圆善版，但AvgACC下落2.9个百分点——rank-L的信得过价值不在next-tokenprediction上，而在需要精准长程检索的卑劣任务上。

更值得小心的是shared-Kvsbase-K的对比：solver两步共用平定的险些不掉分（−0.3），但复用GDNbase的key则大幅退化（−1.5）。这讲解solver需要我方的方针空间，在GDN还是写入的key方朝上重叠操作无法补充新信息。

五、延长念念考

（一）有限背包终究有限，羼杂架构也许是势必

即使有了rank-L的深度写入，有限背包终究是有限的。S的容量是

，当序列长到几十万token，枢纽信息如故可能被遮蔽。

从PRISM的视角看，这个直观有一个很好的本事解说。PRISM用短卷积（ShortConv）缱绻的局部anchor替代全局景色S来近似残差。由于短卷积窗口时时只遮蔽最近3-4个token，关于需要高出数千步的长程依赖，近似质料势必下降。

要是在PRISM层之间穿插极少Transformer层，后者就充任了一种全局的、非线性的历史景色精准缱绻器，能抵偿anchor在长程上的近似谬误。从这个角度看，Transformer本人即是ShortConvanchor的"全局升级版"：ShortConv用固定窗口的局部卷积近似历史景色，Transformer用全局attention精准算历史景色。

这也许解说了为什么近期险些通盘发扬最佳的长序列模子（Jamba、Zamba、Griffin等）都禁受了羼杂架构：不是因为LinearAttention或SSM存在才调辗转而需要Transformer算作补充，而是因为有限背包和无穷背包在架构层面是互补的。前者提供

的高速处理和压缩存储，后者提供精准的长程检索。羼杂架构让模子有机领悟过Transformer层找回有限背包中丢失的信息。

（二）线性小心力的LoRA？

PRISM的最终形状有一个旨趣的结构特征：

这个"基础迭代过程+lowrank旁路"的形状，跟LoRA（Low-RankAdaptation）相称相似，这启发了一个微调场景下的旨趣念念路。

LoRA的中枢念念想是：冻结预检修好的大模子权重，只在枢纽层附近加一条low-rank旁路来作念微调。受PRISM形状的启发，咱们不错联想一种面向LinearAttention/SSM模子的参数高效微调技艺：对已检修好的模子，冻结基础迭代过程，只在写入岔路上增多一条PRISM格调的残差拟合旁路，此外，这条旁路有闭合式（不增多检修时间），何况第一步退化为原模子的轨范写入（不随心预检修学问）。这意味着它知足LoRA的两个枢纽要求：参数高效和不毁伤原模子才调。

结语

PRISM考证了"写入前念念考"范式在线性小心力模子中的可行性：通过分析TTT-MLP的梯度结构揭示步长×残差×方针迭代模式，在线性景色上显式重建该模式并通过anchor代理和闭合式瞻望算竣事十足并行。最终架构极简——GDN+非线性旁路，检修速率与GDN同级，参数增量不到10%。在推选和讲话建模两个场景上的考证标明，这是一项通用的线性小心力增强本事。改日咱们将进一步探索PRISM在更大参数限制上的scaling行动和推选系统上的应用后果，以偏激算作线性小心力模子参数高效微调技艺的现实后果。

参考文件：

[1]Sunetal.“Learningto(LearnatTestTime):RNNswithExpressiveHiddenStates.”NeurIPS2024.

[2]Yangetal.“GatedDeltaNetworkswithPairwiseTokenizedGraphs.”NeurIPS2024.

[3]Katharopoulosetal.“TransformersareRNNs:FastAutoregressiveTransformerswithLinearAttention.”ICML2020.M6体育app2026世界杯(中国)官方app下载

M6体育app2026世界杯(中国)官方app下载 当线性小心力学会「写入前念念考」: 并行化的多步顾忌写入

M6体育app2026世界杯(中国)官方app下载当线性小心力学会「写入前念念考」: 并行化的多步顾忌写入