曼巴(Mamba
作者:bat365在线平台官网日期:2025/07/12 浏览:
机器核心汇编的原始文本:Albert Gu编辑:Chen Chen,du Wei“令牌化(分词)是变压器模型需要佩戴的束缚,以使自己的缺点。”最近,Mamba的作者Albert Gu,CMU的助理教授,Cartesia AI的首席科学家撰写了一个新博客,探讨了国家空间模型(SSM)和变形金刚之间的权衡,并通过了这种观点。该博客是基于去年阿尔伯特·古(Albert Gu)的演讲。尽管演讲的内容易于理解和针对广泛的观众,但一些有趣的友好见解,观点和原则被认为是受专业研究人员的启发。在社交媒体X上,阿尔伯特·古(Albert Gu)提出了这样一种观点,即“代币是胡说八道”,而概述主要建筑开发NA将于接下来发布。资料来源:https://x.com/_albertgu/status/1942615020111876248评论部分中的许多网民同意Albert Gu的观点,谎言去除令牌化将对计算效率产生积极影响。状态空间模型本文首先定义了状态空间模型(SSM)。以下公式是指国家空间的(结构化)模型,这些模型源自一系列作品,最终诞生了Mamba。状态空间模型可以被视为重复神经网络(RNN)的现代版本,具有多个关键功能。尽管此类模型的实现需要许多技术任务,但本文首先捕获了使此类模型成功匹配变形金刚建模性能的关键要素。 TATLONG主元素1。状态大小SSM的关键特征之一是隐藏状态的大小,即H_T大于输入和输出“ x_t,y_t”。主要思想是:在自回旋建模中,任何重复网络的隐藏状态是获取模型上下文的唯一方法。因此,用于建模密集的信息方式,例如语言GES,该模型需要足够大的状态空间来存储未来要调用的相关信息。在SSM中,如果每个输入X_T都是一维标量,则隐藏状态H_T是N维向量,其中N是独立的超参数,称为状态空间,状态大小或状态扩展因子。这种类型的模型也称为SISO(单输入单输出)SSM,它允许Modelo存储RNN传统信息,例如LSTM和GRU。 2。国家表达模型不仅需要在理论上具有足够大的状态空间来存储相关上下文信息,而且还必须具有强烈的更新状态的状态,以便准确地准确并调用所需的信息。 “线性时间-Invariant” SSM的早期版本使用简单的递归公式“ H_T = AH_T -1+BX_T”,其更新策略在每个步骤中保持不变。尽管该机制适用于压缩数据,例如音频,但很难处理采用 - 例如具有可变信息速率的语言 - 该模型应选择性地记住基本信息。由Mamba代表的选定的SSM通过动态传输矩阵解决了Maluthis问题:随着时间的推移,其传输矩阵的变化并取决于数据本身,从而使递归过程更具表现力。值得注意的是,这些机制与经典RNN的封闭结构密切相关。这是现代循环模型最活跃的研究领域,重点是理解各种矩阵A_T传输参数的理论表达以及这些参数如何影响模型在状态空间中的内存能力。 3.卓越的训练扩大了周期状态的能力和表达,但它包括模型面临的计算效率的基本瓶颈。 Mamba通过仔细设计递归参数化技术并使用经典来结束此问题算法的平行。当前出现的算法中有许多变化具有以下共同特征:相似之处:专注于相似性并实现诸如GPU和TPU -MATHS等加速器的实用效率,通常用作主要操作;内存管理机制:应仔细控制内存的使用,尤其是采用状态扩展的模型,但实际上,整个状态不能在基本内存中实现! Mamba通过深入了解GPU存储层次结构实现硬解决方案,大多数后继者通过重建整个计算路径来防止在不人道培训期间进行明确的状态计算;线性特征:模型通常需要维护有关“ X_T”的线性,因此有些人将这种模型称为线性圆形模型。线性特征对计算效率以及建模或优化功能有重要影响(有关特定审查详细信息,请参见下文)。曼巴 - 系统的整合必须指出,以下三个技术要素不是第一:元素1:线性关注和早期SSM采用了类似的状态扩展公式;元素2:选择性机制的设计灵感来自经典RNN的封闭结构,例如LSTM和GRU,这是密切相关的;元素3:算法教养符中用于先前的SSM或线性RNN,例如S5和LRU,线性注意变体还使用基于矩阵再现的平行训练算法。 Mamba的主要成功是在将所有这些技术元素集成在一起时,都可以欣赏到刺激,模型可以在语言建模活动中实现LeapFrog性能崩溃,并实现与变压器相当的结果。从那时起,现代的圆形模型从那以后,现代的循环研究模型显示出爆炸,各种新模型都回荡了。尽管这些研究的动机和复杂性有多种,但它们分享了similAR技术核心:诸如RWKV,XLSTM和Griffin之类的模型继续进行RNN范式,该模型称该状态为矩阵状态(功能1),将选定的机制称为门控;线性注意力导致融合因子1和因子3(并行算法),以及随后的变体,例如GLA,门控Deltanet等。引入了增加数据依赖性而不是(B,C,C,X)的机制。 Mamba-2可以同时将MAMBA-2视为SSM或线性注意。许多最近的模型提出了培训测试/回归框架,将递归更新视为优化在线内存内存的过程。在这些框架中,状态被认为是会员记忆,并且通过小批处理梯度下降实现了相似性。主要的均匀性是,几乎所有模型都可以与相同的SSM公式(1)结合在一起,主要区别在于传输矩阵A_T(元素2)和相应的大学TR的设计结构Aining算法(元素3)。本文使用状态空间模型(或现代循环模型)一起引用了大类新兴模型 - 它们准确地介绍了诸如SISO线性递归和状态扩展之类的关键特征。当然,考虑到技术的同源性,其他命名系统同样是合理的!尽管该领域的研究正在超速发展,新模型仍在继续,但本文认为,当前模型仍然具有很高的均匀特征,并且经验性能通常是可比的。特别是与二次注意机制相比,这些模型之间的相似性高于其变压器差异。接下来,我们将重点关注SSM和Transformer之间更高的权衡订单。状态,大脑和数据库本文认为,它们之间的权衡可以通过观察自回家状态中的不同模型以及它们如何与之合作来更好地理解。这是什么意思?我否则,每个自回归模型(例如像现代大型语言模型一样从左到右生成数据的模型)是一种“状态空间模型”,在内存中保持特定状态并使用每个步骤进行更新(例如构成每个单词的LLM过程)。序列模型的自回归状态自重新收入的变压器的主要元素是自我-at的(原因)机制,通常由特定操作定义:计算序列中每对元素之间的相互作用。因此,计算成本随阶的长度而二次增加,这通常被认为是主要缺乏注意力机制。相比之下,由于递归公式(1)中的每个步骤的时间的时间仍然相同,因此完整解释的处理时间随后与顺序长度相关联,这通常被认为是状态空间模型的主要优势。但是,而不是思考AB在培训阶段,本文考虑了这些模型的计算成本,考虑了更多的照明,以关注他们在理解过程中处理新投入时会发生的情况。当一层自刺激收到一个新的令牌时,需要将令牌与以前出现的所有元素进行比较。这意味着它应该在整个上下文中缓存每个以前令牌的表示。每次收到新输入时,都应将其添加到缓存中,因此缓存的大小在上下文的长度上连续增加。 Sa Kaundefech不幸,状态空间模型始终将“ X_1,⋯,X_T”上下文汇总为隐藏状态H_T(请参阅公式(1)),并且该隐藏状态的大小已固定。固定大小状态是该模型与数据交互的唯一方法:它继续接收数据流,将其迫使该数据流并依靠此状态来做出决策或生成新的输出。无需挖掘特定定义这里不同模型的it。可以说,这些模型可以从“自回归状态”的第一个原理确定:变压器(自我验证机制)的特征是其历史上的每个元素的状态,并通过在整个缓存中行走与新输入的数据进行交互。状态空间模型(SSM)的特征在于其状态,该状态压缩了整个无关的rmation和以在线流方式与新输入数据进行交互。粗略的相似性尽管状态空间模型(SSM)通常被视为更好但略低于变压器变体,但事物并不简单。尽管不考虑计算效率,但在这两种类型的模型之间,在归纳偏差(或建模能力)方面有不同的权衡。考虑到差异 - 在两个过程数据的方式中,本文创建了一个粗略但适当的相似性来描述它。变压器类似于数据库:它们存档h新观察作为重要信息,以供将来参考。相比之下,状态空间模型(SSM)与大脑相似:存在大小的边界记忆,始终处于糟糕状态,实时处理新输入并开发输出。尽管这种相似性相对清楚,但它将直观地帮助解释观察到的某些行为模式。例如,SSM不记得整个电话簿,并且一次完全不阅读它,或者准确地从内存中召回任何人的电话号码。当然,人们做不到 - 我们在准确的记忆和获取方面做得不好 - 但似乎并不能避免智力!另一方面,变压器对上下文长度(高速缓存大小超过)具有基本的艰难限制,而诸如SSM之类的递归模型可以理论上可以维持像人一样长(但不清楚)以前的记忆。一个更有趣的经验发现 - 也许MAH从AFO中预测相似之处 - 驾驶两种类型的信息处理可能会更强!正如可以使用笔记本和外部引用来增强人类智能一样,当使用简单的交替方法使用SSM及其注意力层的SSM时,语言模型的能力也可以提高。更有趣的是,它已经能够团结许多研究团队(包括H3,Jamba,Zamba,Samba和许多出现的模型),最佳的SSM比率与注意力层的比率约为3:1和10:1。外部数据库),那么此比率似乎在一定程度上也证实了这一点!现在,这种混合模型已扩展到巨大的尺寸(例如,使用MOE架构的参数总数达到5600亿次),并由多个领先的实验室推出,例如NVIDIA的Nemotron-H和Tencent的T1/Turbos,所有这些都在许多活动中都取得了州立的状态性能。您需要注意吗?因此,“您需要的所有人”,对吗?那里今天是一个普遍的观点:Transforme是最终的体系结构,可以从原始数据中学习任何东西。只要有足够的数据和足够的计算资源,唯一的瓶颈就是计算的强度。但是事实并不容易。注意确实是独一无二的,并且已成为几乎所有模式的主要脊柱,从第一种使用语言,视觉,音频等等。但是,还有更多的细节值得讨论。 AR想要Dothis的观点是:要真正有效地使用变压器,必须在很大程度上复制数据。为了支持这一观点,让我们首先看一下变压器如何在训练中使用。在几乎所有实际的应用程序过程中,将在输入变压器之前通过某种类型的编码来处理原始数据。示例:在视觉活动中,无论是分类还是生成,都需要“修补”步骤;在语言建模中,首先需要“令牌化”。这听起来很容易要理解:毕竟,注意机制的计算复杂性是二次的,我们希望尽可能简化输入数据(例如缩短顺序长度)。但是,本文想谈论的不仅是计算效率的问题,而且是一个更强的角度:变压器本身对建模功能有一定的局限性。我们应该删除令牌化吗?令牌化是所有语言建模过程中的重要一步,最常见的是BPE的算法,BPE在本文中使用。但是这个过程带来了许多问题,例如问大型模型“草莓中有多少个字母?”,这常常反应不正确,所有这些都暴露了分词机制的限制以了解语言的细节。那么,为什么我们仍在使用令牌化呢?从一个很大的角度来看,几乎所有人都同意:tokenize r既笨拙又丑陋,但应该存在。在实际应用中s,令牌化可以使订单的长度缩短 - 遵循大约一个数量级,从而提高了语言模型的计算效率。尽管有一些极端的情况,但在大多数情况下,它们都起作用。但是本文恰恰相反,并认为我们应该完全摆脱令牌化,这不仅是出于实际原因,而且是出于美学和难以想象的护理。除了调整侧面案例(例如草莓一词有几个字母r)外,去除令牌化还与深入研究的本质更一致。深入的研究始终专注于更改设计的工程功能,并具有强大的端到端神经网络,这些神经网络可以自动从数据中学习模式。从CNN用计算机视觉替换人工设计的侧探测器的CNN用变压器代替语言处理功能语言,AI的主要进步始终伴随着更少的数据处理和更自动的研究(作为促进的By痛苦的教训)。通过端到端模型改变令牌化将产生深远的影响,这可以从以下各个方面看:比例定律:从原始数据中研究更好的模式可以始终带来更强的模型能力;多语言和多模式处理:对于某些语言和其他类型的订单数据,令牌化始终是一个已知的问题,不能适应所有问题;推理能力:模型可以从数据中学习更多的语义模式并导致较高的抽象水平。没有象征化会发生什么?在LLM期间,实际上很少有论文被认为或试图解决“去除令牌”的探针。甚至很难找到一组可靠的基准测试,以评估无令牌的模型的性能。没有象征化会发生什么?从上图来看,我们可以得出一些令人惊讶的结论。但是现在我们只是在做一件事:保持模型和数据保持不变,只需取消令牌化(直接输入到字节),结果是变压器使用了更多的计算源,但在SSM后面发挥了很大的作用。要指出的第一件事是:在匹配失败的基础下,SSM的性能要比变压器更好。由于字节级的建模,这可能不足为奇,因此输入序列比BPE令牌的顺序更长,并且变压器受到Quadraticg的计算瓶颈的影响,在顺序的长度上变得复杂。但是,变压器的弱点不仅在于其效率,还在于其对建模能力的局限性。值得注意的是,即使变压器使用更多的计算源,也比SSM(与数据量相匹配,而不是计算量),SSM之前也是如此。为了进行比较:如果将两种类型的模型与完全相同的数据进行比较,但是进行数据令牌化,则两者的令人不安的曲线将是相似的(即使变压器会稍好一些),并且他们的风扇将相似。但是,如果在维持未改变的模型和数据时未对输入进行标记,则变压器使用更多的计算量,与SSM相比,其性能有显着下降。原始论文NG Mamba表明,在DNA语言建模活动中,Mamba的可扩展性明显优于没有特殊曲调的变压器。它可能会给我们一些启示:令牌化本质上是一个针对变压器缺陷设计的补丁程序,而当天然的低语义语义数据处理时,类似SSM的模型显示出更基本的建模优势,这可以重塑我们对基本语言模型的认知框架。要了解这里发生的事情,一个独特的心态是返回自回归状态。简而言之,由于变压器显然是以前的令牌缓存,因此它带来了感应偏见:有可能专注于每个特定令牌。或简短说明:软关注的感应偏见真的很难支付注意。在处理语言时,我们通常专注于单词或子词(例如根,前缀/后缀)等单元,并具有清晰的语义定义。但是,另一方面,如果这个假设是错误的 - 例如,当我们阅读时,我们很少关注单个字符,那么注意机制的性能将减少。更有趣的是,许多其他类型的数据位于两者之间的模糊区域。例如,在某些情况下,可以通过重要特征来捕获图像中的补丁,有时也有意义。但是在其他时候,它们可能毫无用处或语义不完整。续集中存在噪音时会发生什么?众所周知,LLM的培训数据通常需要大量的预处理,筛选和清洁,但没有现实世界数据(尤其是多模式数据)的情况。人们还可以在很多噪音中学到很多东西!因此,在非常简单的情况下,如果我们输入一些包装的令牌-NEXT而不包含任何信息,会发生什么?标准注意机制的另一种失败方式是在图中表达的:不应通过k^2扩展计算,并且在理解过程中不应以这种方式扩展内存的消耗。缓存毫无意义的噪声令牌绝对毫无意义。相反,SSM更好:即使冗余因子增加,模型的内存也不会增加。但这并不能完全解决问题,因为随着令牌的增加,任何计算体系结构量标准仍然会增加。因此,当前所有大型型号都是噪声或冗余时的母马性能损失。因此,模型的精细体系结构应通过以下填充处理此类任务,而不会(大)增加计算或内存使用,而不是盲目处理所有令牌。更通用的是,假设我们有两个数据集的副本,其中一个包含很多噪音,但通常它们具有相同的有用信息。我们必须曝光CT正确的体系结构可以在两个Datats上行动。它提出了一个问题:您需要注意吗?答案是,注意机制对于正确的抽象水平最有效。当然,这一说法是对实际情况的过度简化,并且他不知道如何正式定义抽象层次结构的概念。但是有一个模糊的套件,这是事实。国家空间模型与变压器空间模型之间的权衡首先讨论了好处。 SSM是具有自然状态内存的模型,非常适合高效,互动和在线处理。缺点是缺乏良好的回忆和收购能力。这两个就像同一枚硬币的两侧一样,根本原因是状态压缩机制的重要特性。那么压缩真的是智力的关键品质之一吗?有可能因为信息被迫压缩到较小的状态空间中,迫使模型确定更有用的模式和抽象?尽管压缩状态通常被视为许多文献中的缺陷,但这种观点可能是由于压缩带来的弱点可以很容易地计算出来,并且很难准确评估压缩带来的更微妙,更微妙的积极效应。尽管如此,当今肯定有很多有趣的应用程序,而SSM看起来像是一个合适的工具。 TransfereerTransFormer的性能很好,实际上,在需要关注单个令牌的活动中,变压器几乎是唯一要做的工具。变压器的优势在于它具有完美的纪念活动,可以在其上下文中运行个人的精细令牌。那么它的缺点是什么?每个人都知道变压器的主要弱点是二次复杂性。不是这样。本文的主题是o描述变压器具有感应偏置,这使其在建模功能方面较弱,而不仅仅是在Tunstill效率方面。像SSM一样,变压器的优点和缺失都是同一硬币的两侧,这两者都是其自回归状态结构的结果:令牌缓存维持给定输入分辨率的粒度。变压器的弱点可能会受到给他们的令牌。换句话说,它们与数据分辨率有关,语义内容更敏感。变压器的特征是其缓存的上下文,该缓存为每个元素存储一个单独的表示形式,这意味着每个元素都是最有用的。最后,让我们谈谈当前人工智能开发浪潮的主要动力之一:规模法律或现象,将更多的计算资源投资于模型将继续提高更多能力。这些定律总是以X轴为flop(浮点操作),并具有SOME性能指标为Y轴。这个想法是,该线的斜率测量了“将计算强度转换为能力的速率”。实际上,本文认为有一种流行的观点,即变压器只是以最佳方式执行此类更改的工具。它很好地描述了建筑研究的目标,本文只是在寻找一个可以以最佳方式进行此类更改的黑匣子。从这个角度来看,只有一个关键问题:该模型是否可以合理使用其计算能力?换句话说,本文希望每个翻牌都可以起作用。我期待这在阅读Artik之后,清楚地意识到每个人都会意识到变形金刚远非最好的解决方案(至少要自己设置自己!)。主题:这重要吗?尽管该集合被称为替代变压器方向上的领导者,但他也认为变压器是好的,注意机制确实是P建模的匹配。但是,也有一个事实,即变压器本身显然不是最终解决方案。我们还有很多工作要做。博客链接:https://goombalaba.github.io/blog/2025/tradeoffs/#- crood-analogy
相关文章