亚博ag百家乐
AG百家乐路子 谷歌新架构拔除Transformer,长序列处理王者出身?清华姚班学友新作
发布日期:2023-12-28 16:26    点击次数:53

新智元报谈AG百家乐路子

裁剪:泽正 英智

【新智元导读】团队建议的Titans架构通过引入神经长期追悼模块,冲突了传统Transformer架构在长序列处理中的局限。该架构通过翻新的追悼整合和淡忘机制,在话语建模、学问推理、技能序列臆测等任务中展现了显耀的性能种植,在长高下文任务中的上风凸起。

Transformer后继者终于现身!

2017年,Attention Is All You Need初次引入留神力机制,成为当代LLM出身标志。

固然Transformer仍是大行其谈,但其架构的颓势却饱受诟病,尤其是无法推广更长高下文。

正所谓,「风波越大,鱼越贵!」

近日,谷歌讨论团队逆水行舟,建议相沿200K高下文处理窗口的新架构——Titans。

最迫切的是,纵容推广到2M高下文的Titans架构,要比Transformer和线性RNN愈加灵验。

论文相连:https://arxiv.org/abs/2501.00663

Titans是什么

讨论者以为大多半现存架构将追悼视为由输入引起的神经更新,并将学习界说为在给定蓄意的情况下灵验获取有用追悼的过程。

从这个角度来看,(RNN)不错被界说为具有向量值追悼模块ℳ(也称为荫藏现象)的模子,其主要设施包括:在技能t给定新输入时,

(1)使用函数更新追悼(带有压缩);

(2)使用函数检索输入的相应追悼。

雷同地,Transformer不错被视为具有握住增长的追悼和两个相似设施的架构。即:

(1)通过将键和值附加到追悼中来更新追悼(无压缩);

(2)通过查找查询向量与键向量的相似性来检索查询向量的相应追悼,然后将其用于加权值向量以生成输出。

由于追悼分为短期追悼、职责追悼和长期追悼,而其中每个部分王人相互独当场办事于不同的场景,也具有不同的神经结构。

受此启发,讨论者建议了两个问题:

1. 如何联想一个高效架构,将不同且相互关联的追悼模块整合起来?

2. 是否需要一个深度追悼模块,以灵验存储和记着长期历史信息?

本讨论旨在通过联想一个长期神经追悼模块来惩办上述问题,神经长期追悼模块的联想受到东谈主类长期追悼系统的启发,能存储和检索当年的信息。

该模块不是无判袂地记着所有信息,而是和会过「惊诧度」来选拔性地记着那些迫切或令东谈主惊诧的信息。

何况其追悼不是静态的,不错阐明新的信息动态更新。这种动态更新机制雷同于东谈主类的学习过程,使得模子或者握住稳当新的数据和任务需求。

为了更好地管制有限的内存,模块引入了衰减机制。该机制阐明追悼的大小和数据的惊诧进度来疗养追悼的权重,从而优化内存管制。

长期神经追悼模块联想完成后,濒临的一个重要问题是如何把追悼高效地整合进深度学习架构。讨论者建议了Titans架构,由三个模块组成:

1. 中枢模块(Core):包含短期追悼,认真主要的数据处理经过,采器用有有限窗口大小的留神力机制。

2. 长期追悼模块(Long-term Memory):此模块是讨论者联想的神经长期追悼模块,认真存储和记着远距离的历史信息。

3.捏久追悼模块(Persistent Memory):这是一组可学习但与数据无关的参数,主要用于对任务知识进行编码,为模子提供先验知识储备。

在此基础上,讨论者建议了Titans架构的三种变体:

追悼算作高下文(MAC)架构

中枢分支把对应的长期追悼、捏久追悼和现时输入信息拼接在沿路,然后用留神力机制来处理高下文,并决定哪些信息应存储在长期追悼中。

在测试时,与高下文追悼对应的参数仍在学习,与中枢分支对应的参数认真高下体裁习,而捏久追悼的参数则认真存储任务关系知识,因此是固定的。

追悼算作门控(MAG)架构

在此架构中,一个分支用输入数据更新长期追悼,另一个分支使用滑动窗口留神力(SWA),终末将两者扫尾通过门控机制组合。

在此联想中,滑动窗口留神力充任精准的短期追悼,而神经追悼模块则算作模子的衰减追悼。这种架构联想也可视为一种多头架构,其中头的结构各不相似。

与MAC架构不同的是,MAG架构仅将捏久追悼融入高下文,并通过门控机制将追悼与中枢分支鸠合。门控机制决定了来自捏久追悼的信息在多猛进度上影响中枢分支的处理扫尾。

追悼算作层(MAL)架构

将神经追悼模块算作深度神经聚积的一层,鸠合滑动窗口留神力机制。追悼层的中枢功能是对当年和现时的高下文信息进行压缩处理,之后将处理扫尾传递给留神力模块。

在测试时去学习追悼

神经长期追悼模块

关于神经聚积来讲,追悼能力通常反而会规矩模子的泛化能力,并可能激勉逃匿问题,导致在测试时性能下落。

此外,由于测试数据可能属于辨认外数据,磨砺数据的追悼在测试时可能就并莫得什么效率。

因此,讨论者以为,磨砺长期追悼的重要想想是将其磨砺视为一个在线学习问题,学会在测试时如何记着或健忘数据。在这种树立中,模子学习的是一个或者追悼的函数,但不会过拟合磨砺数据,从而在测试时完好意思更好的泛化。

学习过程与蓄意函数:由于令东谈主惊诧的事件对东谈主类来说更易记着。受此启发,作家将「惊诧度」界说为联系于输入的梯度。梯度越大,输入数据与当年数据的互异就越大。因此,应用这个惊诧度,咱们不错更新追悼如下:

如斯就能将当年的信息压缩到长期神经追悼模块的参数中。

然则,这种惊诧度的度量设施也可能会导致错过一些迫切信息。也等于说,在若干个惊诧设施之后,aG百家乐真人平台梯度可能变得尽头小,从而导致堕入平坦区域(即局部最小值),错失序列中的某些信息。

而从东谈主类追悼的角度来看,某个事件固然值得记着,但可能不会在很长技能内一直让咱们感到惊诧。

因此为了阅兵上述惊诧度度量,作家将惊诧度度量分为两部分:(1)当年的惊诧,臆测最近当年的惊诧度;(2)瞬时惊诧,臆测行将到来的数据的惊诧度。

在此公式中,项是数据依赖的惊喜衰减,规矩着惊喜随技能如何衰减;而项 θt 则规矩着应以数据依赖的方式将几许瞬时惊喜纳入最终的惊喜度量中。

这种数据依赖性在此联想中尤为迫切:固然前一个象征的惊喜可能影响下一个象征的惊喜,但这主要在所有象征关系且处于归拢高下文时才灵验。

因此,数据依赖的η不错规矩追悼是否需要:

(1)通过树立→0忽略上一次的惊喜(可能由于高下文的变化)

(2)通过树立→1透彻纳入上一次的惊喜(可能因为该象征与其最近的当年象征高度关系)。

在本职责中,作家专注于关联追悼,旨在将当年的数据存储为键值对。即给定,雷同于Transformers,使用两个线性层将其投影为键和值:

接着,作家但愿追悼模块或者学习键和值之间的关联。为此,界说亏损函数如下:

通过在元模子的内轮回中优化上述亏损函数,模子就不错学会如安在测试时追悼键与值之间的映射。

淡忘机制:在处理尽头大的序列(举例,数百万个象征)时,明确哪些当年信息应该被淡忘至关迫切。为此,作家使用了一种自稳当淡忘机制,允许内存淡忘不再需要的信息,从而更好地管制内存的有限容量。也等于说,给定下一个象征,然后将更新规矩修改为:

其中是纯真规矩追悼的门控机制;即决定应淡忘几许信息。举例,它不错通过让来更新追悼而不影响当年的轮廓,并不错通过让来根除所有这个词追悼。

检索追悼:作家绵薄地使用不更新权重的前向传递(即推理)来检索与查询对应的追悼。情势上,给定输入,使用线性层 WQ 来投影输入,即,并通过以下方式从追悼中检索相应(或有用的)信息:

推行扫尾

在话语建模及学问推理任务中,对340M、400M、760M等不同参数界限下的Titans变体与多种基线模子进行对比。非搀和模子里,Titans (LMM) 在困惑度和准确率上发达优异。

搀和模子对比中,Titans的三个变体均比基线模子更好。MAC和MAG全体性能高于MAL,能更好地整合留神力和追悼模块。

在S-NIAH任务里,基于RULER基准测试,对2K、4K、8K 和 16K长度序列赐与评估。神经追悼模块相较基线模子上风显耀。在Titans变体中,MAC性能最好。

在BABILong基准测试中,Titans (MAC) 展现了独特的性能,或者灵验推广到进步200万的高下文窗口,高出了GPT-4、Llama3+RAG和Llama3-70B等大模子。

Titans (MAC) 的参数目远少于基线模子,展现出在长序列推理方面的高效性和巨大能力。在微调树立要津,Titans(MAC)的发达更为出色。

讨论发现,加多追悼深度可种植模子在较长序列上的性能,并改善困惑度,但磨砺速率会因此镌汰,呈现出性能与效果之间的衡量。

通过在Simba框架中替换Mamba模块,并在ETT、ECL、Traffic和Weather等基准数据集上测试,神经追悼模块高出了所有的基线模子。这标明其在处理技能序列任务中的潜在上风。

在DNA建模任务中,Titans架构也展示了其巨大的长序列处理能力。推行扫尾标明,Titans架构在这些任务中或者灵验地应用历史信息,从而提高模子的性能。

消融讨论标明,神经追悼模块的所有组件对模子性能均有积极孝顺,相当是权重衰减和动量。MAC和MAG在话语建模和学问推理上发达临近,但MAC在长高下文任务中发达最好。

Titans架构通过引入神经长期追悼模块,显耀提高了模子在处理长序列数据时的性能和效果。

推行扫尾标明,Titans架构在话语建模、学问推理、技能序列臆测和DNA建模等任务中均发达出色,相当是在处理超200万高下文窗口任务中,或者灵验地应用历史信息,提高模子的准确性。

作家先容

Ali Behrouz

Ali Behrouz现在是康奈尔大学计较机科学系的二年齿博士生,同期亦然Google Research的讨论实习生。在加入康奈尔之前,他在哥伦比亚大学师从Margo Seltzer老师,取得计较机科学硕士学位。

他对各样化的讨论主题感兴致,现在正用功于深度学习架构、图暗意学习、医疗保健中的机器学习以及计较神经科学等领域的讨论。

Peilin Zhong

Peilin Zhong现为谷歌纽约市算法与优化团队的讨论科学家,该团队由Vahab Mirrokni相易。他在哥伦比亚大学获取博士学位(导师为Alex Andoni、Cliff Stein和Mihalis Yannakakis)。此前,他是清华大学交叉信息讨论院(姚班)的本科生。2016年,他以第一作家发表的论文被顶会STOC 2016接收,创下初次有中邦本科生在STOC上发表一作论文的记载。

他对表面计较机科学有粗俗的兴致,主要聚积在算法的联想与分析上。一些相当感兴致的领域包括并行和大界限并行算法、逃匿算法、草图算法、流算法、图算法、机器学习、高维几何、度量镶嵌、数值线性代数、聚类甚尽头他与大界限数据计较关系的算法。

Vahab Mirrokni

Vahab Mirrokni在纽约的谷歌讨论院相易算法与优化团队。团队包括市集算法、图挖掘和大界限优化小组。此外,他还在纽约大学库朗讨论所担任兼职副老师,教授互联网算法与经济学。

参考良友:

https://arxiv.org/abs/2501.00663

https://x.com/behrouz_ali/status/1878859086227255347