发布信息

谷歌Titan架构挑战Transformer:超越GPT4和Llama3,实现200万上下文窗口的高效记忆

作者:软荐小编      2025-01-15 21:02:49     60

有很多新的架构想要挑战Transformer,而来自Google的“正统”继承者Titan架构则引起了更多关注。

谷歌协作平台_谷歌战略_

NVIDIA 将测试时计算称为大型模型的第三个缩放定律。

OpenAI 将其用于推理,Google 这次将其用于内存。

第一作者 Ali Behrouz 说:

Titan 比 Transformers 和现代线性 RNN 更高效,并且可以有效扩展到超过 200 万个上下文窗口,性能优于 GPT4 和 Llama3 等大型模型。

他还解释了这项研究的动机。该团队认为,Transformer 中的注意力机制表现为短期记忆,因此还需要一个能够记住很久以前的信息的神经记忆模块。

_谷歌协作平台_谷歌战略

新型长期记忆模块

说到内存,你可能会想到LSTM、Transformer等经典模型。它们从不同角度模拟人脑记忆,但仍然存在局限性:

此外,仅仅记住训练数据可能对实际使用没有帮助,因为测试数据可能在分布之外。

为此,泰坦团队的目标是将过去的信息编码到神经网络的参数中,训练一个在线元模型,该模型学习如何在测试时记住/忘记特定数据。

他们从神经心理学中汲取灵感,设计了一种借鉴人脑原理的神经长期记忆模块:

_谷歌战略_谷歌协作平台

这种在线元学习范式可以防止模型记住无用的训练数据细节,而是学习如何根据新数据进行自我调整,并具有更好的泛化能力。

此外,团队还验证了该模块可以并行计算。

_谷歌协作平台_谷歌战略

如何将这个强大的内存模块集成到深度学习架构中?

为此,泰坦提出了三种变体:

MAC,内存作为上下文

长期记忆和持久记忆(编码任务知识的不变参数)作为当前输入的上下文,一起输入注意力。

谷歌战略__谷歌协作平台

MAG,内存作为门

在记忆模块和滑动窗口注意力的两个分支上进行门控融合。

谷歌战略__谷歌协作平台

MAL,内存作为层

记忆模块作为一个独立的层来压缩历史信息,然后输入到attention中。

谷歌协作平台_谷歌战略_

在实验中,发现每种方法都有自己的优点和缺点。

Titans 在语言建模、常识推理、时间序列预测等任务上全面超越 Transformer、Mamba 等各种架构的 SOTA 模型。

并且仅仅依靠长期记忆模块(LMM,Long-term Memory Module)本身,它就在多项任务上击败了基线。

证明即使没有短期记忆(即Attention),这种机制也具有独立学习的能力。

_谷歌战略_谷歌协作平台

在长文本中寻找细粒度线索的“大海捞针”测试中,序列长度从2k增加到16k,准确率保持在90%左右。

_谷歌战略_谷歌协作平台

不过,团队认为这些通用测试已经无法体现泰坦在长文本方面的优势。

在另一项需要对极长文档中分布的事实进行推理的任务中,Titans 的性能优于 GPT4、Mamba 和 Llama3.1 + RAG 等系统。

_谷歌协作平台_谷歌战略

此外,Titans 在时间序列预测、DNA 序列建模等特定任务中也取得了良好的表现。

这三位作者来自 Google Research NYC 算法和优化团队,尚未并入 Google DeepMind。

其中之一是康奈尔大学的实习生阿里·贝鲁兹 (Ali Behrouz)。

_谷歌战略_谷歌协作平台

钟培林是清华大学姚班校友,毕业于哥伦比亚大学,获博士学位。他将于 2021 年加入 Google,担任研究科学家。

2016年,钟培林本科期间的第一篇论文被顶级会议STOC 2016接收,这是中国本科生首次在STOC上发表第一篇论文。

谷歌战略_谷歌协作平台_

团队负责人 Vahab Mirrokni 是 Google Fellow 兼副总裁。

谷歌协作平台__谷歌战略

该团队表示,Titians 是在 Pytorch 和 Jax 中实现的,并计划很快提供用于训练和评估模型的代码。

论文地址:

参考链接:

[1]

相关内容 查看全部