摘要
谷歌研究院在NeurIPS 2025发表的《Nested Learning: The Illusion of Deep Learning Architectures》提出了一种全新的机器学习范式——嵌套学习(Nested Learning),该范式通过将模型视为一组多层次、多时间尺度的嵌套优化问题,从根本上重新定义了深度学习模型的构建和训练方式。本文旨在系统剖析Nested Learning的理论基础、核心原理及其具体实现——Hope架构,深入分析其与传统深度学习模型在记忆机制、优化策略和学习能力方面的本质差异,并通过实验对比验证其在大模型持续学习、长上下文理解以及抗灾难性遗忘方面的显著优势。 注意 Titan和Hope都是谷歌研究院内部的项目,没有开源。
1 引言
近年来,深度学习尤其是大语言模型(LLMs)在自然语言处理、多模态理解等领域取得了令人瞩目的成就。然而,这些模型在持续学习(Continual Learning)方面仍面临根本性挑战,其中灾难性遗忘(Catastrophic Forgetting)问题尤为突出。即模型在学习新知识时,会不可逆地覆盖或遗忘已习得的旧知识,这使得模型难以像人脑一样在整个生命周期中不断学习、适应和进化。
传统深度学习范式将“模型架构”与“优化算法”视为两个独立的组件。这种分离设计思路限制了模型的学习效率和持续学习能力。模型架构通常被视为静态的计算图,而优化算法则是外部的、用于调整模型参数的工具。这种割裂的视角阻碍了统一、高效学习系统的建立。
谷歌研究院提出的Nested Learning范式正是为了解决这一根本问题。其核心思想是:一个机器学习模型并非单一的学习过程,而是由多个相互关联、层次分明的优化子问题组成的系统。这些优化子问题以不同的时间尺度嵌套或并行运行,共同构成了一个能够持续学习而不遗忘的统一学习系统。
基于这一范式,谷歌设计了Hope架构(Hierarchically Optimized Plasticity Engine),这是一个自我修改的循环架构,它引入了连续记忆系统(Continuum Memory System, CMS)和自修改机制,使模型能够在多个时间尺度上持续学习和记忆巩固。实验结果表明,Hope在语言建模、长上下文推理和持续学习任务中均显著优于传统的Transformer模型及多种现代变体。
本文后续章节安排如下:第二节深入阐述Nested Learning的理论基础;第三节详细剖析Hope架构的技术原理;第四节通过实验对比分析其性能优势;第五节总结创新点并展望未来研究方向。
2 Nested Learning的理论基础
2.1 关联记忆的统一视角
Nested Learning范式的理论基础之一是将机器学习中的各个组件统一视为关联记忆(Associative Memory)系统。关联记忆是认知科学和神经科学中的经典概念,指通过一个刺激(键)唤起另一个相关记忆(值)的能力,例如看到一张脸就能想起一个名字。
在计算模型中,关联记忆可以形式化地定义为学习从键(K)到值(V)的映射过程。给定键集合K和对应的值集合V,一个记忆模块的目标是寻找最优映射M*,使得键被准确地映射到相应的值,这可以通过优化以下目标函数来实现:
$$\mathcal{M}^{*} = \arg\min_{\mathcal{M}} \overline{\mathcal{L}}(\mathcal{M}(\mathcal{K}); \mathcal{V})$$
其中$\overline{\mathcal{L}}(\cdot;\cdot)$是衡量映射质量的损失函数。
从这一统一视角出发,传统深度学习中的各个组件都可以被重新解释为特定形式的关联记忆:
- 前向网络本质上是将输入映射到输出的关联记忆;
- 注意力机制是以查询(Query)、键(Key)、值(Value)为输入的特殊关联记忆,学习序列中token之间的映射关系;
- 优化过程(如梯度下降)也可以被重构为一种关联记忆,学习将输入数据映射到“局部惊讶信号”(即损失函数对输出的梯度)。
这种统一视角打破了模型架构与优化算法之间的传统界限,为构建更统一、更高效的学习系统奠定了理论基础。
2.2 嵌套优化范式与形式化定义
Nested Learning的核心创新在于将复杂的机器学习模型表示为一组嵌套优化问题,而非单一的整体优化问题。这些优化问题可以是层层嵌套的,也可以并行运行,每个子问题都有自己独立的上下文流和更新频率。
在Nested Learning框架下,“深度”的概念被重新定义。它不再仅仅指网络层数的多少,而是指学习系统内部嵌套优化层级的数量和时间尺度的多样性。一个“更深”的学习系统意味着它具有更多层级的优化过程,能够在更多时间尺度上处理信息。
表1:深度学习与嵌套学习的范式对比
| 对比维度 | 传统深度学习 | 嵌套学习 |
|---|---|---|
| 系统视角 | 扁平化的单一优化问题 | 多层次嵌套的优化问题 |
| 深度定义 | 网络层数 | 优化层级数量和时间尺度多样性 |
| 记忆机制 | 短期记忆(注意力)与长期记忆(MLP参数)二元分离 | 连续谱记忆系统,多时间尺度融合 |
| 优化方式 | 外部优化器,统一更新频率 | 深度优化器,多时间尺度更新 |
| 学习能力 | 训练后基本静止,易灾难性遗忘 | 持续学习,抗遗忘 |
Nested Learning通过定义更新频率(Update Frequency)来量化不同组件的更新节奏,即每个组件的权重被调整的频次。基于更新频率,可以将优化问题组织成有序的层级结构:更新频率越高的组件处于层级结构的越底层,负责处理更即时、更局部的信息;而更新频率越低的组件则处于更高层级,负责处理更抽象、更全局的信息。
形式化地,给定两个组件A和B,可以用A ≻ B表示A比B“更快”,这包括两种情况:
- 组件A的更新频率f_A > f_B;
- f_A = f_B,但B在t时刻的状态依赖于A在t时刻的状态。
这种嵌套优化视角使得模型内部的信息流和梯度流变得透明且可解释,为理解和设计更强大的学习系统提供了新的途径。
3 Hope架构的技术剖析
基于Nested Learning理论,谷歌研究院设计了Hope架构(Hierarchically Optimized Plasticity Engine),这是一个具体的、具备持续学习能力的模型实现。Hope架构的核心创新在于连续记忆系统(Continuum Memory System, CMS)和自修改机制(Self-modifying Mechanism),二者协同工作,使模型能够在多个时间尺度上持续学习而不发生灾难性遗忘。
3.1 连续记忆系统(CMS)
传统Transformer架构采用二元记忆系统:自注意力机制充当短期记忆,负责处理当前上下文窗口内的信息;前馈神经网络(MLP)充当长期记忆,存储预训练阶段学到的静态知识。这种二元划分限制了模型的持续学习能力,导致新知识难以有效整合到长期参数中。
Hope架构引入了连续记忆系统(CMS)来打破这种局限。CMS由一系列多层感知机(MLP)模块构成链式结构:MLP^(f1)(·), MLP^(f2)(·), …, MLP^(fk)(·),其中每个MLP模块对应不同的更新频率fℓ(f1 > f2 > … > fk),形成一个从高频到低频的记忆连续谱。
CMS的计算过程可以表示为: y_t = MLP^(fk)(MLP^(fk-1)(…MLP^(f1)(x_t)…)
其中每个MLP模块的参数以不同的时间尺度进行更新:
- 高频MLP(如f1)更新频率最高,可能每处理一个token就更新一次,负责捕捉即时上下文信息和局部模式;
- 中频MLP(如f2, f3)以中等频率更新,可能每处理一个句子或段落更新一次,负责总结任务级或会话级规律;
- 低频MLP(如fk)更新频率极低,可能只在处理完整个任务或大量数据后才更新,负责存储跨任务的稳定知识。
这种设计模仿了人脑的记忆巩固机制:新信息首先被高频组件快速吸收,然后通过中频组件的提炼和总结,最终只有那些可靠、稳定的模式被传递给低频组件,成为不易被覆盖的长期记忆。这使模型能够自然地将短期记忆转化为长期知识,有效缓解灾难性遗忘问题。
表2:Hope架构的连续记忆系统组件功能
| 组件类型 | 更新频率 | 功能角色 | 人脑类比 |
|---|---|---|---|
| 高频MLP | 每秒/每词元 | 处理即时上下文,捕捉局部模式 | 工作记忆(前额叶皮层) |
| 中频MLP | 每句/每段落 | 总结会话级规律,整合任务知识 | 近期记忆(海马体) |
| 低频MLP | 每任务/跨任务 | 存储长期稳定知识,跨领域泛化 | 长期记忆(大脑皮层) |
3.2 自修改机制与深度优化器
Hope架构的另一个核心创新是自修改机制,使模型能够在推理过程中根据接受到的数据动态调整自身的参数甚至更新规则。这一机制基于Titans架构扩展,使Hope成为一个自引用模型,能够执行无限层级的上下文学习。
自修改机制的关键在于将优化器本身视为可学习的联想记忆模块。传统优化器(如Adam、带动量的SGD)通常是外部设计的、固定的更新规则,而Hope将优化过程内部化,使模型能够“学习如何学习”(learn how to learn)。
具体而言,Hope中的深度优化器将优化器状态(如动量、二阶矩)显式建模为可微网络,并通过元学习或多任务训练对这些“优化器网络”进行端到端训练。这种设计使优化器能够适应数据分布的变化,对噪声和异常值更具鲁棒性。
例如,传统的带动量梯度下降可以重写为一个两层级的优化过程:
- 内层优化:更新动量状态m_t+1 = m_t - η_t+1∇y_t+1L(W_t; x_t+1)⊗x_t+1
- 外层优化:更新参数W_t+1 = W_t - m_t+1
在Hope框架下,这一过程被推广为一个可学习的记忆压缩过程,优化器可以基于更丰富的特征(如梯度的统计模式、任务标签等)构建“梯度记忆”,从而增强对复杂数据关系的建模能力。
4 实验分析与性能对比
为验证Nested Learning范式及Hope架构的有效性,谷歌研究团队进行了一系列全面实验,涵盖语言建模、常识推理、长上下文理解和持续学习等多个任务领域。实验结果表明,Hope在多项基准测试中均显著优于传统Transformer及多种现代变体。
4.1 语言建模与常识推理
在语言建模任务中,Hope在WikiText-103(Wiki)和Language Modeling Benchmark(LMB)等标准数据集上取得了优异的困惑度(perplexity)成绩。如表3所示,在1.3B参数规模下,Hope在Wiki数据集上的困惑度降至15.11,在LMB数据集上的困惑度降至11.63,优于传统Transformer++(18.53/18.32)和RetNet(19.08/17.27)等基线模型。
在常识推理任务(如PIQA、HellaSwag、WinoGrande等)中,Hope同样表现出色。在1.3B参数规模下,Hope在多个常识推理任务上的平均准确率达到57.23%,超过了对比的基线模型。这表明Hope不仅能够生成流畅的文本,还能更好地理解和推理常识知识。
表3:Hope与基线模型在语言建模和常识推理任务上的性能对比(1.3B参数)
| 模型 | Wiki ppl↓ | LMB ppl↓ | PIQA acc↑ | HellaSwag acc↑ | WinoGrande acc↑ | 平均准确率↑ |
|---|---|---|---|---|---|---|
| Transformer++ | 18.53 | 18.32 | 42.60 | 70.02 | 53.51 | 52.25% |
| RetNet | 19.08 | 17.27 | 40.52 | 70.07 | 54.14 | 52.02% |
| DeltaNet | 17.71 | 16.88 | 42.46 | 70.72 | 53.35 | 52.14% |
| Hope (ours) | 15.11 | 11.63 | 50.01 | 73.29 | 60.19 | 57.23% |
4.2 长上下文记忆管理
在长上下文理解能力方面,研究团队通过“大海捞针”(Needle-in-a-Haystack,NIAH)任务评估了Hope的记忆管理能力。该任务要求模型从极长的文本序列中检索或回忆关键信息,是评估模型长上下文理解能力的标准基准。
实验结果显示,Hope在NIAH任务的多种变体(如NIAH-PK、NIAH-H和NIAH-W)中均表现出色,显著优于TTT、Mamba2等现代循环模型。特别是在高难度级别下,Hope的记忆检索准确率超过90%,而传统Transformer模型仅能达到约60%的准确率。这表明Hope的连续记忆系统能够更有效地管理和维护长程依赖关系,克服了传统Transformer因固定上下文窗口而带来的限制。
Hope在长上下文任务中的优异表现归因于其多时间尺度的记忆机制:低频MLP模块能够稳定地保存来自长上下文早期的关键信息,而高频MLP模块则负责处理局部上下文变化,这种分工协作使模型能够同时兼顾长期依赖和局部相关性。
4.3 持续学习与抗遗忘能力
针对持续学习场景,研究团队评估了Hope在顺序学习多个任务后的抗灾难性遗忘能力。实验结果表明,在顺序学习多个任务后,Hope对旧任务的遗忘率显著低于传统模型(Hope:3.8%-7% vs 传统模型:可达35%以上),且无需依赖“经验回放”等额外技术。
这种抗遗忘能力源于Hope的多时间尺度更新机制:新知识首先被高频组件快速吸收,然后通过中频组件的提炼,只有那些经过验证的稳定模式才会被传递给低频组件。这种记忆巩固过程类似于人脑的记忆机制,有效保护了长期知识不被新学习过程轻易覆盖。
5 创新点总结与研究展望
5.1 范式转换与创新点总结
Nested Learning范式及Hope架构的创新价值主要体现在以下几个方面:
统一架构与优化的理论框架:Nested Learning打破了传统深度学习将“模型架构”与“优化算法”割裂的视角,提供了一个统一的理论框架。在这一框架下,网络层、注意力机制、优化器等都被视为不同时间尺度的关联记忆系统,为理解和设计学习系统提供了新的视角。
多时间尺度连续记忆系统:Hope架构提出的连续记忆系统(CMS)突破了传统模型的二元记忆划分,通过一系列不同更新频率的MLP模块形成了记忆连续谱。这种设计使模型能够实现类似人脑的记忆巩固过程,有效缓解了灾难性遗忘问题。
自修改与元学习能力:Hope的自修改机制将优化器本身转化为可学习的组件,使模型能够在推理过程中动态调整自身的参数和更新规则。这种元学习能力为构建真正自我改进的人工智能系统奠定了基础。
可解释性与透明性:Nested Learning范式将模型内部的梯度流和优化过程透明化,使学习系统变得更加可解释和白盒化,为理解和管理复杂模型的行为提供了新途径。
5.2 局限性与发展方向
尽管Nested Learning范式展现出巨大潜力,但仍面临一些挑战和局限性:
计算复杂度与实现成本:Hope架构的内部机制相对复杂,多时间尺度的更新机制可能带来额外的计算开销。如何在实际应用中平衡性能与效率是一个需要进一步研究的问题。
超参数调优挑战:CMS系统中各MLP模块的更新频率、容量分配等超参数需要精心调试,系统复杂度较高,这可能增加模型部署的难度。
大规模扩展性:当前实验主要针对中等规模模型(最多1.3B参数),对于超大规模模型(数十亿甚至数百亿参数)的扩展性和有效性仍有待验证。
理论基础的完善:Nested Learning作为一个新兴范式,其数学基础和理论体系仍需进一步完善,特别是关于收敛性、泛化能力等方面的理论分析。
未来研究方向可能包括:探索更高效的CMS实现方式、研究自动配置多时间尺度更新的方法、将Nested Learning范式扩展到多模态领域、以及进一步研究模型自我修改的安全性与可控性等。
6 结论
Nested Learning范式代表了深度学习领域的一次重要范式转换,它通过将模型视为多层次、多时间尺度的嵌套优化系统,为克服灾难性遗忘、实现持续学习提供了新的解决路径。Hope架构作为这一范式的具体实现,通过连续记忆系统和自修改机制,使模型能够像人脑一样在不同时间尺度上持续学习和记忆巩固。
实验结果表明,Hope在语言建模、常识推理和长上下文理解等任务中均显著优于传统Transformer模型,展现出强大的持续学习能力和抗遗忘性能。尽管在计算复杂度和扩展性方面仍面临挑战,但Nested Learning范式为构建下一代自改进人工智能系统奠定了坚实基础,有望推动人工智能向更具适应性、更接近人类学习能力的方向发展。
参考文献
- Google Research. “Introducing Nested Learning: A new ML paradigm for continual learning.” November 2025.
- Behrouz, A., et al. “Nested Learning: The Illusion of Deep Learning Architectures.” NeurIPS 2025.
- 知识干货. “嵌套学习(Nested Learning)能否治愈模型’健忘症’.” 2025.
- AI前沿速递. “Attention is all you need 2.0 来了!Google 新论文 Nested Learning 登陆 NeurIPS 2025.” 知乎专栏,2025.
- 技术博客. “Nested Learning:深度学习架构幻象与下一代学习范式.” 2025.
- 认知思考. “从Transformer到Nested Learning:AI对人类认知逻辑的逆向工程.” 2025.
- 新智元. “终结Transformer统治!清华姚班校友出手,剑指AI’灾难性遗忘’.” 网易订阅,2025.
- Nested Learning: The Illusion of Deep Learning Architectures
- Introducing Nested Learning: A new ML paradigm for continual learning
