发布信息

探索GIDD模型:大语言模型自我纠错与预训练的无监督创新

作者:软荐小编      2025-03-24 09:01:08     113

大语言模型(LLMs)如果可以发现并修正自己的错误,那不是挺好的吗?

如果能够直接从预训练中达成这一情况,并且不需要进行任何监督微调(SFT)以及强化学习(RL),那会是怎样的呢?

最新提出的离散扩散模型,称为GIDD,它能够做到这一点。

在语言建模中,GIDD实现了计算效率匹配的最优性能!

请注意:不是基于自回归的LLM,是扩散语言模型。

_回归与超越—理论新闻学新视野_超越与回归的辩证关系

无条件生成与自我纠错算法的比较

苏黎世联邦理工学院 ETH Zurich 等组织的研究团队推广了掩码扩散。他们还推导出了一系列广义插值离散扩散模型(GIDD)的理论基础。

GIDD 具有更灵活的特点,并且在理论方面获得了证据下界(ELBO)的闭式解。

实验结果显示,GIDD 样本的质量,也就是生成困惑度(PPL),最高能够提升 55%。

GIDD核心主要有3大特征:

GIDD 具有较强的推广性,它可以适用于多种扩散过程,并且不会局限于掩码扩散这一种情况。

混合扩散训练进行了一项工作,即训练了一个模型,这个模型是将掩码和均匀噪声结合在一起的混合扩散模型。

双重能力表现为:一方面能够填补空缺,也就是填充被掩盖的 token;另一方面可以评估已填充 token 的正确性,并且在必要时用更合理的 token 去替换错误的部分。

_超越与回归的辩证关系_回归与超越—理论新闻学新视野

论文链接:

项目地址:

预测下一个 token 这件事,取得了显著的成果,然而它也存在着固有的局限性,像不能够修改已经生成的 token 。

这促使研究者探索替代方法,如离散扩散。

然而,因为具有简单性和有效性,掩码扩散成为了流行的选择。但是,它又重新引入了一种局限性,即无法修改 token。

新研究认识到扩散模型添加噪声很重要,其目的是探索离散扩散模型的设计空间,并且尝试不同的扩散过程。

广义插值离散扩散(GIDD)属于新的离散扩散方法。它把掩码扩散进行了推广,使其能够应用于任意插值噪声过程。

在扩散过程里,GIDD 能够在任意的时刻灵活地进行选择,去添加不同类型的噪声。

有趣的是,存在这样一种情况,即任何扩散过程,只要其边际分布符合上述方程,就能够推导出证据下界(ELBO)。

想要掩码扩散?没问题!

将 πt 设置为 one_hot([MASK]),接着在 GIDD 的 ELBO 上进行训练。

不幸的是,掩码扩散没有自我纠正的能力。如同自回归模型那样,一旦某个 token 被确定下来,就不能再对其进行更改了。

因此,如果模型在某个步骤出错,就没有办法进行修正。

为了解决这个问题,从 BERT 获得了灵感。那就是,如果除了掩码 token 之外,将一部分 token 随机地用其他 token 进行替换,会出现什么样的情况呢?

这样,模型不仅要学会进行“填空”这一行为,还要学会去识别并对错误的 token 进行修正。

GIDD 的 ELBO 具有高度的灵活性,所以只需选择合适的 πt 就能够捕捉所需的动态特性。

设定 πt,让均匀噪声的比例依据噪声水平的变化而上升或者下降,并且在 t 等于 0.5 时达到峰值。

超越与回归的辩证关系__回归与超越—理论新闻学新视野

真地有效吗?

第一次实验结果不太理想。使用均匀噪声训练的模型,其困惑度不如仅使用掩码的模型。

考虑到这些模型不仅需要填补缺失的 token,还需要修正错误的 token,所以这并不让人感到意外。

超越与回归的辩证关系__回归与超越—理论新闻学新视野

那样本质量又如何呢?

下图显示生成性 PPL(通过 Gemma - 2 - 9b 进行测量)有了明显的提升。对于使用均匀噪声训练的模型而言,这种提升尤为显著。尤其在推理预算较为紧张的时候,这种提升表现得更为突出。

_超越与回归的辩证关系_回归与超越—理论新闻学新视野

这是否意味着模型在纠正自己的错误呢?

为了弄明白这一点,提出了一种自我纠正的算法。这种算法通过一次修复一个 token(借助模型)来对已经生成的样本进行改进。一直改进到收敛到一个稳定点。

这样能够持续提升样本质量,以生成 PPL 来衡量。并且能够超越仅仅依靠增加去噪预算所能达成的程度,还提供了一种简便的方式来拓展测试时的计算资源。

值得注意的是,仅在去掩码任务上训练的模型不具备这种能力。

_回归与超越—理论新闻学新视野_超越与回归的辩证关系

在理论和实践上,新研究的主要贡献包括以下两方面:

回归与超越—理论新闻学新视野__超越与回归的辩证关系

在训练过程中,通过使用 GIDD 并结合掩码以及均匀噪声,能够使扩散模型学会去识别以及纠正自身所出现的错误。

超越与回归的辩证关系_回归与超越—理论新闻学新视野_

表 1 中展示了使用 20%均匀噪声进行训练的 GIDD + base 模型进行自我纠正的示例,其中绿色部分替换了红色部分。

GIDD 模型还可以在未经过明确训练时提升事实准确性。

自回归模型缺陷

从观察中提取世界的结构是智能的基本机制。

生物体能够自然而然地达成此事,而机器在这方面的能力直至最近才获得重大进展。

近年来,深度生成模型取得了显著提升。

顾名思义,生成模型能够生成新的样本,并且这些样本是逼真的。其中,“逼真”的意思通常是指样本在某个参考分布下具有较高的概率。

某些数据分布,像自然图像或自然语言,单个样本所包含的信息量或许会非常巨大。

为降低生成模型的计算负担,一种常见的做法是把生成单个样本的任务进行拆分,拆分成多个推理步骤。

每个步骤自身较为简单,然而当所有步骤组合起来之时,便能够恢复成完整的分布。

在自然语言处理领域,有一种方法较为典型,那就是自回归建模。

回归与超越—理论新闻学新视野__超越与回归的辩证关系

自回归语言建模经典之作:

此类方法中,生成句子(或序列)的过程被拆分为逐个生成单词(或 token),同时利用已生成的单词当作上下文,以预测下一个单词。

自回归模型有一些原本就有的缺陷:其一,计算成本较高;其二,存在长程依赖与连贯性方面的问题。

为了解决这些问题,研究者们付出了大量努力。

利用强化学习(RL)来进行后训练,使模型能够在多个自回归步骤中学会序列推理,以此提升连贯性。

去噪扩散模型提出了不同的生成任务分解方式,并且能够解决这两个限制。

扩散模型的调用次数与样本大小无关。

在图像生成上,扩展模型取得了成功,其中添加的高斯噪声。

超越与回归的辩证关系_回归与超越—理论新闻学新视野_

使用 Stable Diffusion Ultra 生成的图像,其背后是由 Stable Diffusion 3.5 提供支持的。

然而,比如自然语言上,扩散方法并不如在图像上如意。

广义插值扩散(GIDD)

掩码扩散技术被广泛应用,然而它依然存在着根本性的局限。

其底层 Marko 链设计是主要问题所在。一旦 token 被填充,就无法进行修改。这可能会导致错误累积,也可能导致 token 不兼容。并且由于缺乏修正机制,会直接影响结果的质量。

另一个局限在于,只有掩码 token 会贡献损失信号,而未掩码 token 则一直处于无噪声的状态,这样就使得有效批大小有所减少。

一种有效的解决方案是参考 BERT,把掩码机制和均匀噪声进行结合。这种方式不但可以解决上述的问题,而且还能带来额外的优势。

在采样阶段,模型具备这样的能力:既能填充空白,又能修改已解码的 token,从而提升了灵活性和准确性。

训练任务较为全面且复杂,因为每一个 token 都有受到噪声影响的可能性,所以模型需要具备纠错的能力,以此来提高整体的性能。

模型通过这种方式学会识别“正确”与“错误”的 token 后,或许能发展出自我校正以及自我纠错的能力。

然而,在特定的理想扩散路径上对扩散模型进行训练时,会面临一些技术方面的挑战,这些挑战需要进一步去进行研究。

标准的训练目标是扩散证据下界(diffusion ELBO),它需要已知 Markov 状态转移才能推导出来。

构造具有特定性质的 Markov 链通常是一个复杂的逆问题,并且不容易直接进行求解。

研究人员把插值扩散进行了扩展,使其能够应用于任意的(随时间变化的)插值策略。这样做避免了去单独求解那种特定的掩码与均匀噪声组合所对应的逆问题,并且还提升了模型设计的灵活性。

具体而言,提出了广义插值离散扩散(GIDD)。它是一类扩散模型,具有边际前向转移的特性。其形式如下:

其中,π_t是一个随时间平滑变化的概率分布。

值得注意的是,存在π_t=m这种情况。在这种情况下,GIDD就退化为掩码扩散的特例。

可以证明,存在这样一种情况,即适当选择αt和πt时,有一个Markov链能够产生这些边际分布。并且能够推导其条件转移关系以及训练所需的ELBO公式。

前向过程

GIDD的目的是提供最大程度的灵活性,这样在任意的时间点都能够对数据添加不同类型的噪声。

其核心由两个部分组成:

混合率αt:它定义了信噪比是随时间而发生变化的。

混合分布πt 决定了在某一时刻数据被噪声化之后的目标分布。

研究人员把这两个函数组合起来,将其称作扩散过程的“混合调度”(mixing schedule)。

定义 3.1(混合速率):设(累积)混合速率αt 以及βt(其中βt 等于 1 减去αt)。αt 是一个时间可微且递减的函数,其定义域为[0,1],值域为[0,1]。同时满足初始条件α0 等于 1(意味着无混合状态),以及最终条件α1 等于 0(表示完全混合状态)。

这一设定使得信噪比(SNR)得以确定,也就是 SNR 等于 αtβt。当 t 不断增加时,αt会逐渐减小,这意味着信号成分在逐渐变少,同时噪声成分在逐渐增多。

定义 3.2 为混合分布:设πt 是一个依赖于时间的概率向量,它是一个时间可微函数,其定义域为[0,1],值域为Δ∣V∣−1,这里的Δ∣V∣−1表示∣V∣维单纯形。

混合分布πt 说明了在任意一个特定的时间点 tt 上添加到数据里的噪声类型。所以,π1 具体地指代了扩散过程的先验分布,此分布描绘了在时间 t 等于 1 时的数据噪声的特性。

研究人员在这个过程中已经成功构建了一个马尔可夫链,并且这个马尔可夫链的边缘分布是按照边际前向转移公式来进行描述的。

为了后续能够推导 ELBO(证据下界),就需要去定义与之相应的连续时间马尔可夫链(CTMC)的转移速率,其具体情况如下。

回归与超越—理论新闻学新视野_超越与回归的辩证关系_

最终,得到了GIDD的CTMC前向速率。

_超越与回归的辩证关系_回归与超越—理论新闻学新视野

反向过程

扩散模型的标准分布pθ(zs∣zt)由以下公式给出:

回归与超越—理论新闻学新视野_超越与回归的辩证关系_

其中,qt(zt∣xθ)的简写形式为:

这里有一个神经网络叫做 xθ(Zt,t),它的作用是在噪声序列 Zt 的条件下预测 x 的分布。

此外,证据下界(ELBO)的推导包含了连续时间马尔可夫链(CTMC)的反向速率这一内容。

_回归与超越—理论新闻学新视野_超越与回归的辩证关系

GIDD的证据下界

为训练 GIDD 模型,需要一种能进行微分的方式去估计它的似然函数。

证据下界(ELBO)的作用在于此:最大化 ELBO,实际上就是在对模型的(最坏情况下的)似然函数进行最大化。

在计算 ELBO 时,需要用到 GIDD 的两个速率,分别是前向速率和反向速率。这两个速率在前文已经推导完成。

然后,对 Campbell 等人提出的 ELBO 形式进行了一定的修改,接着把 GIDD 的前向速率和反向速率代入其中,经过化简操作后,就得到了定理 3.7。

_超越与回归的辩证关系_回归与超越—理论新闻学新视野

深入对 GIDD 的 ELBO(证据下界)进行分析,能够察觉到它其实是在把两个任务同时进行优化,即:

1、匹配模型与前向分布的边际概率

2、最小化rθ(zt,x)以匹配边际概率

有趣的是,这两个优化任务具有相同的全局最优解。

这意味着,模型若能将 ELBO 进行完美优化,那么它便能够同时达成这两个目标。此特性对于理解 ELBO 的全局最小值以及其优化进程而言,是具有重要意义的。

采样

给定一个采样时间表0≈t0

具体而言,起始于一个全是掩码 token 的序列,也就是将所有的 ztT 都设定为掩码 tokenm 。

然后,按照以下方式迭代采样,其中i=T,…,1:

自校正步骤(Self-Correction Step)

提出了一种不动点迭代的方法,这种方法通过对部分 token 进行重新采样,从而改进生成结果,让生成结果更符合模型的判断。

具体来说,先把完全去噪后的样本 Z_{t_0}输入到模型中,然后用温度参数τ进行采样。

然后,在所有与Zt0不同的采样token中,

选择模型置信度最高的一个token并确认它。

这个过程会持续进行,直到结果收敛(详细内容见附录C)。

自校正算法是一种不动点迭代的方法。它能够应用于那些已经(部分)被去噪的生成样本。

其核心思想在于查询模型,目的是识别出模型认为错误且应该被替换的 token。同时,每次只替换一个 token,这样做是为了避免重新引入冲突 token。

具体的伪代码实现参见算法1。

超越与回归的辩证关系__回归与超越—理论新闻学新视野

在实际操作时,发现收敛通常会呈现出在两个或者多个同样优良的状态(从自准确性方面来看)之间进行振荡的情况,所以额外依据自准确性构建了提前停止的机制。

实验表明,提前停止的耐心值设为32时效果良好。

混合策略(Mixing Schedule)

GIDD 可以被用于掩码扩散。最初提出这一广义框架的动机是去探索掩码与均匀噪声的结合。

研究团队设计了一种混合策略,这种策略是 mixing schedule。它在保持掩码先验分布的同时,还允许在不同阶段引入可调节比例的均匀噪声。

下文中用p_u表示均匀噪声的比例。

为保证可解释性,设定在数据和噪声的中点位置,也就是 t = 1/2 时,均匀噪声 token 的期望比例能达到最大值 p_u 。

这一目标之下,定义了混合速率以及混合分布。具体而言,定义了混合速率(mixing rate)(定义 3.1),同时也定义了混合分布(mixing distribution)(定义 3.2)。

回归与超越—理论新闻学新视野_超越与回归的辩证关系_

其中,词汇表的大小用 N 表示,有一个常数 B,选取 B 的值能够保证均匀噪声的比例达到目标水平。

由此,我们得到了一种分布,这种分布被称为边际前向分布:

为了在t=1/2处使均匀噪声比例达到p_u,需要设定: 。

GIDD 的 ELBO 计算包含额外的常数与因子,并且需要推导出与之对应的时间导数。

值得注意的是,若 p_u 等于 0.0 ,那么 GIDD 会退化并回到掩码扩散。

在实验里,设定了γ等于 1。然而,本节所引入的超参数还存在许多其他可供选择的情况。

回归与超越—理论新闻学新视野__超越与回归的辩证关系

训练目标

在开始实验之前,有一个关键问题需要被解决。这一改进会带来明显的性能提升。

仔细分析后发现,扩散证据下界(ELBO)的权重 wt(zt,x)存在特定情况。当 t 趋近于 0 时,权重的变化呈现出一种极端状态;当 t 趋近于 1 时,权重的变化也呈现出一种极端状态。

情况三:z_t 不属于{x, m},即 z_t 是其他随机噪声 token。

绘制 w_t(z_t,x) 随时间变化的曲线后,(具体见图 2)。能够观察到在噪声水平极低或者极高的时候,权重呈现出指数级的增长态势。

这种现象可能会带来问题:

超越与回归的辩证关系_回归与超越—理论新闻学新视野_

解决方案:权重裁剪(Weight Clamping)

为解决此问题,提出了两种权重调整方案。其一,减少极端样本的影响;其二,强调中等噪声水平的样本。因为这些样本能提供最有价值的训练信号。

最简单直接的方法是对权重设置一个最大值w_{max},即:

初步实验表明,设定 wmax⁡=1 时效果最为良好。所以,这一设定将会在后续的实验中被运用。

_回归与超越—理论新闻学新视野_超越与回归的辩证关系

表 3 显示,GIDD(p_u = 0.0)的困惑度(PPL)与 MDM 的困惑度(PPL)十分相近,这与它们在理论上是等价的这一情况是相符的。

选择正确的权重函数能带来显著的效果提升,尤其是在 p_u > 0 的情况下。

最终的最佳设置包含动态损失权重和权重衰减,并且这个设置被称作 GIDD+。

上述权重裁剪的方法主要对掩码 token 的权重以及均匀噪声 token 的权重产生影响。

一个更系统的方法是这样的:保持最大损失权重保持恒定,并且在这种情况下,依然保留掩码 token、均匀噪声 token 与无噪声 token 之间的相对权重关系。

动态权重调整(Dynamic Weighting)

定义了一种动态加权函数,具体如下:

其中, 表示对数信噪比(log-SNR)。

该方法存在相对权重关系,其中掩码 token 与均匀噪声 token 的相对权重比为 2 : 1,掩码 token 与无噪声 token 的相对权重比为 2 : Be^{-λ_t^2},均匀噪声 token 与无噪声 token 的相对权重比为 1 : Be^{-λ_t^2},这些相对权重关系是通过实验经验确定的。

需要注意的是,这种 ELBO 重加权的方法,其效果等同于从一个非均匀分布里去采样 t 。

自我纠正(Self-Correction)

目前观察到,仅使用掩码训练的模型通常比结合均匀噪声的模型更优。但尚未讨论引入均匀噪声的核心动机,即让模型学会区分“正确”与“错误”token,期望它能具备自我纠正能力。

采用生成困惑度(generative perplexity,PPL)这一指标,是为了对生成样本的质量进行评估。

具体来说,PPL 所计算的是生成样本在更为强大的模型中的似然值。在相关实验里,是使用 Gemma 2 9B 来作为评估模型的。

更高的似然值通常被认为对应于更高质量的样本。

PPL 作为指标存在很多局限性。然而,它在文献中被广泛地使用。并且,在对不同模型的质量进行相对比较时,它依然具有参考价值。

评估了模型的自我准确率(Self-Accuracy),并且除了 PPL 之外也进行了评估。

模型在生成过程中,对于它所认为“正确”的 token 所占的比例,这里的 token 指的是在整个序列中被赋予最高概率的那个 token 。

值得注意的是,在进行自我纠正之前,训练时所加入的模型样本质量已经变得更高了。并且这些模型样本是加入了均匀噪声的。

在低计算量推理的设置下,与仅使用掩码的模型相比,它在生成困惑度方面的提升非常显著。 特别是在这种设置下,其生成困惑度的提升尤为突出。 仅使用掩码的模型与之相比,在低计算量推理设置下,生成困惑度的提升不如它显著。

例如,在32步推理时:

这表明,训练时加入均匀噪声能够稳定生成过程。尤其在模型把自身生成的输出当作输入的情况下,能让样本质量更高,即便其验证困惑度会略有下降。

这一发现引出了一个重要问题,即自我纠正的效果是否仅仅是由于额外的去噪迭代次数所导致的呢?

换句话说,模型在进行去噪时,有可能已经在实施一定程度的自我修正。那么,自我修正步骤所带来的提升,是不是仅仅由于额外的计算次数呢?

从实验方面来看,增加去噪步骤会提升样本质量,并且这种提升是单调的。然而,这种提升最终会达到饱和状态,对于 base 模型来说,PPL 大约会停留在 200 。

然而,引入自我纠正机制之后,PPL 能够进一步降低到 100 以下。这显示出自我纠正所带来的改进,并非单纯是更多去噪迭代所导致的结果,而是一种额外的、非平凡的提升。

回归与超越—理论新闻学新视野_超越与回归的辩证关系_

图 3 从左到右,(a)展示了不同温度下 token 数的变化;(b)呈现了 token 变化数与 PPL 的关系;(c)表明了自我准确性与生成困惑度之间的相关性。

具体结果如下:

使用 GIDD+(base)模型进行自我纠正时,能够对最多 10%的 token 进行重新采样,并且此过程与均匀噪声水平没有关联。研究表明,当温度参数τ的取值处于[0.1, 0.5]这个区间时,效果最为理想。

对于在均匀噪声上训练的模型而言,采样的 token 数量增多时,效果会更好。但是,仅仅使用掩码的模型,即便重新对同样数量的 token 进行采样,也不能够提升质量。

分析自我准确性与生成困惑度之间的相关性后,发现混合模型在评估自身生成样本质量方面具有明显优势。

下游人物性能

在一系列的基准测试里对模型的语言理解能力进行了评估。因为混合噪声设置中 p_u > 0 难度更高,所以预计这些模型无法超过仅使用掩码噪声 p_u = 0 的情况,而实验结果也验证了这一预期。

研究人员重点比较最佳的 SMALL GIDD+ 模型与 MDM 以及自回归基线模型,这些自回归基线模型包括 GPT2 和重新训练的 Llama。

纳入了两个 1.1B 参数模型作为参考,其中一个是自回归模型,另一个是掩码扩散模型。

基准测试也包括 WinoGrande。

实验发现,平均准确率和验证困惑度(PPL)之间通常存在很好的相关性。(具体情况可见表 4)

在扩散模型里,表现最为出色的是仅仅训练了 131B 个 token 的 GIDD+(p_u=0.0),并且它超过了训练时间为其两倍的模型。

模型可能是因为在训练数据的虚假模式上出现了过拟合情况。尽管验证损失在持续下降,然而却没有转化为下游任务的性能提升。

值得注意的是,最佳扩散模型 GIDD+的表现比自回归模型 GPT2 要好。虽然训练数据的差异导致公平比较有些困难,但实际上,最佳自回归模型 Llama(重新训练版本)总体上仍表现最佳,不过平均差距不到一个百分点。

_超越与回归的辩证关系_回归与超越—理论新闻学新视野

表 4 展示了不同模型的零样本(Zero-shot)基准准确率。在小型模型中,最佳分数用粗体标出;在扩散模型中,最佳分数用下划线标出。

GIDD 模型使用均匀噪声进行训练,它的趋势和验证困惑度是一致的。更多的均匀噪声一般会使准确率降低。

下表 5 列出了三种规模,分别是 TINY、SMALL、base,以及所有均匀噪声水平为 0.0、0.1、0.2 的 GIDD+模型的基准测试准确率。

模型的性能会随着规模的增加而持续提升,不管均匀噪声水平是怎样的。但是,用均匀噪声训练出来的模型,在性能方面比仅用掩码噪声训练的模型略微差一些,并且这种差距是持续存在的。

_回归与超越—理论新闻学新视野_超越与回归的辩证关系

然而,模型规模在增加,性能也在持续提升。初步的迹象显示,当规模扩大时,差距或许会缩小。

直观来讲,均匀噪声会让训练任务变得更为困难。模型不能再像之前那样理所当然地觉得每个未掩码的 token 都是正确的,而是必须对上下文中的每个 token 进行考量,并且在必要的情况下将其替换为正确的 token。

这种直观的解释显示,观察到的性能差异或许是因为模型容量不够。在这种情形下,预计更大的模型受均匀噪声的影响会比较小。

为了验证这一假设,在训练时长保持不变的前提下,扩展了参数数量。同时,训练了不同规模的模型,包括 TINY、SMALL 和 base 这几种。这些模型分别在不同的均匀噪声水平 0.0、0.1、0.2 下进行了训练。

接着,用指数拟合的方式绘制出了计算效率前沿。这个前沿能够反映出帕累托最优的验证 ELBO(如图 4 所示)。

_超越与回归的辩证关系_回归与超越—理论新闻学新视野

One More Thing:只是小规模实验

由于资源限制,实验设置有一定的局限性:

每个噪声水平的样本量只有三种不同的计算预算。其中,最大的计算预算比较小,仅仅是 3.3*10^{20} FLOPs。

现代大语言模型的许多标志性能力通常需要达到约 10^{22} FLOPs 才会开始显现。这一数值比我们最大的计算预算要高出两个数量级。

确实观察到了一个趋势,尽管如此。这个趋势是随着计算资源的增加,较高水平的均匀噪声表现更好,不过这一趋势的幅度较小。

在设置 p_u = 0.0 仅使用掩码噪声的情况下,扩展指数为-0.0586。当加入均匀噪声后,p_u = 0.1 时扩展指数提高到-0.0589,p_u = 0.2 时扩展指数提高到-0.0621。

外推这一趋势进行预测,p_u 等于 0.2 的设置将会在大约 10^{21}FLOPs 时超过 p_u 等于 0.0,而这样的计算预算在中规模和大规模的训练中通常是能够达到的。

然而,必须要强调的是,这次实验的设置存在局限性。正因如此,这种预测的可靠性是比较低的。

尽管如此,观察到的扩展行为是令人鼓舞的,值得进一步研究。

参考资料:

相关内容 查看全部