德安新闻门户网

首页 > 正文

CMU杨植麟等人再次瞄准softmax瓶颈,新方法Mixtape兼顾表达性和高效性

www.lshappy.com2020-02-15

研究人员对四个基准数据集进行了实验,包括语言建模和机器翻译。结果表明,混合顶层的性能相当于MoS层,混合顶层的效率是MOs层的3.5-10.5倍。词汇量在10-30K之间,使用Mixtape的网络仅比基于softmax的网络慢20%-34%,其混淆和翻译质量优于softmax。大量神经网络“softmax”带来的痛苦和快乐使用softmax作为标准输出层,包括大多数神经语言模型。然而,正如杨支林和其他人在他们之前的研究[19中指出的那样,softmax限制了神经语言模型的表达能力,因为它将输出表示限制在低等级,这不足以模拟自然语言的复杂性。这种限制被称为“softmax瓶颈”。

为了打破这个瓶颈,[19]提出了一种新的方法,叫做软最大混合(MoS),它将离散的潜在变量引入输出层,并将对数-和-exp非线性变换转换成高阶对数概率矩阵。然而,MoS比softmax具有更高的内存和时间成本,这使得它在计算资源有限的情况下不太实用。

此外,Mixtape还使用了另外两种新技术来进一步降低计算成本。

为了降低MoS的计算成本,杨支林等人最近提出了一种新的输出层Mixtape,可以有效解决软最大瓶颈。Mixtape可以在任何现有网络的交叉熵损失函数之前嵌入一个额外的层。与在概率空间部署标量混合的MoS不同,它在logit空间应用矢量门控机制,以避免使用多个昂贵的软max。

此外,Mixtape还使用了另外两种新技术来进一步降低计算成本。

首先,向量门控机制很昂贵,因为它需要我们为词汇表中的每个单词计算最软门控。为此,研究人员提出了sigmoid树分解技术,将软最大概率门控分布分解成深度为2的二叉树结构。每个分支中包含的概率值部分由sigmoid函数决定。Sigmoid树分解更有效,因为它避免了softmax中的减法。

另一种技术是门控共享,即所有低频字共享门控值以获得一些高等级表示。这种技术在不影响性能的情况下节省了一定量的内存和计算资源,因为即使没有门控共享,低频字的门控值通常也难以准确估计。“Mixtop”有多强大?

Mixtop结合了上述三种技术,与MoS相比,其效率显着提高,在四个基准数据集上的性能与MOs相当甚至更好。在正常词汇条件下(如10K-30K),在相同批量的基础上,混合带层的速度是金属氧化物半导体层的1.6-11.5倍;基于相同的存储器,混合带层的速度是MoS的3.5-10.5倍。

在正常词汇条件下,基于相同的批量,使用Mixtape的网络速度仅比使用softmax的网络速度慢5%-18%;基于同样的记忆,前者只比后者慢20%-34%。拥有100K令牌的大词汇量,基于Mixtape的网络速度仅比基于softmax的网络慢60%。

Mixtape和MoS在混淆和翻译质量方面优于softmax。有趣的是,这些基准数据集的词汇范围从10K到100K,它们的输入表示也不同(包括单词和BPE子单词),这表明Mixtape对于不同的输入是高效和健壮的。

Mixtape有效地解决了softmax瓶颈

softmax瓶颈问题定义的奥秘。

2017年,CMU杨支林等人提出了一种简单有效的方法MoS来解决Softmax的瓶颈。最近,杨支林等人提出了一种新的方法来解决混合磁带效率低的问题。该方法可以学习MoS等高阶表示,其效率高于MoS。

如前所述,Mixtape使用了三种新技术。接下来我们将看细节。

logit空间矢量门控

MoS最昂贵的部分是计算k softmax。如果我们只能使用一个softmax来计算最终的概率分布,我们可以节省大量的计算资源。很容易想到将混合从概率空间移动到逻辑空间,即在softmax操作之前混合表示,从而获得条件分布

”。然而,如[19号文件所述,该公式将导致低等级表示,因为

因此,本研究做了一个小的修改:在logit空间中使用混合运算来获得高等级的表示。关键思想是使用矢量门控机制,而不是标量混合。也就是说,该方法不为每个令牌使用共享的混合权重集,而是将不同的权重集应用于不同的令牌。使用矢量门控后,条件分布公式可以写成

。然而,在Mixtape实现高效率的道路上仍然存在障碍。对于每个上下文令牌对(c,x),先验π_c,x,k需要执行归一化,这需要对每个对的先验概率进行软最大运算。

Sigmoid树分解

为了有效地计算先验π_c,x,k,研究人员没有使用softmax,而是提出了一种新的技术来将softmax分布分解成Sigmoid功能树结构。具体来说,计算(k?1) sigmoid输出并使用它们来定义树枝的概率。例如,当K=4时,先验定义为:

其中γ _?表示sigmoid概率,σ表示sigmoid函数。

这是乙状结肠树分解。这种分解可以通过(k?1) sigmoid函数完全恢复K路概率分布。sigmoid函数可用于移除softmax中的减法运算,这样更有效。

如果g_c作为上下文c中D1维的最后一个隐藏状态,预激活优先)l_ l _?的计算公式为:

其中v _ x∈R(D2)、u _ k ∈ r(D2×D1)、u _ k∈R(D1)、b_x、k∈R为模型参数。D2是指示栅极嵌入尺寸的超级参数,通常小于正常字嵌入尺寸D2.上下文嵌入可以通过以下公式获得:

其中h _ k ∈ r (d× d _ 1)是模型参数。

门控共享

通过以上两种方法可以获得高效的高等级模型,但仍有改进的余地。研究人员观察到,我们仍然需要为词汇中的每个标记计算先验门控,这成为影响效率的瓶颈。然而,由于缺乏训练样本,很难估计低频令牌的选通先验,因此学习低频令牌的选通先验可能只会浪费计算能力。基于此,研究人员提出门控共享,即所有低频字共享相同的门控优先。具体来说,对于低频令牌x,预激活门控apriori定义为:

使用门控共享后,研究人员可以使用共享门控apriori混合上下文嵌入h_c,k,然后与令牌嵌入w _ x相乘,由于低频令牌不需要存储门控逻辑,节省了内存空间。门控共享还加快了计算速度,因为所有低频令牌仅计算一组门控优先级。

Mixttape神秘摘要

Mixttape层可以概括为:

给出最后一层的隐藏状态g_c,并使用公式(5)计算上下文嵌入h _ c,k;

对于每个高频令牌x,使用等式(4)计算预先激活的门控优先L _ c,x,k;

对于所有低频令牌,使用等式(6)来计算预激活门控前的L _ C、X、K;

使用sigmoid树分解,计算公式(3)中门控前π _ c,x,k;

使用矢量门控并使用公式(2)获得下一个令牌的概率。

Mixtape层的架构如下图所示:

图1:Mixttop层的架构。

experiment

experiment由三部分组成:

Mixtape层打破了softmax瓶颈,从而改进了当前的最佳机器翻译系统;

研究人员比较了Mixtop、MoS和softmax的混淆、翻译质量、速度和记忆限制,证明Mixtop可以在效果和效率之间做出很好的权衡。

控制变量实验证明了门控共享的优势。

表1:WMT、英国和法国的数据性能比较。Mixtape在这两项任务中分别使用了2亿和8亿个参数。

表2:数据集统计概述。“PTB”和“1B”分别代表宾夕法尼亚树库数据集和十亿字数据集。

表3:宾大树银行模型混淆程度和训练时间的比较。

表4:十亿字数据集上模型混淆程度和训练时间的比较。

表5:WMT“14英语和德语配对数据”模型BLEU值和训练时间的比较。

表6:WMT“14英语和法语语言对数据”模型BLEU值和训练时间的比较。

本文是为机器的核心而编写的。请联系此公共号码以获得授权。回到搜狐看更多

热门浏览
热门排行榜
热门标签
日期归档