【译】理解LSTM（通俗易懂版）2024年_知识

人对一个问题的思考不会完全从头开始。比如你在阅读本片文章的时，你会根据之前理解过的信息来理解下面看到的文字。在理解当前文字的时候，你并不会忘记之前看过的文字，从头思考当前文字的含义。

传统的神经网络并不能做到这一点，这是在对这种序列信息（如语音）进行预测时的一个缺点。比如你想对**中的每个片段去做事件分类，传统的神经网络是很难通过利用前面的事件信息来对后面事件进行分类。

而循环神经网络（下面简称RNNs）可以通过不停的将信息循环操作，保证信息持续存在，从而解决上述问题。RNNs如下图所示

可以看出A是一组神经网络（可以理解为一个网络的自循环），它的工作是不停的接收并且输出。从图中可以看出A允许将信息不停的再内部循环，这样使得它可以保证每一步的计算都保存以前的信息。

这样讲可能还是有点晕，更好的理解方式，也是很多文章的做法，将RNNs的自循环结构展开，像是将同一个网络复制并连成一条线的结构，将自身提取的信息传递给下一个继承者，如下图所示。

这种链式的结构揭示了RNNs与序列和列表类型的数据密切相关。好像他们生来就是为了处理序列类型数据的。

谁说不是呢！在过去的几年里，RNNs在语音识别、文字建模、翻译、字幕等领域有很成功的应用。在Andrej Karpathy写的博客 The Unreasonable Effectiveness of Recurrent Neural Networks 中讨论了RNNs取得的惊人成果，这里就不详细讨论了。

很对成功的案例都有一个共性，就是都用了一种叫LSTMs的特殊的RNNs网络结构。下面就来看看什么是LSTMs。

从之前的描述可以看出来，RNNs理论上是可以将以前的信息与当前的任务进行连接，例如使用以前的视频帧来帮助网络理解当前帧。如果RNNs能做到这一点，那将会是非常的有用。但是他们能做到这点吗？答案是不一定。

有时候我们需要利用近期的信息来执行来处理当前的任务。例如，考虑用一个语言模型通过利用以前的文字信息来预测下一个文字。如果我们需要预测“the clouds are in the sky”这句话的最后一个字，我们不需要其他的信息，通过前面的语境就能知道最后一个字应该是sky。在这种情况下，相关信息与需要该信息的位置距离较近，RNNs能够学习利用以前的信息来对当前任务进行相应的操作。如下图所示通过输入的信息来预测出

假设现在有个更为复杂的任务，考虑到下面这句话“I grew up in France… I speak fluent French”，现在需要语言模型通过现有以前的文字信息预测该句话的最后一个字。通过以前文字语境可以预测出最后一个字是某种语言，但是要猜测出French，要根据之前的France语境。这样的任务，不同之前，因为这次的有用信息与需要进行处理信息的地方之间的距离较远，这样容易导致RNNs不能学习到有用的信息，最终推导的任务可能失败。如下图所示。

理论上RNNs是能够处理这种“长依赖”问题的。通过调参来解决这种问题。但是在实践过程中RNNs无法学习到这种特征。 Hochreiter (1991) [German] 和 Bengio, et al (1994) 深入研究过为什么RNNs没法学习到这种特征。

幸好LSTMs这种特殊的RNNs是没有这个问题的。

Long Short Term Memory networks（以下简称LSTMs），一种特殊的RNN网络，该网络设计出来是为了解决长依赖问题。该网络由 Hochreiter & Schmidhuber (1997) 引入，并有许多人对其进行了改进和普及。他们的工作被用来解决了各种各样的问题，直到目前还被广泛应用。

所有循环神经网络都具有神经网络的重复模块链的形式。在标准的RNN中，该重复模块将具有非常简单的结构，例如单个tanh层。标准的RNN网络如下图所示

LSTMs也具有这种链式结构，但是它的重复单元不同于标准RNN网络里的单元只有一个网络层，它的内部有四个网络层。LSTMs的结构如下图所示。

在解释LSTMs的详细结构时先定义一下图中各个符号的含义，符号包括下面几种

图中**类似于CNN里的激活函数操作，粉色圆圈表示点操作，单箭头表示数据流向，箭头合并表示向量的合并（concat）操作，箭头分叉表示向量的拷贝操作

LSTMs的核心是细胞状态，用贯穿细胞的水平线表示。

细胞状态像传送带一样。它贯穿整个细胞却只有很少的分支，这样能保证信息不变的流过整个RNNs。细胞状态如下图所示

LSTM网络能通过一种被称为门的结构对细胞状态进行删除或者添加信息。

门能够有选择性的决定让哪些信息通过。其实门的结构很简单，就是一个sigmoid层和一个点乘操作的组合。如下图所示

因为sigmoid层的输出是0-1的值，这代表有多少信息能够流过sigmoid层。0表示都不能通过，1表示都能通过。

一个LSTM里面包含三个门来控制细胞状态。

前面提到LSTM由三个门来控制细胞状态，这三个门分别称为忘记门、输入门和输出门。下面一个一个的来讲述。

LSTM的第一步就是决定细胞状态需要丢弃哪些信息。这部分操作是通过一个称为忘记门的sigmoid单元来处理的。它通过查看和信息来输出一个0-1之间的向量，该向量里面的0-1值表示细胞状态中的哪些信息保留或丢弃多少。0表示不保留，1表示都保留。忘记门如下图所示。

下一步是决定给细胞状态添加哪些新的信息。这一步又分为两个步骤，首先，利用和通过一个称为输入门的操作来决定更新哪些信息。然后利用和通过一个tanh层得到新的候选细胞信息，这些信息可能会被更新到细胞信息中。这两步描述如下图所示。

下面将更新旧的细胞信息，变为新的细胞信息。更新的规则就是通过忘记门选择忘记旧细胞信息的一部分，通过输入门选择添加候选细胞信息的一部分得到新的细胞信息。更新操作如下图所示

更新完细胞状态后需要根据输入的和来判断输出细胞的哪些状态特征，这里需要将输入经过一个称为输出门的sigmoid层得到判断条件，然后将细胞状态经过tanh层得到一个-1~1之间值的向量，该向量与输出门得到的判断条件相乘就得到了最终该RNN单元的输出。该步骤如下图所示

还是拿语言模型来举例说明，在预测动词形式的时候，我们需要通过输入的主语是单数还是复数来推断输出门输出的预测动词是单数形式还是复数形式。

之前描述的LSTM结构是最为普通的。在实际的文章中LSTM的结构存在各种变式，虽然变化都不会太大，但是也值得一提。

其中一个很受欢迎的变式由 Gers & Schmidhuber (2000) 提出，它在LSTM的结构中加入了“peephole connections”结构，peephole connections结构的作用是允许各个门结构能够看到细胞信息，具体如下图所示。

上图描绘的是所有门都能看到细胞信息，还有一些变式是在其中的某些门引入细胞信息。

还有一种变式是在忘记门与输入门之间引入一个耦合。不同于之前的LSTM结构，忘记门和输入门是独立的，这个变式是在忘记门删除历史信息的位置加入新的信息，在加入新信息的位置删除旧信息。该结构如下图所示。

一种比其他形式变化更为显著的LSTM变式是由 Cho, et al (2014) 提出的门循环单元（GRU）。它将忘记门和输入门合并成一个新的门，称为更新门。GRU还有一个门称为重置门。如下图所示

其中重置门为上图中前面那个门，决定了如何将新的输入信息与前面的记忆相结合。更新门为上图中后面那个门，定义了前面记忆保存到当前时间步的量。由于该变式的简单有效，后来被广泛应用。

这里介绍的只是一些较为有名的LSTM变式，关于LSTM的变式其实还有很多种，像 Yao, et al (2015) 提出的Depth Gated RNNs。还有其他用于解决长依赖问题的方法，如由 Koutnik, et al (2014) 提出的 Clockwork RNNs。

至于哪种变式效果最好？各种差异对LSTM的影响有多少？这些问题 Greff, et al (2015) 做了一些对比，结论是他们基本是一样的。 Jozefowicz, et al (2015) 测试了一万多种RNN结构，发现在某些指定任务上有些变式还是由于标准LSTMs的。

之前也提到过RNNs取得了不错的成绩，这些成绩很多是基于LSTMs来做的，说明LSTMs适用于大部分的序列场景应用。

一般文章写法会堆一堆公式吓唬人，希望本文一步一步的拆分能有助于大家的理解。

LSTMs对于RNNs的使用是一大进步。那么现在还有个问题，是否还有更大的进步？对于很多研究者来说，但是是肯定的，那就是attention的问世。attention的思想是让RNN在每一步挑选信息的时候都能从更大的信息集里面挑选出有用信息。例如，利用RNN模型为一帧生成字母，它将会选择有用的部分来得到有用的输入，从而生成有效的输出。事实上， Xu, et al (2015) 已经这么做了，如果你想更深入的了解attention，这会是一个不错的开始。attention方向还有一些振奋人心的研究，但还有很多东西等待探索

在RNN领域attention并不是唯一一个可以研究的点。比如 Kalchbrenner, et al (2015) 提出的Grid LSTMs， Gregor, et al (2015) , Chung, et al (2015) , 和 Bayer & Osendorfer (2015) 将RNNs用于生成模型的研究都非常有意思。

在过去几年RNNs方面的研究非常的多，相信以后的研究成果也会更为丰富。

同原文

欢迎加入OCR交流群：785515057（此群已满）

欢迎加入OCR交流群2：826714963

原文链接

1Perceptron(P) 感知机

1感知机

感知机是我们知道的最简单和最古老的神经元模型，它接收一些输入，然后把它们加总，通过激活函数并传递到输出层。

2Feed Forward(FF)前馈神经网络

2前馈神经网络

前馈神经网络（FF），这也是一个很古老的方法——这种方法起源于50年代。它的工作原理通常遵循以下规则：

1所有节点都完全连接

2激活从输入层流向输出，无回环

3输入和输出之间有一层（隐含层）

在大多数情况下，这种类型的网络使用反向传播方法进行训练。

3Radial Basis Network(RBF) RBF神经网络

3RBF神经网络

RBF 神经网络实际上是激活函数是径向基函数而非逻辑函数的FF前馈神经网络（FF）。两者之间有什么区别呢？

逻辑函数--- 将某个任意值映射到[0 , 1]范围内来，回答“是或否”问题。适用于分类决策系统，但不适用于连续变量。

相反，径向基函数--- 能显示“我们距离目标有多远”。这完美适用于函数逼近和机器控制（例如作为PID控制器的替代）。

简而言之，RBF神经网络其实就是，具有不同激活函数和应用方向的前馈网络。

4Deep Feed Forword(DFF)深度前馈神经网络

4DFF深度前馈神经网络

DFF深度前馈神经网络在90年代初期开启了深度学习的潘多拉盒子。这些依然是前馈神经网络，但有不止一个隐含层。那么，它到底有什么特殊性？

在训练传统的前馈神经网络时，我们只向上一层传递了少量的误差信息。由于堆叠更多的层次导致训练时间的指数增长，使得深度前馈神经网络非常不实用。直到00年代初，我们开发了一系列有效的训练深度前馈神经网络的方法; 现在它们构成了现代机器学习系统的核心，能实现前馈神经网络的功能，但效果远高于此。

5Recurrent Neural Network(RNN) 递归神经网络

5RNN递归神经网络

RNN递归神经网络引入不同类型的神经元——递归神经元。这种类型的第一个网络被称为约旦网络（Jordan Network），在网络中每个隐含神经元会收到它自己的在固定延迟（一次或多次迭代）后的输出。除此之外，它与普通的模糊神经网络非常相似。

当然，它有许多变化 — 如传递状态到输入节点，可变延迟等，但主要思想保持不变。这种类型的神经网络主要被使用在上下文很重要的时候——即过去的迭代结果和样本产生的决策会对当前产生影响。最常见的上下文的例子是文本——一个单词只能在前面的单词或句子的上下文中进行分析。

6Long/Short Term Memory (LSTM) 长短时记忆网络

6LSTM长短时记忆网络

LSTM长短时记忆网络引入了一个存储单元，一个特殊的单元，当数据有时间间隔（或滞后）时可以处理数据。递归神经网络可以通过“记住”前十个词来处理文本，LSTM长短时记忆网络可以通过“记住”许多帧之前发生的事情处理视频帧。 LSTM网络也广泛用于写作和语音识别。

存储单元实际上由一些元素组成，称为门，它们是递归性的，并控制信息如何被记住和遗忘。

7Gated Recurrent Unit (GRU)

7GRU是具有不同门的LSTM

GRU是具有不同门的LSTM。

听起来很简单，但缺少输出门可以更容易基于具体输入重复多次相同的输出，目前此模型在声音（音乐）和语音合成中使用得最多。

实际上的组合虽然有点不同：但是所有的LSTM门都被组合成所谓的更新门(Update Gate)，并且复位门(Reset Gate)与输入密切相关。

它们比LSTM消耗资源少，但几乎有相同的效果。

8Auto Encoder (AE) 自动编码器

8AE自动编码器

Autoencoders自动编码器用于分类，聚类和特征压缩。

当您训练前馈(FF)神经网络进行分类时，您主要必须在Y类别中提供X个示例，并且期望Y个输出单元格中的一个被激活。这被称为“监督学习”。

另一方面，自动编码器可以在没有监督的情况下进行训练。它们的结构 - 当隐藏单元数量小于输入单元数量（并且输出单元数量等于输入单元数）时，并且当自动编码器被训练时输出尽可能接近输入的方式，强制自动编码器泛化数据并搜索常见模式。

9Variational AE (VAE) 变分自编码器

9VAE变分自编码器

变分自编码器，与一般自编码器相比，它压缩的是概率，而不是特征。

尽管如此简单的改变，但是一般自编码器只能回答当“我们如何归纳数据？”的问题时，变分自编码器回答了“两件事情之间的联系有多强大？我们应该在两件事情之间分配误差还是它们完全独立的？”的问题。

10Denoising AE (DAE) 降噪自动编码器

10DAE降噪自动编码器

虽然自动编码器很酷，但它们有时找不到最鲁棒的特征，而只是适应输入数据（实际上是过拟合的一个例子）。

降噪自动编码器（DAE）在输入单元上增加了一些噪声 - 通过随机位来改变数据，随机切换输入中的位，等等。通过这样做，一个强制降噪自动编码器从一个有点嘈杂的输入重构输出，使其更加通用，强制选择更常见的特征。

11Sparse AE (SAE) 稀疏自编码器

11SAE稀疏自编码器

稀疏自编码器（SAE）是另外一个有时候可以抽离出数据中一些隐藏分组样试的自动编码的形式。结构和AE是一样的，但隐藏单元的数量大于输入或输出单元的数量。

12Markov Chain (MC) 马尔科夫链

马尔可夫链（Markov Chain, MC）是一个比较老的图表概念了，它的每一个端点都存在一种可能性。过去，我们用它来搭建像“在单词hello之后有00053％的概率会出现dear，有003551%的概率出现you”这样的文本结构。

这些马尔科夫链并不是典型的神经网络，它可以被用作基于概率的分类（像贝叶斯过滤），用于聚类（对某些类别而言），也被用作有限状态机。

13Hopfield Network (HN) 霍普菲尔网络

13HN霍普菲尔网络

霍普菲尔网络（HN）对一套有限的样本进行训练，所以它们用相同的样本对已知样本作出反应。

在训练前，每一个样本都作为输入样本，在训练之中作为隐藏样本，使用过之后被用作输出样本。

在HN试着重构受训样本的时候，他们可以用于给输入值降噪和修复输入。如果给出一半或数列用来学习，它们可以反馈全部样本。

14Boltzmann Machine (BM) 波尔滋曼机

14 BM 波尔滋曼机

波尔滋曼机（BM）和HN非常相像，有些单元被标记为输入同时也是隐藏单元。在隐藏单元更新其状态时，输入单元就变成了输出单元。（在训练时，BM和HN一个一个的更新单元，而非并行）。

这是第一个成功保留模拟退火方法的网络拓扑。

多层叠的波尔滋曼机可以用于所谓的深度信念网络，深度信念网络可以用作特征检测和抽取。

15Restricted BM (RBM) 限制型波尔滋曼机

15 RBM 限制型波尔滋曼机

在结构上，限制型波尔滋曼机（RBM）和BM很相似，但由于受限RBM被允许像FF一样用反向传播来训练（唯一的不同的是在反向传播经过数据之前RBM会经过一次输入层）。

16Deep Belief Network (DBN) 深度信念网络

16DBN 深度信念网络

像之前提到的那样，深度信念网络（DBN）实际上是许多波尔滋曼机（被VAE包围）。他们能被连在一起（在一个神经网络训练另一个的时候），并且可以用已经学习过的样式来生成数据。

17Deep Convolutional Network (DCN) 深度卷积网络

17 DCN 深度卷积网络

当今，深度卷积网络（DCN）是人工神经网络之星。它具有卷积单元（或者池化层）和内核，每一种都用以不同目的。

卷积核事实上用来处理输入的数据，池化层是用来简化它们（大多数情况是用非线性方程，比如max），来减少不必要的特征。

他们通常被用来做图像识别，它们在的一小部分上运行（大约20x20像素）。输入窗口一个像素一个像素的沿着图像滑动。然后数据流向卷积层，卷积层形成一个漏斗（压缩被识别的特征）。从图像识别来讲，第一层识别梯度，第二层识别线，第三层识别形状，以此类推，直到特定的物体那一级。DFF通常被接在卷积层的末端方便未来的数据处理。

18Deconvolutional Network (DN) 去卷积网络

18 DN 去卷积网络

去卷积网络（DN）是将DCN颠倒过来。DN能在获取猫的之后生成像（狗：0，蜥蜴：0，马：0，猫：1）一样的向量。DNC能在得到这个向量之后，能画出一只猫。

19Deep Convolutional Inverse Graphics Network (DCIGN) 深度卷积反转图像网络

19 DCIGN 深度卷积反转图像网络

深度卷积反转图像网络（DCIGN），长得像DCN和DN粘在一起，但也不完全是这样。

事实上，它是一个自动编码器，DCN和DN并不是作为两个分开的网络，而是承载网路输入和输出的间隔区。大多数这种神经网络可以被用作图像处理，并且可以处理他们以前没有被训练过的图像。由于其抽象化的水平很高，这些网络可以用于将某个事物从一张中移除，重画，或者像大名鼎鼎的CycleGAN一样将一匹马换成一个斑马。

20Generative Adversarial Network (GAN) 生成对抗网络

20 GAN 生成对抗网络

生成对抗网络（GAN）代表了有生成器和分辨器组成的双网络大家族。它们一直在相互伤害——生成器试着生成一些数据，而分辨器接收样本数据后试着分辨出哪些是样本，哪些是生成的。只要你能够保持两种神经网络训练之间的平衡，在不断的进化中，这种神经网络可以生成实际图像。

21Liquid State Machine (LSM) 液体状态机

21 LSM 液体状态机

液体状态机（LSM）是一种稀疏的，激活函数被阈值代替了的（并不是全部相连的）神经网络。只有达到阈值的时候，单元格从连续的样本和释放出来的输出中积累价值信息，并再次将内部的副本设为零。

这种想法来自于人脑，这些神经网络被广泛的应用于计算机视觉，语音识别系统，但目前还没有重大突破。

22Extreme Learning Machine (ELM) 极端学习机

22ELM 极端学习机

极端学习机（ELM）是通过产生稀疏的随机连接的隐藏层来减少FF网络背后的复杂性。它们需要用到更少计算机的能量，实际的效率很大程度上取决于任务和数据。

23Echo State Network (ESN) 回声状态网络

23 ESN 回声状态网络

回声状态网络（ESN）是重复网络的细分种类。数据会经过输入端，如果被监测到进行了多次迭代（请允许重复网路的特征乱入一下），只有在隐藏层之间的权重会在此之后更新。

据我所知，除了多个理论基准之外，我不知道这种类型的有什么实际应用。。。。。。。

24Deep Residual Network (DRN) 深度残差网络

24 DRN 深度残差网络

深度残差网络（DRN）是有些输入值的部分会传递到下一层。这一特点可以让它可以做到很深的层级（达到300层），但事实上它们是一种没有明确延时的RNN。

25Kohonen Network (KN) Kohonen神经网络

25 Kohonen神经网络

Kohonen神经网络（KN）引入了“单元格距离”的特征。大多数情况下用于分类，这种网络试着调整它们的单元格使其对某种特定的输入作出最可能的反应。当一些单元格更新了，离他们最近的单元格也会更新。

像SVM一样，这些网络总被认为不是“真正”的神经网络。

26Support Vector Machine (SVM)

26 SVM 支持向量机

支持向量机（SVM）用于二元分类工作，无论这个网络处理多少维度或输入，结果都会是“是”或“否”。

SVM不是所有情况下都被叫做神经网络。

27Neural Turing Machine (NTM) 神经图灵机

27NTM 神经图灵机

神经网络像是黑箱——我们可以训练它们，得到结果，增强它们，但实际的决定路径大多数我们都是不可见的。

神经图灵机（NTM）就是在尝试解决这个问题——它是一个提取出记忆单元之后的FF。一些作者也说它是一个抽象版的LSTM。

记忆是被内容编址的，这个网络可以基于现状读取记忆，编写记忆，也代表了图灵完备神经网络。

自然语言处理（NLP）是一种涉及文本和语言的计算机应用技术，随着深度学习的发展，神经网络模型在NLP领域中得到了广泛的应用。根据不同的NLP任务和数据集，可以选择不同的神经网络模型结构。但是，基于目前的研究和应用经验，可以总结出一些适用于NLP问题的神经网络模型结构。

循环神经网络（RNN）：RNN是一种经典的神经网络模型结构，可以处理序列化输入的数据，例如文本、音频和视频等。在NLP领域，RNN被广泛应用于自然语言生成、文本分类、情感分析、机器翻译等任务，主要优势在于能够处理动态变化的输入序列和长距离依赖关系。

长短时记忆网络（LSTM）：LSTM是RNN的一种变体，能够有效地解决RNN训练过程中的梯度消失和梯度爆炸问题。LSTM在NLP领域中被广泛应用于自然语言生成、机器翻译、情感分析等任务，主要优势在于能够处理长距离依赖关系和动态变化的输入序列。

卷积神经网络（CNN）：CNN是一种广泛应用于图像处理领域的神经网络模型结构，可以提取图像中的特征信息。在NLP领域，CNN被应用于文本分类、情感分析等任务，主要优势在于能够提取局部和全局的特征信息。

注意力机制（Attention）：注意力机制是一种神经网络模型结构，能够在处理序列化输入时，将重点放在与当前任务相关的部分上。在NLP领域，注意力机制被广泛应用于机器翻译、自然语言生成等任务，主要优势在于能够有效处理长距离依赖关系和对输入序列中重要信息的聚焦。

总之，在NLP领域，不同的神经网络模型结构有其各自的优点和适用范围，需要根据具体任务的要求和数据集的特点进行选择。同时，还需要考虑模型的训练效率和计算复杂度等因素，以便充分利用计算资源和提高模型性能。

欢迎分享，转载请注明来源：浪漫分享网

原文地址: https://hunlipic.com/qinggan/670772.html

【译】理解LSTM（通俗易懂版）

发表评论

评论列表（0条）

【译】理解LSTM（通俗易懂版）

发表评论

评论列表（0条）

请登录