循环神经网络(RNN)的应用

循环神经网络(RNN)的应用,第1张

循环神经网络(RNN)是目前深度学习最有前景的工具之一,它解决了传统神经网络不能共享从数据中共享位置的特征的问题。目前,RNN已经有了不少有意思的应用:

语音识别 :输入的语音数据,生成相应的语音文本信息。比如微信的语音转文字功能。

机器翻译 :不同语言之间的相互转换。像有道翻译、腾讯翻译官等。最近微软据说实现了中翻英媲美人类的水平

音乐生成 :使用RNN网络生成音乐,一般会用到RNN中的LSTM算法(该算法可以解决RNN网络中相距较远的节点梯度消失的问题)。下面这个github项目实现了jazz音乐的生成。

deepjazz

文本生成 :利用RNN亦可以生成某种风格的文字。有兴趣的可以看一下一下两个github项目

numpy实现字符层面的文本生成器

keras实现特定作家风格的文本

情感分类 :输入文本或者语音的评论数据,输出相应的打分数据。

DNA序列分析 :输入的DNA序列,输出蛋白质表达的子序列。

视频行为识别 :识别输入的视频帧序列中的人物行为。

实体名字识别 :从文本中识别实体的名字。

数学 由微积分 发展出 傅里叶级数,复变函数,是由现实问题驱动的。

ai 从 神经网络 发展出 卷积神经网络 convolutional nn, 长短时记忆神经网络,lstm ,attention model, 也是由现实问题 驱动的。每种 新模型的 提出,都极大地 提高了 相关领域问题的 预测质量。 卷积神经网络 主要由 图像 分类识别问题触发,lstm 主要用于 时间序列数据分析,比如机器翻译,注意力 model 也是由 用于机器翻译 。

学习ai,离现实问题比较近,比传统的数学专业学习更容易激发学习者的兴趣。 传统的数学专业离现实问题比较远,传统的教学方法在一些 概念性问题,技巧性问题上 反复做 练习,迟迟不 接触现实问题,学生缺乏应用数学 解决现实问题的 系统完整的体会,限制了 理论和 应用水平的 提高。

现在 开源 ai 库,scikit learn, keras, 集成了 例子 数据集合,比如 手写数字字符识别,网络评论 情感 分析,以及 各种 算法 和 工具的 实现。学习者 几十分钟 就 可以 修改 和 运行 一个 应用例子程序。 从算法理论到具体应用 的 反馈周期大大缩短。 开源 对 提高 整个计算机 应用行业 的 效率,提高生产效率,起了极大的作用。

卷积神经网络(Convolutional Neural Networks, CNN)的核心是进行卷积运算操作。在实际应用中往往采用多层网络结构,因此又被称为深度卷积神经网络。本文将从单个卷积的计算出发,带大家掌握卷积层在神经网络中的运算方法。

21 单个卷积的计算

要想了解卷积层在神经网络中的计算过程,我们首先需要了解单个“卷积”是如何运作的。

想必大家在学习CNN的过程中都见过下图( 出处在此 ,这上面有各种各样的卷积gif图):

input_shape=(5,5),kernelsize=(3,3),padding=‘same’,stride=1,output_shape=(5,5)

在此图中:

在此次计算中:

Ps: 在实际应用中,每一个输出的特征图还会配备一个偏置bais,在上图中无表示。

22 卷积层在神经网络中的运算

了解完单个卷积是如何计算的之后,我们就可以从神经网络的角度来看‘卷积层’的运算过程了。下图展示的是输入三通图像(883)经一层卷积结构,输出两通特征图(882)的计算过程:

卷积参数:input_shape=(8,8,3),kernelsize=(3,3),padding=‘same’,stride=1,output_shape=(8,8,2)

在此图中:

在此次卷积层的运算中:

首先我们来关注一下输入和输出,他俩的尺度都是(88),而输入是3通道,输出是2通道(深度学习中不管干啥一定要先看输入输出,对一层是这样,对整个模型也是这样)。

其次就准备进入我们最熟悉的卷积核计算了,可是在此之前我们得知道,这个运算过程中到底发生了几次卷积核计算呢?有的朋友可能要说,卷积的一大特性就是‘权值共享’,有几通输出就有几个卷积核,每个卷积核把输入特征图从头扫到尾。然而这个其实是不对的!

实际上,在卷积核计算数量问题上,应该是“ 有几通道的输出就有几套卷积核,每套内的卷积核数量与输入通道数相等 ”,就像我在上图中所画的:

至此,这一个卷积层的运算就全部完成了。

23 “可训练参数”验证

毕竟空口无凭,下面我来通过“ 可训练参数 ”的数量,来为大家验证一下卷积层是不是按我说的这么运算的。大家应该知道,一个卷积层内的“可训练参数”,其实就是指的卷积核里的那些值,以及要加的偏置量,那么如果按照前面描述的计算方法来看,一个卷积层内的“可训练参数有多少呢”?我们可知:

由此可得到:

那么按理说可训练参数量应为:

让我们用keras的summary()来验证一下:

很棒!

记住,普通卷积层的可训练参数量为:

Ps: 还有一个衡量模型大小、复杂度的量叫做“理论计算量FLOPs”(floating point operations)。它通常只考虑Conv、FC等参数层的乘、加操作的数量,并且“纯加”操作也会被忽略(例如bias)。卷积层运算中的FLOPs计算公式为:

Ps: 这里还要为大家明确一个“感受野”的概念,简单来讲就是卷积神经网络中的某一层特征图上的一个点,对应到原图上可以关联到多少个点,我们用一张图来解释一下:

上图展示的是一个3层一维卷积,kernel_size=3,我们可以看到:顶层左一的像素与底层左起7个像素值有关,这时候就代表它的感受野有7。我们可以显而易见的得出以下两个结论:

这个感受野在后续的卷积的拆分讲解中还要用到。

Kullback-Leibler Divergence ,即 K-L散度 ,是一种 量化两种概率分布P和Q之间差异 的方式,又叫 相对熵 。在概率学和统计学上,我们经常会使用一种 更简单的、近似的分布 来替代 观察数据 或 太复杂的分布 。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。

K-L散度定义见文末附录1。另外在附录5中解释了为什么在深度学习中,训练模型时使用的是 Cross Entropy 而非 K-L Divergence 。

我们从下面这个问题出发思考K-L散度。

这些数据很有价值,但是也有点问题。我们距离地球

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7760015.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-07
下一篇2023-09-07

发表评论

登录后才能评论

评论列表(0条)

    保存