这部分是为了通过提供抽象的表征形式来帮助过拟合。同时,通过减少学习参数的数量,降低了计算成本,为内部表征提供了基本的平移不变性。最大池化是通过对初始表征的通常不重叠的子区域应用最大过滤器(Max filter)来实现的。
6 — 批量归一化当然,包括深度网络的神经网络需要仔细调整权重初始化和学习参数,批量归一化有助于使这一过程稍微轻松些。
权重问题:
- 无论权重的初始化是什么,不管是随机的还是经验选择的,它们都与学习后的权重相差甚远。考虑一个小批量,在最初的轮数(epoch)中,根据所需的特性激活,会有很多离群值。
- 深度神经网络本身就是不适定(ill-posed)的,即初始层的一个微小扰动会导致后面的层发生很大的变化。
在反向传播过程中,这些现象会分散梯度的注意力,这意味着梯度必须在学习产生所需输出的权重之前补偿离群值。这就需要额外的轮数来收敛。
批量归一化将这些梯度从分散归一化到离群值,并在一个小批量的范围内朝着共同目标收敛(通过对它们进行归一化)。
学习率问题:一般来说,学习率保持得很小,使得只有一小部分梯度修正了权重,原因是离群值激活的梯度不应该影响学习好的权重。通过批量归一化,这些离群值激活被减少,因此更高的学习率可以用来加速学习过程。
7 — 长短期记忆网络长短期记忆(Long short-term memory,LSTM)网络与递归神经网络中的普通神经元有以下三个区别:
- 它可以控制何时让输入进入神经元。
- 它可以控制决定何时记住在前一个时间步骤中计算的内容。
- 它可以控制决定何时将输出传递给下一个时间戳。
LSTM 的优点在于:它基于当前输入本身来决定所有这些。因此,如果你看一下如下图表,就会明白了:
当前时间戳上的输入信号 x(t) 决定了以上 3 个点。输入门对第 1 点做出决定。遗忘门在第 2 点做出决定。输出门在第 3 点做出决定。单是输入就能做出这三个决定。这是受我们大脑工作方式的启发,可以根据输入处理突然的上下文切换。
8 — Skip-gram词嵌入(Word Embedding)模型的目标是学习每个词汇词的高维密集表示,其中嵌入向量之间的相似性表示对应词之间的语义或句法相似性。Skip-gram 是学习词嵌入算法的模型。
skip-gram 模型 (以及许多其他词嵌入模型) 背后的主要思想如下:如果两个词汇具有相似的上下文,那么它们就是相似的。
换句话说,假设你有一个句子,比如“猫是哺乳动物”。如果你用“狗”而不是“猫”这个词,这个句子仍然是一个有意义的句子。因此在这个例子中,“狗”和“猫”可以共享相同的上下文 (即“是哺乳动物”)。
基于上述假设,你可以考虑上下文窗口(包含 k 个连续项的窗口)。然后你应该跳过其中一个单词,试着学习神经网络,它能得到所有的词,除了跳过的那个,并预测跳过的那个。因此,如果两个词在一个大型语料库中重复共享相似的上下文,这些词的嵌入向量就会有相近的向量。
9 - 连续词袋在自然语言处理问题中,我们希望学习如何将文档中的每个单词表示为数字向量,以便出现在相似上下文中的单词具有彼此接近的向量。在连续词袋(Continuous Bag Of Words)模型中,目标是能够使用特定单词周围的上下文并预测特定单词。