深度学习的基础知识

梯度下降法

是一种致力于找到函数极值点的算法

梯度

梯度表明损失函数相对参数的变化率

泛化误差

模型在新数据上的误差

降维

1.特征选择

2.PCA 主成分分析

欠拟合

在训练数据上错误率比较高，模型不能很好地拟合数据

过拟合

在训练数据上错误率低，在测试数据上错误率很高

抑制过拟合的方法：正则化

dropout 丢弃法

1.是一种在学习的过程中随机删除神经元的方法

1.丢弃法将一些输出项随机置0来控制模型复杂度

2.常作用在多层感知机的隐藏层输出上

损失函数

1.交叉熵损失函数

(1) 交叉熵刻画的是实际输出与期望输出的距离，也就是交叉熵的值越小，两个概率分布就越接近

(2) 目标值需要进行one-hot编码，能与概率值一一对应

神经元（感知机）

1.概念

神经元模型是一个包含权重的输入，并且使用激活功能产生输出信号的基础计算单元，包括三个部分：输入、激活、输出

激活部分一般由两模块组成：
第一个模块是对输入部分进行加权求和，并且加入偏置项之后得到的结果进行如公式所示的表征函数f()转换处理

第二个模块是对f()处理后的结果进行激活，常用的激活函数有：sigmoid函数等

激活函数

激活函数是加权输入和神经元输出的简单映射

softmax函数

把神经网络的输出转化成概率

全连接

任意一个神经元和前后层的所有神经元相连接

多层感知机（神经网络）

是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上，传统的神经网络有输入层、隐藏层、输出层，其中隐藏层的层数根据需要而定

卷积神经网络 CNN

包括输入层，隐藏层（包含：卷积层、激活层、池化层），输出层（全连接层）

1.卷积层（Convolution)

(1) 卷积层的作用是特征提取

(2) 每层卷积层是由若干个卷积单元（卷积核 Convolution Kernel，又称滤波器 Filter）组成

(3) 组成卷积核的每个元素都有与之对应的偏置和权重系数

(4) 卷积的过程就是待卷积区域与卷积核点乘并加上偏置后的激活输出

(5) 卷积核的填充（padding）

在进行卷积层的处理之前，有时要向输入数据的周围填入固定的数据（比如0等）

(6) 卷积层的输出也称为特征映射（feature map）

2.池化层（Polling）

(1) 池化层的作用是对由卷积层的输出进行信息过滤和特征提取

(2) 最大池化：是从目标区域中取出最大值

3.全连接层（Full Connection）

起分类器的作用

循环神经网络 RNN

在时间t，模型输出值Yt取决于两个参数：隐藏层到输出层的连接权重Wy和当期状态值Ht，

输入值Xt和上期的状态值Ht-1通过相应的连接权重Wh和Wx，加权相加，再通过激活函数TanH，生成当期的状态值Ht,而Ht在下期计算中又会作为状态输入值与Xt+1一起参与到Ht+1的计算

循环神经网络的优化问题

1.梯度消失

2.梯度爆炸

3.长时依赖

LSTM 长短时记忆网络

主要是解决循环神经网络RNN存在的梯度消失和梯度爆炸的问题，LSTM的结构和标准RNN类似，区别是LSTM把隐藏层的每个普通节点换成了一个记忆细胞，具备选择性记忆的功能，可以选择记忆重要信息，过滤掉噪声信息,减轻记忆负担

3个Sigmoid函数，两个Tanh函数，Sigmoid函数可以返回0到1区间的值，TanH可以返回-1到1区间的值，3个Sigmoid函数分别管理着三扇门：遗忘门、输入门、输出门

本期记忆状态值Ct由上期状态记忆值Ct-1通过遗忘门过滤到本期的部分加上本期新增的部分，上期过滤的部分是依靠遗忘门，当遗忘门的值为0时意味着上期记忆完全遗忘，当遗忘门的值为1时，上期记忆全部保留

输出门的Sigmoid函数和当期记忆值Ct的TanH值相乘，得到本期的输出值Ht，Ct和Ht会循环流入到t+1时刻参与到下期的计算

门控循环单元GRU

两个Sigmoid函数代表两扇门：更新门、重置门

计算当期状态值Ht时，同时考虑历史信息部分和新增信息部分，更新门确定着上期状态能进入到当期的比例，当它与上期状态值Ht-1相乘，就得到了新状态中历史信息的部分

重置门决定了上期信息的遗忘比例，它与上期状态Ht-1相乘，并且和当期输入信息部分Xt相加，再通过TanH函数转化得到当期信息数据，当期信息数据和对应比例(1-Zt)相乘，得到新状态中新增信息的部分

历史信息部分和新增信息部分相加得到最终当期状态值

注意力机制 Attention Mechanism

自编码器 AE

变分自编码器 VAE

seq2seq 编码器和解码器

生成对抗网络 GAN

生成器（G）试图将输入的噪声转换为假样本，试图欺骗鉴别器（D），而鉴别器（D）试图区分数据是真实的样本还是来自生成器（G）的假样本，在训练迭代过程中，生成器和鉴别器持续地进化和对抗，直到达到平衡状态，鉴别器无法识别出生成器的假样本，训练结束

深度卷积生成对抗网络 DCGAN

DBSCAN算法

DBSCAN算法是经典的基于密度的聚类算法，它依靠数据点间定义的密度度量来聚类。它通过指定数据聚类最小点数MinPts，和聚类距离半径ε自动依据数据点的密度聚类。相对于我们熟悉的K-means算法，不需要指定聚类的个数。聚类是一种无监督学习，它在样本没有标记的情况可以把数据分成不同的组，聚类算法分组的依据是数据间的距离度量值。