深度神经网络 - 鸢尾花分类

1742 字

9 分钟

深度神经网络 - 鸢尾花分类

2022-06-14

人工智能

神经网络

前言#

关于深度神经网络的原理和基础实现可以查看我之前的文章：深度神经网络（DNN）

这次的主要目标是在之前BP神经网络的基础上，实现多层网络和目标分类，为之后 LeNet 和 AlexNet 打个基础。

因突发疾病抢救无效，旷视首席科学家孙剑去世，年仅45岁¹。

数据#

这次采用的数据集是大名鼎鼎的 鸢尾花 数据集²。

该数据集的输入包含有4个分别是：花萼长度（sepal length (cm) ），花萼宽度（sepal width (cm) ），花瓣长度（petal length (cm)）和花瓣宽度（petal width (cm) ）。分类标签有3个分别是，山鸢尾（Iris-setosa）、变色鸢尾（Iris-versicolor）和维吉尼亚鸢尾（Iris-virginica），分别对应编号0、1、2。数据集中共计150组数组，偷个懒，这次我没有将数据集分为训练集和测试集。

以下是获取数据集的方法，需要提前安装sklearn库：pip install sklearn

1
# 获取iris数据集
2
def GetIrisDataset():
3
    from sklearn.datasets import load_iris
4
    iris = load_iris()
5
    #数据集并不能直接用，通过pandas的DataFrame来转化
6
    import pandas as pd
7

8
    #col是列名
9
    col = list(iris["feature_names"])
10
    #在iris数据集中，标签在"data"数组里，标记在"target"数组里
11
    m1 = pd.DataFrame(iris.data,index=range(150),columns=col)
12
    m2 = pd.DataFrame(iris.target,index=range(150),columns=["outocme"])
13

14
    #将上述两张DataFrame表连接起来，how是DataFrame参数，可以不写，这里用外连接。不清楚外连接的可以看下SQL语句
15
    m3 = m1.join(m2,how='outer')
16

17
    #to_excel语句转化成excel格式，后缀名为.xls
18
    m3.to_excel("./iris.xls")

数据归一化的方法依旧是 最大最小归一法：

$\begin{equation} x{'}=\frac{x-min(x)}{max(x)-min(x)} \end{equation}$

这里我尝试了以下模拟PyTorch的DataLoader方法，自定义了一个数据集加载方法：

1
class DataLoader:
2
    def __init__(self, path):
3
        ...
4

5
    def __iter__(self):
6
        ...
7

8
    def __next__(self):
9
        ...

网络设计#

这次定义的BP神经网络的结果如图所示：

输入层 4个节点对应4个鸢尾花的参数。

输出层 3个节点对应3种鸢尾花。

网络实现#

详细的网络推导过程请参照我之前的文章，这里只描述部分方法的使用和定义：深度神经网络（DNN）。

激活函数#

Sigmoid#

Sigmoid 激活函数的取值分布在0到1之间，在深度学习再度被人们关注的初期是最常被采用的激活函数，但是由于网络层数的加深，采用sigmoid激活函数常常会导致梯度消失。另外，它的均值是0.5，并不是以0为中心的，因此也不便于计算。

但是如果在输出层想将输出规范到0到1之间，那么就可以直接采用sigmoid激活函数。相应的，想得到其他输出只需要在乘以缩放系数并加上偏置即可。

$\begin{equation} Sigmoid(x)=\frac{1}{1+e^{-x}} \end{equation}$

$\begin{equation} \frac{\partial{Sigmoid(x)}}{\partial{x}}= x \times (1 - x) \end{equation}$

Tanh#

Tanh³ 激活函数取值在-1到1，它的均值为0，弥补了sigmoid均值非0的缺点，但是和sigmoid激活函数一样可能在深层网络中导致梯度消失。

$\begin{equation} tanh{(x)}=\frac{e^x-e^{-x}}{e^x+e^{-x}} \end{equation}$

$\begin{equation} \begin{aligned} \frac{\partial{tanh{(x)}}}{\partial{x}} &=\frac{(e^x+e^{-x})(e^x+e^{-x})-(e^x-e^{-x})(e^x-e^{-x})}{(e^x+e^{-x})^2}\\\\ &=1-\frac{(e^x-e^{-x})^2}{(e^x+e^{-x})^2}\\\\ &=1-tanh{^2}(x) \end{aligned} \end{equation}$

ReLU#

ReLU⁴ 的收敛速度会比 sigmoid 或 tanh 快很多。并且，当x<0时，ReLU硬饱和，而当x>0时，则不存在饱和问题。所以，ReLU 能够在x>0时保持梯度不衰减，从而缓解梯度消失问题。这使我们能直接以监督的方式训练深度神经网络，而无需依赖无监督的逐层预训练。

ReLU 的缺点是，随着训练的推进，部分输入会落入硬饱和区，导致对应权重无法更新。这种现象被称为“神经元死亡”。与sigmoid类似，ReLU的输出均值也大于0，偏移现象和神经元死亡会共同影响网络的收敛性。

$\begin{equation} ReLU(x)= \begin{cases} x&x>0 \\\\ 0&x\leq0 \end{cases} \end{equation}$

$\begin{equation} \frac{\partial{ReLU(x)}}{\partial{x}}= \begin{cases} 1&x>0 \\\\ 0&x\leq0 \end{cases} \end{equation}$

Sigmoid & Tanh & ReLU 对比#

下面是在相同参数下，分别使用Sigmoid、Tanh和ReLU作为激活函数的网络表现，这个区别还是比较明显的，Tanh和ReLU相比较Sigmoid，收敛速度更快，如果收敛到最后，在小样本或简单网络中，至少网络表现相差不大。

在我实际测试中在简单网络中 Tanh 效果非常好，收敛得又快又好，Sigmoid 是因为收敛太慢，而 ReLU 则是网络非常容易卡死。

损失函数#

L1Loss#

常用别称：L1范数损失、最小绝对偏差（LAD），平均绝对误差（MAE）

$\begin{equation} e = \frac{1}{n}{|\hat{y}-y|}\end{equation}$

$\begin{equation} \frac{\partial{e}}{\partial{\hat{y}}} = \begin{cases}\frac{1}{n}&, \hat{y}-y\ge0\\\\ -\frac{1}{n}&, \hat{y}-y<0 \end{cases}\end{equation}$