翁振雷 雒鹏程
(杭州电子科技大学 人文艺术与数字媒体学院 杭州 310018)
摘要:深度学习是调用多层网络模型来学习抽象数据表示的一种方法,在图像识别、目标检测、语音识别等领域均有应用,深度学习利用反向传播算法进行网络模型内部参数的更新,从而总结出大型数据集的复杂结构与一般规律,从监督学习到无监督学习,从卷积神经网络到递归神经网络,深度学习的发展为人工智能的多个领域提供了更多的可能。
关键词:深度学习;反向传播算法;监督学习;无监督学习;卷积神经网络;递归神经网络
深度学习是机器学习的一种,它为现代社会的各个方面提供了强大的支持,随着5G时代的来临,从智能检索到网络信息的提取再到各大网站头条的喜好推荐,它越来越多地渗透进我们生活的方方面面。深度学习的网络架构是通过组合多个非线性的网络层而获得的,每个网络层都将一个等级(从原始输入开始)的特征形式转换为更高、更抽象级别的特征形式。这种类型的转换堆叠的越多,就能够实现更为复杂的功能。而由于它能够整合多维度数据的复杂结构特征,因而对当下人工智能的各个领域都有着不小的推动作用。通过对深度学习发展和应用进行总结与概括,希望能够增加公众对这项技术的理解与认识。
一、深度学习的核心算法发展
反向传播算法是深度学习网络更新梯度与学习训练的核心算法,它是由Rumelhart、Hinton和Williams(1986年)提出的一种Delta法则,相对于传统机器学习手工设计对应的权重连接的模式,反向传播算法能够基于多层训练网络自动的建立相关的权重连接并更新参数。如图1所示,反向传播算法是建立在梯度下降方法的基础上的,由前向传播过程和反向传播过程组成。在前向传播过程中,原始输入通过输入层经多个隐藏层的处理传向输出层。将输出层的输出值与期望值作对比,取将输出值与期望值建立一定的数学关系,以此作为损失函数,进入反向传播,逐层求出损失函数对各层的神经元权值的偏导数,构成损失函数对权值向量的梯度,通过梯度下降的方法进行权重的更新,网络的学习在权值修改过程中完成。误差达到所期望值(尽可能的小)时,网络学习结束。
.jpg)
图1 反向传播算法结构
反向传播算法详细的计算如公式(1)、(2)所示:
.jpg)
公式(1)、(2)中,
C:深度学习网络输出与期望输出之间的损失函数;x:深度学习网络的原始输入;
y(x) :深度学习网络输出aL(x); :深度学习网络的期望输出;L:深度学习网络的最大层数zij; :第j层神经元的权重参数;δij :第j层神经元的梯度。
二、深度学习的分类
(一)监督学习
监督学习是深度学习最常见的形式,是通过大量给定的输入数据与输出标签之间建立对应的多层网络权重连接来进行学习的。在监督学习中,由输入数据(通常为矢量)和期望的输出值(也称为监督信号)组成对应的实例数据对。监督学习通过分析该训练数据,并产生对应功能的网络训练结果,并可以映射出新的实例。该网络训练结果将允许该算法来正确地输出那些未知实例的真实类标签。由此,监督学习是在一种从训练数据到未知数据的预测机制。
监督学习是伴随着反向传播算法的出现而产生的,从1970年到2006年间,深度学习都主要采用有监督学习的方式进行训练,然而效果并不十分的理想,主要存在的问题如下:
①数据样本的获取问题
监督学习需要在成对有标签的数据集的基础上才能进行训练,而有标签的海量数据通常需要耗费大量的时间与人工成本去进行获取与标注,若数据量不足,则会导致无法拟合出合适的参数结果。
②假收敛的极值问题
监督学习进行训练时候通常会遇到求解高度非凸的优化问题,即对于网络拟合的分布函数中有很多假收敛的极值点,这导致监督学习在使用反向传播算法进行梯度下降的处理时效果并不能达到最理想的状态。
③梯度的扩散问题
监督学习在进行反向传播训练时,由于网络层数的加深导致整体的损失函数相对于网络结构最初几层的权重的导数非常小。在实际训练时,网络的最初几层的梯度更新非常缓慢,以至于网路不能从样本中进行学习到最够多的特征进行最终的功能实现。
(二)无监督学习
无监督学习是在监督学习的基础上得来的,相对于监督学习,无监督学习没有成对的输入数据与输出标签信息,是通过算法本身去模拟找到契合最终功能特点的数据的最优分布,它的主要目的是通过对原始输入的结构化网络操作去了解原始输入的内部结构,无监督学习的常用方法主要有自编码器、聚类学习,具体介绍如下:
①自编码器
自编码器由UC Davis 的 Bruno Olshausen 和康奈尔大学的 David Field 于 1996 年提出,它是将编码理论用在我们人脑视觉皮层的接收域,使用稀疏性原理来创建一个能够根据所要实现的基本功能对原始输入进行重建与编码的的最小集合。
②聚类学习
聚类学习是Adam Coates 与 Andrew Ng提出的表征学习的能基础上提出的,它是通过多层堆叠的聚类网络得到相似群集的输出,每一层都进行充分的训练,虽然较为简单但是在没有全局优化的情况下,会出现多层递增式失效从而造成性能汇报递减。
三、深度学习网络的发展
(一)卷积神经网络
卷积神经网络对于深度学习网络而言是重要的核心网络,它广泛应用于大多数与图像和视频相关的领域,常用的卷积神经网络主要有以下几种:
①LeNet
LeNet网络是由lecun在1988年提出的。它最初是用于解决手写数字识别的问题的,网络结构较为简单,如图2所示,由两个卷积层,两个下采样层,两个全连接层和一个激活层以及一个sotfmax分类层组成。
.jpg)
图2 LeNet网络结构
②AlexNet
AlexNet网络是由alex在2012年提出的,如图3所示,由5个卷积层与三个全连接层构成,该网络相对于LeNet网络,增加了Relu非线性激活函数,增加了模型的表达能力,同时在全连接层中加入了Dropout层用于防止过拟合。
.jpg)
图3 AlexNet网络结构
③VGGNet
VGGNet网络是由牛津大学计算机视觉组和Google Deepmind共同提出的,该网络相对于之前的LeNet与AlexNet主要的创新在与增加了模型的深度,从而提高针对具体任务时模型的精度,模型结构如图4所示。
④ResNet
ResNet网络由何凯明团队在2015年提出,网络结构与VGG相似,但ResNet网络拥有更深的网络结构,同时为了解决梯度消失的问题,引入了跳跃连接的机制,从而使得在VGGNet的基础上能够加入更深的网络结构,跳跃链接如图5所示。
.jpg)
图5 ResNet网络中的跳跃连接结构
(二)递归神经网络
递归神经网络是深度学习网络的另一个重要部分,它允许处理带有序列关系的文本、音频、视频等文件,在对原始输入提取特征的同时对序列的前后时间关系进行保存与记录,基础的递归神经网络结构如图6所示:
.jpg)
图6 递归神经网络的结构
四、深度学习的应用与展望
深度学习由于其能够通过卷积网络提取图像特征进行学习的特性,在当下的图像领域已经有了广泛的应用,例如物体检测、图像分割、图像风格转换、图像重构等。
物体检测是从图像中确定物体的位置,并进行分类的问题,如图7所示,相对于传统物体检测而言,深度学习采用RCNN网络进行物体检测,结合候选区域提取技术与CNN特征计算能够突破原始像素块的局限性,更为智能的检测出对应的复杂场景中的物体。
图像分割是指在像素水平上对图像进行分类,如图8所示,相对于传统的基于像素点边缘检测方法的图像分割,深度学习对于图像分割采用基于特征图学习的方法进行,使得分割出的图像更符合人眼的视觉标准。
图像风格转换是深度学习在图像领域的大胆创新,通过深度学习网络将一张图像根据另一张图像的艺术风格进行迁移与转换,如图9所示。
.jpg)
图7 深度学习在物体检测中的应用
.jpg)
图8 深度学习在图像分割领域的应用
.jpg)
图9 深度学习在图像风格转换中的应用
此外,深度学习网络在音频、视频领域的应用也日益广泛,例如语音识别、老电影修复、视频超分辨率、视频与音频的时间超分辨率等。可以预想,未来深度学习技术将渗透入我们日常生活的方方面面,为我们创造更为智能化的生存环境,同时随着人工智能的发展与5G高速数据传输时代的来临,此前深度学习在应用上所存在的一些问题,例如模型体积过大无法在终端产品进行快速的应用、海量数据集的收集困难等都将能够获得解决。
参考文献:
[1] Bruno A. Olshausen,David J. Field. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision Research,1997,37(23).
[2] Adam Coates,Andrew Ng. Learning Feature Representations with K-means[J].2012.
[3] Ce Li,Xinyu Zhao,Zhaoxiang Zhang,Shaoyi Du. Generative adversarial dehaze mapping nets[J]. Pattern Recognition Letters,2017.
[4] Jian Lu,Weidong Hu,Yi Sun. A deep learning method for image super-resolution based on geometric similarity[J]. Signal Processing: Image Communication,2018.
[5] Guimin Lin,Qingxiang Wu,Liang Chen,Lida Qiu,Xuan Wang,Tianjian Liu,Xiyao Chen. Deep unsupervised learning for image super-resolution with generative adversarial network[J]. Signal Processing: Image Communication,2018,68.
[6] Jinghui Chu,Xiaochuan Li,Jiaqi Zhang,Wei Lu. Super-resolution using multi-channel merged convolutional network[J]. Neurocomputing,2019.
[7] Xin Jin,Qiming Xiong,Chengyi Xiong,Zhibang Li,Zhirong Gao. Single image super-resolution with multi-level feature fusion recursive network[J]. Neurocomputing,2019,370.
[8] Tae-Hyung Kim,Heekyung Oh,Kyuseok Kim,Youngjin Lee. Investigating single image super-resolution algorithm with deep learning using convolutional neural network for chest digital tomosynthesis[J]. Optik,2020,203.
[9] KIM J,KWON L,MU L. Accurate image super-resolution using very deep convolutional networks[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Pis⁃cataway:IEEE,2016:1646-1654.
[10] LEDIG C,THEIS L,HUSZÁR F,et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington,DC:IEEE Computer Society,2017,1:105-114.
[11] Zehao Huang,Lingfeng Wang,Yongchao Gong,Chunhong Pan. Ensemble Based Deep Networks for Image Super-Resolution[J]. Pattern Recognition,2017.
[12] Xiaolu Zhang,Huihui Song,Kaihua Zhang,Jiaojiao Qiao,Qingshan Liu. Single image super-resolution with enhanced Laplacian pyramid network via conditional generative adversarial learning[J]. Neurocomputing,2020,398.
[13] Bin Huang,Weihai Chen,Xingming Wu,Chun-Liang Lin,Ponnuthurai Nagaratnam Suganthan. High-quality face image generated with conditional boundary equilibrium generative adversarial networks[J]. Pattern Recognition Letters,2018,111.
[14] Jijun He,Jinjin Zheng,Yuan Shen,Yutang Guo,Hongjun Zhou. Facial Image Synthesis and Super-Resolution With Stacked Generative Adversarial Network[J]. Neurocomputing,2020,402.
[15] Yanghao Zhou,Jianfeng Dong,Yubin Yang. Deep fractal residual network for fast and accurate single image super resolution[J]. Neurocomputing,2020,398.