深度卷积神经网络的发展及其在计算机视觉领域的应用
摘要作为类脑计算领域的一个重要研究成果,深度卷积神经网络已经广泛应用到计算机视觉、自然语言处理、信息检索、语音识别、语义理解等多个领域,在工业界和学术界掀起了神经网络研究的浪潮,促进了人工智能的发展.卷积神经网络直接以原始数据作为输入,从大量训练数据中自动学习特征的表示.卷积神经网络具有局部连接、权值共享和池化操作等特性,可以有效降低网络复杂度,减少训练参数的数目,使模型对平移、扭曲、缩放具有一定程度的不变性.目前,深度卷积神经网络主要是通过增加网络的层数,使用更大规模的训练数据集,以及改进现有神经网络的网络结构或训练学习算法等方法,来模拟人脑复杂的层次化认知规律,拉近与人脑视觉系统的差距,使机器获得“抽象概念”的能力.深度卷积神经网络在图像分类、目标检测、人脸识别、行人再识别等多个计算机视觉任务中都取得了巨大成功.该文首先回顾了卷积神经网络的发展历史,简单介绍了M-P神经元模型、Hubel-Wiesel模型、神经认知机、用于手写识别的LeNet以及用于ImageNet图像分类比赛的深度卷积神经网络.然后详细分析了深度卷积神经网络的工作原理,介绍了卷积层、采样层、全连接层的数学表示及各自发挥的作用.接着该文重点从以下三个方面介绍卷积神经网络的代表性成果,并通过实例展示各种技术方法对图像分类精度的提升效果.从增加网络层数方面,讨论并分析了AlexNet、ZF-Net、VGG、GoogLeNet和ResNet等经典卷积神经网络的结构;从增加数据集规模方面,介绍了人工增加标注样本的难点以及使用数据扩增技术对神经网络性能提升的作用;从改进训练方法方面,介绍了包括L2正则化、Dropout、DropConnect、Maxout等常用的正则化技术,Sigmoid函数、tanh函数以及ReLU函数、LReLU函数、PReLU函数等常用的神经元激活函数,softmax损失、hinge损失、contrastive损失、triplet损失等不同损失函数,以及batchnormalization技术的基本思想.针对计算机视觉领域,该文重点介绍了卷积神经网络在图像分类、目标检测、人脸识别、行人再识别、图像语义分割、图片标题生成、图像超分辨率、人体动作识别以及图像检索等方面的最新研究进展.从人类视觉认知机制出发,分析了视觉信息分层处理和“大范围优先”视觉认知过程的相关理论成果和对当前计算模型的一些理论启示.最后提出了未来基于深度卷积神经网络的类脑智能研究待解决的问题与挑战.
关键词类脑智能;神经网络;深度学习;计算机视觉;视觉认知
1引言
让机器以类似人脑的方式进行快速学习与准确认知,是科学家们长期探索与追求的一大科学梦想.几十年来,脑神经科学和心理学等领域在人脑结构及认知机理等方面的许多研究成果都被转化为人工智能领域的计算模型,极大地促进了后者的发展与454计算机学报2019年进步.人工神经网络正是在这种背景下被提出的.它是利用计算模型模拟大脑神经系统的结构和功能,运用大量的简单运算单元,由人工方式建立起来的神经网络系统.人工神经网络的诞生及发展是类脑计算领域的一个最为重要的研究成果.
2卷积神经网络及其相关技术
卷积神经网络是由用于特征提取的卷积层和用于特征处理的亚采样层交叠组成的多层神经网络.典型的卷积神经网络结构[12]如图2所示,网络输入是一个手写数字图像,输出是其识别结果,输入图像经过若干个“卷积”和“采样”加工后,在全连接层网络实现与输出目标之间的映射.通常卷积神经网络中,每一层神经元节点只与其邻近上下层局部感受野内的神经元节点连接.这种局部连接观点与Hubel、Wiesel从猫科动物的视觉系统中发现的局部感知观点相一致.图2中的输入图像的大小为32×32像素,含R、G、B三个通道.卷积层C1使用大小为5×5的多个卷积核对输入图像的各个通道做卷积滤波,采取图像的局部特征,得到和卷积核数量相同、大小为28×28的特征图.然后将这些特征图按一定的方式组合起来,作为卷积层的输出.图中原特征图经过采样层S2后,尺寸被缩减至14×14,其中特征图上每个神经元与上一层中对应特征映射的2×2邻域相连,并据此计算输出.卷积神经网络中的卷积层中的神经元是模拟Hubel-Wiesel模型中的简单细胞,降采样层的神经元模拟复杂细胞,而特征图上的神经元共享同一个卷积核,对应某种特定取向的简单细胞.进行若干个卷积—采样操作,可以得到尺寸很小但数量很多的特征图.将特征图按一定方式展开,拼接为一维向量输入全连接层中,然后经过若干全连接层和输出层连接完成识别任务.
3卷积神经网络的应用
卷积神经网络是近十几年来类脑计算领域取得的一个重大研究成果,它在计算机视觉、语音识别、自然语言处理、多媒体等诸多领域都取得了巨大成功.在计算机视觉领域的各类任务中,图像分类任务是根据图像信息中反映的不同特征,把不同类别的目标(如鸟、人、车、飞机等)区分开来,即给每幅图片分配一个语义类别标记,而目标检测是定位出某类目标在图像中出现的区域.与图像分类任务要建立图像级理解不同,图像语义理解要得到图像像素级别的目标分类结果.图片标题生成也是建立于图片的语义理解上,要求自动产生自然语言对图片的目标及目标间关系进行描述.相比于图像分类和目标检测关注于多类或单类物体目标的区分或定位,人脸识别和行人再识别任务则分别聚焦于人脸和行人的身份辨识.另外一种任务———图像超分辨率,能够提供更清晰的图像以及更多的图像细节,为高层视觉任务提供更好的输入.
参考文献
[1]HubelDH,WieselTN.Receptivefields,binocularinteractionandfunctionalarchitectureinthecat’svisualcortex.TheJournalofPhysiology,1962,160(1):106-154
[2]FukushimaK,MiyakeS,ItoT.Neocognitron:Aneuralnetworkmodelforamechanismofvisualpatternrecognition.IEEETransactionsonSystems,Man,andCybernetics,1983,13(5):826-834
[3]FukushimaK.Neocognitron:Aself-organizingneuralnetworkmodelforamechanismofpatternrecognitionunaffectedbyshiftinposition.BioologicalCybernetics,1980,36(4):193-202
张顺1)龚怡宏2)王进军2
《深度卷积神经网络的发展及其在计算机视觉领域的应用》
- 职称论文刊发主体资格的
- 政法论文浅析工会法主体
- 化学在初中教学中的情感
- 中学教育论文思想政治方
- 法治论文投稿法治型市场
- 杂志社论文发表浅析推动
- 新疆教育报投稿浅析学生
- 分男女招生录取的合宪性
最新优质论文
- 建筑高级职称论文发表期
- 出版科学投稿要求
- hpv论文可以发表哪些期刊
- 职称论文发表有什么要求
- 云南教育论文征稿都有哪
- 评职称一般要求第几作者
- 北京泓泽文化发展有限公
- 一篇论文多少参考文献合
论文发表问题热点
- 数学教师论文可投稿哪些
- 进设计院工作对职称有要
- 大学生转专业需要发表论
- 简述什么是网络营销工程
- 当代陕西咨询信箱是什么
- 幼儿学前教育论文格式准
- 简述土木工程师参加专业
- 教师评职称认可的专业类