深度卷积神经网络的发展及其在计算机视觉领域的应用

来源：职称那点事作者：田编辑时间：2021-04-01 09:00

　　摘要作为类脑计算领域的一个重要研究成果，深度卷积神经网络已经广泛应用到计算机视觉、自然语言处理、信息检索、语音识别、语义理解等多个领域，在工业界和学术界掀起了神经网络研究的浪潮，促进了人工智能的发展．卷积神经网络直接以原始数据作为输入，从大量训练数据中自动学习特征的表示．卷积神经网络具有局部连接、权值共享和池化操作等特性，可以有效降低网络复杂度，减少训练参数的数目，使模型对平移、扭曲、缩放具有一定程度的不变性．目前，深度卷积神经网络主要是通过增加网络的层数，使用更大规模的训练数据集，以及改进现有神经网络的网络结构或训练学习算法等方法，来模拟人脑复杂的层次化认知规律，拉近与人脑视觉系统的差距，使机器获得“抽象概念”的能力．深度卷积神经网络在图像分类、目标检测、人脸识别、行人再识别等多个计算机视觉任务中都取得了巨大成功．该文首先回顾了卷积神经网络的发展历史，简单介绍了Ｍ－Ｐ神经元模型、Ｈｕｂｅｌ－Ｗｉｅｓｅｌ模型、神经认知机、用于手写识别的ＬｅＮｅｔ以及用于ＩｍａｇｅＮｅｔ图像分类比赛的深度卷积神经网络．然后详细分析了深度卷积神经网络的工作原理，介绍了卷积层、采样层、全连接层的数学表示及各自发挥的作用．接着该文重点从以下三个方面介绍卷积神经网络的代表性成果，并通过实例展示各种技术方法对图像分类精度的提升效果．从增加网络层数方面，讨论并分析了ＡｌｅｘＮｅｔ、ＺＦ－Ｎｅｔ、ＶＧＧ、ＧｏｏｇＬｅＮｅｔ和ＲｅｓＮｅｔ等经典卷积神经网络的结构；从增加数据集规模方面，介绍了人工增加标注样本的难点以及使用数据扩增技术对神经网络性能提升的作用；从改进训练方法方面，介绍了包括Ｌ２正则化、Ｄｒｏｐｏｕｔ、ＤｒｏｐＣｏｎｎｅｃｔ、Ｍａｘｏｕｔ等常用的正则化技术，Ｓｉｇｍｏｉｄ函数、ｔａｎｈ函数以及ＲｅＬＵ函数、ＬＲｅＬＵ函数、ＰＲｅＬＵ函数等常用的神经元激活函数，ｓｏｆｔｍａｘ损失、ｈｉｎｇｅ损失、ｃｏｎｔｒａｓｔｉｖｅ损失、ｔｒｉｐｌｅｔ损失等不同损失函数，以及ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ技术的基本思想．针对计算机视觉领域，该文重点介绍了卷积神经网络在图像分类、目标检测、人脸识别、行人再识别、图像语义分割、图片标题生成、图像超分辨率、人体动作识别以及图像检索等方面的最新研究进展．从人类视觉认知机制出发，分析了视觉信息分层处理和“大范围优先”视觉认知过程的相关理论成果和对当前计算模型的一些理论启示．最后提出了未来基于深度卷积神经网络的类脑智能研究待解决的问题与挑战．

　　关键词类脑智能；神经网络；深度学习；计算机视觉；视觉认知

　　１引言

　　让机器以类似人脑的方式进行快速学习与准确认知，是科学家们长期探索与追求的一大科学梦想．几十年来，脑神经科学和心理学等领域在人脑结构及认知机理等方面的许多研究成果都被转化为人工智能领域的计算模型，极大地促进了后者的发展与４５４计算机学报２０１９年进步．人工神经网络正是在这种背景下被提出的．它是利用计算模型模拟大脑神经系统的结构和功能，运用大量的简单运算单元，由人工方式建立起来的神经网络系统．人工神经网络的诞生及发展是类脑计算领域的一个最为重要的研究成果．

　　２卷积神经网络及其相关技术

　　卷积神经网络是由用于特征提取的卷积层和用于特征处理的亚采样层交叠组成的多层神经网络．典型的卷积神经网络结构［１２］如图２所示，网络输入是一个手写数字图像，输出是其识别结果，输入图像经过若干个“卷积”和“采样”加工后，在全连接层网络实现与输出目标之间的映射．通常卷积神经网络中，每一层神经元节点只与其邻近上下层局部感受野内的神经元节点连接．这种局部连接观点与Ｈｕｂｅｌ、Ｗｉｅｓｅｌ从猫科动物的视觉系统中发现的局部感知观点相一致．图２中的输入图像的大小为３２×３２像素，含Ｒ、Ｇ、Ｂ三个通道．卷积层Ｃ１使用大小为５×５的多个卷积核对输入图像的各个通道做卷积滤波，采取图像的局部特征，得到和卷积核数量相同、大小为２８×２８的特征图．然后将这些特征图按一定的方式组合起来，作为卷积层的输出．图中原特征图经过采样层Ｓ２后，尺寸被缩减至１４×１４，其中特征图上每个神经元与上一层中对应特征映射的２×２邻域相连，并据此计算输出．卷积神经网络中的卷积层中的神经元是模拟Ｈｕｂｅｌ－Ｗｉｅｓｅｌ模型中的简单细胞，降采样层的神经元模拟复杂细胞，而特征图上的神经元共享同一个卷积核，对应某种特定取向的简单细胞．进行若干个卷积—采样操作，可以得到尺寸很小但数量很多的特征图．将特征图按一定方式展开，拼接为一维向量输入全连接层中，然后经过若干全连接层和输出层连接完成识别任务．

　　３卷积神经网络的应用

　　卷积神经网络是近十几年来类脑计算领域取得的一个重大研究成果，它在计算机视觉、语音识别、自然语言处理、多媒体等诸多领域都取得了巨大成功．在计算机视觉领域的各类任务中，图像分类任务是根据图像信息中反映的不同特征，把不同类别的目标（如鸟、人、车、飞机等）区分开来，即给每幅图片分配一个语义类别标记，而目标检测是定位出某类目标在图像中出现的区域．与图像分类任务要建立图像级理解不同，图像语义理解要得到图像像素级别的目标分类结果．图片标题生成也是建立于图片的语义理解上，要求自动产生自然语言对图片的目标及目标间关系进行描述．相比于图像分类和目标检测关注于多类或单类物体目标的区分或定位，人脸识别和行人再识别任务则分别聚焦于人脸和行人的身份辨识．另外一种任务———图像超分辨率，能够提供更清晰的图像以及更多的图像细节，为高层视觉任务提供更好的输入．

　　参考文献

　　［１］ＨｕｂｅｌＤＨ，ＷｉｅｓｅｌＴＮ．Ｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓ，ｂｉｎｏｃｕｌａｒｉｎｔｅｒａｃｔｉｏｎａｎｄｆｕｎｃｔｉｏｎａｌａｒｃｈｉｔｅｃｔｕｒｅｉｎｔｈｅｃａｔ’ｓｖｉｓｕａｌｃｏｒｔｅｘ．ＴｈｅＪｏｕｒｎａｌｏｆＰｈｙｓｉｏｌｏｇｙ，１９６２，１６０（１）：１０６－１５４

　　［２］ＦｕｋｕｓｈｉｍａＫ，ＭｉｙａｋｅＳ，ＩｔｏＴ．Ｎｅｏｃｏｇｎｉｔｒｏｎ：Ａｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌｆｏｒａｍｅｃｈａｎｉｓｍｏｆｖｉｓｕａｌｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｙｓｔｅｍｓ，Ｍａｎ，ａｎｄＣｙｂｅｒｎｅｔｉｃｓ，１９８３，１３（５）：８２６－８３４

　　［３］ＦｕｋｕｓｈｉｍａＫ．Ｎｅｏｃｏｇｎｉｔｒｏｎ：Ａｓｅｌｆ－ｏｒｇａｎｉｚｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌｆｏｒａｍｅｃｈａｎｉｓｍｏｆｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｕｎａｆｆｅｃｔｅｄｂｙｓｈｉｆｔｉｎｐｏｓｉｔｉｏｎ．ＢｉｏｏｌｏｇｉｃａｌＣｙｂｅｒｎｅｔｉｃｓ，１９８０，３６（４）：１９３－２０２

　　张顺１）龚怡宏２）王进军２

《深度卷积神经网络的发展及其在计算机视觉领域的应用》

上一篇：信息技术媒介下数学史融入初中数学的教学思考

下一篇：体育高职生计算机课中学习力的培养探究