太阳能用镀膜钢化玻璃生产中皮带印记的分析及改进 卢茜君

发表时间:2019/9/27   来源:《知识-力量》2019年10月43期   作者:卢茜君 尚楠
[导读] Faster-R-CNN是解决目标检测问题的经典方法,适用于多种复杂的计算机视觉问题。在检测目标位置的同时还能实现目标类型的识别,能应用于图像的语义分割、目标检测、识别、分类等方面,比如行人检测、人脸识别、文字识别等。
(北京理工大学计算机学院,北京市 100081)
摘要:Faster-R-CNN是解决目标检测问题的经典方法,适用于多种复杂的计算机视觉问题。在检测目标位置的同时还能实现目标类型的识别,能应用于图像的语义分割、目标检测、识别、分类等方面,比如行人检测、人脸识别、文字识别等。
关键词:Faster-R-CNN;深度学习;应用;优缺点

 
          引言
          Faster R-CNN是一种基于候选区域的CNN网络目标检测方法,是R-CNN(Region-CNN基于区域的卷积神经网络)、Fast R-CNN(R-CNN的优化)的优化结果,全部流程都使用CNN完成,可以使用GPU加速。
          Faster R-CNN和R-CNN、Fast R-CNN三种方法都分为提取候选区域、候选区域特征提取、对候选区域进行分类三步。不同的是Faster R-CNN将以前的使用Selective Search提取目标的方法替换成使用RPN网络获取候选区域实现,使得全流程的检测、分类速度大幅提升,同时在各种数据集上迁移性良好。
          1 Faster R-CNN的组成
          Faster R-CNN的实现由四个部分组成,分别是特征提取部分、RPN(候选区域推荐网络)部分、ROI Pooling(候选区域池化)部分、候选区域分类和回归部分,其中RPN网络是Faster R-CNN的重点和主要优势所在。
          特征提取部分输入原始图像,输出feature map(特征)。使用预训练的CNN中全连接层以前的一系列卷积层和池化层分别对图像进行局部的特征提取和特征压缩,简化网络的计算复杂度、提取原始图像中的主要特征。共享CNN最后可共享的的卷积层,输出图片的feature map给RPN网络。
          RPN网络输入feature map,输出候选区域集合。RPN在feature map上生成anchor(锚点),寻找目标可能存在的区域,构建CNN用于前后景的分类边界框位置的回归。RPN扫描的区域被称为anchor(锚点),feature map上生成大量的锚点。对于feature map每一个位置,一般考虑9种可能的不同大小与宽高比的候选矩形窗口,即anchor,对每个anchor进行二分类以确定其感受野是前景还是后景(如果锚点候选窗口与真实bounding box重叠率大于指定值,就当做前景,如果小于指定值,就当做背景),再对确定感受野为前景的锚点进行回归来找出近似的的区域边界框。对于近似的边界框通过进一步回归得到较精确的区域边界,输出多个矩形候选区域。
          候选区域可能在同一个目标上重叠,此时需要使用非极大值抑制(NMS)将推荐的候选区域按照分数排序并对已排序的列表进行迭代,丢弃与当前得分最高的候选框重叠率较大的候选框。


          由于Fast R-CNN卷积层与RPN网络共享feature map且需要固定输入格式,所以ROI pooling部分结合RPN的候选区域和feature map将feature map中的候选区域池化为固定长度的输出,为后面的全连接层提供固定长度的输入。
          最后使用Fast R-CNN的全连接层连接所有特征,包括两个同级的输出层,分别对输入的候选区域进行多分类以及对边界框进行回归训练获得边缘框最终的精确位置。最后输出目标检测的结果。
          2 Faster R-CNN算法的训练流程
          Faster R-CNN的训练是在预先训练好的模型(如VGG16,ZF等)基础上进行的训练,可以采用端到端的联合训练方法也可以采用如下四步训练法独立地训练各部分并且在应用最终的全面训练方法之前合并训练的权重:
          第一步在已经训练好的网络模型上单独训练RPN网络,收集候选区域的集合;
          第二步单独训练Fast-RCNN网络,将第一步RPN的输出候选区域作为输入,分别进行目标分类和边框回归;
          第三步固定网络公共部分的参数再次训练RPN,只更新RPN独有部分的参数;
          第四步使用RPN的结果再次微调Fast R-CNN网络,固定网络公共部分的参数,只更新Fast-RCNN独有部分的参数。
          Faster R-CNN最大的优点就是提出了RPN作为区域选取的网络,实现了神经网络自选取检测区域的功能,检测的速度和准确率都很高。同时RPN和全连接层共享特征,避免了重复计算。并且Faster R-CNN能识别位移、缩放及其他形式扭曲不变性的二维图形,并且无需对图像进行预处理(测试发现对图像进行预处理相较未进行预处理对mAP的提升可以忽略不计)。能真正实现端到端的目标检测。
          另一方面,Faster R-CNN也存在着一些缺点,例如无法达到实时检测目标的效果,获取候选区域以及对每个候选区域的分类的计算量较大,训练耗时较长。候选区域边界的回归可能导致多个目标融合,较难区分个体完成实例分割等等。这些缺点在之后人们提出的新方法中得到了改善。
参考文献
[1]常海涛,苟军年,李晓梅.Faster R-CNN在工业CT图像缺陷检测中的应用[J].中国图象图形学报.2018(07):168-172.
[2]马晓云,朱丹,金晨,佟新鑫.基于改进Faster R-CNN的子弹外观缺陷检测[J].激光与光电子学进展.2017(12):66-72.
[3]关日钊,吴磊,徐焯基.基于机器视觉的透明塑料件缺陷检测[J].装备制造技术.2018(03):256-262.
 
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: