摘要:机器视觉是人工智能的一个迅速发展的分支。简单来说,机器视觉就是用机器代替人眼进行测量和判断。机器视觉系统通过机器视觉产品(即图像拾取器件,分为CMOS和CCD)将被摄物体转换成图像信号,传输到专门的图像处理系统,获得被摄物体的形态信息,根据像素分布、亮度、颜色等信息转换成数字信号;图像系统对这些信号进行各种运算,提取目标的特征,然后根据判别结果控制现场的设备动作[1]。深度学习是学习样本数据的内在规律和表征层次,这些学习过程中获得的信息对图像等数据的解读有很大的帮助。它的最终目标是让机器具备像人类一样的分析和学习能力,能够识别文字、图像、声音等数据。其在语音和图像识别方面的效果远超以往的相关技术[1]。这篇综述的主要内容是关于深度学习在机器视觉应用领域的研究。
1导言
文献[2]表明,在深度学习算法问世之前,对于视觉算法来说,大致可以分为以下五个步骤:特征感知、图像预处理、特征提取、特征筛选、推理预测和识别。在早期的机器学习中,占主导地位的统计机器学习小组很少关注特征。计算机视觉可以说是机器学习在视觉领域的应用,所以计算机视觉在采用这些机器学习方法的时候要自己设计前四个部分,这是一个很难的任务。传统的计算机识别方法是将特征提取和分类器设计分开,然后结合起来应用。比如输入是人脸图像,首先要有一个特征表达或者特征提取的过程,然后把表达出来的特征放到一个学习算法中进行分类学习。因为手工设计特征需要大量的经验,设计人员需要对领域和数据有特别的了解,设计出来的特征也需要大量的调试工作。另一个难点是,设计者不仅需要手工设计特征,还需要在此基础上有一个合适的分类器算法,同时设计特征和选择分类器。将两者结合起来达到最佳效果几乎是不可能的。
如果不手动设计特征和选择分类器,有没有其他方案?可以同时学习特征和选择分类器吗?即输入某型号时,输入图片,输出其标签。比如输入一个员工的人脸,输出的标签是一个1000维的向量(假设要在1000个人当中识别),其中对应的员工向量为1,其他位置为0。这个设定符合人类脑科学的研究成果。AlexNet是由多伦多大学的几位科学家开发的,在ImageNet比赛中取得了非常好的成绩。当时AlexNet的识别效果超过了所有的浅层方法。从那以后,大家意识到深度学习的时代终于来了,有人把它用于其他应用,有人开始开发新的网络结构。深度学习在机器视觉中的成功应用包括人员检测、视觉问答和复杂环境下的物体检测。
2 .基于深度学习的复杂环境下人员检测方法研究
复杂环境是指图像分辨率低、光照影响大、探测区域复杂、目标探测干扰严重的环境。复杂的探测环境给目标探测带来了很大的干扰,国内外研究人员提出了很多方法来应对复杂环境对目标探测的干扰。但由于应用场景不同,解决复杂环境干扰问题的方法也不同。在复杂的工业生产环境中,工人的安全至关重要。大多数工业企业都是通过人眼观察视频来判断工人的位置。这种方式长时间会造成管理人员的疲劳问题,效率很低,遇到安全问题也不能及时处理。因此,利用图像处理和深度学习技术,让计算机代替人眼对人员进行检测和定位,不仅可以提高检测的准确性,还可以减轻监管人员的工作量。
从文献[3]可知,在工业环境中采集图像,对人的各种姿势和状态进行数量统计,对数据集中的人进行标记,形成相应格式的数据集,用于算法训练;其次,针对复杂工业环境下人员检测困难的问题,采用HOG+SVM、Faster_RCNN和Centernet人员检测算法对本文的人员数据集进行训练和分析,得出Centernet人员检测算法在检测精度和速度上优于其他算法的结论。最后,针对Centernet人员检测算法在实际应用中无法检测出大面积人员遮挡的问题,提出了一种基于背景差法的改进Centernet人员检测算法,利用背景差法的特点调整Centernet的得分阈值,快速确定人员的大概位置,使得大面积遮挡较少的人员也能被正确检测出来,提高了Centernet人员检测算法在应用中的平均准确率。
YOLO系列算法YOLOv1由Joseph Redmon于2016年在CVPR首次发表。此后,YOLO系列因其高效的性能被广泛应用于各种实时检测任务中。在最初的《YOLO》中,作者把图像分成77个小单元,49个小单元。图像经过YOLOv1网络处理后,会输出一个7730的张量,其中77是指将图像划分成7*7的网格,30是指预测框的宽度和高度、中心点的坐标、置信度和可预测的20个对象类型。通过这种张量拼接方法,YOLO可以同时完成对目标位置和类型的预测。此后,基于这一思想,一系列YOLO算法在精度、速度和可识别物体类型方面不断得到改进。YOLO9000[4]将可识别对象的数量从20个增加到9000个。根据文献[5]已知复杂环境对目标检测的干扰,通过区域划分解决检测区域复杂问题,通过改进暗通道优先图像处理策略解决图像分辨率和光照对目标检测的影响。结合SSDSN,提出了一种复杂环境下的人员检测方法。通过比较快速R-CNN、SSD、YOLOV2、YOLOV3和SSDSN五种算法的检测结果,证明了SSDSN在复杂环境下的检测能力。
3 .基于深度学习的视觉问答系统的研究
2015年,学术界提出的自由形式、开放式的视觉问答VQA任务逐渐成为人工智能研究的热点。VQA系统以图像和自由形式、开放的自然语言表达问题为输入,生成的自然语言表达答案为输出。图像处理的相关技术为视觉问答提供了一定的支持和参考,如图像标注、图像讲解等。与视觉问答相比,这些任务需要视觉和语义知识,但指令通常没有针对性。相比之下,视觉问答中的问题往往需要详细的、有针对性的图像信息,因此不同于一般的图像标签和图像描述。视觉问答(VQA)是一门新兴的交叉学科,涉及计算机视觉、自然语言处理和人工智能。给定一个开放式问题和一幅参考图像,视觉问答(VQA)的任务是预测与图像一致的问题答案。VQA需要对图像有深刻的理解,但评估起来要容易得多。它也更加关注人工智能,即产生视觉问题答案所需的推理过程[6]。
视觉问答中,用计算机视觉技术理解图像,用NLP技术理解问题。只有将它们结合起来,才能有效地回答图像情境中的问题。这是相当具有挑战性的,因为传统上,这两个领域使用不同的方法和模型来解决各自的任务。给定一张图片,如果你想让机器用自然语言回答一个关于这张图片的问题,那么机器需要对图片的内容、问题的意思和意图以及相关常识有一定的理解。在实际应用中,对于信息中的大量图片,利用视觉问答系统可以让机器收集相应的有用信息,减轻了人的工作量。近年来,由于图形强大的表现力,利用机器学习分析图形的研究越来越受到关注。图形神经网络基于深度学习方法,在图形域运行卷积神经网络。由于其令人信服的性能和高度的可解释性,GNN最近成为一种广泛使用的图形分析方法,其重点是分类、链接预测和聚类。在视觉问答中,图像中的目标可以看作是图的节点,节点之间基于问题的连接可以看作是边。综上所述,在联合嵌入模型的基础上,结合图卷积神经网络,加强图像目标与问题之间的联系,通过图网络强大的分类能力提高视觉问答的准确率[7]。
4 .基于深度学习的目标检测系统的研究
人类视觉系统能够从视觉场景中快速、选择性地检测出感兴趣的物体或具有显著特征的物体,并根据更高级视觉任务的目的对其进行处理和理解,从而实现相应的行为或决策。将人类选择性视觉注意机制引入到计算机视觉的信息处理中,可以有效减少视觉计算中需要处理的数据量,加快整个处理过程,进一步方便更高层次视觉任务的处理。因此,这项研究受到了学术界的广泛关注,并被应用到计算机视觉的各个领域。
人工神经网络被认为是以简化的方式模仿人脑并行计算机制的数学模型。人们还试图建立一些计算模型来模仿人类视觉系统的注意机制,从而有选择地将注意力集中在一些与视觉任务目的相关的事情上,而忽略其他的事情,从而利用有限的计算资源快速完成对视觉场景的处理和理解[8]。
基于深度学习的显著对象检测方法需要训练模型,因此需要大量的样本图片及其对应的标签。虽然人工标注需要花费大量的时间,而且网络的训练和参数化也需要一定的时间,但是网络模型一旦训练完成,就可以应用于复杂场景下的显著物体检测,其性能明显优于传统的显著物体检测方法。目前大多数基于深度学习的显著性物体检测方法都是全监督的,即需要大量样本进行训练;根据它们的网络结构,这些方法一般可以分为基于传统卷积神经网络的方法和基于完全卷积神经网络的方法。虽然基于完全卷积神经网络的显著性检测方法比传统的卷积神经网络显著性检测方法能更好地保留空间信息,但经过卷积、下采样和上采样后,最终的特征图丢失了显著对象的一些细节,一定程度上影响了检测精度。因此,在此基础上,提出了一种基于复杂特征的融合网络结构,如将低层特征与高层特征连接起来,获得更丰富的语义信息;在文献[9]中,作者加入了注意机制,以更准确地检测显著目标,从而克服了以往网络模型的缺点,提高了模型的检测精度。
5总结与展望
对于人员检测,由于实际监控场景的复杂性,算法在人员检测过程中不可避免的会出现一些误报。未来可以从骨干网入手,更准确地提取人员特征,从而进一步提高算法的检测性能。另一方面,由于目标标记中数据量少和干扰背景等问题,去YOLO检测的准确性会遇到瓶颈。同时,如何进一步压缩和切割网络结构也是一个值得研究的方向,后期的工作将会对这些问题进行深入的研究。
对于智能视觉问答系统来说,作为一个需要视觉理解和推理能力,融合了计算机视觉和自然语言处理的视觉问答VQA,它的进步在计算机视觉发展和自然语言处理能力提高的基础上有了更高的要求,也就是对图像的理解——在识别、检测等图像处理基本能力的基础上学习知识和推理的能力。需要提高模型的准确性和答题的颗粒度。然而,还有很长的路要走,真正能理解图像、学习知识和推理能力的VQA模型才是最终目标。
对于目标检测,从文献[8]可知,显著目标检测仍然是一项非常具有挑战性的工作,具有非常重要的研究价值。目前,显著目标检测的首选方法是基于深度学习的方法,具有较高的检测精度,可以适应复杂场景下的目标检测。未来,显著目标检测将更加注重网络模型的规模、检测的准确性和实时性,作为视觉任务的预处理,服务于各种实际应用任务。
近年来,基于深度学习的机器视觉和物联网技术受到研究人员和商业领域的广泛关注,这两项技术对我们的生活、城市和世界产生了积极的影响。物联网技术和深度学习构成了一个数据生产者-消费者链,其中物联网技术产生深度学习模型分析的原始数据,深度学习模型产生高层分析,并反馈到物联网系统进行微调和改进服务。
本文章来源于互联网,如有侵权,请联系删除!
物联网可以为企业提供许多好处,但实施起来可能是一个挑战。了解成功部署的要求并使用最佳实践。 物联网是一个由专用设备(称为物)组成的网络,用于通过互联网或其他网络收集和交换真实世界的数据。该技术在运行中的示例包括: 心脏病患者在手术后安装了心脏传感器,将有关每个…