英语原文共 22 页,剩余内容已隐藏,支付完成后下载完整资料
建立智能视频监控系统的深度学习方法
摘要:物体检测和人脸识别领域的最新进展使得开发具有嵌入式物体检测和人脸识别功能的实用视频监控系统成为可能,这些系统对于商业用途来说足够准确和快速。在本文中,我们比较了一些最新的物体检测和人脸识别方法,并提供了为什么它们在准确性和速度方面可能是或可能不是视频监控应用中最佳方法之一的原因。研究发现,使用Inception ResNet V2的Faster R-CNN能够在保持实时速率的同时实现一些最佳精度。另一方面,带有MobileNet的单次检测器(SSD)速度非常快,并且对于大多数应用来说仍然足够准确。至于人脸识别,具有多任务级联卷积网络(MTCNN)的FaceNet比DeepFace和DeepID2 等先进产品实现了更高的精度,同时速度更快。此外,还提出了一种端到端视频监控系统,该系统可用作更复杂系统的起点。在经过训练的模型上还尝试了各种实验,并详细解释了观察结果。最后,我们讨论了视频目标检测和视频显著目标检测方法,这些方法可以看作是对该系统的未来改进。
1、引言
在过去的几十年中,监控摄像机(也称为闭路电视(CCTV))在世界各地的数量迅速增长。以英国为例。在英格兰和威尔士,监控摄像头的数量从1990年的100个增加到2007年的约420万个,这意味着每100人有超过7个监控摄像头[8]。由于部署了如此大量的监控摄像头,人们需要对这些摄像头所呈现的内容投入大量精力。
因此,本文提出了一种自动处理监控摄像头捕获的图像的深度学习方法,该方法侧重于自动物体检测和人脸识别。其目的是通过评估和试验最先进的算法,探索一种可行的方法,将物体检测和人脸识别方法集成到商业视频监控系统中。
我们选择使用深度学习方法来进行目标检测和人脸识别任务有很多原因。首先,深度学习方法比传统的机器学习方法更容易部署,并且具有更好的可扩展性,因为它们能够以原始形式处理数据[21]。如果没有深度学习,我们将不得不首先将输入数据(在我们的例子中是像素值)转换为我们的模型能够处理的某种表示,这比深度学习方法需要更多的努力。此外,深度学习方法能够通过利用多个层次的表示来学习更复杂的特征[21]。同样,这些特征是系统地学习的,而不是由人类手动设计的。
同样重要的是要证明自动物体检测和人脸识别确实对现代监控摄像系统有用。例如,大约39%的本科生和17%的研究生承认他们在考试中作弊[28]。有时,少数考试监考员几乎不可能抓住每个试图在大型考场上作弊的人,如果让许多考试监考员四处走动几个小时,以防有人计划作弊,那将是巨大的人力浪费。然而,由于配备了自动物体检测的监控摄像头,某些考试中不允许的东西,例如智能手机或某些时间计算器,可以很容易地发现。
另一方面,尽管每年减少4%,但截至到2019年9月,英格兰和威尔士发生了超过380000起入室盗窃案[6]。同样,人脸识别可以通过检测和识别给定区域的人脸来帮助我们防止入室盗窃。如果一张脸既被检测到又被识别,那么我们可以安全地忽略它,因为它表明它来自我们认识的人。但是,如果检测到人脸但无法识别,则可能是不受欢迎的陌生人闯入了安全区域,并且可以立即向负责人报告。
在本文中,我们比较了一些最新的物体检测和人脸识别方法在准确性和速度方面的性能。通过评估训练模型的性能,我们得出结论:Inception ResNet V2 [37]的 Faster R-CNN[32] 适合实现令人难以置信的高精度,前提是可用的硬件足够强大,可以处理所需的计算量,从而保持合理的帧速率。否则,如果可支配的硬件不够先进,无法使用以前的方法实现实时速率,则可以考虑使用带有MobileNet [14]的SSD [24],其计算成本要低得多,并且仍然提供令人印象深刻的精度,应该足以满足大多数视频监控应用的要求。
至于人脸识别,FaceNet [34]与多任务级联卷积网络(MTCNN)[44]在不太消耗硬件的情况下产生了令人难以置信的高精度。我们在第 4部分的评估结果表明,仅使用静态图像或图像序列训练模型之间没有显著差异。尽管通过在尽可能多的两种类型的图像的混合上进行训练仍然可以获得最佳精度,但我们仍然可以通过仅使用一种类型的训练图像来达到有希望的准确性。但是,如果模型要应用于执行人脸识别的高质量图像序列,那么在高质量的图像上训练模型就至关重要了。
关于本文的其余部分,在第3节中,我们提出了一个端到端的视频监控系统,该系统能够同时执行目标检测和人脸识别任务。并且对该系统的结构进行了详细的说明。最后,在第5节中,我们描述了一些视频目标检测方法,这些方法可以看作是对该系统的未来改进。
2.相关工作
2.1算法
在本节中,我们比较了一些最先进的物体检测和人脸识别方法的准确性和速度。这对于视频监控应用尤其重要,因为出于安全原因,对误报和假阴性的容忍度极低。此外,必须始终如一地保持合理的高帧速率,以避免丢失重要帧。因此,对我们来说,必须在在准确性和速度之间实现最佳平衡,同时又不牺牲彼此,以至于整体错误率变得无法忍受。在这里,我们努力通过收集在同一组数据集上测试的评估结果来使我们的比较尽可能公平。在对象检测的情况下,大多数元架构也使用相同的特征提取器进行测试。请注意,这在[23]中部分完成,缺少一些信息,我们将在本节后面介绍这些信息。
2.1.1物体检测
显然,有相当多的现有对象检测算法具有很有前途的精度。例如,空间金字塔池网络(SPPnets)[12]能够在PASCAL VOC 2007 [11]上实现高达59.2%的mAP用于检测任务,这比基于区域的卷积神经网络(R-CNN)产生的58.5%mAP略好[10,12]。更重要的是,SPPnet的发明是通过共享计算来实现比R-CNN更高的效率。因此,SPPnet在速度方面可以比R-CNN高出10到100times;同时仍然产生类似水平的精度[12]。
然而,当使用相同的预先训练的VGG-16 [35]网络作为起点和边界盒回归时,Fast R-CNN实现了68.1%的mAP,这比SPPnet获得的63.1%mAP有了很好的改进,两者都使用PASCAL VOC 2007进行训练,没有“困难”的例子[9,12]。Fast R-CNN不仅能产生更高的精度,而且速度也明显更快。当使用VGG-16执行检测时,Fast R-CNN可以比SPPnet快3倍速,比R-CNN快9倍速[9]。还值得一提的是,与R-CNN和SPPnet相比,Fast R-CNN的训练速度更快。训练VGG-16时,与SPPnet和R-CNN相比,训练时间分别减少了2.7倍速和9倍速[9]。有趣的是,正如[9]所述,在几乎相同的测试条件下,R-CNN的产量为66.0%的mAP,这与[12]中报告的有所不同。
对Fast R-CNN [9]的改进称为Faster R-CNN [32],后来通过添加区域提案网络(RPN)提出了改进。Faster R-CNN没有像R-CNN和Fast R-CNN那样使用外部提案生成器,而是使用卷积神经网络生成提案,并且是最早引入所谓的锚点方法的论文之一。Faster R-CNN中引入的RPN取代了Fast R-CNN使用的区域提案方法,称为选择性搜索(SS)[40],该方法通常被认为是计算瓶颈。与选择性搜索相比,RPN 通过与对象检测网络共享大多数计算来生成区域建议所需的时间要少得多。其结果是,带有RPN的Faster R-CNN可以比带有SS的快速R-CNN快10times;[32]。在PASCAL VOC 2007上进行测试时,Faster R-CNN能够达到73.2%的mAP,这使得它比产生68.1%mAP的快速R-CNN更准确[32]。这使得 Faster R-CNN 比 Fast R-CNN 和 SPPnet 更快、更准确,这就是为什么我们决定使用 Faster R-CNN 作为其元架构来训练我们的第一个对象检测模型。上述方法的mAP和速度的比较如表1所示。
Met 剩余内容已隐藏,支付完成后下载完整资料 资料编号:[603753],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。