金准人工智能智能监控场景下的大规模并行化视频分析方法_第1页
金准人工智能智能监控场景下的大规模并行化视频分析方法_第2页
金准人工智能智能监控场景下的大规模并行化视频分析方法_第3页
金准人工智能智能监控场景下的大规模并行化视频分析方法_第4页
金准人工智能智能监控场景下的大规模并行化视频分析方法_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金准人工智能 智能监控场景下的大规模并行化视频分析方法前言深度学习在图像识别、智能视频分析技术方面的精度不断提升,使得安防成为了深度学习快速落地的最清晰方向之一,而计算力的发展,使得大规模的并行计算成为了可能。人工智能和机器人研究所借助双路 Tesla P100 GPU 强大的并行计算能力,基于大规模深度神经网络构建了智能视频分析系统,实现了对多路视频流的实时处理以及对大规模离线监控录像的高效分析,极大地加速了视频处理的运行效率。一、智能监控领域的应用背景以及行业进展目前来说,智能安防是智慧城市非常重要的一项组成部分。智能安防主要包括视频监控以及人脸识别这些已经落地的商业应用,此外,智能安防还和目前非常火爆的无人驾驶息息相关。上图视频监控占整个安防行业的 50%,而且呈现逐年上升的趋势。在其他方面,包括实体防护、出口控制、防盗报警等几项应用也瓜分了安防市场 50%的份额,而近年来,中国安防行业市场规模也在逐年扩大,从 2011 年的 2773 亿直接涨到了 2017 年的 6540亿,每年都有 15%到 20%增长率,是非常具有应用场景的一个行业。智能监控都要做些什么呢?传统的监控领域,仅仅是用监控设备去拍一些监控视频,然后由人来对视频中一些敏感的目标进行分析。而智能视频监控,旨在通过视觉模式识别技术,对监控视频中目标、行为、事件等对象来进行智能识别和分析。比如我需要检测监控场景里面都有哪些目标,其中有人还是车,再分析监控场景中目标的行为,对监控视频中的一些敏感事件进行检测等。随着深度学习技术的发展,智能监控所用到的检测、识别、跟踪等技术已经达到了非常高的精度,大家可以看图中从上到下分别是人脸检测与识别、行人检测与跟踪、行人姿态估计、车辆检测、车型识别以及交互识别等几大主要领域,而视频监控需要把这些领域的技术融合起来,然后对监控视频做各个维度的分析。二、基于深度学习的视频分析技术基于深度学习的视频分析技术概括。下图大致把目前最核心的几个技术给列了出来:首先是目标检测,这个不用介绍,金准人工智能专家相信做过视觉的同行大都了解此领域。目标检测和图像分类是视觉技术中一个非常基础的任务,其目的就是跟踪场景中感兴趣的一些物体,包括常规的目标检测、人员检测以及车辆检测等等;目标检测完成以后,需要针对每个检测到的目标来计算其运动轨迹,根据目标的数量以及摄像头的数量,可以分为单目标跟踪、多目标跟踪,单摄像头跟踪、跨摄像头跟踪等;人脸识别又是另一个已经落地的商业应用,它主要是为了识别或验证场景中的人脸,包括人脸检测、关键点检测、属性分析、人脸比对以及检索等;而行为识别是为了识别人体动作以及人与物体之间的交互,现在做行为识别比较简单一点的任务,就是在一段视频中去判断里面是否发生了某个动作,稍微难一点的是做行为检测,需要从一段很长的视频中去找出每个动作所发生的时间段;而更难一些的还要识别出动作的主体、客体以及交互的对象、动作的状态等;还有一个应用领域是图像增强,也是最近进展比较快的。在我们监控到的视频中,它很容易受到环境和视频采集设备的影响。通常我们采集到的视频是不理想的,伴有噪音、运动模糊等,是需要进行视频方面的增强,比如做超分、去模糊、去抖动以及去雾、去雨雪之类的。1.目标检测目标检测需要把场景中所有感兴趣的目标逐个地给框出来,并识别出这个目标的类别,也是视频监控分析时所用到的第一步。对于一个场景,常常需要把场景中的行人、车辆等目标挨个点出来,并且还需要把它们的边框准确的框出来,框出来以后才可以进行下一步再识别等任务。目前检测领域主要分为两大方法:基于区域的检测算法和基于回归的检测算法。基于区域的检测方法,一般是通过两阶段的算法,分为区域候选阶段和区域检测阶段:区域候选阶段,就是通过候选框生成算法先从大图里面找到目标潜在的位置,比如传统的Selective Search、Edge Boxes 和基于 CNN 的 RPN 方法;区域检测阶段,就是从区域候选阶段得到候选框后再去做进一步精细的分类和定位,目前主流的方法包括 R-CNN 以及 R-CNN 的各种改进版。基于回归的检测方法是另一个流派,从 YOLO 开始,到之后的 SSD 做了进一步的定位优化,这种方法基本上采用的是单阶段直接回归检测框的思路。它比较显著的一个特点就是检测速度非常快,可以做到实时性,它的缺点是,相比基于区域的检测方法,其定位精度往往会差一些。上图是目前最流行的基于区域的 Faster R-CNN 检测算法的示意图。完成检测以后,我们仅仅是知道场景中有哪些目标以及它们的位置,如果需要做进一步分析,需要知道每个目标的 ID 是多少,同时还需要跟踪每个目标的运动轨迹来确定视频里面每一帧目标所属的 ID。金准人工智能专家目前做行人的 tracking 需要较好的 ID 特征,通常先用 Person ReID 任务的数据集训练一个网络,然后提取一个比较好的特征计算轨迹,常用的方法是 Sort 和 Deep Sort。2.人脸识别接下来是人脸识别技术,相信大家也都是非常熟悉了。就是先检测人脸,然后定位出他的特征点,再进一步用特征点对其进行属性分析,之后再做人脸检索,关键点跟踪等等,还有一个任务就是人脸比对,也是目前商业公司做得非常多的一个任务,现在精度已经做得非常高了,商用是完全没问题的。目前人脸识别的研究进展主要是由工业界贡献。对于结构,在学术领域主要用主流的那几个,还有一些改 loss 的方法,比如 center loss 和 sphere face。到工业界后,大家都有各自数据源,主要精力都用在一些工程化的调优上。三、视频分析系统的组成及并行化方案设计视频分析系统主要包括以下几个阶段:第一步,视频采集,把模拟视频转换成数字视频,再把数字视频文件进行保存;第二步,视频解码,对原始的视频进行解压缩,再转化为可以被深度学习模型处理的图像序列;第三步,视频分析,它是整个视频分析系统最核心的阶段,也是主要的算力所在,包括目标检测、特征提取、目标跟踪和特征存储等模块。最后,视频检索,根据输入的待检索目标,进行特征比对以及轨迹匹配。以行人监控视频分析为例,视频分析和视频检索阶段包括以上流程,首先是监控视频流的获取,采集到监控视频以后,需要对视频进行解码,解码之后再做一个转码,把它转成单帧图片的格式,然后对每一张图片进行行人检测,检测完后再根据检测得到的检测框从图片中提取行人特征,再根据提取得到的行人特征来计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论