(信号与信息处理专业论文)基于dsp的视频与音频联合目标跟踪系统.pdf_第1页
(信号与信息处理专业论文)基于dsp的视频与音频联合目标跟踪系统.pdf_第2页
(信号与信息处理专业论文)基于dsp的视频与音频联合目标跟踪系统.pdf_第3页
(信号与信息处理专业论文)基于dsp的视频与音频联合目标跟踪系统.pdf_第4页
(信号与信息处理专业论文)基于dsp的视频与音频联合目标跟踪系统.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(信号与信息处理专业论文)基于dsp的视频与音频联合目标跟踪系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着科技的不断进步,人工智能技术得到了快速的发展,其中智能跟踪系统 的发展已经日趋成熟,从过去的被动跟踪模式逐步转向主动跟踪模式,从基于单 一的摄像头视频跟踪发展到基于摄像头和麦克风阵列的视频与音频信息联合的 跟踪方式。 本文主要研究了基于视频与音频信息联合的跟踪系统。这种基于多信息联合 的跟踪方式,能够互补视频跟踪与音频定位技术的优缺点,采用音频定位辅助视 频跟踪的联合方法,可以达到更好的目标跟踪效果。文中分别给出了视频和音频 跟踪算法,其中视频跟踪采用运动目标检测算法和运动目标跟踪算法,而运动目 标检测算法主要包含图像时间差分技术和基于图像区域生长法的图像轮廓分割 技术,运动目标跟踪算法则主要使用模板匹配技术实施视频跟踪;音频定位技术 则采用声道时延的搜索方法,与视频跟踪算法相近,主要包含声道模板信息提取 算法和声道模板匹配算法等实现音频定位。跟踪系统的设计主要基于 t m s 3 2 0 d m 6 4 2 开发板。视频跟踪部分使用球形摄像头获取视频信息,音频部分 使用双麦克风设计获取音频信息,获取的信息通过t m s 3 2 0 d m 6 4 2 开发板分析 处理,发送摄像头控制指令,实现目标跟踪。最后,本文给出了视频跟踪和音频 定位技术的实验结果和相关分析。 经过对视频和音频目标跟踪系统性能的实际测试,系统软件、硬件均已经达 到了实时性、可靠性和稳定性等指标,同时在功能上也具有一定的通用性和可扩 展性。 关键词:视频跟踪音频定位d m 6 4 2 球形摄像头麦克风匹配技术 a b s t r a c t w i t ht h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y , a r t i f i c i a li n t e l l i g e n c eh a st a k e n g r e a tc h a n g e s t r a c k i n gs y s t e mh a sb e c a m eb e t t e ra n db e t t e r ,a n dh a st r a n s f o r m e d f r o mp a s s i v et r a c k i n gp a t t e r ni n t oa c t i v et r a c k i n gp a t t e r n ,f r o mv i d e ot r a c k i n gb a s e d o nm o n o c a m e r ai n t ot r a c k i n gs y s t e mb a s e do na u d i o - v i s u a ls e n s o ri n t e g r a t i o nm o d e t h ed e s i g no fa u d i o v i s u a ls e n s o ri n t e g r a t i o na p p r o a c hf o rt r a c k i n gs y s t e mi s c h i e f l yr e s e a r c h e d i nt h e a r t i c l e t r a c k i n gp a t t e r nb a s e do nd a t ai n t e g r a t i o n c a l l c o m p l e m e n t v i d e o t r a c k i n g a n da u d i ol o c a l i z a t i o no nt h e a d v a n t a g e s a n d d i s a d v a n t a g e s m e t h o du s i n ga u d i ol o c a l i z a t i o nt oa s s i s tv i d e ot r a c k i n gc a ne n h a n c e t h et r a c k i n ge f f e c t v i d e ot r a c k i n ga l g o r i t h ma n da u d i ol o c a l i z a t i o na l g o r i t h mi s p r e s e n t e di nt h ea r t i c l e t h ev i d e ot r a c k i n ga l g o r i t h mu s e sm o v i n go b j e c td e t e c t i o n a l g o r i t h ma n dt r a c k i n ga l g o r i t h m m o v i n go b j e c td e t e c t i o na l g o r i t h mc o n t a i n si m a g e t i m ed i f f e r e n c et e c h n o l o g ya n di m a g ec o n t o u rs e g m e n t a t i o nb a s e do ni m a g er e g i o n g r o w i n ga l g o r i t h m m o v i n go b j e c tt r a c k i n ga l g o r i t h mc o n t a i n sm o d u l em a t c h i n g a l g o r i t h m s i m i l a rw i t ht h ev i d e ot r a c k i n ga l g o r i t h m ,t h ea u d i ol o c a l i z a t i o na l g o r i t h m u s e st r a c kt i m ed e l a ys e a r c h i n ga l g o r i t h mw h i c hm a i n l yc o n t a i n st r a c km o d u l e e x t r a c t i n ga l g o r i t h ma n dt r a c km o d u l em a t c h i n gt e c h n o l o g y t h ed e s i g no ft h e t r a c k i n gs y s t e mi sm a i n l yb a s e do nt m s 3 2 0 d m 6 4 2 t h ep a r to fv i d e ot r a c k i n g m a k e su s eo fh i g hs p e e dd o m ec a m e r at og e tv i d e oi n f o r m a t i o nw h i l et h ea u d i o l o c a l i z a t i o n p a r t u s e sd o u b l em i c r o p h o n et o g e t a u d i oi n f o r m a t i o n a n dt h e n , t m s 3 2 0 d m 6 4 2a n a l y z e st h ei n f o r m a t i o na n ds e n d sc o m m a n dt oc o n t r o lt h ec a m e r a t ot r a c kt h eo b j e c t i nt h ee n d ,t h er e s u l ta n da n a l y s i so fv i d e oa n da u d i ot r a c k i n g s y s t e m si ss h o w e d t h r o u g ht h et e s to fv i d e ot r a c k i n gs y s t e ma n da u d i ol o c a l i z a t i o ns y s t e m ,t h e s o f t w a r ea n dh a r d w a r eo ft h es y s t e mh a sa l r e a d yr e a c h e dt h er e q u i r e m e n to fr e a l t i m e c a p a b i l i t y ,s t a b i l i t y ,r e l i a b i l i t y a tt h es a m et i m e ,i ti sf u n c t i o n a l l yu n i v e r s a la n d e x t e n s i b l et oc e r t a i ne x t e n t k e yw o r d s :v i d e ot r a c k i n g ,a u d i ol o c a l i z a t i o n ,d m 6 4 2 ,h i g hs p e e dd o m e c a m e r a , m i c r o p h o n e ,m a t c h i n gt e c h n o l o g y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得丕盗盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 文作者槐i 嚎期:研年歹川日 学位论文版权使用授权书 本学位论文作者完全了解苤鲞盘鲎有关保留、使用学位论文的规定。 特授权墨鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 撇躲音礞 翩虢 签字日期叫年r 月罗7 日 第一章绪论 1 1 引言 第一章绪论 视觉是人类从外界获得信息的主要来源,为了达到用机器设备来模拟人类视 觉并对所获得的信息进行分析处理,人们花费了很大的精力致力于对人类视觉方 面的研究。但由于人类的视觉系统从构造和原理来讲都是相当复杂的,现代技术 还不能完全达到模拟的要求,尤其模拟人脑对视觉信号的处理方面更是一个相当 大的难题。同时,听觉同样是人类从外界获得信息的另一个主要来源,人们在看 不清或者看不到的地方都是通过人耳来获取信息的,利用传声器阵列音频处理技 术能通过传声器阵列接收音频信号并进行处理,因此基于声音跟踪的技术也有一 定的发展。随着科技的不断进步,能够模拟人类使用视觉和听觉同时实施跟踪的 技术,就成为了目前跟踪系统发展的主要方向。 模拟人脑对视觉和听觉信号的处理,并经过分析做出相应的反映,这种技术 应用在现实生活中有很大的意义。在视频会议系统、多媒体系统、机器人等领域 有着广泛的应用。例如在视频会议中,说话人在摄像机前说话的时候,还在移动 进行相应的演示,那么摄像头跟踪系统会根据获取到的视频和音频信息对说话人 进行跟踪,使摄像头始终对准说话人。同样在机器人领域中,机器人应该能模拟 人脑对看到的信息和听到的信息做相应的处理,保持说话人在机器人视线范围之 内,达到很好的跟踪效果。这些都是基于音视频联合跟踪系统很好的应用环境。 1 2 跟踪系统发展现状 传统的跟踪方法可分为基于计算机视觉信息的人脸或人体跟踪方法【l 】与基 于计算机听觉信息的声源定位方法【2 j ,这些方法仅利用单一的跟踪信息,无法同 时获得目标的视频和音频特征,只有在某种特定的条件下才能获得较好的跟踪效 果,难以适应复杂的动态环境。 单一的视频跟踪系统目前已经有了一定的发展,而且跟踪方式很多,例如利 用卡尔曼滤波估计方法实施目标跟踪【3 】1 4 1 ,视频分割技术【5 】,粒子滤波( 也称序贯 蒙特卡洛滤波) 技术1 6 】1 7 】等多种视频跟踪的技术,同时视频跟踪技术还扩展到了多 第一章绪论 目标视频跟踪的范围,例如基于s n a k e 模型的多目标跟踪算法【引,基于多摄像头 同时工作,实施多目标跟踪的算法【9 】等。这些跟踪方法各有不同,大体上分为两 种,一种是基于概率上的数学分析,对目标今后的运动方向,运动速度等特征进 行预测l l0 1 ,运用到卡尔曼滤波器或n p 吖】滤波器的设计,并找出概率最大的预 测,进行预跟踪;另一种是根据捕捉到的图像找到目标的具体位置,直接进行跟 踪。第一种方法需要很多的数学支持,而且进行预测时,计算量大,实现较困难, 例如基于s n a k e 模型的多目标跟踪算法,需要很强的硬件支持,成本较高,在简 单的目标跟踪应用中,反而使设计变得更加复杂。第二种方法相对来说,原理比 较直观,实现起来更容易,而且计算量也相对小,对处理设备要求不高,但只能 实现一定范围内的跟踪,对复杂背景中的运动物体跟踪效果一般,而且对物体的 形状和运动的方式也是有要求的。 音频定位技术的实现主要是依靠传声器阵列来获取需要的音频信息,传声器 阵列是指通过一定的几何结构排列而成的若干个传声器组成的传声器阵列,它具 有很强的空间选择性,而且不需要移动传声器就可以获取移动的声源信号,同时 它还可以在一定的范围内实现声源的自适应检测、定位以及跟踪,这使得它在诸 多领域有着广泛的应用。早在2 0 世纪8 0 年代,f l a n a g a n 就已经将传声器阵列引 入到大型会议的语音增强应用中,之后s i l v e r m a n 和b r a n d s t e i n 又将其应用于语 音识别和声源定位中。近年来,基于传声器阵列的语音处理算法已经成为一个新 的研究热点,具有广泛的应用前景和实际意义,很多国际著名的公司和研究机构 正致力于传声器阵列的研究和相关产品开发,有的产品甚至己经进入应用阶段, 包括电话会议系统、视频会议系统、可视电话等系统,还有关于语音及说话人识 别软件的前端预处理,强噪声环境下的声音获取,大型场所的会议记录,助听装 置等等【1 2 】【1 3 】【14 1 。 多源信息融合( m u l t i s o u r c ei n f o r m a t i o nf u s i o n ) 又称为多传感器信息融合 ( m u l t i s e n s o ri n f o r m a t i o nf u s i o n ) ,是2 0 世纪7 0 年代提出来的,军事应用是该技 术的源泉。信息融合就是由多种信息源,如传感器、数据库、知识库和人类本身 来获取有关信息,并进行滤波、相关和集成,从而形成一个表示构架,这种构架 适合于获得有关决策、对信息的解释、达到系统目标( 如识别和跟踪运动目标) 、 传感器管理和系统控制等。以上就是信息融合的定义。在2 0 世纪8 0 年代末,人 们开始将单一的图像融合技术应用于一般的图像处理当中【1 5 】1 1 6 】,近几年,多传 感器图像融合技术已经成为计算机视觉、自动目标识别、军事应用等领域的研究 热点。而本文需要用到的是异类多传感器联合,目前这种技术在音视频跟踪中也 得到了较多的应用【1 7 1 。本文采用了简单的视频音频信息联合的方式进行跟踪,虽 然符合传统意义上的融合定义,但是没有使用真正意义上的融合算法。 第一章绪论 1 3 本论文完成的工作 本文主要介绍了基于t m s 3 2 0 d m 6 4 2e v md s p 开发板的视频与音频信息联 合的系统设计方法,系统能够通过单一的球形摄像头采集视频信息,并做相应的 处理计算,来计算出目标的位置,从而实施视频目标跟踪。同时,系统能够通过 双麦克风,来接收立体的音频信息,并采用一种音频的处理计算方法,计算目标 的位置,实施目标跟踪。视频采用的跟踪算法主要以模板提取和检测的方法来实 现,而音频的跟踪算法主要是以声道时延搜索方法来实现,两种跟踪算法的基本 原理相似,但是跟踪的依据不同,由此,可以设计一种简单的视频与音频信息联 合的方式,将两种跟踪系统联合在一起,成为一个完整的跟踪系统。 本文主要的工作包括以下几个部分:在第二章中提出了基于视频与音频跟踪 系统的硬件设计方案,包括d s p 开发板,球形摄像头,麦克风和设备之间的连 接方式等。第三章提出一种可行的视频跟踪方法,包括视频信息的运动目标检测 算法和运动目标跟踪算法。第四章提出一种可行的音频定位方法,包括音频信息 模板提取算法和音频模板匹配和时间延迟算法。第五章提出一种可行的音视频联 合跟踪算法,这种算法能将视频和音频信息联合起来,同时应用于同一跟踪系统, 既要能保证跟踪的准确性又要能够保证跟踪的实时性,同时还能实现视频与音频 优缺点的互补。第六章分别实现各种算法,并给出实验的结果。 3 第二章基于t m s 3 2 0 d m 6 4 2d s p 视捌音频系统设计 第二章基于t m s 3 2 0 d m 6 4 2d s p 视频音频系统设计 1 1 公司于2 0 0 3 年1 月推出了数字媒体处理器t m s 3 2 0 d m 6 4 2 ,该器件适用 于网路电话( v o i c eo v e ri n t e r a c tp r o t o c o l ,v o i p ) ,视频点播g q d e oo nd e m a n d , v o d ) ,多通道数字录像应用,以及需要高质量的音视频编解码领域。该器件一 经推出便受到了业界的普遍关注,1 1 为方便广大客户对d m 6 4 2 的开发,推出了 d m 6 4 2 的e v m 板。极大的方便和简化了对d m 6 4 2 的应用。图2 - i 为 t m s 3 2 0 d m 6 4 2e v m 开发扳图片。 图2 - it m s 3 2 0 d m 6 4 2e v m 开发板 2 1 1t m s 3 2 0 d m 6 4 2e v m 主要技术指标 p c 机最低配置:p i ic p u ,2 s m 内存。 操作系统支持:w i n d o w s2 0 0 0 ( s p 2 ) 或w i n d o w s x p 。 调试软件支持:c c s 22 01 s 或以上版本电路板尺寸:1 2 5 m m * 1 8 9 r a m ,采用 第- 二章基于t m s 3 2 0 d m 6 4 2d s p 视频音频系统设计 6 层板工艺,全部布线通过信号完整性分析,运行稳定可靠。 工作方式:独立工作模式。 视频输入:四路复合视频,四通道同时输入。最大输入范围0 1 v p p 。 n t s c :7 2 0 * 5 2 5 3 0 帧秒;p a l :7 2 0 * 6 2 5 2 5 帧秒。 视频输出:一路复合视频输出,或s 端子输出。 c v b s :o - 1 2 3 v p p ,y :0 一l v p p ,c :0 - 0 8 9 v p p 。 音频输入:双声道立体声输入或单一麦克风输入,8 k h z 9 6 k h z 1 6 2 0 2 4 采样。 音频输出:立体声输出,8 k h z 9 6 k h z 1 6 2 0 2 4 采样。 板上d s p 芯片:t m s 3 2 0 d m 6 4 2 g d k 6 0 0 ,b g a 5 4 8 封装。 d s p 工作电压:i o 电压3 3 v ,核电压1 4 v 。 d s p 内部工作时钟:6 0 0 m h z ( 1 6 7 n s ) 。 d s p 计算能力:4 8 亿条指令每秒。 d s p 外部总线时钟:1 0 0m h z 。 s d r a m :4 m 6 4 b i t s ,6 4 位总线宽度。 f l a s h :一片n o rf l a s h4 m 8 b i t s ,另一片是n a n df l a s h1 6 m b y t e 。 d s p 引导方式:f l a s h 引导。 8 个用户自定义按键,1 1 个l e d ,其中3 个系统占用,8 个用户自定义。 提供外部接口: 2 个u a r t ,8 线r s 2 3 2 电平驱动。 1 0 1 0 0m b s 以太网接口。 4 0 针i d e 硬盘接口,方便大容量的图像及其它数据的存贮。 4 0 针用户自定义接口,从板上c p l d 引出,方便用户扩展其它功能。 4 0 针d m 6 4 2h p i 接口,便于与其它板卡( 如a r m 板) 连接。 上述两个4 0 针接口组成子板接口,可以方便的在此e v m 板上插接一块子 板。 j t a g 接口,符合i e e e1 1 4 9 标准,用于d m 6 4 2 调试。 功率消耗:不大于1 0 w 。 工作温度:0 7 0 度。 2 1 2 视频解码芯片s a a 7 11 3 s a a 7 11 3 是一种视频解码芯片,它可以输入4 路模拟视频信号,通过内部 寄存器的不同配置可以对4 路输入进行转换,输入可以为4 路c v b s 或2 路s 视频( y c ) 信号,输出8 位“v p o 总线,为标准的i t u6 5 6 、y u v4 :2 :2 格式。 第二章基于t m s 3 2 0 d m 6 4 2d s p 视频音频系统设计 s a a 7 11 3 兼容p a l 、n t s c 、s e c a m 多种制式,可以自动检测场频适用的 5 0 h z 或6 0 h z ,可以在p a l 、n t s c 之间自动切换。s a a 7 11 3 内部具有系列寄 存器,可以配置为不同的参数,对色度、亮度等的控制都是通过对相应寄存器改 写不同的值,寄存器的读写需要通过1 2 c 总线进行。 图2 2 为s a a 7 1 1 3 视频解码芯片的接口示意图。 2 1 3 视频编码芯片s a a 7 1 2 1 h 视频编码器s a a 7 1 2 1 h 支持p a l 与n t s c 格式的视频编码。其输出支持 b t 6 5 6 格式的数字视频。s a a 7 1 2 1 h 有1 路复合视频( c v b s ) 和1 路超级视频 ( s - v i d e o ,y c ) 输出。图2 3 为s a a 7 1 2 1 h 视频编码芯片图。 图2 3s a a 7 1 2 1 h 视频编码芯片 6 一 一附眦 一。 辨址鄂附嘞一一一一| 业一一 。一一丽一 裂一 麟觋 m 一 坦w吣e吼队讯m一 图兰麓龋擎澈勰一酏 第二章基于t m s 3 2 0 d m 6 4 2d s p 视频音频系统设计 s a a 7 1 2 1 h 是p h i l i p s 公司于1 9 9 7 年推出的视频编码芯片,虽然它推出的时 间已经很久,但是由于其低廉的价格及强大的功能,至今仍然得到广泛的使用。 它可以将标准的数字视频信号( c c i r 6 0 1 、b t 6 5 6 ) 编码成普通电视机所能接收的 n t s c 或p a l 制的复合电视信号,同时支持s 端子的视频输出,其主要的功能 特征如下: 1 快速的1 2 c 控制接口。 2 数字化的n t s c p a l 编码器。 3 可编程控制行同步信号的输出相位。 4 编码器可以工作在主动模式或被动模式。 5 可编程控制行同步和场同步信号的输入相位。 6 支持8 宽度的视频信号输入,格式为c b y c r ( c c i r 6 0 1 ) ,s a v 和e a v 信号。 2 1 4 音频编解码芯片t l v 3 2 0 a i c 2 3 t l v 3 2 0 a i c 2 3 是t i 公司推出的一款高性能的立体声音频编解码芯片,内置 耳机输出放大器,支持m i c 和l i n ei n 两种输入方式( 二选一) ,并且输入和 输出都具有可编程增益调解。a i c 2 3 的模数转换( a d c ) 和数模转换( d a c ) 部件高 度集成在芯片内部,采用了先进的s i g m a d e l t a 过采样技术,可以在8 k 到9 6 k 采样率范围内提供1 6 位,2 0 位,2 4 位和3 2 位采样,a d c 和d a c 的信噪比分 别可以达到9 0 d b 和1 0 0 d b 。同时,a i c 2 3 还具有很低的能耗,回放模式下功率 仅为2 3 m v ,省电模式下更是小于1 5uw 。 u 1 8 a v d da g n d h p v d dh p g n d v m l d x t i ,m c l k m l c 引a sx t 0 ml c i nc l k o u t r l l n e l n l l i n r l nr h p 0 u t l h p o u t s d f n s c l k只0 u t m o d el o u t d l nd o u t l r c n l r c o u tb 、,d d 8 c l kd v o d d g n d 醑 a 旺3 图2 4t l v 3 2 0 a i c 2 3 音频编解码芯片 第二章基于t m s 3 2 0 d m 6 4 2d s p 视频音频系统设计 图2 - 4 为t l v 3 2 0 a i c 2 3 音频编解码芯片图。 t l v 3 2 0 a i c 2 3 与微处理器的接口有两个,个是控制口,用于设置 t l v 3 2 0 a i c 2 3 的工作参数,另一个是数据库口,用于传输t l v 3 2 0 a i c 2 3 的a d 、 d a 数据。 图2 5 为t l v 3 2 0 a i c 2 3 音频编解码的管脚和内部结构图: 图2 - 5t l v 3 2 0 a i c 2 3 音频编解码的管脚和内部结构图 8 c s s d i n s c l k m o d e o v d o b v d o d g n o l r c i n o l n l r c o u t d o u r 暑c l k 第二章基于t m s 3 2 0 d m 6 4 2d s p 视频音频系统设计 2 2 球形摄像头简介 本系统采用摄像头来获取跟踪物体的视频信息,并且需要依据接收到的视频 和音频信息,检测到所要跟踪物体的新位置,并且控制摄像头旋转到目标物体的 位置,以保证目标物体能够一直显示在摄像头监控范围之内。由此本系统采用 能够快速移动的球形摄像头,主要考虑到球形摄像头移动比较灵活,与传统摄像 头相比,没有过多的电源导线等的束缚,能3 6 0 。无限旋转,并且横向与纵向旋 转能同时进行操作简单等。 2 2 1 球形摄像头参数 本系统使用天地伟业公司提供的智能高速球t c d 2 6 18 a w 如图2 - 6 所示, 智能高速球是一种高端的前端监控设备,具有速度快、稳定、监控方式灵活等特 点,适用于街道、广场、小区,火车站等室内外监控环境, 图2 6 天地伟业高建球t c d 2 6 1 8 a w 功能特点: 1 巡航速度5 0 0 0 s 。 28 条自动巡航路径可设置预置点停留时间, 34 条模式路径( 花样扫描) ,每条可记录5 0 0 条不同指令或1 8 0 秒路径 4 看守位定时激活功能。 5 三维定位功能,可通过鼠标直接跟踪目标物体。 6 预置位远程校准功能。 7 通讯异常保护功能。 8 内置o s d 屏幕菜单,通过菜单可显示和调整球机参数。 第二章基于t m s 3 2 0 d m 6 4 2d s p 视频音频系统设计 9 全天候室外设计,防护等级i p 6 6 。 1 0 内置3 0 0 0 v 防雷、防浪涌和防突波保护。 2 2 2 摄像头控制协议 本系统采用d m 6 4 2 上面的异步串口u a r t ,并且使用r s 4 8 5 接口标准来控 制摄像头的转动,即使用u a r t 串口实时向摄像头发送相应的转动信息,以9 6 0 0 波特发送信息,此信息为8 b y t e 的1 6 进制数据,无奇偶校验位,其中每比特所 代表的意义参考表2 1 和表2 2 摄像头控制协议,其中b y t e l 与b y t e 7 分别代表发 送有效字串的开始与结束,即字串以o x a 0 开始,以0 x _ a _ f 结束,b y t e 8 为校验位, 是b y t e l 到b y t e 7 这7 组数据的异或值。b y t e 2 到b y t e 6 为主要控制参数,b y t e 2 为芯片接收地址,这里设置为0 x 0 0 ,b y t e 3 主要用来控制光圈和焦距,或者是自 动视频检索等,本系统基本没有用到,只需要系统运行前调整好摄像头,b y t e 4 是用来控制摄像头z o o m 拉近和拉远、摄像头左右转动、摄像头上下转动。b ”e 5 来设定摄像头横向转动速度,速度范围数值从o x 0 0 到0 x 3 f ,分别代表0 0 0 0 s 到1 8 0 0 s ,b y t e 6 来设定摄像头纵向转动速度,速度范围数值从0 x 0 0 到0 x 3 f ,分 别代表0 0 0 0 s 到9 0 0 s 。 表2 1 摄像头控制协议( 一) b y t e治l u ef u n c t i o n la os t x 2o o 1 fa d d r e s s 3d a t ab y t e1( 见表2 2 ) 4 d a t ab y t e2( 见表2 2 ) 5d a t ab y t e3 ( 见表2 2 ) 6 d a t ab y t e4( 见表2 2 ) 7a fe t x 8 0 0 f fc h e c ks u m l o 第二章基于t m s 3 2 0 d m 6 4 2d s p 视频音频系统设计 表2 2 摄像头控制协议( 二) b i tn u m b e r 7 6543210 d a t a1oc a m e ma u t o s c 锄ic a l t l e r ai r i si r i sf o c u sf o c u s o no no n o f fc l o s e o p e n n e a rf a r d a t a 2oz o o mz o o mt i l tt i l t p a n p a n 0 ( f o r w i d et e l ed o w n u p l e f t r i g h tp a n t i l t ) d a t a3p a ns p e e d0 0 - 3 f d a t a 4t i l ts p e e d0 0 - 3 f 2 3 麦克风输入转立体声线路输入接口设计 由于本系统需要采用音频和视频联合跟踪,视频跟踪需要一台摄像头来实施 视频跟踪,而其中的音频定位技术则需要至少2 个麦克风接收音频信号,才能确 定目标物体的位置。但是t m s 3 2 0 d m 6 4 2e v m 开发板只有一个t l v 3 2 0 a i c 2 3 芯片,而这个芯片只包括1 个麦克风接口和一个线路输入接口,但是这两个接口 只能选择一个使用,不能同时接收信号。并且麦克风的接口是只能接收单声道的 麦克风信息,线路输入接口则能接收立体声信号。因此需要一个电路能把两个单 声道的麦克风信号转换成立体声的线路输入信号,作为声音与t m s 3 2 0 d m 6 4 2 e v m 的接口桥梁。 能够实现这个功能的器件有专业的设备叫话放,也就是话筒功率放大器,其 实麦克风输入与线路输入的差别就是信号的强度不同,在t l v 3 2 0 a i c 2 3 中,麦 克风输入端和线路输入的输入端的差别就在麦克风端,麦克风端多了一个放大 器,如图2 5 所示,麦克风的输入端首先接了一个放大器来增加麦克风的输出 信号,然后就和线路输入端的电路基本相同了。但是话放器件远没有这么简单, 它还包括平衡抗噪等多种性能,因此专业级的话放功能是十分强大的,它大多都 是用在演唱等对声音效果要求比较高的场合。 而这个系统中只需要简单的话放功能就可以了,因此只需要实现一个简单的 放大电路就可以。如下图所示: 第二章基于t m s 3 2 0 d m 6 4 2d s p 视频音频系统设计 图2 7 简单的话放电路 l e f tl i n e i n r i g h t - l i n e i n g r o u n d 如图2 - 7 所示,这个话放功能的电路输入端有两个麦克风接口,输出是线路 输入的左右声道和地线,图中i c l 使用的是n e 5 5 3 2 放大器,i c 2 使用的是 j r c 4 4 5 8 放大器,两个放大器都接1 5 v 电压,电路对两路输入信号分别进行放 大,并且v r l 和v r 2 的设计能通过测试,调整两个声道的放大倍数,减少由于 器件的差别造成两路声道的放大倍数不同的情况。 2 4 基于t m s 3 2 0 d m 6 4 2 音视频跟踪系统结构简介 基于t m s 3 2 0 d m 6 4 2 音视频跟踪系统能够将采集到的视频信号和音频信号 进行相应的处理,然后实施目标跟踪,其中视频跟踪系统和音频定位系统都是基 于t m s 3 2 0 d m 6 4 2 开发板设计的。系统框图如图2 - 8 所示。 1 2 第= 章基于t m s 3 2 0 d m 6 4 2 d s p 视额音额系统设计 圈2 - s 基于t m s 3 2 0 d m 6 4 2 音视频跟踪系统框图 如图2 - 8 所示系统的外部设备包括1 个c r t 显示器天地伟业的球形摄 像头和两个麦克风,其中球形摄像头通过s a a 7 1 1 3 规频解码器件连接到 t m s 3 2 0 d m 6 4 2e v m 开发板上而c r t 显示器不是直接连接到摄像头上,而是 将t m s 3 2 0 d m 6 4 2 接收到的视频信号再通过s a a 7 1 2 1 h 视频编码器件输出到 c r t 显示器上。而音频器件中,两十麦克风的两路输出直接连接到话放上,放 大后转换成一路立体声的线路输入信号,然后将这个信号接入t m s 3 2 0 d m 6 4 2 e v m 开发板上t l v 3 2 0 a i c 2 3 芯片的线路输入端,这样就可以将两个麦克风的 信号输_ 入到t m s 3 2 0 d m 6 4 2e v m 开发板上,然后进行相应的跟踪处理。当 t m s 3 2 0 d m 6 4 2 接收到视频和音频信号,就对所得到的信息进行处理,计算目 标物体的位置,然后将这个位置转换成控制摄像头的控制参数,从 t m s 3 2 0 d m 6 4 2e v m 开发板上的u a r t 接口,运用r s 4 8 5 接口标准将控制参数 传输到摄像头中,控制摄像头跟踪目标物体。 第三章视频跟踪算法 第三章视频跟踪算法 3 1 视频跟踪算法简介 视频跟踪算法是系统算法中最重要的部分,因为系统绝大部分时间是以视频 跟踪的方式来运行的,而且视频跟踪算法与音频算法相比较,运算量大,算法过 程比较复杂。所以在算法的选用与优化上就要仔细考虑,并且要能达到一定的跟 踪精度和实时的要求。目前研究较多的视频跟踪算法有基于k a l m a n 滤波1 1 引,粒 子滤波1 1 9 】1 2 0 】,基于特征提取算法【2 l 】,基于多传感器( 视频传感器) 数据融合f 2 2 】【2 3 】 等的方法。跟踪算法主要分为两个部分,运动目标检测算法和运动目标跟踪算法。 运动目标检测算法,主要作用是在系统运行过程中,系统能通过检测摄像头所获 取的视频信息,察觉到摄像头视频范围中的运动目标,并识别运动目标的位置等 信息,将信息存储在系统中,以便后续跟踪。运动目标跟踪算法,主要作用是当 系统察觉到视频范围中的运动目标时开始启动,然后系统根据存储的目标信息查 找在后续的视频帧中所要跟踪目标的新位置,然后控制摄像头转向相应的位置, 以达到跟踪的效果。 3 2 运动目标检测算法 运动目标检测算法的重点就是在发现有运动目标时,检测目标所在的位置或 者目标的某些信息,能够标识目标的特性,以便在后续跟踪中再次找到此目标的 位置。本系统采用的目标检测算法包括几个步骤,图像的时间差分技术,差分图 像的滤波,图像的固定阈值分割算法,基于区域生长法的图像轮廓提取算法和图 像模板提取算法。 3 2 1 图像时间差分技术 图像时间差分算法是用来找出两幅图像之间发生改变的地方,即找出图像中 运动目标的位置,轮廓等特征【2 4 】。它的基本原理是把两幅图像的各个点的灰度值 进行按位相减,假设当某一物体进入摄像头监控范围之内,当前有物体进入的图 1 4 第三章视频跟踪算法 像与原来的背景图像会产生差别,由于两幅图之间除了物体所在位置以外的其他 位置象素没有什么变化,所以理论上按位置相减后各个位置差值都会为零,而运 动物体所在的位置由于两幅图之间已经发生变化,所以物体所在位置上对应象素 点相减后不为零,因此进行图像时间差分算法处理后,就可以把物体和背景区分 出来,并能找到物体的大概位置,和运动物体的轮廓范围。图像时间差分算法的 公式定义为: ( 工,y ) = i ( x ,y ,t 2 ) 一i ( x ,y ,t 1 )( 3 1 ) 其中i ( x ,y ,f ) 为t 时刻时,摄像机捕捉到的图像在( x ,y ) 点处的灰度值, a ( x , y ) 是t :与f l 两时刻摄像机捕捉到的图像在( x ,y ) 点处的灰度值的差值。 图像时间差分算法在本设计中的几个功能模块都有涉及,比如利用时间差分 算法计算目标的位置,进而求出目标的质心;利用时间差分图像算法找出目标的 具体轮廓,在进行匹配算法时可以简化匹配的次数,提高工作的效率;利用时间 差分算法计算已经确定的跟踪目标的运动方向和当前位置,用于使摄像机的中心 移动到所跟踪目标的当前位置,形成自动跟踪的效果。 图像时间差分算法同时也能粗略的检测出物体的瞬时运动速度和瞬时运动 方向,这些应用是基于此算法的数学近似模型来实现的,比如在较短的时间内得 到的两幅含有目标物体的图像和开始的一幅背景图像,把这两幅图像同时与背景 图像进行差分,找到这个目标在两幅图像中的位置( 具体可以采用下面介绍的求 取目标质心的算法) ,通过计算两个位置的差,即距离,就可把这个距离近似的 看作是目标的运动速度,因为在很短的时间间隔内,物体位置的改变可以近似为 物体运动速度,d i ( x ,y ) 出即将物体运动轨迹的函数进行求导,就可以得到物体 运动速度的函数,当时间间隔相当小时,就可以近似看成物体的瞬时速度。同时 还可以根据物体在这两幅图像的位置关系,找到物体的运动方向( 近似把这个短 时间内的运动看作是匀速直线运动) ,根据两个位置在x 轴和y 轴的投影距离, 可以计算运动角度,即目标运动的方向。 图像时间差分算法存在一定的局限性:第一,前后两帧的差值图像只能表示 此两帧图像中运动物体的相对位置变化;第二,它可能忽略了缓慢运动的物体和 运动中的小物体。但是由于本系统是基于目标跟踪的应用范围是较大的物体在做 简单的运动,所以利用图像时间差分的算法是可以达到系统要求的。 3 2 2 差分图像的滤波 进行图像时间差分技术处理后的图像能够明显的看出物体所在的位置和物 体的轮廓,面积大小,形状等的信息。但是由于噪声、光线等的不确定因素的影 第三章视频跟踪算法 响,理论上差分值应该为0 的背景位置,可能出现不为0 的现象,并且这种现象 很可能会出现在很多地方,这些地方会对后续的阈值分割算法中的阈值的计算产 生部分的影响。因此,对于这些象素点要做相应的处理,以便能找到可靠的阈值, 滤除这些噪声点,并且这样做可以缩短后面的一些计算量较大的算法需要的计算 时间。 噪声一般都表现为高频成分掺杂在图像中,滤除噪声的过程,就是过滤掉图 像中高频成分,保留低频成分的过程。经过低通滤波之后,图像变得平滑,所以 也把低通滤波称为平滑滤波。对静态图像或视频图像,以数学形式可以划分为线 性滤波器和非线性滤波器。本系统采用一种简单的线性滤波器算法领域平均 法1 2 引。邻域平均法的基本思想是,将各个象素点的灰度值与该点周围的象素点的 灰度值乘以相应的权值并相加,再把得到的平均灰度值赋给该点,由此该点的灰 度值就包含了其周围点的部分灰度信息,从而能使该点的灰度值平滑变化,即滤 除掉了高频的分量。 滤波模板的选取有很多种,从阶数来说有3 * 3 ,5 * 5 等,一般为了减少计算 量基本选取3 * 3 类的模板。最简单的3 * 3 的模板是由9 个系数值为1 9 的数据组 成的低通模板,如图3 1 ,这种模板称为均值滤波器模板。当然,可以根据需求 改变这九个系数,形成新的模板,但是注意这个九个系数的和应该为l ,由此还 可以形成另两种模板,如图3 2 和图3 3 所示。 1 ,9l 91 9 1 ,9l 91 9 1 9 1 91 9 图3 - l 均值滤波器模板 01 5o 1 51 51 5 0 1 5o 图3 2 只与周围四点有关的滤波器模板 1 6 第三章视频跟踪算法 1 1 6 1 81 1 6 l 81 41 8 1 1 61 8l 1 6 图3 - 3 提高中点权值的滤波器模板 3 2 3 图像的固定阈值分割算法 图像固定阈值分割算法是开始进行图像分析的非常重要的一个步骤。它的目 的是去除图像中没有意义的部分,保留感兴趣的部分内容,即将目标的信息从复 杂的背景图像中提取出来,为后面的分析打好基础。图像的固定阈值分割算法的 实质是将目标物体的轮廓位置与背景区分出来,以便后面专门对目标的特征进行 提取。这个步骤实际上会输出一幅位置图像,同时这幅图像需要与原来有目标物 体的图像( 即前面差分算法中的第二幅图像) 相结合才能有实际的意义,也就是 需要在分割图像中确定目标物体的位置,在有目标物体的图像中确定目标物体的 实际特征。此分割算法的思想是找到一个参考阈值,将滤波后的差分图像进行第 二次滤波,只不过这次滤波将完全把背景图像滤除掉,并且将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论