




已阅读5页,还剩53页未读, 继续免费阅读
(信号与信息处理专业论文)网络监控系统中音视频实时流同步技术的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江工业大学硕士学位论文 网络监控系统中音视频实时流同步技术的研究与设计 摘要 目前,随着安防事业的蓬勃发展,监控行业已经遍布教育、公安、银行等领域并发挥 着重大作用。与此同时,音视频压缩技术也日益成熟,高性能的音视频压缩算法使网络监 控的出现成为可能。由于网络监控拥有组网灵活、维护方便、使用便捷等优势,正引领着 未来监控市场的发展趋势。 在网络监控系统中,音视频同步是一个关键的问题。受网络延时,拥塞等影响在客户 端接收的音视频信息往往会出现“唇音不同步现象”,这将大大降低用户的体验度。当前, 音视频同步算法多样,复杂且效率低,很难应用于资源有限的网络监控系统中。由于在数 据传输中使用了r t p 协议,如果能有效使用r t p 包中的时间信息,音视频同步问题将会 大大简化。本文正是根据网络监控系统这个平台在应用中遇到的音视频同步问题,提出了 解决方案。整个网络监控系统包括媒体服务器,数据管理转发服务器以及客户端软件。本 文根据音视频流的传输过程将其分采集、压缩、发送、接收、同步、解压、播放等模块, 针对这些模块进行优化和缓存设计,并充分利用r t p 协议中的时间戳,提出参考时间及音 视频同步算法。 本文首先介绍了音视频同步技术的研究背景和意义,并讲述了音视频流媒体的广泛应 用及在网络监控系统中的价值。然后,重点研究了本文所涉及到的相关技术,包括音视频 压缩编码技术,流媒体技术,实时传输协议r t p ,以及几种音视频同步技术。并分析各技 术的优缺点,为该系统从理论上确定了切实可行的方案。接着介绍了本文网络监控系统的 软硬件环境,其软件特点基于l i n u x 操作系统开发的,其硬件特点是基于a r m + d s p 结构的主 芯片控制的。并针对硬件平台及当前已有的技术,通过理论验证和仿真等方法找到音视频 数据发送的最佳m t u 值,通过缓存的设计消除了音视频的乱序和抖动现象,最后,在 d i r e c s h o w 的框架基础上完成音视频在p c 客户端的同步播放。 关键词:音视频同步,r t p ,时间戳,网络监控 浙江工业大学硕士学位论文 r e s e a r c ha n dd e s i g n o fr e a lt i m est r e a m s y n c h r o n i z a t i o no nn e t w o r km o n i t o r d 辽g s y s t e m a b s t r a c t n o w , w i t ht h ed e v e l o p m e n to fs e c u r i t y , t h es u r v e i l l a n c ei n d u s t r yi sp l a y i n gas i g n i f i c a n tr o l e i nk i n d so fa r e a s ,s u c ha se d u c a t i o n ,p u b l i cs e c u r i t y , a n db a n k i n g a tt h es a m et i m e ,t h e a u d i o - v i d e o c o m p r e s s i o nt e c h n o l o g yh a s b e c o m em o r e s o p h i s t i c a t e d i tm a k e sn e t w o r k m o n i t o r i n gb e c o m ep o s s i b l e w i 也t h ed e v e l o p m e n to f3 gi nc h i n aa n dp e o p l e sl i v el e v e l m o r e a n dm o r ei n d i v i d u a lu s e r sa r ea t t r a c t t e db ym o b i l en e t w o r km o n i t o t i n g b e c a u s eo ft h ea d v a n t a g e a b o u tn e t w o r km o n i t o r i n g ,s u c ha sf l e x i b i l i t y , e a s yt om a i n t e n a n c ea n du s e ,n e t w o r km o n i t o t i n g i sl e a d i n gt h e 仃e n d so ff u t u r em o n i t o rm a r k e t i nt h en e t w o r km o n i t o r i n gs y s t e m ,r e a l t i m es t r e a m i n gm e d i at r a n s m i s s i o nh a sb e e nw i d e l y u s e d a n dt h ea u d i o - v i d e os y n c h r o n i z a t i o ni sak e yi s s u e b yt h ei m p a c to fn e t w o r kl a t e n c y , b l o c k i n g ,e t c t h e r ei sl a b i a la s y n c h r o n i z a t i o nw h e nr e c e i v i n gt h ed a t ai nt h ec l i e n t w h i c hw i l l g r e a t l yr e d u c et h ed e g r e eo ft h eu s e re x p e t i e n c e a tp r e s e n t t h ea u d i o v i d e os y n c h r o n i z a t i o n a l g o r i t h mi sd i v e r s e c o m p l e xa n di n e 伍c i e n t b u ti ti sd i f f i c u l tt of i n daw a yf o ru s i n gi nt h e n e t w o r km o n i t o r i n gs y s t e m b e c a u s es e n d i n gt h ed a t an e e du s er t pp r o t o c 0 1 i fw ec a nu s et h e t i m ei n f o r m a t i o no ft h ei 汀pp a c k e t se f f e c t i v e l y , a u d i o v i d e os y n c h r o n i z a t i o ni s s u e s w i l lb e g r e a t l ys i m p l i f i e d m sa r t i c l eg i v e sas o l u t i o na b o u tt h ea u d i o v i d e os y n c h r o n i z a t i o ni s s u e s b a s e do nn e t w o r km o n i t o r i n gs y s t e mp l a t f o r m t h ee n t i r en e t w o r km o n i t o t i n gs y s t e mi n c l u d e sa m e d i as e r v e r , m a n a g e m e n ts e r v e ra n dc l i e n t b a s e do nt h et r a n s m i s s i o np r o c e s s i n go f a u d i o - v i d e o s t r e a m i n g ,i t i sd i v i d e di n t o c a p t u r e ,s e n d i n g ,r e c e i v i n g ,s y n c h r o n i z a t i o n , d e c o m p r e s s i o n ,a n dp l a y b a c km o d u l e s w i t ho p t i m i z i n gt h i sm o d l e s ,t h i sa r t i c l em a k e st h e 伽l u s eo f t i m e s t a m pi n t h er t pp r o t o c o la n dp r o p o s e sa u d i o v i d e os y n c h r o n i z a t i o na l g o r i t h m t l l i sa r t i c l ef i r s t l yi n t r o d u c e st h er e s e a r c hb a c k g r o u n da n ds i g n i f i c a n c eo ft h ea u d i o v i d e o s y n c h r o n i z a t i o nt e c h n o l o g y , s u c ha b o u tt h ew i d er a n g eo fa u d i o - v i d e os t r e a m i n ga p p l i c a t i o n s a n dt h ev a l u eo ft h en e t w o r km o n i t o r i n gs y s t e m 刀 e n r e s e a r c h i n gt h e r e l a t e dt e c h n o l o g y , i n c l u d i n ga u d i o - v i d e oc o m p r e s s i o nt e c h n o l o g y , s t r e a m i n gm e d i at e c h n o l o g y , r e a l t i m et r a n s p o r t p r o t o c o lr t p a n ds e v e r a la u d i o v i d e os y n c h r o n i z a t i o nt e c h n o l o g y i ta n a l y z e st h ea d v a n t a g e s a n dd i s a d v a n t a g e so fs y n c h r o n i z a t i o nt e c h n o l o g y , t h e ni n t r o d u c en e t w o r km o n i t o t i n gs y s t e m h a r d w a r ea n ds o f t w a r ee n v i r o n m e n t ,t h ec h a r a c t e r i s t i e so fi t ss o f t w a r ei sb a s e do nl i n u x o p e r a t i n gs y s t e ma n dh a r d w a r ef e a t u r ei sb a s e do nt h ea r m + d s ps t r u c t u r e b yt h e o r yv a l i d a t i o n a n ds i m u l a t i o nt of i n dt h eb e s ts e n tm t uv a l u eo ft h ea u d i o v i d e od a t aa n dd e s i g nc a c h e e l i m i n a t e sp h e n o m e n o no fj i t t e ra n dt h eo u to fo r d e r f m a l l y , p l a y b a c k i n ga u d i o v i d e o s y n c h r o n o u s l yi nt h ep c w h i c ho nt h ef r a m e w o r ko ft h ed i r e c s h o w k e yw o r d s :a u d i o v i d e os y n c h r o n i z a t i o n ,r t p ,t i m e s t a m p ,n e t w o r km o n i t o r i n g i i 浙江工业大学硕士学位论文 第1 章绪论 1 1 课题研究的背景及意义 目前,安防产业正在蓬勃发展,在过去几年中,中国联通的“宽视界”和中国电信的“全 球眼”已经进入公安、银行、交通、环保、教育等十多个行业应用领域。另一方面,由政府 推出的“平安城市”、“科技强警”、“国家应急体系”等重大工程项目的实施以及奥运会、世 博会等重要国际活动的开展,促进了公安及社会对视频监控市场的升温。 随着视频监控需求在传统行业和企业的市场不断扩大,个人市场也逐渐兴起,例如, 在公众家庭市场,视频监控在住宅安全防范和财产的监控方面起到了重大作用。用户可以 利用带有摄像头的p c 机作为视频服务器,通过n t e m e t 对家庭安全进行远程实时监控。随 着i p v 6 技术与信息技术的快速发展,视频监控系统将进一步完善并在未来的数字家庭中得 到广泛的推广和应用l l j 。 据中国安防展览网统计,中国视频监控市场规模稳定增长如图1 1 所示。2 0 0 5 年中国 视频监控市场销售额为9 8 亿元,2 0 0 6 年增长到1 2 8 亿元,增长3 0 6 ,2 0 0 7 年市场规模 达到1 7 8 亿元,增长3 9 1 。未来几年中国视频监控市场将持续升温,但增幅将有所下降。 预计2 0 1 2 年视频监控整体市场规模将达到4 9 1 6 亿元,增长1 0 5 【l j 。 图1 12 0 0 5 2 0 1 2 年中国视频监控市场销售额及其同比增长 浙江工业大学硕士学位论文 在此,网络监控显示出它独有的优势:它省去了传统监控的布线和线路维护费用,降 低了安装成本;组网方便,只要有网络的地方就能搭建网络监控系统:使用便捷,用户不 受时间、地点限制,在授权的情况下可以随时登陆监控系统,实现即插即用即看。所以, 业界一致认为网络监控是未来监控发展的趋势【3 】。 与此同时,流媒体( s t r e a m i n g m e d i a ) 技术也在迅猛发展。流媒体是一种以音视频流的形 式在网络上传输的技术。与传统的多媒体不同,流媒体传输具有实时性和连续性的特点。 通过该技术,用户可以在几十k b i t s 到几十m b i t s 的网络环境中都能体会到连续不断的较 高品质的音视频服务【3 1 。 针对流媒体数据的这些特点,人们提出了一系列与此相关的传输协议,其中包括一个 完善的流媒体传输框架。在此过程中,很多有关音视频传输问题被提出,例如音视频不同 步现象,该现象大大降低了用户体验效果【3 1 。在新的框架体系中,音视频数据的处理有个 专门的服务器来处理,该服务器负责数据的采集,压缩,发送等过程。为了适应网络传输, 音视频数据通常需要经过压缩编码使其减少冗余( 例如视频用m p e g 4 和h 2 6 4 压缩编 码,音频用c l 7 2 6 或g 7 2 9 压缩编码) ,然后按照网络传输的格式进行封装,最后传送给客 户端。在数据传输过程中,少量的音视频数据帧丢失和差错对最终的播放影响较少,而可 靠的传输往往需要消耗更多的资源从而降低系统的实时性。所以面向无连接的用户数据报 协议( u d p ) 更适合作为实时传输协议( i 唧) 的基础。在信令通信过程中,服务器端与 客户端的通信则由另一个可靠协议来完成,例如s i p 协议。 将音视频流媒体技术应用在网络监控系统中,尤其是音视频实时流同步技术的实现是 监控系统发展的一大创新。它扩展网络监控系统的应用功能,突破了传统监控领域单一的 视频监控,有效保证了音视频服务的质量。例如:使监控系统随时能够采集到现场音频信 息。在一些特定的场合,音视频网络监控得到了有效的应用,受到了广大安防厂商和行业 用户的高度关注。 同步技术还可应用于多媒体通信,视频点播系统,视频会议系统,数字电视系统等, 本文结合网络监控系统中采集、压缩、播放的特点提出了一种简单易行的同步方法,该研 究具有理论意义和应用价值。 1 2 监控系统和音视频同步技术的研究现状 【4 】【5 】 监控系统的革新换代,大大提高了安防的效率,监控系统的发展大致可分为三个阶段 2 浙江工业大学硕士学位论文 第一阶段是采用模拟技术为主的第一代监控系统,出现在2 0 世纪9 0 年代初以前, 该监视系统采用模拟方式传输,例如模拟闭路监控系统,它将摄像头上采集的信号通过铜 轴电缆传输出去。其传输距离受到传输媒介的影响,不能传太远。主要应用于本地监控, 如大楼监控。监控图像保存在录像带中,易于丢失,被盗,且寿命短。 第二阶段是采用数字化技术为主的第二代监控系统,该系统出现在2 0 世纪9 0 年代 中期,随着计算机技术的发展,人们逐渐从过去模拟处理方式转向数字处理方式,利用数 字技术将图像的模拟信号转换为数字信号,并通过p c 机高清晰的将视频信号显示在显示 器上。主流的产品就是d v r ,它将模拟信号进行数字化处理并保存在硬盘中,使监控数据 更易保存和处理。 第三阶段是网络技术和多媒体技术为主的第三代监控系统,该系统出现在二十一世 纪,并至今被人们广泛使用着。随着网络带宽增大和计算机处理能力的增强使海量的音视 频数据在网络上传输成为可能。经过压缩后的数据更利于大容量的存储和快速的传输。网 络监控系统的出现,使人们可以在世界的任意角落都能远程操控他所想的监控对象,它被 广泛应用于学校,小区,高速公路等地方。 当前,主流监控系统大都是综合的网络监控系统,比如平安校园、平安城市、金融联 网、交通联网等。要想实现这些联网的集中管理,就必需将设备和接口统一标准化。这里 的标准化指的是将硬件接口、软件接口、通信协议、压缩格式等根据工业标准进行设计, 使其达到通用标准。当然对网络监控系统来说,标准化也是必然的趋势。现在比较常用的 视频压缩格式有m p e g 4 和h 2 6 4 ;常用的音频压缩格式有( 3 :7 2 9 、( 3 :7 2 6 和g 7 2 9 等。随 着用户对音频信息的重视,音频的质量以及音视频的同步也越来越重要。 流媒体网络监控传输过程中遇到的一个突出的问题就是音视频不同步,包括同步播 放,同步存储等。由于音视频采集所用的元器件不同,压缩标准复杂度不同,再加上网络 阻塞,服务器延时,客户端接收延时等因素都将导致音视频不同步。 目前为止,国内外已提出多种同步模型及同步方案。例如:e s c o b a r 等人提出适用于 多种通信模式的流同步协议是需要全网同步时钟的自适应同步方案【6 】;r a n g a n 等人提出一 种适用于多个信源一个信宿的基于反馈的同步技术1 8 】;k u oc c 等人提出基于实时通信协议 的同步方案【8 】;陈健等人提出的基于a v s 的嵌入式音视频同步方法【1 0 】;陈志等人提出的基 于t s 流解复用的同步方法【1 1 】;白聘宇等人提出的一种h 3 2 3 视频会议系统音视频同步方法 【1 1 1 。各种模型算法复杂度不一,应用场合也不同。本文将结合网络监控系统的自身特点, 用一种简单、有效的同步方法,以达到预期效果。 浙江工业大学硕士学位论文 1 3 本文组织结构 本文主要研究音视频流媒体在网络监控系统中应用时遇到的问题及相应的解决方案, 整个网络监控系统包括媒体服务器,数据管理转发服务器,客户端软件。重点介绍了音视 频流的采集、压缩、传输、播放、同步几大模块的设计思想和实现。 第一章:首先介绍了课题的研究背景和意义,并讲述了音视频流媒体的广泛应用及在 网络监控系统中的价值。 第二章:研究了本文所涉及到的相关技术,包括音视频压缩编码技术,流媒体技术, 实时传输协议r t p ,以及几种音视频同步技术。并分析各技术的优缺点,为该系统从理论 上论证了切实可行的方案。 第三章:介绍了本文网络监控系统的软硬件环境,其软件特点是基于l i n u x 操作系统开 发的,保证了系统的实时性。其硬件特点是其主芯片是基于a r m + d s p 的架构,保证了系统 的高效性。 第四章:针对硬件平台及当前已有的技术,通过理论验证和仿真等方法,找到适合网 络传输的最佳发送大小。完成音视频同步整体框架的软件设计。重点优化和完成音视频的 采集模块,压缩模块,传输模块,以及同步播放模块。 第五章:音视频同步技术在平台中的测试和分析,设计测试方法,分析测试结果。 第六章:总结与展望,对本文的工作和研究进行了总结,指出存在的不足,同时根据 目前技术发展的趋势,提出了一些改进的方向和建议。 4 浙江工业大学硕士学位论文 第2 章音视频网络监控同步关键技术 要完成音视频数据在网络中传输,并在客户端同步涉及到多种技术,首先必须选择一 种传输协议,使音视频流媒体能实时、高效的在网络中传输。为保证能在有限的网络带宽 上传输数据,数据的压缩是必不可少的,所以如何选取一种适合网络监控系统的音视频压 缩算法也是至关重要的。到目前为止,已经存在多种音视频同步的方法,每种同步方法的 算法复杂度和效果都不一样,找到适合网络监控系统并易实现的方法才是关键。 2 1 流媒体技术 2 1 1 流媒体基本概述 所谓的流媒体是指在网络中使用流式( s t r e a m i n g ) 传输技术进行传输的连续实时媒体, 常见的有音频数据流和视频数据流,该流媒体会在数据发送端对音视频数据进行压缩,然 后通过网络传输发送到数据接收端,最后对数据进行解压和播放【1 3 】。由于数据得到了有效 压缩,所以在网络传输过程中占用的带宽将大大减少,同时网络阻塞的概率也大大降低, 此时我们就可以在监控客户端接收到实时的音视频数据了。 流媒体数据具有连续性、实时性、时序性三个特点,所以其数据流具有规范的前后时 序关系。该技术源于传统的f t p t c p ( 文件传输协议传输控制协议) 。媒体服务器将采集到 的数据按照一定的顺序将其分割成若干个数据包,每个数据包都包含了相关的信息,然后 通过网络传送出去,在客户端根据数据包中的信息重组数据包,使其成为与原来一样数据 帧。流媒体传输技术就是这样一种分割技术,它把媒体数据流分成适当大小的分组,然后 在流媒体服务器和客户端之间进行连续、实时的传输【1 4 1 。 移动流媒体技术就是把连续的音视频数据经过压缩处理后放到网络服务器上,使移动 终端用户能够边下载边看,而不需要等到整个多媒体文件全部下载完成,就能即时观看的 技术【l 引。实际上移动流媒体技术是网络音视频技术和通信技术发展到一定阶段的产物,它 是融合很多网络技术之后所产生的技术,涉及流媒体数据的采集、压缩、传输、以及网络 通信等多项技术【1 6 】。 浙江工业大学硕士学位论文 2 1 2 实时传输协议r t p 实时传输协议r t p ( r e a l t i m et r a n s p o r tp r o t o c 0 1 ) 在多播或单播的网络服务上提供端 对端的网络传输功能,适合实时流媒体传输,如:音频、视频等数据【1 7 】【1 8 】。 r t p 协议在网络中的结构如图2 1 所示。它建立在应用层之下,u d p t c p 层之上,在 这里为保证数据包的实时性,r t p 建立在u d p 层。应用层将设备上采集的音视频数据根 据r t p 协议进行打包,然后再将r t p 数据进行u d p 封装,最后通过i p v 4 和广域网将数 据传出。 应用层 r t p 瓜t c p u d pt c p i p v 4 i p v 6 链路层 物理层 图2 - 1r t p 在网络协议中的位置 r t p 头和r t p 负载组成了r t p 数据包。因此,r t p 负载是音视频数据的载体,而r t p 包头包含了必要的控制信息,如r t p 时间戳,序列号,标志位和同步信息来源识别码等, 如图2 2 所示为r t p 头结构【1 9 】。 012347 8 91 51 6 3 1 vp x c c m p t序列号 时间戳 同步源标识符( s s r c ) 提供源标识符列表( 0 1 5 项) 图2 - 2r t p 头结构 这里: v 为版本号,占2 b i t ,该协议当前使用版本为2 。 p 为填充位,占l b i t ,若该位被置1 ,则净负荷中的最后一个字节给出了填充 的字节数,这主要应用在固定长度的加密算法当中,或者在底层的数据单元中 6 浙江工业大学硕士学位论文 传输多个r t p 包。 x 为扩展指示位,占l b i t ,如果扩展位被置1 ,表明r t p 首部有扩展信息。 c c 为c s r c 的计数,占4 b i t ,包含跟在固定r t p 头之后的源标示符( c s r c ) 数目。 m 为标记位,占l b i t ,目的用于标记媒体流中的重要信息,如:帧范围。规定 该标志表示静音后的第一个语音包的位置。 p t 为负荷类型,占7 b i t ,表示r t p 净负荷的格式,接收端可以根据此标识判 断r t p 数据类型。本文中音频和视频的p t 值分别为6 9 ( 0 x 4 5 ) 和9 8 ( 0 x 4 8 ) 。 s e q u e n c en u m b e r 为序列号,占1 6 b i t ,每发送一个r t p 数据包序列号加1 ,序 列号的初始值是随机的。由于网络传输中,音视频数据是分开的,会因网络的 延时和阻塞等因素造成客户端收到数据的先后顺序不一。所以在客户端,可以 根据该序列号检测丢包并恢复数据包顺序。 时间戳:占3 2 b i t ,它的初始值也是随机的,可以使用抽样时钟确定的额定抽 样瞬间表示。根据g 7 2 9 的标准,每帧时间间隔为1 0 m s ,所以音频打时间戳 的间隔时间为1 0 m s 。同理视频的采样频率为2 5 帧s 的情况下,可设置视频时 间戳的间隔时间为4 0 m s 。这样接收端可以根据时间戳进行音视频同步,同时 可以计算出时延抖动。 s s r c 为同步源标示符,占3 2 b i t ,标识符被随机生成,以使在同一个r t p 会 话中没有任何两个同步源有相同的s s r c 标识符。在工程应用中要尽量避免同 步源标识冲突问题。 2 2 音视频压缩技术 2 2 1音频压缩技术选取 随着语音通信技术的发展,人们对语音质量的要求越来越高,占用的频率资源也越来 越大。压缩语音数据,降低语音的传输速率,成了人们一直追求的目标。语音编码将在实 现这一目标的过程中担当重要的角色【2 0 。 模拟音频信号的频率范围为2 0 h z - 2 0 k h z ,语音带宽为3 0 0 h z 3 k h z ,如图2 3 所示,语 音带宽只占音频带宽的一部分。但经p c m ( 脉冲编码) 编码后的音频数据将变大不少【2 1 】。例 如采样频率为8 k h z 、1 6 b i t 量化的单声道音频的数据比特率为8 k h z1 声道1 6 b i t = 7 浙江工业大学硕士学位论文 1 2 8 k b i t s 。这在语音通信系统中也是一个很大的数据量,所以在带宽有限的无线网络信道 中,该语音数据将会占用大量带宽资源。因此必须进行数字压缩。 次声带叫:语音( s p e e c h ) :忡声带 j 叫沓宽一 2 03 0 03 k2 0 k f ( h z ) 图2 - 3 音频和语音的带宽 数字音频信号被压缩后虽然降低了传输速率,但同时也造成了语音质量的下降,增加 了算法复杂度和系统开销,同时也带来了延时等后果。因此,语音的编码速率,语音的质 量,编解码延时,算法复杂度,四要素对衡量一种语音编码是至关重要的【2 0 1 。 编码速率 编码速率直接反应了编码器对语音信息的压缩程度。在语音通信系统中,它反应了编 码器工作时占用的信道带宽。用字母i 表示编码速率,其单位为“比特秒( b i f f s ) ”。用r 表示每个语音样点编码后所占用的比特数。i 和r 可以通过采样频率联系起来,即 ,= r 。z ( 2 1 ) 式中:z 表是采样频率,本文语音信号采样频率为f ,= 8 k h z 。 语音质量 语音质量包括声音的自然度、清晰度和易读懂度,评价语音质量的方法有很多,多年 来人们提出的许多方法归纳起来可分为两类:客观评价方法和主观评价方法。 客观评价方法是用是用客观测量的手段来评价语音的质量,它建立在原始语音和编码 后语音的对比结果。该评价方法的优点是计算简单、结果客观、不受个人主观因素的影响, 但其缺点是不能完全反映人类对语音的听觉效果。 目前国际上最通用的主观评价方法是m o s ( m e a no p i n i o ns c o r e ) 评分,它是从绝对 等级评价法发展而来的,用于对语音整体满意度或语音通信系统质量的评价【2 。m o s 评 分采用5 级评分标准,其等级如表2 1 所示。 表2 1m o s 评分等级表 8 浙江工业大学硕士学位论文 5优( e x c e l l e n t ) 不需要注意力,可完全放松 4 良( g o o d ) 不需要明显集中注意力 3中( f a i r ) 需要中等程度的注意力 2 差( p o o r ) 需要集中注意力 1 劣( b a d )即使努力去听,也很难听懂 编解码延时 编解码延时一般用单次编解码的时间表示,在实际语音通信系统中,语音编解码延时 和网络传输延时的作用一样,对系统的整体通信质量有很大的影响。过长的语音延时会使 通信双方产生交谈困难,因此,在实时语音传输系统中,必须对语音编解码算法的延时提 出一定的要求。对于公用电话网,编解码延时通常要求不超过5 - 一1 0 m s ,而对于移动蜂窝系 统,允许最大的延时不超过l o o m s 。延时影响通话质量的另一个因素是回声。当延时小时, 一般感觉不到。当延时约为l o o m s ,发话者就能从手机中听到自己的回声,从而影响通话 质量。 算法复杂度 算法复杂度直接决定着语音编解码器的硬件实现,它影响了硬件实现的复杂程度、功 耗、体积以及成本等。对于一些复杂的语音编解码算法,运算复杂度可用处理每秒钟信号 样本所需的数字信号处理( d s p ) 指令条数来表示其计算复杂度,可用单位“百万条操作s ” ( m i l l i o ni n s t r u c t i o n sp e rs e c o n d ,m i p s ) 来对表示1 2 2 。较高的算法复杂度需要较高硬件配 置,在硬件平台已经确定的环境下,要做到压缩后的语音数据同时具有低码率、低延时, 高质量等特性,就需要选择适当的压缩方法。 目前中速率语音编码国际标准的相关资料如表2 2 所示,其中“”符号表示暂时没有收 集到相关资料。 表2 2 中速率语音编码国际标准表 编码 速率标准公布 语音 时 复杂 帧长 主要 ( k b s名称时间 编码算法 质量 延 度 m o sm sm i p s 比 用途 ) m s 特 2 4q 7 2 61 9 9 0a d p c m3 231 83d c m e 2 4g 7 2 71 9 9 0a d p c m3 341 83p c - v 【e 1 6g 7 2 61 9 0 0a d p c m2 031 82d c m 匣 1 6g 7 2 71 9 9 0a d p c m2 24l 82p c m 匣 1 6g 7 2 81 9 9 2l d c e l p4 023 05 81 0 公用网 9 浙江工业大学硕士学位论文 8g 7 2 91 9 9 6c s - a c e l p4 01 02 01 08 0公用网 8g 7 2 9 a 1 9 9 6c s - a c e l p4 o1 01 0 51 08 0 公用网 6 3g 7 2 31 9 9 5 m p m l q 3 83 01 53 01 9 2 因特网 5 3g 7 2 31 9 9 5a c e l p3 63 01 63 01 6 0因特网 对比上表可以看出,压缩率最高的g 7 2 3 可提供5 3 k b i t s 和6 3 k b i t s 低码率【2 3 1 ,符合 带宽有限的无线网络传输,但该方法的延时较大,音质也相对较差,不符合实时传输系统 的要求。而复杂度最低的g 7 2 6 ,g 7 2 7 标准( 复杂度分别为3 和4m i p s ) ,虽然符合低 处理能力嵌入式平台要求,但其占用的网络带宽较大,其编码速率为2 4 b i t s 为g 7 2 9 的三 倍。综合对比而言,对本系统对低码率,低延时,低复杂度的要求,g 7 2 9 a 标准为较佳选 择:该标准协议主要是在g 7 2 9 标准的基础上减少了运算复杂度,采用共轭结构代数码激 励线性预测( c o n j u g a t es t r u c t u r ea l g e b r a i cc o d ee x c i t e dl i n e a rp r e d i c t i o n ,c s - a c e l p ) 压缩 技术。该编码标准对语音进行处理,语音以每秒8 0 0 0 点采样,每8 0 ( 1 0 m s ) 个样点为一 帧,其传输比特率仅为8 k b i t s ,语音质量高( 4 o ) ,时延d x ( 1 0 m s ) ,可优先考虑在网络系统 中使用。 2 2 2 视频压缩技术选取 众所周知,人们通过无关获取的信息是多种多样的,其中视觉获取的信息量约占总信 息量的7 0 。由于视频信息具有直观性、可信性等优点使其倍受人们的青睐。由于原始的 数字视频信号数据量非常大,而网络带宽是有限的,如果要实现远程网络实时监控,将视 频数据进行压缩将是一种切实可行的办法。 视频压缩标准有很多种,每种方法都有其适用的特定场所。目前通用的一些标准已经 能稳定的应用在适合的平台上,在短时间内不会被取代。表2 3 根据文献【2 4 2 5 【2 6 】中的描 述统计出了各个标准在不同场合的应用。 表2 - 3 视频编码的一系列标准 制定 标准制定时间目标比特率应用场合主要技术 组织 p 奉6 4 k b p s综合业务数字网 d c t 、自适应量化、 h 2 6 11 9 8 4 1 9 9 0i t u t z i g z a g 扫描、运动 ( p = l 3 1 ) ( i s d n ) 视频会议 估计补偿、霍夫曼编 1 0 浙江工业大学硕士学位论文 码、容错编码 j p e g 所有技术、自 适应量化、运动估 光盘存储、v c d 、 m p e g 11 9 8 8 1 9 9 2m 噼e g s 1 5 m b p s 计、运动补偿、双向 视频监控等 运动估计、半像素运 动估计等 数字电视、d v d 、m p e g 1 所有技术、 高清电视、卫星电基于帧场的运动估 1 5 m b p s - 3 5 m p e g 21 9 9 0 1 9 9 4m 口e g 视、视频点播计* b 偿、空间时间 m b p s ( v o d ) 、 质量可扩展编码、 视频存储容错编码等 p 网络视频会议、m p e g 2 所有小波变 1 9 9 3 7 1 9 9 8 网络监控系统、可换、高级运动估计、 1 0 视编辑、内容操重叠块运动补偿、可 8 k b p s 一3 5 m b m 咿e g 4v 2 1 9 9 9 1 2口e g 作、消费视频、专扩展编码、位图形状 p s v 3 & v 4 2 0 0业视频、2 d 3 d 计编码、对象编码、脸 1 1 算机图形、移动通部编码、动态网格编 信码 h 2 6 1 所有的技术、 1 9 9 3 1 1 1 9 9 视频会议、p o t s 双向运动估计、半像 6 8 k b p s 1 5 m b 视频电话、桌面视 h 2 6 3r r u t素运动估计、高级运 v 2 :1 9 9 8 1 p s 频电话、移动视频 动估计、重叠块运动 v 3 :2 0 0 0 1 1电话、 补偿、算术编码 44 块整数变换、帧 m p e g 可视电话、网络监 内预测编码、可变块 和 控系统、无线通 1 9 9 8 1 2 0 0 3 各种应用范大小运动估计辟b 偿、 h 2 6 4i t u t 信、视频广播和存 5 围1 4 1 8 像素精度运 组成的 储、网络流媒体服 动估计、c a v l c 、 t 务 c a b a c 等 本项目综合客户需求分析和硬件平台的处理能力,选择了目前最流行的h 2 6 4 压缩标 准。该压缩方法继承了过去压缩标准,例如采用基于块的运动补偿预测编码、变换编码以 浙江工业大学硕士学位论文 及熵编码相结合的混合编码框架。并在帧内预测、块大小可变的运动补偿、44 整块变换、 1 8 精度运动估值、基于上下文的自适应二进制算术编码等环节中加入新技术,使其编码效 率大大提高。尤为突出的是,它采用了分层结构的设计思想将编码与传输特性进行分离。 其特性如下【2 7 】: ( 1 ) 较强的网络适应性 h 2 6 4 提出了视频编码层( v c lv i d e oc o d i n gl a y ) 和网络提取层( n a l ,n e t w o r k a b s t r a c t i o nl a y ) 两个概念性的编码层,增强了码流对网络的适应性。由于h 2 6 4 将连续的视 频数据分割成独立的n a l 单元,这样更利于数据包在网络中的传输。 ( 2 ) 高视频压缩率 在同等画质的情况下,h 2 6 4 压缩方法可以比传统的m p e g 2 节约了大约6 4 的码流, 相比m p e g 4a s p 节约了3 9 的码流。更高的压缩比使得高清视频和音频混合在网络上传 输成为可能,尤其是3 g 无线网络,h 2 6 4 压缩方式的优势更加明显。 ( 3 ) 抗误码特性和抗丢包 h 2 6 4 且p 采用帧内相关编码方式又采用帧间相关编码方式,某一帧出现的错误将会影响 到下一帧数据的正确性。为了减小由于相关编码而导致的错误扩散,h 2 6 4 将图像分为一个 或者几个独立的片,用重同步方式减小相关性对误码的连续影响。h 2 6 4 还运用f m o ( 灵 活宏块排序) 来增强解码时的错误恢复能力。 2 3 音视频同步技术 2 3 1 音视频同步概述 音视频同步技术是多媒体通信系统q o s ( q u a l i t yo f s e r v i c e ) 研究中的一项重要指标。 在视频会议,网络监控系统,视频点播系统等应用中起着关键作用。然而在网络传输过程 中,由于网络延时,抖动等因素,会造成音视频流在接收端速度不匹配问题,这就是媒体 流异步现象,解决这种声音图像异步现象的关键技术就是音视频同步技术【2 8 1 。 在流媒体系统中,按施加对象划分可分为媒体内同步和媒体间同步。前者是后者实现 的条件。媒体内同步指维持一个媒体内部各个信息单元之间的时间关系。这种时间关系在 采集、压缩、传输、播放过程中需要保持不变,否则会影响媒体显示的质量。例如对于一 个2 5 帧s 的视频流,它每帧间隔的时间是4 0 m s ,如图2 4 所示。而对于一个用g = 7 2 9 编 码的音频流,它每帧间隔时间是1 0 m s ,如图2 5 所示。如果这种时间关系大于一定的限度, 1 2 浙江工业大学硕士学位论文 人们就能明显感觉到音视频的不流畅和停顿,这种现象叫做延时抖动( j i t t e r ) 【2 9 】。而媒体 间同步是指维持媒体相互之间的时间关系如图2 - 6 所示,媒体间同步主要目标是消除各媒 体流之间的时间偏移。 i ii 一- , 0l o 2 0 3 0 4 0 s 06 0 7 0 8 0 9 嚼1 0 0 图2 - 4 视频流内同步 。 口 i o1 02 03 0h o5 06 07 0 i s o 图2 5 音频流内同步 瞻频帧_ 1 01 8 0 l i! i 一 口 口口口口口口口 ;口 - 图2 - 6 音频流间同步 音视频异步是由音视频数据所特有的特性及其应用环境引起的。下面从理论和工程角 度总结了音视频数据从发送端通过网络传输到接收端影响同步几个关键因素【3 0 1 。 采集端产生延时 由于音视频采集,压缩编码所涉及的元器件不同,所以在采集,压缩过程中产生的延 时也不同。另外,在本文中视频压缩采用d s p 硬压缩,所用的时间可以忽略不计,而音频 压缩用的是软压缩,会因消耗c p u 资源而产生延时。 网络传输变化 数据从网络的一端传输到另一端所产生的延时变化称为抖动。由于数据在网络上传输 13 - 帧频 渤 舳肿m 浙江工业大学硕士学位论文 会遇到网络堵塞,数据丢失,以及数据乱序等都将使媒体流失去同步。 播放端产生的时间偏差 媒体流传输到接收端,在处理数据解包、解压、回放等模块时,由于各媒体流( 如音 视频) 数据量以及解码算法的不同也会引起时间差而导致不同步。 2 3 2 音视频同步方法 随着计算机网络的迅猛发展,音频等流媒体实时传输的应用越来越广泛。但音视频数据 在传输过程中,延时抖动和偏移是不避免的。但他们在一定范围内是可以被人们接受的。 人体对抖动和偏移的实际测量结构表明,如果抖动和偏移限制在一定的范围内我们认为它 是同步的。表2 4 出了主观评估所得到的大致许可范卧3 1 】【3 2 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家具配件厂健康体检管理规定
- 2025年便携医疗电子行业研究报告及未来行业发展趋势预测
- 管模维修工技能操作考核试卷及答案
- 铸管制芯工内部技能考核试卷及答案
- 玻璃厂印章保管责任管理规章
- 电池厂晋升管理规范制度
- 2025年吉安市青原区两山发展集团有限公司及下属子公司面向社会公开招聘考试参考题库及答案解析
- 2025云南昭通职业学院招聘城镇公益性岗位工作人员5人备考考试试题及答案解析
- 2025锡林郭勒盟工会招聘8名工会社会工作者和9名专职集体协商指导员备考练习试题及答案解析
- 2025年湖南大众传媒职业技术学院高层次人才公开招聘30人考试模拟试题及答案解析
- 方坯连铸机图解课件
- 湘教版地理必修一知识点复习
- 热控安装工程施工方案
- 河南单招院校名单
- 医院水、电、气故障报修、排查、处理流程1
- 钢结构厂房旁站监理方案
- 开关电源测试表格
- 公路客运站管理规定
- 自动控制原理全套ppt课件(完整版)
- 建筑公司组织架构及岗位职责
- 安全帽试验作业指导书实施细则
评论
0/150
提交评论