（计算机应用技术专业论文）基于目标识别的视音频合成传输系统设计.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：49 大小：2.04MB 积分：18 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要 2 1 世纪是计算机和网络的世纪，随着i n t e r n e t 的快速发展，其用户数量正以惊人的速度递增，用户数量的激增又刺激了网络技术的发展。人们不再满足于单一的文字信息交流方式，结合了多媒体的网络技术给人们带来了全新的信息交流方式，也越来越受到人们的青睐。基于网络的音频视频技术，极大的延伸了人们的活动空间，正在逐步改变着人们的生活方式和思维习惯。音视频技术与网络相结合，是未来网络发展的一个方向。谈到视频技术，就不能回避压缩，因为视频数据的数据量是惊人的。不经压缩处理的海量视频数据无法在现有的网络实时传输。本文介绍了标准的视频压缩算法，比如m p e g ，h 2 6 x 系列。他们有着各自的特点和应用场合。通过研究这些技术，结合实际提出了一种视频图像目标搜索算法，为数据的进一步压缩提供了基础。减小数据量只是实时网络传输的一方面，还要不断改进网络传输协议，本文详细介绍了基于u d p 的实时传输协议r t p 。通过r t p 协议的封装，经过目标提取的视频数据得以在i n t e r n e t 上实时传输，提高了传输效率。系统采用面向对象的编程方法，基于w i n d o w s 平台，使用v c + + 6 o 编程工具实现。系统的实现基于d i r e c t s h 0 w 编程框架，论文介绍了基于d i r e c t s h o w 的音视频捕获技术，视频合成技术，声音合成技术，网络传输技术，文件存储技术等。d i r e c t s h o w 程序开发符合c 0 m 编程规范，论文介绍了基于c 0 m 的编程开发方法。由于采用了c o m 编程规范，使得软件升级和扩展极为方便，为后续工作的展开提供了基础。关键词：多目标识别，视频合成，d i r e c t s h o w ，c o m ，r t p ，h 2 6 3 。 a b s t r a c t t h e2 l “c e n t l 口i sac e n t u r yo fc o m p u t e ra 工l di n 士e m e t w i t ht l l er a p i dd e v e l o p m e n to f i n t e m e t ，廿l e 蛐o u n to fi m e m e tu s e r 掣d w sv e r yf 如t ，w t l i c ha l s os t i m u l a t em ei m p r o v e m e n to f i n t e m e tt e d m o l o 料p e o p l e 丽l ln o ts a t i s 每谢t l lp l l r et e x ti n f o m a t i o nb u ta s kf o r 证f o m a t i o n 谢t 1 1s 0 1 l n da n dv i d e o t h ea u d i oa n dv i d e ot e c h n o l o g yc o m b i n e d 晰t hi n t e m e te n l a r g e s p e o p l e sw 。幽n gs p a c e ，w 1 1 i c h a l s oc h 丑n g e sp e o p l e sl i f ea n d 也i n 虹n gg r a d u 囊l l y t i t sat e n d e n c yo fc o m b i n gm u m m e d i at e c l l n o l o g y 谢mi m e m 乩f o ri t sp r 0 v i d ep e o p l e m o r ei o r m a t i o na n dw i t ha e ro fp e o p l e sc o n v e n j e n c e w h e nt a l ka b o mm m t i m e d i a t e c h n o l o 瓢w es h o u l dt a l ea b o mv i d e oc o m p r e s st e c h n o l o g y t 1 1 i sp a p e ri 1 1 廿0 d u c e sm e s t a n d a r dv i d e oc o m p r e s sa i g o r i 缸l ，血l u d i l l gi s os 协n d a r da 1 1 di t us t 孤d a r d n e yh a v e d i 矗毫r e n t 印p l i c a t i o ne n v i 煳e n t w h e ns n l d y 恤e s ea l g 耐l m s ，t h i sp 印e rp r o v i d e sam a b l e a 1 9 0 r i t t l mt or e c o 弘i z em o v i n gm u l t i - o b j e c t si l lv i d e os e q u e n c e t h j sp 印e ra l s oi 曲o d u c e s r 皿( r e a l t i m et r 吼s p o r tp r o t o c 0 1 ) a n dr t c p ( r t pc o l l lp r o t o c 0 1 ) ，w i mw h i c h w eu s e dt o s e n do u rv i d e od a 协b yi n t e m e t t h es o 小) l r a r ci sd e v e l o p e du s i n gvc h _ 6 0a i l dn mo n 、i n d o w sp l a t f 0 珊i tf 0 1 1 0 w e dm c d i r e c t s h o wp m g r 黝i n gp 曲c i p l e s 1 1 l i sp 印e ri n 仃o d u c e s 1 et e c l l n o l o g i e so f d e oc a p t l ， a u d i oc a p t u r e ，f i l es 删n ga i l ds oo ni nd i r e m s h o w _ 1 1 l ed i r e c t s h o wp r o 伊a m m i n gi sb a s e d o ng o m ，s ot 1 1 es o r w a r c 、i l lb ee a s yt ou p 可a d e k e yw o r d s ：m 1 1 1 硒b j e c t sr e c o g i l i t i o i l ，v i d e oc o m p f e s s ，d i r e c t s h o w ，c o m ，r t p h 2 6 3 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果，除了文中特别加以标注和致谢之处外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得叁盗堡苎太望或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名：谫瞎签字日期：7 n 占年 j 月箩日学位论文版权使用授权书本学位论文作者完全了解墨盗堡兰盘望有关保留、使用学位论文的规定。特授权墨洼望兰盘望可以将学位论文的全部或部分内容编入有关数据库进行检索，并采用影印、缩印或扫描等复制手段保存、汇编，以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复本和电子文件。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名：弓醒彩导师签名：爿汤；堂导师签名：彳吻；k 譬签字日期：。一6 年1 月1 日签字日期：2 一二年，月歹日第一章绪论 1 1 课题研究背景第一章绪论随着网络通信技术的发展，基于流媒体( s t r e 锄m e d i a ) 传输的视频应用得到了迅速的发展。在i n t e r n e t 上传输视频的相关技术也成为i n t e r n e t 节研究和开发的热点。视频的流式传输具有连续传输、数据量大、对实时和可靠性有严格要求等特点，但由于网络的异构性及现有网络没有提供资源预留等类似的协议保障，限制了视频在i n t e r n e t 上的传输。为了在i n t e r n e t 上有效、高质量地传输视频流，需要多种支持技术，其中主要包括视频压缩和编码技术。1 、q o s 控制技术、视频流传输中采用的协议。1 ，以及媒体同步等关键技术。未经压缩的视频信号在现有的网络带宽下几乎无法满足实时陛。现有的视频压缩“1 ，较大的有损视频压缩技术基本上可以满足实时性的要求，但是图像的失真在某些领域是不能令人满意的。视频分割技术近年来得到了广泛的研究与应用，使得基于对象的视频编码、基于内容的视频检索应用成为可能。视频对象分割是视觉处理研究的重点，是从基础图像、视频处理领域进入到更高层次分析和理解的关键步骤。视频序列的多样性，复杂性使得视频分割领域的研究成果只能局限于特定的应用领域如何使压缩编码的国际标准获得更好的实际应用，前端的对象的分割算法是值得研究和探讨的问题。目前已有很多这方面的研究工作，但是离实际的应用还有不小的距离。 1 2 研究的目的和意义网络的普及和发展，消除了时空的界限，极大的提高和延伸了人们的活动空间。基于网络的远程实时系统，使某些特殊场合远程控制成为可能。比如说火山探险、远程手术、爆炸物的机器人拆除等。但是这些应用需要专用的线路和极高的带宽。不能普遍的应用。如何利用已经广泛普及的i n t e r n e t 网络。1 ，使这种实时性的视频传输盟控系统更加广泛普及，具有很高的应用价值。 1 3 视频分割算法的发展现状和应用前景目前，实时跟踪多目标的视觉系统的研究在国内外己引起了高度重视，现在已提出了许多算法和方案，以下列举其中的一些有代表性的从国内、国外各种文献上看，在目标识别上基本上采用基于r g b 或h s v 模式。而且大都采用状态空间大范围网状搜索，扫描方法为从左到右，从上到下，例如，东北大学机器人研究室，哈尔滨工业大学机器人研究室等。应用的比较广泛的算法有：基于图像特征的模板匹配算法。这一算法的主要思想是在提取当前特征和被跟踪目标模板特征的基础上( 通常是图像的边缘信息) ，进行目标模板于当前帧之间的匹配，并再匹配过程中完成模板的更新。第一章绪论基于颜色信息的识别与视觉跟踪算法。该算法的主要思想是在识别与跟踪之前首先获得目标的颜色信息( r g b 的范围) ，建立颜色信息表，在采集的序列图像空间进行搜索，查表，最终找到目标。帧差法或背景差法。其理论基础是物体的运动会引起相邻帧对应位置的灰度值产生偏差。利用相邻两帧或几帧的差可以到到运动物体的轮廓，或直接利用当前帧减去背景帧，得到物体的轮廓。应用于网络的视频传输，多采用各种图像压缩算法，尽量减小传输的数据量，或采用专用线路，提高带宽。但大都应用于一些对实时性要求不是很强的场合，比如电视电话会议、在线影院等。而结合了目标识别跟踪与网络传输的应用尚未见介绍。 1 4 研究任务本系统研究的主要内容有： 1 ) 视频的捕获。 2 ) 原始图像的调整和预处理。由现场采集的数据，受到噪声干扰、光线变化及图像畸变等因素的影响，不能直接用于目标的检测与提取，必须经过调整和预处理，除去噪声，调整光线，矫正畸变等。 3 ) 动态多目标的检测。将动态目标与背景分离是本系统成败的关键因素。检测的方法以下各种算法： ( 1 ) 颜色法；( 2 ) 模板匹配法；( 3 ) 帧差法； ( 4 ) 光流法等等，每一中方法都有特定的应用场合和限制条件。与实际问题相结合，找到一种最优的搜索算法或者几种算法的组合，从而保证目标的快速、正确识别。 4 ) 目标物体的识别。将动态目标与背景分离是本系统成败的关键因素。检测动态目标的方法有很多，各有优劣，针对本文系统，研究一种快速高效的识别算法。 5 ) 运动物体预测编码对于运动目标，根据其前后帧的时间和空间相关性，预测其位置，传输运动矢量信息，然后周期性的矫正，会使得传输数据量大大减少。这正式各种编码算法所追求的。 6 ) 背景图象压缩与传输与运动目标的编码、解码问题。好的编码可以大大压缩数据，从而变相的提高了网络传输的带宽。研究压缩算法主要研究h 2 6 3 算法，对于背景采用( 1 ) 图像的d c t 变换： ( 2 ) 量化；( 3 ) z i g z a g 变换； ( 5 ) 霍夫曼编码。 7 ) 数据的网络传输问题学习和研究各种传输协议，找到并改进适合特定条件的实时传输协议，使之更加符合既定的传输方案，高效快速的传输数据，满足实时要求 2 第一章绪论 1 5 论文结构全文共分七章。第章介绍了课题研究的背景，意义，以及研究现状和本文的研究任务；第二章简要介绍了本系统的大体框酬和流程，使读者对系统有整体上的认识；第 j 章着重介绍了d i r e c t s h o w 系统。包括d i r e c t s h o w 技术简介、c o m 技术简介、d i r e c t s h o w 系统、d i r e c t s h o w 软件开发方法以及通过可视化的调试工具g r a p he d i t 调试程序的流程；第四章介绍了各种视频压缩国际标准算法，并着重讲述了h 2 6 3 协议，包括总体设计方案、量化和反量化、游程编码等；第五章介绍了基十d j r e c t s h 一的网络视频传输，主要介绍了r t p 和r t c p 协议以及d i r e c t s h o w 多r t p 协议的支持与封装；第六章介绍了视频音频合成及实时播放系统的实现，描述了系统的具体实现以及目标搜索的具体算法、视频压缩的算法实现和网络传输的实现代码，还介绍了流媒体的发布方法和流媒体服务器的配置；第七章对本文所做的工作进行了总结和展望。 1 6 小结本章讲述了论文的研究背景，研究意义，研究现状和研究目的，并给出了本文的结本章讲述了论文的研究背景，研究意义，研究现状和研究目的，并给出了本文的结构框架。第二章系统结构第二章系统结构本章主要讲述系统的组成和结构，以及系统数据的流程。 2 1 系统框图本系统主要由以下几个模块组成：视频源：捕获视频。音频源：捕获音频。多目标识别系统：提取视频源中的目标。背景文件；用于和视频目标合成。视频合成模块：完成视频的合成功能。视频压缩模块：将合成的视频压缩编码。网络传输模块：将压缩编码后的视频发送到网络。网络接收模块；接收来自网络的压缩数据。解压缩模块：将接收模块的数据还原解压缩成音视频数据。文件存储模块和播放模块：存储或者播放音视频数据。结构如图2 一l 所示。 2 2 系统流程图2 1 系统框图系统使用v c 什6 o 编程环境”删脚呻，基于微软的d i r e c t s h 0 w 技术，其中，视频源对应于服务器端的摄像头。视频的采集独立于硬件，也就是说，只要硬件接口符合微软v f w 或者w d m 驱动模式，就可以被系统识别。视频图像经视频源捕获后，向后提供了连续的视频流，在目标识别器中，待识别的多个目标被提取，而背景被过滤掉，目标识别器向下一个处理模块提供了仅包含提取目标的视频流，目标流提取效果的好坏，乃至整个系统的成败，关键在于目标识别器的设计。视频合成模块将目标与选定的背景文件合成，形成新的视频流。新的视频流可以进一步和捕获的音频合成，用于存储成本地文件，也可以经过压缩编码后，经过r t p 协议编码，输入到网络，发送到远方客户端，客户端经过相反的接收、解压，便可以获得数据流，可以用于存储和显示。第二章系统结构图2 2 数据流图首先确保摄像头和麦克输入与计算机正确连接。 1 打开一个音乐文件( 可以是光盘中的v c d ) 。 2 选择背景文件，背景文件只包含音频流，文件格式可以是a v i ，a s f ，m p e g 等等。 3 设置目标识别模块属性，调节使得识别效果最佳。 4 选择保存文件的格式，可以是“i 或者a s f 。 5 人物( 待识别目标) 在摄像头前持麦克讲话，音视频会被系统捕获，提取，合并，存储 6 如果希望实时发送到远程客户端，应该设置文件压缩属性和客户端的i p 地址和端口， 7 客户端设置服务器端的i p 地址和端口，便可以进行连接显示了。 2 3 小结本章介绍了系统的总体结构以及数据流向。首先给出了系统框图和数据流图，使读者对整个系统有个大体的了解，然后又针对系统的数据流，简要介绍了各个模块的功能。第三章基于d i r e c t s h o w 技术的视频数据处理第三章基于d ir e c t s h o w 技术的视频数据处理 3 1djr e c t s h o w 技术简介 d i r e c t x 。”“”开发包是微软公司提供的在w i n d o w s 平台上开发高性能图形、音视频、网络游戏的框架接口，d i r e c t x 可以用与设备无关的方法来提取设备的相关性能( 即“硬件设备无关性”) ，开发中无需关心硬件的具体细节就可以利用硬件的高性能。d i r e c t x 采用了组件使用对象模型c o m ( c o m p o n e n t0 b j e c tm o d e l ) 标准，不同对象的版本可以有不同接口，使得应用程序在未来也能够得到兼容与支持。d i r e c t x 是个大家族，其中有 d i r e c t p l a y ，d i r e c t d r a w ，d i r e c t s o u n d 等，d i r e c t s h o w 是其中的成员之一。d i r e c t s h o w 提供了高质量的捕获和固放视频流的功能，为多媒体提供了完善的解决方案。支持多种媒体格式，包括a s f ，m p e g ，a v i ，m p 3 和w a v 等等。它既支持用w d m ( w i n d o w sd r i v e rm o d e l ) 驱动的捕获卡，也支持v f w ( v i d e of o rw i n d 0 w s ) 驱动的捕获卡。 d i r e c t s h o w 技术简化了媒体回放、格式转换和图形捕获任务。同时，它为开发应用程序提供了底层视频流的控制，可以支持用户自定义的格式和效果。由于d i r e c t s h 0 w 技术是基于c o m 的，使设计和开发组件化，增强了程序的分布式开发，独立测试，可重用性的优点。如音频、视频采集设备可以自由选择，自动连接：音频、视频编码器和解码器可以独立更新。 3 2c 0 m 技术简介 d i r e c t s h o w 技术是基于c 0 m 的，所以，有必要先了解一下c o m 技术“。 c o m ，即组件对象模型，是一种以组件为发布单元的对象模型，这种模型使各软件组件可以用一种统一的方式进行交互。c o m 既提供了组件之间进行交互的规范，也提供了进行交互的环境，因为组件之间交互的规范不依赖于任何特定的语言，所以c o m 也可以是不同语言协作开发的一种标准。 c 0 m 定义了一套完整的接口规范，以实现c o m 组件和客户代码之间的交互，充分发挥了组件对象的优势，并实现了组件对象的多态性。从技术上讲，接口是包含了一组函数的数据结构，通过这组数据结构，客户代码可以调用组件对象的功能，接口定义了组成员函数，这组成员函数是组件对象暴露出来的所有信息，客户程序通过这些函数获得组件对象的服务。客户程序用一个指向接口数据结构的指针来调用接口成员函数，如图3 1 所示。 6 第三章基于d i r e c t s h o w 技术的视频数据处理图3 1 c o m 接口接口指针实际又指向另一个第二个指针指向一组函数，称为接口函数表，接口函数表中每一项为4 字节长的函数指针，每个函数指针与对象的具体实现连接起来。通过这种方式，客户只要得到了接口指针，就可以调用到对象的实际功能。对于一个接口来说，它的虚函数表是确定的，因此接口成员函数的个数是不变的，而且成员函数的先后顺序也是不变的；对于每个成员函数来说，其参数和返回值也是确定的。在一个接口定义中，所有这些信息都必须在二进制一级确定，不管用什么语言，只要能支持这样的内存结构描述，就可以定义接口。在一个复杂的系统中，可能充斥着大量的组件对象每个组件对象可能又有大量的接口。为了保证这些接口彼此不会冲突，m i c r o s o f t 规定用g u i d 来标识组件对象和接口。 g u i d 是g l o b a l l yu n i q u ei d e n t i f i e r 的缩写意为全局唯一标识符g u i d 可以标识组件对象的类，这时候g u i d 也称为c l s i d ( c l a s si d e n t i f i e r 的缩写) 。g u i d 也可以标识组件对象的接口，这时候g u i d 也称为i i d ( i n t e r f a c ei d e n t i f i e r 的缩写) 。 3 3d ir e c t s h o w 系统 d i r e c t s h o w 和其他d i r e c t x 家族一样，是一套完全基于组件对象模型( c o m ) 的应用系统。d i r e c t s h o w 本身完全支持种类繁多的硬件设备，并且特别支持d v d 播放器，模拟和数字电视调谐器和通用捕获设备。d i r e c t s h o w 也带了非常多的各种类型的匪缩和解压缩器，效果过滤器( f i l t e r ) 等。通过混合和使用d i r e c t s h 0 w 模块，可以建立起多种多样且完全不同的多媒体应用程序。d i r e c t s h o w 还允许用户建立一个定制的模块，例如支持特定应用的编码器和解码器“”，并把它们集成进任何一个应用程序中。 d i r e c t s h o w 使用一种称为f i l t e rg r a p h 的模型来管理整个数据流的处理过程；参与数据处理的各个功能模块称为f 订t e r ；各个f i b e r 在f i b e rg r a p h 中按一定的顺序连接成一条“流水线”协同工作。除了系统提供的大量f i l t e r 外，还可以定制自己的f i b e r ，以完成所需要的功能。按照功能来分，f i l t e r 大致分为三类：s o u r c ef i l t e r s 、t r a n s f o r mf i l t e r s 和 r e n d e r i n gf i l t e r s 。s o u r c ef i b e r s 主要负责取得数据，数据源可以是文件、因特网、或者计算机里的采集卡、数字摄像机等，然后将数据往下传输；t r a n s f o r mf i l t e r s 主要第三章基于d i r c c t s h o w 技术的视频数据处理负责数据的格式转换，例如数据流分离合成、解码编码等，然后将数据往下传输； r e n d e r i n gf i l t e r s 主要负责数据的最终去向可以将数据送给声卡、显卡进行多媒体的演示，也可以输出到文件进行存储。 f i l t e r 的连接实际上是f i l t e r 上p i n 的连接。连接的方向总是由上一级f i l t e r 的输出 p i n 指向下一级f i b e r 的输入p i n 。p i n 也是一种c o m 组件，每个p i n 上都实现了i p i n 接口，其连接实际是连接双方使用的媒体类型的一个“协商”过程。s 锄1 p l e 是一个封装了一定大小数据内存的c o m 组件。连接着的f i l t e r 双方的p i n 拥有同一个a 1 1 0 c a t o r ( 即s a m p l e 分配器) ：a 1 1 0 c a t o r 创建、管理一个或多个s a m p l e 。f i b e r 之间以s 锄p l e 的形式来传送数据的。 d i r e c t s h o w 系统如图3 2 所示。图3 2d i r e c t s h o w 系统 3 4 dir e c t s h o w 软件开发方法 d i r e c t s h 0 w 是基于c 0 m 技术的多媒体开发结构体系。d i r e c t s h o w 应用程序开发又有其自身的特点和方法典型的d i r e c t s h o w 应用程序开发通常遵循以下几个步骤： 1 创建一个f i l t e rg r a p hm a n a g e r 实例。 2 利用f i l t e rg r a p hm a n a g e r 组建f i l t e rg r a p h 。 3 应用程序对f i l e rg r a p h 进行控制，响应事件通知。 f i l t e rg r a p hm a n a g e r 是d i r e c t s h o w 的一个对象，可以通过c o c r e a t e i s t a n c e 函数创建该对象的实例，利用该实例，我们可以构建和控制f i l t e rg r 即h ；并能对f i l t e rg r a p h 进行同步、事件通知处理等其它控制。利用f i l t e rg r a p hm a n a g e r 组建f i l t e rg r a p h 时，我们还可以使用其它辅助对象帮助建立和控制f i l t e rg r a p h ，如c a p t u r eg r a p hb u 订d e r ，也是d i r e c t s h 删中比较重要的第三章基于d i r e c t s h o w 技术的视频数据处理一个对象，该对象辅助创建带有音频视频捕获功能的f i l t e rg r a p h 。组建f i l t e rg r a p h 的过程，就是寻找合适的f i l t e r ，添加到f i l t e rg r a p h ，并对f i l t e r 进行顺序连接。寻找f i l t e r 是程序开发的关键。若无法找到合适的f i l t e r ，开发者必须自己编写f i l t e r ，这就是一个纯粹c 0 m 组件编写过程。在我们的操作系统中，己存在了大量的实现特定功能的f i l t e r ，利用这些己有f i l t e r ，我们可以开发各种功能的应用程序，提高了开发效率。 d i r e c t s h o w 提供了两种枚举f i l t e r 的方法。一种是利用系统设备枚举器( s y s t e md e v i c e e n 岫e r a t o r ) ，通过f i l t e r 的分类目录枚举各种过滤器。另一种方法是通过过滤器图创建器( f 订t e rm a p p e r ) ，根据应用程序提供的搜索条件寻找合适的过滤器搜寻到合适的 f i l t e r 后，利用f i l t e rg r a p hm a n a g e r 对象的i f i l t e r g r a p h 接口实现该f i l t e r 的添加f i l t e r 之间的连接，也是通过f i l t e rg r a p hm a n a g e r 或c a p t u r eg r a p hb u 儿d e r 所提供的c 0 m 接口实现的。d i r e c t s h o w 还提供给用户运行状态下添加或删除f i l t e r 的方法，利用该方法，我们可以在应用程序中实现动态的构建或修改f i l t e rg r a p h d i r e c t s h 0 w 过滤器之间除了多媒体流在流动外，还有其他控制信息，如过滤器图控制( f i l t e rg r a p hc o n t r 0 1 ) 、事件通知( e v e n tn o t i f i c a t i o n ) 和质量控制( q u a l i t y c o n t r 0 1 ) 等信息d i r e c t s h o w 通过图表管理器( f i l t e rg r a p h n a g e r ) 接收应用程序产生的过滤器图控制信息，并将f i l t e r 产生的事件通知有选择的反馈给应用程序处理。质量控制信息由渲染过滤器( r e n d e rf 儿t e r ) 产生，以多媒体数据流相反的方向传输，用于实现过滤器( f i l t e r ) 之间的协调工作及时钟的同步之间的协调工作应用程序通过响应过滤器事件通知的方法，实现与过滤器间的协调工作。 3 5 程序的可视化调试图3 3i n s e r tf i l t e r s 通过可是化调试工具，我们可以快速的搭建程序框架。首先，运行g r a p he d i t ，然后，选择“i n s e r tf i l t e r s ”，如图3 3 所示。选择加入“v i d e oc a p t u r ef i l t e r ”和“a u d i o 第三章基于d i r e c t s h o w 技术的视频数据处理 c a p t u r ef i l t e r ”，然后，打开“d i r e c t s h o wf 订t e r s ”，加入系统所需要的f i l t e r 然后，将各个f i l t e r 按照其在系统中的相对位置依次连接连接完成后，如图3 4 ，就可以运行了。图3 4 系统运行图利用g r a p he d i t ，可以调试自己开发的f i l t e r s ，也可以快速的搭建系统的结构，然后应用程序可以根据该结构开发代码。 3 6 小结本章介绍了d i r e c t s h o w 系统，包括d i r e c t s h o w 技术简介、c o m 技术简介、d i r e c t s h o w 系统、d i r e c t s h o w 软件开发方法以及通过可视化的调试工具g r a p he d i t 调试程序的流程。 1 0 第四章数字视频压缩算法 4 1 视频压缩的必要陡第四章数字视频压缩算法信息与数据是两个完全不同的概念。信息是对发生事件的抽象描述，而数据是在确定了描述方法后对事件的具体描述记录。显然，对同一个信息，若使用的描述方法不同，则形成记录的数据量可能完全不同。我们总是希望用最小数据量描述和表达更多的信息。视频压缩的目的是在保证一定图像( 或声音) 质量的条件下，以最小的数据量来表达和传送图像( 或声音) 信息，从而节省传输和存储的开销。视频数据能够被压缩是因为，首先，原始视频数据中存在着大量的冗余信息，包括空间冗余和时间冗余“；其次，视频和音频信息的最终接收者是人，人的视觉和听觉器官都具有对特定信息的不敏感性，舍去人的感官所不敏感的信息对图像或声音质量的影响很小，在有些情况下，甚至可以忽略不计( 视觉冗余) 。正是由于视频数据中存在着大量的冗余，所以，必须压缩后再进行存储和传输。数字影像的出现，得益于两项技术的发展：光碟存储技术和影像数字压缩技术。例如，n t s c 制式的电视图像以大约6 4 0 4 8 0 的分辨率、2 4 b i t s 像素、每秒3 0 帧的质量传输时，其数据传输率达2 8 m b i t s ，2 0 秒的未压缩视频图像将占用5 6 0 m b i t 的存储空间，相当于一张c d r o m 光盘只能储存2 0 秒钟的未压缩电视节目。显然这样的要求对普通个人用户来讲是难以接受的，在实现上成本也是非常高昂。所以，视频图像的压缩编码方法就应运而生了。 4 2 视频编码国际标准化现状目前，图像编码方法繁多，发展也相当迅速，根据不同应用目的而制定的图像压缩编码的国际标准相继被推出，再加上数学、工程技术以及计算机本身体系结构软硬件性能的深入发展和提高，使得图像编码的理论和技术得到了前所未有的发展和应用。近年来，一系列国际视频压缩编码标准的制定，极大地促进了视频压缩编码技术和多媒体通信技术的发展。视频压缩编码标准的制定工作主要是由国际标准化组织 ( i n t e r n a t i o n a ls t a n d a r d i z a t i o n0 r g a n i z a t i o n ，简称i s 0 ) 和国际电信联盟 ( i n t e r n a t i o n a lt e l e c o 加i n u n i c a t i o nu n i o n ，简称i t u ) 完成的由i t u 组织制定的标准主要是针对实时视频通讯的应用，如视频会议和可视电话等，它们以h 2 6 x 命名( 如h 2 6 1 ， h 2 6 2 ，h 2 6 3 等) ：而由i s 0 和i e c ( i n t e r n a t i o n a le 1 e c t r o t e c h n i c a lc o 舳i s s i o n ，国际电工委员会) 的共同委员会中的m p e g 组织( m 0 y i n gp i c t u r ee x p e r tg r o u p ) 制定的标准主要针对视频数据的存储( 如d v d ) ，广播电视和视频流的网络传输等应用，它们以m e p g x 命名( 如m p e g - 1 ，m p e g 一2 1 t ，m p e g 一4 吧m p e g 一7 等) 目前的视频编码国际标准的基本方法都是采用了基于d c t 变换的混合编码方法，不同的标准针对不同的应用，采取了不同的编码策略来改进编码效率和获得更好的图像质量。第四章数字视频压缩算法 4 。3h 。2 6 x 系列标准通常情况下，h 2 6 x 标准侧重于视频信息的数据压缩效率，以适合调整该系统在特定的位速率下传输，其主要应用目标是可视电话和会议电视。h 2 6 l 首次尝试综合数字压缩技术和网络技术实现数字图像实时传输“，即可以在码率。”为p 6 4 k b p s ( p 取卜3 0 ) 的i s d n ( i n t e g r a t e ds e r v i c e sd i g i t a ln e t w o r k ) 综合业务数字网上实时地传输声音和图像信息。h 2 6 3 是i t u 于1 9 9 5 年制定的一种码率低于6 4 k b p s 的甚低码率“视频压缩编码标准。 h 2 6 3 标准不仅着眼于利用p s t n ( p u b l i cs w i t c h e dt e l e p h o n en e t w o r k ，公共开关电话网络) 传输，而且兼顾g s t n ( g e n e r a ls w i t c ht e l e c o 唧u n i c a t i o nn e t w o r k ) 移动通信等无线业务。为进一步改善图像质量，提高压缩比，h 2 6 3 在h 2 6 1 的基础上作了很多改进”“，如用半象素精度预测取代了全象素预测和环路滤波器，不受限运动矢量，先进预测模式， p b 帧模式，用基于语法的算术编码代替h u f f m a n 编码等。 4 4m p e g x 系歹0 标准 m p b g - 1 和m p e g 一2 是m p e g 组织制定的第一代视、音频压缩标准，为v c d ，d v d 及数字电视和高清晰度电视等产业的飞速发展打下了牢固的基础。m p e g 一4 是基于第二代视音频编码技术制定的压缩标准，以视昕媒体对象为基本单元，实现数字视音频和图形合成应用、交互式多媒体的集成，目前已经在流式媒体服务等领域开始得到应用。m p e g 一7 是多媒体内容描述标准，支持对多媒体资源的组织管理、搜索、过滤、检索，己经基本完成。与视频会议的标准不同，m p e g 倾向于控制质量而不是控制位速率。它规定了某些参数来获得一定的质量水平而不是调整系统在特定的位速率”( 例如i s d n 信道的带宽) 下工作，因此m p e g - l 和h 2 6 1 所用的编码方法有显著的不同。其中最主要的差别是h 2 6 1 有两种帧：i n f r a 帧( 帧内) 和i n t e r 帧( 帧间) ，而m p e g 一1 采用t 三种帧：i 帧( i n f r ap i c t u r e s ) p 帧像( p r e d i c t e dp i c t u r e s ) 和b 帧( b i d i r e c t i o n a lp r e d i c t i o n ) 进行前向、后向和双向预测。使用i 帧、p 帧和b 帧编码的图像序列示意图如图4 一l 所示。图4 1 使用i 帧、b 帧、p 帧编码的图像序列第四章数字视频压缩算法如图4 1 所示，i 图与i n f r a 帧类似，在编码时仅使用其自身的信息，它们提供编码序列的直接存取访问点；p 图的编码参考过去的i 图或p 图的运动补偿预测，对前向预测误差进行编码；b 图的编码则既参考过去的，又参考将来的i 图和p 图的运动补偿预测进行编码 m p e g 一2 在m p e g l 的基础上作了相应的扩展，从多方面提高了编码参数的灵活性以及编码性能。例如，增加了处理隔行扫描视频信号的能力，采用更高的色度信号采样，可伸缩的视频流编码等。因此，m p e g 一2 具有很广的应用前景，它除了用于d v d 外，还可以为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频现在的v o d 视频点播系统和 h d t v 高清晰度电视系统都是采用m p e g - 2 的视频标准。 m p e g 一4 完全有别于m p e g 1 2 等基于帧的压缩标准，它是基于对象的压缩标准，其中有基于模型的方法、形态学方法、分形方法等等。m p e g 一4 标准在多媒体环境下提供一个基于不同对象的视频描述方法，包括自然或人工合成视觉目标( v i s u a lo b j e c t ) 的压缩、时空可伸缩、差错恢复的算法等一整套技术以满足多媒体，网络服务商和最终用户的要求，从而实现在有线和无线通信网、i n t e r n e t 网上传输和操作视频数据的功能。 4 5h 2 6 3 编码 4 5 1h 2 6 3 编译码器的总体设计方案 h 2 6 3 是i t u t ( 国际电信联盟) 提出的作为h 3 2 4 终端使用的视频编解码协议，它是基于运动补偿的d p c m 的混合编码，在运动搜索的基础上进行运动补偿，然后运用d c t 变换和“之”字形扫描游程编码，从而得到输出码流。h 2 6 3 视频编码标准是专为中高质量运动图像压缩所设计的低码率图像压缩标准。与h 2 6 1 的p 木6 4 k 的传输码率相比，h 2 6 3 的码率更低，单位码率可以小于6 4 k ，且支持的原始图像格式更多，包括了在视频和电视信号中常见的q c i f ，c i f ，e d t v 等等。h 2 6 3 的编码速度快，其设计编码延时不超过1 5 0 i i l s 。码率低，在5 1 2 k 乃至3 8 4 k 带宽下仍可得到相当满意的图像效果，十分适用于需要双向编解码并传输的场合( 如：可视电话) 和网络条件不是很好的场合( 如：远程监控) 。第四章数字视频压缩算法 h 2 6 3 信源编码器主要原理是预测、块变换和量化。如图4 2 所示，编码器包括帧内编码和帧间预测编码两种编码模式。帧内编码采用的d c t ( 正交变换的一种) 编码后，可去除图像的空间变化的多余信息；帧间编码采用了运动补偿帧间预测编码方式，它可消除图像的时间变化的多余信息。通过采取以上两措施，可使数据量得到大大的压缩。再经过变字长编码，对出现概率大的像素用较少的码字表示，对出现概率小的像素用较长的码字表示，又使数据得到压缩。其主要思想是将输入的图像分为块组、宏块、块，然后根据编码控制器判断图像类型及宏块的类型，最后根据宏块类型进行编码。若宏块采用帧内编码，则取宏块中的亮度、色度采样信息，以块为单位直接进行d c t 变换，量化，然后对d c t 量化系数进行z i g z a g 扫描，最后对扫描后的信息进行变长编码( v l c ) ：若宏块采用帧间预测编码模式，则需采用一定的搜索算法在前一帧图像中寻找此宏块的最佳匹配块作为此宏块的预测块，并且记录运动矢量的大小，然后计算此宏块与最佳匹配块( 此宏块的预测) 的差值，而后对此差值进行d c t 变换，量化，z i g z a g 扫描，变长编码( v l c ) ，最后将变长编码输出的数据送入缓存器中，若缓存器将要溢出，则缓存器将输出一个信息给编码控制器，编码控制器则将步长变大，这样编码器输出的码字将会减少，不至于使缓存器溢出：反之，编码控制器将步长变小，使量化器进行细量化，从而使输出数据增加。解码是上述过程的逆过程。图输多路视频编码器图4 2 信源编码框图线性变换编码不直接对图像数据编码，而是首先将图像数据进行某种线性变换，得到一组变换系数，然后对这些系数实现量化、编码、传输。在接收端，对收到的变换系数进行相应的逆变换，再恢复成图像信号。这样做的理由是对变换系数进行压缩编码，往往比直接对图像数据本身进行压缩更容易获得高的效率。从理论上讲，线性变换编码，可以压缩码率的原因在于图像信号存在很强的相关性。这种强相关性在频率域的反映是功率域滤波的方式获得大的压缩比。线性变换除了傅立叶变换( d f t ) 外，还有沃尔什一 1 4 第四章数字视频压缩

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于目标识别的视音频合成传输系统设计.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于目标识别的视音频合成传输系统设计.pdf

文档简介

温馨提示

最新文档

评论

相关文档