




已阅读5页,还剩66页未读, 继续免费阅读
(通信与信息系统专业论文)基于blackfin533远程语音监控终端的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江工业大学硕士学位论文 基于b l a c k f i n 5 3 3 远程语音监控终端的研究与设计 摘要 随着人们生活水平、生活质量的提高,人们对自身的生命、财产安全、公共安全越来 越重视,迫切需要一种有效、便捷的方式来保障人们的安全。正是这些强烈的需求和成熟 的技术条件使得监控技术得到了长足的发展,整个安防领域也发生了翻天覆地的变化。同 时,安防行业也蕴藏着巨大的商业价值。 进入2 1 世纪以来,各种新兴技术如计算机技术、多媒体技术、网络传输技术和通信 技术迅速发展,特别是多媒体技术、网络技术的出现使得人们的社会生活、学习和工作发 生了翻天覆地的变化。监控技术作为多媒体技术一个比较成功的应用越来越受到人们的关 注。人们的生活、工作已经离不开网络,监控技术和网络的结合使得监控方式发生了巨变, 通过远程监控,我们快捷方便地对现场情况了如指掌,迅速地做出及时有效的决策。 论文以多媒体技术的发展为引线,对各种语音编码技术进行了总结分析,提出了一种 远程语音监控系统的架构,叙述了系统各个组成部分的作用和联系。课题主要研究了语音 监控终端,并且对一个基于嵌入式平台的远程语音监控终端的各个模块进行了研究设计, 其中主要实现了终端的语音编码模块。 论文首先提出了一种远程语音监控系统的架构原理,对论文采用的硬件平台和语音编 码算法进行了讨论,简要概述了g 7 2 9 语音编解码算法和实时传输协议标准r t p 的基本原 理。然后,重点对终端的语音编码模块的硬件和软件部分进行了设计实现,最后,对编码 算法的优化方法进行了深入地分析讨论,并达到了预期的效果。 关键词:语音编码,实时传输协议,b l a c k f i n 5 3 3 ,语音监控,g 7 2 9 浙江工业大学硕士学位论文 t h er e s e a r c ha n dd e s i g no fr e m o t ev o i c e m o n i t o r i n gt e r m i n a lb a s e do nb f 5 3 3 a b s t r a c t a st h ei m p r o v e m e n to fp e o p l e sl i v i n gs t a n d a r d sa n dq u a l i t y ,t h ep e o p l eh a v et a k e nt h e i r o w nl i v e sa n dp r o p e r t y , p u b l i cs a f e t ys e r i o u s l y s oa ne f f e c t i v ea n dc o n v e n i e n tw a yi si ng r e a t n e e dt op r o t e c tt h es a f e t yo ft h ep e o p l e ,i ti sj u s tt h es t r o n gd e m a n da n dm a t u r i t yo ft h et e c h n i c a l c o n d i t i o n st h a tm a k em o n i t o r i n gt e c h n o l o g yb e e nd e v e l o p e db yl e a p sa n db o u n d s ,t h ee n t i r ef i e l d o fs e c u r i t ya n ds u r v e i l l a n c eh a su n d e r g o n ee n o r m o u sc h a n g e s a tt h es a m et i m e ,t h es e c u r i t y i n d u s t r ya l s oh a ss h o w ng r e a tc o m m e r c i a lv a l u e s i n c et h eb e g i n n i n go ft h e21s tc e n t u r y ,av a r i e t yo fe m e r g i n gt e c h n o l o g i e ss u c ha s c o m p u t e rt e c h n o l o g y ,m u l t i m e d i at e c h n o l o g y ,n e t w o r kt r a n s m i s s i o na n dc o m m u n i c a t i o n t e c h n o l o g yh a v ea c h i e v e dar a p i dp r o g r e s s ,e s p e c i a l l ym u l t i m e d i at e c h n o l o g ya n dn e t w o r k t e c h n o l o g ym a k ep e o p l e ss o c i a ll i f e ,s t u d ya n dw o r ku n d e r g oe n o r m o u sc h a n g e s a sar e l a t i v e l y s u c c e s s f u la p p l i c a t i o no fm u l t i m e d i at e c h n o l o g y ,m o n i t o r i n gt e c h n o l o g yh a sb e e np a i dm o r ea n d m o r ea t t e n t i o nt o p e o p l e sl i v e sa n ds t u d yw i l lb eh a r dt ob eg o n eo nw i t h ac o m b i n a t i o no f n e t w o r ka n dm o n i t o r i n gt e c h n o l o g ya n dn e t w o r k sm a k e sm o n i t o r i n gp a r e mh a v ec h a n g e d d r a m a t i c a l l y w ec a nk n o ww e l la b o u tt h ec i r c u m s t a n c e sa tt h es c e n eq u i c k l ya n de a s i l yt h r o u g h r e m o t es u r v e i l l a n c e ,s oa st om a k e t i m e l ya n de f f e c t i v ed e c i s i o n t a k i n gt h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g ya sal e a d ,t h i st h e s i sr e v i e w sa n d a n a l y s e st h ef u n d a m e n t a ls p e e c hc o d i n gt e c h n i q u e s ,p u t sf o r w a r d san e wk i n do fs t r u c t u r eo f r e m o t ev o i c em o n i t o r i n gs y s t e ma n dd e s c r i b e st h er o l eo fe a c hp a r ti nt h es y s t e ma n dt h e i r c o n t a c t t h em a i nt o p i co ft h i sr e s e a r c hi so nt h es p e e c hm o n i t o r i n gt e r m i n a l t h i st h e s i sm a k e s r e s e a r c ha n dd e s i g no fa l lt h em o d u l e so fo n es p e e c hm o n i t o r i n gt e r m i n a lb a s e do ne m b e d d e d p l a t f o r ma n dm a i n l yr e a l i z e st h es p e e c hc o d i n gm o d u l e t h ep a p e rf i r s t l yp u t sf o r w a r dan e ws t r u c t u r eo ft h er e m o t ev o i c em o n i t o r i n gs y s t e m ,a n d n e x t ,m a k e sd i s c u s s i o na b o u tt h eh a r d w a r ep l a t f o r ma n ds p e e c hc o d i n ga l g o r i t h m sa n da tt h e 浙江工业大学硕士学位论文 s a m et i m eb r i e f l yp r e s e n t sg 7 2 9s p e e c hc o d i n ga l g o r i t h ma n dt h eb a s i cp r i n c i p l e so fr e a l - t i m e t r a n s m i s s i o np r o t o c o li 盯ps t a n d a r d t h e n t h ea r t i c l ef o c u s e so nt h ed e s i g na n di m p l e m e n t a t i o n o ft h es p e e c hc o d i n gm o d u l e f i n a l l y , a ni n - d e p t hd i s c u s s i o no no p t i m i z a t i o nm e t h o do ft h e c o d i n ga l g o r i t h mi sd e v e l o p e da n da c h i e v e st h ee x p e c t e de f f e c t k e yw o r d s :v o i c ec o d i n g ,r t p , b l a c k f i n 5 3 3 ,v o i c em o n i t o r i n g ,g 7 2 9 浙江工业大学硕士学位论文 第1 章绪论 1 1 课题研究的背景和意义 进入2 1 世纪以来,各种新兴技术的出现使得人们的社会生活、学习和工作 发生了翻天覆地的变化。特别是因特网技术的日新月异,在给人们的生活带来便 利的同时也深刻改变着人们的生活习惯使得人们对网络形成了依赖,因特网已经 渗入到生活的方方面面。全球信息化已经成为人类未来发展的大趋势,单独使 用一台计算机已经不能在满足人们的需求,使得越来越多的电脑通过网络互连实 现资源共享。 近年来,多媒体技术得到迅速发展,多媒体技术的应用更以极强的渗透 力进入人类生活的各个领域,如游戏、教育、档案、图书、娱乐、艺术、建 筑设计、家庭、通讯、监控等等。多媒体技术是利用计算机以数字化为基础能 够对文本、图形、图像、声音、视频等多种媒体信息进行采集、压缩、存储、和 传递,并能使各种媒体信息之间建立起有机的逻辑联系,集成为一个具有良好交 互性的系统技术。当下很多热门的技术比如虚拟现实、模式识别渐渐成熟,已经 进入或者部分进入市场。 该论文所研究的课题就是在这样的大背景下产生的。同时,多媒体技术、 计算机技术、电子技术和通信技术的飞速进步,也使得监控技术有了一个跨越式 的大发展。 远程监控管理改变了传统的监控方式,逐步从本地监控阶段演变到远程监控 阶段,大大降低了监控成本。远程监控是通过网络,对分布在网络上的通信系统 ( 包括计算机、通信终端等) 实现远程监控管理。它采用多元的信息传输、监控、 管理和一体化的集成,实现了消息、资源和任务的共享,达到了监控的实时、快 速和有效,并能够跟其他的计算机网络系统互联,向用户提供了一个更高效、更 全面、更安全、更快捷的服务方式。它通过采集监控现场的监控信息,经过数字 化处理后,通过因特网等网络系统把获取的监控信息传递到远端的监控中心( 如 图卜1 ) ,从而实现对分散的监控场所的集中监控。远程监控技术的发展,改变了 传统的本地监控方式,大大降低了监控成本,扩展了监控场所的范围,只要连接 浙江工业人学硕十学位论文 有网络的地方,都可实现监控。 研究远程监控技术具有深远的意义。通过它的帮助可以提高人们的工作效率 晗1 、实现信息和资源的共享、实现技术的革新等等,而且也可以对预防网络犯罪 等信息安全等网络安全领域提供技术手段的支持。 图1 1远程监控系统原理图 在上图中,通过前端摄像机采集的图像视频信息数据通过压缩编码转换成低 比特率的二进制数据之后,通过网络路由传给监控中心主机,视频信息数据可以 存放在存储服务器,远端的授权用户可以通过网络对前端实现远程监控。通过这 种远程监控可以很容易地实现楼宇,家居等一些重要场所的安全,给人们的人身、 财产带来了保障。当前,现在普遍采用的远程监控系统在监控场所采集处理的信 号一般为视频图像信息,视频信息的监控能给我们提供详尽、直观的信息,能够 满足我们绝大部分的需要。但是,常常在一些比较特殊敏感的场合,如果监控现 场的语音信息也能被监控记录下来,和视频信息一起采集处理,那么将会为工作 工作人员提供一个更全面的信息,能够提高这些场所的安全系数,能够防忠于未 然,甚至一旦发生某些状况,也能及时地判断获取现场信息,合理正确地做出处 浙江工业大学硕士学位论文 理动作因此,在目前的远程监控系统功能的基础上,添加监控现场的音频监控功 能,实现对监控场所的音视频信息的全方位监控,具有现实的意义 在航空、电力、铁路、港口、交通等调度部门,在这些部门,每字每句都很 重要,一旦有失,后果将不堪设想,语音监控在这里将发挥巨大作用;在银行、 证券等交易部门,经常要发出交易指令,每一个指令都会引起大量资金的流动, 所以,详细地记录监控每一条指令将会保障资金安全、成功地运作口3 ;在公安、 消防、急救等安全部门,一旦发生某种事故,做出第一时间正确的响应是非常必 要的,能够减少许多不必要的损失;在客户服务、窗口服务等这样的服务部门, 为了保证客户的服务质量和满意度,必须采取监督的方式,语音监控系统对服务 质量和服务效率的提高有着重大的意义。 在消防工作过程中遇到很多难题,火灾一般发生在人群、建筑群密集的地方 h 3 ,而且城市化使得建筑越来越高,也越来越多,这样就给救援工作增加了许多 困难。为了减少人员的伤亡、财产的损失,急切要求一套网络消防监控系统,能 实时传输现场情况( 声音和图像) 到消防指挥中心陌1 ,便于指挥中心更真切的了 解失事现场的真实情况,供消防各级指挥员参考和决策,以真正达到远程指挥的 目标,真正增强快速反应能力和提高应急救援能力。 对于利用对讲机系统进行调度的企业或者涉及到大量电话交谈业务的公司 部门,如铁路调度、保安、业务公司等为了杜绝聊天等与业务无关的行为,或者 监控一些涉密场合的谈话内容,或者为避免滥用公司电话,这就需要对语音进行 存储备份,并建立一套远程监控系统,并实现远程登陆管理。 综上以上内容,在当前各方面技术条件已经成熟和社会各行、各个领域需要 的情况下,本文对远程语音监控终端关键技术的研究具有非常深刻的现实意义 c 2 1 2 课题研究的现状和发展趋势 在计算机技术、编解码、网络传输技术和通信技术迅速发展的过程中,监控 系统的技术水平也从初期的模拟信息传输和监控飞速发展到了数字化、网络化、 智能化、无线化,逐步从本地监控演变到远程监控。监控技术作为现代工业技术 的一个重要支撑技术与组成要素,越来越多地受到人们的关注,各种监控方法也 是不断出现瞳3 ,如远程监控、智能监控和在线监控等。随着技术的发展,全智能 浙江工业大学硕士学位论文 的监控系统将要求事发前能够识别并作出正确的判断,为人们提供最为有效、及 时的快速反应措施。 由于对安全越来越担忧,政府机构、企事业单位以及各大学校都对数字监控 系统进行了巨额的投入。监控系统起初是作为银行的一项安保措施出现于上世纪 4 0 年代,现今已发展成为一种罪常用的安全和安保系统。早在1 9 9 7 年1 月,麻 省理工学院和斯坦福大学一起主办了第一届基于因特网的远程监控工作会议1 , 期间有来自3 0 个公司研发机构的5 0 多位代表出席了这次会议h 1 。此外许多大型 国际组织也都开始通过网络开展设各监控技术推广工作,i n t e m e t 功能也被许多 公司加入他们的产品中随3 。法国m a r m 研究组对生产过程的智能报警和监控系统 进行了长期研究,并在多个项目进行了应用。远程监控在最初被率先应用在工业 领域,并且成效显著。通过远程监控有利于企业生产成本的降低,产品科技含量 的提高阳1 ,显著提升公司的竞争力。 在国内,由于国内在计算机技术和信息技术起步较晚,所以对于远程监控的 研究也要比西方发达国家要迟一些,所以远程监控在国内算是一种新兴产业。但 是,近几年在国内,远程监控变成许多行业的热门话题,很过高校、研究所都开 始涉足这个领域,对网络监控开始了积极的研究,并且取得了不小的研究成果。 对于这门综合性的技术,我国的网络监控管理系统技术研究和应用进展相对滞 后,发展潜力巨大。 进入3 g 时代,3 g 带来的丰富的上下行带宽使得移动监控成为可能,也使得 监控图像语音清晰度、传输码流的提高成为可能,无线监控的产品也已经在人们 的生活中出现。随着技术的发展,全智能的监控系统将要求事发前能够识别并作 出正确的判断,为人们提供最为有效、及时的快速反应措施。 不久的将来,电信网、有线电视网和计算机通信网的相互渗透、互相兼 容、并逐步整合成为全世界统一的信息通信网络,即三网融合。三大网络通 过技术改造,其技术功能趋于一致,业务范围趋于相同,网络互联互通、资源共 享,能为用户提供语音、数据和广播电视等多种服务n 0 | 。 1 3 课题的研究内容和组织结构 本文研究的主要内容包括以下方面: ( 1 ) 对目前监控的现状进行了分析,然后提出了- 3 中远程语音监控系统的 4 浙江工业大学硕士学位论文 原理架构;分析了u d p 、r t p 等网络传输协议。 ( 2 ) 在充分利用实验室现有条件的基础上,根据课题的要求,选定了a d i 公 司的b l a c k f i nb f 5 3 3 作为课题的硬件平台,详细地分析了a d s p b f 5 3 3 芯片的 内部结构及基本原理,对语音监控终端的硬件平台进行了设计。 ( 3 ) 重点研究了g 7 2 9 语音编码标准的算法及代码,并在硬件平台上实现该 算法的移植。并对g 7 2 9 进行了一系列优化,以使其达到实时性的要求; ( 4 ) 研究u c l i n u x 嵌入式操作系统的开发工具及方法,在b f 5 3 3 的平台上移 植b o o t l o a d e r 和u c l i n u x 操作系统,实现了监控终端语音处理模块的功能 本文的组织结构安排如下: 第二章语音压缩编码技术,概述了多媒体技术的特点、发展,然后简单介绍 了几种语音处理技术,其中重点阐述了语音编码技术的特点并对几种语音编码方 法的原理进行了分析,紧接着通过对几种常用的编码算法压缩率、延迟、复杂度 等方面的比较,选定了g 7 2 9 为课题中语音编码模块的压缩算法,最后对g 7 2 9 的编解码原理及其采用的关键技术进行了详细的论述。 第三章远程语音监控系统的组成和构架,对远程语音监控系统的工作模式进 行了讨论选择,并在此基础上提出了一种远程语音监控系统的原理架构,然后对 系统各个部分的功能作用进行了说明,最后简单论述了实时传输协议r t p 的传输 原理。 第四章远程语音监控终端硬件平台的设计,对语音监控终端采用的硬件平台 的几种方案进行了分析比较,最后选定了a d i 公司的b l a c k f i nb f 5 3 3 作为课题 的硬件平台,然后对平台的配置结构进行了详细地介绍,包括处理器内核、外围 接口、存储器等。最后对语音监控终端的硬件平台进行了设计,主要包括前端语 音采集模块和网络模块,为下一章对语音监控终端语音编码模块的实现打下了基 础。 第五章基于b l a c k f i n 5 3 3 监控终端语音处理模块的实现,概述了嵌入式操作 系统u c l i n u x 的优点、作用,并在此基础上详细讲述了软件开发环境的建立,如 交叉编译工具链和n f s 的安装于配置。然后,在硬件平台上移植了u b o o t 和嵌 入式操作系统u c l i n u x ,最后对监控终端语音编码模块中采用的算法进行了优化 并在此基础上对语音编码模块进行了实现,且达到了预期的效果。 第六章对整个研究课题进行了简单总结,并对下一步的工作任务进行了展望。 浙江工业大学硕士学位论文 第2 章语音压缩编码技术 2 1 多媒体技术基础 多媒体技术是把声、图、文、视频等媒体通过计算机集成在一起的技术n 。 它通过计算机把文本、图形、图像、声音、动画和视频等多种媒体综合起来,使 之建立起逻辑连接,并对它们进行采样量化、编码压缩、编辑修改、存储传输和 重建显示等处理。 多媒体技术使计算机可以处理人类生活中最直接、最普遍的信息,从而使得 计算机应用领域及功能得到了极大的扩展,使音像技术、计算机技术和通信技术 三大信息处理技术紧密地结合起来,为信息处理技术发展奠定了新的基石。多媒 体已经使人们的生活习惯、内容都发生了变化,在工业生产管理、学校教育、公 共信息咨询、商业广告、军事指挥与训练,甚至家庭生活与娱乐等领域,集中 文字、声音、图像、视频、通信等多项技术于一体,采用计算机的数字记录 和传输传送方式,对各种媒体进行处理,具有广泛的用途。 远程监控是多媒体技术在安防领域的一个具体的应用。多媒体的发展需要有 如下几项关键技术:数据压缩和编码技术、媒体同步技术、多媒体网络技术。远 程监控系统的出现和多媒体技术的发展进步是相辅相成的。多媒体技术涉及面 相当广泛,主要包括: 音频技术:音频采样、压缩、合成及处理、语音识别等, 视频技术:视频数字化及处理。 图像技术:图像处理、图像、图形动态生、成图像压缩 通信技术:语音、视频、图像的传输。 多媒体信息是将文本、声音、视频等多种媒体有机地综合起来。其中语音是 人们用来相互传递信息、交流感情最方便、最熟悉、最有效的手段,不但是人类 获取信息的最重要来源和利用信息的重要手段,也是现代通信系统中最常见的数 据内容。随着通信技术,尤其是无线通信技术和互联网技术的快速发展,如何高 效地实现语音传输、存储或通过语音实现人机交互,这是语音信号处理领域要研 究的内容。 浙江工业大学硕士学位论文 2 2 语音处理技术概述 随着信息科学技术的飞速发展,语音处理技术在最近2 0 多年取得了重大进 展。语音信号处理技术的四大分支:音频数字化、语音合成、语音识别、语音编 码都在蓬勃发展,学术思想丰富多彩,研究丌发成果累累,并且陆续地推向实际 应用。 表2 1语音处理技术四个分支 音频数字化 将模拟的( 连续的) 声音波形数字化( 离散化) ,以便利用数字计 ( s p e e c hd i g i t i z e ) 算机进行处理的过程,最大好处是使得资料传输与保存的不 易失真 语音识别从语音信号中提取信息,理解语意,根据说话者的命令控制 ( s p e e c hr e c o g n i t i o n ) 机器的动作,与机器进行语音交流 语音合成实现人机语音通信,建立一个有听和讲能力的口语系统所 ( s p e e c hs y n t h e s i s ) 必需的关键技术,使电脑具有类似于人一样的说话能力 语音压缩编码对语音信号的数据量进行压缩,便于在容量有限的信道上传 ( s p e e c hc o d i n g ) 输,便于存储 2 2 1语音编码技术原理 语音编码是数字语音通信中的一项关键技术。它是实现实时多媒体通信的基 础,具有重大的实用价值和经济价值。现代通信的重要标志是实现数字化,而要 实现数字化首先得把模拟信号转变为数字信号,采样率只要满足一定的条件,就 能够转换成不错的的数字语音。但是这时语音的数据量还是很大,因此,我们希 望能尽可能多地保留原信号的信号特征,同时又希望能得到尽可能少的数据,即 用最小的能量感知失真,以尽可能低的编码速率来表达音频信号,以便于语音信 号的处理、传输和存储【3 引。这种变换对于语音信号来说就是语音编码。所谓用 低速率对音频信号进行数字表示,就是设计一种音频编码或音频压缩算法,它能 够在听觉意义上使信号失真将为最小,而不是仅仅使传统惯用的输入输出波形均 方差为最小。传输码率也称为数码率或编码速率,表示传输每秒钟语音信号所需 的比特数。为了提高语音编码和语音信号数字传输的有效性,通常还要进行语音 压缩编码。语音编码的目的就是要在保证语音音质和可懂度的条件下,采用尽可 能少的比特数来表示语音。 语音信号能够进行压缩的理由如下: 浙江工业大学硕士学位论文 语音信号在短期内可以看成是时不变信号,同时语音信号中存在大量冗 余度乜引,语音的冗余度主要来源于两个方面,即语音信号幅度分布的非均匀性和 语音信号样点之间很强的相关性;清音语音段具准有随机性;浊音语音段具有准 周期特性。语音信号的幅度统计特性与信号的带宽、采样时的声学条件以及统计 的时间长度都有关系。 掩蔽效应:利用人耳中存在的一种掩蔽效应即两个响度不等的声音作用 于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感觉, 使其变得不易被察觉。人耳对声音信号中的部分信息不敏感,即人耳对声音中的 低频成分比高频成分敏感,对语音信号中的相位特征也不敏感 关于语音压缩编码的各种研究都是以这两点为理论基础的。 近2 0 年来,固定电话和移动通信的高速发展,对通信信道使用率提出了越 来越高的要求,无线信道的频率资源是有限的,为了满足用户不断增长需求量, 通信的有效性要求显得非常突出,所以,在现代通信中,信道利用的有效性和经 济性仍是研究的重要目标,尤其是第三代在实际通信中。随着数字通信业务的发 展,高质量的极低速率语音编码技术将成为研究的热点。目前,语音压缩编码已 经在移动通信、卫星通信和v o i p 中得到了广泛的应用。 语音编码的发展非常快,自从数字声音信号出现以来,便备受人们关注,特 别是针对语音信号编码的研究发展较早也较为成熟。语音编码技术的研究早在 2 0 世纪3 0 年代末就已经开始。从最初的标准6 4 k b s 的p c m 波形编码器到现在 4 k b s 以下的参数编码的声码器,从最初的单一编码速率到现在的自适应多速 率,语音编码技术在最近几十年得到了迅速的发展。在1 9 7 2 年,国际电报电话 咨询委员会( c c i t t ) 就制定了6 4 k b s 脉冲编码调制( p c m ) 语音编码的标准, 即g 7 1 1 标准,用于公共电话网。g 7 l l 标准建议采用a 一律或u 一律的瞬时压扩 技术将8 k h z 语音信号的1 3 位或1 4 位p c m 码转换成8 位二进制码。由于受当时 编码技术和i c 技术的限制,其后语音编码技术的发展停顿了较长一段时间。自 从1 9 8 4 年公布3 2 k b s 自适应差分脉冲调制( a d p c m ) 语音编码标准g 7 2 1 以来, 语音编码技术便得到了快速的发展,各种高效率编码标准不断涌现,特别是 i t u t 在1 9 9 5 年和1 9 9 6 年公布的g 7 2 3 1 、g 7 2 9 、g 7 2 9 a 等音编码标准。 随着通信技术的发展和人类社会信息化进程的加快,各种语音编码的新技术 和新算法层出不穷。语音压缩编码技术按描述语音信号的不同方法分类大致上可 浙江工业大学硕士学位论文 以分为三种:即波形编码、参数编码和介于两者之间的混合编码。 波形编码的目的是在接收端企图恢复发端原语音的波形,并以波形的保真度 即自然度为主要度量指标。波形编码的指导思想是将语音信号当作一般波形信号 来处理,使重构的语音信号的各个样本值与原始语音信号的各个样本值尽可能地 近,即令 e ( n ) = s ( n ) - s ( n ) ( 2 1 ) 在给定的传输速率下,使误差序列e ( n ) 的能量最小。e ( n ) 表示量化误差,s ( n ) 表示原始语音信号,s ( n ) 表示重构语音信号。 这种编码方式的优点的是重建语音的质量高且能分辨讲话人的个性特征,适 应能力强,算法简单,易于实现、抗噪性能强等优点,但是潜在压缩比比较低, 编码率较高,具有较高的自然度。使用波形编码的比较传统的编码算法有p c m ( 脉 冲编码调制) 、白适应增量调制( a d m ) 、a d p c m ( 自适应差分脉冲编码调制) 、 d p c m ( 差分脉冲编码调制) 。p c m 是最简单的波形编码方法,它通过取样和量 化去掉波形中大量冗余信息,得到数字语音信号,然后对数字语音信号的每个取 样值进行编码。为了进一步去掉数字语音信号的相邻取样值间的相关性所包含的 冗余信息,将相邻取样值相减得到差分信号,再对差分信号进行编码,就是 d p c m ( 原理方框图如图2 1 所示) 。 图2 id p c m 的编码原理框图 参数编码不同于波形编码,它以语音信号产生的数字模型为基础,主要以跟 踪波形产生的过程且仅传送反应波形产生的主要变化参量,并且这些参量在接收 端根据语音产生过程的机理以恢复语音。其基本思想是通过利用反应语音信号特 征的参量,建立语音信号模型,重构时并利用该语音模型恢复语音信号,尽可能 9 浙江工业大学硕士学位论文 保证重构的语音信号具有高的可懂度,保持原语音的语义,但是合成语音和原始 语音的波形有较大的差别h4 | 。语音产生模型如下图: 增益控制 图2 2 语音产生模型 图中u ( n ) 是波形产生的激励参量,c ( n ) 是输出的语音 参数编码的出发点在于跟踪波形的产生过程,而不是传输波形本身,它传递 的是反映哪一过程变化的变量。而根据线性预测原理,语音信号可用一系列的预 测变化参量和其他有关变化参量来表征。在接收端,再用收到的语音参量通过发 生原理( 产生原理如图2 - 2 所示) 的时变数字滤波器综合成原来的语音。我们称 实现实现参数编码的编码器为语音编码器,它又称为声码器,其主要度量指标是 可懂度。 由于这些参数携带有语音信号的主要信息,对其进行编码只需要较少的比特 数,数据量十分的小,所以参数编码能够实现很低的编码速率,潜在的压缩比较 高。但是,参数编码的合成语音质量低,且仅能反应语音的共性可懂度。这种编 码方法力图使重建语音信号具有尽可能高的可懂度,但重建语音信号与原始语音 信号样本之间没有一一对应关系,因而合成语音质量的好坏需要借助于主观评 定,缺少客观的评定标准。 最能代表参数编码的比较典型的编码算法是线性预测编码( l p c ) 、共振峰 声码器、余弦声码器。参数编码的优点是可实现低速率语音编码,其编码速率可 低于2 4 k b s ,其缺点是语音质量差,自然度较低。这类编码器对讲话环境噪声较 敏感,需要安静环境才能给出较高的可懂度。在众多声码器中,l p c 声码器终因 其成熟的算法和参数的精确估计成为研究的主流,并逐步得到实用瞳2 | 。图2 3 是 l p c 原理框图。 浙江工业大学硕士学位论文 发送端 信道接收端 图2 3l p c 原理框图 图中,给出了l p c 系统的基本结构以及提取l p c 参量的方法。我们可以通过对 每帧语音进行分析提取出这1 2 个参量,然后将它们量化、编码传给接收端。接受 端用收到的这1 2 个参量和如图所示的语音产生模型综合,重构出语音信号。这里 线性时变滤波器的系数由收到的1 0 个参量 a i ( i - 1 ,2 ,3 1 0 ) 控制,激励器幅度则 受到增益参量g 的控制。采用哪一类信号源则由收到的请浊音判决u v 来决定。发 清音时,激励伪随机的白噪声源;发浊音时,激励的是由基因周期控制的准周期 脉冲源。 波形编码的合成语音质量高,但是压缩效率低,参数编码编码速率较低,但 是在实际通信中,特别是移动通信中频率资源有限,低码率、高压缩比至关重要, 但是用户又不能接受基本上分辨不出说话人的参数编码。于是综合上述两种编码 技术精华的混合编码就成为了首选方向。混合编码则介于波形编码和参数编码之 间,即在参数编码的基础上,引入了一定的波形编码的特征去优化激励源信号, 以达到改善自然度的目的,克服了原有波形和参数编码的弱点,而吸取了它们各 自的长处,在4 1 6 k b s 的速率上能够合成高质量语音。 混合编码得到了最广泛的发展和应用。本论文中也重点关注混合编码的相关 技术。采用混合编码的比较典型的编码算法有白适应预测编码( a p c ) ,增强型 可变速率语音编码( e v r c ) ,g 7 2 3 1 编码标准、共轭结构一代数码激励线性预测 编码( c s a c e l p ) 等。混合编码器以复杂的算法和很大的运算量为代价,在中低 浙江工业大学硕士学位论文 速率语音编码上获得了高质量语音。 c s a c e l p 是i t u t 批准的8 k b i t s 语音编码标准g 7 2 9 主要采用的算法。它是继 6 4 k b i t sp c m ( g 7 1 1 ) 、3 2 k b i t sa d p c i ( g 7 2 1 ) ,以及1 6 k b i t sc d c e l p ( g 7 2 8 ) 之后的又一个电话频段( 3 4 k h z ) 语音编码国际标准。c s a c e l p 主要为多媒体和 个人通信业务,例女i f p l m t s ( 现称i m t 一2 0 0 0 ) 而开发的,预期可应用于i s d n ,多路 复用器以及p h s ( 个人手持电话系统) 等诸多方面。 2 2 2 语音编码技术性能的评价指标 我们在具体评价一种语音编码算法的优劣好坏时,需要根据具体的实际情 况,综合考虑以下四个因素进行性能评价: 编码速率 编码速率是指对长为1s 的语音信号进行数字编码所用的比特数,直接反应了 语音编码对语音信息的压缩程度。比特率越低说明语音压缩越多。编码语音具有 高的比特率,意味着要求占用高的带宽。编码语音常常与其他数据公用一个信道, 因此,总是希望在保证满足解码语音质量要求的前提下,使编码语音的最大比特 率尽可能低,以使占用的信道带宽尽量小。大多数语音编码器工作在固定的比特 率,而不管输入语音信号的特性。在多媒体应用的情况下,由于编码语音与其他 形式的信号共享同一信道,因此,最好让编码器的比特率是可变的。可变速率编 码可以利用通断状态编码。通状态对应有声期,采用固定编码速率;断状态对应 无声期,传送极低速率信息( 如背景噪声特征等) ,甚至不传送任何信息。更复 杂的多状态编码还可以根据网络负荷、剩余存储容量等外部因素调节其码率。可 变速率编码主要包括两个算法:一时话音激活检测( v a d ) ,主要用于确定输入信 号是语音还是背景噪声,其难点在于正确识别出语音段的开始点,确保语音的可 懂度:而是舒适噪声的生成( c n g ) ,主要用于接收端重建背景噪声,其设计必 须保证发送端和接收端的同步。 语音质量 语音质量是指解码器输出语音的质量。语音质量包括语音的可懂度、自然度、 以及说话人辨识等几方面。评价编码语音质量的理想条件是:输入语音清晰( 无 浙江工业大学硕士学位论文 背景噪声) ,无传输误码,一次编码。重要的是在理想条件下,解码后的语音听 起来感觉到的质量如何。但是实际上这些理想条件很难满足,因为大多数实际应 用环境都存在着大量背景噪声,再者在传输过程中有误码,甚至整帧丢失,在评 估语音质量时,所有这些情况都应该加以考虑。 评估编码语音质量有主观和客观两类度量标准。大多数客观度量标准是以分 贝数表示的信噪比( s n r ) 为基础的。s n r 主要是用来说明重建语音与原始语音的 波形的近似程度,适合于波形编码。这种度量的计算简单,而且可以根据它来确 定重建语音的增益和延时,但是它没有考虑人耳的听觉感知特性,所以在低比特 率编码的应用中,常常不使用客观度量方法而主要使用主观度量方法。 应用的最广的编码语音质量主观度量参数是平均评价分( m o s ) 。m o s 参数主 要反映的是人耳对语音的实际听觉感知效果,从1 分n 5 分对应的语音质量等级分 别是很差、差、一般、良和优瞳引。 目前能提供主客观相关性较高的音质客观评价方法都是考虑了人耳的听觉 特性,使用听觉感知模型来模拟收听这一过程的。感知语音质量评价( p e s o ) 在 2 0 0 1 年2 月被i t u t 确定为p 8 6 2 协议阻3 1 。适用于移动通信系统在内的通信网络的 语音通信质量评价。本文中我们在后面章节将会使用p e s o 对语音监控终端语音编 码模块进行评估。 编解码延时 语音编码系统的延时由运算延时、处理延时和通信延时等3 部分组成瞳4 i 。 许多低比特率语音编码器对数据的处理和传送是逐帧进行的,此外,有时 为了能够对信号进行更充分的分析和处理,需要使用一帧数据之前的若干数据, 因此需要首先把一帧数据和其前面的若干数据加以缓存,然后才能开始对这帧语 音进行编码,由此产生的延时成为运算延时。 编码器的编码时间和解码器重建语音的时间的总和称为处理延时。处理延时 取决于编码解码的算法,以及实现编码器的硬件的速度。 一帧数据从进入编码器输入端算起,直到由解码器输出端输出,中间不经过 信道总共需要的时间称为通信延时。 无论怎样改变编码和解码的方案,运算延时总是无法减小的,其它两种延时 却能够通过硬件的改进来减小。 浙江工业大学硕士学位论文 算法复杂度 语音编码的算法复杂度直接决定了硬件实现的复杂性、体积、功率消耗和价 格等指标乜鄙。同时,算法越复杂运算量越大,需要一片或多片较大容量的存储区 方可实现,意味着成本的增加。算法复杂度是设计或选择语音编码算法时需要重 点考虑的因素。增加复杂度意味着增加硬件实现的成本、增加硬件的功率消耗。 2 3g 7 2 9 语音压缩编码的基本原理 混合编码在保留参数编码技术精华的基础上,引用波形编码准则去优化激励 源信号,克服了原有波形和参数编码的弱点而吸取了它们各自的长处,在 4 1 6 k b s 的速率上能够合成高质量语音】。混合编码已经是未来研究和应用的首 选方向。 g 7 2 9 是混合编码中应用的比较多的的一种。g 7 2 9 在1 9 9 6 年被国际电信联 盟标准化组织( i t u t ) 推出并修订为标准,它是一种基于共轭结构的码本激励 线性预测( c s a c e l p ) 的编解码算法。g 7 2 9 在良好的信道条件下达到了长话质 量,在有随机比特误码、发生帧丢失和多次转接等情况下有很好的稳健性,而且 提供了对帧丢失和分组丢失的隐藏处理机制,所以这种语音压缩算法可以应用在 很广泛的领域中,包括ip 电话、无线通信、数字卫星系统和数字专用线路。 g 7 2 9 编码器是对数字信号操作,首先对模拟输入信号执行电话带宽的滤 波,然后以8 0 0 0 h z 采样,接着转换为1 6 位线性p c m ,以便输入到编码器。c s - a c e l p 编码器建立在码激励线性预测c e l p 编码模型的基础上。在算法中,g 7 2 9 的一 帧是1 0 m s ,每帧又分为两个子帧。在采样频率为每秒8 0 0 0 个样点情况下,就有 8 0 个样点。编码器将对每一帧语音信号进行处理,提取出语音特征参量,比如 滤波器系数、激励( 固定码书、自适应码书) 的序号和增益等2 2 1 。 编码过程如图2 4 所示: 输入语音首先经过预处理,对每一帧语音做一次l p c 分析,计算l p c 滤波 器系数,然后将该系数转换为线谱对参数( l s p ) 3 5 1 ,并进行矢量量化为1 8 b i t 。 激励是用分析合成( a b s ) 方法每个子帧确定一次,以合成语音与原语音误差的 感觉加权最小准则收索,感觉加权滤波器用未经过量化的l p c 系数合成2 5 1 。感 觉加权的量是以保证输入信号的频响平整而自适应调整。 1 4 浙江1 业大学硕士学位论文 一发送 比特流 图2 4g 7 2 9 编码器原理方框图 最终,所有这些特征参量被编码并封装成8 0 比特的数据流中( 编码比特分配 如表2 2 所示) ,编码器的输出端将输出这些比特流并发往接收端。 表2 - 2g 7 2 9 编码器算法的比特分配 参量码字子帧l子帧2每帧总计 l s p l 0 ,l 1 ,l 2 ,l 3 1 8 自适应码书延迟p 1 ,p 2 851 3 音调延迟的奇偶校验 p 011 固定码书的指针 c 1 c 21 31 32 6 固定码书的符号s 1 s 2 44 8 码书增益( 1 级)c a l c a 2336 码书增益( 2 级) c b l ,c b 2 448 总计 8 0 浙江工业大学硕士学位论文 语音特征参量被编码成比特流。解码是编码的逆过程。这些比特流被接收端 接收后,被用来恢复激励源和合成滤波器,用自适应码书编号从白适应码书中得 到自适应码字,用固定码书编号从固定码书中得到固定码字,分别乘以它们的增 益按点想加后构成激励序列。根据语音生成模型,声音可以由激励通过合成滤波 器而重构。如图2 5 所示是重构语音的合成模型2 0 1 。 接收到的比特流 图2 5g 7 2 9 解码器端合成模型的原理图 2 4g 7 2 9 标准的关键技术 2 4 1 合成分析技术a b s 合成分析法就是对激励的改进,它不是寻找与残差信号相匹配的激励,而是 寻找给定合成滤波器的最优激励使其通过合成滤波器时产生的合成语音最接近 于原始语音。即先分析输入
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论