![(电路与系统专业论文)音频信息隐藏关键技术研究及识别技术的信息安全应用[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/14/86d04c29-ee8f-4eff-bbeb-7cc6c08fccf5/86d04c29-ee8f-4eff-bbeb-7cc6c08fccf51.gif)
![(电路与系统专业论文)音频信息隐藏关键技术研究及识别技术的信息安全应用[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/14/86d04c29-ee8f-4eff-bbeb-7cc6c08fccf5/86d04c29-ee8f-4eff-bbeb-7cc6c08fccf52.gif)
![(电路与系统专业论文)音频信息隐藏关键技术研究及识别技术的信息安全应用[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/14/86d04c29-ee8f-4eff-bbeb-7cc6c08fccf5/86d04c29-ee8f-4eff-bbeb-7cc6c08fccf53.gif)
![(电路与系统专业论文)音频信息隐藏关键技术研究及识别技术的信息安全应用[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/14/86d04c29-ee8f-4eff-bbeb-7cc6c08fccf5/86d04c29-ee8f-4eff-bbeb-7cc6c08fccf54.gif)
![(电路与系统专业论文)音频信息隐藏关键技术研究及识别技术的信息安全应用[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/14/86d04c29-ee8f-4eff-bbeb-7cc6c08fccf5/86d04c29-ee8f-4eff-bbeb-7cc6c08fccf55.gif)
已阅读5页,还剩123页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘喽 摘要 i ,f lj :纪几以水,1 9 f f 精ln l e r n o l 用j 多媒体技术的发展,数字化作嗣 呈虮f j | 洳臌的增 ( = 辨头,j t 传播最丝指数式扩张。这使得古老的隐写术舷新找 到了刚将的a 梵体, :,把q i 了新的学科研究方向信息隐藏,现在,信恩隐 藏已绛比亿息安个领域的。个承要关注熊点。数字化音频的信息隐藏赴信息隐 藏n 勺弧嵝办嘶。j :数! ,化爵频,特别是数字音乐及语音通信更贴近大众生 活,1 人li 町0 数字化哿频l h 关的信息隐j i 扼具有良好的应用前景。音频的信息隐憾 不似r 】j 以帔用j :机要谍报部门的秘密通信,也可以被用于个人隐私保护、 i n t e r n e l 安全利用、数字作品权利保护等民用目的,因而它的研究不但具有实 用1 ,e 平i i 社会经济价值,而且具有国家安全的意义。 语行足爵频的重要分支,对语音类音频的信息隐藏研究需要结合语音特性 的研究,冈而不可避免地会与语音识别的知识发生交叉。语音识别技术的方法 与成果j 以与信息隐藏的研究结合,服务于信息安全的应用范畴。对识别技术 及音频信息隐藏的信息安全应用进行探索,研究他们的实用领域和应用场景, 对其实现经济价值具有重要意义。 本文从信息隐藏的视角来看待语言的交流过程,揭示了语音识别与音频信 息隐藏的类比相关性。本文进行了音频信息隐藏的研究及其与语音识别相关的 交叉研究,取得了以下的创新性研究成果: 1 提出了利用汉语语音端点后冗余的信息隐藏方法。汉语的音节末尾的音 素基本都是浊音。在声学处理上浊音可以理解为准周期的脉冲串对声道激励所 产生的输出。汉语语音的这个特性被用来做语音的端点检测,以区分“有声和 无声”。本文则利用这种端点检测方法,确定语音的时域周期冗余,并利用冗余 实现了信息隐藏。 2 提出了利用美尔频率倒谱系数( m f c c ) 的信息隐藏方法。m f c c 是语音识 别的重要参数。为利用m f c c 做隐藏点,本文解决了三个难点:( 1 ) m f c c 参数 选取准则。( 2 ) 如何从改变过的m f c c 参数逆向求解对数能量。( 3 ) 如何进 行美尔频率滤波器组的逆向求解。在此基础上,实现了利用m f c c 的信息隐藏。 3 提出了一种在高级音频编码从c 中进行信息隐藏的方法。由于从c 过程 中存在有使用不同码书进行压缩试算的步骤,因而可以利用比例因子频段内频 摘喽 城f i t 化仉绐1 ij i i j7 k 人曼f i j 51 5 编f i l 5j 厅得剁棚等的墩优长娈比特的存相ij i 【毕,以码 5 的选样作为( ) 、l 比特的隐威力法。 i 利川“绝人多数语菏i j 别系统n ! 噪音川:境- p 的性能都4 in 丁避免地急刷f 阱”的噪声m :境的谚 别研究结论及汉讲发膏时长短等特点,构矬了汉谢谢暂验 证 i j 5 为i c ) 4 上银行公共客户登泉提供可选掸的安全性解决方案并取点解决了 合成速度与w e b 应用匹配问题。这足语膏识别成果在本文的一个霞要倚息安全 应j 】。 5 成功尝试了音频水印和讲音谚 别的结合应用。在自动语音服务中,用创 新点1 的方法在自动语音中嵌入水印客户语音终端通过对水印的检测完成对 自动语音的确认,并通过调起语音识别引擎,完成客户语音和自动语音的交互。 闷前,音频信息隐藏技术的研究还具有非常广阔的空间,特别是针对格式 音频媒体的隐藏、结合识别技术的隐藏和结合低码率语音编码技术的隐藏。另 外,我们还要加强语音识别和音频信息隐藏的领域应用和综合应用研究。 关键词:音频信息隐藏语音信息隐藏高级音频编码( 从c ) 美尔频率倒谱系数 ( m f c c ) 语音验证码音频水印自动语音语音识别 i i 1 3 s 1 r a ( ”l ab s t r a c t i ) i g i t a lp r o d u c t s b r o a d c a s t e dw i t hc x p o n c n t i a lg r 0 、t hh a v ei n c r c a s e dl a r g e a m o u n tw i t ht h cd e v e l o p m e n to fi n t e r n e ta n dm u l t i m e d i as i n c el9 9 0 s t h i sl e t st h c a n c i c n ts i e g a n o g r a p h yg e tc h a n c et oh a v cac a l t i e rf o rn e wl i f c ,a n di tf o 肌san e w r e s e a r c hn e l dc a l l e di n f o 咖a t i o nh i d i n g i n f 0 咖a t i o nh i d i n gi sn o w 锄i m p o r t 明t f o c u so i i n f o 肿a t i o ns e c u r i t y s i n c ed i g i t a la u d i o ,e s p e c i a i l yd i g i t a lm u s i c 鲫ds p e e c h c o m m u n i c a t i o n ,i sc l o s e rt op e o p l e sl i v c s ,i t si n f o 彻a t i o nh i d i n gh a sg o o dp r o m i s e f o r a p p l i c a t i o n a u d i oi n f 0 咖a t i o nh i d i n gc 锄 n o t o n l y b e郴e di ns e c 化t c o m m u n i c a t i o no fe s p i o n a g eo rc o n n d e n t i a ld e p a n m e n t ,b u ta l s ob eu s e di nc i v i l p u 巾o s e ss u c ha sp e r s o n a lp r i v a c yp r o t e c t i o n ,s e c “t yu s eo fi n t e m e ta n dr i g h t p r o t e c t i o nf o rd i g i t a lp r o d u c t ,s oi t sr e s c a r c hh a sp r a c t i c a b i l i t y ,e c o n o m yv a l u ea n d t h em e a n i n go fc o u n t d rs e c u r i t y s p e e c hi sa ni m p o n a n tb r a i l c ho fa u d i o i n e v i t a b l yw es h o u l dh a v ec r o s sv v i t h s p e e c hr e c o g n i t i o n ,b e c a u s ew em u s tc o m b i 鹏m er e s e a r c ho fs p e e c hc h a r a c t e r w h i l e s t u d y i n gt h ei n f 0 肌a t i o nl l i d i n go fs p e e c h m e t l l o d s 如dr c s u l t so fs p e e c hr e c o g n i t i o n t e c h n o l o g yc 锄b ec o m b i n e dt oi n f o r m a t i o nh 主d h gf o r t h ea p p l i e a t i o np u r p o s e so l 。 i n f 0 肌a t i o ns e c u r i t ) r i ti so f 酎e a ti m p o n a l l c ef o r 油p l e m e mo fe c o n o m yv a l u et 0d o r e s e a r c ho ni n f o r m a t i o ns e c u t i 够a p p l i c a t i o no fs p c e c hr e c o g l l i t i o na n di n f 0 衄a t i o n h i d i n go fs p e e c h ,锄dt o d 0r e s e a r c ho nt i l e i r 印p l i c a t i o nf i e l d sa n ds c e n e so f 印p l i c a t i o n t h i sp a p e rl o o k sa tt h ep r o c e s so fs p e e c hc o i e r s a t i o n 丘d mt l l ev i e w p o i n to f i n f o m a t i o nh i d i n g ,a n dd i s c o v e 璐t l l ea n a l o g yr e i a t i o nb e t w e e ns p e e c hr e c o g i l i t i o n a n da u d i oi n f o r i i l a t i o nl l i d i n g 7 n :l i sp a p e rs t l l d i e so n 叫d i om f o m i a t i o nl l i d i n g 鼢d c o m b i m 【t i o nr e s e a r c hw i t l ls p e e c hr e c o g n i t i o i l 锄dg i v e s 也ef o l l o 、历i 喀c r e a t i v e r e s u l t s 1 - a ni n f o m a t i o nh i d i n gm e t h o du s i n g 也er e d 岫d 趾c y 利獗恤e n d p o i n to f c h i n e s es p e e c hi sp i 0 v i d e d 1 1 l ep h o n e m ea tt h ee n do fs y l l a b l ei sa l w a y sv o i c e d s p e e c h i nc h i n e s e ,w t l i l ev o i c e ds p e e c hc 觚b er c g a r d e d弱粗o u q 川锄 i i i 人i j s t r a c ,i q u a s i p e r i o d i cs e q u e n c co fp t l l s c sa :l i n go nv o c a lt r a c i 1 1 1 i sp m p c r l yo fc h i n e s e s p c e c hc a nb cu s e di nc n d p o i n ld c t c c t i o nt od i s t i n g u i s h s o u n do rn os o u n d 1 3 y u s i n gt h i se n d p o i n ld c i e c t i o nm c l h o d ,p e r i o d i cr c d u n d a n c yo fs p c c c hi nt i m cd o m a i n c a nb ed e c i d e d ,a n dh i d i n gi nt h cr e d u n d a n c yi sf u i l n l e d 2 a ni n f o n m a t i o nh i d i n gm e t h o du s i n gm f c ci sp r o v i d c d m f c ci st h em a i n p a r a m e t e rf o rs p e e c hr e c o g n i t i o n 1 no r d e rt oh i d ei nm f c c ,t h i sp a p e rg i v c s 柚s w e r s t ot h cr o i l o w i n gq u e s t i o n s :( 1 ) c r i t e r i o nf o rm f c cs e i e c t i o n ( 2 ) s o l u t i o nf b rg e t t i n g i o ge n e r g ef r o mc h a n g e dm f c c ( 3 ) s o l u t i o n 向rr e v e r s et r a n s f o 咖a t i o no fm e l f r e q u e n c y 6 l t e rb a n k b a s e do nt h e s ea n s 、 ,e r s ,、v e c a nh i d e d a t ai nm f c c s u c c e s s 凡l ly 3 a ni n f o m a t i o nh i d i n gm c t h o di na a ci sp r o v i d e d 1 nt h ec a l c u l a t i o nt e s ts t e p o fa a c ,c o d e b o o ks e l e c t i o nc a nb eu s e df 0 rh i d i n ga sb i t0o rl ,c o n s i d e r i n gt h e p o s s i b i l i t yo fs a m el e n 舀ho ft h es h o r t e s tc o d e db i t so fs f bq u 醐t i z c df r e q u e n tv a l u e w i t hd i 虢r e n tc o d e b o o k 4 c h i n e s es p e e c hv e r i n c a t i o nc o d ei sc o n s t i - u c t e db e c a u s eo ft h es h o r tt i m e c h a r a c t e ro fc h i n e s ep r o n u n c i a t i o na n dt h er e s e a r c hr e s u l tt 1 1 a tt h ep e r f 0 m a l l c ew i l l d e c r e a s es h a 印1 yi nn o i s es u r r o u n di n e v i 住i b l yf o rm o s ts p e e c hr e c o g n i t i o ns y s t e m i t s o l v e st h ep r o b l e mo ft 1 1 ea d a p t i o nb e “旧e nw e ba p p l i c a t i o n 觚ds y n 廿1 e s i ss p e e d m a i m y a n db ea no p t i o n a ls a 佗t ys o l u t i o nf o rc o m m o nu s e r sl o g g i n go n :眦e m e t b 砌。i ti sa ni m p o n a n ti n f o r m a t i o ns e c u r i t ya p p l i c a t i o n f o r s p e e c hr e c o g n i t i o n r e s u l t s 5 as 锄p l ea p p l i c a t i o nc o m b i n j n ga u d i ow a t e 咖a r k i n g 嘶ms p e e c hr e c o g l l i t i o n i sc a | 西e do u t i nm ep r o c e s so fa u t o m a t i cs p e e c hs e r v i c e ,a u d i ow a t c m a l r k i n gc a i lb e e m b e d d e dma u t o m a t i cs p e e c h ,a n dc u s t o m e r ss p e e c ht e m l i n a i c a nc a l is p e e c h r e c 0 9 1 1 i t i o ne n g i n eb yw a t e 衄a r k i n gd e t e c t i o na 1 1 d 弱s u r i n go f 孤j t o m a t i cs p e e c h ,u y u s c u s t o m e r ss p e e c hc a ni n t e r a c t 谢t ha u t o m a t i cs p e e c h a u d i oi n f o r m a t i o nh i d i n gr e s e a r c hi l a sw i d es p a c et 0e x p l o r en o w d a y s , e s p e c i a l l yi nf - o n n a t t e da u d i om e d i ah i d i n g ,1 1 i d i n gc o m b i n a t e dt os p e e c hr e c o g n i t i o n a n dh i d i n gc o m b i i l a t e dt o1 0 wb i tr a t es p e e c hc o d i n g m o r e o v e rw es h o u l de n h e n c e f i e l da p p l i c a t i o na n di n t e g r a t e da p p i i c a t i o nr e s e a r c hf o rs p e e c hr e c o g m t i o n 锄da u d i o i n f 0 m a t i o nh i d i n g a b s t r a c t k e y w o r d s :a u d i oi n f - o 瑚a t i o nh i d i n g ,i n 氨翻f f n a t i o nh i d i n go fs p e e c h ,a a c ,m f c c , s p e e c hv e r 湎c a t i o nc o d e ,a u d i ow a t e n i l a r k i n g ,a u t o m a t i cs p e e c h ,s p e e c hr e c o g n i t i o n v 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:避 碲易月涉 第一章引言 第一章引言 1 1 音频信息隐藏与语音识别技术 信息隐藏指将特定信息隐藏于可公开利用的信息和信息传输途径中,从而 达到秘密的保存、通信等目的的一种信息处理方式。它与使用密码技术来实现 通信有着差别和联系。密码术是利用随机性来对抗攻击的,而密文的随机性同 时也暴露了消息的重要性,即使密码的强度足以使得攻击者无法破解出明文, 但攻击者有足够的手段来对其进行破坏,从而使消息无法接收。密文容易引起 攻击者的注意是密码术的一个显著弱点。而信息隐藏利用的是可公开利用的信 息和信息传输途径,因而在很大程度上使攻击者消除了对通信的敏感性,攻击 者对通信信息的存在也难以捉摸,不能无理由地封闭通信过程,从而保证了通 信的秘密性。 信息隐藏研究的目的在于研究怎样将特定信息隐藏在某些对象中,或者防 止别人通过这种方式秘密传递信息。信息隐藏主要包含如下的研究内容:隐写 技术和数字水印、计算机系统中的隐通道、密码协议中的阈下信道、广播加密、 低截获率通信、匿名服务;其中隐写技术和数字水印是信息隐藏的重要研究主 题。 音频的信息隐藏则是在音频流、音频格式媒体或音频通信中隐藏秘密信息。 由于音频具有冗余性、频率范围较宽、存储量大等特征,具有隐藏所要求的很 好的载体形式,因而近年来,音频的信息隐藏也受到了广泛的注意。语音作为 音频的一种特殊分支,其信息隐藏的方式与音频的隐藏方式相比,存在共性和 个性的特点,探索个性化的语音的信息隐藏方法也是信息隐藏研究者的重要兴 趣点。 语音是人际交流的最习惯、最自然的方式,随着计算机技术和信息技术的 发展,语音交互已经成为人机交互的必要手段( 蔡莲红等,2 0 0 3 ) 。所谓的语 音识别是指利用计算机自动识别语音的技术,有狭义和广义之分。狭义的语音 识别指利用计算机识别出语音信号所表达的内容,其目的是要准确地理解语音 第一章引言 所蕴涵的含义,例如将语音转换成其对应的文字。而广义的语音识别则泛指利 用语音信号识别出其中所包含的“任何感兴趣 的内容的一种技术,例如利用 语音信号中所包含的特定人的信息进行说话人身份辨认的说话人识别技术( 蔡 莲红等,2 0 0 3 ) 。广义语音识别按照任务的不同可以分为四方面:说话人识别 ( 分说话人辨认和说话人确认) 、关键词检出、语言辩识和连续语音识别( 王炳 锡等,2 0 0 5 ) 。 通常所说的语音识别都是狭义的语音识别,而把说话人识别作为专门技术 加以研究( 蔡莲红等,2 0 0 3 ) 。本文后述的语音识别,除非特别说明均指狭义 的语音识别。 语音识别的历史可以追溯到2 0 世纪5 0 年代。1 9 5 2 年a t & tb e l l 实验室的 k h d a v i s 等人利用带通滤波器进行语音频谱的分析和匹配,并成功用于对l o 个英文数字的识别。1 9 6 0 年p d e n e s 等研制成功第一个计算机语音识别系统连 续词语音识别、马尔科夫模型的应用、i b m 的v i a v o i c e 非特定人语音识别系统 的推出及导游系统、电话航班和操作系统中的语音识别机制的有限应用表明了 人类在语音识别上所付出的努力和收获( 蔡莲红等,2 0 0 3 ) 。 音频信息隐藏技术可以运用于音频媒体的权利认证、隐私的保护和秘密通 信中,包含音频信息隐藏技术在内的信息隐藏技术的研究已经占据了信息安全 的一个重要制高点,也成为国家机要和安全部门热切关心的对象,它的研究不 仅具有实用性、社会经济价值,也具有国家安全的意义。同样以人类口头音频 为对象的语音识别技术的研究成果如何服务于信息安全,如何从其有限的应用 性进行拓展的研究,具有社会经济价值。 1 2 音频信息隐藏与语音识别技术的研究现状 信息隐藏作为专门的研究学科,始于1 9 9 6 年的剑桥的信息隐藏国际会议, 此会议上就已经发表了音频的信息隐藏的论文( g r u h ld e ta l ,1 9 9 6 ) 。 国外的研究主要有如下特点: 1 侧重于数字水印,并在鲁棒性研究中使用同步机制( l o b o g u e r r e r oa e ta l , 2 0 0 4 ) ( s h a o q u a nw u e ta 1 ,2 0 0 5 ) 。 2 早期信息隐藏研究较多集中于图像的信息隐藏,音频的信息隐藏研究近 年来逐渐增多。 2 第一章引言 3 音频信息隐藏加强了针对媒体格式的隐藏研究。 由于音频的信息隐藏的研究会涉及到声音特征的研究,特别是语音的特征, 对音频信息隐藏的研究融合语音识别的研究方法,成为研究的必然走向,例如 c h a n g s h e n gx u 等就使用语音识别的m f c c 参数来在音频信息隐藏中区分乐器 声音和人的声音( c h a n g s h e n gx ue ta 1 ,2 0 0 7 ) 。 在国内,1 9 9 9 年召开了第一届全国信息隐藏学术研讨会,至2 0 0 7 年,在中 国电子学会通信学分会和北京电子技术应用研究所的组织下,已经召开了七届 会议,在音频的信息隐藏,特别是音频水印方面,研究者取得了丰硕的研究成 果,并涌现了如北邮、中山等大学的专业研究团队。目前国内研究的一种趋势 是研究人员加强了对信息隐藏的隐秘信息检测的研究,他们试图建立各种模型 以便可靠地进行隐秘信息存在性的确认。 国内的语音识别研究起步于五十年代,但十几年来在国家8 6 3 计划推动下发 展很快,研究水平也从实验室逐步走向实用,其中具有代表性的研究单位为清 华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学 研发的5 0 0 0 词邮包校核非特定人连续语音识别系统的识别率达到9 8 7 3 ,前三 选识别率达9 9 9 6 ;并且可以识别普通话与四川话两种语言,达到实用要求。中科 院自动化所的面向不同计算平台和应用的“天语 中文语音系列产品_ 呻舭k a s r ,结束了中文语音识别产品自1 9 9 8 年以来一直由国外公司垄断的历史( 佚名, 语音识别技术综述) 。 目前语音识别正处在一个提高的过程,如何提高自动化率,即系统无须人 工干预独自完成的比例,是影响应用效果的关键( 俞铁城,2 0 0 5 ) 。 1 3 目前存在的关键问题 从音频信息隐藏研究目前状况来看,主要存在几大问题需要解决或寻优: 1 隐藏鲁棒性问题。特别是对鲁棒水印的探讨仍然是个热点。2 隐藏的方法探 讨,这主要在于如何简化隐藏的算法和提取的信息( 如水印) 的认证的简单性。 3 隐写分析。这着重于如何采取有效的方法确认音频中存在秘密信息,是否可以 构件统一模型进行隐写分析。4 应用场景。目前音频的信息隐藏主要应用场合仍 然在水印认证方面和秘密通信的隐写方面,研究应用场景,确定更多的应用行 业,才是信息隐藏走向市场,创造社会经济价值的重要目标。 第一章引言 而语音识别仍面临着几个方面的技术问题:1 噪声环境问题。为了真正实 现语音识别的实用化,必须提高语音识别算法在噪声环境下的稳健性( 赵贤宇, 2 0 0 5 ) 。2 非特定人的鲁棒性问题。如何规避口音差异,进行识别还需要更多研 究。3 学习语料的缺乏,模拟人的学习过程中的语音刺激的语料可能会对更鲁棒 的识别建模能起重要作用,目前这种语料缺乏。 1 4 本文选题的意义 本文选题的意义在于: 1 探讨信息隐藏与语音识别的类比关联性。 2 探索出新的音频信息隐藏方法。 3 将识别常用的手段与理念应用于隐藏的实验,探索适合于语音的隐藏方 法。 4 进行应用性探索。探索语音识别研究结果的信息安全应用、语音识别和 信息隐藏的协同应用的方式。 本文研究的重点是音频的信息隐藏,本文对语音识别的应用研究探索是音 频隐藏在研究过程中与语音识别产生学科交叉的所产生的必然行为,是本文对 音频信息隐藏研究的副产品。 1 5 篇章安排 本文分七章。 第一章主要说明当前的研究现状,阐述选题的意义,并理清本文对于音频 信息隐藏与语音识别信息安全应用研究的侧重关系。 第二章讲述了音频信息隐藏所依赖的相关理论,并说明了后续章节依据的 理论点。 第三章综述性地介绍本文所涉及到的两方面技术,由于语音识别不是本文 的重点,因而基础性地介绍了语音识别的基本方法,为后续在隐藏中相关知识 点的运用作好铺垫。对音频信息隐藏的技术综述较详细,对分类音频分别进行 了综述,并指出了存在的问题,并以这些问题做为其他各章的讨论要点。 第四章和第五章将语音识别中的技术手段利用到信息隐藏,给出了两种语 4 第一章引言 音信息隐藏的方法。 第六章是针对特定媒体格式a a c 的一种信息隐藏方法。 第七章通过两个应用,展示和说明了识别成果的信息安全的应用及两者结 合的技术应用。 第八章进行了总结和展望。 本章小结 本章对音频信息隐藏和语音识别的研究现状作了介绍,并指出目前存在和 要解决的主要问题和技术难点。本章说明了选题的意义,并对全文的篇章总体 安排作了说明。 第二章音频信息隐藏的理论基石 第二章音频信息隐藏的理论基石 【本章摘要l 本章主要讲述了音频信息隐藏所依赖的声音听觉理论,同时简单讲 述了扩频通信系统模型、数据压缩的冗余度等理论,为音频信息隐藏提供信息 处理理论基础。 音频信息隐藏的主要理论基石是声音听觉理论。由于音频信息隐藏在技术 手段上还依赖于现代电子学、通信与存储的技术手段,因而它还涉及到通信及 信息处理方面的理论。本章主要讲述音频信息隐藏相关的声音听觉理论,以及 扩频通信系统模型、数据压缩相关理论。 2 1 声音听觉理论 声音听觉理论是描述和解释人类听觉系统( h a s ) 听觉现象及其机制的各种 学说。声波如何产生听觉,一直是人们感兴趣的问题。历史上的一些经典的听 觉理论,实际上只涉及到耳是如何辨别音高的,因而只是一种耳蜗的音高学说,这 些学说有位置学说、听觉共振一位置学说、行波学说、频率学说、排放学说( 佚 名,听觉理论) 。这些学说虽各有长短,但都反映了声音所具有的频率特征。 2 1 1 声音概述( 林福宗,2 0 0 2 ) 声音具有响度、音高、音色可以用来描述具有振幅、频率和相位,是声音的 三个要素( 佚名,听觉理论) 。 声音的响度就是声音的强弱。在物理上,声音的响度使用客观测量单位来 度量,即d y n c m 2 ( 达因平方厘米) ( 声压) 或w c m 2 ( 瓦特平方厘米) ( 声强) 。在心理 上,主观感觉的声音强弱使用响度级“方( p h o n ) ”或者“宋( s o n e ) ”来度量。这两种感 知声音强弱的计量单位是完全不同的两种概念,但是它们之间又有定的联系。 绝对听觉门限( 听阈) 指一个人在没有噪声的环境下,就声音的某一个频率点( 纯 音) ,信号能够产生听觉感知的最低能量幅度。例如,ll ( h z 纯音的声强达到 6 第二章音频信息隐藏的理论基石 l o 1 6 w 恐m 2 ( 定义成零d b 声强级) 时,人耳刚能听到,此时的主观响度级定为零 方。实验表明,听阈是随频率变化的。测出的“听阈一频率”曲线如图2 1 所示。 图中最靠下面的一根曲线叫做“零方等响度级”曲线,就是绝对听觉门限曲线,即 在安静环境中,能被人耳听到的纯音的最小值。声音强到使人耳感到疼痛的这 个阈值称为“痛阈”。对不同的频率进行测量,可以得到“痛阈一频率”曲线,如图 2 1 中最靠上面所示的一根曲线。这条曲线也就是1 2 0 方等响度级曲线。在“听阈 一频率”曲线和“痛阈一频率”曲线之间的区域就是人耳的听觉范围。这个范围内 的等响度级曲线也是用同样的方法测量出来的。 声覆声强缓 瘀周 响度缓 w ,c m 2 c l b 、, 1 0 4 1 0 6 1 0 - 3 1 0 。帕 1 0 心 1 0 1 4 1 0 坫 听厨 1 0 0 l 叩0 1 0 0 顿率 图2 1 。听阈一频率一曲线 图2 1 说明入耳对不同频率的敏感程度差别很大,其中对2k h z 4k h z 范 围的信号最为敏感,幅度很低的信号都能被人耳听到。而在低频区和高频区, 能被人耳听到的信号幅度要高得多。 声音的音高客观上用频率来表示其单位是h z 主观感觉的音高单位则是用 7 加 翮 们 如 0 第二章音频信息隐藏的理论基石 美尔( m e j ) 来表示。1 m e l 为1 0 0 0 h z 的音调感知程度的】l o o o 。在l o o o h z 下, 人耳的感知能力与频率成线性关系;而在1 0 0 0 h z 以上,人耳的感知能力与频率 就不构成线性关系,而更偏向于对数关系。 音色又称音品,由声音波形的谐波频谱和包络决定。声音波形的基频所产 生的听得最清楚的音称为基音,各次谐波的微小振动所产生的声音称泛音。单 一频率的音称为纯音,具有谐波的音称为复音。每个基音都有固有的频率和不 同响度的泛音,借此可以区别其它具有相同响度和音调的声音( 佚名,听觉理论) 。 声音听觉理论中与信息隐藏相关的主要要点有:1 韦伯定律敏感性理论:2 频域和时域掩蔽效应理论;3 心理听觉模型。 2 1 2 韦伯定律敏感性理论 人耳对一个声音的强度或频率的微小变化也是极其敏感的,这种在强度或 频率上的最小可觉察到的变化叫做强度或频率差别阈限。宽带或一定频率范围 的带噪声的强度差别阈限符合韦伯定律。也就是说,如果用l 代表带噪声的强度, l 代表最小可觉察到的强度变化,那么l l 近似于一个常数,大约为0 5 1 。 纯音强度的差别阈限随刺激强度的增加而降低。例如,1 0 0 0 赫的纯音强度在2 0 分贝时差别阈限为1 5 分贝;在4 0 分贝时为0 7 分贝;而在8 0 分贝时则降低到 o 3 分贝了。频率的差别阈限是频率的函数,1 0 0 0 赫纯音在中等强度时,大约有3 赫的变化人便可觉察到。随着年龄的增长,听觉的感受性将会大大降低,对高 频声尤为突出( 老年聋) 。6 0 岁以上的老年人,对8 0 0 0 赫的声音听力平均损失 约4 0 分贝( 佚名,听觉理论) 。 韦伯定律敏感性理论为音频的时域和频域l s b 隐藏方法提供了理论基础。 2 1 3 频域和时域掩蔽效应理论( 林福宗,2 0 0 2 ) 掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的频率成分 的存在会影响到对响度较低的频率成分的感知。当两个或更多的音频信号到达 人耳时,同时掩蔽就有可能发生。从频域的观点上看,掩蔽声和被掩蔽声的幅 度谱的差异决定被加强的频率成分和被掩蔽的频率成分。从时域观点上看,多 个信号之间的相位关系影响掩蔽效应。前者称为掩蔽声音( m a s k i n gt o n e ) ,后者 称为被掩蔽声音( m a s k e dt o n e ) 。掩蔽可分成同时掩蔽( 频域掩蔽) 和非同时掩蔽( 时 第二章音频信息隐藏的理论基石 域掩蔽) 。 1 同时( 频域) 掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽, 也称同时掩蔽( s i m u l t a n e o u sm a s k i n g ) 。如图2 2 所示,一个声强为6 0d b 、频率 为1 0 0 0h z 的纯音,另外还有一个1 1 0 0h z 的纯音,前者比后者高1 8d b ,在这 种情况下我们的耳朵就只能听到那个1 0 0 0h z 的强音。如果有一个l o o oh z 的纯 音和一个声强比它低1 8d b 的2 0 0 0h z 的纯音,那么我们的耳朵将会同时听到这 两个声音。要想让2 0 0 0h z 的纯音也听不到,则需要把它降到比1 0 0 0h z 的纯音 低4 5d b 。一般来说,弱纯音离强纯音越近就越容易被掩蔽。 声强( 凸) 8 0 6 0 4 0 2 0 0 0 24 68 1 0 1 21 4 1 6 频率 图2 2 声强为6 0d b 、频率为1 0 0 0h z 纯音的掩蔽效应 在图2 3 中的一组曲线分别表示频率为2 5 0h z 、ll 【h z 、4l ( h z 和8k h z 纯音 的掩蔽效应,它们的声强均为6 0d b 。从图中可以看到:在2 5 0h z 、1k h z 、4 l 洲z 和8l m z 纯音附近,对其他纯音的掩蔽效果最明显,低频纯音可以有效地 掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。 9 第二章音频信息隐藏的理论基石 声强( d b ) 8 0 6 0 4 0 2 0 o 0 24 68 1 0 1 21 41 6 频率 图2 3 不同纯音的掩蔽效应曲线 掩蔽效应是心理声学模型的基础。 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率, 引入了“临界带宽的概念,临界带宽的单位叫b a 血( 巴克) 。 临界带宽是指一个纯音可以被以它为中心频率、并且具有一定频带宽度的 连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率。这使该纯音 处于刚能被听到的临界状态,即称这一带宽为临界带宽。临界带宽可以用b 冰 来表示,c d 音质的音频信号的2 5 个b a r k 如表2 1 ( 蔡莲红等,2 0 0 3 ) ; 表2 1 频带分布表 在已有的文献中,有多种不同的听觉掩蔽模型可用于对同时掩蔽现象的分 析和计算,但这些模型大体上是相似的。分析是帧一帧进行的。对每一帧4 域信号,需先经f o u r i e r 变换或其他变换( 如余弦变换,小波变换) 从时域变换 l o 第二章音频信息隐藏的理论基石 到变换域中。这里以f o u r i e r 变换为例,第i 帧( i - l ,2 ,) 时域信号表示为 s ( n ,i ) ,n = 0 ,1 ,l 1 ( l 为帧长) ;n 点快速f o u r i e r 变换后的幅度谱和功率谱分别是 s ( k ,i ) 和s p ( k ,i ) ,k = 0 ,1 ,n 1 为频点指标;掩蔽域用t ( k ,i ) 表示。掩蔽域的基本计 算步骤如下( 卜凡亮,2 0 0 2 ) : ( 1 ) b a r k 谱 分别计算落入有限个临界带内的功率谱之和。把功率谱转换为b 酞谱 丝 b ( 6 ,f ) = :s 。( 七,f ) ,1 - 6 _ b 西 其中b l 和b h 分别是临界带b 所对应的离散频率的下限和上限。 ( 2 ) 扩展谱 b a r k 谱反映的是各临界带被激励的情况,并不反映各临界带的响应情 况。反映各l 临界带的响应情况的谱称之为扩展谱。实际上,任一临界带处的扩 展谱应是各临界带处的b a r k 谱贡献的总和,贡献的大小和临界带之间的间距成 反比。扩展函数就是临界带之间b 破谱对扩展谱贡献的定量描述。设扩展函数 为s 尺,( 止) ,其中& 为在b a r k 域中临界带之间的间距,扩展谱c ( b ,i ) 表示为: c ( 6 ,f ) = s 删( 6 一后) b ( 忌,f ) = l ( 3 ) 扩展谱意义下的掩蔽域 将扩展谱减去一个偏移量即可得到扩展谱意义下的掩蔽阈值。但是偏移 量的大小和语音信号的纯音特性相关。引入纯音指数v ( i ) 衡量第i 帧信号的纯音 特性,它在o 一1 之间取值,v ( i ) = 0 代表纯噪声,而v ( i ) = 1 代表纯音。从扩展谱中 减去偏移量o ( b ,i ) 即得到掩蔽阈值。 7 i ( 6 ,z ) = = 1 0 1 。g 嚣6 一。( 6 ,f ) 1 0 ( 4 ) 扩展谱意义下到b a r k 谱意义下掩蔽阈的转换 严格说,对扩展谱意义下的掩蔽阈进行解卷才能求出b a r k 谱意义下的掩 蔽阂正( 6 ,i ) 。但解卷会出现奇异结果,由于扩展函数的作用总是使各临界带的 能量增加,对互( 6 ,f ) 乘以能量增益的倒数进行归一化即可得到瓦( 6 ,) 。 ( 5 ) 计入绝对听阈 考虑到实际听阈应在绝对听阈之上,因而最后的掩蔽阈应为 r ( 6 ,) = m a x ( 疋( 6 ,f ) ,l ( 6 ) ) 第二章音频信息隐藏的理论基石 绝对听阈( 6 ) 的谷点对应4 k h z 附近量化噪声的声压级。 2 非同时( 时域) 掩蔽 非同时掩蔽指从时域上看,一个强音调的存在会影响其前后出现的声音的 感知。非同时掩蔽是在时间上相邻的声音之间也有掩蔽现象,也称为时域掩蔽。 时域掩蔽又分为超前掩蔽( p r e m a s k i n g ,b a c k w a r dm a s k i n g 后向掩蔽) 和滞后掩蔽 ( p o s t - m a s k i n g ,f o r w a r dm a s k i n g 前向掩蔽) ,如图2 4 所示。产生时域掩蔽的主要 原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只 有大约5 2 0m s ,而滞后掩蔽可以持续5 0 2 0 0m s 。 6 0 4 0 2 002 04 01 6 01 8 002 04 06 08 01 0 01 2 0 1 4 0 时何( 毫鳓 图2 4 时域掩蔽 2 1 4 心理声学模型( 卜凡亮,2 0 0 2 ) 心理声学模型为音频的感知编码提供了依据。 2 1 4 1m p e g l 心理声学模型一1 第j 个频谱分量在第i 个频谱分量处产生的掩蔽由下式计算 7 ( z ( ) ,z ( f ) ) = e ( z ( ,) ) + d ( z ( _ ,) ) + s r j i ( z ( _ ,) ,z ( f ) ) d b 1 2 9 2 己 们 第二章音频信息隐藏的理论基石 其中e ( z ( j ) ) 为第j 个频谱分量处的声压级;s 删o 为扩展函数,它是z ( j ) 、z ( i ) 在b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校特色部管理制度
- 学校饮水机管理制度
- 学生科内勤管理制度
- 安全不放心管理制度
- 安全绩效奖管理制度
- 安检运营与管理制度
- 安装科安全管理制度
- 定制品定价管理制度
- 实行周计划管理制度
- 宠物驴日常管理制度
- 行政事业单位内部控制工作中存在的问题与遇到的困难
- 人工智能在医疗器械中的应用-全面剖析
- 智慧农旅综合体项目可行性研究报告(参考范文)
- 四川2024年11月四川南充市人民政府办公室遴选(考调)工作人员3人国家公务员考试消息笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年云南省保山市隆阳区小升初模拟数学测试卷含解析
- 2024年郑州市公安机关招聘警务辅助人员笔试真题
- 火灾解封申请书
- 2025年江苏盐城市燕舞集团有限公司招聘笔试参考题库含答案解析
- 对发生爆炸及发现可疑爆炸物品事件的防范与处理预案
- 整体施工劳务服务方案
- DBJT13-119-2010 福建省住宅工程质量分户验收规程
评论
0/150
提交评论