（信息与通信工程专业论文）量子神经网络及其在语音识别中的应用.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：71 大小：4.34MB 积分：0 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

（信息与通信工程专业论文）量子神经网络及其在语音识别中的应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

南京邮电大学硕士研究生学位论文摘要摘要量子神经网络( q 灿弋u a n t u mn e u r a ln e v , v o r k s ) 是量子计算与人工神经网络相结合的产物，由于利用了量子并行计算和量子纠缠等特性，从而克服了传统人工神经网络的某些固有缺陷，将很有可能成为未来信息处理的重要手段。本文首先研究了量子跃迁神经网络、量子衍生神经网络、量子联想记忆、量子纠缠神经网络等几种主要的量子神经网络模型，分析了模型的结构及特性，重点研究了量子跃迁神经网络模型，并提出了基于该量子跃迁神经网络的汉语数字语音识别算法，设计了基于量子跃迁神经网络的语音识别系统。实验结果表明，量子能级数和隐层量子神经元个数对语音识别系统训练速度和识别率有较大影响，当量子能级数为1 0 ，隐层量子神经元个数为4 0 时，识别率能达到9 9 ，优于b p 神经网络和r b f 神经网络。本文中所有数据的采集均来自于实验室环境。实验结果证明了无论在识别率还是在可靠性方面，量子跃迁神经网络总优于人工神经网络，同时也证明了量子跃迁神经网络解决语音识别问题有着很大的优越性和应用潜力。关键词：量子计算、量子神经网络、语音识别南京邮电大学硕士研究生学位论文 a b s t r a c t a b s t r a c t q u a n t u mn e u r a ln e t w o r k s ( q n n ) i san e wf i e l dw h i c hi n t e g r a t e sa n nw i t hq u a n t u m c o m p u t i n g t a k i n ga d v a n t a g e so ft h ep r o p e r t i e so fq u a n t u mm e c h a n i c ss u c ha sq u a n t u m p a r a l l e l i s ma n de n t a n g l e m e n t ，q n nm a yg i v eu su n p r e c e d e n t e dp o s s i b i l i t i e si nc r e a t i n gn e w s y s t e mf o ri n f o r m a t i o np r o c e s s i n g f i r s t l y , t h i sp a p e ri n t r o d u c e ss e v e r a lm a j o rq u a n t u mn e u r a ln e t w o r km o d e l ss u c ha s q u a n t u mt r a n s i t i o nn e u r a ln e t w o r k ，q u a n t u mn e u r a ln e t w o r k d e r i v e d ，q u a n t u ma s s o c i a t i v e m e m o r y , q u a n t u me n t a n g l e m e n tn e u r a ln e t w o r k ，a n a l y s e ss t r u c t u r ea n dc h a r a c t e r i s t i co ft h e m o d e l ，f o c u s e so nt h en e u r a ln e t w o r km o d e lo fq u a n t u mt r a n s i t i o n s ，a n da d v a n c e st h e c h i n e s ef i g u r es p e e c hr e c o g n i t i o na l g o r i t h mb a s e do nt h eq u a n t u mt r a n s i t i o nn e u r a l n e t w o r k ，d e s i g n ss p e e c hr e c o g n i t i o ns y s t e m b a s e do nt h eq u a n t u mt r a n s i t i o nn e u r a ln e t w o r k e x p e r i m e n t a lr e s u l t ss h o wt h a tt h en u m b e r so ft h eq u a n t u ml e v e la n dh i d d e nl a y e rq u a n t u m n e r v ec e l lh a v eag r e a t e ri m p a c ti nt h es p e e c hr e c o g n i t i o ns y s t e mt r a i n i n gs p e e da n d r e c o g n i t i o nr a t e w h e nt h en u m b e r so ft h eq u a n t u ml e v e li s 10 ，a n dh i d d e nl a y e rq u a n t u m n e r v ec e l ln u m b e ri s4 0 ，t h er e c o g n i t i o nr a t ec a i lr e a c h9 9p e r c e n t ，b e t t e rt h a nt h eb pn e u r a l n e t w o r ka n dr b fn e u r a ln e t w o r k a l lt h ed a t a si nt h i sp a p e ra r ec o l l e c t e df r o ml a b o r a t o r y e x p e r i m e n tr e s u l t si n d i c a t et h e p r o p o s e dq n ns p e e c hr e c o g n i t i o ns y s t e ma c h i e v e se x c e l l e n tp e r f o r m a n c ei n t e r m so f r e c o g n i t i o nr a t ea n dr e l i a b i l i t yo fr e c o g n i t i o n ，a n da tt h es a m et i m es h o wt h es u p e r i o r i t ya n d a p p l i c a t i o np o t e n t i a lo fq n n i ns o l v i n gs p e e c hr e c o g n i t i o np r o b l e m s k e yw o r d s ：q u a n t u mc o m p u t i n g ；q u a n t u mn e u r a ln e t w o r k s ；s p e e c hr e c o g n i t i o n 南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名：孟皇翌同期：兰塑：! ! ! 南京邮电大学学位论文使用授权声明南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其它复制手段保存论文。本文电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权南京邮电大学研究生部办理。研究生签名：舌象固导师签名：岛2日期：迎2 。! 兰南京邮电大学硕士研究生学位论文第一章绪论第一章绪论我们生活在一个信息时代，信息科学在推动社会文明进步和提高人类生活质量方面发挥着令人惊叹的作用，这是其他学科多无法比拟的。随着人类社会对于信息的需求日益增加，人们不断地致力于信息技术的进步发展。量子信息学正是信息科学发展和变革的产物，是将量子力学应用于信息科学的- - f - j 新兴交叉学科。量子信息学包括量子计算、量子通信、量子密码等几个方面，近年来在理论和实验上都取得了重大突破。量子信息基于量子特性而具有独特的信息功能，在提高运算速度、确保信息安全、增大信息容量、和提高检测精度等方面具有突破现有经典信息系统极限的能力。量子信息的研究与应用，不仅引起各国政府和科技界的广泛关注，而且受到信息产业界和军事部门的高度重视，已经成为国际上研究的热点。不可否认，2 1 世纪正是信息科学从经典跨越到量子的关键性时期。 1 1 研究背景人工神经网络( a 卜n ) 是简单模仿人脑工作机理、建立在简化的神经元模型和学习规则基础之上的一种信息处理范式。它特殊的拓扑结构和学习方式产生了许多计算上的优势，主要体现在并行计算、分布式信息处理以及输入输出之间的非线性映射关系等方面，在信号与信息处理领域已拥有非常成功的应用。但是，随着信息处理量和复杂度的增加，a n n 的局限与不足也逐渐显现出来，特别表现在：( 1 ) 传统意义上的学习在信息量大的情况下处理速度过慢；( 2 ) 网络记忆容量有限；( 3 ) a n n 需要反复训练，不具备一次学习的能力；( 4 ) a n n 在接收新的信息时会发生灾变性失忆( c a t a s t r o p h i cf o r g e t t i n g ) 等。这些缺陷与不足限制了人工神经网络理论的发展，同时也推动了人工神经网络理论与其它理论相结合的交叉学科的研究，其中将经典人工神经网络与量子计算理论相结合而产生的量子神经网络( q n n ) 成为一个极富前景的崭新研究领域。自1 9 9 5 年美国的k a k 教授首次提出量子神经计算i 卜2 】( q u a n t u mn e u r a lc o m p u t i n g ) 的概念以来，国际上已有一些学者尝试将量子计算理论引入a n n 的研究之中，相继提出了诸如量子学习( q u a n t u ml e a r n i n g ) 【3 】、量子衍生神经网络( q u a n t u m - i n s p i r e dn e u r a l n e t w o r k s ) 【4 1 、量子人工神经网络( q u a n t u ma r t i f i c i a ln e u r a ln e t w o r k s ) 【5 1 、量子点神经网络( q u a n t u md o tn e u r a ln e t w o r k s ) 【6 】、量子联想记忆( q u a n t u ma s s o c i a t i v em e m o r y ) 【7 捌、量子并行自组织映射( q u a n t u mp a r a l l e ls e l f - o r g a n i z a t i o nm a p s ) b o 】、量子纠缠神经南京邮电大学硕士研究生学位论文第一章绪论网络( e n t a n g l e dn e u r a ln e t w o r k s ) 【1 1 1 、量子神经元( q u a n t u mn e u r o r l ) 1 2 】、量子感知器 ( q u a n t u mp e r c e p t r o n ) 【1 3 】、非叠加态量子神经网络( n o n s u p e r p o s i t i o n a lq u a n t u mn e u r a l n e t w o r k s ) 1 4 1 等量子神经网络模型。近年，量子神经网络的研究日趋活跃，其重要标志之一是1 9 9 8 年召开的第4 届国际信息科学联合会会议【1 5 1 和2 0 0 0 年召开的第4 届国际计算智能与神经科学会议【1 6 】都专门设立了量子计算与神经量子信息处理专题，此举引起了国际理论界的广泛关注。虽然目前量子神经网络( q n n ) 的研究还处于萌芽阶段，其理论远未成熟，但已有的理论分析和应用已经证明，与传统的a n n 比较，q n n 至少在以下几个方面具有明显的优势【o6 】：( 1 ) 指数级的记忆容量和回忆速度；( 2 ) 较小的网络规模和简单的网络拓扑结构；( 3 ) 更好的稳定性和有效性；( 4 ) 快速学习、一次学习和高速信息处理能力；( 5 ) 消除灾变性失忆的潜力等。这些优势为人们创建具有超大容量、超高速度及超凡的信息处理能力的新型信息处理系统提供了可能。量子神经网络( q n n ) 是量子计算在信号与信息处理领域中的应用范例，它将量子计算的某些概念、方法运用到经典人工神经网络中，使a n n 具有量子计算的优点，从而可以构建更为有效的信号与信息处理模式。q n n 由于利用了量子计算的机理和特性从而克服了a n n 的某些固有缺陷，极有可能成为未来信息处理的重要手段。鉴于此，本文选择量子神经网络作为研究课题，研究量子神经网络的模型、特性、算法及其在信号处理中的应用。 1 2 本论文的研究工作语音识别系统的研究已经持续了近4 0 年，但现有的准确率较高的语音识别系统仍有耗时成本很高而且用起来很不方便的缺点。而实际的语音识别系统要求在拥有有限资源的通用型计算机上实现实时的语音识别。因此，发展快速识别算法成了语音识别研究中的一个重要课题。本课题将会分析神经网络的不足之处，讨论神经网络和量子计算结合的必要性与可行性，研究了一种新型的神经网络一量子跃迁神经网络，并将量子跃迁神经网络用于语音识别中。本课题将基于语音识别的原理和过程，针对汉语数字语音识别任务，基于量子跃迁神经网络，研究构造相应的语音识别模型与传统的人工神经网络模型进行性能比较。通过 m a t l a b7 0 仿真计算，分析讨论不同的量子能级个数，隐层节点数目等对识别结果的影响。 2 南京邮电大学硕士研究生学位论文第一章绪论最终得到量子跃迁神经网络的性能有着较高的识别率和独特的应用优势，可以实现时间和效率的双赢。本文组织如下：第二章：介绍了语言识别基本原理与技术，包括语音信号的预处理，特征提取以及语音建模及相似判断；第三章：介绍了量子信息理论的基本概念，介绍了几种常见的量子神经网络，并着重研究了量子跃迁神经网络的特性；第四章：研究了b p 神经网络和r b f 神经网络两种经典人工神经网络模型用于语音识别的方案，并对语音识别实验的过程和数据进行了详细的分析；第五章：研究了量子跃迁神经网络的训练算法，提出了基于量子跃迁神经网络的语音识别方案，进行了实验仿真，并与第四章所用的经典人工神经网络在语音识别性能方面进行了详细的比较分析：第六章：工作总结，指出可进一步研究的问题。南京邮电大学硕_ l ：t o f 究生学位论文第二章语音识别摹本原理与技术第二章语音识别基本原理与技术大多数的语音识别系统采用了模式匹配的原理，如图2 1 所示。语图2 1 语音识别原理框图该类语音识别系统的运行过程为：未知语音( 待识别对象) 经过话筒转化为电信号( 语音信号) 后加在识别系统输入端。首先要经过预处理，包括抗混叠滤波、预加重和端点检测。然后进行特征提取，常用的特征包括短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、短时傅里叶变换和倒谱等。语音特征参数的时间序列便构成了语音的模式，将其与已经获得的参考模式逐一进行比较，获得最佳匹配( 由判决规则决定) 的参考模式便是识别结果。参考模式是事先获得并存储起来的。为此，在系统使用前首先要应用一系列己知信号，通过提取它们的特征作为参考模式，这一过程就是所谓的训练过程。 2 1 信号预处理在信号处理系统里，对原始信号进行预处理是必要的，这样可以保证系统获得一个比较理想的处理对象。在语音识别系统中，语音信号的预处理主要包括抗混滤预加重及端点检测等内容。 2 1 1 抗混叠滤波与预加重研究表明，语音信号的频谱分量主要集中在3 0 0 3 4 0 0 h z 的范围内。因此需用一个防混叠的带通滤波器将此范围内的语音信号的频谱分量取出，然后对语音信号进行采样，得到离散的时域语音信号。根据取样定理，如果模拟信号的频谱的带宽是有限的( 例如，不包含高于几的频率成分) ，那么用等于或高于2 厶的取样频率进行取样，则所得到的信号能够完全唯一的代表原模拟信号，或者说能够由取样信号恢复出原始信号。实际应用中，大多数情况选用8 k h z 的取样频率。尽管如此，必须顾及到语音信号本身包含着4 k h z 以 4 南京邮电大学硕士研究生学位论文第二章语音识别基本原理与技术上频率成分这样一个事实。即使有的语音的频谱能量主要集中在低频段，但由于噪声环境的宽带随机噪声叠加的结果，使得在取样之前，语音信号总包含着4 k h z 以上的频率成分。因此，为了防止混叠失真和噪声于扰，必须在取样前用一个锐截止模拟低通滤波器对语音信号进行滤波。该滤波器称为反混叠失真滤波器或去伪滤波器。语音从嘴唇辐射会有6 d b o c t 的衰减，因此在对语音信号进行处理之前，希望能按 6 d b o c t 的比例对信号加以提升( 或加重) ，以使得输出的信号电平相近似。当用数字电路来实现6 d b o c t 预加重时，可采用以下差分方程所定义的数字滤波器： y ( n ) = x ( n ) - a x ( n 1 )( 2 1 ) 式中，系数常口在0 9 至1 之间选取。 2 1 2 端点检测语音信号起止点的判别是任何一个语音识别系统必不可少的组成部分。因为只有准确的找出语音段的起始点和终止点，才有可能使采集到的数据是真正要分析的语音信号，这样不但减少了数据量、运算量和处理时间，同时也有利于系统识别率的改善。下面简单介绍几种常用的端点检测方法。 1 ) 短时平均幅度端点检测中需要计算信号的短时能量，由于短时能量的计算涉及到平方运算，而平方运算势必扩大了振幅不等的的任何相邻取样值之间的幅度差别，这就给窗的宽度选择带来了困难，因为必须较宽的窗才能对取样间的平方幅度起伏有较好的平滑效果，然而又可能导致短时能量反映不出语音能量的时变特点。而用短时平均幅度来表示语音能量，在一定程度上可以克服这个弊端。短时平均幅度定义如下： m n = i x ( m ) o ) ( n - m ) ( 2 2 ) 肼= 或 m n = j x ( m ) j h ( n - m ) ( 2 3 ) 式中，h ( m ) = ic o ( n m ) l ；即用移动窗h ( n 一聊) 选取出一段语音信号，然后计算该段语音取样值的绝对值的和，便得到该段语音的平均幅度：或者，用移动平均窗h ( n t n ) 选取出语音信号绝对值序列中的一段，并将各取样值求和，也能够得到短时平均幅度。南京邮电大学硕士研究生学位论文第二章语音识刖桀本原理与技术通常所用的移动窗为矩形窗和汉明窗，它们分别定义为：矩形窗： h r ( n ) = 亿。淼1 ( 2 4 ) 汉明窗：怕) = 。0 5 4 - 0 4 6 c o s ( 2 n # ( n - 1 ) ) 。：= 三1 ( 2 5 ) 以短时平均幅度为特征的起止点判断法是：以发音刚开始前已知为静态的连续1 0 帧内的数据( 帧长为1 0 m s ) 为依据，计算能量阈值i t l ( 低能量阈值) 及i t u ( 高能量阈值) 。按上述的采样值计算每帧的平均幅度，最大值为i m x ，最小值为i m n ，计算可得：厶= o 0 3 ( i m x - m a t ) + 1 m n 于是有：厶= 4 i m n i t l = m i n ( i l ，厶) l l l u = s i ? l j l 由此可以进行起止点判别( 以起点判别为例) ：先根据i t l ，i t u 算得一初始起点n ，把它定为最先升到平均幅度的帧号，但随着时间的后移，帧幅度在升到i t u 之前又下降到 i t l 之下，则n 1 不作为初始起点，而改成下一个升到i t l 的点为n l ，以此类推。 2 ) 短时平均过零率当离散信号的相邻两个取样值具有不同的符号时，便出现过零现象，单位时间内过零的次数叫做过零率。如果离散时间信号的包络是窄带信号，那么过零率可以比较准确的反应该信号的频率。在宽带信号情况下，过零率只能粗略的反映信号的频谱特性。短时平均过零率的计算方法是：首先用一个移动窗c o ( n m ) 选取出位于1 1 时刻的语音段，然后计算出该时段的过零率总数，并除以该时段的长度。若采用矩形窗，设窗的宽度为n ，这时的短时平均过零可用下式计算： z n - 素互 s g n x ( m ) c o ( n - m ) - s g n x ( m - 1 ) c o 叫+ 1 刀 ( 2 6 ) = 去互l s g 舭( 呐- s g n x 。帅。嗍) 南京邮电大学硕士研究生学位论文第一二章语音识别皋奉原理与技术式中，咖，= b o m n l o t h e r w i s e f l x ( 聊) 0 c o ( m ) = 0z ( 肌) = 0 l - 1 z ( 历) = i z c t 者，若有此种帧三个以上，则将终点移到满足z c r = i z c t 条件的最后帧号上。 2 2 语音识别中的特征提取语音识别的首要步骤是特征提取，有时也称为前端处理，与之相关的内容则是特征间的距离度量。所谓特征提取，即对不同的语音寻找其内在特征，由此来判别出未知语音，所以每个语音识别系统都必须进行特征提取。特征的选择对识别效果至关重要，选择的标准应体现对异音字之间的距离尽可能大，而同音字之间的距离应尽可能小。若以前者距离与后者距离之比为优化准则确定目标量，则应是该量最大。同时，还要考虑特征参数的计算量，应在保持高识别率的情况下，尽可能减少特征维数，以减小存储要求和利于实时实现。反映短时谱包络的参数是语音识别中采用的主要特征参数，常用的有：带通滤波器组的频谱参数、线性预测系数、线性预测倒谱系数和m e l 频率倒谱系数m f c c 。 2 2 1 线性预测系数根据语音产生的模型，语音信号s ( z ) 是一个线性非移变因果稳定系统v ( z ) 受到信号 7 南京邮电大学硕士研究生学位论文第二章语音识别皋奉原理与技术 e ( z ) 激励产生的输出。在时域中，语音信号s ( n ) 是该系统的单位取样响应v ( n ) 和激励信号 e ( n ) 的卷积。语音产生的声道模型在大多数情况下是一个可用下式描述的全极点模型。 y ( z ) = 少。 ( 2 8 ) ( 1 - 2 a j z - j ) ，f 。l 用最小均方误差对该模型参数a ，进行估计，就得到了线性预测编码( l p c ) 算法，求得的d ，即是l p c 系数。在语音序列s ( n ) 中任取一个时刻n ，假设1 1 以前的个样点上的语音样值 s ( n 一1 ) ，s ( n - 2 ) ，s ( n - p ) 为已知，而时刻n 的语音样值s ( n ) 未知。现在，用这p 个已知的样值按某种线性组合来预s ( n ) 。用s ( n ) 来表示未知样值的预测值，则s ( n ) 可表示为：；( ，z ) ：一兰q s ( 甩一f ) ( 2 9 ) ，= l 预测值与真值之间的预测误差用e ( n ) 表示，可用下式计算：占( ，z ) ：j ( 门) 一；( 门) ：j ( 刀) + 圭q j ( 力一f ) f - l ( 2 1 0 ) 其中，s ( n ) 是一个随机序列，e ( n ) 也是一个随机序列。可用6 ( n ) 的均方值盯2 = 研占2 ( 玎) 】来衡量线性预测的质量。显然，扩越接近于零，预测的准确度在均方误差最小的意义上为最佳。一般用求时间平均来代替计算中的求集合平均e 口。这时可以表示为： = s 2 ( ，2 ) ( 2 11 ) 按照语音产生的模型，s ( n ) 可以用下式表示： s ( 行) ：壹q 5 ( 门一f ) + g p ( 门) ( 2 1 2 ) ，墨l 将式( ( 2 1 2 ) 代入式( ( 2 1 0 ) 后再代入式( ( 2 11 ) ，就得到了口；的表示式：：羔口s ( 甩一沪pq j ( 刀一f ) + g p ( ，2 ) ) 】：【厂( 门) + g ( 疗) ) 】z ( 2 1 3 ) 一f = i，一1月其中，厂( 门) = 艺q j ( 刀一f ) 一艺口j s ( ，z 一耽g ( 甩) = g p ( ”) 。当e ( n ) 为白噪声时，序列e ( n ) 各 i - i ，；l 样点值相互统计独一立。由此不难导出f ( n ) 和g ( n ) 相互统计独立，因而厂( 胛) g ( 疗) = o 。 9 2 0 ) 是不随预测阶数p 和预测系数a t 而变化的，厂2 ( 门) o 恒成立。因此，吒2 的最 n, 小值只能发生在f 2 ( ，z ) = o 的情况。而实现这一点的充分必要条件是： r 南京邮电大学硕士研究生学位论文第二豪语音识别基本原理与技术 ( 1 ) p 。= p ，a j = q f = 1 尸 ( 2 ) 尸。 p ，a “i = qf = 1 p ，a 6 i = 0 ，f = ( p + 1 ) p 若模型阶数p 是预知的，那么可以设定p 。= p 。如果进一步存在一种有效的算法能够求得使蠢达到最小的一组最佳预测系数a ，那么即求得了模型参数q 。当模型的阶数不能预先确定时，可采用尝试的办法，观察蠢随尸的变化。显然，当 p p 时，再增大尸就不可能使吒2 下降。这样模型的阶数p 就可以确定。实际上，关于预测模型阶次的确定还有多种方法，比如a i c ，b i c 等，这里不再赘述。求解a 的方法主要有三种： ( 1 ) 自相关法或y u l e - w a l k e r 法； ( 2 ) 协方差法； ( 3 ) b u r g 法。自相关法的主要优点是：相应的y u l e w a l k e r 方程是t o e p l i t z 型，可以用l e v i n s i o n 算法高效求解，而且理论上所得到的预测误差滤波器是稳定的。但是，由于在计算预测误差时，数据段两端都要添加零取样值，这等效于添加了一个数据窗从而造成了谱估计的失真，特别在短数据段情况下尤为严重。相关法的另一缺点是，当预测系数量化时，可能造成系统的不稳定。协方差法虽然在理论上不能保证预测误差滤波器的稳定性，但实际上当每帧信号取样值足够多时，其计算结果与自相关法的结果很相近，因而稳定性一般是能够保证的。b u r g 法则在平均最小均方准则下，要求前向预测误差和后向预测误差的平方和最小，从而更能有效充分地利用所获得的有限数据信息，可以不超出己知数据段来计算预测误差，而对于已知数据段以外的数据的取值情况不做定义。 2 2 2l p c 倒谱系数倒谱 e ) 是信号的z 变换的对数模函数的反z 变换，一般通过信号的傅里叶变换，取模的对数，再求反傅里叶变换得到。既然线性预测也是一种参数谱估计方法，而且其系统函数的频率响应h ( e j 。) 反映了声道的频率响应和被分析信号的谱包络，因此用 1 0 9 i h ( e j 珊) f 作反傅里叶变换求出的倒谱系数，应该是一种描述信号的良好参数。主要优点是比较彻底的去掉了语音产生过程中的激励信息，主要反映声道响应，而且往往只需要 9 南京邮电大学硕士研究生学位论文第二章语音识别基本原理与技术是几个倒谱系数就能够很好的描述语音的共振峰特性。基于l p c 分析的倒谱系数可以用下面的公式来求得： e = + 慨一n o 行p - 1 量= i n - - l + k c k a a t n 船p + l ( 2 1 4 ) 对于倒谱特征矢量( 设为l 维) 的谱失真测度，通常用欧几里德距离来定义： l ( c ；c 。) = ( 巳一) 2 ( 2 1 5 ) n = l 这种测度与人耳的听觉特性是近似相符的。基于l p c 的倒谱系数有很好的内插性能，对于矢量量化或聚类分析都十分方便。虽然它是由l p c 系数递推得到的，但它在倒频域做了截短，相当于在频域进行了倒谱窗平滑，使振峰展宽了，因此不再是线性预测系数的等价参数。 2 2 3m e l 频率倒谱系数 m e l 频率倒谱系数首先是将信号频谱的频率轴变换为m e l 刻度，再变换到倒谱域得到的倒谱系数。其计算过程如下： ( 1 ) 将信号进行短时傅里叶变换得到其频谱。 ( 2 ) 求频谱幅度的平方，即能量谱，并用一组三角形滤波器在频域对能量进行带通滤波。这组带通滤波器的中心频率是按m e l 频率刻度均匀排列的( 间隔1 5 0 m e l ，带宽 3 0 0 m e l ) ，每个三角形滤波器的两个底点的频率分别等于相邻的两个滤波器的中心频率，即每两个相邻的滤波器的过渡带互相搭接，且频率响应之和为l 。滤波器的个数通常与临界带数相近，设滤波器数为m ，滤波后得到的输出为： x ( k ) ，k = l ，2 ，m ； ( 3 ) 对滤波器组的输出取对数，然后作2 m 点逆傅里叶变换即可得到m f c c 。由于对称性，此变换式可简化为： m e = l o g x ( k ) c o s n ( k - 0 5 ) n m r = l 2 ，l ( 2 1 6 ) 2 3 语音建模及相似性判断语音模型是从语音当中提取出来的携带了语音本身特征的数据构成的，通常基于获取 l o 南京邮电大学硕士研究生学位论文第二章语音识别基本原理与技术的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型( 模式) 进行匹配与比较，得到最佳的识别结果。语音模型是语音识别的根据，模型的建立是否具有代表性，或者说模型之间的相关性大小是系统进行模式匹配的关键。如何建立合适的模型是本文所要研究的问题。只有在确定了建模方式后，选取合适的相似性判断方才显得更有意义。声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。建立声学模型的目的是提供一种有效的方法来计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关，声学模型单元大小( 字发音模型、半音节模型或音素模型) 对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。因此，必须根据不同语言的特点、识别系统词汇量的大小等来决定识别单元的大小。模板匹配法是多维模式识别中最常用的一种相似性判断方法。在训练过程中，经过特征提取和特征维数的压缩，并采用聚类方法或其它方法，针对每个模式类各产生一个或几个模板，识别阶段将待识别模式的特征矢量与各模板进行相似度计算，然后判别所属类。 2 3 1 语音模型的建立语音特征是分帧提取的，每帧特征参数一般构成一个矢量，因此，语音特征是一个矢量序列。该序列的数据量一般可能太高，不便于其后的进一步处理，因此有必要采用不同的编码方法对数据进行压缩，语音信号中提取出来的特征经过数据压缩后便成为语音的模型。矢量量化法是一种效率非常高的编码技术，但同样可用于语音识别，其核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其它信息的信号与该码书的平均量化失真。下面介绍几种常用的矢量量化方法。 1 ) 无时间规整的矢量量化假定有m 类语音，每一类可以看作是一类信息源，对m 类各找到一组训练集影，i = 1 ，2 ，m ) ，其中i 是类别索引号，每- i l l 练集包括同一语音的多个样本，这样采用l b g 算法，可以得到m 个码书 c ( o , i = l 2 ，m ) 。定义d ( 葺，m ) 为输入特征矢量x j 和码字之间的失真测度。在识别时，一个未知矢量序列葺) ，t _ 1 ，2 ，t ，分别用m 个码书量化，可求出m 个平均失真得分： 17 d ( c ，) ) = 享d ( 薯，) ( 2 1 7 ) 南京邮电大学硕士研究生学位论文第二章语音识别基本原理与技术其中毫d c o ，且满足：枷= a r 。g m f l i ，n d ( 薯，秽) j ，r e c j 。求出：d ( c ) = r a i nd ( c ( 2 1 8 ) ( 2 1 9 ) 则k 类即为识别结果，因为用第k 个码数量化输入矢量序列时的平均失真最小。 l b g 算法的步骤如下： 1 ) 先给定一个初始码书，即n 个初始码字矢量得出的猜值。 2 ) 用这n 个初始码字将训练矢量划分为n 类，分类的原则是：若某个训练矢量距第i 个码字最近，就把它划为第i 类。每量化一个训练矢量就有一个量化失真值，统计全部训练矢量的量化失真量的总和，记为d 。 3 ) 求出每类训练矢量的形心。对于平方和距离测度来说，求形心也就是求平均矢量。这样得到的n 个新形心就形成了一个新的码书。 4 ) 用新码书对训练矢量重新分类，并统计量化失真总量，记为d ，。如果这次的总失真d l 比上次的总失真d o 明显的减小，则令d o = d 1 ，并返回倒第三步继续进行迭代。如果总的失真量不再明显减小，则停止迭代，这时得到的新码书就是设计结果。这种无记忆的矢量量化由于没有时间规整能力且不能反映时序关系，对区别仅仅体现在时序上的词或覆盖了较多音素的长词或句子效果不好。但对于差别较大的小词汇，无疑是一种简单有效的办法。 2 ) 有记忆矢量量化对于需要利用语音信号的时域特性进行区分的情况，一般有好几种方法来弥补无记忆矢量量化的不足。一种简单的办法就是有记忆矢量量化，其中最简单的一种是矩阵矢量量化。设某个词的发音有t 个k 维谱矢量，每次将其中相邻的r 1 个谱矢量同时量化，那么其平均量化失真为： d ：志笠1 以，毛)(220)t 一，z + l 鲁一7 其中，五= 工，置+ ，五州。) 是一个谱矢量序列，也就是个k * n 的矩阵，而： z = a r gr a i nd ( z ，z ) 巧e c 其中，c 是一个大小为n 的码书c = r ) 羔。，它的每个码字r 都是n k 维的，即南京邮电大学硕士研究生学位论文第二章语音识别基本原理与技术 z = 墨，e ，k ) 。其中，失真测度可简化表示为： d ( 墨，z ) = 吉喜d ( 而+ 卜一，均) ( 2 2 1 ) 针对每个词各设计一个码书，识别时分别用各个码书进行如上所述的矩阵矢量量化，将矢量失真最小的码书所对应的判别词作为识别结果。码书的设计也是基于l b g 算法，所不同的是最小失真码书的标注失真是对于谱矢量序列的，对于每个码字要分别求出1 1 个谱形心。 3 ) 分段矢量量化能使矢量量化反映时序关系的另一种方法是分段矢量量化。若把一类语音序列看作是若干段，比如n 段，按顺序连接，对每一段由一个矢量量化码书表示。最简单的办法是线性分段。在识别时，将待识别矢量序列采用相同的原则分段，则每一类求的总失真d 为其各个相应子段上的累加和。 4 ) 非特定人识别任务的的模板训练算法一聚类对于非特定人语音识别，欲获得较高的识别率，就须对多组训练数据进行聚类，以获得可靠的模板参数。一种有效的算法是改进的k 均值算法( m k m ) ，它是矢量量化中l b g 算法的变形。令q 为l 个训练序列的集合，q = 五，五o x l ) ，其中的每个元素为某特定语音的一次实现，即一次发音。对每两次发音的的特征矢量序列进行匹配计算，得到匹配距离截x ，x ，) 则可得到一个l x l 的距离矩阵。聚类的目的是将训练集q 聚成n 个不同，的类似；j = 1 ，2 ，) ，使g = u c o l 。同一类中的语音模式比较相近，类的总数n 可以事 i * l 先确定，也可以聚类时根据某种准则确定。每一类可以用一个典型模式来代表，也可以不是以的一个元素。 m k m 方法的原理如图3 2 所示。图中硝表示一个j 类集合的第i 类，其迭代次数为 k , i = l ，2 ，j ；k = 1 ，2 ，k m 。，k m 孙为允许的最大迭代次数。以y ( c o ) 代表，y ( c o ) 可以是形心，也可以是c o 的一个代表性的值。该算法依次递增的发现j 个类，即j 从1 逐渐增大到 l 孤，l 戤为预先设定的最大类数。主要步骤为： ( 1 ) 初始化：令j = 1 ，k = l ，i = l ，令科。= q ，计算整个训练集q 的聚类中心； ( 2 ) 最优( 最小) 距离分类：对每个训练模式蜀，= l ，2 ，三，根据最小距离准则上索引i ，南京邮电大学硕士研究生学位论文第二章语音识别慕本原理与技术使置。，当且仅当：万( 置，y ( 或) ) = m i n a ( x , ，y ( ) ) 计算每一类0 4 ，的类内距离和：净万( 而，y ( 谚，) ) ( 2 2 2 ) ( 2 2 3 ) ( 3 ) 调整聚类及聚类中心：根据上一步对各个x ，的索引标志的出新的分类蟛j 及矿j 1 的聚类中心，其中i = 1 ，2 ，_ ，。图2 2m k m 聚类算法流程图 1 4 南京邮电大学硕士研究生学位论文第二章语音识别基本原理与技术 ( 4 ) 收敛性检验：满足下列三个条件之一，则执行( 5 ) 。 a 对所有i = l ，2 ，：略1 = 哎， ( 2 2 4 ) b k - - k m 双，k 为预置的最大迭代次数； c 平均( 或总的) 类心距离变化小于预设的门限值砌，即： f 壹? 一圭a ：一1 圭；表示列矢量，用于描述x 代表的量子态，左矢的共轭转置，是行矢量。例如，在二维h i - b e n 空间中，标准正交基 ( 三) ，( ? 可分别用右 = k 蒙警_ 1 标其任意复线性组厶口i o ) + 6 1 1 湖代表列矢且( 啪n 符号( ziy ) 表示两个态矢量的内积，它是一个标量，如 ( 0 | 0 ) ) 陆“1 1 1 ) = c 。l - ，= ( 。) ( ? ) = 。，c l 。，= ( 0 ( 0 - 悟惜。符号ix ( y l 表示两个态矢量的外积，它是一个算子( o p e r a t o r ) ，如 ( 3 1 ) l 。) c 。j = ( 三三，i 。，c ，j = ( 吕三，i ，c 。i = ( ?吕) ，i ，c l = ( 吕? ) c3 2 ) 在经典计算中，信息的基本单位是比特( b i t ) ，或称二进制位，它的取值非“0 ”即“1 ”。在量子计算中，量子信息的基本单位是量子比特( q 啪t m i lb i t 或q u b i t ) ，或量子位，它的取南京邮电大学硕士研究生学位论文第三章量子神经劂络模型研究值除0 ( h o l o ) 或“i ”( h p l l ) 外，还可以取0 和“1 ”的任意线性叠加，如口10 ) + 6i ) ，即 q u b i t 可处于叠加态，在此，口和b 为复数且ia1 2 + lbf 2 = 1 ，即q u b i t 是归一化的。一个q u b i t 的态可用二维h i l b e r t 空间的单位矢量描述，即 l 吵) = 口1 0 ) + 6 1 1 ( 3 3 ) 若a = 1 ，b = 0 或a = o ，b = 1 ，则q u b i t 处于10 ) 态或l1 ) 态；若口，6 取一般复数值，则q u b i t 处于叠加态iy ) = aio ) + 6l1 ) 。这说明，q u b i t 的态不是如经典b i t 那样确定性的非0 即1 ，而是概率性( p r o b a b i l i s t i c ) ，它为f 0 ) 和i i ) 的概率分别是f 口f 2 和i b l 2 。 3 1 2 量子态的叠加、相干和消相干量子计算的基本特征是量子态的叠加性。线性叠加概念与矢量的线性组合有关，若 l 仍) ) 为2 ”维h i l b e r t 空间的一组基态，由于h i l b e r t 空间的完备性，由基态组合所得到的任 2 4 一l 一线性叠加iy = ql 仍) 也是该h i l b e r t 空间中的一个矢量。所以，若量子系统可能处在一组 i 够 ) 描述中，则其线性叠加态i ) 也是该量子系统的一个可能态，量子系统这一性质被称为态叠加原理。量子态iy ) 是所有基态 l 仍) ) 的一个线性叠加，从概率意义上说可以认为该量子态同时存在于所有基态之中。系数c i 为量子基态l 仍) 的概率幅，q 为复数且满足归一化条件 2 “一l ic f1 2 = 1 。概率幅q 的模平方i q1 2 表示对该量子态i y ) 进行测量时测量结果为量子基态，皇0 仍) 的概率。相干( c o h e r e n c e ) 和消相干( d e c o h e r e n c e ) 是与线性叠加的概念紧密相关的。如果一个量子系统处于基态的线性叠加之中，那么就称此量子系统是相干的；但是当一个相干的量子系统以某种方式与它所处的环境

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信息与通信工程专业论文）量子神经网络及其在语音识别中的应用.pdf

文档简介

温馨提示

最新文档

评论

（信息与通信工程专业论文）量子神经网络及其在语音识别中的应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档