(信号与信息处理专业论文)基于dsp的说话人识别系统.pdf_第1页
(信号与信息处理专业论文)基于dsp的说话人识别系统.pdf_第2页
(信号与信息处理专业论文)基于dsp的说话人识别系统.pdf_第3页
(信号与信息处理专业论文)基于dsp的说话人识别系统.pdf_第4页
(信号与信息处理专业论文)基于dsp的说话人识别系统.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(信号与信息处理专业论文)基于dsp的说话人识别系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s tra c t ab s t r a c t i n t h e f i e l d o f b i o l o g y r e c o g n i t i o n , t h e s p e a k e r r e c o g n it i o n h a s g o t a l o t o f f o c u s f o r i t s c o n v e n i e n c e , e c o n o m y a n d a c c u r a c y , a n d i t a l r e a d y h a s b e c o m e a n i m p o r t a n t a n d w i d e s p r e a d m e t h o d f o r s e c u r i t y v a l i d a t i o n i n o u r d a i ly l i f e . s i n c e s p e a k e r r e c o g n i t i o n h a s a p ro s p e r o u s d e v e l o p m e n t t r e n d , i t h a s a v e ry w i d e a p p l i c a t i o n ma r k e t . t h i s a r t i c l e i n t r o d u c e s a s p e a k e r re c o g n i t i o n s y s t e m b a s e d o n d s p. t h i s s y s t e m u s e s i ms 3 2 0 v c 5 4 0 2 w h i c h i s p r o d u c te d 勿t e x a s i n s t r u m e n t a s i t s p l a t f o r m a n d t h e u p s t a n d i n g p e r f o r ma n c e o f t h e d s p p r o v i d e s t h e g u a r a n t e e f o r t h e r e a l t i me r e a l i z a t i o n o f t h e s y s t e m . t h e s y s t e m c o l l e c t s t h e v o i c e s i g n a l u s in g t h e m i c r o p h o n e , a n d t r a n s m i t s t h e s i g n a l t o t h e a d 5 0 f o r d i g it a l p r o c e s s i n g , t h e n t h e a n a l o g s i g n a l c a n b e c o n v e r t e d t o t h e d i g i t a l s i g n a l w h i c h c a n b e ft u t h e r p r o c e s s e d i n t h e d s p t h e d i g i t a l s i g n a l i s t h e n t r a n s m i t t e d t o t h e d s p fr o m t h e p o rt mc b s p a ft e r t h e ds p r e c e i v e d t h e s i g n a l , fi r s t i t w i l l e q u i p t h e s i g n a l t o b e t h e t e m p l e t ,a n d t h i s p h a s e i s c a l l e d t h e t r a i n i n g p h a s e . a ft e r t h a t , t h e d s p c a n r e c o g n i z e t h e s p e a k e r . i t w i l l c o m p a re 山 。r e c e i v e d s i g n a l w i t h t h e t e m p l e t a n d fi n a l l y r e a l i z e也 。s p e a k e r r e c o 脚 t i o n . me a n w h i l e , t o r e a l i z e t h e f u n c t i o n o f s p e a k e r r e c o g n i t i o n , t h e re e x i s t s s o m e a r it h m e t i c . t h i s a r t i c l e a l s o i n t r o d u c e s t h e k n o w l e d g e o f v o i c e s i g n a l p r o c e s s i n g , i n c l u d i n g t h e c o l l e c t i o n o f v o i c e s i g n a l , p r e p r o c e s s i n g , t h e d i s t i l l i n g o f t h e c h a r a c t e r i s t i c p a r a m e t e r s u s i n g l p c c a r i t h m e t i c a n d t h e g m m a ri t h m e t i c u s e d f o r t e m p l e t e s t a b l i s h m e n t a n d c o m p a r a b i l i t y a n d t h e c a lc u l a t i o n o f t h e p r e - v a l u e . k e y w o r d s : d s p s p e a k e r r e c o 咧 t i o n l p c c g mm i i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、 数字化或其它手段保存论文; 学校有权提供目 录检索以及提供 本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版; 在不以 赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学 位 论 文 作 者 签 名 : 李 tp ! . ? * -d 年犷 月 习日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名;学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 内部5 年 ( 最长5 年, 可少于5 年) 秘密川年 ( 最长 机密2 0 年 ( 最长 1 0 年,可少于 2 0 年, 可少于 南开大学学位论文原创性声明 本人郑重声明: 所呈交的学位论文, 是本人在导师指导下, 进行 研究工作所取得的 成果。 除文中己经注明引用的内 容外, 本学位论文 的研究成果不包含 任何他人创作的、 已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体, 均己 在文中以明确方式标明。 本学位论文原创性声明的法律责任 由本人承担。 学 位 论 文 作 者 签 名 : 专 寿 主 、 2 10 年r月 坷日 第一章 绪论 第一章 绪论 第一节 课题的提出及意义 人类生活在一个信息高度交互的社会里,判定人的身份是一个十分重要的 问题。随着社会的不断发展,传统的身份鉴别方法( 如钥匙、证件、口 令等等) 由于本身存在的具体问题, 即无法区分真正的拥有者和取得身份标志物的冒 充 者, 已 经不能满足社会的需要。 基于生物特征的 身份鉴别技术为我们提供了 一 种 更加方便和可靠的方法,它已经引 起了国内外学术界和企业界的极大关注。 近年来,在生物识别技术领域中,声纹识别技术,即说话人识别技术,以 其独 特的 方便性、 经济性和准确性等优势受到世人瞩目,并日 益成为人们日 常 生活和工作中重要且普及的安全验证方式。 1 . 1 . 1说话人识别综述 说话人识别( s p e a k e r r e c o g n i t i o n , s r ) 也称做声纹识别( v o i c e p r i n t r e c o g n i t i o n , v p r ) , 该技术是以 话音 对说 话人进行区分, 从而进行身份鉴别与 认 证的 技术。说话人识别着眼于包含在语音信号中的个人特征,提取说话人的 这 些个人信息,以达到识别说话人的目的。 说话人识别有着深刻的技术背景,人类语言的产生是人体语言中枢与发音 器官之间的一个复杂的生理物理过程。人在讲话时使用的发声器官舌、牙 齿、喉头、肺、奔腔,在尺寸和形态方面每个人的差异都很大。所以任何两个 人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性, 不是绝对的、一成不变的。这种变异可以来自 生理、病理、心理、模拟、伪装, 也与环境千扰有关。 尽管如此,由 于每个人的发音器宫都不尽相同,因 此在一 般情况下,人们可以区别不同的人的声音或判断是否是同一个人的声音。 说话人识别的基本原理就是通过分析人的发声和听觉,为每个人构造一个 独一无二的数学模型。然后再由处理器对模型的实际输入和语音进行精确匹配, 根据匹 配结果辨识出说话人。 说话人识别分成两 个方面, 即说话人辨认( s p e a k e r i d e n t i f i c a t i o n )和说话人确认 ( s p e a k e r v e r i f i c a t i o n ) 。前者是鉴别输入的 第一章 绪论 声音究竟是否预先录好的哪个说话人的声音,是 “ 多选一”问题;而后者用以 确 认某段语音是否是指定的某个人所说的,是 “ 一对一判别”的问 题川 。 本文 研究前者,即说话人辨认方面的问题。 1 . 1 .2说话人识别技术的发展及市场前景 说话人识别的研究始于 2 0 世纪3 0 年代。早期的工作主要集中 在人耳听辨 实验和探讨听音识别的可能性方面。随着研究手段和工具的改进, 研究工作逐 渐脱离了单纯的人耳听辨o b e l l 实验室的l . g . k e s t a目视观察语图 谱进行识别, 提出了“ 声纹”的概念。之后,电子技术和计算机技术的发展,使得通过及其 自 动识别人的声音成为可能。b e l l 实 验室的s . p r u z a n s k y 提出了 基于模板匹配 和概率统计方差分析的声纹识别方法,引起信号处理领域的许多学者的注意, 形成了声纹识别研究的一个高潮。期间的工作主要集中在各种识别参数的提取、 选择和实验上,并将线性预测分析等方法应用于声纹识别。 2 0 世纪7 0 年代末至今, 说话人识别的 研究重点转向 对各种声学参数的 线性 或非线性处理以及新的模式匹配上,如动态时间调整、主成分分析、隐马尔可 夫模型、神经网络和多特征组合等技术。如今,声纹识别技术已 经逐渐走向实 际应用。a t 而在说话人确认 中,只需将待识语音与注册说话人自己的模型比较,以 确定是否是注册者本人 的声音。 根据识别对象的不同,还可将说话人识别分为三类: 即与文本有关 ( t e x t - d e p e n d e n t ) 、与文本无 关 ( t e x t - i n d e p e n d e n t ) 和文 本提 示 型 ( t e x t - p r o m p t e d)。 “ 与文本有关”是指说话人按规定的文本发音或者按提示 发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发 音,因此可以达到较好的识别效果。 “ 与文本无关” ,即不规定说话人的发音内 容,无论说话人说什么都可以进行识别,因此可应用范围也更为广泛。 “ 文本提 示型”的说话人识别方法,是指每一次识别时,识别系统在一个规模很大的文 本集合中选择提示型文本,要求说话人按照提示文本的内容发音,识别和判决 是在说话人对文本内容正确发音的基础上进行的,这样还可以防止说话人的语 第二章 说话人识别技术概述 音被盗用。 本课题主要研究的是与文本无关的说话人识别系统。 2 . 1 . 2说话人识别系统的结构 说话人识别系统的原理图如图 2 . 1所示,可以 看出,它包括两个阶段:训 练阶段和识别阶段。 ” 呀不 刁- 诬园孽谬邺 模板习 月 练 一 诬甸 图2 . 1说话人识别系统原理图 所谓训练阶段,就是将说话者每个说话人的训练语句,经特征提取后,建 立各说话人的模板或模型。识别阶段,就是由待识别人说的语音同样经特征提 取以后,与系统训练时产生的模板或模型进行比较。 对于说话人辨认系统,取 与测试语音匹配距离最小的模型所对应的说话人作为识别结果;对于说话人确 认系统,则通过判断测试语音与所声称说话人的模型 之间的距离是否小于一定 的门限值来做出作出确认与否的判断。由此可以看出,说话人确认系统除了比 说话人辨认系统多了身份声明部分,以及判决准则有所区别外,两者没有本质 区别。 从上图中可以看出,说话人识别系统需要解决的问题如下: ( 1 ) 语音信号的预处理。主要是通过预处理滤除掉各种噪声和千扰,提升 信号中的高频部分,并进行端点检测,去掉非有效语音帧,为特征提取提供有 效的语音段。 ( 2 ) 语音信号的 特征提取。 就是提取能够有效表征说话人 特征的参数。 ( 3 )说话人模型的建立和模型参数的训练。模型的建立包括模型结构的表 示或参数估计算法。模型训练要求系统能够识别说话人,需要首先用说话人的 语音对系统进行训练,并且在识别系统建立和识别系统扩展时,都需要对模板 进行训练。由于说话人的声音常随时期和年龄而变化,常常需要在说话人辨认 第二章 说话人识别技术概述 或说话人证实结果是正确时,由测试音对已识别正确的说话人的模型进行自适 应调整和修正,从而构成自 适应说话人识别系统。 ( 4 ) 模式匹配。 模式匹配的目的也就是进行识别, 随着技术的发展,说 话人识别的方法不断出现, 包括矢量量化,模板匹配法,隐马尔可夫模型,高 斯混合马尔可夫模型,人工神经网络方法等。 ( 5 )判决策略。根据匹配结果判决说话人是否是所声称的说话人,即说话 人确认:或说话人到底是谁,即说话人辨认。 2 . 1 .3说话人识别系统的性能指标 评价说话人识别系统有很多性能指标,其中最重要的是正确识别率。在说 话人辨认系统中,常使用正确识别概率 ( 识别率)或错误识别概率 ( 误识率) 来表征正确识别率 ” 。 说话人确认系统中, 该指标的 表现形 式为错误拒绝率( f r ) 和错误接受率 ( f a ) . f r是拒绝真实的声音造成的差错:f a是将冒名顶替者误 认为说话人造成的。这两个参数是互相矛盾的,一个参数指标的降低,意味着 另一个参数指标的上升。通过改变门限值的大小,可以调整f a与 f r的相对大 小。图2 . 2 给出了门限值与f a , f r 大小的关系曲线。从图中可以看到,无论如 何选择判决闽值,都不能使两个概率同时降低。由于运用的场合不同,对于两 种错误概率的要求也不一样,因此,门限值的选择要根据具体的应用场合确定。 对于f a 要求较低,避免非法者进入的场所,可以将门限值选择在图中c 点所示 的位置;当系统对于f a 没有太高要求,而过高的f r 会引起用户不满的情况下, 此时可以将门限值选择在图中 a点所示的位置上。一般情况下,判决门限可以 是f r 和 f a相等时所对应的点上,如图 2 . 2中的b点所示的位置。这点的错误 率称为等错误概率,经常将其作为评价说话人确认系统的一个重要指标。 第二章 说话人识别技术概述 僻淤书姆 几 c 判决门限 图22说 话人确认的判决门限 和错误概率的 关系 第二节 说话人识别方法 随着计算机和数字信号处理、人工智能等不断地发展,人们尝试了多种说 话人识别方法,使说话人识别率逐步提高。由于识别的 对象不同,三大类的说 话人识别系统 ( 与文本有关的、与文本无关的、文本提示型的)在实现方法上 有很大的差异,具体如下介绍: 2 .2 . 1与文本有关的识别方法 在与文本有关的说话人识别系统当中,由于文本内容是己知的,识别时可 以同时使用语音信号中的语义特征和说话人特征, 所以即 使利用比较短的语料, 也能从中提取出较稳定的说话人特征。因而与文本有关的说话人识别系统往往 能获得令人满意的识别效果。目 前,与文本有关的说话人识别系统的识别方法 最常用的是基于d t w( 动态时间规整)的方法和基于f m m( 隐马尔可夫模型)的 方法。 隐马尔可夫模型方法用概率统计方法描述时变语音信号。系统分为两个阶 段:训练阶段和识别阶段。 在训练阶段,针对各使用者对规定语句或关键词的 发音进行特征分析, 提取说话人语特征矢量的时间序列。 然后利用从左到右h m m 建立这些时间序列的声学模型。因为文本是固定的, 所以 这些特征矢量的时间 第二章 说话人识别技术概述 构造也是固定的。 利用从左到右 h m m能较好的反应特征矢量时间构造特性。在 识别阶段,先和训练阶段一样,从输入语音信号中提取特征矢量的时间序列, 然后利用h m m , 计算该输入序列的生成概率, 并根据一定的判决准则来判决识别 结果。对于说话人辨认系统,所得概率值最大的参考模型所对应的使用者,被 判定为发音的说话人:对于说话人确认系统,把所得概率值与判决门限相比较, 大于或等于判决门限的声音作为本人的声音被接受,小于门限值的声音则被拒 绝。 2 . 2 . 2与文本无关的识别方法 与文本无关的说话 人识别系统的识别方法常见的 有:基于 v q( 矢量量化) 的方法,基于 h m m的方法,基于神经网络的方法和基于语音识别的方法。近年 来,又出现了一种被称为高斯混合模型 ( g m m )的方法,并受到了研究者的普遍 重视。 1 、基于v q 的识别 方法 矢量量化( v e c t o r q u a n t i z a t i o n ,简称v q ) 是8 0 年代发展起来的 信源压缩 编码技术,它具有很好的分类特性. 在说话人识别中,可以把每个待识别的说话人的语音看作一个信号源,用 一个码本来表征,该码本是从说话人的训练语音序列中提取的特征矢量聚类而 成。理想状况,只要训练序列足够长,这个码本就可以认为包含该说话人的个 人特征。对于n个人的系统,需要建立 n个码本。要求这些码本在特征空间中 相互不重叠。识别时, 从待识别的语音中提取一组矢量,若针对说话人辨认过 程,则应用系统中建立的 n个码本依次对它进行矢量量化,来判断这组矢量与 特征空间中的哪一个码本的分布最为吻合,从而得出辨认结果;而确认则只由 所声称的码本进行量化,得出失真距离并与门限值进行比较,从而得出确认结 果。 矢量量化技术一方面可以用若干离散的数字值来表示各种矢量,能够大大 的压缩信息量,减少数 据存储,另一方面,又可以避开困难的语音分段问题和 时间规整问题。 2 ,混合高斯模型g m m 基于高斯混合模型的说话人识别的基本原理是对说话人集合中的每一个说 第二章 说话人识别技术概述 话人建立一个概率模型( 高斯混合模型) ,该概率模型中的参数是由说话人的特 征参数分布决定的,因此表征了说话人的身份。为了使处理简单,令每一个说 话人的概率密度函数形式相同,所不同的只是函数中的参数,这时说话人模型 则是在特定概率密度函数形式下的一组参数。研究表明,说话人的特征分布并 非严格服从某一特定分布( 比如高斯分布) ,然而任何分布都可以由高斯分布的 加权和来逼近,这样就得到了g m m 模型。 3 、基于人工神经网络的方法( a n n ) 人上神经网 络可在一定程度上模仿人脑的功能, 它为说话人识别提供了一 个新的途径. a n n 具有很强的聚类能力和静态分类能力, 可将它用于特征提取和 说话人识别的分 类判决w 。 利用一种具有较好聚类功能的a n n , 通过对它的 训练, 能够更加有效地提取语音样本中包含的关于说话人的特征。例如,选取一种能 揭示聚类结构的网络,这时将训练样本看作是多位特征空间中的点,因此有理 由认为,类别相同或某些特征相似的模式在特征空间中也比较靠近。将说话人 的某种特征, 如静态的、动态的或者几种特征构成的矢量作为 a n n的输入,网 络输出的是它们的类别。假设输入的是 n个说话人的某种特征,那么,当输出 类别的数目 大于某一门限值时,认为通过该特征观察到的模式是以集群状分布 的,也就是说该特征具有一定的表征说话人的能力.这种聚类方法是一种无监 督学习方法,需要一种距离度量,可以根据情况使用欧式距离、汉明距离、马 氏距离或其它适当的 距离度量。 另一方面,由 于a n n 高度的并行性,它可以进行快速判决并具有容错能力, 某些节点的损伤不会影响判决结果,所以在判决方面具有一定的优越性。利用 竞争型网络, 在训练阶段采用有监督学习方法, 根 据训练样本不断修正权值。 测试阶段采用无监督学习方法,并在测试过程中同时学习,使网络能够适应测 试对象的实时变化,即参考模板可以不断更新,在这一点上,正好符合说话人 识别系统的要求,即随着说话人状况的变化,参考模板也在不断变化。此外, a n n 具有存储记忆功能, 可以用部分先验知识对网络进行训练, 使它们记住一些 错误信息,当 测试阶段出现同一错误时,网络便可以自 动将它纠正到正确的分 类中去了。 4 、基于语音识别的方法 基于语音识别的方法, 首先识别出文本的内容, 将与文本无关的说话人识别 任务转化成与文本无关的识别任务,从而提高识别率。 第二章 说话人识别技术概述 在基于语音识别的方法中,音素或者音素类先被清楚的识别,然后将输入 语音中的每个音素( 类) 与说话人模型中相应音素 ( 类)的模型相比较。 在识 别 阶段,对每个音素类都与说话人的相对应的参考模板进行比较,并给出该音素 类的一个识别成绩。最终的识别成绩是一个加权的线性组合成绩。用权来反映 在说话人识别中的各音素类的有效性,并使说话人识别性能最大。 2 .2 .3文本提示型的识别方法 文本提示型说话人识别系统的基本结构图如图2 . 3 所示。 在此类系统中, 不 仅要判别是否是本人的发音, 还要判定是否是本人所发的指定内容的语音。 为了 使系统能够随时更 换指定的文本内 容, 一般系统是以 各说话人的声学基元模型 为 基本模型,然后由 基元模型的连接组成指定文本内容的模型。 图2 . 3文本提示型说话人识别系统结构 文本提示型说话人识别系统多采用 h m m的 方法来实现。系统在训练声学基 元模型时,为了达到利用有限的说话人发音语料,使训练的模型能较好地保持 说话人的个性的目 的,一般先利用多数人说话人语料训练的非特定说话人基元 模型作为初始模型, 然后由各说话人的训练语料,对初始模型进行自 适应训 练, 得到各说话人的基元模型。由于说话人识别系统的自 适应训练语料有限,所以 第二章 说话人识别技术概述 在自 适应训练时,一般仅对混合分布的加权系数,以及各高斯函数的均值向量 进行重估,协方差矩阵参数则保持不变。在识别阶段,根据系统指定的文本内 容,由声学基元模型的连接组成文本模型,然后利用所形成的文本模型和输入 语音时间序列进行匹配,计算由该模型生成的概率值,并把概率值与判决门限 值进行比较,从而进行说话人确认 ( 辨认) 判决。 第三章 说话人识别系统的硬件设计 第三章说话人识别系统的硬件设计 第一节 本系统的硬件总体结构 本系统以t i的 t m s 3 2 0 v c 5 4 0 2 - 1 0 0为核心,其硬件电路结构框图 如图 3 . 1 所示。 图3 . 1说话人识别硬件结构图 该系统以t m s 3 2 0 v c 5 4 0 2 为核心电 路, 对说话人进行识别。 说话人语音信号 由m i c 进行采集,经过t l c 2 2 7 2 进行放大,经由a d 5 0 c 进行信号的a / d 转换, 将采集到的 模拟信号转换成数字信号。再 经过缓冲串口m c b s p 输入到d s p . d s p 采集到语音信号,首先要多次训练产生识别模板,模板的数据存入外部存储空 间,s r a m和 f l a s h 。建立模板之后,便可以进行说话人语音信号采集, 将采集 到的信号与存储空间的模板匹配, 从而实现说话人识别。 d s p 将识别的结果通过 i o 引脚x f 对l e d 指示灯的控制体现。 第三章 说话人识别系统的硬件设计 下面几节将会对该系统按照电源部分、 语音信号采集部分, d s p 核心部分以 及p c b 设计部分进行分别介绍。 第二节 系统的硬件各部分设计 3 . 2 . 1系统电源部分的设计 本系统中用到的d s p 采用了双电 源供电机制, 以获得更好的电源性能: 1 . 8 v 对应内核电源 ( c c v d d ) ,主要为该器件的内部逻辑提供电流,包括c p u 、时钟电 路和所有片上外围电路; 3 . 3 v 对应i / 0 电源( d v d d ) , 为外部接口引脚提供电压, 这样可以 直接与外部低压器件接口,而不需要额外的电平转换电路; 降低内 核电 压的主要目 的是降低功耗。这里,我们选用了 t i公司的电源芯片 t p s 7 6 7 d 3 1 8 来提供d s p 正常工作所必需的两种电路环境。 t p s 7 6 7 d 3 1 8 主要是为o r 的应用而设计,可以 提供两路电 压输出,一路为 3 . 3 v , 另一路 1 . 8 v 。其中每路输出可提供最大为 1a的直流电流.并且能提 供要 求的 复 位信号快速响应, 3 . 3 v 电 压建立只需1 2 0 u s o 图3 . 2为电源供电部分的电路图,输入端输入+ 5 v 直流电压, 两个输出端 分别输出 + 3 . 3 v 和+ 1 . 8 v 直流电压,每个输出端的最大负载电流最大能达到i a , 完全能满足本系统的需求。其中电源芯片带有复位引脚,可以输出低电平复位 信号用于上电复位, 本系统中未使用该复位信号。 另外,t p s 7 6 7 d 3 1 8 在上电时 首先会给内核先上电然后再对外围电路上电,而掉电时外围电路先掉电然后再 内核掉电,这样有利于保护d s p 芯片。 第三章 说话人识别系统的硬件设计 图3 . 2系统电源部分原理图 3 . 2 .2 语音采集前端部分设计 语音信号的前端处理部分包括语音信号的采集、放大、滤波,通过麦克将 采集到的语音信号进行处理后送到a / d转换器中进行模数转换之后送到 d s p进 行算法处理,这是说话人识别电路的基础。 运算放大器采用t t i 公司的t l c 2 2 7 2 , t l c 2 2 7 2 是一款具有r a i l - t o - r a i l 输出能力的高性能的运算放大器,它的增益带宽为2 . 2 m h z , 比目 前常用的c m o s 运放有更好的噪声、 功耗和输入失调电压性能。 t l c 2 2 7 2 所具有的低噪声和高输 入阻抗非常适宜用于诸如电压/ 电流传感器之类的小信号的计算、放大。此外, r a i l - t o - r a i l 的输出 特性似使得t l c 2 2 7 2 非常适合与模拟/ 数字转换器件接口使 用。 图 3 . 3 为说话人识别系统中t l c 2 2 7 2构成的语音信号前端模拟电路。语音 信号前端模拟电路的第一级运放将由麦克风输入的语音信号进行滤波,并放大 1 0 倍,第二级将信号由 单端输入信号变为差动双端信号, 输出工 n p 与 i n m相位 相反的信号。输出的信号被接到a d 5 0 c的第 5 和第6 两个输入引脚进行数字化, 这样,可以抵消模拟信号在传输过程中受到电路板上其它电路造成的干扰。 第三章 说话人识别系统的硬件设计 甲副山甲 图3 . 3前端信号处理电 路 3 . 2 . 3 语音信号模数转换部分设计 模数接口设计是说话人识别系统设计中的一个重要的组成部分。本系统使 用t i 公司的t l c 3 2 0 a d 5 0 c 芯片( 以下简称a d 5 0 ) . a d 5 0 是一款集成有a / d 和d / a 的芯片,d s p 与a d 5 0 连接后,可以使用缓冲通道串口 实现语音数据的采集。 3 .2 .3 . 1 t l c 3 2 0 a d 5 0 c芯片介绍 t l c 3 2 0 a d 5 0 c芯片是 t i公司生产的多媒体音频解码器芯片 ( a n a l o g i n t e r f a c e c i r c u i t s o r a i c s ) , 它为系统提供一个 灵活 通 用的 音频前端。 该芯 片集成 a / d , d / a于一体, a / d和 d / a转换的精度均为 1 6位。 最高采样率为 2 2 . 0 5 k h z ,其采样速率可通过编程来设置。该器件包括两个串 行的同步转换通 道( 用于各自的数据方向) ;在 d a c之前有一个插入滤波器和a d c之后有一个抽 取滤波器,由此可以降低a d 5 0 的噪声。 其它的高级功能有采用过采样e- 0 技术 提供从数字信号到模拟信号和模拟信号到数字信号的高分辨率低速信号转换。 该器件的选项和电路结构可通过串行接口 进行编程。 其选项包括:复位、掉电、 通信协议、串行时钟率、信号采样率、增益控制及测试方式等。 a d 5 0 芯片的主要特点有: .可采用一单5 v 电源供电也可以采用5 v 模拟、3 . 3 v 数字双电源供电; .集成了1 6 位e - a 型a / d , d / a 转换器; 第三章 说话人识别系统的硬件设计 .串 行接口, 通用1 6 位信号处理: . a d c 为6 4 倍过采样, 而d a c 为2 5 6 倍过采样( 内 部) ; . 采样速率可通过编程来设置,最高采样速率2 2 . 0 5 k h z ; . 全部器件为差分结构; . 具有8 5 d b 的 最小信噪比: . 可以配置成主从器件方式,最多支持3 个从器件; . 带有内建抗混叠滤波器和s i n x l x 补偿; 7 3 t l c 3 2 0 a d 5 0 c 结构原理图如图3 . 4 所示。 一二!altw7fc! 图3 . 4 t l c 3 2 0 a d 5 0 c 结构原理图 其a / d 和d / a 转换功能框图如图3 . 5 所示。 语音翰出 . 3 . 5 t l c 3 2 0 a d 5 0 c 的a / d , d / a 转换功能框图 a d 5 0 具有 7 个可编程的内部寄存器,通过软件编程能随时控制它的采样频 第三章 说话人识别系统的硬件设 计 率,模拟输入以及输出的增益等。在a d 5 0 正常工作前,必须对它进行正确的初 始化。初始化操作的主要工作是配置 a d 5 0 的四 个控制寄存器c r 1 , c r 2 , c r 3 , c r 4 o 控制寄存器0 ( c r o )是空操作寄存器,不执行任何操作,但是c r o能够响 应握手通信请求而不改变其他控制寄存器的值。 控制寄存器 1 ( c r 1 ) 主要控制软件复位、软件掉电 模式、 选择正常输入或 辅助模拟输入、监控下正常输入或监控辅助模拟输入、监控放大器输出增益的 选择、数字反馈的选择、1 6 位d a c 模式或 1 5 十 1 位d a c 模式的选择。 控制寄存器2 ( c r 2 )主要作用有显示f l a g的输出 值、允许电话模式、显示 抽取f i r 滤波器溢出标志、 选择1 6 位的a d c 模式或者1 5 +1 位的a d c 模式、 模 拟反馈回路的选择。 控制寄 存器3 ( c r 3 ) 决 定雨 与两 万之间 延 迟的s c l k 的时 钟 个数; 通知 主 器件有多少从器件将连在一起 ( 最大为3 个) 。 控制寄存器 4 ( c r 4 ) 用来编程采样率, 选择模拟输入和输出 放大器的增益以 及编程确定外部采样时钟频率和选择旁路p l l 模式等。 控制寄存器5 ( c r 5 )控制寄存器 6 ( c r 6 )用于工业测试使用。 t l c 3 2 0 a d 5 0 c 的采样频率由控制寄存器4 设定。 当内 部倍频电路有效( d 7 = 0 ) , 它的采样频率为 m c l k / ( 1 2 8 x n ) :如果旁通内部倍频电 路有效 ( d 7 = 1 ), 它的采 样频率为m c l k / ( 5 1 2 x n ) 。其中,n由控制寄存器4 的第6 位至第4 位的状态对 应的n 值来确定。如果要设定的采样频率低于7 k h z ,由 于p l l 工作的时钟频率 必须高于 7 k h z ,因此这种情况下不能使用内部倍频电 路, 必须使用旁通内部倍 频电路即非p l l 模式, 相应的采样频率也设定为m c l k / ( 5 1 2 x n ) 。 输出的串口 时 钟频率 ( s c l k )由采样频率决定而不是由主时钟决定,串口时钟与采样频率之 间 的 关系为 : s c l k = 2 5 6 x f o“ , , t l c 3 2 0 a d 5 0 与d s p 串 行通信可以分为首次通信和二次 通信。 在首次通信中, 有两种数据传送模式,1 6 位传送模式和 1 5 + 1 位传送模式,可通过控制寄存器 设定。省却情况下为 1 5 十 1 位传送模式。若采用 1 5 十 1 位传送模式,其最低 位d o 为非数据位, 输入d a c 数据的则位为二次通信请求位, 输出a d c 数据的d o 位为m / s脚的状态位。首次通信的a d c及d a c 的时序图如图3 . 6 和3 . 7 所示。 第三章 说话人识别系统的硬件设计 讨 。 d o wn - 7 j o 图3 . 6 首次通信时a d c : 通道时序 n勺 刁甸 态 图3 . 7 首次通信时d a c 通道时序 a d 5 0控制寄存器的 设置必须在二次通信中完成, 二次通信只有在发出 请求 时产生,当 首次通信采用 1 5 + 1 位模式时,可以用 d o 进行二次通信请求,当首 次通信采用 1 6位模式时,则必须由 f c脚输入信号来产生二次通信请求,即硬 件启动。d s p 通过控制a d 5 0 的f c引脚到高电平,向缓冲串口写一个 1 6 位的控 制字,低八 位 ( d 7 - d o ) 是 a d 5 0的控制寄存器初始化值,高八位选择所要初始 化的控制寄存器及其操作, 其中, d 8 -d 1 2 的内容决定选择哪个控制寄存器, d 1 3 位决定是读操作还是写操作 ( d 1 3 =0 , 写操作: d 1 3 = 1 , 读操作) 。 通过二次通信, 可实现 t l c 3 2 0 a d s o c 初始化和修改t l c 3 2 0 a d 5 0 c内部控制寄存器。 3 . 2 . 3 . 2 t ms 3 2 0 v c 5 4 0 2 与t, c 3 2 0 a d 5 o c的连接 d s p 通过m c b s p 与a d 5 0 进行连接实现串口 通信。 连接电路如图3 . 8 所示。 第三章 说话人识别系统的硬件设计 图3 . 8 t l c 3 2 0 a d 5 0 c与 t m s 3 2 0 c 5 4 0 2 的m c b s p 之间的接口 图 3 . 8中a d 5 0的时钟信号由外接有源晶振提供,a d 5 0的 d i n ( 数据输入引 脚) 和d o u t ( 数据输出引脚) 分别接d s p 的缓冲串口的b d x( 缓冲串行口数据发送 端) 和b d r( 缓冲串行口数据接收端) 引脚。 a d 5 0 的s c l k ( 移位时钟输出) 与d s p 的缓冲串口的时钟引脚相连。a d 5 0 的f s ( 帧同步信号) 连接 d s p 缓冲串口的帧同 步脉冲。 d s p 的x f 设置为输出,与a d 5 0 的f c连接, 作为二次通信的请求端。 为了 达到更好的信号处理效果,a d 5 0的模拟输入一般采用差分输入方式, 信号经过t l c 2 2 7 2放大以后,产生一正一负两路信号i n p , i n m ,这两路信号同 时连接到a d 5 0 的i n p 与工 n m 端,如果此时有随机噪声出 现,通过正负信号的加 减, 可以 有效的消除部分噪声。 a / d 转换器将输入的模拟信号转化为以二进制补 码表示的数字信号,转化后的数字信号通过a d 5 0 内部的可编程放大器后,在串 口时钟 ( s c l k )的上升沿的作用下,从芯片的d o u t 口 输出,通过设置控制寄存 器2 ,可以设置a / d 转换器每次的传送模式是1 6 位还是 1 5 +1 位。 3 . 2 .4系统扩展存储器电路 v c 5 4 0 2 的内部有4 k x l 6 b i t 的片上r o m 和1 6 k x l 6 b i t 的片上d a r a m ,因此 用于音频处理及数据存储是不够的,需要进行存储空间的 扩展。 v c 5 4 0 2 具有1 6 根数据线, 2 0 根地址线。因此能支持最大存储空间为1 m x 1 6 b i t o v c 5 4 0 2 的数 据总线宽度为1 6 位,总线电平为3 . 3 v ,为了 使扩展存储器能与d s p 直接相连, 在选择扩展存储器时尽量选用数据总线为1 6 位,总线电平为 3 . 3 v 的存储器。 本系统中选用型号为 6 1 l v 2 5 6 1 6的s r a m作为扩展数据存储器。6 1 l v 2 5 6 1 6 是i s s 工 的2 5 6 k x 1 6 高 速异步c m o s 静态r 胡。 工作电 压为+ 3 . 3 v , 总线工作电 平 第三章 说话人识别系统的硬件设计 为3 . 3 v , 总 线 输出 为 三态输出, 存储速度最快能达到8 n s ee 3 o 6 1 l v 2 5 6 1 6 与v c 5 4 0 2 的接口电路如图3 . 9 所示。 图 3 . 9 v c 5 4 0 2 与6 1 l v 2 5 6 1 6 接口电路 图3 . 9 中6 1 l v 2 5 6 1 6 的数据总线与v c 5 4 0 2 的 数据总线直接相连, 其地址总 线共有1 8 根, 直接连到d s p的低 1 8 位地址总线上。 6 1 l v 2 5 6 1 6 的选通和读写信 号都是由d s p 的读/ 写信号r / w 和外部存储器选通信号m s t r b 经过7 4 f 3 2 四2 输 入或门之后得到的信号给出的。 本系统选用型号为a m 2 9 l v 8 0 0 b 的f l a s h 做为扩展程序存储器。a m 2 9 l v 8 0 0 b 事a m d 公司的一款f l a s h ,它的存储空间大小为5 1 2 k ,数据总线宽度为1 6 位, 工作电 压为 + 3 . 3 v , 总线电 平为 3 . 3 v , 存储速度最快能达到 7 0 n s 。与其他 f l a s h 不同的 是, a m 2 9 l v 8 0 0 b 具有灵活的页面结构, 一个1 6 k 字节页, 2 个8 k 字节页, 一个3 2 k 字节页和1 5 个6 4 k字节页。与v c 5 4 0 2 的接口电路如图3 . 1 0 所示。 第三章 说话人识别系统的硬件设计 3 . 1 0 v c 5 4 0 2 与a m 2 9 l v 8 0 0 b 接口电路 图3 . 1 0 中a m 2 9 l v 8 0 0 b 的1 6 位数据总线直 接与d s p 的1 6 位数据总线相 连。 a m 2 9 l v 8 0 0 b 可以 工作在 1 m x 8 b i t 和5 1 2 k x 1 6 b i t 两种模式。当 工作在1 6 位 模 式时,b y t e 引脚要上拉,第1 6 位数据线由d q 1 5 / a - 1 来充当。 a m 2 9 l v 8 0 0 b 共 有 1 9 位地址总线直接连接到v c 5 4 0 2 的低1 9 位地址上 , f l a s h的 选通和读写信 号 都是由d s p 的读/ 写信号r / w 和外部存储器选通信号m s t r b 经过7 4 f 3 2 四2 输入 或门之后得到的信号给出的, f l a s h的复位是低电平复位, 可以直接接到d s p 的 复位引脚上。 3 . 2 . 5 j t a g接口电路 t m s 3 2 0 v c 5 4 0 2 芯片集成有j t a g 控制端口 。 j t a g 是基于i e e e 1 1 4 9 . 1 标准 的 一种边界扫描测试方式。结合仿真器和仿真软件,可以 访问d s p 的所有资源, 包括片内寄存器以及所有的寄存器,从而提供了一个实时的硬件仿真与调试环 境,便于进行系统软件调试。其引脚为: .t c k :测试时时钟输入引脚。 通常是一个占空比为5 0 %的方波信号。在 t c k 的上升沿,将输入信号t m s 和t d i 在测试访问口t a p 处的变化,记录在t a p 控制器、指令寄存器或选定的测试数据寄存器中。 t a p 输出 ( t d o ) 的变化发生 在t c k 的下降沿。 .t d i :测试数据输入引脚。 在t c k 的上升 沿, 将该引脚的信号记录到 所 选 第三章 说话人识别系统的硬件设计 定的指令寄存器或数据寄存器中。 0 t d o : 测试数据输出引脚。在t c k 的 下降沿,将所选定的寄存器 ( 指令寄 存器或数据寄存器)中的内容从该引脚输出。 o t m s :测试方式选择引脚。在t c k 的上升沿,该串行控制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论