(计算机应用技术专业论文)基于hmm的分布式语音识别系统的研究与应用.pdf_第1页
(计算机应用技术专业论文)基于hmm的分布式语音识别系统的研究与应用.pdf_第2页
(计算机应用技术专业论文)基于hmm的分布式语音识别系统的研究与应用.pdf_第3页
(计算机应用技术专业论文)基于hmm的分布式语音识别系统的研究与应用.pdf_第4页
(计算机应用技术专业论文)基于hmm的分布式语音识别系统的研究与应用.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于hmm的分布式语音识别系统的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕七学位论文 摘要 摘要 传统的嵌入式语音识别系统存在结构复杂 硬件要求高 灵活性和鲁棒性差 以及词库更新难等不足 本文从网络应用的角度研究了基于h m m 的分布式汉语 语音识别系统的相关技术 包括服务器上词库的分类 更新和训练方法 以及在 嵌入式终端中端点检测和特征提取过程的优化实现等 通过建立语言模型将孤立 字识别转换为词识别以及将语音训练和识别过程从嵌入式终端转移到网络服务 器等方法 降低了终端的计算量 提高了系统整体的灵活性和响应能力 本文的 主要工作和创新点如下 1 利用分布式信息处理的思想 将语音训练和识别分布在服务器上 语音 特征提取分布在终端 终端将提取出的语音特征格式化成数据包 通过网络传递 给服务器 由服务器进行语音识别并返回结果 2 提出在服务器端用标签对词库进行分类和更新的方法 将词汇集中的每 个词赋以标识该词所在分类信息的标签后存储到数据库 当获得该词的足量语音 样本时进行训练并创建声学模型和语言模型 本文还提出了个性化语音识别方法 通过显式或隐式搜集特定用户的语料 对通用语音模型进行个性化调整 提高系 统对特定用户语音识别的准确率 同时不失通用语音识别系统的普适性优势 3 在嵌入式终端将频域端点检测和特征提取同步进行 结合算法优化 查 表和定点实现等措施降低计算时间 并将得到的语音特征通过网络传递给服务器 并由服务器进行语音识别计算 最后接收服务器的识别结果 4 将网络服务器和嵌入式终端通过网络互联 以一个网络新闻推荐系统 智 能网络搜音机服务平台及终端 为例实现了一个分布式语音识别系统原型 实验 表明分布武语音识别可行性强 能为嵌入式系统分担计算和存储压力 且词库可 动态更新 并具备个性化语音识别能力 系统的灵活性好 关键词 分布式语音识别 嵌入式系统 隐马尔科夫模型 矢量量化 浙江人学硕j 二学位论文a b s t r a c t a b s t r a c t t r a d i t i o n a le m b e d d e ds p e e c hr e c o g n i t i o ns y s t e m sh a v em a n yd r a w b a c k ss u c ha s c o m p l e xa r c h i t e c t u r e h i g h h a r d w a r e r e q u i r e m e n t s i n c a p a b i l i t y o fu p d a t i n g v o c a b u l a r y l a c ko ff l e x i b i l i t ya n dp o o rr o b u s t n e s s f r o mt h ep e r s p e c t i v eo fn e t w o r k a p p l i c a t i o n s t h i sp a p e ri n v e s t i g a t e st h em e t h o d so fc l a s s i f i c a t i o n u p d a t e i n g a n d t r a i n i n go fm a n d a r i nt h e s a u r u so nt h es e r v e ro ft h eh m m b a s e dd i s t r i b u t e ds p e e c h r e c o g n i t i o n d s r s y s t e m t h ep a p e ra l s os t u d i e dt h eo p t i m i z a t i o no fe n d p o i n t d e t e c t i o na n df e a t u r ee x t r a c t i o na tt h et e r m i n a l t h ep h r a s ei s r e c o g n i z e db y m u l t i w o r di d e n t i f i c a t i o nw i t ht h e l a n g u a g em o d e l f u r t h e r m o r e m o s ts p e e c h r e c o g n i t i o nc o m p u t a t i o ni st r a n s f e r r e df r o mt e r m i n a lt os e r v e r a n dr e c o g n i t i o nr e s u l t i ss e n tb a c kt h r o u g hn e t w o r k t h em a i ni n n o v a t i o n sa n de f f o r t si nt h i sw o r ka r ea s f o l l o w s 1 b a s e do nt h ei d e ao fd i s t r i b u t e di n f o r m a t i o np r o c e s s i n g s p e e c ht r a i n i n ga n d r e c o g n i t i o na r ep l a c e do nt h es e r v e r a n df e a t u r ee x t r a c t i o nl o c a t e sa tt h e t e r m i n a l t h e e x t r a c t e df e a t u r ei sf o r m a t t e di n t od a t ap a c k e t sa n ds e n tt os e r v e rf o rr e s p o n d i n g z l a b e lt e c h n o l o g yi sa d o p t e dt oc l a s s i f ya n du p d a t et h e s a u r u so nt h e s e r v e r s i d e t h en e ww o r d sc o l l e c t e df r o mt h ew e ba r et a g g e dw i t hl a b e l sa n ds t o r e di n t ot h e d a t a b a s e a ss o o na st h es e r v e rg e t se n o u g hc o r p u s e so ft h e s en e w l ya d d e dw o r d s t r a i n i n gp r o c e s si sp e r f o r m e dt oc r e a t et h ea c o u s t i ca n dl a n g u a g em o d e l s f u r t h e r m o r e t h i st h e s i sp r o p o s e st h ec o n c e p to fp e r s o n a l i z e ds p e e c hr e c o g n i t i o n w h i c ha d a p t st h e g e n e r a ls p e e c hm o d e la n dm a k e si tp e r s o n a l i z e dt h r o u g hc o l l e c t i n gs p e c i f i cu s e r s c o r p u se x p l i c i t l yo ri m p l i c i t l y t h em e t h o dc a l li m p r o v et h er e c o g n i t i o na c c u r a c yf o r s p e c i f i cu s e r s w i t h o u tl o s i n gu n i v e r s a l i t ya d v a n t a g eo fg e n e r a l p u r p o s es p e e c h r e c o g n i t i o ns y s t e m 3 a tt h et e r m i n a l w i t ht h em f be n d p o i n td e t e c t i o nm e t h o d o p t i m i z e db y l o o k u pt a b l ea n df i x e d p o i n tc o n v e r s i o n t h ev o i c ea c t i v i t yd e t e c t i o na n df e a t u r e e x t r a c t i o na r ep e r f o r m e dc o n c u r r e n t l ya n de f f e c t i v e l y t h ef e a t u r ei ss e n tt ot h es e r v e r f o rs p e e c hr e c o g n i t i o nc o m p u t a t i o n i i 浙江大学硕士学位论文a b s t r a c t 4 t h en e t w o r ks e r v e ra n de m b e d d e dt e r m i n a l sa r ec o n n e c t e dt h r o u g hn e t w o r k o nw h i c han e w sr e c o m m e n d i n gs y s t e m i n t e l l i g e n tn e t w o r kr a d i o i se s t a b l i s h e da s a ne x a m p l e t h ee x a m p l es y s t e mc o n t a i n sap r o t o t y p eo fd i s t r i b u t e d s p e e c h r e c o g n i t i o n e x p e r i m e n tr e s u l t ss h o wt h a tt h es y s t e mh a sg a i n e df e a s i b i l i t y l o w q u a n t i t yo fc o m p u t a t i o n a n dt h et h e s a u r u sc a nb ed y n a m i c a l l yu p d a t e d k e y w o r d s d i s t r i b u t e ds p e e c hr e c o g n i t i o n e m b e d d e ds y s t e m s h i d d e nm a r k o v m o d e l s v e c t o rq u a n t i z a t i o n i i i 浙江大学硕l 学位论文图目录 图目录 图1 1 语音识别最近十年的学术关注度 3 图1 2 分布式语音识别系统下的信息处理和获取 4 图1 3 论文结构和内容组织 5 图2 1 软件语音识别的一种基本流程 6 图2 2 语音的m f c c 特征参数提取步骤 8 图2 3 基于统计模型的语音识别系统框图 o l o 图2 4 分布式语音识别系统的基本流程 1 3 图3 1 分布式语音识别系统框架 1 4 图3 2 网络语音识别系统总流程图 1 5 图3 3 词库管理等模块在系统中布局 1 9 图3 4 词库标签分类方法 2 0 图3 5 词库训练数据获取方式 2 2 图3 6 词库更新与训练流程图 2 2 图3 7 模型存储 传输和转化流程 2 3 图3 8 基于v q h m m 的孤立词语音识别框图 2 4 图3 9 矢量量化的l b g 算法流程图 2 6 图3 1 0 汉字语音识别模型层次结构 矗 2 7 图3 1 l 三种类型的状态转移 2 8 图3 1 2 系统所用的语法网络示例图 2 9 图3 1 3 即将迅速崛起的物联网 3 l 图4 1 特征提取和端点检测同步处理流程 3 3 图4 2m f b 端点检测流程图 3 5 图4 3 赫兹频率与梅尔频率的非线性曲线 3 8 图5 1 分布式语音识别系统实验环境 4 l 图5 2 本系统所用的h m m 模型基本拓扑结构 4 6 图5 3 拼音数和识别时间曲线图 4 9 图5 4 词数和识别时问曲线图 5 0 图5 5 个性化数据加入前后的语音识别结果对比 5 3 图5 6 个性户化数据加入前后各项指标的变化 5 3 浙江大学硕士学化论文表目录 表目录 表1 1 已制定的部分d s r 标准 3 表3 1h m m 不同实现方式比较 17 表3 2 词条在数据库中的存储格式 2 1 表5 1 分布式语音识别系统中前端嵌入式系统配置 4 2 表5 2 分布式语音识别系统中后端p c 服务器配置 4 2 表5 3 语音识别系统测试词汇表 4 3 表5 4 原始词模型对城市名称的识别结果 4 8 表5 5 无个性化语音时的识别结果 5 2 表5 6 有个性化语音时的识别结果 5 2 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已经发 表或撰写过的研究成果 也不包含为获得浙江大鲎或其他教育机构的学位或 证书而使用过的材料 与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文作者签名 签字日期 年月日 学位论文版权使用授权书 本学位论文作者完全了解逝江大鲎有权保留并向国家有关部门或机构 送交本论文的复印件和磁盘 允许论文被查阅和借阅 本人授权逝江大鲎可 以将学位论文的全部或部分内容编入有关数据库进行检索和传播 可以采用影印 缩印或扫描等复制手段保存 汇编学位论文 保密的学位论文在解密后适用本授权书 学位论文作者签名 导师签名 签字日期 年月日 签字日期 年月日 浙汀人学硕士学化论文第l 章绪论 1 1 课题背景 第1 章绪论 嵌入式系统经过多年发展 软硬件已具备进行简单语音识别的能力 但这些 设备所用的语音识别技术大多将所有语音识别任务甚至语音训练任务都集中在 单一的设备上 其缺点是对系统硬件要求高 如要求c p u 计算能力强 存储容 量大等 为降低硬件要求 目前嵌入式语音识别软件大多采用简化语音识别算法 限制词库大小等方法 使用这些方法的代价是语音识别软件性能差 功能简陋 如词汇表小且固定不变 抗噪声能力差等 常常无法满足需要 分布式语音识别 d i s 仃i b u t e ds p e e c hr e c o g n i t i o n d s r 1 为嵌入式系统的语 音识别应用开辟了新道路 它伴随无线网络的推广应运而生 其基本思路是将语 音识别过程分成几个功能相对独立的模块 将这几个模块的计算分布到网络上的 不同设备 通过定义和规范模块接口使模块协同工作 共同完成语音识别 它的 最主要优点是对终端计算能力和存储量要求低 灵活性强等 目前 嵌入式语音技术应用主要集中在以智能手机为代表的通信应用 以导 航为代表的汽车应用以及随身数码娱乐等 其中大部分属于移动应用 随着无线 网络的普及以及3 g 时代的到来 融合了语音技术 网络应用和其他技术业务如 个性化新闻推荐 用户行为分析和挖掘等于一身的综合应用服务 将会给用户带 来新的体验 为各行业带来新的发展机遇 然而 语音识别要作为人机交互的一 种有效手段 在成本 可靠性和用户体验等方面必须有提高 语音技术有利于社会和谐 信息无障碍是促进社会和谐的重要组成 它是指 任何人在任何情况下都能平等 方便 无障碍地获取和利用信息 2 1 包括电子和 信息技术无障碍和网络无障碍 前者指电子和信息技术相关软硬件本身的无障碍 设计以及辅助产品和技术 后者包括网页内容无障碍 网络应用无障碍以及它们 与辅助产品和技术的兼容 推动信息无障碍的目的是使电子信息技术和网络对尽 可能多的人更加可用和易用 无线网络的普及给嵌入式语音识别带来了新的发展空间 按照目前嵌入式系 统发展状况 大词汇量语音识别将消耗极大的计算资源 并触及嵌入式系统的一 浙江大学硕士学位论文第1 章绪论 大软肋即电池续航时间 传统语音识别系统的另一缺点是这些系统由于由不同组 织研制而难以进行资源整合 不利于发掘语音识别的潜在价值 借助分布式语音 识别技术和无线网络 这些问题将有望解决 首先终端不再独立承担语音识别任 务 只需计算量相对较小的特征提取等工作 大部分计算交给服务器 其次 遵 循标议的分布式语音识别系统可支持不同终端的请求 这可降低终端上语音识别 应用的研发成本 综上可知研究本课题具有很强的现实意义 1 2 研究现状和发展趋势 自动语音识男 a u t o m a t i cs p e e c hr e c o g n i t i o n a s r 在计算机出现前就有研究 早期由硬件实现的声码器是语音识别及合成的雏形 最早基于数字计算机的语音 识别系统是由a t t 开发的a u d r e y 系统 3 1 它通过跟踪共振峰可识别十个英文 数字且正确率很高 2 0 世纪5 0 年代末 d e n e s 将语法概率加入语音识别系统 4 6 0 年代人工神经网络 a r t i f i c i a ln e u r a ln e t w o r k a n n 弓i 入语音识别 期间的两大 突破是线性预测编码 l i n e a rp r e d i c t i v ec o d i n g l p c 和动态时间规整 d y n a m i c t i m ew a r p i n g d t w 7 0 年代隐马尔科夫模 型 h i d d e nm a r k o vm o d e l h m m 是语 音识别技术的重大突破1 5 1 后经b a u m 和l a b i n e r 等的研究 6 1 9 8 8 年c m u 实现 首个基于h m m 的大词汇量语音识别系统s p h i n x 7 1 此后的语音识别基本未脱离 该模型 但语音识别在还不能支持任意语言或任意说话人的应用 8 0 年代嵌入 式系统开始发展 h m m 此时虽已完善 但因训练和识别因计算量大不适用于嵌 入武设备 9 0 年代后期嵌入式硬件性能有了较大提升且成本也降低了 一方面 人们开始研制语音识别专用芯片 另一方面 学术界开始了对h m m 以及特征提 取的优化研究 以降低计算量和内存消耗 适应嵌入式系统的要求 为让更多设备能便捷地拥有语音识别能力 让更多设备通过网络共享语音识 别功能 欧洲电信标准协会 e u r o p e a nt e l e c o m m u n i c a t i o n ss t a n d a r d si n s t i t u t e e t s i 和互联网工程任务鲑i i n t e m e te n g i n e e r i n gt a s kf o r c e i e t f 等标准化组织从2 0 0 0 年开始针对不同应用场合制定了分布式语音识别相关的一系列标准 8 1 如表1 1 所示 表中 前端 是指享受语音识别服务的客户端 也称终端 后端 是指 提供语音识别服务的服务器 2 浙江人学硕士学f 进论文第1 章绪论 表1 1 已制定的部分d s r 标准 标准号说明剞定组织 e s2 0 1 1 0 8 前端梅尔频谱 m e j c e p s t r u mf r o n t e n d e t s is t q a u r o r a e s2 0 20 5 0高级前端范 a d v a n c e df r o n t e n d e t s is t q a u r 0 1 a e s2 0 22 1 1前端梅尔频谱扩展 x f e e t s is t q a u r o r a e s2 0 22 1 2 高级前端规范扩展 x a f e e t s is t q a u r o r a t s2 6 2 4 3针对e s2 0 20 5 0 2 1 2 标准的定点规范3 g p p r f c 3 5 5 7针对e s2 0 11 0 8 的r t p 负载格式l e t f r f c 4 0 6 0针对e s2 0 11 0 8 和e s2 0 20 5 0 2 11 2 1 2 的r t p 负载格式规范i e t f 语音识别在嵌入式领域的主要应用是语音命令控制 多应用于智能仪器仪表 遥控器及手机等便携式设备中 这类应用通常只需要对几十个或几百个词汇量的 命令进行识别 属于小词汇量语音识别系统 但要求高准确性和健壮性 伴随着 技术的发展 学术界对语音识别的关注度在近十年来逐步提升 主要研究为语音 应用方面尤其是语音接口和系统优化等研究 2 0 0 9 年1 2 月c n k i 对语音识别学 术关注度的统计表明 语音识别最近十年的学术研究保持着良好态势 图1 1 语音识别最近十年的学术关注度 无线网络的普及将促进语音识别的广泛应用 随着语音识别和合成技术共同 进步和硬件性价比提高 未来发展将主要围绕命令控制 信息检索和语音对话等 方面 基于网络和移动设备的分布式语音识别将成为新的发展方向 1 3 论文目的和意义 分布式语音识别应用前景广阔 消费电子中无线网路功能的普及给分布式应 用提供了基础保障 庞大消费群体的需求给语音识别注入了新鲜血液 语音通信 标准的制定给分布式语音识别平台指引了方向 能让更多产品便于加入 语音技 术还可帮助残障人群获取信息 9 尤其是视力残疾者 用键盘或鼠标输入信息存 在不便 而用语音输入则能更好地与计算机等设备进行交互 了解更多信息 眼 折 大 目 位 女 第1 章绪论 晴是人获取信息的极重要途径 视力j 戋疾群体的不便比其他类型残疾人更严重 帮助他们有效获取信息和与外界沟通很有意义 推进信息无障碍建设是建设和谐 社会的需要 是建设信息化社会和学习型社会的需要 是消除信患鸿沟体现社会 公平的需要 是政府和全社会共同的义务 1 0 1 目前互联网上一些网站已按信息产业部 信息无障碍身体机能差异人群网 站设计无障碍技术要求 y d 厂r 1 7 6 1 2 0 0 8 川制作罔站 方便7 上进工具的使用 但在嵌入式系统中对视力残疾人关注过少 这些设备中以语音方式进行交互的产 品不多或功能不健全 如手机中只提供语音拨号显然不能满足需要 因为许多语 音拨号程序假定手机中已经存有联系人姓名和号码等信息 但这些信息如何存入 没有提供相应工具 再是现有嵌入式设备对互联网信息获取少 网络已成为人们 主动获取信息的重要途径 是其他传统媒夼无法电拟的信息舞台 其突出优势在 于信息量大且更新快 获取方式多 若能通过终端方便地与网络进行高教交互 将能极大丰富精神生活 由于目前许多两站技术不规范 网络尤其是无线网络带 宽低及信息繁杂等 应优先考虑最重要的信息 如新闻 天气预报和博文等 选 择信息来源时优选更新快 服务器稳定 网络带宽好的站点以及常用网站 通过将语音识别和语音合成技术应用于嵌入式设备终端 提供自然 便捷 友好的人机接口 并能根据对用户平时的操作情况的分析主动给用户推荐相关信 息 则能获取到是丰富 更新 鞫i 的信息 如图1 2 所示 圈1 2 分布式语音识剧系统下的信息处理和获取 针对语音识别和嵌入式系统的现状 本文结合网络信息推荐系统 智能网络 搜音机服务平台和终端 设计和实现一个基于h m m 的分布式语音识别系统 并 浙江大学硕士学位论文第1 章绪论 对终端提取语音特征的过程进行优化 其独特之处在于该分布在网络服务器和嵌 入式系统终端 词汇表根据网络上的信息动态变化并适时进行语音训练 词汇表 使用标签技术分类 服务器计算能力强 可用常规语音训练和识别方法 嵌入式 终端由于计算能力 功耗和成本等原因在提取特征时需优化 1 4 研究内容和章节安排 本文分六章 论文结构安排参见图1 3 第2 章综述了基于h m m 的语音识 别系统的基本流程 模型及算法 并引出分布式语音识别系统 第3 章详细阐述 系统中服务器端的语音训练和语音识别 包括词库更新和分类 模型的更新存储 传输和转化等 并提出个性化语音识别方法 第4 章叙述客户端端点检测和语音 特征提取方法及实现角度的优化措施 第5 章根据第3 4 章的分析和描述设计和 实现了一个分布式语音识别系统原型并对实验结果进行了分析 第6 章对本文工 作进行总结 分析存在的弱点和不足 并简要展望了分布式语音识别的未来 r 第l 章绪论 国述课题背景 研究现状和发展趋势 并弓l 出本文工作j f 第2 章语音识别与分布式语音识别综述 1 恪述基于h m m 模型的语音识别流程和算法以及分布式语音识别 00 名3 章服务器端词库管理和语音识别方法 厂第4 章客户端端点检测和特征提取方法 详述服务器端的词库管理和语音训练及识阐述终端上频域端点检测和特征提取的 别 提出词库分类和更新方法及模型存储同步处理方法以及在嵌入式系统上实现 专传输等 并提出个性化语音识别方法 一降低计算时间的一些优化措施 上 第5 章分布式语音识别系统的实现和分析 根据前两章的分析和描述设计和实现一个分布式语音识别系统原型 并分析实验结果 上 厂 第6 章总结和展望 总结本文工作并分析缺点和不足及今后的努力方向 展望分布式语音识别的未来发展 图1 3 论文结构和内容组织 浙江大学硕j 二学位论文第2 章语音识别与分布式语音识别综述 第2 章语音识别与分布式语音识别综述 语音识别是将语音转换为文本或命令的过程 系统性能根据识别准确度和识 别速度来衡量 识别准确度用词错误率表示w e r s d j r 其中s 为发生 替换错误数 d 为发生删除错误数 为发生插入错误数 n 表示语音中的实际 词数 还常用到词识别率的概念 定义为w e r 俗 d i n 令正确识别的词 数为h n 一 s d 则w r r h i u 识别速度即响应时间指标 采用实 时系数 1 2 在系统标准配置下 发音从时刻疋开始到z 结束 识别结束时刻为z 则实时系数为r t f 乃 一正 2 1 语音识别的软件实现流程 语音识别以软件实现为主 一般实现流程如图2 1 所示 1 3 图2 1 软件语音识别的一种基本流程 首先对语音信号进行预处理以便于端点检测和语音识别 包括1 分帧 根 据有短时平稳特征取1 0 2 0 毫秒且帧之间有重叠 2 预加重 消除语音信号功 率谱受声门激励和口鼻辐射的共同影响 3 将语音波形乘以窗函数使窗边缘两 端平滑过渡到零 4 语音信号的噪声在时域中为高频随机信号 需要滤波 接 着是端点检测 目的是从原始语音中划分出入的语音及其起讫点 然后是语音特 征参数提取 如较能反映入耳的听觉特性的m f c c 参数 最后是语音训练与识 别 大多嵌入式语音识别系统与应用紧密结合 词汇少但要求识别速度快 它涉 及声学模型和语言模型等 是最为复杂的过程 大词汇量语音识别系统中除了以 上流程外 通常在背后还有复杂的声学模型 发音字典和语言模型等 6 浙江大学硕 1 二学位论文 第2 章语音识别弓分布式语旨识别综述 2 2 语音端点检测和特征提取方法 2 2 1时域和频域端点检测方法 端点检测 v o i c ea c t i v i t yd e t e c t i o n v a d 是语音信号处理中找出哪些声音片 段存在人类语音的技术 通常与具体的语言无关 检测方法分时域和频域方法 一般认为若只对波形做较简单的运算即属于时域方法 用f f t 来产生频谱即属 于频谱方法 它常被用来对语音进行分类 1 4 1 1 短时能量 短时能量是语音信号一个短段的能量 如果记第刀段的短时能量为e 则 e x 聊 w 一肌 2 其中x 埘 是原始语音的离散采样序列 它被滑动窗口 w n m 分成一系列等长语音段 e 是该语音段中各采样点的平方和 为使短时 能量能反映能量随时间的变化规律 应选合适的窗函数和宽度 使用较多的是矩 形窗和汉明窗 语音和噪声区别是语音段的短时能量比噪声段大 2 短时平均过零率 相邻两个离散时间信号采样值有不同符号称过零 单位时间内发生过零次数 叫过零率 它反映了信号的频率特性 可先用滑动窗口w n 一所 选出时刻刀的片 段 计算出该片段的过零总数并除以片段的点数 用宽度n 的矩形窗时过零率为 孕匆p咄沏渺 一 sg小 1 w 一 1 i蛾2m1 2 三 2 一 1 s 咖 聊 一s g n 1 1 w 刀一聊 为更好区分语音和静音 噪声 对过零率的计算作适当调整 将时域采样曲 线沿着纵坐标平移善个单位 乙2 素互 砌h s g 巾 朋 1 吲1 w 叫 公式 2 2 由于语音信号中浊音和清音的能量主要分别集中在低频段和高频段 短时平 均过零率能在一定程度上初步区分清音和浊音 浙江人学硕士学化论文 第2 章语旨识别与分布式语音识别综述 3 短时自相关 设语音信号序列为缸功 窗函数为以聊 短时自相关函数定义如下 r 七 x 朋 w 押 x 聊 刀 后 w 刀 七 o 0 4 在状态 下符号k 的输出概率分布b 6 七 其中 6 七 p k a tt g s l j n l k m 表示在f 时刻处于状态 时 输出符号为k 的概率密度 依据b 的形式是离散 或连续概率密度函数可将h m m 划分为d h m m 和c h m m 5 初始状态概率分布万 乃 其中乃 p q s j 1 j n 它表示模型在初 始状态下处于各个状态的概率 实际应用中可凭经验值确定 1 0 浙江大学硕一j 学位论文第2 章语音识别与分布式语音识别综述 给定 m a b 和石 则可生成观察值序列d d l d 2 o r 其中q 1 f 丁 是来 自集合v 的符号 丁是观察值序列的长度 观察序列的生成可按步骤进行 1 根据初始概率分布万选择一个初始状态g s s 1 并令f 1 2 根据符号输出概率b 6 j 在状态 1 中选择观察值q k 3 根据状态转移概率分布彳 将状态从吼 s 转移到q s 4 令f f 1 如果f 丁则转到第2 步 否则结束迭代过程 因此完整的h m m 模型五包括n 和m 及概率a b 和石 可用力 彳 b 万 表 示 模型中有三个问题的有效解决是实现语音识别的关键 2 4 1 1 给定模型力 彳 b 万 计算该模型产生输出0 d l d 2 q 的概率p oi 五 这 要考虑所有可能的状态序列 随着模型状态个数的增加 计算量急剧上升并 迅速变得不可计算 前向算法能够高效解决这个问题 它使用了动态规划的 算法思想 2 5 1 实际应用中通常限制模型的状态个数以加快计算速度 2 给定模型五 a b 万 和输出0 d l q q 找出产生该输出的最佳状态序 列q g g q r 须在所有可能产生该输出的状态序列中找到一个状态序列 使通过该状态序列产生该输出的概率最大 v i t e r b i 算法可有效解决该问题 3 如何调整模型五 a b 万 使p oa 最大 目前尚无合适的算法精确回答 该问题 但用b a u m w e l c h 算法可高效地计算出局部最大似然度 2 3 1 递归法计算观察值概率 给定h m m 模型力和观察值序列d d 1 0 2 q 求该模型产生该序列的概 率p o i 五 设状态转移序列为q 吼g q r 模型产生观察值序列d 的概率为 r p o i a q 兀p o i a 吼 根据联合概率密度 有 t l p 0 1 2 p 0 1 2 q p q l 力 q d i 啦气 d 2 啄衙b 0 0 吼啦 q r 公式 2 8 计算该式需 2 t i n 7 次乘法和n 7 一1 次加法 几乎不可计算 取 5 和r 1 0 浙江大学硕上学位论文 第2 章语音识别与分布式语音识别综述 需要将近两亿次的计算 采用 2 6 1 的前向方法计算过程如下 首先定义前向变量 q f 尸 d 1 q d g sia 意思是假定观察值序列的生成过程中 在时刻t 时 模型五内部状态变迁为d 1 0 2 d r 用递归计算p o i 五 1 初始 q f 乃6 l q 1 f n 2 递归心一 陲喇 鹕j 其忆斛卟 哪 3 最后 尸 d i 力 口r f 这种计算方法需要 1 丁一1 n 次乘法和n n 一1 r 一1 次加法 前面 的例子只需要4 5 5 次计算 计算量大大降低 2 3 2 递归法求最优状态序列 若h m m 为五 彳 b 万 和输出d d l d 2 研 找出产生该输出的最佳状态 序列 直接计算需要对所有状态序列进行全排列 不适合计算 文献 2 7 的v i t e r b i 解码算法能解决该问题 令时刻f 从某条状态路径进入状态i 的概率为z f 则 z f m a xp q g 仍 l q d 2 qi 五 公式 2 9 吼 q 2 铷1 为得到完整状态序列 需记录每个时刻f 和状态j 时的最优路径 不妨通过 一个矩阵 来保存历史记录 最优状态搜索过程可用递归的方式描述如下 1 t 1 时每个状态f 产生输出序列的最大概率为z f 曩匆 d 1 1 墨f n 同时将当前最优状态记录到 中 即 力 0 2 递归 z t j 2m 瑚a x z 一 f 嘞 屯 d 2 f 丁 1 z k2 武 2 1 0 u 2 a r g s s m a x t f 2 f t l 公式 2 11 3 递归结束后 尸 2m a x z r i g 2 a r g 倚m a x x r i 1 2 浙i 1 大学硕士学位论文第2 章语音识别与分布式语音识别综述 4 回溯 找到最优状态序列 鼋 y 川 g 二 t t 1 t 2 1 从上述过程可以看出 求解最优状态的过程类似上一节的前向算法 但在递 归时使用了所有最优状态路径上的节点 这与前面有显著区别 m u r r a yh i l l 在文 献 2 8 详细介绍了v i t e r b i 算法的具体实现 2 4 分布式语音识别系统 分布式语音识别一般采用c s 架构 本文所描述的分布式语音识别系统在前 端 f o n t e n d 层p 嵌入式系统终端提取出语音的特征 然后将特征发送给位于网络 上的后端 b a c k e n d 即服务器 由服务器进行语音识别 最后将结果返回终端 2 9 1 如图2 4 客户端和服务器的数据都通过网络传输 服务器端处理过程 图2 4 分布武语音识别系统的基本流程 为保证网络传输的可靠性 客户端使用了数据校验 服务器端进行差错检测 为减少网络流量 传输前对数据进行压缩 为适应词库动态变化 提出词库分类 和更新方法 为让语音识别效果更好 将提出个性化语音识别方法 2 5 本章小结 本章先概述了语音识别基本流程并对主要部分进行了说明 端点检测方法中 时域方法因计算量小颇受欢迎 特征参数提取是训练和识别的重要部分 关系着 识别结果 并介绍了m f c c 特征提取过程 后面将讨论优化问题 随后引入h m m 及实现语音识别的三个关键问题 由于训练和识别在服务器上一般无性能问题 后面不再展开 最后介绍了分布式语音识别系统的基本框架 在接下来的两章中 将分别详细阐述系统的前端和后端的相关方法和技术 1 3 m 太 目 学位 i 革3 章m 务嚣 目库管 谱 m 脚自法 第3 章服务器端词库管理和语音识别方法 为便于说明 本文以个性化网络新闻推荐系统为例柬说明分布武语音识别系 统中的服务器端计数 如图3 i 所示 整个系统由位于网络上的服务器 网络和 终端设备构成 网络服务器负责网络新闻数据的搜集 归类 索引和新词发现等 并根据客户端的语音查询请隶进行检索和推荐 最终以文本形式返回客户端 服 务器还承担用于个性化信息推荐的客户端数据搜集 语音训练 语音识别以及语 音数据库的维护 在必要时启动声学模型训练 语法网络重构等过程 并更新配 置又件和语音数据库 网络服务器承担着所有的语音训练和识别过程 田3 1 分布式语音识别系统框架 图3 2 展示了系统中服务器和客户端各自承担的主要任务及工作流程 在系 统运行初期 如果用于语音识别的词库数量过低则不利于用户的使用 因此在系 统开始运作时 事先搜集网络上有关新闻的关键词 归类并放刘语音数据库中 且对汉语常见的发音 如汉语拼音方案中涉及的字母表 事先建立稳定的模型 旨在系统运行初期能初步进行的语音搜索 语音数据库中的内容包括用于语音训练的原始语音波形信号 这些波形信号 的特征参数及声学模型 用于解码的词表及语法两络 从客户端搜集到的检索信 息等等 位于服务墨上的配置文件中的内客有语音信号特征参数的格式等与客户 端语音识别密切相关的信息 k 赫8 姆必 一鞍嚣 峭r 一斟 浙江大学硕士学位论文第3 章服务器端词库管理和语音识别方法 捡索 推荐 识别结暴 一 新词发现 语音识别请j 模型训练0 计遭巡 管理员 图3 2 网络语音识别系统总流程图 图3 2 中 语音合成工作在终端的嵌入式系统上执行 语音识别 语音训练 过程和词库更新等工作在服务器上进行 将语音合成和语音识别分布到服务器和 客户端的潜在原因是语音合成目前所采用的支持库来自第三方 已经比较稳定可 靠 且若在服务器上进行语音合成 数据传回客户端会占用太多的带宽 在服务 器端而不是客户端上进行语音识别的原因是 客户端的计算能力较弱 而服务器 有足够的能力处理该过程 其他原因有如网络带宽 若将语音识别放在客户端上 进行 则需要在服务器和客户端之间交换语音模型库 数据量很大 也不利于统 一管理 将语音识别工作置于服务器的另外一个原因是 这种方式有利于改善用 户体验 例如 在服务器进行语音识别 客户端不会出现短时卡机现象 在等待 语音识别的结果时可运行其他任务 如播放背景音乐等 从源头上避免需大量计 算的识别过程给用户体验带来的损害 新闻等信息的检索 推荐以及新词等发现工作在服务器上进行 其原因不言 而喻 当服务器掌握一定数量的用户信息后 可有效进行该过程 尤其是以推荐 的方式向用户提供信息 即网络搜音机终端处于普通收音机状态时 根据客户端 的信息请求 服务器推荐给用户的信息更符合其个人特点 3 1 服务器端语音识别系统设计概述 本文所述的语音识别系统面向对象为汉语标准普通话发音 不处理英文或中 英文混合发音 当发音中含有南腔北调或发音不标准时 将影响语音识别结果的 准确性 根据普通话的特点 汉字发音一般每个字为一个音节 一个音节包含三 个以内音素 这与英文单词的发音有显著差异 不同的英文单词其音节和音素的 个数相差甚远 例如单词m e 只有一个音节 而最长的单词 据 疯狂英语 2 0 0 1 嘴窿 警 浙江大学硕 l 学位论文第3 章服务器端诃库管理和语音识别方法 年9 月第3 0 期记载 其字母多达1 9 1 3 个 音节数量十分惊人 一口气读完该单 词富有挑战性 此外 英语的协同发音现象比汉语要严重得多 因此面向英语 的语音识别通常使用上下文相关模型 而这对于非连续汉语语音识别系统来说可 以忽略这个因素 由于本系统目标人群为国内用户 故将本语音识别系统面向的 语言定位为标准汉语普通话 第二 本语音识别系统面向的词库可动态更新 目前大量的嵌入式系统中所 采用的语音识别软件一般只能识别固定的词汇表 如菜单 数字号码等 由于词 汇表固定且词汇表较小的原因 其软件复杂度可大大降低 同时准确度可大大提 升 其缺点无法适应菜单动态变化的形势 本系统由于需要和互联网相结合 势 必要求词库能在一定范围内动态变化 同时语音识别系统应支持词库分类 对词 库进行分类 一方面可以减小嵌入式终端的计算量 提升语音识别的实时性 另 一方面 分类后的词库在一次语音识别中涉及的词汇量变小 在同样的语音识别 系统中可提高识别结果的准确度 词库的分类还有利于获取用户信息 例如 当 用户分别在浏览体育类新闻和科技类新闻时 如果用户要求查询 足球 这个关 键词 则语音识别应在当前分类下进行 第三 本语音识别系统可针对不同的分类词库进行语音识别 当词库更新时 每个词所在的分类可能发生变动 尤其是同一个词可能出现在多个不同的分类中 或一个词不在任何分类中 为了避免后面的情况 建立一个虚拟全局分类词库 不在具体分类中的词均默认在该词库中 在进行语音识别时 根据当前用户所在 的信息分类 优选该分类中的词汇表进行识别 当对这个词汇表进行语音识别时 如果识别结果的置信度过低 则过渡到默认的全局分组中进行识别 若在默认全 局分组仍无法得到较高置信度的识别结果 则根据原始汉语发音进行单字语音识 别 即在分类词汇表中的词汇均应多于一个汉字 而在全局默认分组中的词汇可 以只含有一个汉字 也可以是由多个汉字构成的短语 通常 语音识别系统要求待识别的词汇集有比较准确的定义 能够得到大量 的训练数据且训练数据应具有一般性 几乎在所有语音识别系统中 i l i 练数据量 与模型复杂度息息相关 模型越复杂 应提供的i 1 l 练数据应越全面 因为复杂的 模型能描述的语音特征更丰富和细腻 如果没有足量的训练数据 语料 则模 型中的某些特征无法得到很好体现 当模型设计得过于复杂时 如果无法提供大 1 6 浙江大学硕士学位论文 第3 章服务器端词库管理和语音识别方法 量合适的训练数据 不仅造成计算量的不必要增加 而且还可能造成识别结果下 降 因此 应根据实际应用需求选择合适的语音识别方法 在本系统所面临的应用中 通常一个分类中的词汇数量不会超过两百个 如 果某个分类中词汇量超出该数目 应继续对该分类划分子类 或归并到其他分类 中 且由于语音识别在嵌入武系统上完成 势必要求快速 准确的语音识别方 法 这要求选择合适的语音识别方法和优良的系统实现方式 以及其他必要的提 高用户体验的措施 虽然基于h m m 的语音识别方法在训练过程中的处理过程比d t w 3 0 要复杂 得多 但由于其识别过程比d t w 方法更为简单 3 1 1 且在孤立词以及小词汇汉语 语音识别系统中 识别结果的准确率高于d t w 方法 以及h m m 与说话人无关 的优良特性 结合本系统的实际需求 使用基于h m m 的方法是合理的选择 根据h m m 中状态转移概率函数的不同 h m m 模型被分为d h m m c h m m s c h m m 以及d d b h m m 等 这些不同类型的h m m 中 c h m m 的识别率非常 高 但计算量相当大 通常应用在连续语音识别系统 如听写机 在经典语音识 别开源工具h t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论