版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能语音识别发展报告ReportofArtificialIntelligenceDevelopment语音识别语音识别目录TOC\o"1-5"\h\z1.语音识别3语音识别概念3语音识别发展历史4人才概况6论文解读8语音识别进展1731.语音识别1.1.语音识别概念语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容,使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机流交方式。它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、算计机科学、心理和生理学等[8。]语音识别首先要对采集的语音信号进行预处理,然后利用相关的语音信号处理方法计算语音的声学参数,提取相应的特征参数,最后根据提取的特征参数进行语音识别。总体上,语音识别包含两个阶段:第一个阶段是学习和训练,即提取语音库中语音样本的特征参数作为训练数据,合理设置模型参数的初始值,对模型各个参数进行重估,使识别系统具有最佳的识别效果;第二个阶段就是识将别待,识别语音信号的特征根据一定的准则与训练好的模板库进行比较,最后通过一定的识别算法得出识别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择都有直接的关系。实际上,语音识别也是一种模式识别,其基本结构如下图所示。和一般模式识别过程相同,语音识别包括如图所示3个基本部分。实际上,由于语音信息的复杂性以及语音内容的丰富性,语音识别系统要比模式识别系统复杂的多。图6-1语音识别系统框架其中,预处理主要是对输入语音信号进行预加重和分段加窗等处理,并滤除其中的不重要信息及背景噪声等,然后进行端点检测,以确定有效的语音段。特征参数提取是将反映信号特征的关键信息提取出来,以此降低维数减小计算量,用于后续处理,这相当于一种信息压缩。之后进行特征参数提取,用于语音训练和识别。常用的特征参数有基于时域的幅度、过零率、能量以及基于频域的线性预测倒谱系数、Mel倒谱系数等。1.2.语音识别发展历史语音识别的研究工作可以追溯到20世纪50年代。在1952年,AT&T贝尔研究所的Davis,Biddulph和Balashek研究成功了世界上第一个语音识别系统Audry系统,可以识别10个英文数字发音。这个系统识别的是一个人说出的孤立数字,并且很大程度上依赖于每个数字中的元音的共振峰的测量。1956年,在RCA实验室Olson和Belar研制了可以识别一个说话人的10个单音节的系统,它同样依赖于元音带的谱的测量。1959年,英国的Fry和Denes研制了一个能够识别4个元音和9个辅音的识别器,他们采用了谱分析仪和模式匹配器。所不同的是他们对音素的序列做了限制(相当于现在的语法规则),以此来增加字识别的准确率。但当时存在的问题是的理论水平不够,都没有取得非常明显的成功。60年代,计算机的应用推动了语音识别技术的发展,使用了电子计算机进行语音识别,提出了一系列语音识别技术的新理论—动态规划线性预测分析技术,较好的解决了语音信号产生的模型问题。该理论主要有三项研究成果。首先是国美新泽西州普林斯顿RCA实验室的Martin和他的同事提出一种基本的时间归一化方法,这种方法有效的解决了语音事件时间尺度的非均匀性,能可靠的检测到语音的起始点和终止点,有效地解决了识别结果的可变性。其次,苏联的yuk提出了用动态规划的方法将两段语音的时间对齐的方法,这实际上是动态时间规整(DynamicTimeWarping)方法的最早版本,尽管到了80年代才为外界知晓。第三个是卡耐基梅隆大学的Reddy采用的是音素的动态跟踪的方法,开始了连续语音识别的研究工作,为后来的获得巨大成功的连续语音识别奠定了基础。70年代,语音识别研究取得了重大的具有里程碑意义的成果,伴随着自然语言理解的研究以及微电子技术的发展,语音识别领域取得了突破性进展。这一时期的语音识别方法基本上是采用传统的模式识别策略。其中苏联Velichko和Zagoruyko的研究为模式识别应用于语音识别这一领域奠定了基础;日本的迫江和千叶的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式语音识别之间进行非线性时间匹配的方法;日本的板仓的研究则提出了如何将线性预测分析技术加以扩展,使之用于语音信号的特征抽取的方法。同时,这个时期还提出了矢量量化和隐马尔可夫模型理论。80年代,语音识别研究进一步走向深入。这一时期所取得的重大进展有:(1)隐马尔科夫模型(HMM)技术的成熟和不断完善,并最终成为语音识别的主流方法。(2)以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法语义、对话背景等方面的知识来帮助进一步对语音识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型。3(人工神经网络(ANN)在语音识别中的应用研究的兴起。ANN具有较好的区分复杂分类边界的能力,显然它十分有助于模式识别。在这些研究中,大部分采用基于反向传播算法BP算法)的多层感知网络[9]。世纪90年代,语音识别技术逐渐走向实用化,在建立模型、提取和优化特征参数方面取得了突破性的进展,使系统具有更好的自适应性。许多发达国家和著名公司都投入大量资金用以开发和研究实用化的语音识别产品,从而许多具有代表性的产品问世。比如IBM公司研发的汉语ViaVoice系统,以及Dragon工司研发的DragonDictate系统,都具有说话人自适应能力,能在用户使用过程中不断提高识别率。世纪之后,深度学习技术极大的促进了语音识别技术的进步,识别精度大大提高,应用得到广泛发展。2009年,Hinton将深度神经网络(DNN)应用于语音的声学建模,在TIMIT上获得了当时最好的结果。2011年底,微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。DNN带来的好处是不再需要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序结构信息,使得对于状态的分类概率有了明显提升。同时DNN还具有强大环境学习能力,可以提升对噪声和口音的鲁棒性。目前,语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。例如,现今流行的手机语音助手,就是将语音识别技术应用到智能手机中,能够实现人与手机的智能对话功能。其中包括美国苹果公司的Siri语音助手,智能360语音助手,百度语音助手等[10。1.3.人才概况全球人才分布学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为语音识别领域全球学者分布情况:©LLtt迫F…“•iKllVl^WFA-»-©LLtt迫F…“•iKllVl^WFA-»-1u™'.!1LV:Di:i?A1riTI图6-2语音识别领域全球学者分布地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲也有较多的人才分布,主要在我国东部及日韩地区;欧洲的人才主要集中在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;语音识别领域的人才分布与各地区的科技、经济实力情况大体一致。此外,在性别比例方面,语音识别领域中男性学者占比87.3%,女性学者占比12.7%,男性学者占比远高于女性学者。语音识别领域学者的h-index分布如下图所示,大部分学者的h-index分布在中间区域,其中h-index在30-40区间的人数最多,有752人,占比37.3%,小于20区间的人数最少,只有6人。语音识别语音识别语音识别语音识别■■■图6-3语音识别领域学者h-index分布中国人才分布我国专家学者在语音识别领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比中国在语音识别领域学者数量较多且有一定的优势。,—J,.知iirzM比乩帝°,—J,.知iirzM比乩帝°KJ^7Ii7品*1f、j-L■m谟静4irnsft!KaHi'^giirAii・■_AvklCiMlA图6-4语音识别领域中国学者分布语音识别语音识别#系统主要由两个模块构成:旋律合成网络mel-synthesis和超分辨率网络super-resolution。mel-synthesis网络根据前面的旋律输入0册,时序对齐的文本1:及音调输入1:训练生成旋律谱图;super-resolution网络根据文本和音调信息作为条件输入,将生成的旋律谱图进行上采样(upsample);最后判别器(discriminator)将上采样结果和生成的旋律谱图以对抗的方式训练网络。在测试阶段,从给定文本及音调输入中以自回归的方式生成旋律谱图的帧序列然后通过super-resolution网络上采样为线性谱图,最后通过Griffin-Lim算法转换为声波形式(waveform)。研究结果:实验使用手工收集整理的歌声数据集,包含了60首流行歌曲。实验表明使用文本信息对phoneticenhancementmask进行建模是有效的,能够生成更为准确的发音。同时在super-resolution阶段使用条件对抗(conditionaladversarial)训练方法能够获得更高的声音质量。1.5.语音识别进展随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各个步骤,以此来促进在不同环境下语音识别的效率和准确率。研究人员从最简单的非常小词汇量的阅读式的语音识别问题开始,逐渐转向越来越复杂的问题。近年来智能语音进入了快速增长期,语音识别作为语音领域的重要分支获得了广泛的关注,如何提高声学建模能力和如何进行端到端的联合优化是语音识别领域中的重要课题。语音识别经历了从2012年最开始的DNN的引入时的HybridHMM结构,再到2015年开始吸引大家研究兴趣的CTC算法,而后到2018年的Attention相关结构的研究热点oAttention相关算法在语音识别或者说话人识别研究的文章中出现频率极高。从最开始Attention,至【」Listen-Attend-Spell,再到Self-Attention(或者Transforme)r,在不同的文章被作者多次介绍和分析,频繁出现在了相关文章的Introduction环节中。在Attention结构下,依然还有很多内容需要研究者们进一步地探索:例如在一些情况"Hybrid结构依然能够得到State-of-the-art的结果,以及语音数据库规模和Attention模型性能之间的关系。在近两年的研究中,端到端语音识别仍然是ASR(AutomaticSpeechRecognition)研究的一大热点,正如上文提到的,基于Attention机制的识别系统已经成为了语音技术研究主流。同时,随着端到端语音识别框架日益完善,研究者们对端到端模型的训练和设计更加的关注。远场语音识别(far-fieldASR),模型结构(ASRnetworkarchitecture),模型训练(modeltrainingforASR),跨语种或者多语种语音识别(cross-lingualandmulti-lingualASR)以及一些端到端语音识别(end-to-endASR)成为研究热点。在语音合成方面,高音质语音生成算法及Voiceconversion是近两年研究者关注的两大热点,VoiceConversion方向的研究重点主要集中在基于GAN的方法上。在语言模型方面(LanguageModel)的研究热点主要包括NLP模型的迁移,低频单词的表示,以及深层Transformer等。在说话人识别方面,说话人信息,特别是说话人识别及切分,正被越来越多的研究者所重视。目前Attention在说话人方面更类似一种TimePooling,比AveragePoo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卫生部发布医院工作制度
- 国企采购归口管理制度
- 2026年国企党建工作考核试题题库及答案
- 2026年连云港市海州区社区工作者招聘考试经典试题及答案
- 骨折病症状诊断与护理培训
- 契诃夫小说研究
- 嫦娥探月工程科普
- 潮州市教师招聘考试题库及答案
- 神经症症状解析及护理建议
- 滨州市辅警招聘面试题及答案
- 2026年北京市西城区初三一模英语试卷(含答案)
- 九师联盟2026届高三年级下学期4月测试英语试卷
- 新高考浪潮下生物学教学中学习共同体的构建与实践探索
- 2024年高考化学试卷(重庆)
- 2026年广东佛山市高三二模高考物理模拟试卷试题(含答案详解)
- 特种设备数据分析师面试题及答案解析
- 魏晋南北朝书法艺术
- 慢病防治课题申报书模板
- 【《鼓式制动器的结构设计及三维建模分析》14000字(论文)】
- GB/T 16271-2025钢丝绳吊索插编索扣
- T/CBMCA 039-2023陶瓷大板岩板装修镶贴应用规范
评论
0/150
提交评论