![1011100330黄婷婷[文献综述]-05-19_第1页](http://file.renrendoc.com/FileRoot1/2019-3/17/6c466330-fb74-4eb7-aa4e-91e35e23bfb1/6c466330-fb74-4eb7-aa4e-91e35e23bfb11.gif)
![1011100330黄婷婷[文献综述]-05-19_第2页](http://file.renrendoc.com/FileRoot1/2019-3/17/6c466330-fb74-4eb7-aa4e-91e35e23bfb1/6c466330-fb74-4eb7-aa4e-91e35e23bfb12.gif)
![1011100330黄婷婷[文献综述]-05-19_第3页](http://file.renrendoc.com/FileRoot1/2019-3/17/6c466330-fb74-4eb7-aa4e-91e35e23bfb1/6c466330-fb74-4eb7-aa4e-91e35e23bfb13.gif)
![1011100330黄婷婷[文献综述]-05-19_第4页](http://file.renrendoc.com/FileRoot1/2019-3/17/6c466330-fb74-4eb7-aa4e-91e35e23bfb1/6c466330-fb74-4eb7-aa4e-91e35e23bfb14.gif)
![1011100330黄婷婷[文献综述]-05-19_第5页](http://file.renrendoc.com/FileRoot1/2019-3/17/6c466330-fb74-4eb7-aa4e-91e35e23bfb1/6c466330-fb74-4eb7-aa4e-91e35e23bfb15.gif)
已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
毕业论文:文献综述毕业论文(设计)文献综述 题目:电子语音系统学 院:信息与电子工程学院专 业:电子信息工程班 级:电子1003学 号:1011100330学生姓名:黄婷婷指导教师:王安定二一四年二月语音合成技术及其应用 摘 要:文章介绍了语音合成技术及其国内外发展现状、未来的发展趋势,以及在网络信息服务、人机自然交互、移动信息终端及各种嵌入式设备上的应用价值。关键词:语音合成、文语转换、发展现状、发展趋势、应用价值 - 7 -Speech synthesis technology and its applicationAbstract: This paper introduces the speech synthesis technology and its development at home and abroad, the future trend of development, and the application value in the network information service, human-computer interaction, mobile information terminal and embedded devices.Keywords: speech synthesis, text to speech, development status, development trend, application value1 引言语音合成不仅是智能计算机研究的主导方向,也是人机语音通信的关键技术之一。在各国科学界,语音合成就一直备受关注。如今,随着研究的突破,语音合成技术对计算机发展以及社会生活的重要性日益凸显出来。利用语音合成技术设计并开发出来的计算机应用软件等产品,几乎深入社会的每行每业与方方面面。语音合成技术的应用前景非常良好,尤其对汉语语音合成技术的应用而言,在有十几亿人使用汉语的中国,其市场需求以及社会、经济效益从中可以管窥一斑。2 语音合成技术概述语音合成是利用电子计算机与一些专门装置模拟人,制造语音的技术。语音合成技术又称文字语音转换(Text to Speech,TTS)技术,能够将任意文字信息实时转化为标准、流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及了声学、语言学、计算机科学、数字信号处理等多门学科技术,是中文信息处理领域中的一项前沿技术,它所解决的主要问题是如何将文字信息转化为可听的语音信息,即让机器像人一样开口说话。这里所说的“让机器像人一样开口说话”同传统的声音回放设备有着本质区别。与磁带录音机原理类似的传统声音回放设备,是采用预先录制声音然后回放的方式来实现“让机器说话”的。这种方法不论是在内容、存储、传输还是方便性、及时性等方面都有很大限制。而通过计算机语音合成则可以随时将任意文本转换为具有高自然度的语音,从而实现让机器“像人一样开口说话”。目前,语音合成的研究已进入TTS阶段,它的功能模块可以分为文本分析、韵律建模以及语音合成三个模块。其中,语音合成是TTS系统中最基础、最重要的功能模块。概括地说,语音合成的主要功能就是根据韵律建模的结果,从原始语音库中提取相应的语音基元,用特定的语音合成技术来对语音基元进行韵律特性的调整及修改,最终合成符合要求的语音。语音合成技术的研究经历了一个逐步发展的过程:从参数合成法到拼接合成法,再到两者的逐步结合。人们的认知水平和需求的提高成为其不断发展的动力。当前,常用的语音合成技术主要有:共振峰合成、LPC LPC(Linear Predictive Coding,线性预测编码)是主要用于音频信号处理与语音处理中根据线性预测模型的信息用压缩形式表示数字语音信号谱包络(en:spectral envelope)的工具。它是最有效的语音分析技术之一,也是低位速下编码方法高质量语音最有用的方法之一,它能够提供非常精确的语音参数预测。合成、PSOLA PSOLA(基音同步叠加)是用于波形编辑语音合成技术中对合成语音的韵律进行修改的一种算法。拼接合成和LMALMA: Log Magnitude Approximate声道模型技术。它们各有优缺点,人们在应用过程中往往将多种技术有机地结合在一起,或将一种技术的优点运用到另一种技术上,以克服另一种技术的不足。13 国内外语音合成技术发展现状对语言合成技术的研究现在已经有二百多年的历史了,但真正有实用意义的近代语音合成技术则是随着计算机技术与数字信号处理技术的发展才发展起来的,其主要是让计算机产生清晰度高、自然度高的连续语音。近几十年来,国内外研究的焦点主要是在按规则文语转换,即把书面语言转换为口头语言。而在语音合成技术的发展中,早期的研究方法主要是参数合成法。值得提及的是1973年的Holmes的并联共振峰合成器以及1980年的Klatt的串/并联共振峰合成器,这两个合成器通过调整准确参数都能合成非常自然的语音。而最典型的文语转换系统要数1987年的美国DEC公司 美国DEC公司即美国数字设备公司,英文:Digital Equipment Corporation,简称DEC。1998年1月DEC公司被康柏以96亿美元的价格收购,2001年惠普康柏宣布合并。 的DECtalk,该系统采用了Klatt的串/并联共振峰合成器,使其不管是通过标准接口与计算机连网,还是单独接到电话网上,都可提供各种语音信息服务。其发音清晰,并且能够生成七种音色各异的声音来供用户选择。从八十年代末至今,语言合成技术有了新的进展,尤其是1990年PSOLA(基音同步叠加)方法的提出,大大提高了基于时域波形拼接法合成的语音的音色与自然度。而在九十年代初,基于PSOLA技术的英语、法语、德语、日语等语种的文语转换系统都已研制成功。这些系统生成的语音的自然度比以前基于共振峰合成器或LPC方法的文语合成系统的语音的自然度要高,且基于PSOLA技术的合成器的结构简单,易于实时实现,有着极高的商用价值。近几年,一种全新的基于数据库的语音合成方法正吸引着人们的关注。在这个方法中,构成语句的语音单元是从一个预先录好的庞大的语音数据库中提取出来的,因此可以想象只要语音数据库的容量足够大,能够包含各种可能语境下的语音单元,从理论上讲就有可能拼接出所有语句。并且,由于合成的语音基元都是源于自然的原始发音,合成语句将具有非常高的清晰度与自然度。在国内,汉语语音合成的研究起步比较晚,但从八十年代初开始基本上就与国际研究同步发展了。其大致也经过了共振峰合成、LPC合成、PSOLA技术合成三个过程。近年来,在国家863计划 863计划即国家高技术研究发展计划,是中华人民共和国的一项高技术发展计划。这个计划是以政府为主导,以一些有限的领域为研究目标的一个基础研究的国家性计划。,国家攻关计划,国家自然科学基金委,中国科学院相关项目等支持下,汉语文语转换系统的研究取得了令人瞩目的进展,如1993年中国科学院声学所的KX-PSOLA及1995年的联想佳音;1993年清华大学的TH_SPEECH;1995年中国科技大学的KDTALK等系统。这些系统大多数都是采用基于PSOLA技术的时域波形拼接方法,其合成的汉语普通话的清晰度及自然度都达到了很高的水平。然而,这些系统与国外其它语种的文语转换系统一样,合成的语句及篇章语音的机器味较浓,自然度无法达到用户可普遍接受的标准,于是该项技术在进入市场时其规模就受到了限制。1998年,中国科技大学在国家自然科学基金委与国家863计划的支持下,成功地研制出了KD-863汉语文语转换系统。该系统采用了一种新的基于语音数据库的语音合成方法,与采用PSOLA技术的系统相比,其在输出语音的音质及自然度上有了显著的提高。近来,中国科技大学又研究并推出了KD-2000汉语文语转换系统。KD-2000不仅在语音合成技术方面有着突破性的进展,尤其是在文本预处理方面,它围绕着层次化的结构思想,运用大量的规则与统计方法,能够较好地解决特殊符号处理,分词处理以及拼接处理三个大环节,致使汉语文语转换系统的整体性能够有很大的提高。当下,以KD-2000文语转换系统为核心的智能汉语平台软件“畅言2000”已开始进入市场。4 语音合成的发展趋势4.1 提高合成语音的自然度现前,汉语语音合成在单字和词组一级上,合成语音的自然度已基本解决,但到句子及篇章一级时,其自然度问题就比较大。所以,要实现高性能的文语转换,提高合成语音的自然度刻不容缓。基于语音数据库的语音合成方法有望进一步提高合成语音的自然度。因为这是一种采用自然语音波形直接拼接的方法,所进行拼接的语音单元是从一个预先录好的自然语音数据库中提取出来的,因而有可能最大限度地保留原始语音的自然度。无论采用何种合成方法,韵律规则的总结都会尽可能地将规则的定性描述定量化,这对自然度有着举足轻重的影响。此外,前端文本处理对语音合成的自然度也具有重大影响。要想全面完整地解决这个问题,需要取得对自然语言理解的崭新突破。4.2 丰富合成语音的表现力随着社会需求的发展,对语音合成的研究已经开始从文字语音转换阶段向概念语音转换阶段发展。这不仅涉及到了计算机语言的生成,也涉及了人类大脑神经的活动。以是,语音合成技术面临着更高要求就语音合成来说丰富合成语音的表现力。波形拼接法对韵律控制能力的有限性提高了其丰富合成语音表现力的困难程度。相对而言,参数合成法更为有效。近年来提出的基于LMA(对数振幅近似)技术的语音合成器,HybridHarmonic/Stochastic模型,Sinusoidal模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破。24.3 减小文语转换系统的音库容量现今,高质量的汉语文语转换系统的存储容量一般达到几兆到几十兆,甚至几百兆字节。这对商务通、无线通信手机等资源有限的设备来说,根本就无法承受。为了满足市场需求,减小音库容量是一个重要问题。解决这个问题可以从以下三个方面着手:一是用语音压缩编码;二是采用更小的合成基元;三是减少合成语音所需的音节基元数。4.4 多语种文语合成语言是人类最重要的交际工具,各个民族都有着不同的语言,在如今开放的信息社会和网络时代,不同语言之间的交流极其重要。因此,多语种的文语合成有着特殊的应用价值,如在自动电话翻译、有声电子邮件、汉语方言文语转换等中都提出了多语种的合成。理想的多语种文语合成系统是各种语言共用一种语音合成器或合成算法,但现有的语音合成系统绝大多数都是针对一种或若干种语言开发出来的,其采用的算法以及规则都是与指定种语言密切相关,是以很难应用到其它语种。要想真正解决多语种文语合成的问题,就必须要求从文本处理到语音合成都有创新思路。5 语音合成技术的应用价值5.1 在网络信息服务中的应用语音合成技术在网络信息服务中的应用主要体现在呼叫中心和各种计算机与电信集成系统(CTI) CTI是英文“Computer Telecommunication Integration”的简写形式,翻译为“计算机电信集成”,是呼叫中心(CallCenter)系统的核心技术。的应用中,在中国最具代表性的就是中国电信的160/168声讯服务系统,该系统在2001年的收入达到25亿元。2002年,在韩日足球世界杯期间建设的世界杯赛况查询系统也取得了良好的经济、社会效益。另外,国元证券客服中心的自动语音应答系统可以一天24小时给用户提供海量的实时资讯,不仅承担了很大部分的客服工作,还节省了管理和维护成本。除此之外,语音合成技术在电信领域还有其它应用:如电信1000号客服、邮政185等。5.2 在网络终端上的应用利用语音和语言处理技术能增加电脑使用的趣味性并降低使用门槛。例如:语音日程提醒、时间播报等更人性化的语音秘书功能,语音听网、听书,朗读各种来源的新闻及小说,对各种编辑软件实现有声语音校对等。结合语音识别技术还可以实现语音听写、语音排版、声控上网、人机对话等。现在已经有产品能利用语音合成技术,将任意文本框以及网上浏览的内容用清晰自然的声音朗读出来,受到广大用户的欢迎。35.3 在移动信息终端及各种嵌入式设备上的应用在手机、PDA、信息家电、车载GPS等嵌入式设备上,语音合成技术在后PC时代有着越来越广泛的应用。随着移动通信的发展,带有语音合成功能的手机可以用语音播报来电号码,给予日程提醒,概述电子邮件内容,收听网络信息等。语音技术在手机上的全面应用已经形成不可扭转的趋势。在车载GPS上加入语音技术,可使得驾驶员在眼、手繁忙的情况下,通过语音实时接收动态路况信息,及时获取车主个性化定制的信息,将平面显示导航上升到立体语音导航。此外,嵌入式语音技术还能广泛应用到测量仪器、电子图书、智能语音玩具等众多领域。参考文献:1吴志勇,蔡莲红.语音合成技术的原理EB/OL.2002-01-30./technology/tts/tts0301.htm.2王仁华.语音合成技术及国内外发展现状EB/OL.2002-01-30./factory/f04//ifly0902.htm.3王仁华.语音合成技术最新研究进展及其应用展望EB/OL.2003-11-2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 子宫瘢痕妊娠课件
- 年度安全检查培训总结
- 年度员工安全培训内容课件
- 辽宁公务员考试真题2025
- 威尼斯的小艇课件巴巴
- 平顶山安全生产培训课件
- Fmoc-GGFG-PAB-PNP-生命科学试剂-MCE
- Ferroptosis-inducer-8-生命科学试剂-MCE
- E-Z-Tamoxifen-N-β-D-glucuronide-d5-生命科学试剂-MCE
- 农发行丽水市缙云县2025秋招金融科技岗笔试题及答案
- 崇义县凌志矿冶有限责任公司过埠铁木里铁矿(新增资源)采矿权出让收益评估报告
- 大学学生违纪处罚办法
- 防错原理及案例课件
- 癌痛规范化治疗课件资料
- DB37-T 1997.1-2019.物业服务规范 第1部分:通则
- 牛津9AU3-Head-to-head名师制作优质教学课件
- 小学数学西南师大四年级上册二加减法的关系和加法运算律《减法的运算性质》教学设计
- 通信光缆线路工程安全技术交底大全
- 购牛合同参考参考
- 纳迪亚之宝全流程攻略 100%完结完整通关指南
- mc2200监控模块后台通讯协议v
评论
0/150
提交评论