语音信号与文本信息的智能处理.doc_第1页
语音信号与文本信息的智能处理.doc_第2页
语音信号与文本信息的智能处理.doc_第3页
语音信号与文本信息的智能处理.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音信号与文本信息的智能处理第一章概述处于 信 息 革命浪潮时代的今天,人们对于各种各样信息的需求与日俱增,同时人们急切需要更好的信息处理方式。语音,作为人类信息交流的最自然、最有效、最灵活而又最为广泛使用的途径,越来越引起研究者的关注。文本信息,具备易于传播,所需存储空间小等特点,也是人们日常生活中最经常使用的交流方式之一。对语音信号,文本信息的智能处理,正是为了更好地满足人们日益增长的信息需求。智能 处 理 是指能模仿人的智能(归纳,抽象,形式推理、联想和自适应等)的处理.智能(Intelligence)一词源于“Legere。意思是收集、汇集,它通常指人类的脑力劳动,包括感知、学习、推理和判断等;有人把它定义成是随外界尖化的一种正确的反应能力。人的智能现在己能让电脑机器模仿的主要是学习、推理、联想、判断与自适应的智能。本文着重研究了语音信号与文本信息的智能处理。虽然文本信息和语音信号表面上看起来没有直接的联系,但是对两者的处理方法却有很大的相似之处。因为无论是文本相似判别中使用的特征矢量判别比较,或者是端点检测中利用的判断方法,实际上都是在某一个特定的空间中比较两个矢量的某种距离。说到底,两种处理手段都是一致的。1.1中文信息处理研究的历史与现状概括 地 说 ,中文信息处理可分为字处理平台、词处理平台和句处理平台这3个层次。字处 理 平 台的研究与开发,包括汉字编码输入、汉字识别(手写体联机识别与印刷体脱机识别)、汉字系统及文书处理软件等。词处理平台上最典型、最引人瞩目的应用领域是面向Intemet的、文本不受限的中文检索技术,包括通用搜索引擎、文本自动过滤(如对网上不健康内容或对国家安全有危害内容的过滤)、文本自动分类(在数字图书馆中将得到应用)以及个性化服务软件等.目前影响比较大的商品化中文通用搜索引擎有雅虎、搜狐、新浪网等,但这些只用了基于字的全文检索技术,或者仅做了简单的分词处理,性能还有待于提高。国内研究机构做得比较好的是北京大学的天网,它用了中文分词和词性自动标注技术,但不足之处在于覆盖能力有限,设计上也稍嫌粗糙。词平台上另一个重要应用是语音识别。单纯依赖语音信号处理手段来大幅度提高识别的准确率,已经很难再有大的作刀了,必须要借助文本的后处理技术.现在第一意概述最具代表的产品是IBM的中文ViaVioce微软中国研究院也有表现不俗且接近实用的系统。国内在做这方面工作的有清华大学计算机系、电子系、中科院声学所和自动化所等,但从技术走向市场还有一段距离。属于这个平台的其他应用还有文本自动校对、汉字简繁体自动转换等。句处 理 平 台上的重要应用主要有两方面:一是机器翻译,虽然目前机器翻译的质量还远远不能令人满意,但挂靠在Internet上,就找到了适当的舞台,无论对中国人了解世界(英译汉),还是外国人了解中国(汉译英),都大有裨益,潜在的市场十分可观。“金山快译”软件受到市场的欢迎,就是一个有说服力的旁证。此外,雅信诚公司推出的针对专业翻译人员的英汉翻译辅助工具CAT,虽然没有采用全自动翻译的策略,但定位及思路都非常好,不失为另一个有前途的发展方向。句处理平台上另一方面的重要应用是汉语文语转换,不诉诸句法分析技术以获得句子的韵律结构,要获得理想的自然度是不可能的。“金山词霸”里嵌入了英文文语转换技术,相信用户将对这一功能有深刻的印象。总的 说 来 ,字平台研究己快成昨日黄花;句平台上的研究还很薄弱,离实用还有一段距离;而词平台上的研究,难度较句平台容易,且经过十几年的努力,成果也比较扎实,随着Intemet的发展,己经到了厚积薄发的时候。1.2语音识别的发展历史与现状关于 语 音 识别的第一篇论文是1952年美国贝尔实验室发表的关于孤立数字识别系统的研究论文。接着美国的RCA研究所进行了单音节识别系统的研究。在非特定人语音识别方面的尝试,是1959年美国MIT研制的元音识别装置。到六 十 年 代中后期,语音识别作为一个重要的研究课题而展开,并且逐步取得实质性的进展。这是因为一方面计算机产业的发展提出了使用的要求,同时又提供了实现复杂算法的软硬件环境;另一方面数字信号处理的理论和算法在那个时代取得飞跃的进展,如快速傅里叶变换(FFT)、倒谱计算、线性预测分析(LPC),数字滤波等。日本学者板仓(Itakura)将动态规划(DP)的概念用于解决孤立字识别时说话速度不均匀的问题,提出了著名的动态时间弯曲算法(DTW)e早期 的 语 音识别系统都是按照简单的模板匹配原理工作的特定人、小词汇表、孤立词识别系统。DTW算法克服了说话人语速不均匀造成的时间伸缩变化的影响,使系统的性能有了显著的提高。但是对于更高要求的语音识别系统这种简单的机制则有些力不胜任。例如,由于词汇表的扩大和孤立词语音识别转向连续语音识别,无法象孤立词识别那样以词作为基本识别单元。如果采用音节或者音素作为识别单元,则存在下述矛盾:即一方面为了减小识别时的搜索范围,希望最具代表的产品是IBM的中文ViaVioce微软中国研究院也有表现不俗且接近实用的系统。国内在做这方面工作的有清华大学计算机系、电子系、中科院声学所和自动化所等,但从技术走向市场还有一段距离。属于这个平台的其他应用还有文本自动校对、汉字简繁体自动转换等。句处 理 平 台上的重要应用主要有两方面:一是机器翻译,虽然目前机器翻译的质量还远远不能令人满意,但挂靠在Internet上,就找到了适当的舞台,无论对中国人了解世界(英译汉),还是外国人了解中国(汉译英),都大有裨益,潜在的市场十分可观。“金山快译”软件受到市场的欢迎,就是一个有说服力的旁证。此外,雅信诚公司推出的针对专业翻译人员的英汉翻译辅助工具CAT,虽然没有采用全自动翻译的策略,但定位及思路都非常好,不失为另一个有前途的发展方向。句处理平台上另一方面的重要应用是汉语文语转换,不诉诸句法分析技术以获得句子的韵律结构,要获得理想的自然度是不可能的。“金山词霸”里嵌入了英文文语转换技术,相信用户将对这一功能有深刻的印象。总的 说 来 ,字平台研究己快成昨日黄花;句平台上的研究还很薄弱,离实用还有一段距离;而词平台上的研究,难度较句平台容易,且经过十几年的努力,成果也比较扎实,随着Intemet的发展,己经到了厚积薄发的时候。1.2语音识别的发展历史与现状关于 语 音 识别的第一篇论文是1952年美国贝尔实验室发表的关于孤立数字识别系统的研究论文。接着美国的RCA研究所进行了单音节识别系统的研究。在非特定人语音识别方面的尝试,是1959年美国MIT研制的元音识别装置。到六 十 年 代中后期,语音识别作为一个重要的研究课题而展开,并且逐步取得实质性的进展。这是因为一方面计算机产业的发展提出了使用的要求,同时又提供了实现复杂算法的软硬件环境;另一方面数字信号处理的理论和算法在那个时代取得飞跃的进展,如快速傅里叶变换(FFT)、倒谱计算、线性预测分析(LPC),数字滤波等。日本学者板仓(Itakura)将动态规划(DP)的概念用于解决孤立字识别时说话速度不均匀的问题,提出了著名的动态时间弯曲算法(DTW)e早期 的 语 音识别系统都是按照简单的模板匹配原理工作的特定人、小词汇表、孤立词识别系统。DTW算法克服了说话人语速不均匀造成的时间伸缩变化的影响,使系统的性能有了显著的提高。但是对于更高要求的语音识别系统这种简单的机制则有些力不胜任。例如,由于词汇表的扩大和孤立词语音识别转向连续语音识别,无法象孤立词识别那样以词作为基本识别单元。如果采用音节或者音素作为识别单元,则存在下述矛盾:即一方面为了减小识别时的搜索范围,希望语音信号与文本信息的智能处理所选的识别单元的数量尽可能少,另一方面,希望所选的识别单元在不同的上下文中变化越小越好,而识别单元数量的减小,会使这一要求难以实现。另外一个困难是连续发音时的各个音素以及音节之间的边界不能象孤立字那样可以明确划定。此外,发音人不特定的语音识别(非特定人语音识别)还存在更大的困难。这是由于不同人说同一个音素音节时,声学特征有很大的差异。这使得语音识别,特别是非特定人、大词汇表、连续语音识别成为一项非常困难的研究课题。从 80 年 代以来,逐渐使用以隐马尔可夫模型(HMM)为代表的基于统计模型的方法来代替以前的模板匹配的方法。以前只在工BM, CMU等少数研究机构使用HMM方法,到80年代中期才开始广泛使用。美国的1000单词规模的DARPA研究项目在很大程度上推动了语音识别的研究。以此为契机,说话人识别I, MIT,CMU, BBN等展开激烈竟争,并且取得许多非常重要的研究成果。在美国,80年代末期由CMU推出的SPH工NX系统,率先突破了语音识别中非特定人、连续语音、大词汇量三大难题,被世界公认为语音识别技术发展中的一个里程砷汉语 语 音 识别起步虽晚,但发展很快。目前,国内从事语音识别研究的单位超过了几十个:如清华大学、中科院自动化所、声学所、北京邮电大学。它们结合汉语语音学和语言学的特点,在基础理论、模型和实用系统等方面作了大量的工作,并取得了较好的成果。台湾在汉语语音识别方面的研究也具有较高水平,它们研制成功了一个实时汉语语音听写机一-Golden Mandarin。在我国的“八五”计划和“863”计划中,汉语语音识别的研究得到了大力支持,强有力地推动了汉语语音识别研究的发展。尽管 语 音 识别研究工作已经取得了一定的进展,但是目前的技术水平依然不高。因此,特别需要在以下几个方面进行深入研究:工.自然口语语音识别以 IBM 的 ViaVoice为代表的“朗读”式语音识别技术已经取得了令人满意的效果。但是在实际的使用环境中,更多、更自然的人机交互方式是“自然口语”语音,例如:各种信息查询服务系统、自动翻译系统。“自然口语”语音有如下特点:1、语法规则灵活多变(flexibility): 2、其中包含大量非语音现象,如:语音插入、犹豫、咳嗽、顺嘴等;3、同一语音受背景声学环境、上下文语境(context)、说话人口音等因素的影响而产生“发音变形”(PronunciationVariability)。因此,口语语音识别的关键技术在于:I、为非语音现象和发音变形建立相应的声学模型;2、建立描述口语内在随机性的语法网络或统计语言模型。2.使用更好的方法去除电话和周围环境噪音等影响在实 际 应 用中:语音识别系统往往是在比较复杂的声学环境下使用,即存在第一章概述各种背景噪声和由说话人、语音通道、说话方式等导致的语音变形,此时其性能显著下降,因此提高系统的鲁棒性是语音识别实用化的关键技术。目前常用的技术有:采用具有抗噪特性的特征、麦克风阵列、语音增强和针对噪声的模型补偿或自适应等。虽然这些方法都取得了明显的效果,但还有进一步提高的余地,因此还需要寻找更好的方法去除环境噪声等的影响。3.支持多种语言的语音识别技术目前 的 语 音识别技术在语音模型和语言模型等方面都是非常依赖具体语言的。随着越来越多的语音识别应用投放到市场上,开发支持多种语言(Multi-linguality)的语音识别技术也显得非常重要,因为每当开发一种新的应用服务都需要对若干种语言进行大量的修改将是十分昂贵和耗时的。4,有关人性因素(Human Factors)的研究在语 音 识 别产品中还应当考虑一些人性因素,如:友好的界面设计、易用性、智能的提示响应以及错误恢复等,合理地加入人性因素可以提高语音识别系统的友好性和灵活性,缩小实验室应用和实际应用之间的性能差距。1.3课题的内容与意义本文 的 研 究任务可以分为相对独立的两个部分:文本相似性的研究和语音识别系统的研究。本文研究任务所直接面对的应用任务分别是计算机网络教育作业评判系统和说话人识别系统和电话转接语音识别系统。在本 课 题 中主要完成了以下几方面工作:工. 文 本 相似度计算的研究和相同相似判别系统的设计和建立这部 分 内 容里面,我们分析了目前文本相同相似判别的方法,并且分析了中文文本分词的现状,以及提出了基于字符串和基于词频统计的相结合的方法进行文本的相同相似判别。在此荃础上,我们结合实际的项目,采用新的判别方法,搭建了一个学生作业文本相同、相似判别系统。系统负责对学生作业文本进行相同,相似判别。本系统主要分为3大模块,分别为:定制词库模块,该模块针对不同的语言,定制不同的词库.作业特征提取模块,该模块主要功能是完成作业的提交,关键技术为提取判别信息,如作业的文本信息、分句、分词信息等。作业判别模块,该模块由教师提交相关参数,然后完成作业判别,并返回结果。主要功能为相似度的计算,即通过判别信息,计算相似度参数。2.端点检测算法仿真及其应用针对实验室目前的两个研究项目中语音数据的不同特点,我们分析了两种端_各种背景噪声和由说话人、语音通道、说话方式等导致的语音变形,此时其性能显著下降,因此提高系统的鲁棒性是语音识别实用化的关键技术。目前常用的技术有:采用具有抗噪特性的特征、麦克风阵列、语音增强和针对噪声的模型补偿或自适应等。虽然这些方法都取得了明显的效果,但还有进一步提高的余地,因此还需要寻找更好的方法去除环境噪声等的影响。3.支持多种语言的语音识别技术目前 的 语 音识别技术在语音模型和语言模型等方面都是非常依赖具体语言的。随着越来越多的语音识别应用投放到市场上,开发支持多种语言(Multi-linguality)的语音识别技术也显得非常重要,因为每当开发一种新的应用服务都需要对若干种语言进行大量的修改将是十分昂贵和耗时的。4,有关人性因素(Human Factors)的研究在语 音 识 别产品中还应当考虑一些人性因素,如:友好的界面设计、易用性、智能的提示响应以及错误恢复等,合理地加入人性因素可以提高语音识别系统的友好性和灵活性,缩小实验室应用和实际应用之间的性能差距。1.3课题的内容与意义本文 的 研 究任务可以分为相对独立的两个部分:文本相似性的研究和语音识别系统的研究。本文研究任务所直接面对的应用任务分别是计算机网络教育作业评判系统和说话人识别系统和电话转接语音识别系统。在本 课 题 中主要完成了以下几方面工作:工. 文 本 相似度计算的研究和相同相似判别系统的设计和建立这部 分 内 容里面,我们分析了目前文本相同相似判别的方法,并且分析了中文文本分词的现状,以及提出了基于字符串和基于词频统计的相结合的方法进行文本的相同相似判别。在此荃础上,我们结合实际的项目,采用新的判别方法,搭建了一个学生作业文本相同、相似判别系统。系统负责对学生作业文本进行相同,相似判别。本系统主要分为3大模块,分别为:定制词库模块,该模块针对不同的语言,定制不同的词库.作业特征提取模块,该模块主要功能是完成作业的提交,关键技术为提取判别信息,如作业的文本信息、分句、分词信息等。作业判别模块,该模块由教师提交相关参数,然后完成作业判别,并返回结果。主要功能为相似度的计算,即通过判别信息,计算相似度参数。2.端点检测算法仿真及其应用针对实验室目前的两个研究项目中语音数据的不同特点,我们分析了两种端语音信号与文本信息的智能处理点检A算法。一个是说话人识别系统。说话人识别技术是以话音对说话人进行区分,从而进行身份鉴别与认证的技术。在国外,说话人识别技术获得了广泛的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论