


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
青岛理工大学人机交互实验设计报告院(系): 专业: 学生姓名: 班级 学号: 题目: 多通道用户界面的设计 起迄日期: 完成日期: 2015 年7月 2 日语音识别综述:随着信息技术的高速发展和人类对计算机的依赖性不断增强,人机交互能力越来越受到研究者的重视。如何实现计算机的拟人化,使其能感知周围的环境和气氛以及对象的态度、情感的内容,自适应地为对话对象提供最舒适的对话环境,尽量消除操作者和机器之间的障碍,已经成为下一代计算机发展的目标。显然,人的大脑所表现出来的心智现象不仅仅体“智”的方面,而且还体现在“心”的方面。人工智能已经不仅仅把研究重点放在对人脑智能实现上,而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。顾名思义,语音情感识别包括语音识别和情感识别两大领域,而情感识别中又包括诸如心理学、生理学等多个学科,所以如果要想使计算机准确的在语音中提取出说话人所表达情,就必须要从多方面知识领域着手。目前有许多关于语音和情感之间相互联系的研究,如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别技术的用途非常广泛,可以用来设计人性化的语音人机界面;可以用于互动影视;可以用于辅助语音识别;可以用于情感翻译;还可以用在测谎、电子游戏和辅助心理治疗等方面。语音情感的特征提取: 一般来说,语音中的情感特征往往通过语音韵律的变化表现出来。语音情感的变化通常可以体现为语音特征参数的变化。统计分析表明,高兴时,通常是语速较快,音量较大;悲伤时,通常是语速缓慢,音量较小。基音是最常用的判定情感的语音特征,它反映了超音段的信息。在语音情感识别中使用的特征参数有基频(Pitch),其次才是能量(Energy)、语速(SpeechRate)、共振峰频率(Formant)、单个音节的持续时间(Duration)、音节之间的停顿时间(Pause)、线性预测系数(LPC)、Mel倒谱系数(MFCC)等,以及它们的各种变化形式,如最大值、最小值、均值、范围、变化率等等。这些参数主要体现的是人体的声门和声道的特征,因此和人的生理构造有着密切的关系,在不同的个体上显现出较强的相异性。Dellaerat等人主要使用了基音轮廓线,来区分悲伤、生气、高兴和害怕,识别率能达到60-65%。Seppanen等人在利用韵律学对芬兰语进行语音情感识别时,提出了共43种情感参数,其中基音部分包括基音均值、中值、最大值、最小值、基音范围等参数,对于单个确定人的情感识别取得了80.7%的识别率。Petrushin采用了基音、一次共振峰和二次共振峰、能量、说话速率等参数对五种情感识别取得了很好的效果,平均识别率达到70%。McGilloway等人研究了高兴、生气、悲伤、害怕和正常这五种情感状态的分类,从能量、基音的运动轨迹中抽取了32个潜在的特征,得到了55%的识别率。以下比较详细地分析一下常用的特征。语音情感识别的方法与手段: 各种模式识别方法,如线性判别分类(LinearDiscriminantClassifier),K最近邻法(K-NearestNeighborhood)、支持向量机(SupportVectorMachine)、高斯混合模型(GaussianMixtures)、隐马尔可夫模型(HiddenMarkovModel)等,都被应用于语音的情感识别。许多学者针对这些情感语音的特征,比较了不同的分类方法能够达到的不同效果。在这些分类方法中,人工神经网络和隐马尔可夫模型的性能比较出色。在模式识别方面,各国研究人员在语音情感信息处理领域几乎利用了所有的模式识别手段,新的方法的应用和对比层出不穷。ChulMinLee等把语音情感识别归结为模式识别问题,并提出了三种方法9:线性判别分类(LDC),K最近邻法(k-NN),支持向量机(SVC)。LDC是带有高斯概率分布的参数方法,估算完参数的均值和方差后,LDC利用贝叶斯准则计算出最大后验概率对情感进行分类。K-NN方法通过计算k领域的平均均值估算每类情感的局部后验概率。在SVC方法中,用非线性的映射方法将输入向量映射到更高维的特征空间中进行计算。TinLayNew等采用了Mel频率语音能量系数和HMM分类方法10,将语音信号分成16ms一帧的互相重叠的窗口,每一段语音帧都用12Mel频率下边带能量评价准则来进行参数化,对参数化后的再用矢量量化器进行编码。在系统的训练阶段,按照分类情感训练生成的码本,训练产生4状态各态历经HMM。在识别阶段,把没有经过事先分类的语音进行特征编码,之后用已经训练好的HMM进行识别,识别后的输出有五类,第一类输出是愤怒,第二类为伤心,愤怒与惊讶被作为一个输出分到了第三类,第四类为恐惧和高兴,第五类为厌恶和悲伤。Tin共做了三次实验,第一次只对第一组和第二组进行识别,其平均识别准确率达到了95%;第二次实验,对第三类和第五类进行了识别,其平均识别率达到了87.5%,第三次实验,对第三、第四、第五类进行识别,其平均识别率达到了82.22%。Tin从一个新的角度提出了语音情感识别的方法。在基于神经网络的分类方法方面,Nicholson所研究的系统的整个神经网络由8个子网构成,其处理流程分两部分:语音处理(包括特征计算、句点提取和特征提取)情感识别(包括神经网络训练和识别情感)。其每个子网处理一种特定的情感。测试发现11,负面的情感,如愤怒和悲伤容易识别,但正面的情感(比如喜悦)不易识别。H.Sato等也采用神经网络,但是只能把平静时的情感和其他3种情感区分开来,还不能具体识别每一种情感12。McGilloway等人利用几位不同乘客的抽取语音作为研究对象,情感同样是高兴、生气、悲伤、害怕和正常状态,从强度、基音的运动轨迹中抽取了32个潜在的特征,使用了两个不同的分类器,其中的神经网络分类器采用90作训练,10作测试,得到了55的识别率总结与研究展望: 许多学者已经把语音情感识别和人脸表情识别结合起来研究,并取得了比较理想的效果。另外,语音中情感的识别和合成带有情感的语音是相辅相成的。合成情感语音最重要的韵律参数包括振幅和基音频率,通过修改平
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于案例的编程教学试题及答案
- 财政政策的调控工具比较试题及答案
- 法学概论考试的视觉思维试题及答案
- 企业战略规划中的数字化技术运用
- 公司未来发展战略与风险管理试题及答案
- 2019-2025年一级建造师之一建建设工程项目管理自测模拟预测题库(名校卷)
- 医疗信息化系统的建设与实施
- 功能型与娱乐型结合的移动医疗APP发展趋势
- 产科护理课件模板
- 汽车保养与夏季检查协议
- 中国医院质量安全管理 第4-13部分:医疗管理住院患者健康教育 T∕CHAS 10-4-13-2020
- DB35_T 88-2022伐区调查设计技术规程
- 《航空专业英语》课件维修专业基础英语R1
- 【课件】第17课实验与多元——20世纪以来的西方美术课件高中美术人教版(2019)美术鉴赏
- 张沟煤矿打钻着火事故概述
- 孔子练精神聪明不忘开心方_医心方卷二十六引_金匮录_方剂加减变化汇总
- 欧宾电梯货梯电气原理图
- 政务服务顾客意见簿(竖)[2]
- Module-9-Unit-1-could-I-ask-if-youve-metioned-this-to-her
- NJB-2综合监测仪说明书
- 残魄点穴术(秘
评论
0/150
提交评论