语音情感识别眼动仪实验 PPT课件

上传人：优*** IP属地：广东上传时间：2020-04-14 格式：PPTX 页数：16 大小：4.02MB 积分：35 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

10月12日在广州举行的2017小蛮腰科技大会上人工智能 AI 成为最热的议题美国高通集团全球副总裁投资部中国区总经理沈劲表示人工智能下一步的投资机会在垂直领域科大讯飞高级副总裁杜兰说人工智能领域未来有两大产业发展机遇一是三五年内以语音为主键盘触摸为辅的人机交互时代即将到来二是五到十年内人工智能将像水和电一样进入每一个行业深刻改变世界 1 语音识别这个是开复先生多年前的一个小小贡献其实我听懂讲的每个字不代表听懂了意思甚至把英文翻译成中文中文翻译成英文还是没有搞懂你们不要看科大迅飞的演讲说懂得语音了他一点不懂他只能把音变成字字变成音你问他讲什么一个字不懂所以语音识别还是要做的更好语音识别是所有技术里面最不成熟的当我看到一个一个的计划非常担忧 99 很多会死掉自然语言理解没有完全被克服自然语言理解到平台化使用还有十万八千里所以你们如果投了这个项目好好考虑一下 2017 03 03人工智能其实已经无所不在打开你的手机每个APP里面都是人工智能人工智能经历了运算智能感知智能认知智能三个发展阶段阿法狗打败围棋冠军等事例说明机器的运算智能已经超越人类能听会说能看会认的感知智能机器也部分超越人类像把语音翻译成文字方面讯飞输入法的准确率已达98 但在认知智能方面机器跟人还有很大差距也是人工智能努力的方向 2 语音情感识别 3 2013 11 01语音情感识别研究进展综述 EI检索 4 1 情感描述方式大致可分为离散和维度两种形式前者将情感描述为离散的形容词标签的形式如高兴愤怒等后者则将情感状态描述为多维情感空间中的点返回 5 2 依据情感描述模型的不同将数据语料资源划分为离散情感数据库和维度情感数据库两个分支二者的区别在于情感标注形式的不同前者以离散的语言标签如高兴悲伤等作为情感标注而后者则以连续的实数坐标值表示情感返回 CASIA汉语情感语料库该数据库由中国科学院自动化研究所录制由4位录音人 2男2女在纯净录音环境下信噪比约为35db 分别在5类不同情感下高兴悲哀生气惊吓中性对500句文本进行的演绎得到 16kHz采样 16bit量化经过听辨筛选最终保留其中9600句 ACCorpus系列汉语情感数据库该系列情感数据库由清华大学和中国科学院心理研究所合作录制包含5个相关子库 1 ACCorpus MM多模态多通道的情感数据库 2 ACCorpus SR情感语音识别数据库 3 ACCorpus SA汉语普通话情感分析数据库 4 ACCorpus FV人脸表情视频数据库 5 ACCorpus FI人脸表情图像数据库其中 ACCorpus SR子库共由50位录音人 25男25女对5类情感中性高兴生气恐惧和悲伤演绎得到 16kHz采样 16bit量化每个发音者的数据均包含语音情感段落和语音情感命令两种类型 VAM数据库通过对一个德语电视谈话节目 VeraamMittag 的现场录制得到语音和视频被同时保存因此数据库包含语料库视频库表情库这3个部分谈话内容均为无脚本限制无情绪引导的纯自然交流以VAM audio库为例该子库包含来自47位节目嘉宾的录音数据947句 wav格式 16kHz采样 16bit量化所有数据以句子为单位进行保存 1018句标注在Valence Activation和Dominance这3个情感维度上进行标注值处于 1 1之间标注工作由多个标注者共同完成最终的情感值是相关标注者的平均值现已公布的情感语料数据堪称稀少对离散情感语音数据库而言如何同时满足语料的自然度和情感的纯净度是其面临的最大挑战对维度情感语音数据库的建立而言困难不在于语料的获取而在于语料的整理和情感的标注为了将语料中的情感量化为精确的实数值标注者担负了繁重的听辨和打分工作并且标注结果的好坏正误也难以评判面对语料资源的上述现状应该如何对现有资源进行补充和丰富能否通过技术手段对训练语料的选择进行系统的指引和帮助都是研究者们亟待解决的实际问题 6 3 当前用于语音情感识别的声学特征大致可归纳为韵律学特征基于谱的相关特征和音质特征这3种类型返回 1 韵律是指语音中凌驾于语义符号之上的音高音长快慢和轻重等方面的变化是对语音流表达方式的一种结构性安排它的存在与否并不影响我们对字词句的听辨却决定着一句话是否听起来自然顺耳抑扬顿挫但是韵律特征区的情感区分能力是十分有限的例如愤怒害怕高兴和惊奇的基频特征具有相似的表现 2 基于谱的相关特征被认为是声道形状变化和发声运动之间相关性的体现已在包括语音识别话者识别等在内的语音信号处理领域有着成功的运用表达高兴情感的语音在高频段表现出高能量而表达悲伤的语音在同样的频段却表现出差别明显的低能量 3 声音质量是人们赋予语音的一种主观评价指标用于衡量语音是否纯净清晰容易辨识等对声音质量产生影响的声学表现有喘息颤音哽咽等并且常常出现在说话者情绪激动难以抑制的情形之下 4 上述3种特征分别从不同侧面对语音情感信息进行表达自然会想到使用它们的融合用于语音情感的识别从而达到提高系统识别性能的目的目前使用融合特征进行语音情感识别研究是本领域的主流方法一般情况下研究者们使用包括韵律学声音质量频谱在内的多种相关声学特征的合集作为语音情感特征的代表因此如何从现有的声学特征中选择区分能力最优的特征子集如何探究与情感表达关联更加密切的新特征都是当前领域内十分重要的研究课题并且一般认为基于语句时长的全局特征与情感状态之间的关联最为紧密因为它可以在一定程度上削弱文本差异对声学特征的干扰然而这种所谓的干扰削弱却是以减弱部分表征情感状态的声学特征的细节效用为代价的从该角度来看如何界定情感声学特征的最优提取时长抑或是对不同时长的声学特征进行融合也都是不容忽略的研究课题 7 4 依据情感描述模型的不同当今语音情感识别系统所采用的识别算法可以分为两类离散语音情感分类器和维度语音情感预测器 1 基于离散情感描述模型的语音情感识别研究称作离散语音情感识别它们一般被建模为标准的模式分类问题即使用标准的模式分类器进行情感的识别常用于语音情感识别领域的分类器线性的有 Na veBayesClassifier LinearANN artificialneuralnetwork LinearSVM supportvectormachine 等非线性的有 DecisionTrees k NN k nearestneighboralgorithm Non linearANN Non linearSVM GMM Gaussianmixturemodel HMM hiddenMarkovmodel 以及稀疏表示分类器等其中使用最为广泛的有HMM GMM ANN和SVM 2 本文将基于维度情感描述模型的语音情感识别研究称为维度语音情感识别它的出现与传统的离散语音情感识别相比较为新兴但也已得到领域内研究者们越来越多的关注该研究一般被建模为标准的回归预测问题即使用回归预测算法对情感属性值进行估计在当前的维度语音情感识别领域使用较多的预测算法有 LinearRegression k NN ANN SVR supportvectorregression 等其中 SVR因为性能稳定训练时间短等优点应用得最为广泛返回构建合理高效的语音情感识别模型是语音情感识别研究的重中之重它负责对大量的训练语料进行学习从中挖掘由各种声学特征通往对应情感状态的映射通路从而实现对测试语料情感状态的正确判断与识别理想的语音情感识别模型应该是对人脑语音情感处理机制的模拟和重建然而由于人脑情感处理机制的复杂性以及目前的认知科学水平当前领域内构建的识别模型仍停留在功能模拟的水平与机制模拟的目标还存在一定的差距例如离散情感识别任务一般被建模为普通的模式分类器而维度情感识别任务一般被建模为标准的回归预测问题那么如何在现有的认知科学水平之上以尽可能贴近人脑情感处理机制的方式来构建语音情感识别模型是一项艰巨却有着重大意义的任务 8 眼动仪 9 2017 基于数据分析的哈尔滨城市景观特色评价简介利用眼动调查数据分析现有的城市代表性特色进行城市特色构成与权重分析明确城市核心景观特色解析产生调研结果的动因机制提出城市景观特色保护规划策略 1 将哈尔滨的城市景观特色分为5类气候环境景观特色殖民遗产景观特色中原文化景观特色现代文化景观特色后殖民景观特色 2 统计哈尔滨各类型城市特色的代表性景观节点主要入选依据为能够反映公众和社会认可程度的五项指标包括市区内的AAA级以上旅游节点全国重点文物保护单位哈尔滨市一类保护建筑典型文化或景观类型代表政府网站和百度百科推荐的哈尔滨重要旅游节点得到初选城市特色节点69处 3 将哈尔滨城市特色节点评价分为5个评价指标包括文化价值艺术价值经济价值类型丰富度和特色典型性 4 运用AHP法确定各评价因子的权重首先通过专家咨询法将上述各评价因子分别两两相互比较确定因子间的相关重要程度在两两比较的过程中难免会带有主观性差异因此根据哈尔滨特色景观节点的实际情况给出了两两因子的相对重要性比较标准表1 使评价结果更为客观然后通过Matlab软件计算出各项因子的权重值表2 并通过了一致性检验CR 0 0177 0 1000 一致性可以接受 10 5 研究通过5位课题组成员针对特色节点的5项评价标准以每项10分制进行评分完成69处节点的定量评价单个节点最终得分的公式为 6 最后确定选择前24处特色节点作为最终的眼动调研对象并对节点进行特色分类 7 将24处主要城市特色节点各选一张代表性照片按节点类型将图片平均分成两组进行眼动试验调查让被调查者在每组12张城市节点图片中找出一个或多个哈尔滨的城市特色景观找到后可延长关注时间经过多次试验发现对于每张图片12个节点的信息量 10s能更好捕捉被试者对于节点特色的第一印象更长时间被试者容易更多关注图片的内部细节更短时间被试者则不能完成景观特色的选择 11 调查对象本调研属于城市景观节点与城市特色的关联性调查研究按照经验样本量 30 结合本问卷工具使用空间限制本次共调研43人 40人调研数据有效其中男22人女18人哈尔滨常住人口20人来哈尔滨短期游玩者20人被调查对象均为成年人都对哈尔滨城市景观特色有一定认识 12 8 以调查数据为基础首先将各个特色节点的被注视时间进行排序将整体城市特色节点分为4个级别每级平均6个特色节点表4 给每个城市特色级别进行赋分一级4分二级3分三级2分四级1分通过统计表4中数据分析五个城市特色景观类型的数量比例级别对五个城市特色景观类型进行价值排序打分殖民遗产特色7项23分后殖民景观特色6项17分气候环境景观特色5项8分现代文化特色4项5分中原文化特色2项7分合计24项60分各特色类型的数量和价值比例见表5 13 2011 EyeTrackingOverSmallandLargeShoppingDisplays 简介在购买两种不同尺寸的模拟货架显示器上的产品时将消费者的视觉行为进行比较 11 5英尺投影画布和15 4英寸笔记本电脑屏幕将结果与在虚拟投影和物理货架上获得的搜索时间进行比较其中记录的搜索时间揭示了一个趋势是通过使用较大的显示器能够提高性能对普遍眼睛跟踪系统的影响表明要考虑到更大更现实的环境 14 实验对象 20名学生 15 36岁参与者分为两组每组有相同人数的男性和女性一组在笔记本电脑画布上搜索三个产品然后在画布笔记本电脑上搜索其他

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音情感识别眼动仪实验 PPT课件

文档简介

温馨提示

最新文档

评论

语音情感识别 眼动仪实验 PPT课件

文档简介

温馨提示

最新文档

评论

相关文档

语音情感识别眼动仪实验 PPT课件