中期进展情况检查表-a system for interactive learning in dialogue with a tutor_第1页
中期进展情况检查表-a system for interactive learning in dialogue with a tutor_第2页
中期进展情况检查表-a system for interactive learning in dialogue with a tutor_第3页
中期进展情况检查表-a system for interactive learning in dialogue with a tutor_第4页
中期进展情况检查表-a system for interactive learning in dialogue with a tutor_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学本科毕业设计(论文)中期进展情况检查表学院计算机学院专业智能科学与技术班级09211319学生姓名李东亮学号09211659班内序号5指导教师姓名王小捷所在单位北京邮电大学职称教授设计(论文)题目多模态人机交互中的说话人意图识别研究目前已完成任务一语料及图像采集工具为了更好地分析实际口语对话中信息,本毕设完成了一个信息采集工具,来采集实验所需的样本,该工具具有以下功能A远程连接到NAO机器人B控制机器人说话C获取机器人的图像信息D远程控制机器人与人交谈E存储聊天记录并记录摄像头拍摄下的影像信息二语料采集以及口语语料分析现阶段我们采集了15名志愿者的人机对话样本(模拟认知过程),每个人采集10分钟左右,共得到人的谈话记录900条左右(仅人不包括机器人答语),也得到了相应数量的图片信息。对口语进行了分析发现,句子长度比较短,结构简单,并且口语对话中会出现很多自然的或自发的现象,如省略、重复、次序颠倒等,这使得句子结构一般比较松散,成分冗余和成分省略都比较严重,因此口语语句理解跟规范书面语理解相比要困难得多。结论需要对应用场景进行限定,这样所面临的句子类型、词汇、语义关系等因素都得到了简化,从而降低了口语意图理解的复杂度、可行性及性能。本系统主要将对话意图分为六类教、肯定回答、否定回答、判断性询问、询问、其他,其中前五类与场景相关。三平台及框架的设计与搭建工程上,本系统提供C的接口,内部出于拓展性的考虑,采用PYTHON编写。因为需要以一种服务的形式提供给用户,所以采用分布式系统框架(ICE)实现。ICE保证了在工程上系统跨平台跨语言的可行性。系统的架构如下意图识别ICESERVERICECLIENT口语意图PYTHONC除了采用ICE分布式消息中间件外,本系统采取了多种措施保证系统的拓展性。采用模块化设计,使程序容易升级。借口上采用JSON数据格式传输数据,使系统更容易拓展,当更改接口时,不用更改底层框架相关代码。意图识别模块,是程序的主题,采用PYTHON语言编写。主要细分为以下几部分特征提取、意图分类、信息抽取、答语搜索模块,各模块间关系如下图。开始结束意图分类信息抽取答语搜索场景相关是否四特征提取特征提取,本系统提供了三套方案,手动提取、统计特征和组合特征。A手动提取此方案特征的选取,是针对人表现意图的特点,所选的特征大体分为下几个方面1)句法作用类似么、呢2)同一类词红色、黄色、白色等3)相似语义不对和不是。4)句子长度等特征判断是否具有某特征的方法(1)关键词匹配。针对所要选取的特征,得到所需的特征词,然后进行关键词匹配。(2)词性匹配。选取所需词性,如果具有则判断具有该特性,这要求标注比较详细,所以采用中科院二级标注体系。B统计特征本方案主要提取供贝叶斯分类器使用的特征,首先分词,然后统计每个词在每类中出现的频率。每个词在该类中出现的频率。此外,本系统在计算概率时采用拉普拉斯平滑,来补充语料不足的问题。由于口语句子一般很短,并且一些平时认为的停用词,在口语分类中成为了关键词汇,所以不能去除停用词。C综合特征本方案是对方案B的补充,由于语料不充足时候,只通过拉普拉斯平滑是不够用的,为了提高贝叶斯分类器的准确度,通过将A方案所提取出的特征转化成ABC等词汇,补充到句子中,然后再进行统计,这是对语料不足,所进行的补充。五分类器设计在分类器的选择上,本系统主要使用SVM、KNN、NAVEBAYES三种基本分类器。在解决问题的策略上有两种方式A使用单一分类器本方案,意图识别一步到位,直接识别出用户意图。单独使用SVM、KNN、NAVEBAYES,分别进行分类,识别出用户的意图,选出分类结果最好的。对于特征,SVM、KNN使用(4)中A方案的特征,NAVEBAYES使用(4)中的B方案或者C方案。B使用两层分类此方案,意图识别将分成两步进行。首先,用分类器(SVM、KNN、NAVEBAYES)识别出语句是否与场景相关;然后将与场景相关的句子再使用A方案进行分类。六分类器性能测试分析本系统准备了三组数据。数据1和数据2用于意图分类的训练和测试,数据3用于场景相关的训练和测试。具体情况如表1。用途训练集样本数测试集样本数数据1意图分类327203数据2意图分类517385数据3场景相关517385表1数据集设定实验设定如下A单分类器测试SVM、KNN、BAYESA、BAYESB、BAYESC、VOTEBOOST分别在数据1和数据2上进行训练和测试,结果见表2。B多分类器此方案,意图识别将分成两步进行。首先,用分类器(SVM、KNN、NAVEBAYES)识别出语句是否与场景相关;然后,将与场景相关的句子再使用A方案进行分类。场景相关分类器的训练和测试是在数据3上进行的,结果见表3;第二部分分类器采用数据2的训练集(训练集2)进行训练。综合的测试使用数据2的测试集(测试集2),结果见表4。意图识别训练集1测试集1训练集2测试集2平均SVM94809015916889359150KNNK391138966916889099039BAYESA67287438698367536976BAYESB91138522911086498849BAYESC93588079922685458802VOTEBOOST93888916930489879149注BAYESA特征为分词并去停用词;BAYESB为方案B;BAYESC为方案CVOTEBOOST为BAYESC、SVM和KNNK3的融合表2单分类器意图识别场景相关训练集3测试集3平均SVM907084688769KNNK3918684688827BAYESB957485459060BAYESC951685199017表3单分类器场景相关识别结果分析A单分类器(表2)A分类正确率排序(高到底)SVM、VOTEBOOST、KNN、BAYESB、BAYESC、BAYESA。SVM的分类性能最好。BBAYESA分类性能与其他相差巨大,所以BAYES分类器,在短口语分类中不能去停用词。C在小训练集中BAYESCBAYESB说明语料不足,方案C确实起到一定作用。DVOTEBOOST的融合不能提高性能,说明性能瓶颈不在分类器,而在特征选择。B多层分类器(表2、表3、表4)C在场景相关分类中,BAYES分类效果明显优于SVM、KNN,主要因为BAYES能提取到无关信息的特征,并量化。D从测试集2的结果来看,分类正确率排序(高到底)BAYESSVM、BAYESKNN、SVMSVM、VOTEBOOST、BAYESBAYES、SVM、KNN、BAYESB、BAYESC、BAYESA。这说明,多层分类器设计性能明显优于单分类器。最好情况为BAYESSVM,原因为能应用不同的特征完成相应的分类任务。七信息抽取本模块主要提取的信息包括颜色信息、形状信息、物品名称、像不像等信息。由于每类情况不同,所以实际中,针对每个类型分别编写了不同的信息提取模块。在提取技术上,主要采用关键字检索的方法提取颜色和形状,因为颜色形状是相对有限的,可以枚举出大部分。针对物品名字,主要通过词性标注,以及例外情况相配合,得到所需物品名称。意图识别训练集2BAYESBAYES8961BAYESKNN9117BAYESSVM9221KNNKNN8883SVMSVM9091注BAYES为BAYESB;KNN中K3表4多层分类器意图识别八场景无关问题的答语检索由于第六类(其他),不能够提取出相关信息,上级对话管理模块也不能生成答语。不仅如此,更为了接口的一致性,这里做了一个类似问答系统的模型,针对第六类(场景无关问题的答语检索)搜索出问题的答语。检索时使用最近邻模型,并设定了相应阈值,如果低于阈值则未找到。简单

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论