




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本科毕业设计(论文)题目多模态人机交互中的说话人意图识别研究学院计算机学院专业智能科学与技术班级20092113192013年6多模态人机交互中的说话人意图识别研究摘要在认知服务类机器人系统构建中,意图识别模块是至关重要的一部分。本文研究的重点是设计并实现意图分类模块,并且提取说话人言语中的关键信息。由于口语对话言语不规范现象严重,如重复、颠倒、省略等,所以要选择鲁棒的特征,为此,本文提取了三种不同的特征关键词特征、知网特征、统计特征,并使用支撑向量机SUPPORTVECTORMACHINESVM、KNN、NAVEBAYES三种分类器建出扁平分类器、层级分类器。经过实验,得到如下结论(1)KNN算法在K3时效果最佳,BAYES分类器使用不去停用词的统计特征能得到较好性能。(2)层级分类器的效果明显优于扁平分类器。(3)使用知网特征增强了系统的覆盖能力。基于这些实验结果,本文确定了一种构建意图识别系统的方案即使用层级分类器进行意图识别,其中第一级用BAYES分类器,第二级用SVM分类器。此外,在系统构建中,使用ICE分布式中间件,使系统跨平台、跨语言的能力得到支撑。而PYTHON语言的使用以及模块化设计,使系统在开发中具有很大的拓展性和自由度。基于此完成了对话理解模块的任务,为多模态对话系统的建立奠定了基础。关键词口语对话意图识别SVM贝叶斯知网SPEAKERINTENTIONRECOGNITIONOFMULTIMODALHUMANCOMPUTERINTERACTIONABSTRACTINCOGNITIVESERVICEROBOTSYSTEMBUILDING,THEINTENTIONRECOGNITIONMODULEISAVITALPARTTHEFOCUSOFTHISSTUDYISTODESIGNANDIMPLEMENTINTENTCLASSIFICATIONMODULEANDTOEXTRACTTHEKEYWORDSOFSPEAKERSSPEECHBECAUSETHEABNORMALPHENOMENAOFSPOKENDIALOGUEISSERIOUSSUCHASREPETITION,REVERSED,OMITTED,ETC,ITNEEDSTOSELECTROBUSTFEATURESINTHISARTICLE,WEEXTRACTTHREEFEATURESKEYWORDFEATURE,HOWNETFEATURE,STATISTICALFEATURE,ANDBUILDFLATCLASSIFIERANDHIERARCHICALCLASSIFIERBYUSINGSVMSUPPORTVECTORMACHINE,KNNANDNAVEBAYESCLASSIFIERTHROUGHEXPERIMENTS,THEFOLLOWINGCONCLUSIONS1KNNALGORITHMWORKSBESTWHENK3BAYESCLASSIFIERUSINGTHESTATISTICALCHARACTERISTICSOFREMOVINGSTOPWORDSDONOTGETBETTERPERFORMANCE2HIERARCHICALCLASSIFIERISBETTERTHANFLATCLASSIFICATION3HOWNETFEATUREENHANCESSYSTEMCOVERAGEBASEDONTHESEEXPERIMENTALRESULTS,THISARTICLEIDENTIFIESABUILDINGPLANOFINTENTIDENTIFICATIONSYSTEMUSESAHIERARCHICALCLASSIFIERFORINTENTIONRECOGNITION,WHEREINTHEFIRSTSTAGEWITHTHEBAYESCLASSIFIER,THESECONDSTAGEWITHASVMCLASSIFIERINSYSTEMCONSTRUCTION,THEUSEOFDISTRIBUTEDMIDDLEWAREICEMAKESTHECROSSPLATFORM,CROSSLANGUAGECAPABILITYGOTSUPPORTEDBYTHEUSEOFPYTHONLANGUAGEANDMODULARDESIGN,THEDEVELOPMENTOFTHESYSTEMISOFGREATEXPANSIONANDFREEDOMBASEDONTHESE,WECOMPLETETHETASKOFDIALOGUEUNDERSTANDINGMODULE,ANDESTABLISHABASISFOUNDATIONFORMULTIMODALDIALOGUESYSTEMKEYWORDSSPOKENDIALOGUEINTENTIONRECOGNITIONSVMBAYESCLASSIFIERHOWNET目录第一章绪论111研究背景112研究现状1口语对话研究现状1对话理解研究现状2口语特点研究313论文安排4第二章基础知识421分类方法4SVM分类模型4KNN分类模型7朴素贝叶斯分类模型822特征提取技术8知网及语义特征提取8贝叶斯统计特征9第三章意图识别1031意图识别任务介绍1032识别方法11模型选择11特征选择1233实验15实验方案15实验评估1534语料、实验结果及分析15语料统计15实验结果及分析16第四章人机对话意图识别系统设计与实现1941系统框架与处理流程19背景技术19系统框架与处理流程2042系统其他关键技术21信息抽取21问答检索24第五章总结与展望24文献25绪论11研究背景随着语音技术和自然语言理解等技术的发展,语音交互系统成为一个颇为热门的研究领域。传统的人机交互中,人们一般通过键盘、鼠标等输入设备将自己的命令传送给计算机对于没有使用经验的人来说人机交互就成了一种障碍而基于语音的交互系统就成了人和计算机间的桥梁人可以自由方便地与计算机交流。目前语音交互系统已应用于许多领域,如股票查询、天气预报查询、旅游信息查询服务、定票服务系统等1。机器人进人家用领域成为不可避免的趋势,基于服务机器人的交互系统也成为急需解决的关键技术。随着计算机、互联网的快速发展,人机交互系统变成一种增值服务产品,逐渐走入人们的生活,尤其在移动互联网方面得到很大的应用,简单的有识别语音指令控制软件,复杂的产品有苹果公司的SIRI,这些是认知服务机器人新的应用方式。现阶段人们对人机交互的需求不再仅仅局限于单一模态的信息交互(文本、语音、网页等常见的信息交互方式),单一模态的表达能力是有限的,并且不符合人们现实中自然的交互方式,所以人们希望机器人能够处理并理解多模态的信息。因此,多模态的对话模型是人机交互、对话系统的发展趋势。在认知服务类机器人系统构建中,意图识别模块是至关重要的一部分。在人机交互中,语音模态是主要的模态,但要准确理解用户意图,不仅仅需要通过语音模态获取要表达的信息,许多时候还需要借助其他模态如视觉,来得到对话者深层的含义,多模态的信息能够帮助构建完整的交互过程,针对语言模态的意图识别而言,其他模态的信息的主要作用在于“指代削取”,在人们自然对话过程中,人们不自觉的使用“这”、“那”来代表当前场景中所看到的信息,从视觉模态获取的背景信息,能帮助解决这类问题,从而更准确理解用户意图,所以其他模态对于语言模态的意图识别具有补充作用,当前判断说话人的意图,以识别是否需要引入场景信息是多模态人机交互研究中的一个重要课题。本研究目的在于分析对话过程中的说话人言语,以识别在人机对话中说话人是否存在与场景相关的特定意图,并且提取说话人对话的关键信息,为后续加入场景信息的人机交互提供支持。12研究现状口语对话研究现状人机对话系统2HUMANMACHINEDIALOGUESYSTEM是自然语言处理的一个重要研究领域,根据系统功能的不同,可以将人机对话系统分为通用人机对话系统和限定领域的人机对话系统,通用人机对话系统的核心技术之一是自然语言理解系统NATURELANGUAGEUNDERSTANDINGSYSTEM。这样的系统可以模拟人的语言交际过程,处理和运用人类社会的自然语言,如汉语英语等实现人机之间的自然语言通信,代替人的部分脑力劳动。限定领域的人机对话系统则主要指就某一具体应用领域,用自然语言提供信息服务的系统,如基于自然语言的信息查询系统等讨论的目标是限定领域的汉语口语人机对话系统。近十年来,由单模态转向多模态的人机交互研究越来越多。DANIJELSKOCAJ等人345综合利用语音和图像双通道信息,研究实现了通过语音对话让机器人学习物体的图像概念,并对新的物体进行认知,模拟了儿童对事物的学习过程;陶建华等人融合语音、手势和面部表情等信息,采用有限自动机结合填槽法来实现混合主导的人机对话管理,建立了基于多模态人机交互的天气查询系统。由此可见,多模态的人机交互的研究朝着融合更多潜在模态信息、提高交互自然性的方向发展,随着更加智能的机器人出现,多模态人机交互将会取得长足的进步。多模态人机交互主要有六个部分组成1)输入INPUT多通道的输入数据,例如语音、文本、手势、表情、眼动信息等。2)融合FUSION处理输入的多通道信息,包括两个层次的处理,特征层次(提取输入信息的有用特征)和语义层次(识别输入信息的具体含义),融合模块主要是生成一种让DM模块理解的语义表征。3)对话管理DM协调整个对话系统,控制各个模块的行为,它是整个系统的核心,DM的主要任务是A)根据对话内容的理解更新对话上下文(指能影响对话行为的理解和结果的集合);B)提供对观测信号理解的上下文相关期望值,并产生一种交流行为;C)提供任务或者领域处理的接口,是的对话、非对话行为和推理协调工作;D)决定下一步系统需要表达什么内容,什么时候表达。4)知识库GENERALKNOWLEDGE知识库是对话系统所涉及到的所有数据,包括对话历史、任务模型、领域知识、用户模型等。5)分裂FISSION形成各输出通道抽象消息的过程。主要的任务是内容选择和组织、输出模式选择、输出协调。6)输出OUTPUT多通道的输出数据,例如2D/3D图像、网页文本、音视频。对话理解研究现状口语理解6是实现口语对话系统的关键技术之一。它的任务是理解用户的意图,并抽取用户输入语句所包含的关键信息。通常用户输入语句的语义可用语义框架SEMANTICFRAME表示。一个语义框架通常包括1语义框架类型FRAMETYPE表示用户输入语句的主题;2相应的一些语义槽SLOTS表示用户输入语句中的关键信息如果采用语义框架表示,则口语理解可看做是把输入语句转换为相应的语义框架的工作。传统的口语理解方法主要分为两种规则方法和统计方法。规则方法主要利用稳健的句法分析或者模板匹配技术来分析口语,而统计方法则是把口语理解建模为统计解码过程。两种方法各有优缺点,规则方法的优点是不需要大量的标记语料库,但是其开发成本较高,因为规则通常需要语言学家手工定义,费时费力。这样,很难移植到新的应用领域和语言。相反地,统计方法可从标记语料库自动训练,与手工定义规则相比,标记语料库比较容易而且基本不需要语言学知识。但是,统计方法会受到数据稀疏问题的影响要训练一个较精确的模型,通常需要大量完全标记的语料库。可以发现这2种方法的非对立性和互补性,基于规则的方法在本质上是演绎的,基于统计的方法在本质上是归纳的;基于规则的方法属于逻辑思维方式,基于统计的方法属于经验思维方式;理论研究和实践经验都表明统计方法在解决自然语言理解的浅层问题方面比较有效,规则方法在解决自然语言理解的深层问题场合具有优势。真正有希望的出路必然是种方法有机的综合互补,合理规则方法和统计方法互相补足应是解决自然语言理解问题的合理途径7。而本文则是基于规则和统计相互补的一种方式。口语特点研究口语与书面语言之间有很大的差别8,口语语言中包含有大量的非书面语语言现象。这些非书面语言的表现非常复杂,有时反映了说话者的某一思想状况,具有向听话者传递着一定的信息作用;有时并没有任何意义,仅是说话者的一种习惯方式。口语中那些看起来不规范的成分,如叹词,语气词,沉默,变调,重复,讲半句的话,语法不通的句子等等,还有非语言的因素,恰恰是口语中不可缺少的部分。很难想象,如果完全去掉这些东西,日常的交际口语会是什么样子。文献9,10中总结了口语对话的特点,主要有以下几点1语句长度分布平均语句长度为10个汉字左右,以简单句为主;2词类分布统计数词、动词、名词、代词和习惯用语是使用频率最高的5个词类;3句长分布2字词的比例约为8619,3字词和4字词的比例较小,4字以上的词基本很少出现;4口语化特点一些词汇在口语对话中表示新的词义,和普通文本中的不同;5语言不规范常见的现象有重复、冗余、次序颠倒、以及信息省略等。表11口语中的语言现象统计语言现象重复次序颠倒冗余省略独词句现象并存出现几率()351234732614459568表1111为这些特点的一些统计,从表中可以看出,“省略”和“独词句”主要比例,二者总和为772。但是,独词句和省略对于后续的分析比如句法分析影响不是很大,而“重复、次序颠倒和冗余”则会对后续的分析产生很大的影响。在“重复、次序颠倒、和冗余”这三种现象中,重复和冗余又占主要部分,三种语言现象所占比例是949,而其中重复和次序颠倒的比例是826,占主要部分,因此,有必要针对冗余和重复现象进行研究。所以在意图识别中结合重复和冗余的现象进行分析。这些特点给口语对话系统的语音识别、句法分析、语义理解以及语言生成都带来了新的、更困难的问题。对这些非规范的语言现象进行研究和处理,是口语解析所面临的一个难点,也是开发适用于真实环境下的、具有友好人机界面的多模态口语对话系统所必须解决的一个问题。13论文安排本论文组织的如下。在第二部分,我们介绍了构建意图识别系统所需的一些基础知识。在第三部分我们描述了如何进行意图识别,具体每种特征、方案的选择,并进行实验,实验结果也在本部分中呈现,并选择出最佳的分类方案。第四部分我们介绍了如何在工程上构建完整可用的意图识别系统。在第五部分我们对全篇文章进行了总结。第二章基础知识21分类方法SVM分类模型SVM12方法是20世纪90年代初VAPNIK等人根据统计学习理论提出的一种新的机器学习方法,它以结构风险最小化原则为理论基础,通过适当地选择函数子集及该子集中的判别函数,使学习机器的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器,对独立测试集的测试误差仍然较小。支持向量机的基本思想是首先,在线性可分情况下,在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下,加入了松弛变量进行分析,通过使用非线性映射将低维输入空间的样本映射到高维属性空间使其变为线性情况,从而使得在高维属性空间采用线性算法对样本的非线性进行分析成为可能,并在该特征空间中寻找最优分类超平面。其次,它通过使用结构风险最小化原理在属性空间构建最优分类超平面,使得分类器得到全局最优,并在整个样本空间的期望风险以某个概率满足一定上界。其突出的优点表现在1基于统计学习理论中结构风险最小化原则和VC维理论,具有良好的泛化能力,即由有限的训练样本得到的小的误差能够保证使独立的测试集仍保持小的误差。2支持向量机的求解问题对应的是一个凸优化问题,因此局部最优解一定是全局最优解。3核函数的成功应用,将非线性问题转化为线性问题求解。4分类间隔的最大化,使得支持向量机算法具有较好的鲁棒性。由于SVM自身的突出优势,因此被越来越多的研究人员作为强有力的学习工具,以解决模式识别、回归估计等领域的难题。SVM是从线性可分情况下的最优分类面发展而来的,基本思想可用图21来说明。对于一维空间中的点,二维空间中的直线,三维空间中的平面,以及高维空间中的超平面,图中实心点和空心点代表两类样本,H为它们之间的分类超平面,H1,H2分别为过各类中离分类面最近的样本且平行于分类面的超平面,它们之间的距离叫做分类间隔MARGIN。图21最优分类面所谓最优分类面要求分类面不但能将两类正确分开,而且使分类间隔最大。将两类正确分开是为了保证训练错误率为0,也就是经验风险最小为O。使分类空隙最大实际上就是使推广性的界中的置信范围最小,从而使真实风险最小。推广到高维空间,最优分类线就成为最优分类面。设线性可分样本集为是类别符号。D_X,1,1,DIIYNXRY维空间中线性判别函数的一般形式为是类别符号。D维空间中线性判别函数的一般形式为,分类线方程为。将判别函数进行归一化,使两类GXWB0WB所有样本都满足,也就是使离分类面最近的样本的,此时分类间|1G|GX隔等于,因此使间隔最大等价于使或最小。要求分类线对2/|2W所有样本正确分类,就是要求它满足MERGEFORMAT0,2,IYXBIN00满足上述条件21,并且使最小的分类面就叫做最优分类面,过两类样本|W中离分类面最近的点且平行于最优分类面的超平面H1,H2上的训练样本点就称作支持向量SUPPORTVECTOR,因为它们“支持”了最优分类面。利用LAGRANGE优化方法可以把上述最优分类面问题转化为如下这种较简单的对偶问题,即在约束条件,MERGEFORMAT0010NIIYMERGEFORMAT00,2,IN下面对求解下列函数的最大值IMERGEFORMATI1,1Q()NIIJIJIJIJYX00若为最优解,则MERGEFORMAT001NIIWY即最优分类面的权系数向量是训练样本向量的线性组合。这是一个不等式约束下的二次函数极值问题,存在唯一解。根据KHNTUCKER条件,解中将只有一部分通常是很少一部分不为零,这些不为0解所对应的样本就是支I持向量。求解上述问题后得到的最优分类函数是1SGNSGNIIIFXWXBYXBMERGEFORMAT00根据前面的分析,非支持向量对应的均为0,因此上式中的求和实际上只对支I持向量进行。是分类阈值,可以由任意一个支持向量通过式21求得只有支持向量B才满足其中的等号条件,或通过两类中任意一对支持向量取中值求得。从前面的分析可以看出,最优分类面是在线性可分的前提下讨论的,在线性不可分的情况下,就是某些训练样本不能满足式21的条件,因此可以在条件中增加一个松弛项参数,变成I0MERGEFORMAT10,12,IIIYWXBIN00对于足够小的S0,只要使MERGEFORMAT001NIIF最小就可以使错分样本数最小。对应线性可分情况下的使分类间隔最大,在线性不可分情况下可引入约束MERGEFORMAT002|WKC在约束条件27、29下对式28求极小,就得到了线性不可分情况下的最优分类面,称作广义最优分类面。为方便计算,取S1。为使计算进一步简化,广义最优分类面问题可以迸一步演化成在条件16的约束条件下求下列函数的极小值MERGEFORMAT0011(,),2NIIWC其中C为某个指定的常数,它实际上起控制对锩分样本惩罚的程度的作用,实现在错分样本的比例与算法复杂度之间的折衷。求解这一优化问题的方法与求解最优分类面时的方法相同,都是转化为一个二次函数极值问题,其结果与可分情况下得到的22到26几乎完全相同,但是条件23变为MERGEFORMAT00I0,1,CIN对于非线性问题,可以通过非线性交换转化为某个高维空间中的线性问题,在变换空间求最优分类超平面。这种变换可能比较复杂,因此这种思路在一般情况下不易实现。但是我们可以看到,在上面对偶问题中,不论是寻优目标函数(24)还是分类函数26都只涉及训练样本之间的内积运算。设有非线性映射将()IXDRH输入空间的样本映射到高维可能是无穷维的特征空间H中,当在特征空间H中构造最优超平面时,训练算法仅使用空间中的点积,即,而没有单独的IJX出现。因此,如果能够找到一个函数K使得IXMERGEFORMAT00IJIJKXX这样在高维空间实际上只需进行内积运算,而这种内积运算是可以用原空间中的函数实现的,我们甚至没有必要知道变换中的形式。根据泛函的有关理论,只要一种核函数满足MERCER条件,它就对应某一变换空间中的内积。因此,在最优IJKX超平面中采用适当的内积函数就可以实现某一非线性变换后的线性分类,而IJKX计算复杂度却没有增加。KNN分类模型K近邻法也就是KNEAURESTNEIGHBOR方法,又称为KNN分类法。它是一个理论上比较成熟的方法,是由COVER和HART(1967)提出的。此算法的思想简单直观若一个样本在特征空间中的K个最相似(也就是特征空间中最邻近)的样本中的大多数都属于某一个类别,则此样本也属于这个类别。此方法在分类决策上仅依据最邻近的一个或几个样本的类别来最终决定待分样本所属的类别。最近邻法是在己知类别的训练样本条件下,按最近距离原则对待识模式分类。KNN分类方法思想直观,效果较好,方法简单,其中某些技术在理论上能够实现先验知识完备的贝叶斯决策的分类效果,可以适应类域分布较复杂的情况之中,是最重要的模式识别技术之一,而且在生物信息学等多个科学领域有着非常重要的应用。假设数据集,I1,2,C,J1,2,此个数据分JYIIN1CII别属于C种不同类别,其中是第I个分类的样本个数。分类思想是对一个待测INIW数据X分别计算它与这N个已知类别的样本的距离,将其判为距离最近的那个样JY本所属的类。基于此分类思想类的判决函数是I,I1,2,C1,2DMINIIJJNIXXMERGEFORMAT00判决规则为1,2,ARGIMICDMERGEFORMAT00因为上述的方法仅根据离待识模式最近的一个样本的类别所决定其类别,所以一般称为最近邻法或1近邻方法。为了克服单个样本类别的偶然性,从而增加分类的可靠性,考察待测数据的K个最近邻样本,这K个最近邻中哪一类的样本最多,就将X判属给哪一类,也就是说如果假设样本最多就将X判属为哪一类。例如设分别是X的K个最近邻样本属的样本数,定义类的判决12,CK12,CWIW函数是,I1,2,,C()IIDKMERGEFORMAT00判决规则为1,2X,AMIICDXMERGEFORMAT00该方法通常称K近邻算法,也就是KNN。朴素贝叶斯分类模型朴素贝叶斯分类器(NAIVEBAYESCLASSIFIER)的“朴素”指的是它的条件独立性假没。它假设个属性对给定类的影响独立于其他属性,即特征独立性假设。当假设成立时,与其他分类算法相比,朴素贝叶斯分类器是最精确的,但是文本属性之间的依赖关系是可能存在的。大量研究表明此时可以通过各种方法来提高朴素贝叶斯分类器的性能13。贝叶斯分类器是一种基于最小错误的贝叶斯决策理论的分类方法14NAIVEBAYES算法是一种概率方法,通过BAYES公式转换来计算在一个样本D出现的条件下类别CI出现的条件概率。MERGEFORMAT00|D|DIIIPC在分类中,可将式217作为判别函数,把样本D分配到具有最大条件概率的类别中在对文档D做判别时,因式217中的分母与类别无关,因此判别过程可表示为|ARGMX|ARGXD|IIIIIPCCCMERGEFORMAT00式218中,判别函数由类别的概率与样本的类条件概率来表示,需要通过训练语料由极大似然方法估计获得22特征提取技术知网及语义特征提取知网15是一部比较详尽的语义知识词典。在自然语言理解中,词语相似度计算是一个重要的环节。而知网的出现为语义相似度的计算提供了可靠支撑。而本文语义特征的提取,就是依据知网完成的。知网中两个主要的概念“概念”与“义原”“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。ENTITY|实体THING|万物PHYSICAL|物质ANIMATE|生物ANIMALHUMAN|动物HUMAN|人HUMANIZED|拟人ANIMAL|兽BEAST|走兽图2树状的义原层次结构“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。“义原”是用于描述一个“概念”的最小意义单位。这一点与WORDNET和同义词词林不同。在WORDNET和同义词词林中,所有同类的语义项(WORDNET的SYNSET或同义词词林的词群)构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。然而,知网并不是简单的将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系列的“义原”来对每一个“概念”进行描述。概念之间的关系有两种表示方式一种是用“关系义原”来表示,一种是用表示概念关系的符号来表示。按照我们的理解,前者类似于一种格关系,后者大部分是一种格关系的“反关系”,例如“”我们就可以理解为“施事、对象、领有、内容”的反关系,也就是说,该词可以充当另一个词的“施事、对象、领有、内容”。义原一方面作为描述概念的最基本单位,另一方面,义原之间又存在复杂的关系。在知网中,一共描述了义原之间的8种关系上下位关系、同义关系、反义关系、对义关系、属性宿主关系、部件整体关系、材料成品关系、事件角色关系。可以看出,义原之间组成的是一个复杂的网状结构,而不是一个单纯的树状结构。不过,义原关系中最重要的还是的上下位关系。根据义原的上下位关系,所有的“基本义原”组成了一个义原层次体系。这个义原层次体系是一个树状结构,这也是我们进行语义相似度计算的基础。贝叶斯统计特征贝叶斯分类器的判别公式14为|DARGMX|DARGX|IIIIIPCCPCMERGEFORMAT00式219中,判别函数由类别的概率与样本的类条件概率来表示,需要通过训练语料由极大似然方法估计获得针对意图识别分类任务来说,类别概率表示为MERGEFORMAT00IINPC其中,为PCI的估计,NI为类别CI具有的训练样本数,N为总训练句子I数另一个需要估计的参数是类条件概率PD/CI,而其值需经转换以获得近似估计假设句子D可由其所包含的特征词表示,即MERGEFORMAT0012W,M其中,M为特征词的个数贝叶斯假设特征对于给定类的影响独立于其它特征,即特征独立性假设对文本分类来说,它假设各个单词之间对类别的影响两两独立此时句子的类条件概率可估计为MERGEFORMAT0012D|CPW,|IMIMKIC在式222中,基于特征条件独立性假设,文档的类条件概率转换为求特征词的类条件概率其采用极大似然的估计方法可表示为MERGEFORMAT00,1W|CIKKIMIJJNP其中,为训练集中的特征词,在类别CI中出现的次数,为该类别中的,IKIWIM特征词个数。在式223中,当某一特征词在类别中不存在时,会出现零概率问题一种方法是在式223中增加一个非常小的经验值;另一种方法是平滑算法。可以采用LIDSTONE法,则增加一个统一的贝叶斯估计表示为MERGEFORMAT00,1W|CIKKIMIIJJNPA其中,取值范围为0,1。若入取0则回归到式223,若取1则成为LAPLACE法则。它可以看作是在极大似然估计和统一的先验概率之间的线性插值。最常用的值为1/2这个选择在理论上可被证明是极大似然估计的最大化的期望,即期望似然估计当0时,可以克服式223中可能出现概率为0的现象但该方法存有两点不足1需要预先指定一个入值;2使用LIDSTONE法则的折扣总是在极大似然估计频率上给出一个线性的概率估计,但是这和低频情况下的经验分布不能很好地吻。第三章意图识别31意图识别任务介绍口语理解是实现口语对话系统的关键技术之一。它的任务是理解用户的意图,并抽取用户输入语句所包含的关键信息。本系统所要完成的任务是限定领域的意图识别。由于领域限定在幼儿认知学习过程,因而需处理的问题得到了简化。在模拟幼儿学习认知的对话系统中,所处理的大多是教幼儿认知学习卡片上的动物、植物、物品等,因而通常要处理的句子,只是陈述、疑问句等普通句子。由于对话管理模块的需求,所需处理的任务为处理颜色、形状物体识别相关的意图识别任务。传统的人机交互系统没有用到多模态的信息,在多模态系统中,将利用图像场景信息辅助进行交互,那么如何在口语对话情境中引入场景信息是关键的第一步,因此需要构建一个文本分类器,能够准确地区分该对话是否与场景相关还是不相关。这对后续意图分类任务具有辅助作用。场景相关,在本系统中是一个松散的概念,在实现中,与场景相关主要理解为系统能够理解的类型,所以本系统讲句子类型分为相关和不相关两类。相关类型代表系统能理解,能提取出结构信息的句子;不相关类型代表不能提取出结构化知识,只能通过搜索问答对来构建答语的句子。意图分类要做的事情是对用户输入进行细分类,以得到对话管理模块能直接使用的类别信息。根据幼儿认知学习系统对意图识别模块的需要,这里的分类主要分为六类肯定回答、否定回答、训练、询问、肯定式询问、其他(无关)类型。具体样例见表31。表31意图类别示例序号类别例句1肯定回答是的2否定回答不是3训练这是一个红色的苹果4询问这个苹果的颜色是什么5肯定式询问这是一个红色的苹果,对么6其他你叫啥32识别方法模型选择扁平模型扁平分类模型是通过SVM、KNN、朴素贝叶斯分类器直接对意图进行识别。这种做法具有简单速度快的优点。(一)SVM模型构建SVM的模型的使用主要集中在核函数的使用以及训练方法。在本系统中核函数选择径向基函数RBFMERGEFORMAT002|,EXPIIK所得的SVM是一种径向基分类器,它与传统径向基函数方法的基本区别是,这里每一个基函数的中心对应于一个支持向量,它们以及输出权值都是由算法自动确定的。径向基形式的内积函数类似人的视觉特性,在实际应用中经常用到,但是需要注意的是,选择不同的参数值,相应的分类面会有很大差别。本实验训练采用网格法搜索最优参数,将参数范围内以一定步长分成网格中的点,然后遍历所有的点,寻找准确率最高的参数组。此外,为了保证结果可靠性,使用交叉验证的方式计算准确率。由于SVM模型比较复杂,本实验在实验中,使用LIBSVM工具包进行分类。(二)KNN模型构建KNN模型主要是距离的计算。在模型中,文本对象用向量空间模型(VSMVECTORSPACEMODEL)进行表示。VSM由SALTON等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。本KNN分类器的,距离采用余弦距离。但由于每维特征是基于经验的归纳来的,所以权重认为是一样的,距离计算公式为1221COSNIIINIIIIABSIMLARITYMERGEFORMAT00其中A,B为特征向量。由于,特征向量中每维的值是大于0的,所以相似度的范围0,1对于KNN算法来说,K的取值是十分重要的,这需要试验来确定最佳K值。(三)朴素贝叶斯构建贝叶斯分类器的构建主要集中在特征提取方面以及概率的计算(详见下文)。然后根据公式33计算出对话分到每类的概率。12D|CPW,|IMIMKICMERGEFORMAT00层级模型由于扁平分类直接分成用户意图在能力上存在一定的局限性,采用层级模型是一种有效的尝试,在分类中先对场景相关进行分类,然后对意图分类。在实验中,可以分类使用SVM、KNN、朴素贝叶斯分类器进行场景相关分类,再用SVM、KNN、朴素贝叶斯分类器对与场景相关的部分进行详细分类。这种组合能出现9种方案所以在使用时,先对场景相关部分分类情况进行评估,选出优秀的分类器再进一步评估。融合模型由于在实验中出现了多个模型,借鉴BAGGING融合的方法,可以讲多个分类器的结果进行投票得出结果,这在一定程度上能避免单一分类器分类错误所带来的风险。MERGEFORMAT00ARGMXIICCCOUNTU公式34其中,U为各个分类器结果的序列,COUNT计算列CI在U中出现的次数。特征选择本实验选用三种特征关键词特征、语义关键词特征、贝叶斯统计特征,这些特征中关键词特征、语义关键词特征用于SVM、KNN分类器的构建,贝叶斯统计特征用于贝叶斯分类器的构建。关键词特征选取几个特征用于构建VSM模型,每一维的权重相同,两样本间的距离采用余弦夹角距离,这样将类别分为几类,其中一类为无关类,采用最近邻的方式得到具体类别。此方案特征的选取,是针对人表现意图的特点,所选的特征大体分为下几个方面(1)句法作用类似么、呢(2)同一类词红色、黄色、白色等(3)相似语义不对和不是。(4)句子其他特征如长度判断是否具有某特征的方法(1)关键词匹配。针对所要选取的特征,得到所需的特征词,然后进行关键词匹配。(2)词性匹配。选取所需词性,如果具有则判断具有该特性,这要求标注比较详细,所以采用中科院二级标注体系。(3)正则表达式,在判断颜色信息时,使用正则表达式完成。这种判断方法得到的特征是离散的点,如判断“这是一个黄色圆形的苹果”得到的结果如下10,21,30,41,50,60,71,80,90,100,110,121,130,140,151,160,170,180,190,200它的优点是,针对人表现意图的特点选取特征,针对性很强。因为不能有效提取统计特征,所以仅选取有限维信息,赋予权重,能提高分类的效果,分类具有很强的鲁棒性。它的缺点是,每个特征如何提取(即如何判断句子具有该特征),是人归纳出的具有针对性的方法,用经验解决歧义和特征提取等问题,泛化及覆盖能力有限,需要手动拓展。提取出的特征比较硬,有1,无0,无中间值,如采取语义特征能部分解决问题。语义关键词特征语义关键词特征的使用也是用于构建VSM模型,相比于关键词特征,它并没有改变选择的特征,只是改变如何判断具有该特征,能有效提高系统的拓展性和覆盖度,并且特征值并不限于01,将为0,1间的连续值,使系统更加灵活。由于知网并不是简单的将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系列的“义原”来对每一个“概念”进行描述,根据义原的上下位关系,所有的“基本义原”组成了一个义原层次体系,知网并不能直接通过义原层次体系计算概念相似度。知网概念定义包含三个方面,类别、相关描述、主体。如DEFFACT|事情COEVENTEXERCISE|锻炼,DOMAINFOOTBALL|足球。综合这三个方面的考虑,概念之间的相似度通过公式35得到。MERGEFORMAT1234SIMDEFAB两个DEF中的类的相似度两个中类的框架的相似度F两个F之间的相似度完全包含的F之间的相似度00其中,两个DEF中的类的相似度通过公式36计算。MERGEFORMAT/12341AFFBTSEPBAFBF00这些参数都是人工设定的。本系统使用的参数设定为FLOATAFA16,FLOATAFB101,FLOATAFB201,FLOATAFB307,FLOATAFB401为了计算两个词的相似度,有如下假设词B在对话中出现,则表现出的概念为最与特征词相近的概念。则特征词A与词B的相似度计算公式为37。MERGEFORMAT,IJSIMWORDABMAXSIMDEF00AI,BI为词的各个概念。在计算时,计算句子中的每个词与关键字的相关度,并取最大值为相似度,公式如38。MERGEFORMAT00,ISIAXIORDAWA为所选的特征,WI为句子中的每个词。这样,我们就得到了知网语义特征,仍以“这是一个黄色圆形的苹果”为例,我们得到的特征为10021052632480859756,210,3000062353862449526787,410,50,60,71,8052899998426437378,9055000001192092896,100,110,1210,13049166667461395264,140021052632480859756,1510,160,170,180,190,200024242425337433815通过这种方式,能够大幅减少人工归纳关键词的强度,只需要归纳出类别,然后根据语义相似度即可计算出结果。这对覆盖能力的提高有很大的帮助。然而,由于一部分特征不能通过知网相似度确定,仍然使用旧特征,如上面例子,所以要将这些特征融合到一起,需要对知网确定的相似度赋予权重,最佳权重W需要实验确定。贝叶斯统计特征本特征提取相对简单,首先将每个对话分词,然后统计每个词在类别CI中出现的概率P(D/CI)和每个类别出现的概率P(CI)。在式中,当某一特征词在类别中不存在时,会出现P(D/CI)零概率问题,为克服该问题,采用公式224,本实验取1,即成为LAPLACE法则,简化公式224后为公式39。MERGEFORMAT00,1W|CIKKIMIIJJN通过该方法,我们统计每个词在类中出现的概率。下面我们以“这是一个黄色圆形的苹果”为例,说明我们计算出的数据。针对每个类别,“这是一个黄色圆形的苹果”中的每个词得到一个类出现概率,结果如表32。其中,未出现的词的概率也不会为空,并且每个类的最小概率是不同的,是LAPLACE法则算出的(最小频数为1)。表32BAYES词概率样例类别类概率这是一个黄色圆形的苹果1004444400016077200016077170001607717000160771700016080006431000160820016049000166667001000166666700016666670003333000166700016673040493800734234201274774770015765766000585585600045050070721000180240096296002069614005550329300009407340000940734000094100357480000941500246910004249290029745042000141643100014164310007082001699700042496041358000165494001944559400037236240000827472000124100434420000414对于文本分类中通常采用的去停用词做法,由于口语对话简短,这种做法不一定合适,所以有必要提取去停用词和不去停用词的特征的正确率进行一次对比。33实验实验方案实验需要完成的任务,如下(1)确定KNN算法的最佳K值。(2)利用关键词特征和统计特征,确定哪个分类器对场景相关分类最佳。(3)确定贝叶斯统计特征是否去停用词(4)在(1)、(2)条件下,利用关键词特征和统计特征,训练扁平和垂直分类器进行意图分类,得到准确率。(5)确定知网特征的最佳权重。(6)在(1)、(2)、(4)条件下,利用知网特征和统计特征,训练扁平和垂直分类器进行意图分类,得到准确率。实验评估由于样本集比较小。所以采用交叉验证的方法进行评估,以得到更加可靠的结果。本论文采用K折交叉验证。K折交叉验证的思路初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。本实验也采用10折交叉验证。34语料、实验结果及分析语料统计现阶段我们采集了15名志愿者的人机对话样本(模拟认知过程),每个人采集10分钟左右,共得到人的谈话记录900条左右(仅人不包括机器人答语),也得到了相应数量的图片信息。其中标注完成后,意图识别各类统计结果如图31,意图分类结果如图32。图31场景相关语料比例图32意图分类语料比例实验结果及分析针对KNN中K的取值,实验在15之间选择,结果如图33,可知K3时,效果最佳。图33KNN中K值选择对场景相关分类的结果如表33,从中可以看出贝叶斯分类器明显优于KNN、SVM分类器,主要原因为,KNN、SVM采用的是针对意图分类的,有限维特征,对无关类别的泛化能力不强,而贝叶斯分类器每一个未知词都会对分类做贡献,所以效果优于KNN、SVM分类器,故在层级分类器中选择贝叶斯分类器作为一级分类。表33场景相关交叉验证结果FOCUS12910AVGKNN76678778944484448667SVM87788444900084448656BAYES91119000900087788933对于朴素贝叶斯分类,是否去停用词的问题结果如表34,从中可以看出,去停用词后,分类效果大幅下降,故不能去停用词,这说明助词在句子类别区分中具有重要作用。表34两种BAYES分类器交叉验证结果INTENT12910AVGBAYES去停76677222622262226822BAYES90008889822285568767扁平分了器和层级分类器的结果如表35,从中可以看到,层级分类器明显优于扁平分类器,这说明为不同的任务选取不同的特征是一种有效提高性能的措施。表35意图分类交叉验证结果INTENT12910AVGKNN92229222811187788933SVM94449444788990009044BAYES90008889822285568767BAYESSVM95569667788986679122BAYESKNN92229444822286679022BAYESBAYES91119111811188898933KNNKNN77789222777884448722SVMSVM94449333777890009022VOTE93339444811190009111为了确定知网语义特征的权重,本实验遍历了,W15之间的权重,结果如图34,从中可以看出,当W2时,效果最佳,而由于知网相似度普遍位于005内,这相当于对值进行线性归一化。图34知网权重选择在知网关键词条件下,扁平分了器和层级分类器的结果如表36,对比表35可以看出,性能有所下降,但不需要手动拓展关键词,提高了覆盖能力。表36知网特征加入后意图分类交叉验证结果INTENT18910AVGKNN88898889844485568533SVM91118444755687788633BAYES90009111822285568767BAYESSVM92228556777887788844BAYESKNN91118889844486678833BAYESBAYES91119222811188898933KNNKNN88898889800085568611SVMSVM91118444744487788656VOTE94448778822290009011第四章人机对话意图识别系统设计与实现41系统框架与处理流程背景技术ICEICEINTERNETCOMMUNICATIONSENGINE是ZEROC提供的一款高性能的中间件,基于ICE可以实现电信级的解决方案。前面我们提到过在设计网站架构的时候可以使用ICE实现对网站应用的基础对象操作,将基础对象操作和数据库操作封装在这一层,在业务逻辑层以及表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学生消防安全知识培训
- 学生培训茶叶知识课件
- 构建可持续发展菜篮子工程商业蓝图:景灿商业计划书全解析
- 学前教育专业知识培训课件
- 学写倡议书的微课课件
- 二零二五年度银行代收款合作三方协议
- 2025版跨境电商进口货物物流合同范本
- 2025版餐饮店与本地特色农产品直供购销合同范本
- 二零二五年度特色小吃店资产及商标转让协议
- 二零二五年度集装箱式移动房屋租赁协议书
- 《中小企业员工激励机制存在的问题及完善对策研究》4000字
- 第1章 汽车4S店概述
- 呼兰河传完整版课件
- 医疗器械监管实务
- 旅游景区反恐防爆应急预案
- 实验室隐患排查培训
- 九年级化学第三单元课题1分子和原子人教新课标版省公开课获奖课件说课比赛一等奖课件
- 浪潮iqt在线测评题及答案
- 中外运社招在线测评题
- 森林防火条例
- GB/T 18802.331-2024低压电涌保护器元件第331部分:金属氧化物压敏电阻(MOV)的性能要求和试验方法
评论
0/150
提交评论