(模式识别与智能系统专业论文)自然口语对话计算的经验研究.pdf_第1页
(模式识别与智能系统专业论文)自然口语对话计算的经验研究.pdf_第2页
(模式识别与智能系统专业论文)自然口语对话计算的经验研究.pdf_第3页
(模式识别与智能系统专业论文)自然口语对话计算的经验研究.pdf_第4页
(模式识别与智能系统专业论文)自然口语对话计算的经验研究.pdf_第5页
已阅读5页,还剩128页未读 继续免费阅读

(模式识别与智能系统专业论文)自然口语对话计算的经验研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 自然口语对话计算的经验研究 摘要 在过去的十几年里,由于多种因素的推动,口语对话系统经历了蓬勃发展。 但其中也存在着一些不尽人意之处,作为中心控制模块的对话管理就是众所周 知的薄弱环节之一。经过深入分析发现,导致对话管理薄弱的主要原因来自作为 对话管理理论基础的对话模型。因此本文的工作主要围绕着对话模型的概念框 架及其经验计算展开研究。 首先,通过从现有的关于对话的话语和语用研究中汲取营养,基于将对话和 话语看成既是产物又是过程的观点,一方面区分面向任务的对话中的五个阶次 的单位,另一方面区分三个层次的动态过程,从而建立了面向对话管理的对话模 型。这为进一步的计算分析提供了概念框架。另外,由于本文所要进行计算分析 的是自然口语对话,在处理“现实世界问题”上具有一定潜力的经验方法成为了 本文的选择。这为进一步的计算分析提供了方法基础。 接下来,本文工作集中在如何采用所提出的概念框架对自然口语对话进行 经验分析,包括人工标注和自动分析。具体进行研究的包括句子类型、语句主题 和语力以及交互模式。 1 ) 句子类型:为了适应自然口语对话的需要,扩展了传统的句子类型,并建 立了三个算法( 启发式,朴素b a v e s 分类器n b c 和隐m a r k o v 模型h m m ) 来实 现自动分析。 2 ) 语句主题:本文将语句主题定义为对话中说话者所关注的显著语义实体。 通过分析语料发现,语句主题具有局部连续性,并且跟扩展句子类型也有密切的 关系。根据这些建立了语句主题的自动分析算法,来实现基于浅层语义分析的语 句主题识别。 3 ) 语力:首先基于已有语力分类工作( 包括来自语言哲学的、话语分析的、 语用的以及话语经验研究的工作) ,建立了新的分类体系,然后采用它对语料进 行了标注分析,并使用n b c 和h m m 实现自动分类。 4 ) 语句组:通过综合话语分析中的语换和系统功能语法关予言语功能的工 作,提出一个原则性的语句组分类,以描述信息类对话中的交互模式。然后考察 扩展句子类型和语句主题跟语句组的关系,并根据这些关系建立相应算法,对语 料进行自动分析。 关键词:对话模型,经验方法,计算话语分析 自然口语对话计算的经验研究 e m p j r i c a is t u d i e so nt h ec o m p u t a t i o n o f s p o n t a n e o u ss p o k e nd i a i o g u e s a b s t r a c t t h ep a s tf e wy e a r sw i t n e s s e dt h er a p i dd e v e l o p m e n to fs p o k e nd i a l o g u e s y s t e m sd u et oac o u p l eo fm o t i v a t i n gf a c t o r s b u tt h e r e 甜es t i l ls o r n eu n s a t i s f y i n ga s p e c t s ,a m o n gw h l c h i st h en o t o r i o u sw e a kd i a l o g u em a n a g e m e n t t h ec e n t r a lc o n t r 0 1 l i n gm o d u l e a f t e ri n d e p t ha n a l y s i st h em a i nc a u s ei sf o u n d d u et ot h ew e a kt h e d r e t i c a ls u p p d r tf r o mu n d e r l y i n gd i a l o g u em o d e l s s ot h i s t h e s i sf o c u s e so nt h ec o n c e p t u a lf r a m e w o r kf o rd i a l o g u em o d e ka n di t se m p i 卜 i c a lc o m p u t a t i o n f i r s tt h r o u g h d e r i v i n gk n o w l e d g ef m m d i s c o u r s ea n a l y s i sa n dp r a g m a t i c s t u d i e so nd i a l o g u e ,w ed i s t 血g u i s hf i v er a n k so fu n i to nt h eo n eh a n d a n dt h r e e l e v e l so fp r o c e s so nt h eo t h e rh a n di nt a s k - d r i e n t e dd i a l o g u e sb a s e do nt h ep e r s p e c t i v eo fd i s c o u r s ea n dd i a l o g u eb o t ha sp r o d u c ta n d a sp r o c e s s t h u sad i a l o g u em o d e lf o rd i a l o g l l em a n a g e m e n “se s t a b l i s h e d ,w h i c hp r o v 谢e sc o n c 叩一 t u a lf r a m e w o r kf o rf u r m e rc o m p u t a t i o n a la n a l y s i sb e f o r es o m ec o m p u t a t i o n a l a n a l y s i sw e a l s om s p e c tt h em 默h o d o l o g y 汝n a t u r a ll a n g u a g ep r o c e s s h g s i n c e w h a t st ob ec o m p u t e di ss p o n t a n e o 吡ss p o k e nd i a l o g u e s ,w ec h o o s et h ee m p n i c a la p p r o a c hw h i c hh a se x h i b i t e ds e v e r a lm e r i t smd e a h n gw i t h “r e a l w o r i d p r o b l e i n s ”t h i sp r o v i d e sf u r t h e rc o m p u t a t i o n a ia n a l y s i sw i t hm e t h o d o l o g i c a l b a s i s n e x tt h et h e s i sf o c u s e so nh 。wt oa p p l yt h ep r o p o s e dc o n c e p t u a lf r a m e w o r kt ot h ee m p i r i c a la n a l y s i so fs p o n t a n e o u ss p o k e nd i a l o g u e s ,i n c l u d i n g b o t hm a n u a la n n 。t a t i o na n da u t o m a t ka n a l y s i s a m 傩gt h es u b j e c t sa 托s e n t e n c et y p e ,u t t e r a n c et 叩i c ,u t t e r a n c ef o r c ea n di n t e r a c t i o np a 竹e r r l 1 ) s e n t e n c et y p e :c o n v e n t i o n a ls e n t e n c et y p ei se x t e n d e dt om e e tt h er e q u i r e m e n tf r o ms p 0 n t a n e o u ss p o k e nd i a l o g u e s t h e nt h r e ea l g o r i t h m s ,i e h e u r i s t i c ,n a i v eb a y e sc 1 a s s i f i e r ( n b c ) a n dh i d d e nm a r k o vm o d e l ( h m m ) ,a r e e s t a b l i s h e dt oa u t o i n a t i c a j l ya n a l y z et h ee x t e n d e ds e n t e n c et y p e 2 ) u t t e r a n c et o p i c :i nt h i st h e s i su t t e r a n c et o p 主ci sd e n e da s 船鲫妇卅靶一 m 口以f j ce h “哆s p 船幻作扣c 挂sf 沁扫辟” f o 扎鲫i nnd 协i 昭“p t h r o u g hc o r p u sa n a l y s i s ,w ef i n dt h a ts u c hat o p i cj sl o c a l l yc o n t i n u o u 5a n dc l o s e l yr e l a t e dt oe x a b s t r a c t t e n d e ds e n t e n c et y p ea b o v e f m mt h e s ea n a l g o r i t h mi se s t a b l i s h e dt oa n a l y z e u t t e r a n c et o p i ca u t o m a t i c a l l 弦b a s e do ns h a l l o ws e m a n t i ca n a l y s i s 3 ) u t t e r a n c ef o r c e :an e ws c h e m ef o ru t t e r a n c ef o r c eo rd i a i o g u ea c ti sp m p o s e db a s e do np r e v i o u sw o r kf r o mp h i l o s o p h yo fl a n g u a g e ,d i s c o u r s ea n a l y s i s ,p r a g m a t i c s ,a n de m p i r i c a ld i s c o u r s es t u d i e s t h e nt h i ss c h e m ei su s e dt o a n n o t a t et h ec o r p u s t oa l g o r i t h “_ l s ( n b ca n dh m m ) a r e e m p l o y e d f o ra u t o m a h c r e c o g n i t i o n 4 ) i n t e r a c t i o np a t t e r n :t h r o u g hi n t e g r a t i o no fe x c h a n g ef r o md i s c o u r s e a n a l y s i sa n ds p e e c hf u n c t i o nf r o ms y s t e m i cf u n c t i o n a lg r a m m a r ,ap r i n c i p l e d u t t e r a n c eg r o u pc i a s s i f i c a t i o nj sp r o p o s e dt od e s c r i b ei n t e r a c t i o np a t t e m si n i b r m a t i o n - 5 e e k i n gd i a j o g u e s t h er e l a o nb e t w e e ns e n t e n c et y p ea n du t t i 。r - a n c et o p i ca n du t i 烈。a n c eg r o u pi ss t u d i e da n df u r t h e ra p p l k dt ot h ea u t o m a t i c a n a l y s i so fu t t e r a n c eg r o u p k e y w o r d s : d i a l o g u em o d e l ,e m p i r i c a la p p r o a c h ,c o m p u t a t i o n a ld i s c o u r s e a n a l y s i s 表格 11 n l i s s 的多维透视, , 2 1 对话管理方法的分类 4 1 对话语料中的x s t 4 2 x s t 与词汇特征间的r 不完全) 对应关系 4 3 语料中x s t 的分布, 4 4x s t 识别结果( 正确率,) 5 1 中心转移分类 , 5 2 英语中主位取决于语气的模式 5 3 语句主题分析结果,。, 6 1 会话行为类型 6 t 2 语力分类, 6 3 语力标注 6 4 语力识别结果( 正确率,) 。, 7 1 语换 7 2 言语功能, 7 3 基本语句组 7 4 复杂语句组 7 5 基本语句组分布 7 6 复杂语句组分布 7 7 语句组分析结果( 正确率,) , v , 砼 矾酪 殂巧蔼 踮叩眩g g!吣 插图 1 1 典型口语对话系统基本逻辑框架 1 2 对话计算分析示意 2 1 对话管理功能示意, 4 1 语料中x s t 分布示意 4 2 基于启发式的u t - 1 识别算法 4 - 3 n b c 算法描述 4 4 h m m 中训练和测试算法描述 5 1 语句主题分析算法 6 1d i t 中的对话行为分类 , 6 2 d a m s l 标注体系。,。 6 - 3 语料中语力分布示意 7 1 语句组分析算法 v l l 0 仃 矾以甜 刀 鼬杉叭 叮 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示了谢意。 作者签名: 日期: 关于学位论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定, 即:中国科学院自动化研究所有权保留送交论文的复印件,允许论文被查阅和 借阅;可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 ( 保密的论文在解密后应遵守此规定) 作者签名 日期 导师签名: 日期: 第一章绪论 在过去的十几年里,由于多种因素的推动,口语对话系统经历了 蓬勃发展。但其中也存在着一些不尽人意之处,作为中心控制模块的 对话管理就是众所用知的薄弱环节之一。因此本章首先介绍论文工 作的背景( 1 1 ) ,然后综述了口语对话系统的基本研究情况( 1 2 ) 。 接着概览了论文的主体工作( 1 3 ) ,并给出了论文结构安排( 1 4 ) 。 1 1 研究动因 口语对话系统( s p o k e n d i a l o g u e s y s t e m s ,s d s s ) ,又称人机语音通讯( m a j l 一 m a c h i n e s p e e c hc o m m u n i c a t i o n ) ,或会话( 用户) 界面( c o n v e r s a t i o n a l ( u s e r ) i n t e r f a c e ) ,在过去十多年里的迅猛发展,受到多方面因素的影响。首先,口语处 1 2 自然口语对话计算的经验研究 理技术( 包括语音和语言处理技术) 的日趋成熟( v a m ea n d z a m p 0 1 1 i ,1 9 9 7 ) ,为 口语对话系统提供了软件支持。在过去二十年左右的时间里由于统计模式识别 方法的j 1 泛采用,口语处理技术取得了长足进步( j u a n 譬a n df u r u j ,2 0 0 0 a ;) u a n 异 a n df u r u i ,2 0 0 0 b ) 。这直接推动了跟口语处理相关研究( 其中包括口语对话系 统) 的发展+ 其次,计算能力的持续增长( 这一点不难从m o d r e 定律,看出) 则为 口语对话系统提供了强有力的硬件支持。 除了以上两方面的内部动因外,日益增长的社会需求则是推动口语对话系 统迅猛发展的重要外部动因。一方面,计算机的应用已渗透到社会的方方面面, 未来社会的“文盲”,不光是不识字的人,还包括那些不会使用计算机的人。口语 作为人际交流的最自然最基本的方式,有望给人们( 尤其是那些不熟悉计算机使 用技能的人群) 提供与计算机交互的快捷方便途径( 虽然现在看来,要达到这一 点依然还有很长的路要走) 。另一方面,随着信息时代的到来,传统的信息获取 和处理方式已难以满足日益增长的社会需求,信息社会呼唤着更先进的信息获 取秘处理手段。雨对于社会孛b 益增长翁信息和服务资源l 尤其是互联弼上激增 的资源) ,语音和语言技术有望给最大范围内的人群提供随时随地的获取途径。 l 述内外动凼从各方面促进了口语对话系统研究在过去十几年间的蓬勃发 展。2 虽然s d s s 研究取得了如此的进展,但是远远不能够令人满意,其中亟需解 决的问题也很多。通过对研究现状的分析( 1 2 ) 发现,语音( 处理) 领域的研 究人员建立了数量最多的s d s s ,但这些系统中的对话管理也是最薄弱的。在这 些s d s s 中对话管理的设计通常根据一些非常抽象的( 甚至是含糊的) 原则( d e n o se ta 1 ,1 9 9 9 ) ,策略( s o u v l g n i e re ta 1 ,2 0 0 0 ) ,或目标( l a m e le ta 1 ,2 0 0 0 ) 等进行 的。z u e 和g l a s s 在( z u ea n dg l a s s ,2 0 0 0 ) 中对对话管理的描述是从语音处理角度 研究口语对话系统的代表性观点。 因此,最初的目标放在了对话管理上。但经过一段时间的深入研究,发现 导致对话管理薄弱的主要原因来自作为对话管理理论基础的对话模型:当前的 对话管理( 参见2 2 ) 跟对话模型之间存在着严重的脱节。3 因此在( x u ,h u a n 异, 指单片集成电路芯片上品体管数呈指数级增长之规律:即每过若干时间( 约1 8 个月) 单片集 成电路芯片上的晶体管数就会翻一番。参见h t t p :w w i n t e l c o m r e s e a r c h s i l i c o n m o o r e s l a w h t m 。 2 12 给出了口语对话系统研究状况的概观。进一步细节参见( x u ,2 d 0 3 ) 及其所引用文献,以 及( m c t e a l2 0 0 z u ea n dg l a s s ,2 0 0 0 ) 。 3 我们对对话管理和对话模型作如f 区分。对话梗型是关于对话的一般性理论。它可以不考 忠对话管理或对话系统的需求,而只关注对话中的特定现象的描述和解释 这是哲学家和语言学 家等所做的) 。而对话管理则是将对话模型跟特定领域内的特定任务结合起来,建立算法来支持 第一章绪论 3 a n dx u ,2 0 0 1 ;x ue ta 1 ,2 0 0 2 ) 中我们针对这一问题进行了初步的探索,提出了一 个面向对话管理的对话模型( 详情参见第二章尤其是2 4 ) 。随后,主要精力集 中在对该模型的细化和基于语料的分析和计算上,此即本文的主体。这也表明论 文的目标从对话管理这一具体应用进一步深入到对话建模及其计算的理论研究。 后者必将给前者奠定坚实的基础。 1 2 口语对话系统 口语对话系统是什么? 本节将首先从历史的观点予以说明然后在进一步介 绍其基本结构与组成之后,对研究现状进行了综述。 1 2 1 口语对话系统 本节首先从历史发展的角度指出s d s s 是自然语言交互系统的最新发展,然 后指出作为新一代自然语言交互系统的口语对话系统区别于其它自然语言交互 系统的特征,从面说明作为一种自然语言交互系统,口语对话系统对历史的继承 和发展。 1 2 1 1 作为自然语言交互系统的s d s s 自然语言交互系统( n a m r a ll a n g u a g ei n e r a c t i o l ls y s t e m s n u s s ) ,即 基于自然语言的人机交互系统,从最宽泛的意义上讲,可看作是采用自然 语言作为媒介( 接口) 的人与机器( 计算机) 之间的交互系统。从这个意 义j 二看,自然语言交互系统包括了自然语言问答系统( n a t u r a ll a n g u a g e q u e s t i o n a n s w e r i n gs y s t e m s ,n l q a s s ) ,自然语言数据库接口系统( n a t u r a l l a n g u a 黼d a t a b a s ei n t e r f a e es v s t e m s ,n u ) b i s s ) ,自然语言智能帮助教学系 统( n a t u r a ll a n g u a g ei n t e l l 培e n th e l p t u t o r i n gs y s t e m s ,n l i t s s n l i h s s ) , 口语对话系统,聊天机器入( c h a t t e r b o t ) ,甚至也包括简单的自然语言命令控制 系统( n a m r a ll a n g u a g ec o m m a n da n dc o n t r o ls y s t e m s ,n l c a c s s ) ,等等。 通过对自然语言人机交互系统发展的分析,大致可以将其历史分为三个阶 段: 计算机参加自然对话。因此对话建模是对话管理的理论基础,对话管理则是对话模型的应用。进 一步的讨论参见第二章。 4 自然口语对话计算的经验研究 第一阶段( 六十年代至七十年前期) ,n u s s 研究的序幕揭开,诞生早期 系统。自然语言交互系统研究的历史,可以追溯到上个世纪六十年代自然 语言处理研究人员对受限领域内的问答系统的研究。其中代表性的系统包 括:b a s e b a l l ( g t e e ne ta 1 ,1 9 6 1 ) ,棒球赛领域的问答系统,是最早的n l i s s 之 :l u n a r ( w o o d s ,1 9 7 0 jw o o d s ,1 9 7 8 ) ,能够回答关于阿波罗登月所采集矿 石的化学分析的问题,是第一个n l i s s 的里程碑式系统;s h r d l um h o g r a d , 1 9 7 2 ;w i n o g r a d ,1 9 7 3 ) 是关于计算机模拟玩具机器人摆秀积木的语言理解系统, 可以回答问题,执行命令。以及从交互性对话中接收信息。4 第= 阶段( 七十年代后期束至八十年代) ,以n u ) b i s s 和n u h s s 为代表。 n l d b i s s 的研究虽然早在六十年代初就开始出现,但直到上个世纪七十年代末 才开始形成气候。到八十年代中期,不但出现了大量的原型系统,还出现了若 干商用系统( 虽然由于种种原因,最终没有能够在市场上存活下来) 。t e a m ( g r o s 2e ta 1 ,1 9 8 7 ) 是最具代表性的n l d b i s s 之,由斯坦福研究所人工智能中 心( a ic e n t e r ,s i u ) 的研究人员开发。系统的设计针对了两类用户,即数据库专家 和最终用户。系统相应地有两种工作模式,即知识获取和问答。在知识获取工作 模式下,数据库专家通过菜单驱动的交互爻系统提供数据库结构定义和信息( 不 需要了解自然语言处理) ,从而实现知识领域的移植。在问答工作模式下,最终 用户通过自然语言获取数据库信息。s 在此期间,还出现了关于自然语言智能帮助系统的研究,尤其是用 于u n i x 的n l h s s 。其恒j 的大部分研究成果反映在a r t i f i c i a l i n t e u l 只e n c er e v i e w 杂志2 0 0 0 年1 七期关于“用于u n i x 的智能帮助系统”的特刊上所发表的一系 列文章中。其中最有影响的系统是u c ( w i l e n s k ye ta 1 ,1 9 8 8 jw i l e n s k ye ta i , 2 0 0 。 第三阶段( 九十年代至现在) ,以s d s s 为研究重点。在历史进入二十世纪 九十年代之际。s d s s 成为了n l i s s 研究的新亮点。由于诸多因素( 如支撑软硬 件的发展和社会需求等) 的影响( 1 1 ) ,s d s s 如雨后春笋般地涌现。s d 5 s 与 以往n l i s s 相比,最显著的特点之一就是采用语音作为输入和输出。另矫在所 孵决的任务、所面对的领域、所采用的主动权和其它控制策略等方面跟以往 的n l i s s 比也要复杂些。 4 更多早期系统及有关细节,参见( g r o s z ,s p a r c kj o n e s ,m dw 曲b e 1 9 8 6 ) 。 5 关于n l d b i s s 的进一步细节t 参见( c o p e s t a ha n ds p a r c kj o n e s ,1 9 9 0 ja n d r o u t s 叩。u l o s , r l t c h i e ,a n dt h a n i s h ,1 9 9 5 ) 以及( a n d r o u t g o p o u l o sa n dr j t c h i e ,2 0 0 0 ;a n d r o u b 叩o u l 。sa n d a r e t o u l ak i j2 0 0 3 1 。 第一章绪论5 除了上面所提到的主要n l l s s ,目前得到广大研究人员关注的还包括如下 的n l i s s : 聊天机器人( c h a t t e r b o t ) 简单使用一些浅层次的处理来模仿人类的对 话。虽然其智能是人工的,但有时却能够惊人地逼真。就拿典型系统e l i z a ( w e 衄n b a u m ,1 9 6 6 ) ( 最早同时也是最广为人知的聊天机器人) 来说,其控制脚 本就是由些关键词以及相关的转换规则组成。6 自然语言问答系统( n l q a s s ) 近来,关于n l q a s s 的研究正处在复兴中。 这些n l q a s s 与早期的n “2 a s s 以及后来的n l d b i s s 的相比有着较大的不同。 以前的系统通常使用现成的领域受限的结构化的数据库,而现在的nl i q a s s 则 面对的是开放领域的文本( 非结构化数据) 。n l q a s s 的复兴部分地得益于故 事阅读理解研究以及信息检索和提取技术的新进展。7 自然语言智能教学系统( n l l l r s s ) 虽然智能教学系统的研究早就得到 定研究,但使用自然语言会话能力的智能教学系统( g r a e s s e re ta 1 ,2 0 0 1 b ) 却是 近几年才得到关注的。a u t 0 1 、u t o r ( g r a e s s e re ta 1 ,1 9 9 9 ;g r a e s s e re ta 1 ,2 0 0 1 a ; g r a e s s e r e t a l ,2 0 0 1 b ) 就是其中较有影响的系统之一1 。 1 2 1 2 口语对话系统的特征 与传统的n l i s s 相比,口语对话系统是一种以语音为主要交互方式的、面向 任务的、限定领域的先进自然语言人机交互系统,并正在逐渐向具备以下对话能 力发展:根据需要采取可变主动权,支持双向的交互性,并尽可能利用话语语境 信息( 对话交互历史) 推动对话的进展。 语音模式传统的n u s s 基本都是采用文本输入( 键盘) 输出( 显示器) 的。而 采用语音为主要交互方式将使得更为自由和自然的人机交互成为可能。语音( 识 别和合成) 技术的发展擢动了口浯对话系统研究;反之,口语对话系统也对语音 技术提出了挑战。 面向任务口语对话系统以完成特定任务为目标,如提供信息查询,简单事 务( 飞机票、火车票、旅馆预订,旅行规划等) ,和复杂问题求解等。这一点使得 它跟聊天机器人( 如e l i z a ) 区分开来。 6 更多的聊天机器人的发展状况,可访问h t 七p :w w w c h a t t e r b 。x c h a 王1 e “g e c o m 。 7 进一步的介绍参见( h i r s c h m a na n dg a i z a u s k a s ,2 0 0 1 ) 对当前研究状况所提供的纵鲢以 及( b u g e re ta l ,2 0 0 1 ) 所提出的2 0 0 0 _ 2 0 0 5 研究路标。 6 自然口语对话计算的经验研究 限定领域由于口语对话系统要涉及深层自然语言处理,而现有的研究水平 尚不能支持开放领域的深层处理,因此目前的研究尚局限在限定领域。长远来 看,这一限制会逐渐放宽。虽然短期内开放领域的口语对话系统难以成为现实, 但领域可移植性却是广大研究人员所关注的研究方向。不过采用浅层处理手段 的问答系统可以不受( 或较少受) 领域限制。 可变主动权人机交互中主动权( i n i t i a t i v e ) 通常可分为固定的或可变的( 还 可根据主动权是对任务的控制还是对对话的控帛4 进行分类( c d h e ne ta 1 ,1 9 9 8 ) ) 。 固定的又可以分为机器主动、用户主动或混合主动的。可变的必然是混合的。可 变的是主动权调度的最高形式( 人类交际中即广泛采用此类离效主动权调度方 式) 。口语对话系统之前的n l i s s 以及早期的口语对话系统通常都是由机器掌握 主动权,以照顾系统的有限对话能力。后来口语对话系统也部分地采用了混合主 动权。目前的系统尚没有能够完全采用可变主动权的。 双向交互性现有口语对话系统所支持的交互通常是单向的:对话参与者中 的一方只能对另一方的语句作出响应( 以问一答最为典型) ,对话能力比较有限。 而人与人之间的自然交互通常是双向的,因此有必要赋予计算机以双向交互能 力。 话语语境在自然的对话中,语境中蕴含着丰富的信息。这些信息从不同的 侧面使得对话者能够高敲地实现对话意图。具备这一能力的对话系统将极大地 区别于传统的自然语言数据库接口系统和开放领域问答系统( 不能超出当前孤 立语句进行处理) 。 将n l i s s 按上述特征所作的比较示于表1 1 中。这些特征提供了从多视角剖 析s d s s ( 或n u s s ) 的可能思路。 1 2 。2基本结构与组成 口语对话系统集成了语言中诸多层次的知识处理包括语音识别和合成,自 然语言理解和生成,以及对话管理,分别涉及到语音学和音位学,句法和语义学, 语用学等各个层次的计算处理( 以及非语言的知识或信息处理) 。一个典型口语 对话系统的基本逻辑框架( 区别于系统实现中的物理框架) 示意于图1 1 。在该 框架中,各基本组成可以进步分解或合并。分解以后可以进行更细致的研究; 合并以后可以进行综合研究。下面对各基本组成的功能和特点分别予以简单介 绍( ( m c t e a r ,2 0 0 2 ) 给出了详细介绍,尤其是对话管理) 。 第一章绪论 7 区分特征 n l q a s sn l l 2 d b s s s d s sn l i t s s i h s sc h a t t e r b o t s 模式8 oo 1 ,2 oo 任务o o1l220 领域co 11110 i 主动权ooo 1 21o 交互性e 0o11o 话语语境r o0 11o n 何种模式:0 一文本;1 一语音;2 多模式。 6 面向任务否:0 一否;1 一是且简单( 如信息类) ;2 一是,且复杂( 如事务类问题求解类 等) 。 c 领域受限否:0 一否;1 一是。 4 主动权:0 固定且单向( 机器主动或用户主动) ;1 一固定且混合;2 一可变。 r 交互程度:0 一单向响应性;1 一双向交互性。 ,话语语境利用否:o 一否:1 一是( 利用程度也有很大不同) 。 语音识剥( s p e e c hr e c o g n i t i 叽,s r ) :输入的是语音信号所表示的用户说的 话输出的是识别出的词序列,以前若干个最佳候选句子或词网( w o r d1 a t c i c e ) 形式表示。在对话中,由于输入的是自然语音( s p o n t a n e o u ss p e e c h ) t 因此识别 起来要比朗读语音困难得多,从而进一步对口语理解和对话管理都提出了更高 的要求。 自然语言理解( n a m r a ll a n g u a g eu n d e r s t a n d i n 昏n l u ) :输入的是识别 结果,输出的是以特定形式表示的语义。自然口语跟书面语相比,有一个很大的 特点,那就是不合语法性。再加上当前自然口语识别器的性能还不能十分令人 满意,识别的错误会进一步加重句子的不合语法性。凶此对口语理解的鲁棒性提 出了挑战。 对话管理( d i a l o g u em a n a g e m e n t ,d m ) :输入的是用户语句的语义表示, 输出的是系统响应的语义表示。作为系统的核心控制模块,对话管理的基本任务 是综合交互历史,完成用户话语意图的进一步解释,并根据输入、语境和系统所 掌握的信息,确定合适的响应内容。另外,对话管理还应当能够对其它模块提供 话语和语用层的约束。 自然语言生成( n a t u r a ll a “g u a g eg e n e r a t i o n ,n l g ) :输入的是系统响应 的语义表示,输出的是文本形式表示的系统响应。传统自然语言生成中研究 8 自然口语对话计算的经验研究 图1 1 :典型口语对话系统基本逻辑框架 得较多的是书面语语篇的生成r e i t e ra n dd a l e 】9 9 7 ;r e i t e ra n dd a k ,2 0 q , 而s d s s 中的n l g 研究相对较薄弱,因而早期的系统多采用基于模板的方法。近 几年来,针对对话系统中的n l g 的研究也得到了定的关注并取得了较大进 展( w u ,2 0 0 1 js t e n t ,2 0 0 1 ;w a l k e ra n dr a m b o w ,2 0 0 2 ) 。 语音合成( s p e e c hs ”t h e s i s ,s s ) :输入的是响应文本,输出的是语音。传 统语音合成研究得较多的是文语转换( t e x t t o - s p e e c h ,t t 5 ) ,但对话系统中的语 音合成,对合成出高质量的语音有着更迫切的需求。因此,研究如何充分利用各 种知识源,实现从概念( 或语义、意图等) 到语音( c o n c e p t - t o s p e e c h ,c t s ) 的 生成,成为一个新的研究点( m c k e a w na n dp a n ,2 0 0 0 jt a y l o r ,2 0 0 0 ) 。 应用后端( a p p l i c a t i o nb a c k - e n d ,a b ) :另外,还必须有应用后端提供对话 任务相关的非语言信息及其处理,如相关的领域数据库或知识库( 对提供信息和 服务犁任务) ,或规划器( 对问题求解型任务) 。如果系统所用到的后端是动态数 据,如互联网上的多个站点上不断更新的信息,那么如何进行有效的信息提取和 检索,刚是另个研究重点。 1 2 3 研究现状 本节将分别从研究项目和研究小组两个角度出发,对口语对话系统的研究 进行考察,以勾画出发展现状。 第章 绪论9 1 2 3 1 从研究项目看 八十年代后期以来,语音和语言处理研究取得了较大的进展,建立在这些研 究基础之上的口语对话系统及其相关的研究项目如雨后春笋般大量涌现。世界 各地制定了一些大规模、长期的研究计划,其中影响较大的包括欧共体关于对 话交互系统的研究计划,和美国 d 】a r i ) a 资助的口语系统研究计划及其后续项 目d a r p ac o m m u n i c a t o r 。另外还有不胜枚举的规模相对较小的研究计划和项 目。 1 2 3 1 1 欧共体支持项目自1 9 8 4 年以来,欧共体在研究和开发方面启动了若 干框架计划( f r a m e w o r kp r o g r a m ,f p ) ,分别持续垂5 年。与口语处理( 或人机语 音通讯) 相关的研究主要集中在e s p r r r i t ( i n f o r m a t i o n 钕h n o l o 舯) 研究计 划和t e l e m a t i c s 研究计划( m a r i a n ia n dl a m e l ,1 9 9 8 ) 。其中代表性的项目包 括早期的s u n d i al ,后来的m a s i ,r a i l t e l 和a s e ,较近完成的t r i n d i 和s i r j d u s + c o m i c ,f a s i l ,以及正在进行的t a l k 等。 s u n d i a l 项目曾经是欧洲最大的语音技术合作项目之一( m c g l a s h a n , 1 9 9 4 ) 。其目标是建立实时的,能够通过电话与用户进行合作性对话的集成对话 系统。系统以法语、德语、意大利语和英语四种语言实现,所涉及的任务领域为 航班预订和查询以及火车信息查询。 m a s k 项目的目标是要开发采用多通道多媒体输入( 语音和触摸屏) 和 输出( 声音、图像、文本和图形) 的交互界面,为先进的公共服务应用铺平道 路( l a m e l e ta 1 ,1 9 9 8 ) 。r a i l l l e l 项目的目标是评估语音技术是否胜任交互性电 话服务,同时把服务提供商和用户的需求考虑进去( b i l l ia n dl a m e l ,1 9 9 7 ;l a m e l e ta 1 ,1 9 9 7 ) 。a r i s e 是r a l u 卫l 的后续项目,以三种语言实现了四个火车时刻 袁信息查询原型系统,并进行了测试和验证( l a m e le ta 1 ,2 0 0 0 ) 。 t r i n d i 项目( 1 9 9 8 - 2 0 0 0 ) ( l a r s s o na n dt r a u m ,2 0 0 0 ;t r i n d ic o n s o r t i u m , 2 0 0 1 ) 研究的重点包括:分析人与人之间面向任务的对话中,参与者的信息状态 改变的特点;检验如何修改这些特点,以简化自然、鲁棒的人一机交互所能完成 的任务( 即使受到更多的限制) ;建立面向任务和示教性对话及文本中信息改变 的计算模型。该项目除了进行若干理论研究外,还提出了一个基于信息状态更 新的对话管理框架,实现了对话管理器的开发工具一一t n d i k ( l a r s s o ne t a i ,2 0 0 2 ;l a r s s o n ,2 0 0 2 ) ,并利用该工具建立了四个演示系统( t r a u me ta 1 ,2 0 0 0 ; b o se ta i ,2 0 0 0 jt r i n d ic d n s o r t i u m ,2 0 0 1 ) 。 1 0 自然口语对话计算的经验研究 s l r i d u s 项目( 2 0 0 1 2 0 0 2 ) 是t 融n d i 的后续项目。其中心任务定为:加深 对更鲁棒、更友好的对话系统的理解,并开发工具来支持对话系统的建立。其它 研究目的包括:建立能适应不同的复杂组件的集成和升级的体系,增加对韵律信 息的敏感性等。该项目重用和扩展了在t m n d i 项目中所提出的关于对话的信息 状态更薪的观点。 c o m i c 项目( 2 0 0 2 ,3 2 0 0 5 2 ) ( c o n v e r s a t i o n a lm u l t i m o d a l i n t e r a c t i o nw i t h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论