(信号与信息处理专业论文)人机对话系统中若干关键问题研究.pdf_第1页
(信号与信息处理专业论文)人机对话系统中若干关键问题研究.pdf_第2页
(信号与信息处理专业论文)人机对话系统中若干关键问题研究.pdf_第3页
(信号与信息处理专业论文)人机对话系统中若干关键问题研究.pdf_第4页
(信号与信息处理专业论文)人机对话系统中若干关键问题研究.pdf_第5页
已阅读5页,还剩97页未读 继续免费阅读

(信号与信息处理专业论文)人机对话系统中若干关键问题研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 人机对话系统是自然语言处理技术应用的前沿领域,它的性能的好坏取决若 干关键问题,包括:会话言语的结构分析,会话言语的语义理解,会话过程的调 度管理等等。本文的研究围绕着这些关键问题展开,并取得了如下5 个方面的成 果: ( 1 ) 独立的提出了基本会话结构的概念。 综合语言本身和工程应用的要求,本文从4 个方面对基本会话结构的概念做 出了限定,认为a ) 基本会话结构就是会话结构中最基本的对答单元b ) 由两个 或者两个以上不同言语者的言语行为序列所组成c ) 形式上固定地表现为引发语 后接应答语的稳态结构d ) 具有明确的语义内涵。以此为基础,进而提出了多层 次的浅层会话结构标记体系,并应用于t s c 9 7 3 电话口语语料库。基本会话结构 概念的提出将言语行为的研究朝着会话结构的方向作了有益的延伸;同时又避免 了完整的h c r c 方案难以实现的尴尬,具有显著的实践背景和现实意义。( 详 见第二章) ( 2 ) 本文首次将h h m m 模型应用于会话结构分析。 本文采用由简至繁的方式依次展示了如何将朴素贝叶斯、h m m ,h h m m 应 用于浅层会话分析。在h h m m 算法方面,本章首先展示了h h m m 的p c f g 等 价表达,然后进一步说明h h m m 可以采用c k y 来进行解码,并且给出了具体 的解码算法。针对h h m m 时空耗费较高的缺陷,我们首次提出了它的分层求解 体系,分为两个层面三个部分:两个层面是语义层面和语法层面;三个部分包括 基本会话结构边界识别,基本会话结构语义识别,基本会话内部拓扑识别。对 于基本会话结构的边界识别,本文提出了基于最大熵的两种方案 m o d e l m a x e n t v 1 和m o d e l m a x e n t - v 2 ;对于基本会话结构的语义识别,本文提 出了一种分层的规则和统计相结合的处理框架:对于基本会话结构的内部拓扑识 别,本文首先将其因子化为位置因子,正反因子,语用因子三个部分,然后分别 加以处理:对应位置因子,本文采用h m m 来识别;正反信息和语用信息在 t s c 9 7 3 语料库中规律性比较强,本文仅仅采用了一些简单的规则处理方法。我 们的实验表明,h h m m 分层求解体系最终输出的f 值为3 9 5 4 ,较h m m 模型 和朴素贝叶斯模型均有显著提高,其中比h m m 模型的f 值提高6 3 3 个百分点。 ( 详见第二章) ( 3 ) 率先对会话结构的无监督推导作了探索性的研究。 作为会话结构有导识别的延伸和拓展,本文率先对会话结构的无监督推导作 了探索性的研究。特别的,本文将研究的焦点集中在基本会话结构边界的无监督 学习上。首先,通过阐述言语行为之间互信息分布图,展示了互信息分布和基本 会话结构边界的关联性,在一定程度上说明了通过言语行为之间的关联程度来进 行基本会话结构边界探测的合理性:其次,提出了一种基本会话结构组块的综合 评分机制,分别从组块内连接强度和组块间连接强度两个方面来衡量一个目标组 块成为基本会话结构的可能性,并且在此基础上构造了基于动态规划的无监督切 分算法,实现了在完整会话范围内寻求最优切分。实验结果显示基于组块综合评 分机制的系统性能f 值达到6 9 1 6 ,较基于m i 的无监督推导性能高出近1 5 个 百分点。( 详见第三章) ( 4 ) 提出了一种改进了的基于议程的d m 管理框架。 对话的任务结构表现在过程性结构和描述性结构两个方面,为了更好的处理 具有这两种典型结构的复杂任务,本文在基于议程的对话管理系统的框架中引入 了特征结构( f s ) ,从而不仅保留了原有过程性处理方面的优点,同时又结合 了特征结构适用于描述复杂对象的特点,有效的拓展了d m 对于复杂对话任务 的处理能力。( 详见第四章) ( 5 ) 提出了一种基于随机森林的浅层句法分析的算法。 对于c o n l l 2 0 0 0 提出的浅层句法分析任务,本文提出了种新型的基于随 机森林的算法,研究表明本文提出的算法能够降低对系统内存的需求,并且展示 了通过b o o t s m p 、s u b s p a e e 等多途径引入随机性能够在整体性能上形成局部峰 值,从而实现性能的改善。实验表明基本模型+ b o o t s t r a p5 棵树、1 5 维时出现 峰值,e 达到9 2 2 5 ,优于基本模型性能最大值o 4 6 个百分点。( 详见第五章) 关键词:基本会话结构层次隐马尔可夫无监督推导对话管理随机森林 a b s t r a c t s p o k e nd i a l o g u es y s t e mi sar e s e a r c hf r o n to fn a t u r a ll a n g u a g ep r o c e s s i n g ,o f w h i c ht h ep e r f o r m a n c ed e p e n d so ns o m ek e yp r o b l e m s ,i n c l u d i n gl a n g u a g es t r u c t u r e a n a l y s i s ,l a n g u a g es e m a n t i cc o m p r e h e n s i o na n dd i a l o g u em a n a g e m e n t s or e s e a r c ho f t h i sd i s s e r t a t i o nf o c u sm a i n l yo nt h ek e yp r o b l e m sd e s c r i b e da b o v ea n d $ o m e i m p o r t a n ta n dn e wf i n d i n g sa r es u m m a r i z e d a sf o l l o w s : ( 1 ) c o n c e p to f b a s i cd i a l o g u es t r u c t u r ei sp u tf o r w a r di n d e p e n d e n t l y b a s eo nt h er e q u i r e m e n to fl a n g u a g ei t s e l fa n de n g i n e e r i n ga p p l i c a t i o n , t h e d i s s e r t a t i o nd e f i n e st h ec o n c e p to f b a s i cd i a l o g u es t r u c t u r eb yf o u rw a y sa n dc o n s i d e r s : a ) ,t h eb a s i cd i a l o g u es t r u c t u r ei st h em o s tb a s i ci n t e r a c t i v eu n i ti nd i a l o g u es t r u c t u r e ; b ) ,c o n s i a i n go f as p e e c ha c ts e q u e n c eb yt w oo rt w oa b o v ed i f f e r e n ts p e a k e r s ;c ) ,t h e b a s i cd i a l o g u es t r u c t u r ec a nb ef o r m a l l yr e p r e s e n t e da sas t e a d ys t r u c t u r ew i t hi n i t i a l u n i t sf o l l o w e db yr e s p o n d i n go n e s ;d ) ,h a v i n gd e f i n i t es e m a n t i ci n t e n s i o n a c c o r d i n g t ot h ed e s c r i p t i o n sa b o v e ,t h ed i s s e r t a t i o nf u l c d l e rb r i n g sf o r w a r dat a gs y g e mo f s h a l l o wd i a l o g u es t r u c t u r e sw i t hm u l t i p l eh i e r a r c h i e s ,w h i c hc a nb ea p p l i e dt o t s c 9 7 3t e l e p h o n et o n g u ed a t a b a s e t h ec o n c e p to fb a s i cd i a l o g u es t r u c t u r ep u t f o r w a r db yt h i sd i s s e r t a t i o nu s e f u l l ye x t e n d st h er e s e a r c ho fs p e e c ha c tt o w a r d st h e d i r e c t i o no fd i a l o g u es t r u c t u r e ,a n da v o i d st h ed i f f i c u l t yi ni m p l e m e n t i n gaw h o l e h c r cp r o j e c t ,w h i c hi so fn o t a b l ep r a c t i c eb a c k 掣o u n da n dr e a l i s t i cs i g n i f i c a t i o n ( a s d e s c r i b e di nd e t a i li nc h a p t e r2 ) ( 2 ) ah h m mm o d e li sa p p l i e dt oa n a l y s i so fd i a l o g u es t r u c t u r ef o rt h ef i r s t t i m e t h ed i s s e r t a t i o ns h o w so r d e r l yh o wt oa p p l yn a v i eb a y e s i a n , h m ma n dh h m m m o d e lt os h a l l o wd i a l o g u ea n a l y s i si nan l a n n e rf r o ms i m p l et oc o m p l e x i t y w i t h r e s p e c tt oh h m m ,t h i sd i s s e r t a t i o nf i r s ti l l u s t r a t e sa ne q u i v a l e n te x p r e s s i o no fp c f g t oh h m m ,t h e nf u r t h e rs h o w st h eh h m mc a l lb ed e c o d e db yc k ya n dad e t a i l e d a l g o r i t h mi sl i s t e d , f i n a l l y ,ah i e r a r c h i c a ls o l v i n gs y s t e mc o m p r i s i n gt w ol a y e r sa n d t h r e ep a r t si sp u tf o r w a r dt os o l v et h ed e f a u l to fh i g hs p a c et i m ec o s to fh h m m , t h e t w ol a y e r sa r et h es e m a n t i cl a y e ra n dt h eg r a m m a rl a y e rr e s p e c t i v e l y ;a n dt h et h r e e p a r t sc o m p r i s et h es t r u c t u r a lb o u n d a r yi d e n t i f i c a t i o nu n i t ,t h es t r u c t u r a ls e m a n t i c i d e n t i f i c a t i o nu n i ta n dt h ei n t e r i o rt o p o l o g yi d e n t i f i c a t i o nu n i to fb a s i cd i a l o g u e s t r u c t u r e w i t hr e s p e c tt ot h es t r u c t u r a lb o u n d a r yi d e n t i f i c a t i o nu n i to fb a s i cd i a l o g u e s t r u c t u r e ,t h ed i s s e r t a t i o nb r i n g sf o r w a r dt w os o l v i n gm e t h o d sb a s e do nm a x i m u m e n t r o p y :m o d e l m a x e n t - v 1a n dm o d e l m a x e n t - v 2 ;w i t hr e s p e c tt ot h es e m a n t i c i d e n t i f i c a t i o nu n i to fb a s i cd i a l o g u es t r u c t u r e ,as y s t e me x p l o r i n gb o t hr u l em e t h o d a n ds t a t i s t i c a lm e t h o di sb r o u g h tf o r w a r d ;a n dw i t hr e s p e c tt ot h ei n t e r i o rt o p o l o g y i d e n t i f i c a t i o nu n i to fb a s i cd i a l o g u es t r u c t u r e ,t h ee f f e c t i n gf a c t o r sa r ed i v i d e di n t o l o c a t i o nf a c t o r , p o s - n e gf o c t o ra n dp r a g m a t i cf a c t o r , a f t e rt l l a t t h r e ef a c t o r sa r e p r o c e s s e dr e s p e c t i v e l y ,t h a ti s ,h m mm e t h o di sa d o p t e dt oi d e n t i f yl o c a t i o nf a c t o r ,a s f o rp o s - n e gf a c t o ra n dp r a g m a t i cf a c t o r , b e c a u s eo ft h e i rg o o dr e g u l a r i t yi nt s c 9 7 3 t e l e p h o n et o n g u ed a t a b a s e ,s o m es i m p l er u l eb a s e dm e t h o d sa r eu s e d e x p e r i m e n t a l r e s u l t ss h o wt h a tt h eu l t i m a t efe x p o r t e db yt h eh i e r a r c h i c a ls o l v i n gs y s t e mo f h h m mi s3 9 5 4 ,w h i c hi sm u c hb e t t e rt h a nt h a to fh m mm o d e la n dn a v i e b a y e s i a nm o d e l ,f o re x a m p l e ,t h eu l t i m a t efi n c r e a s e s6 3 3p e r c e n tc o m p a r i n gw i t h t h a to f h m m m o d e l ( a sd e s c r i b e di nd e t a i li nc h a p t e r ( 3 ) t a k eap r o b es t e pt or e s e a r c hd i a l o g u es t r u c t u r ew i t ha na n - s u p e r v i s e d m a n n e r a sa ne x t e n s i o na n dd e e p e n i n go ft h es u p e r v i s e dl e a r n i n go fd i a l o g u es t r u c t u r e s , t h i sd i s s e r t a t i o nt a k e sap r o b e s t e p t or e s e a r c h d i a l o g u e s t r u c t u r ew i t l la n a n s u p e r v i s e dm a n n e r p a r t i c u l a r l y ,t h es t u d y i n gf o c u si sm o r eo nt h er e s e a r c hi nt h e u n - s u p e r v i s e dl e a r n i n go fb a s i cd i a l o g u es t r u c t u r a lb o u n d a r y f i r s t , t h ed i s s e r t a t i o n i l l u s t r a t e st h er e l a t i o n s h i pb e t w e e nm u t u a li n f o r m a t i o nd i s t r i b u t i o na n db a s i cd i a l o g u e s t r u c t u r a lb o u n d a r yb yam u t u a li n f o r m a t i o nd i s t r i b u t i o nd i a g r a m , w h i c ht os o m e e x t e n ts h o w st h er a t i o n a l i t yo fe x p l o r i n gb a s i cd i a l o g u eb o u n d a r yb yu s eo ft h e r e l a t i o n s h i pd e g r e eb e t w e e ns p e e c ha c t s ;s e c o n d l y ,as y n t h e t i c a ls c o r ec r i t e r i o ni sp u t f o r w a r da c c o r d i n gt ot h eb a s i cd i a l o g u es t r u c t u r a lu n i t , w h i c he s t i m a t e st h e p r o b a b i l i t yo fat a r g e tu n i tb e i n gab a s i cd i a l o g u es t r u c t u r ea c c o r d i n gt ot h el i n k i n t e n s i t y o fi n n e ru n i ta n di n t e r - u n i t r e s p e c t i v e l y ,f i n a l l y , an o v e ld y n a m i t i c p r o g r a m m i n gb a s e du n - s u p e r v i s e ds e g m e n t a t i o na l g o r i t h mi sp u tf o r w a r d ,a n dt h e m o s to p t i m i z e ds e g m e n t a t i o ni sa c h i e v e di nt h er a n g eo faw h o l ed i a l o g u e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h es y s t e mp e r f o r m a n c ev a l u efa c c o r d i n gt ot h e s y n t h e t i c a ls c o r ec r i t e r i o nc a nr e a c h6 9 1 6 ,w h i c hi sh i g h e ra l m o s tf i f t e e np e r c e n t t h a nt h a ta c c o r d i n gt ot h eu n - s u p e r v i s e dl e a r n i n gf f a m e w o r ko fm i ( a sd e s c r i b e di n d e t a i li nc h a p t e r3 1 ( 4 ) a ni m p r o v e da g e n d ab a s e dd mi sp u tf o r w a r d t h et a s ks t r u c t u r eo fad i a l o g u ei n c l u d e sp r o c e s ss t r u c t u r ea n dd e s c r i p t i v e s t r u c t u r e t ob e t t e rp r o c e s sac o m p l i c a t e dd i a l o g u et a s kh a v i n gb o t ht w ot y p i c a l s t r u c t u r e s ,af e a t u r es t r u c t u r ei si n t r o d u c e dt ot h et r a d i t i o n a la g e n d ab a s e dd m ,w h i c h , a sam s u l ln o to n l yt h ea d v a n t a g eo f t r a d i t i o n a ld mi sr e s e r v e d ,b u tt h ea d v a n t a g eo f af e a t u r es t r u c t u r e ,w h i c hi ss u i t a b l ef o rr e p r e s e n t i n gc o m p l i c a t e do b j e c t s ,i sa l s o c o m b i n e di n t ot h ec u r r e n td i a l o g u es y s t e m a l lt h o s ed e s c r i b e de f f e c t i v e l ye x t e n dt h e s y s t e mc a p a b i l i t yt oc o p ew i t hc o m p l i c a t e dd i a l o g u et a s k s ( a sd e s c r i b e di nd e t a i li n c h a p t e r4 ) ( 5 ) a n o v e ls h a l l o w p a r s i n g a l g o r i t h m b a s e d o nr a n d o m f o r e s t i s p u t f o r w a r d w i t hr e s p e c tt ot h es h a r et a s ko fs h a l l o wp a r s i n gd e s c r i b e db yc o n l l 2 0 0 0 ,t h e d i s s e r t a t i o nr e p r e s e n t san o v e la l g o r i t h mb a s e do nr a n d o mf o r e s t ,s t u d ys h o w st h a tt h e a l g o r i t h mp u tf o r w a r db yt h ed i s s e r t a t i o nc a nr e d u c et h ee m sm e m o r yr e q u i r e m e n to f s y s t e m , a n dm o r e o v e r ,i tc a ne f f e c t i v e l yi m p r o v es y s t e mp e r f o r m a n c eb yi n d u c t i n g m u l t i p l ek i n k so fr a n d o mf a c t o r ss u c ha sb o o t s r a p ,s u b s p a e ea n dc t e t oe n a b l et h e w h o l ep e r f o r m a n c et of o r map a r t i a lp e a kv a l u e e x p e r i m e n t a lr e s u l t si l l u s t r a t e st h a t t h ep e a kv a l u e 匕r e a c h e sa sh i g ha s9 2 2 5 i nt h ec a s eo ft h eb a s i cm o d e lp l u s b o o t s t r a pw i t haf o r e s ts i z eo f5f l e e sw h e ni nf i f t e e nd i m e n s i o n s ,w h i c he x c e e d s0 4 6 p e r c e n tt h a nt h em a x i m a lp e r f o r m a n c ev a l u e 兄o f t h eb a s i cm o d e l ( a sd e s c r i b e di n d c t a i li nc h a p t e r5 、 k e yw o r d s :b a s i cd i a l o g u es t r u c t u r eh h m mu n - s u p e r v i s e dd mr a n d o mf o r e s t 独创性说明 本人郑重声明:所呈交的论文是我个人n :导师指导下进行的研究工作及取得研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的 研究成果,也不包含为获得北京邮电人学或其他教育机构的学位或证书所使用过的材辩与 我一同r 作的同志对本研究所做的任何贡献均己在论文中做了明确的说明弗表示了谢意。 签名:躯私日期:别罗 关于论文使用授权的说明 本人完全了解北京邮电人学有关保留、使片j 学t | ) = 论文的规定,即:学校有权保留送交论 文的复印件允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采心影、 缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵循此规定) 签名纽聊躲桦 文献类型:博士论文 日期:厶卵石罗f 北京邮屯大学博:k 学位论文 第一章绪论 第一章绪论 1 1 人机对话系统的概念 人机对话系统( s p o k e nd i a l o g u es y s t e m 。s d s ) 利用语音识别厶成、语言理 解生成等技术模仿人际间对话方式,与用户进行自然对话,从而实现人和计算 机的信息交流。然而现实的技术限制却对这一目标提出了严峻的挑战,例如大词 汇量的语音识别问题 r o n a l de ta 1 ,1 9 9 6 】,口语化的句法分析问题 j e a n ,1 9 9 6 ; w b l f g a n g ,1 9 9 4 等等。这些课题在各自的工程实践中均尚待解决。尽管如此,另 一个不容忽视的事实是随着近年来的统计分析、机器学习技术的发展,上述问题 取得了长足的进步 r a b i n e r & j u a n g ,1 9 9 3 ;v a p n i k , 1 9 9 5 ;a l l e n , 1 9 9 5 】。因而,如 何尽可能的利用当前的科研成果,推动人机对话系统的发展,成为我们在设计人 机对话系统时考虑的首要问题。可行的策略是对自由式的人机交互进行一定程度 的简化,例如限定对话的领域,限定对话所涉及的词汇等等( 领域无关的系统知 识是一种可望而不可及的理想,因而面向专门领域的系统是天然合理的选择) 。 基于任务的人机对话系统就是上述策略的体现,它通过提供自然对话功能, 协助用户利用计算机完成特定任务。由于对话是围绕着特定任务而展开,因而系 统是领域有关的,系统与用户的交互简化为对话回合的方式( 话轮) ,在每个对 话回合中,系统以获取完成任务所需的相关属性为目的。目前基于任务的人机对 话系统已成为研究的焦点。文献中报道的基于任务的对话系统有c m u 的旅游信 息查询系统r a v e n c l a w , l a r s s o n & e r i c s s o n , 2 0 0 2 ,s t a f f a ne ta 1 ,2 0 0 0 ,s t a f f a n & d a v i d ,2 0 0 0 1 的g o d i s 地图寻址系统等。这些系统需要理解用户输入的语音语言, 并根据领域知识进行推理,明确用户的意图,从而完成用户指定的任务,并且通 过语音语言将所获得的信息反馈给用户。一般来说,基于任务的人机对话系统 包含以下几个模块,如图1 1 所示: 夺 语音识别模块( a u m m m i cs p e e c hr e c o g n i t i o n ,a s r ) :该模块接收用户的语音输入 信号并将它解码成文本信息。 夺 自然语言理解模块( n a t u r a ll a n g u a g eu n d e m t a n d i n g ,n l u ) :该模块分析语音识 别模块输出的文本信息,建立输入语句的语义表示。 对话管理模块( d i a l o g u em a n a g e m e n t ,d m ) :该模块是整个对话系统的调度中枢, 它根据自然语言理解模块输出的语义表示,劳结合领域知识和对话历史。进行知 识推理,分析确定用户意图,决定系统下一步将要采取的动作,从而控制整个对话 流程。系统动作包括进行后台数据库查询、发出询问,进行消歧、给用户返回结 北京邮电大学博士学位论文 第一章绪论 果等等。 夺后台服务模块( b a e k e n d ) :该模块根据完成系统的业务逻辑,例如数据库查询、消 歧等工作。它在d m 的控制之下工作。 夺 自然语言生成模块( n a t u r a ll a n g u a g eg e n e r a t o r ,n l g ) :该模块用来将系统输山 信息转换成用户可以理解的自然语言格式,将对话管理模块输出的询问、确认、 澄清、查询结果信息等等转变成用户能够理解的自然语言。 语音生成模块( t e x t t os p e e c h ,t t s ) :该模块负责将自然语言生成模块输出的文 本信息转换成语音格式并输出给用户。 在本文的研究中只考虑基于任务的对话系统,因而下文如无明确指出,我们 将对人机对话系统和基于任务的人机对话系统两者不做区分。 声音( a c o u s t i c ) 语音( p h o n e t i c ) 音韵( p h o n o l o g i c ) 语法( s y n t a c t i c ) 词汇( l e x i c a l ) 语法( s y n t a c t i c ) 语义( s e m a n t i c ) - 了, 图1 1典型人机对话系统框图 1 2 人机对话管理系统的功能 声音( a c o u s t i c ) 语音( p h o n e t i c ) 音韵( p h o n o l o g i c ) 词汇( l e x i c a l ) 语法( s y n t a c t i c ) 音韵( p h o n o l o g i c ) 词汇( l e x i c a l ) 语法( s y n t a c t i c ) 语义( s e m a n t i c ) 如图1 1 所示,人机对话管理是整个对话系统的调度中枢,它根据自然语言 理解模块输出的语义表示,并结合领域知识和对话历史,进行知识推理,分析确 定用户意图,决定系统下一步将要采取的动作,从而控制整个对话流程。 2 舌 北京邮r u 大学博:学位论文 第一章绪论 从信息流程可以看出对话过程中对话管理平台的具体功能为: 从自然语言理解模块接收分析结果。 处理分析结果,保存对话状态和对话历史,判断对话流程。 发送输出信息给自然语言生成模块。 组织后台数据源查询。 接收后台数据源的查询结果。 进行差错处理,使对话向着完成任务的方向前进。 、法分析l - 叼一 语言模型 对话管理 习誓 f 二 言语行为 领域知识 1 ,一一一,j 图1 2 对话管理系统的功能块结构框图 上述功能可以分为两类,其中前5 项功能属于基本业务功能,完成正常情况 下系统的动作;最后一项功能属于纠错功能,它在系统检测到对话过程中的差错 时,执行差错纠正动作,例如请求重复,要求确认等。纠错功能存在的前提在于: 从前端的n l u 进入到d m 的信息是不可靠的。这种不可靠性既来源于相关技术 的限制,例如语音识别的差错,句子理解的差错;另一方面来源于对话本身的复 杂性,例如当所指不确定时需要进行确认操作,以到达排歧的作用。图1 2 是对 话管理系统的功能结构框图,主要从相应模块所涉及的任务类型剖析了对话管理 的功能。由图中可以看出对话管理处于中心的位置,它涉及语言的识别和生成; 会话模型的管理和建立( 会话策略,恢复策略,会话结构模型) ;与领域有关的语义 处理( 言语行为,领域知识) ;语用层面的言语处理( 省略消解,指代消解) 。 宁习丁型 北京邮电大学博1 :学位论文 第一章绪论 1 3 任务结构 自然对话是人类特有的智能行为,人机对话系统研究的出发点和最终归宿都 是在寻求对自然对话这种智能行为做到最大程度上的模拟和逼近,其中最核心的 问题就是探讨如何对自然对话现象进行合理的形式化,尽可能的从缤纷的自然对 话现象中抽取出最基本,最稳固的结构规律,使得系统所采用的形式框架既能够 满足各种情况下语言表现的需要,具有充分的表达能力;同时又是可以计算的, 在工程上具有有效的实现手段。例如在早期天气预报系统中采用的固定槽位的基 本数据结构实现简单,但是只适用于一些简单的应用,对于相对复杂的系统,例 如旅游线路查询就不能满足要求。一般而言,表达能力越强意味着形式框架越复 杂,因而如何在两者的矛盾中做出权衡是对话系统形式设计的关键问题。实践中 可以根据具体的软件需求作出相应的取舍。 在基于任务的对话系统中话题指的就是有待完成的任务,因此话题结构又被 称为任务结构。从近一二十年的工程实践来看,所实现的对话系统涉及的任务有 机票预订 b a e k g a a r de ta 1 ,1 9 9 5 ;d a l s g a a r d & b a e k g a a r d , 1 9 9 4 ;v e l d h u i j z e n ,1 9 9 6 ; b e m s e ne ta 1 ,1 9 9 5 ,旅游线路查询,天气预报查询等等。从这些任务来看,有 简单和复杂之分,例如,天气预报的查询就是比较简单的任务,只要在人机对话 的交互过程中,由人向对话系统提供需要预报的时间和需要预报的地点,就可以 完成天气预报的任务。但有的任务是比较复杂的,例如,旅游线路的查询就比较 复杂,因为旅游线路是在用户和系统交互的过程中动态生成,是无法预知的:并 且在旅途线路生成的过程中,一般遵循的逻辑顺序是:从始发节点到目的节点, 上一段旅途的终点就是下一段旅途的起点;因此不适合槽位填充等固定格式的数 据结构。 明确对话任务的复杂程度,从软件工程的角度来看就是一个明确软件需求的 过程。对于天气预报或者旅游线路查询等复杂度不同的任务应该采取相应的处理 策略。一般而言,对话任务包括两个方面的属性,描述性属性和过程性属性。对 于一个任务而言,这两种属性并不是缺一不可。例如天气预报就没有过程性属性, 而旅游线路查询则是典型的过程性结构的例子。 1 3 1 描述性结构 定义:任务内部各组成成分体现出来的构成模式。 相对过程性结构而言,描述性结构是对任务的一种静态的描述,它根据部分 和整体的关系,用分解的方法对任务内部的个组成成分之间的关系进行考察。其 中,各个组成部分称为领域对象( 简称对象) ;对象和对象之间的关系是 4 北京d i l jb 大学博二l 学位论文 第一章绪论 i s p a r t - o f ,或者是i s 的关系。 图1 3 描述了对象之间的关联特性,例如,o b j - d i s h 对象和o b j f o o d 对象都 是属于o b j c o n c r e t e g 蟓,而和o b j _ p r i c e 只是同属o b j 对象。详细的论述见节4 2 1 。 o b j d i s h0 b j f o o d0 b j d r i n k 一二= = 一 1 3 2 过程性结构 。:鬟最,i 。c 。e 。 c h a r a c t e r :s t r i n g 叻j一望“8“0bjabstl*acname:s t r i n g一 一厂 o b j 图1 3 典型描述性结构拓扑图 定义:任务中各个组成部分或者任务所涉事件体现出来的时序结构。 自然对话是对客观事务或者事件的描述,而时序属性是客观事务或事件的根 本的自然属性,因此对话任务中的时序结构对于设计人机对话系统具有重要的作 用。例如,在一般的对话系统中,当用户刚刚进入系统时,系统合理的反应应该 是向用户进行友好的问候,在得到用户回应后,要求用户进行注册等活动,只有 当用户注册验证完成后,才提供相应的服务。这些系统事件,只有固定的按照上 述顺序发生才被认为是恰当的。再比如,在旅游线路查询时,合理的顺序是整个 旅途一段一段的安排,只有在当前一段旅途的起点和终点得到确认的情况下,再 进入下一段旅途的安排。另外,所有的旅程中,旅途段数是不一致的,有多有少, 这就要求对话系统对旅行线路的描述应该采用具有弹性的数据结构;当讨论某旅 途时会出现对上一段旅途的修正的意见,此种情况下,d m 的功能就必须允许某 种回溯机制。 这些客观需求激励着对话系统开发人员对于事务的过程性结构给予特别的 关注,不断地发展着新的形式架构以适应计算机处理的需要。例如为了提供具有 弹性的数据结构就有多种系统见诸于文献,例如 c o n s t a n t i n i d e se ta 1 ,1 9 9 8 】的 s c h e m a - b a s e d 、 r u d n i c k y & x u , 1 9 9 9 1 的a g e n d a - b a s e d 等等。 图1 4 是控制餐饮领域会话的任务结构树,它按照深度优先的固定顺序调度, 而这种顺序正好刻画了事件的时序逻辑。因此由图可以看出会话一开始是问候, 然后依次是点菜,点主食,点饮料。 北京邮电大学博士学位论文 第一章绪论 1 4 会话结构 图1 4 典型过程性结构拓扑图 要从自然对话现象中抽取出最基本,最稳固的结构规律就必须深刻的认识自 然对话中内容和形式的辨证关系:自然语言是表达人们思想的工具,在两人或者 多人的对话过程中更表现为一个交流沟通的工具,一方面它承载了说话人喜怒哀 乐,表达了说话人对周围人和事的基本判断,能够向听者传递说话者所希望表达 的意图和内容;另一方面,说话者所希望表达的任何信息又要通过具体的语言表 达出来,例如当描述当前状态时可以用陈述句,如需征询意见可以采用疑问句, 等等。自然对话的这种内容和形式的辩证统一关系反映在人机对话系统的形式化 过程中就集中体现为:基于任务的自然对话不仅仅是个语言的问题,也是个利用 领域知识进行推理的问题。其中,领域知识及领域推理属于人机对话的内容范畴; 对话过程中的语句属于人机对话的形式范畴。这两个问题在任何一个完整的对话 过程中表现为话题结构和会话结构。其中话题结构对应领域知识问题,语言问题 对应会话结构。 会话结构属于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论