(计算机软件与理论专业论文)汉语口语对话系统的语言分析.pdf_第1页
(计算机软件与理论专业论文)汉语口语对话系统的语言分析.pdf_第2页
(计算机软件与理论专业论文)汉语口语对话系统的语言分析.pdf_第3页
(计算机软件与理论专业论文)汉语口语对话系统的语言分析.pdf_第4页
(计算机软件与理论专业论文)汉语口语对话系统的语言分析.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机软件与理论专业论文)汉语口语对话系统的语言分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

:吾对晤系统的语言分析摘要 限定领域汉语口语人机对话系统的语言分析 摘要 自然语言处理己历时几十年了,热潮莫过于机器翻译。机器翻译的热潮过去后 自然语言处理逐渐进入平静、现实的务实阶段。近期人们将目标定在文本的自动分 类和摘要、信息的自动检索和过滤以及限定领域的人机对话系统等方面。本文介绍 汉语口语人机对话系统语言分析的研究。 语言处理中,实用性很强、高效的是统计方法。但基于规则的方法可以细致刻 划语言内在结构的各个方面,如果能综合运用情景、上下文和常识获取语义特征 在限定领域的情况下,分析的准确率将会显著提高。 本文根据汉语口语缺省多、插入语多、短旬多和语序灵活等语言特点,设计了 种以规则为主、结合概率信息的语言综合分析方法。在汉语分词和词性标注的基 础上,基于合一文法利用图算法进行部分句法分析,最后结合上下文、情景、常识 和概率信息获取语义特征。该方法有效提高了汉语口语对话系统语言分析的准确 性,同时考虑了效率和领域切换等实用方面的问题。并实现了上海市交通信息查询 系统一- - s h j t q ,同时完成了相关的测试评价工作,从而确保了系统的正确性、有 效性。 词切分和词性标注方面,本文通过建立索引和采用合适的h a s h 算法,改进了词 表的组织形式,极大提高了分词和词性标注的效率。从而减少系统实时响应时间。 句法分析方面,本文根据汉语e l 语特点进行了如下改进和尝试:( 1 ) 、采用部分 句法分析而不是常规的完全句法分析,从而有效分析含有插入语、缺省、语序变化、 汉语口语对话系统的语言分析 摘要 多个短句等不规正语句;( 2 ) 、采用基于合一文法的语法体系,通过特征校验限制句 法规则归约,减少句法分析的歧义;通过特征传递获取短语的语义语法信息,以便 进一步获取整句的语义特征;( 3 ) 、实现了特征和句法规则的预编译,使得句法知 识库具有良好的开放性,减少了领域切换时所需工作量。 语义分析的难点在于如何处理缺省、指代、否定等复杂语言现象。本文从所限 定的领域特点出发,尝试给出一些实用的处理方法:( 1 ) 、采用合一算法根据上下文、 情景求解缺省;( 2 ) 、采用史列表方法结合语法语义限制规则求解指代;( 3 ) 、将否 定分为句问否定和句中否定,根据“否定候选集一对比删除”流程确定否定词的具 体辖域。这些方法充分利用了上下文、情景和常识,在本系统中处理正确率达到了 8 0 以上。 最后对本文所提出的语言分析方法进行了测试。测试结果表明该方法不但可以 有效处理规正的查询语句,而且可以处理含有插入语、多个短句等非规正语句;处 理效率基本实用。在此基础上,提出了进一步的工作方向。 上述方法及系统已被采纳于上海市科委重点项目中。 关键字:自然语言处理,人机对话,部分句法分析,语义分析,合一算法 l a n g u a g ea n a l y s i si nad o m a i n s p e c i f l cc h l n e s es p o k e n dla l o g u es y s t e m a b s t r a c t n a t u r a ll a n g u a g ep r o c e s s i n gh a sb e e nd e v e l o p e df o rd e c a d e s i t sc l i m a xi sm a c h i n e t r a n s l a t i o n a f t e rt h a ti t sr e s e a r c hb e c o m e sm o r er e a l i s t i c c u r r e n tr e s e a r c h e sf o c u so n a u t o m a t i ca b s t r a c t i n g ,i n f o r m a t i o nr e t r i e v a la n dd o m m n s p e c i f i c d i a l o g u es y n e me t c t h i sp a p e r p r e s e n t sal a n g u a g ea n a l y s i sm e t h o df o rad o m m n s p e c i f i cc h i n e s es p o k e n d i a l o g u es y s t e m t h e r ea r et w ok i n d so fl a n g u a g ea n a l y s i sm e t h o d s o n ei ss t a t i s t i c b a s e dm e t h o d , a n dt h eo t h e ri sm l e - b a s e dm e t h o d t h es t a t i s t i c - b a s e dm e t h o di sm o r ee f f e c t i v e , b u t r u l e b a s e dm e t h o dc a nd e s c r i b et h ei n n e rs t r u c t u r e so fl a n g u a g ei nm o r ed e t a i l i fi ti s i n t e g r a t e dw i t l ls i t u a t i o n c o n t e x ta n dg e n e r a lk n o w l e d g e t oa c q u i r et h es e m a n t i cf e a t u r e s o fu t t e r a n c e s ,t h ea c c u r a c yw i l lb ei m p r o v e dr e m a r k a b l y a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fc h i n e s es p o k e nl a n g u a g es u c ha sm a n ye l l i p s e s , s h o r ts e n t e n c e sa n df l e x i b l ew o r do r d e r , t h i sp a p e rp r e s e n t san e wr u l e b a s e dl a n g u a g e a n a l y s i sm e t h o d ,w h i c h u s e ss e g m e n t a t i o n t a g g i n g ,p a r t i a lp a r s i n ga n ds e m a n t i ca n a l y s i s t ou n d e r s t a n dt h eu t t e r a n c e s a ss i t u a t i o n ,c o m e x t ,g e n e r a lk n o w l e d g ea n dp r o b a b i l i t y a r ei n t e g r a t e di n t ot h i sm e t h o d ,i tc a na c q u i r et h es e m a n t i cf e a t u r e sm o r ep r e c i s e l y f u r t h e r m o r e ,i td e c r e a s e st h et i m ec o m p l e x i t ya n dm a k e sd o m a i n s w i t c h i n ge a s y a p r o t o t y p es y s t e m ,s h j t q ( s h a n g h a ij i a o t o n gq u e r ys y s t e m ) ,h a s a l s ob e e n i m p l e m e n t e d t e s tr e s u l t sv e r i f yt h ev a l i d i t ya n de f f i c i e n c yo f t h ep r e s e n t e dm e t l l o d i ns e g m e n t a t i o n t a g g i n gm o d u l e ,t h et e c h n o l o g i e so fi n d e xa n dh a s hh a v eb e e n a d o p t e dt oc o n s t r u c tt h em a c h i n e r e a d a b l ed i c t i o n a r y , w h i c hi n c r e a s e st h ep r o c e s s i n g s p e e dr e m a r k a b l y a sf a ra sp a r s i n gi sc o n c e m e d ,w em a d es e v e r a lc o n s i d e r a t i o n sa sf o l l o w s :( 1 ) p a r t i a lp a r s i n g ,n o tac o m p l e t eo n e ,i sa d o p t e dt oa n a l y z et h eu t t e r a n c e sb e c a u s ei tc a l l d e a lw i t ht h eu n g r a m m a t i c a lc o n s t r u c t i o n sm o r ee f f e c t i v e l y ( 2 ) t h eg r a m m a r f o r m a l i z a t i o nb a s e do nc o n t e x t - f r e eg r a m m a r 谢t l lc o m p l e xf e a t u r es u p p o r ti sa d o p t e di n t h i ss y s t e m t h et e c h n o l o g yo fp s e u d ou n i f i c a t i o no fc o m p l e xf e a t u r ei su s e di nt h e r e d u c t i o no fg r a l n n l a rr u l e s ( 3 ) f e a t u r ea n dg r a m m a rr u l ep r e 。c o m p l i e r sa r e i m p l e m e n t e d ,w h i c hs u p p o r tt h eo p e n n e s so f s y n t a c t i ck n o m e 始ep 0 0 1 t h ed i f f i c u l t i e so fs e m a n t i ca n a l y s i sa l eh o wt op r o c e s se l l i p s i s ,a n a p h o r aa n d n e g a t i o n t h e i rc o r r e s p o n d i n gr e s o l v i n ga p p r o a c h e sa r e :( 1 ) a c c o r d i n gt oc o n t e x ta n d s i t u a t i o ni n f o r m a t i o n ,p s e u d ou n i f i c a t i o ni sa d o p t e dt op r o c e s se l l i p s e s ( 2 ) h i s t o r yl i s t s i n t e g r a t e dw i t hs y n t a c t i ca n ds e m a n t i cr u l e sa r eu s e dt od e a lw i t ha n a p h o m ( 3 ) n e g a t i o n i sd i v i d e di n t ot w ok i n d s s od i f f e r e n ta p p r o a c h e sa r eu s e dt op r o c e s st h e mr e s p e c t i v e l y a ss i t u a t i o n ,c o n t e x ta n dg e n e r a lk n o w l e d g ea r ec o n c e r n e d ,t h e s ea p p r o a c h e ss h o w s a t i s 明n gp e r f o r m a n c e s t h ep r e s e n t e dl a n g i l a g ea n a l y s i sm e t h o di st e s t e dt h o r o u g h l ya c c o r d i n gt om u l t i p l e c r i t e r i a t h er e s u l ti l l u s t r a t e si t s a c c u r a c y , e f f i c i e n c ya n dc o n v e n i e n c ei nd o m a i n - s w i t c h i n g b a s e do nt h et e s tr e s u l t ,w eg i v eo u r f u t u r er e s e a r c he m p h a s e s t h ep r e s e n t e dm e t h o dh a sb e e nu s e di nt h ek e yp r o j e c tf u n d e db ys h a n g h a i m u n i c i p a ls c i e n c ea n dt e c h n o l o g yc o m m i t t e e ( s m s t o k e yw o r d s :n a t u r a ll a n g l l a g ep r o c e s s i n g ,s p o k e nd i a l o g u e ,p a r t i a lp a r s i n g ,s e m a n t i c a n a l y s i s ,u n i f i c a t i o n 上海交通大学上海父逋大宇 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 印孑, 日期:1 一) 年- 2 月i 斗日 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密留,在二五年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上方框内打“”) 学位论文作者签名5 寸导, 舯教师繇侈 日期:协年1 月( t 日日期:抄弓年2 月钾日 汉语口语对话系统的语言分析 第一章概述 自然语言处理已历时几十年了,热潮莫过于机器翻译。随着各国政府和各大 公司对机器翻译资助的减少,自然语言处理逐渐进入平静、现实的务实阶段。研 究的出发点不再是完全的理解和翻译,而是让计算机帮助人来做力所能及的工作。 因此,人们将近期目标定在文本的自动分类和摘要、信息的自动检索和过滤以及 限定领域的人机对话系统等方面。本文介绍汉语口语对话系统语言分析技术的研 究。 本章首先介绍人机对话系统的概况,然后介绍人机对话系统的语言分析方法, 在此基础上,提出本文的研究目标,并简要叙述本文所做的工作。 1 1 人机对话系统概述 人机对话系统( h u m a n m a c h i n ed i a l o g u es y s t e m ) 是自然语言处理的一个重 要研究领域。根据系统功能的不同,可以将人机对话系统分为通用人机对话系统 和限定领域的人机对话系统。通用人机对话系统其实就是自然语言理解系统 ( n a t u r el a n g u a g eu n d e r s t a n d i n gs y s t e m ) 。这样的系统可以模拟人的语言交际过 程,处理和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言 通信,代替人的部分脑力劳动。限定领域的人机对话系统则主要指就某一具体应 用领域,用自然语言提供信息服务的系统,如基于自然语言的信息查询系统等。 本文讨论的目标是限定领域的汉语口语人机对话系统。 限定领域的人机对话系统有着广泛的应用需求,同时,也是一个有望在近期 内取得较大进展的研究领域。这是因为限定应用领域以后,通用人机对话系统中 很多短期内难以解决的问题就有可能不存在了,或者可以用简单的方法解决。此 外,实现系统所需工作量较之通用人机对话系统也大大减少【1 】。因此,这方面的 研究得到了各国政府和各大公司的大力资助。美国政府在1 9 8 9 启动了著名的 a p r a - a t i s ( a i r t r a v e li n f o r m a t i o ns e r v i c e ) 项目,在该项目的资助下,涌现出了一 批著名的人机对话系统,如c m u 的a t i s 系统。欧洲的e s p 刚t 在1 9 8 9 年资助了 著名的s u n d i a l ( s p e e c hu n d e r s t a n d i n gi nd i a l o g u e ) 项目,到1 9 9 3 年该项目获 得了圆满成功,开发出了应用在飞机和铁路时刻查询领域的基于语音的多语种人 机对话系统。随后e s p r i t 又推出新的研究计划m a s k m u l t i m o d a l m u l t i m e d i a a u t o m a t e ds e r v i c ek i o s k ) 。国外和国内的许多著名学府和研究机构也都在限定领 域的人机对话系统方面投入了相当的精力,比如m i t 的s l s 实验室、c m u 的i s l 汉语口语对话系统的语言分析 实验室、l u c e n t b e l l 实验室、日本的a t r 实验室、德国的e r l a n g e n - n u r e m b e r g 大学、o g i 的c s l u 中心和p h i l i p s 公司、我国的清华大学 2 1 、上海交通大学【3 1 等。 经过几十年的研究,人机对话系统取得了很大的进展,开发出了许多有名的 系统。根据输入的不同,可以将人机对话系统分为基于文本的人机对话系统和基 于语音的人机对话系统。前者的输入是自然语言文本,输出也是自然语言文本。 后者的输入是口语语音,输出是合成的语音或者文本。根据系统在对话中的主动 程度,可以将人机对话系统分为机器主导的系统( m a c h i n e d i r e c t e ds y s t e m ) 、用 户主导的系统( m i x e d i n i t i a t i v es y s t e m ) 和混合主导的系统( h y b r i ds y s t e m ) 。机 器主导的系统主动询问用户一系列问题,从用户的简短回答中得到所需信息,从 而保证较高正确率。而在用户主导的系统中,系统尽可能的将发言的主动权留给 用户,这就要求系统能够处理用户输入的复杂语句。采用混合主导方法的系统尽 可能的去“理解”用户的输入,当系统实在无法正确处理用户的输入语句时,代 之以主动询问。从实用的角度看,混合主导的方法既保留了用户主导方法的优点, 又可以获得较高的正确率,是一个不错的选择,当然这也是当前大多数系统所采 用的方法。 1 2 已有系统简介 人机对话系统的研究历史,可以追溯到二十世纪六十年代。本节将按照时间 顺序对国内外比较著名的人机对话系统作一个简单的介绍。 国外对人机对话系统的研究开始于二十世纪六十年代。早期的人机对话系统 功能比较简单,计算机只能应答有限的、格式固定的输入语句。语言分析方法也 比较简单,主要是关键字方法和模板匹配方法。这个时期具有代表性的系统有 s a d - - s a m 、s n j e d n t 等系统。s a d - - s a m 系统是美国卡内基技术学院林德 赛( r l m d s a y ) 在1 9 6 3 年设计的。该系统是关于亲属关系的人机对话系统,用 户用英语询问亲属关系方面的问题,系统处理用户的输入并用英语给出问题的答 案。s t u d e n t 系统是美国麻省理工学院波布洛( d b o b r o w ) 在1 9 6 8 年设计的。 这个系统把高中代数应用题中的英语句子归纳为一些基本模式,由计算机来理解 这些应用题中的英语句子,列出方程求解,并给出答案。 七十年代初,人机对话系统的研究取得了很大的进展。输入语句的格式不再 有限制。语言分析技术也得到了很大的提高,不再是简单的关键字匹配或模板匹 配,而是采用了一定的句法分析和语义分析技术,取得了较好的效果。这个时期 比较有名的系统有l u n a r 、s h r d l u 等系统。l u n a r 系统是伍兹( w w j o d s ) 于1 9 7 2 年设计的一个用于情报检索的人机对话系统。这个系统采用扩充转移网 络( a t n ) 进行一定的句法分析,采用形式提问语言( f o r m a lq u e r yl a l l g u a g e ) 表 2 汉语口语对话系统的语言分析概述 示所提问题的语义。最后根据形式提问语言所表示的语义执行数据库操作,并给 出用户所提问题的答案。s h r d l u 系统是维诺格拉德( t w i n o g r a d ) 于1 9 7 2 年 在美国麻省理工学院建立的一个用自然语言指挥机器人动作的系统。该系统把句 法分析、语义分析、逻辑推理结合起来,大大地增强了系统在语言分析方面的功 能。该系统对话的对象是一个具有简单的“手”和“眼”的玩具机器人,它可以 操作放在桌子上的具有不同颜色、尺寸和形状的玩具积木,如立方体、棱锥体、 盒子等,机器人能够根据操作人员的命令把这些积木捡起来,移动它们去搭成新 的积木结构,在人机对话过程中,操作人员能获得他发给机器人的各种视觉反馈, 实时地观察机器人理解语言、执行命令的情况。在电视屏幕上还可以显示出这个 机器人的模拟形象以及它同一个真正的活人在电传机上自由地用英语对话的生 动情景。 到了九十年代,人机对话系统的研究得到了更多的关注和支持,传统的基于 文本的人机对话系统取得了更大的进展,同时,语音识别技术开始成熟,基于语 音的人机对话系统也得到了很大的发展,相继出现了一批比较有名的系统。语言 分析技术也得到了进一步的提高,传统的基于规则的方法不断改进,基于概率的 语言分析方法也被越来越多的系统所采用,并取得了很好的效果。这个时期有名 的系统有很多,如m i t 的s l s 小组( s p o k e nl a n g u a g es y s t e mg r o u p ) 开发的 j u p i t e r 天气查询系统【4 】;c m u 的i s l 实验室开发的c m ua t i s 系统法国 国立科学研究中心l i m s i 实验室研制的a r i s e 铁路信息系统【6 l 等。 和国外相比,国内关于人机对话系统的研究起步较晚。二十世纪七十年代后 期才开始,八十年代初期取得了成果,建立了几个实验模型。1 9 8 0 年心理研究所 李家治、陈家明建立了“机器理解汉语实验i :c l u s ”,该系统以动物常识为主 题,存储单词7 0 余条,句型2 0 多个。1 9 8 1 年,中国社科院语言所范继淹、徐志 敏设计开发了“k i d 8 0 汉语人机对话系统”,该系统以中国文学作品常识为主题, 存储单词2 5 0 余条,句型3 0 多个。1 9 8 4 年,该所又设计了“t k - - 8 4 汉语铁路客 运问答系统”【”。以铁路客运咨询为主题,存储单词2 0 0 余条,句型3 0 多个。内 容包括北京至东北某几条铁路线客运快车的到站、中途站、开点、终点、车次、 车种等。清华大学2 0 0 0 年开发的校园导航系统e a s y n a v t 引,是以提供清华校园内 地点信息查询服务为背景的口语对话系统。系统要求用户询问清华校园内与地点 有关的问题,但不限定询问的句型。用户可以询问特定地点的信息,查询满足要 求的地点,询问去特定地点的走法,或进行其它校园信息的查询。该系统在p c 上运行,提供文本输入,文本输出和地图标示。 随着汉语语音识别的发展,汉语语音对话系统近年来也有出现。如i b m 的电 话转接系统,t o m c o m 公司的股票查询系统、飞机时刻查询等。 汉语口语对话系统的语言分析概述 1 3 语言分析方法概述 人机对话系统的语言处理包括多个方面,如:语言分析、语言生成、连续语 音识别、语音合成等。其中语言分析是很重要的一个方面,也是所有人机对话系 统所必须具备的功能。语言分析就是从用户输入的句子中提取句子语义特征的过 程。本文主要讨论限定领域汉语口语人机对话系统的语言分析。 语言分析模块是人机对话系统的重要模块。语言分析的准确性是人机对话系 统性能的重要评价指标。在人机对话系统中,常见的语言分析方法可以归纳为以 下几类: ( 1 ) 基于关键字的语言分析方法。这是最早的人机对话系统如s a d - - s a m 系 统所采用的方法。对话信息的抽取主要是基于关键字,基本不用语法、语 义等方面的知识,因此语言分析的准确性较差。现在,单纯基于关键字的 方法已基本不用。 ( 2 ) 基于模板的语言分析方法。采用该方法的系统根据用户可能输入的语句归 纳出一系列模板,每个模板都对应一定的确定语义。系统接受到用户输入 的句子后,用预设的模板与句子匹配,一旦匹配成功,则得出句子的语义。 如果已存在的模板不能与用户输入相匹配,则分析失败。该方法在用户“配 合”的情况下可以取得很好的效果,但其缺点也是很明显的:如果想提高 系统的语言分析的正确率,系统必须提供大量的模板,这需要极大的人力。 另外,系统的容错性和灵活性也不是很好。 ( 3 ) 基于语法依存关系的语言分析方法。语法依存关系是组成句子的各个成分 之间存在的语法关系。采用该方法的系统首先分析句子的语法结构,然后 将语法分析结果映射到语义上。l u n a r 系统就是采用这种方法的。与前 两种方法相比,该方法在语言分析的准确性和灵活性上都有较大的提高。 但自然语言的句法分析本身就有很大的困难,另外,语法到语义的对应也 有不少问题需要进一步解决。 ( 4 ) 基于语义语法的语言分析方法。这是“t k - 8 4 汉语人机对话实验系统”首 先采用的一种语言分析方法。在语义语法中,词和语义成分构成语义短语, 如介词短语( p p ) “从 ”表示起点,动词短语( v e ) “到 ”表 示去处。中是语义成分,内容由用户自行定义。该方法将基于语义的特 殊词类引入语法,从而将语法、语义、选择性约束统一于一个框架之下, 取得了较好的效果。 ( 5 ) 基于概念依存的语言分析方法。这种方法主要是通过语义驱动分析器来实 现的。语义驱动分析最早是由耶鲁大学( e ) 的自然语言理解小组提出 4 汉语口语对话系统的语言分析概述 的。基本思想是某些词,主要是动词,具有带格的语义结构,而分析器的 主要任务就是辨识这些词并且将其填入相应的格中。a r i s e 系统就采用这 种语言分析方法。 ( 6 ) 基于统计的语言分析方法。这是二十世纪九十年代初出现的种新的语言 分析方法。采用该方法的系统有b b n h 岫【9 】、a t & t - c h r o n u s 1 0 】等系统。 这些系统一般用格框架( c a s ef r a m e ) 来表示句子的语义。系统首先给输入语 句中的词标注一定的语义标记。然后根据一阶隐马尔可夫模型( f i r s to r d e r h m m ) f 1 3 1 来求解句子的语义:带语义标记的词序列作为观察序列,语义 表达式作为状态,其中语义表达式可以很方便地对应到格框架中。状态转 移概率和输出概率根据已经标注好的语料库计算而得。该方法具有较好的 领域独立性,而且分析准确性也较高。但是必须有合适的已经标注好的语 料库作为支撑。这样的语料库在国内还不多见。 上述前五种方法是基于规则的语言分析方法,第六种方法则是基于统计的语言 分析方法。基于统计的语言分析方法实用性很强。但基于规则的方法可以细致刻 划语言内在结构的各个方面,如果能综合运用情景、上下文和常识获取语义特征, 在限定领域的情况下,分析的准确率将会显著提高。 1 4 本文所作工作 如前所说,经过几十年的研究,人机对话系统取得了很大的进展,出现了一 批比较有名的系统。这些系统在语料库、声学模型、语言模型和对话管理等方面 均有不同的侧重和设计思路。但总体来看,现有的成果与人们的期望和需求还有 一定的距离,特别是在语言分析的性能方面。由于自然语言本身的复杂性,现有 的许多系统在语言分析方面还没达到实用的地步。具体表现在: 1 语言分析的容错性较差,难以处理含有缺省、否定、指代等复杂语言现象 的句子; 2 语言分析方法与领域紧密“绑定”,当领域切换时,大部分的工作需要重 新做: 3 语言分析的效率较低,难以满足实时交互的要求。 进一步提高语言分析的性能,从而使人机对话系统更加实用。这是当前人机 对话系统的重要研究课题,也是本文的主要研究内容。 本文的总体目标是进一步提高汉语口语人机对话系统语言分析的性能,使得相 应的基于文本的汉语口语对话系统比较实用。着眼于实用而不追求完全的理解, 是本文的基本思路。具体来讲,本文根据汉语口语缺省多、插入语多、短句多和 语序灵活等语言特点,设计了一种以规则为主、结合概率信息的语言综合处理方 汉语口语对话系统的语言分析概述 法。在汉语分词和词性标注的基础上,基于合一文法利用图算法进行部分句法分 析,最后结合上下文、情景、常识和概率信息获取语义特征。该方法有效提高了 汉语口语对话系统语言分析的准确性,同时考虑了效率和领域切换等实用方面的 问题。在此基础上,实现了上海市交通信息查询系统一一s h j t q ,同时完成了相 关的测试评价工作,从而确保了系统的正确性、有效性。 本文的其余几章是这样组织的:第二章介绍上海市交通信息查询系统的功能和 结构以及该系统语言分析方法的总体框架。三到五章具体讨论本系统所用的语言 分析方法。其中第三章讨论汉语分词和词性标注,第四章讨论句法分析和特征、 句法规则预编译,第五章讨论语义分析,包括对缺省、指代、否定等复杂语言现 象的处理方法。第六章介绍测试结果以及下一步的工作。 6 汉语口语对话系统的语言分析 s h j t q 系统及其语言分析 第二章s h j t q 系统及其语言分析 本章对我们实现的汉语口语对话系统一一上海市交通信息查询系统( s h j t q ) 和它的语言分析方法做总体的介绍。其中第一节介绍了s h j t q 系统的功能和结 构:第二节首先考察了汉语的特点和汉语i = 1 语的特点,然后讨论了影响句子语义 的因素,在此基础上,给出了语言分析方法的总体框架。 2 1s h j t o 系统的功能和结构 本节从功能和结构方面介绍我们实现的汉语口语对话系统一一上海市交通信 息查询系统( s h j t q ) 。这是进一步介绍本系统语言分析方法的基础。 上海市交通信息查询系统( s h j t q ) 是基于文本的汉语口语对话系统。可以用汉 语口语查询上海市任意两个地点在不同交通方 式( 步行、自行车、公交车) 下的交通路线。 用户以文本的形式用非常口语化的汉语语句向 系统提出查询请求,系统处理用户的输入,并 根据分析结果同用户对话,从对话中得到用户 出发地、目的地和交通方式等关键信息,最后 根据这些信息到相关的专业网站 ( w w w c h i a n q u e s t c o r n ) 上进行查询,查询结果 以文本形式返回给用户。系统的处理流程如图 2 1 所示。 以下是用户和系统交互的一个实例:( 其中 u 表示用户的输入,s 表示系统的输出) s :本系统是上海市交通信息查询系统,请给 出您的问题。 u :我要到华亭路1 9 5 4 号去,该怎么走? s :您从哪儿出发? u :人民广场。 s :从人民广场到华亭路1 9 5 4 号,您选择什么 交通工具? u :啊? 错了,我从华山路1 9 5 4 号出发。 s :您准备乘公交车吗? 7 图2 - 1s h j t q 的基本流程 f i 9 2 - 1f l o wc h a r to f s h j t q 汉语口语对话系统的语言分析 s h j t q 系统及其语言分析 u :是的,我乘公交车。 s :从人民广场到华山路1 9 5 4 号的最佳路线是:从旅游7 下行线( 上海博物馆站) 上车, 到( 交通大学站) 下车。 整个系统由语言分析、对话管理、上网查询、答句生成共四大模块组成。运 行时依赖的数据库包括通用词表及领域词表、通用词及领域词的复杂特征库、句 法规则库、答句模板库。系统的整体结构如图2 2 所示。 图2 - 2s h j t q 系统总体框架结构图 f i g2 - 2m o d u l ed i a g r a mo f s h j t q 黪 h n _ m t 下面我们对图2 2 中各主要模块的设计和功能作简要介绍。以便于后面进一 步讨论该系统的语言分析方法。 语言分析模块 语言分析模块是系统的核心模块。语言分析模块的输入是用户的查询语句, 输出是查询语句语义特征的格式化表示。本模块的主要功能就是获取输入语句的 语义特征。 输入语句语义特征的获取方法有很多。本系统采用以规则为主、结合概率信 息的语言分析方法来获取语义特征:首先对输入语句进行汉语分词和词性标注, 然后进行部分句法分析,最后根据上下文、情景、领域常识和概率信息处理缺省、 否定、指代并提取语义特征。由于该方法在获取句子语义特征时考虑了上下文、 情景、领域常识等因素,所以准确率较高,在实际应用中取得了很好的效果。本 文后面对此方法有详尽的介绍。 对话管理模块 对话管理模块控制系统与用户之间的交互,确定交互过程中的每一步系统将 采取何种操作。具体有如下几项功能:从语言分析模块中接收关键信息,并将其 填入到系统的查询框架中去;评估关键信息的可信度,如有必要将提示用户进行 汉语口语对话系统的语言分析 $ h j t q 系统及其语言分析 澄清;发送信息给上网查询模块,便于其上网查询相应的路径信息:发送信息给 自然语言生成模块,便于语言生成模块生成相应回答。 网络查询模块 当系统收集到一次查询所需的所有信息后,网络查询模块向特定的网站 ( w w w c h i n a q u e s t c o r n ) 请求特定的页面,并在返回的页面中查找用户所需的路径信 息。查找结果将被输入到答句生成模块中。 由于所请求网页的格式固定,所以, 关键字来查找。当网页格式发生变化时, 答句生成模块 在网页中查找路径信息时,主要是根据 需对该模块进行相应的调整。 答旬生成模块根据对话管理模块和上网查询模块所提供的信息,生成相应的 自然语言文本。该文本作为系统的输出,既可能是用户查询结果,也可能是指示 用户给出进一步信息的语句。 答句生成的方法有很多。由于本课题的研究重点在自然语言的分析上,所以, 本系统采用比较简单的答句生成方法:基于模板的方法。我们对每个类型的问题 都给出多个答句模板,答句生成时,根据问题类型随机选择一个模板,然后根据 该模板生成相应的答旬。 2 2 语言分析方法的设计 在人机对话系统中,语言分析的过程就是从用户输入语句中提取所需语义特 征的过程i i 。因此,语言分析可以看作是一个由句子到语义的映射。本系统处理 的对象是汉语口语对话系统的输入语句,因此,在具体讨论语言分析方法的设计 之前,有必要考察汉语的特点和汉语口语的特点。此外,搞清楚影响句子语义的 因素,也是设计语言分析方法的前提。 本节首先考察汉语的特点及汉语口语的特点,然后讨论影响句子语义的因素, 在此基础上,给出s h j t q 系统所用语言分析方法的总体框架。 2 2 1 汉语中与语言分析相关的特点 在人机对话系统中,语言分析模块的处理对象是自然语言语句。在我们的系 统中,处理的主要是汉语句子。不同的语言有其共同的性质,也有很大的差异。 因此在设计本系统的语言分析模块时,必须充分考虑汉语的特性。 我们认为:汉语的认知理论、模型不同于印欧语。印欧语在词汇、语法、语 用、语境诸层面上有明显的界面区别。相互之间又有对应关系。这种情况可称为 明显的分层性,简称为“面结构”。但是汉语则不同,各层面之阅很难划分经纬, 9 汉语口语对话系统的语言分析 s h j t q 系统及其语言分析 词法与句法之间没有明显的界限。句法、语义、语用这几个层面均与词的“音、 义”甚至“形”有密切的关系。词汇义贯穿各个层面,我们称为“体结构” 1 2 e 鉴于汉语的这种结构方式,理想的汉语分析系统应该具有交叉式的结构 ( i n t e r l e a v i n gs t r u c t u r e ) 。不过,由于交叉式系统的时间复杂度很高,难以满足人 机对话系统实时交互的需要,此外,这方面的理论还有待于进一步完善,因此, 交叉式系统现在还难以实现。但充分重视汉语“体结构”的特点,应是设计汉语 语言分析方法的一个基本原则。 另外,与印欧语相比,汉语是一种内涵语言,注重意义的组合,而且用简明 的形式表示这个组合意义,因此,缺省是普遍存在的【1 3 j ,不但可以缺省主、宾语, 而且可以缺省谓语动词,这也是设计汉语语言分析方法时应该注意的一个问题。 2 2 2 汉语口语特点 本系统语言分析方法处理的语句是汉语口语对话系统的输入语句。用户输入 的查询语句并不是正规的书面语,而是口语。与书面语相比,汉语口语具有如下 特州1 4 】: 1 缺省、省略现象更为普遍。与印欧语相比,汉语本身就是一种“意合为主” 的语言,省略、缺省现象比较多。在特定场景的口语对话中,信息间的连 接依赖语境、逻辑,省略、缺省现象就更为普遍,反映在语言上就是大量 出现无主句、独词句等。如:系统提问:“您要去哪? ”,绝大部分人输入: “交大”。输入“我要去交大”或者“去交大”的人很少。缺省、省略现 象的大量出现,给句法分析带来了极大的困难。 2 短句多。由于受大脑短时记忆能力的限制,说话人与听话人双方都不可能 接受那种带很多修饰语的、从句套从句的长句子。因此,口语句子的长度 小于书面语的。表现在本系统中,就是像“我在交大,要去复旦,乘公交, 该怎么走? ”这样的句子出现频率大大高于“我在交大,乘公交去复旦该 怎么走? ”这样的句予。短旬多的特点对句法分析和语义获取提出了更高 的要求。 3 插入成分多。用户查询语句中常常会插入一些语气词、习惯用语和不该出 现的标点。如:“我要去那个交大。”这样的句子。 4 语序更加灵活。汉语语序本来就比印欧语灵活。在我们系统中,这一点表 现的更为明显。比如:下面几个句子,都是出现频率很高的查询语句: “交大乘公交车到复旦怎么走? ” “乘公交车交大到复旦怎么走? ” “交大到复旦乘公交车怎么走? ” 1 0 汉语口语对话系统的语言分析s h j t q 系统及其语言分析 “怎么走? 交大乘公交车到复旦” 当前研究比较多的是关于书面语的语言分析方法,口语的分析方法研究的还 比较少。由于口语的上述特点,使得关于书面语的分析方法很难完全移植到口语 对话系统中。这无疑增加了本系统语言分析的难度。借鉴书面语的分析方法,并 根据1 2 1 语特点改造这些方法,是设计本系统语言分析方法的又一基本原则。 2 2 3 影响句子语义的因素 自然语言处理的一个难点就是句子与语义之间并不存在一一对应。具体表现 在同一个句子可以表达不同的语义,不同的句子可以表达相同的语义。本节我们 具体考察影响句子语义的因素。 句子的语义与组成句子的词有关 甸子是词的线性序列。组成句子的词的意义对句子的语义有很大的影响。 基于关键词的语言分析方法就是根据组成句子的词的意义来获取句子语义 的。由于该方法没有考虑到影响句子语义的别的因素,因此,准确率不是很 高。 句子的语义与句子的结构有关 句子的结构影响句子的语义,这也是所有语言学家的共识。可以从两个方 面来验证这一点:( 1 ) 两个句子含有相同的词,但词的排列顺序不同,则意 义迥然不同。如;“我打他一拳”和“他打我一拳”。这两个句子由相同的词 构成。但意义不同。( 2 ) 同一个句子,如果将其分析为不同的结构,则其语 义也不相同。一个比较有名的例子就是“咬死猎人的狗”。将其分析为定中结 构;( 咬死猎人的) ( 狗) 和动宾结构:( 咬死) ( 猎人的狗) ,其意义完全不同 “埘。基于模板的语言分析方法和基于语法依存关系的语言分析方法在分析句 子语义时,考虑了组成句子的词和句子的结构对句子语义的影响。但影响句 子语义的因素还有很多,组成句子的词和句子的结构并不能完全确定句子的 语义。 句子的语义与句子所处上下文有关 同一个句子在不同的上下文中,意义并不相同。以本系统在测试时遇到的 句子为例,用户输入“上海交大”。单纯从句子本身出发,并不能得到有意义 的结果,只有综合考察句子所处的上下文,我们才能明白用户的意图。比如, 如果上一句为系统问句“您从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论