




已阅读5页,还剩75页未读, 继续免费阅读
(应用数学专业论文)特定领域问答系统中通用语义理解框架的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河南大学硕士研究生学位论文第1 页 摘要 在信息爆炸性增长的今天,以关键字或关键字的简单逻辑组合为基础的信 息检索方式已经越来越不能满足人们对信息获取的要求,这就使得问答系统这 种综合了自然语言处理技术,更加人性化、更加高效的信息检索技术有了更大 的发展空间。近些年来,中文信息处理技术的进步也极大地推动了中文问答系 统的发展。越来越多的国内外相关方向的研究人员开始将更多的精力转向中文 自然语言问答系统的研究中。 然而,由于中文自然语言的复杂性和处理技术的局限性,现阶段中文问答 系统的应用还是以特定领域问答系统为主。近些年也出现了不少具有实用价值 的中文特定镊域问答系统。但总体来看,大多数的阊答系统还存在着语义理解 效果差,不能实现领域移植等问题。这严重阻碍了问答技术的发展和问答系统 的应用。就此,本文针对此类问题做了深入的分析和研究,其中主要包括如下 工作。 【1 】提出了一个可用于特定领域问答系统开发的语义理解框架的设计方案 论文在研究了问答系统的基本理论和多个领域知识的基础上,提出了一个 用于特定领域问答系统的语义分析、理解、及生成的语义理解框架。其中,详 细描述了语义理解框架中领域知识的表示方法、问句模型的类别区分、语义理 解框架的结构整体模式及工作流程。 2 】给出了该语义理解框架的具体实现技术和核心算法 论文针对语义理解框架的设计方案,从问答系统各实现环节上,提供了具 体、可行韵实现技术和核心算法,以供系统开发对应用, 3 】分析了该语义理解框架的通用性 论文分析了该语义理解框架在问答系统的设计实现中的定位,还就领域知 识的描述和句法、语义规则的独立性等方面进行了可移植性分析。 【4 】介绍了一个语义理解框架应用实例的设计过程 论文介绍了一个语义理解框架的应用实例基于结构化知识库的列车基 本信息自然语言问答系统。论文从领域知识的提取到系统结构的设计进行了详 细地分绍,并对该实例进得了泓试分析。通过该实例的应用也进一步验证了本 文中提出的语义理解框架的通用性和实用性。 关键词:自然语言理解;中文信息处理;问答系统;特定领域;语义理解 第1 i 页河南大学硕士研究生学位论文 a b s t r a c t t o d a y ,w i t ht h ei n f o r m a t i o ne x p l o s i v eg r o w t h ,t h ei n f o r m a t i o n r e t r i e v a l m e t h o db a s e do nt h ek e y w o r do rt h es i m p l el o g i c c o m b i n a t i o no ft h ek e y w o r d sh a s b e e ni n c r e a s i n g l yu n a b l et om e e tt h ep e o p l e sn e e do fi n f o r m a t i o ng e t t i n g t h i s m a k e sq u e s t i o na n s w e r i n gs y s t e m ,w h i c ha sam o r eh u m a n i z e da n dm o r e e f f i c i e n ti n f o r m a t i o nr e t r i e v a lt e c h n o l o g yi n t e g r a t e dt h en a t u r a ll a n g u a g ep r o c e s s i n g t e c h n o l o g y , h a s a g r e a t e rs p a c e f o rd e v e l o p m e n t i nr e c e n ty e a r s ,c h i n e s e i n f o r m a t i o np r o c e s s i n gt e c h n o l o g ya d v a n c e sh a v eg r e a t l ya c c e l e r a t e dt h ec h i n e s e q u e s t i o na n s w e r i n gs y s t e md e v e l o p m e n t m o r ea n dm o r ed o m e s t i ca n df o r e i g n r e s e a r c h e r so ft h i sd i r e c t i o nb e g a nt og i v e nm o r ee n e r g yt o w a r dt h ec h i n e s en a t u r a l l a n g u a g eq u e s t i o na n s w e r i n gs y s t e m , h o w e v e r , a st h ec h i n e s en a t u r a ll a n g u a g ep r o c e s s i n gc o m p l e x i t ya n dt e c h n i c a l l i m i t a t i o n s ,t h ec h i n e s eq u e s t i o na n s w e r i n gs y s t e ma tn o ws t a g ei sm a i n l yb a s e d o ns p e c i f i cd o m a i n i nr e c e n ty e a r st h e r ea r eal o to ft h ec h i n e s es p e c i f i cd o m a i n q u e s t i o na n s w e r i n gs y s t e mw h i c hh a sp r a c t i c a lv a l u e b u to v e r a l l ,m o s to ft h e q u e s t i o na n s w e r i n gs y s t e m s t i l le x i s tb a ds e m a n t i cc o m p r e h e n s i o n ,h a r d l y t r a n s p l a n t a t i o n ,a n ds oo np r o b l e m t h i sh a ss e r i o u s l yh a m p e r e dt h ed e v e l o p m e n t a n dt h ea p p l i c a t i o no ft h ec h i n e s eq u e s t i o na n s w e r i n gs y s t e m o nt h i s ,t h i sp a p e r d oa ni n - d e p t ha n a l y s i sa n dr e s e a r c h ,w h i c hm a i n l yi n c l u d et h ef o l l o w i n gw o r k 【1 】p r o p o s ea s e m a n t i cu n d e r s t a n d i n gf r a m ew h i c hi sa v a i l a b l ef o rt h ed e s i g no f t h e c h i n e s es p e c i f i cd o m a i nq u e s t i o na n s w e r i n gs y s t e m b a s e do nt h er e s e a r c ho nq u e s t i o na n s w e r i n gs y s t e m sb a s i ct h e o r ya n d m a n yd o m a i n sk n o w l e d g es t r u c t u r e ,t h i sp a p e r sp r o p o s e sas e m a n t i cu n d e r s t a n d i n g 河南大学硕士研究生学位论文第1 n 页 f r a m e ,w h i c hi su s e df o rc h i n e s es p e c i f i cd o m a i nq u e s t i o na n s w e r i n gs y s t e m s s e m a n t i ca n a l y s i s ,s e m a n t i cc o m p r e h e n s i o na n ds e m a n t i cg e n e r a t i o n t h i sp a p e r d e s c r i b e si nd e t a i lt h ed o m a i nk n o w l e d g er e p r e s e n t a t i o nm e t h o da n dt h ed i s t i n c t i o n o fq u e r ym o d e lo ft h es e m a n t i cu n d e r s t a n d i n gf r a m e ,a n di t so v e r a l ls t r u c t u r a l m o d e la n dw o r k f l o w 2 g i v e nt h es p e c i f i ci m p l e m e n t a t i o nt e c h n o l o g ya n dt h ec o r ea l g o r i t h mf o rt h e a p p l i c a t i o no f t h es e m a n t i cu n d e r s t a n r i n gf r a m e a g a i n s tt h ed e s i g ns c h e m eo ft h es e m a n t i cu n d e r s t a n d i n gf r a m e ,f r o me a c h i m p l e m e n t a t i o nl i n ko f t h eq u e s t i o na n s w e r i n gs y s t e m ,t h i sp a p e rp r o v i d e ss p e c i f i c , p r a c t i c a lt e c h n o l o g ya n dt h e c o r e a l g o r i t h m f o rt h e a p p l i c a t i o n o fs y s t e m s d e v e l o p m e n t 【3 a n a l y s i so f t h es e m a n t i cu n d e r s t a n d i n gf r a m e sg e n e r a l i t y t h i sp a p e ra n a l y z e st h el e v e lp o s i t i o n i n go ft h es e m a n t i cu n d e r s t a n d i n gf r a m e i nt h ei m p l e m e n t a t i o no f t h es p e c i f i cd o m a i nq u e s t i o na n s w e r i n gs y s t e m ,a n dg i v e s at r a n s p l a n t a t i o na n a i y s i _ sf r o mt h e d e s c r i p t i o n o ft h ed o m a i nk n o w l e d g ea n d s y n t a c t i ca n ds e m a n t i cr u l e so ft h ei n d e p e n d e n c e 【4 】i n t r o d u c e dt h ed e s i g n a n di m p l e m e n t a t i o np r o c e s so fai n s t a n c ew h i c h a p p l i c a t i o nt h es e m a n t i cu n d e r s t a n d i n gf r a m e t h i sp a p e ri n t r o d u c e sai n s t a n c ew h i c ha p p l i c a t i o nt h es e m a n t i cu n d e r s t a n d i n g f r a m e - - t h et r a i nb a s i ci n f o r m a t i o nc h i n e s en a t u r a ll a n g u a g eq u e s t i o na n s w e r i n g s y s t e mb a s e do ns t r u c t u r e dk n o w l e d g eb a s e ,t h i sp a p e r sg i v e sd e t a i l e dp r o c e s s d e s c r i p t i o nf r o mt h ee x t r a c t i o no fd o m a i n sk n o w l e d g et ot h es y s t e ma r c h i t e c t u r e d e s i g n ,a n dt e s t i n ga n a l y s i s ,b yt h ee x a m p l e ,t h eg e n e r a l i t ya n dp r a c t i c a l i t yo f t h i s s e m a n t i cu n d e r s t a n d i n gf r a m ei sf u r t h e rv a l i d a t e d 第页河南大学硕士研究生学位论文 k e y w o r d :n a t u r a ll a n g u a g eu n d e r s t a n d i n g ;c h i n e s ei n f o r m a t i o np r o c e s s i n g ; q u e s t i o na n s w e r i n gs y s t e m ;s p e c i f i cd o m a i n ;s e m a n t i cu n d e r s t a n d i n g 关于学位论文独立完成和内容创新的声明 本人向河南大学提出硕士学位中请。本人郑重声明:所呈交的学住论文是 本人在导师的指导下独立完成的,对所研究的课题有新的见解。据我所知,除 文中特别加说明、标注和致谢的地方外,论文中不包括其他人已经发表或撰 写过的研充成果,也不包括其他人为获得任何教育、科研机构的学位或证书而 段保存、汇编学位论文( 纸质文本和电于文本) 。 ( 涉及保密内容酌学位论文在解密后适用本授枳书) 学住获得者( 学位论支作者) 鍪名:拙 2 0 门年s 冠t 8 b 学位论文指导教师釜名 河南大学硕士研究生学位论文第1 页 第1 章绪论 问答系统是自然语言理解专业的一个重要研究内容,也是未来信息检索技 术的一个发展方向。特定领域问答系统是问答系统在特定专业领域内的一种应 用,也是现阶段可行的一种信息检索方案。 1 1 课题研究背景 在信息爆炸性增长的今天,以关键字或关键字的简单逻辑组合为基础的信 息检索方式已经越来越不能满足人们对信息获取的要求。这就使锝问答系统这 种综合了自然语言处理技术,更加人性化、更加高效的信息检索技术有了更大 的发展空间。特别是近些年来,中文信息处理技术的进步也极大地推动了中文 问答系统的发展,越来越多地被国内外相关方向的研究人员开始将更多的精力 转向中文自然语言问答系统的研究中。 问答系统是允许用户以自然语言方式表述问题的一种信息检索方式。在信 息查询时,用户首先以自然语言问句向系统提出所要查询的问题,问答系统自 动地分析用户的自然语言闯旬,并从语义上理解用户的提问,获得用户真正的 查询意图,然后准确地从相关知识库中检索答案,最后将检索到的答案以与提 问相似的自然语言形式准确、快速地返回给用户。采用问答系统来进行检索信 息可以使用户以最自然的形式,获得真正有用、精确的信息。 根据问答系统的应用领域,问答系统可分为基于常见问题集的问答系统、 基于特定领域的问答系统和基于开放领域的问答系统三类l l 】。其中,基于常见 问题集的问答系统是一种基于匹配的问答方式,其系统知识库中保存一定数量 的闯题与答案对,当用户提问时,系统将用户闯旬与系统知识库中的问句相匹 配,若相同,则将对应的答案返回,否则无法回答用户的提问;基于特定领域 的问答系统是基于知识库检索做出对用户的回答的,而不是问题与答案对的匹 配的,但该类系统的知识库中只拥有某一领域内的知识,只能回答用户关于该 领域的提问,对于超出领域范围的问题,由于系统不具备对应的知识,而不能 正确处理;基于开放领域的问答系统也是基于知识库检索来回答用户提问的, 第2 页河南大学硕士研究生学位论文 而且该类系统所能处理的用户提问不受领域限制,对于用户任何方面的问题, 系统都能够做出回答【2 】,这就要求系统不但要拥有大规模的知识库,而且还要 具备较高的排歧和推理能力。 由于目前自然语言处理技术的发展水平,加上中文处理复杂程度的限制, 在中文问答系统中还无法实现令人满意的开放领域问答,因此,基于特定领域 的问答系统还是现阶段的主要应用。基于上述考虑,本课题主要针对特定领域 问答系统的一些处理技术和方法进行研究和改进。 1 2 国内外研究概况及现状 1 2 1 国外研究状况 以英语为主的问答系统的研究起步较早,1 9 5 0 年阿兰图灵( a l a nt u r i n g ) 的 “图灵测试”思想就是问答系统研究的起始。上世纪6 0 年代开始英语自然语言问 答系统,尤其是基于特定领域的英语问答系统的研究已初具规模【3 】。 上世纪6 0 年代,自然语言理解技术还处于基于关键词匹配的初级阶段,问 答系统采用这类技术研制出许多相关的成果,最典型系统有:1 9 6 6 年,美国麻 省理工学院设计的e l i z a 聊天机器人,它能够模拟心理治疗医生去同患者谈 话,并几乎达到以假乱真的程度。e l i z a 系统事先在系统知识库中存放大量包 含某些关键词的语句模式,依据患者的回答不断产生随机应变的相关问话,使 对话显示出惊人的真实性。然而,基于关键词匹配的理解系统并非真正的自然 语言理解系统,其既不懂语法,又不懂语义,充其量只是一种近似匹配系统。 而近似匹配的最大弱点是容易导致错误的语句分析。 到上世纪7 0 年代,自然语言理解在句法语义分析技术方面取得重要进展, 对问句的理解也更加深入,典型系统有:l u n a r ”、s h r d l u 、m a r g i e 等受 限人机对话系统,这些系统把句法、语义、推理、上下文和背景知识灵活地结 合于一体,对英语的句法和语义做出了比较深入的分析,借助于扩充转移网络 a t n 等技术来处理句法问题,比基于关键词匹配技术的初级自然语言理解系统 有了长足的进步。这类系统能够在特定领域中代替人处理各项事务,也称专家 系统。 河南大学硕士研究生学位论文第3 页 进入上世纪8 0 年代,自然语言理解系统地研究进入了比较低迷的时期,但 依然有一大批学者在从事这方面的研究。其间,对于自然语言的指代、歧义、 省略等常见语言现象的处理受到关注,其间典型系统有:t e a m 、i n t e l l e c t 、 t e l i 等系统。可移植性问题也是这个时期自然语言理解的主要研究方向。9 0 年代之后,自然语言理解进入了实用化研究阶段,相当多的研究机构也推出了 相关的实用产品,如b b n 公司的p a r l a n c e ,微软的e n g l i s h q u e r y 等,它们 除了在系统可用性和可移植行方面有所发展外,在自然语一言理解系统评价、 领域知识的自动获取、系统的体系结构以及探索使用新的理论( 如h p s g 、人工 神经网络、统计与规则相结合) 等方面取得了新的进展。 近些年,随着各国研究机构对问答系统研究的不断深入,包括中文在内的 各语种问答系统的研究也逐渐在世界各地开展并深化。1 9 9 9 年开始,国际文本 检索会议( t e x tr e t r i e v a lc o n f e r e n c e ,简称t r e c ) 引入了问答系统评测专项 ( q u e s t i o na n s w e r i n gt r a c k ,简称q at r a c k ) 【5 】。每年参加该评测的问答系统 都代表着当年的最新研究技术和成果。 1 2 2 国内研究状况 国内,直到上世纪7 0 年代末期,中文问答系统的研究才开始逐渐受到关注。 北京大学、清华大学、中科院计算所、中科院自动化所、复旦大学【6 】、哈尔滨 工业大学等一些科研机构积极地投入到中文问答系统中的各种分析处理技术的 研究工作中7 1 。 1 9 8 0 年中国社会科学院语言研究所的范继淹、徐志敏设计实现的r j d 8 0 汉语人机对话系统,成为国内第一个汉语问答实验系统。该系统的处理技术以 转换生成语法和扩充转移网络语法为基础。 上世纪8 0 年代后,我国学者开始在研究国外开发成果的基础上,根据中文 的特点,推出了一些中文数据库查询系统,如:清华大学陈群秀和赵琦为该校 的汽车调度专家系统设计的中文专用接口c n l i e s 、清华大学的s p s 和z p s 系 统、华中理工大学的e - 一r 1 v 系统、上海工业大学的l i g c 系统等。近几年的 成果有,基于受限中文的数据库自然语言接口n l c q i ( 暨南大学,许龙飞等) , 基于e - r 模型和受限中文的关系数据库中文查询语言的计算模型r c h i q l ( = i l 京大学,崔宗军等) ,中文的数据库自然语言查询系统n c h i q l ( 中科院计算所, 第4 页河南大学硕士研究生学位论文 孟晓峰等) ,数据库中文查询接1 2 1 系统w t c d i s ( 二i l 京信息工程学院,李保利等) , 以及旅游信息查询系统l o d e s t a r ( 中科院自动化所) 【8 1 、清华大学校园导游 服务e a s y n a v 9 】等对话系统等。 这些实验系统采用的技术主要有:关键词匹配、句法模式匹配、语义语法、 扩充转移网络( a t n ) 等。主流技术主要有基于数据库的e 壤汉语理解模型、类 关系代数逻辑式的中间语言转换、以条件为中心的句型匹配以及多语句组合模 板等方法,将通用知识库与领域专用知识库相分离,利用学习模块获取领域专 用知识,以此达到一定程度的可移植性。 近年来,国内从事问答系统研究的机构在不断地增加,成果也不断涌现。 在近几届t r e c q a t r a c k 评测中,复旦大学【l o 】、中科院计算所【1 l 】都获得了良好 的成绩。目前,中文信息处理已不仅仅是我国国内的研究热点,包括美国、日 本的一些外国研究机构也逐渐加大了对中文处理技术的研究投入【l j 。 但是由于中文固有的复杂性 1 孙,中文处理技术、中文问答系统方面研究的 进展缓慢,现有的中文处理技术并不能b 很z 好地解决语义的分析理解问题,多数 系统只停留在原型系统的水平,未考虑向实用系统转化。 1 2 3 目前的研究水平及存在的主要问题 目前,就世界范围来看,自然语言问答系统中成果较为显著的有以下几类 系统: 1 基于特定领域和结构化知识库的问答系统 这类问答系统的应用一般局限于某一个专业领域范围内。这类系统的 运行,需要依靠一个针对该领域的专业知识库,系统能够利用知识库,应 用相对复杂的推理过程对用户的提问进行分析处理,查询结果,返回正确 率较高的答案给用户。 这类系统,技术实现起来较为容易,而且工作性能优良,但是其局限 性也是十分明显的,如果用户的提问超出了系统的知识库范围,系统性能 很快下降为零,适用范围比较狭窄,如果要更换应用领域,则需要重新构 建知识库和系统的推理结构,也就相当于重新构建整个系统。 2 开放领域的人机对话系统,即聊天机器人; 这类问答系统是使计算机模拟人类的对话方式,实现人一机的自由对话 河南大学硕士研究生学位论文第5 页 功能,一般来说,对话的内容可以是任意的没有特定领域的限制。这类对 话系统中,除了一般性的语言处理技术外,主要运用了一些对话技巧,对 于用户的实质性提问进行巧妙地回避,并不能回答用户的实际性问题【”】。 在英语的人机对话系统中,聊天机器人a l i c e 是一个较为成功的例子。1 3 基于w e b 的网络信息检索系统 这类系统是作为新一代网络搜索引擎而研制的,其实现技术中,除了 自然语言处理技术外,还有相当的自由文本处理工作来进行网页信息的分 析和抽取【1 4 】。目前,这类信息检索系统较为成熟的成果是网络问答式检索 系统a s l c l e e v e s 2 ,它能够接受英文自然语言提问,在返回答案时,先以自然 语言形式给出准确的答案描述,然后提供答案的来源及相关的网页链接, 以供用户详细查看。 其中,开放领域的人机对话系统和基于w e b 的网络信息检索系统的现有 成果都是以英文为主要语种的。就中文问答系统来说,由于隶属于孤立语的汉 语其本身固有的特性,使其分析理解方面还存在着较大的问题仍没有突破性地 进展。目前,中文问答系统的设计和实现还难以以较成熟的技术摆脱特定领域 的限制,多数具有实用价值的问答系统还是基于特定领域的,开放领域的中文 问答系统将是下一阶段的研究攻坚目标。 近年来,诸如n l c q i 、n c h i q l 、e a s y n a v 等的基于特定领域的中文问答 系统虽然能够在一定程度上应用,但其中仍存在两个主要问题限制着其应用扩 展。一是,问答系统对用户问句的表达方式有较严格的要求,形式稍有变化就 难以正确分析和作答,特别是对于句法结构较为复杂的问句难以理解,主要原 因是这类问答系统对语义理解不够深入,其本质上还处于简单的模式匹配处理 阶段;二是,每个系统的设计角度仅限于当前领域,对于相似功能的其它领域 的问答系统的开发没有太多的可通用性,不能够相互移植,使类似的系统设计 工作量加大。 1 3 本文研究的主要研究内容 基于以上原因,本次选题为特定领域问答系统中通用语义理解框架的设 1 h t t p :w w w p a n d o r a b o t s c o m p a n d o r a t a l k ? b o t i d = f 5 d 9 2 2 d 9 7 e 3 4 5 a a l 。h t t p :w w w a s l c o m 第6 页河南大学硕士研究生学位论文 计与实现,课题的重点就是要针对目前特定领域问答系统中语义理解程度较 低,可移植性较差的缺点,设计一个可从底层理解语义,并且能在各种不同领 域中方便移植的语义理解框架;在框架设计的基础上,完成该语义理解框架的 一个具体领域的应用实现。 本文主要研究的内容有; 1 语义理解框架的设计与实现 主要包括语义理解框架中领域内词汇的通用表示形式、词汇的联系模 型、句法结构的理解模型、歧义处理方案、以及对话管理方案等内容做出 详细具体的设计。应用该语义理解框架时,具体的问旬语义信息抽取、问 旬语义信息充实、答句语义生成等各种算法。 2 语义理解框架的通用性分析 从语义理解框架的应用定位,到语义理解框架中领域知识的可移植性、 句法语义规则的独立性等方面来分析评价语义理解框架的通用性。 1 4 本文的组织结构 本论文的主要结构分为6 章,具体安排如下: 第一章是绪论部分,主要介绍问答系统的概况、对于问答系统国内外的研 究现状,以及论文所要解决的主要问题和结构安排。 第二章是特定领域问答系统常用的理论基础,主要介绍特定领域问答系统 的基本处理模块,一般的知识表示方法,闯句理解中语义计算的要求及方法, 以及常用的问答处理的技术。 第三章是语义理解框架的设计,详细描述可以应用于特定领域问答系统中 的一个语义理解的框架的设计模型,其中包括了这种模型应用时对词汇语义的 描述方式,领域知识的表示形式,问句模型的表示框架,及语义理解框架的整 体结构模式和工作流程。 第四章是语义理解框架的实现技术与核心算法,主要对第三章设计的语义 理解框架的实现技术和部分核心算法进行详尽地阐述,其中包括通用语义理解 框架中的词汇语义处理、阎句类型的确定,上下文对话管理等实现技术和理解 中词法、句法、语义处理中的一些核心算法。 河南大学硕士研究生学位论文第7 页 第五章是语义理解框架的通用性分析,主要是对该语义理解框架应用于不 同领域问答系统的可行性分析,这里不仅给出了语义理解框架在问答系统中的 定位,还就领域知识的描述和句法、语义规则的可移植性进行了分析。 第六章是通用语义理解框架的一个应用实例,论文从领域知识的提取到系 统结构的设计进行了详细地介绍,并对该实例迸行了测试分析。通过该实例的 应用也进步验证了本文中提出的语义理解框架的通用性和实用性。 第8 页河南大学硕士研究生学位论文 第2 章特定领域问答系统的有关理论与技术 本章主要对构成中文特定领域问答系统的主要子系统的功能和特点,以及 构建特定领域问答系统时的有关方法和技术进行简要地阐述。 2 1特定领域问答系统的主要子系统 特定领域问答系统的主要功能是接收用户的自然语言问句,经过系统内部 的分析和处理,转换成特定领域知识库的检索语句,进行答案检索,然后根据 检索到的答案按照生成算法,得到与用户提问对应的自然语言答旬,返回给用 户【3 2 1 。 2 1 1 特定领域问答系统的基本体系结构 鼯固一圆堙一巍 琶 图2 - l问答系统的基本体系结构 河南大学硕士研究生学位论文第g 页 2 1 2 问句理解子系统 问旬理解子系统是问答系统的第一个处理步骤,也是决定系统性能的一个 关键子系统。它对用户提问的理解能力直接决定着问答系统是否能够准确、快 速地返回用户所需要的答案。若一个问答系统从最初的问句理解就歪曲了用户 的查询意图,则该系统必定无法正确地完成用户所需要的查询。 在闯句理解子系统中,一般需要经过词法分析、句法分析、语义理解等几 步工作来完成对问句的分析和理解,在每一个步骤的处理中还包括更详细的处 理过程,处理流程如图2 2 所示。 萋 谓j 耋分骺 向穗分析语义理鬈 | 栩 舟橱l ,l 苎耋辈! 兰 _ 矿 叫柏舟炎l 卜佳,馕鬟标剐l 鞠宠爱问调 _ i j 1 苎塞苎:竺! 苎l 舾组麓蕾妊叫1 棒建句法错i l蓬 山 囱 i 冀 l 击豫冕用词il 向塑匹鼍_ 山 商i l l 叠取姜t 螺i - 朗句理謦子系统 图2 - 2问旬理解子系统的功能细化框图 1 词法分析 由于中文属于孤立语,不能通过词语的形态变化表示其语法关系,而 且中文的词与词之间没有明显的分隔标记,所以在进行任何形式的中文信 息处理之前,都需要先对中文表述进行分词等词法分析,判断各个词语之 间的结构、在当前表述中的类别以及性质,并以此为依据进行后续的处理。 词法分析就是将用户连贯的自然语言问旬变成一个个义元组成的义元 串,这里的义元指的是能够在问旬中充当一定独立成分的意义组合,可以 是单字、词语、或者短语。在此基础上,依据规则定义、或经验推断确定 第l o 页;, - i n 大学硕士研究生学位论文 或基本确定每个义元的含义及其在问句中的作用。 一般,在这部分工作中,需要依赖一定的已有知识来完成,主要有: 用于中文分词的各类词典、分词中歧义处理的规则库、词性词类标注时的 规则库、词组短语识别时的规则库等。这些知识都是要事先以某种形式保 存于知识库中,在词法分析时按需要使用。 2 句法分析 句法分析就是在词法分析的基础上识别出各个义元之间的关系、在问 句中的作用,从而确定问旬的句法结构。为了保证问句理解的正常进行, 一般在句法分析中,还需要确认问句中是否包含查询所需要的所有信息。 这需要在基本确定问句的句法结构后,结合问旬的疑问点,辨别该问旬的 所属句型,并在此基础上进一步确定该句型中的所有必须成分是否都存在, 若有缺失必要成分,则需要通过推理、反问的形式获取所有必要信息。 构造出问句完整正确的句法树是句法分析的最主要目的。构造句法树 首要任务就是识别出问句的询问中心,然后围绕该询问中心利用句法规则 或统计规律,排除问句中可能存在的句法歧义,按照该问句所属句型将问 旬进行指代消解、同义词替换、缺失信息补充等一系列标准化处理后,在 确认问旬无缺失信息的基础上构造出完整的句法树,并以此为依据进行后 续的语义理解【1 。”。 在句法分析中,一般需要句法规则库、句型模板、同义词典等知识作 为依据来处理。 3 语义理解 在特定领域问答系统中,由于查询语言是受限的,因此一般会将问旬 按照各种模式进行分类1 8 ( t 9 1 ,对于每一类问句都有相对固定的信息检索模 式和答句生成模式,在完成上述的词法、句法分析之后,只需要将问旬进 行正确的归类,即可以完成对问句意义的分析理解,进行答案的检索和生 成阶段。 2 1 3 信息检索子系统 信息检索子系统就是要根据问句理解的结果检索知识库,从而得到正确答 案,或包含正确答案的的知识表述【2 0 1 。一般系统的知识库可以有两种,一是非 河南大学硕士研究生学位论文第11 页 结构化的知识库,对于这类知识库,信息检索予系统需要运用诸如布尔模型、 向量空间模型和概率模型的统计模型1 2 1 1 t 2 2 1 ,对用户提问与知识库中的相关文档 进行相似度计算,按统计结果返回包含答案的文档。在这个步骤中,由于采用 的统计方法来进行信息检索,如果统计模型选取不合适,则检索结果的正确性 将会大大降低;二是结构化的知识库,对于此类知识库,由于知识库中的知识 表示都已进行了结构化处理,所以在信息检索子系统中,一般可以使用侧重于 规则的方法来构建信息检索子系统,在必要时辅以统计方法,将大大提高检索 结果的效率。 2 1 4 答案生成子系统 在答案生成子系统生成答句时,需要利用问旬理解子系统分析得到的答句 模式,用自然语言的方式组织信息检索子系统得到的答案信息。若问答系统是 基于非结构化知识库的,则在生成答旬之前,要先从检索返回的包含正确答案 的文档中,运用信息抽取技术进行答案抽取。而对于基于特定领域和结构化知 识库的问答系统,由于在信息检索子系统可以直接返回问题的答案,则可直接 应用答句生成算法来得到需要的答句。 2 2 知识表示 特定领域问答系统对问句的分析和推理都是基于常识知识、或领域知识来 进行的。因此,设计一个问答系统的先决条件就是,要将其依赖的各类知识, 如领域词汇知识、领域的句法语义规则等,按照一定的形式表示出来 2 3 】。知 识表示的数量与质量是决定问答系统性能的关键性因素【2 5 1 。在问答系统中常用 的知识表示有:一阶谓词逻辑表示法、产生式表示法、框架表示法、语义网络 表示法等1 2 6 1 。 2 2 1 一阶谓词逻辑表示法 一阶谓词逻辑表示法是一种以数理逻辑为基础,能够精确表达人类思维活 动规律的形式语言。在这种表示法中,使用由谓词和谓词连接符构成的谓词公 第1 2 页河南大学硕士研究生学位论文 式表达一条具有完整意义的知识。谓词公式既可以表示事物的状态、属性、概 念等事实性的知识,也可以表示事物之间因果关系的规则性知识【2 4 1 。 例如,要使用一阶谓词逻辑表示法来表示知识“所有的整数不是奇数就是 偶数”,则要首先定义谓词如下: i ( x ) :x 是整数 o ( x ) :x 是奇数 e ( x ) :x 是偶数 知识“所有的整数不是奇数就是偶数”的谓词公式可以表示为: ( 帆) ( ( 功寸e o ) v d ( x ) ) 一阶谓词逻辑的表示法接近于自然语言,它所表示的问题以与被人们理解 和接受,也比较容易转换为计算机内部表示形式,在求解问题时可以使用归结 推理法或消解法来进行知识推理,应用十分方便旺8 1 。 2 2 2 产生式表示法 产生式表示法又称为产生式规则表示法。产生式的概念是1 9 4 3 年由美国数 学家波斯特( p o s t ) 首先提出的,经过2 0 世纪5 0 年代的不断推进,于1 9 7 2 年 由纽厄尔( n e w e l l ) 和西蒙( s i m o n ) 等学者开发了基于规则的产生式系统。 产生式表示法除了可以像一阶谓词逻辑表示法一样表示事实性知识和规则 性知识外,还可以描述这些知识的不确定性度量。在推理过程中使用了一种类 似于文法的规则,在对符号串作替换运算的同时,并且能将不确定性的推理传 递到结论。这样方便了不确定性的知识的描述和推理。 产生式表示法对于规则性知识的基本表示形式为: p - - ) q( 可信度) 或者 i fpt h e nq( 可信度) 其中p 是产生式的前提,用于指出该产生式是否可用的条件;q 是一组结 论或操作,用于指出当前提p 被满足时,应该得出的结论或应该执行的操作; 当“可信度”为1 时,表示确定性推理,当“可信度”不为1 时,表示不确定 性推理【2 9 1 。 河南大学硕士研究生学位论文第1 3 页 2 2 3 框架表示法 框架表示法是一种结构化的知识表示方法,是1 9 7 5 年由明斯基( m i n s k y ) 提出的。框架是一种描述所要讨论对象的各种属性的数据结构。所要讨论的对 象可以是一个事物、一个事件或一个概念。 对象的属性就是框架表示方法中的槽。一 个框架由若干个描述对象属性的槽组成, 每个槽描述对象的某一方面属性。根据实 际情况,每个槽又可划分为若干个侧面, 每个侧面用于描述相应属性槽的一个方 面。槽和侧面所具有的属性值分别称为槽 值和侧面值,具体的值可以使程序、条件、 默认值或一个子框架。填充了槽值和侧面 值的框架成为实例框架。框架的一般表示 格式如图2 3 所示。 框架表示法的问题求解系统包括两部 分:一是有框架及其相关关联构成的知识库,用于提供求解问题所需的知识; 二是用于求解问题的解释程序即推理机,它是针对用户提出的具体问题, 运用知识库中的相关知识,通过推理对问题进行求解。在推理过程中,待求解 问题用一个框架表示,其中为空的槽值就为所要求解的问题,通过与知识库中 已有的框架进行匹配,若完全匹配或没有矛盾项,则可作为预选框架,再使用 某种评价方法对预选框架进行筛选,最终确定接受其中一个,则与问题框架中 空缺槽值相匹配的事实即为问题的解。 该框架表示法最突出的特点是善于表达结构性的知识,能够把知识的内部 结构关系及知识间的联系表示出来,而且可以通过继承的方法建立表示复杂知 识的框架网络。但是框架表示法不善于表达过程性的知识,可以与产生式表示 法结合使用,以取得互补的效果。 第1 4 页河南大学硕士研究生学位论文 2 2 4 语义网络表示法 语义网络是通过概念及其语义关系来表示知识的一种有向网络图,它通过 实体及其语义关系来表达知识,就有较强的表达能力,且使用灵活。在语义网 络中,各节点用来表示各种概念、事物、属性、情况、动作、状态等实体;弧 表示连接两个实体之间的语义联系。语义网络中的节点和弧都必须带有标识, 以便区分各种不同对象以及对象间各种不同语义联系。若是复杂系统,则节点 可以使用语义子网络表示,形成一个多层次的嵌套结构。 一个最简单的语义网络,成为一个基本网元,可以描述为如下的三元组: ( 节点1 ,弧,节点2 ) 若a 、b 表示两个节点,r 表示a 和b 之间的某种语义关系,则该基本网 元对应表示如图2 - 4 所示。 。 语义网络表示法可以将知识已较好的结构化形式 ia 广_ 1 b l 表达,在进行推理是可以实现类似于人的联想记忆模图2 - 4 基本网元 式,对于一般问题的检索不需要对整个数据库进行匹 配,检索效率较高。但是语义网络没有公认的形式表示体系,一个语义网络所 表达的含义,完全依赖于其处理程序的解释,通用性和严格性较差。 2 3 问句理解中的语义计算 语义的歧义现象是自然语言的一个最大特点,问答系统对于自然语言理解 的程度关键看其对语义的歧义处理能力。是否能够无歧义地理解用户问旬是衡 量问旬理解模块性能的一个重要指标。 语义歧义的产生原因是多种多样的,可能是由于词汇的多义、同义等关系 而引起的,也可能是由于句法结构而引起的,还可能是由于语言表达的指代或 缺省引起的口o 】【3 1 】。本节主要对问答系统中常见的一些歧义现象及其处理方法做 简要的介绍。 河南大学硕士研究生学位论文第15 页 2 3 1 基于词汇的语义计算 中文中存在有大量的词汇歧义现象,这主要是由词义关系的多样性以及词 语结构的复杂性而导致的。对于这类由词义引起的歧义可使用词汇语义学中的 词义关系以及词义选择的方法来处理。 就词汇语义学来说,可以将词语与其涵义之间的关系分类为:同形关系、 多义关系、同义关系、上下位关系等【3 2 1 。这些语义关系对于问句的正确理解起 着至关重要的作用,一般可以通过对词汇涵义详细刻画的词典来解决该歧义问 题。比如,w o r d i l e t 【1 6 】就是英文处理中比较完备的概念间结构层次关系组织的 大型语义词典,在中文处理领域内,知网( h o w n e t ) 1 、同义词词林等语义词典 也是比较典型的处理词汇歧义的语义词典。但对于特定领域问答系统中的问旬 理解来说,由于领域内词汇是受限的,因此可以使用简单的局部语义词典来解 决这类词汇歧义问题。 对于某些不能由语义词典详细刻画的词汇,还可以使用词义选择的方式来 确定词汇的具体语义。词义选择是靠词语之间的复杂约束关系来确定词汇语义 的,如管辖约束理论( g b 理论) 、词汇功能语法( l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石磨板施工方案(3篇)
- 女神节插花活动策划方案(3篇)
- 活动过程管理策划方案(3篇)
- 长治人证考试题库及答案
- 校园保安测试题目及答案
- 一年级小学生写国庆节的作文(7篇)
- 读流氓兔的故事350字13篇范文
- 四季景色描绘技巧与鉴赏教案
- 时间段与时刻的区别
- 以磨炼为话题的中考作文范文素材13篇
- 2025届中考物理全真模拟卷【云南专用】(含解析)
- 大型医院食堂管理制度
- DB62T 4248-2020 青海云杉育苗技术规程
- T/YNIA 003.1-2021面膜护肤用非织造布第1部分:水刺法
- 2025年家庭教育指导考试试卷及答案总结
- 军队文职管理学备考指南
- 胖东来考试试题及答案
- 财务国企面试题目及答案
- 电子工厂品质意识培训
- 《农村基层干部廉洁履行职责规定》知识培训
- 符合标准2025年乡村全科助理医师考试试题及答案
评论
0/150
提交评论