(计算机应用技术专业论文)基于web的开放领域中文问答系统研究.pdf_第1页
(计算机应用技术专业论文)基于web的开放领域中文问答系统研究.pdf_第2页
(计算机应用技术专业论文)基于web的开放领域中文问答系统研究.pdf_第3页
(计算机应用技术专业论文)基于web的开放领域中文问答系统研究.pdf_第4页
(计算机应用技术专业论文)基于web的开放领域中文问答系统研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于web的开放领域中文问答系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 基于w e b 的开放领域中文问答系统研究 摘要 从2 0 世纪6 0 年代开始研究人工智能起,研究人员便对问答系统产生了 浓厚的兴趣。目前,国外已经出现实用化的面向开放领域的英文问答系统。 相比之下,对面向开放领域的中文问答系统的研究还很少。为此,本文提 出两种基于w e b 的开放领域中文问答系统的实现方案。并通过实验对方案 的可行性进行了验证。 第一种方案:我们预先建立一种基于知网的新的问题分类体系。在问题 分析阶段,检索式生成模块会根据用户问题的类型,产生一个可供g o o g l e 搜索引擎使用的检索式。在信息检索阶段,g o o g l e 搜索引擎根据检索式找 到相关文档,并从中随机抽取若干篇文档作为相关文档集。在答案抽取阶 段,候选答案选择模块使用知网知识库与命名体识别技术相结合的方法, 从相关文档集中抽取出候选答案,然后利用g o o g l e 搜索引擎的查询统计结 果对每个候选答案进行验证。最后,将可信度最大的候选答案作为最佳答 案返回给用户。 第二种方案:这种方法不需要预先建立问题分类体系。在问题分析阶段, 我们首先确定问句的目标词,然后结合汉语框架网络的句子库,通过分析 问句中的短语类型和句法功能,确定用户答案的语义类型,并在此基础上 构造检索式。在信息检索阶段,g o o g l e 搜索引擎利用构造好的检索式,找 到相关文档,并随机抽取若干篇文档作为相关文档集。在答案抽取阶段, 太原理工大学硕士研究生学位论文 候选答案选择模块通过分析相关文档集中有关句子的语义,抽取出候选答 案,然后利用g o o g l e 搜索引擎的查询统计结果对每个候选答案进行验证, 将可信度最大的候选答案作为最佳答案返回给用户。 两种方案最大的区别就是检索式的构造方法不同。 本文的创新点在于:提出一种能够在现有技术条件下实现的,基于知网 的问题分类体系。 关键字:汉语框架网络,知网,开放领域,中文问答系统 太原理工大学硕士研究生学位论文 r e s e a r c h0 no p e n d o m a i nc h i n e s e q u e s t i o na n s w e r i n gs y s t e mb a s e do nw e b a b s t r a c t s i n c et h e19 5 0 sw h e na r t i f i c i a l i n t e l l i g e n c ei n i t i a l l yw a sr e s e a r c h e d ,t h e q u e s t i o na n s w e r i n gs y s t e m sd r e wm u c ha t t e n t i o no ft h er e s e a r c h e r s a tp r e s e n t , a p p l i e de n g l i s ho p e n d o m a i nq u e s t i o na n s w e r i n gs y s t e m sh a v ee m e r g e d o nt h e c o n t r a r y , t h er e s e a r c h e so nc h i n e s eo p e n - d o m a i nq u e s t i o na n s w e r i n gs y s t e m sa r e r e l a t i v e l yl a g g a r d h e n c ei n t h i sp a p e rt w os c h e m e so fc h i n e s eo p e n - d o m a i n q u e s t i o na n s w e r i n gs y s t e m sb a s e do nw e ba r ep r e s e n t e d ,a n dt h ef e a s i b i l i t yo f t h e ma r ev e r i f i e dt h r o u g h te x p e r i m e n t s i nt h ef i r s ts c h e m e ,f i r s t l yan e w q u e s t i o nc l a s s i f i c a t i o na r c h i t e c t u r eb a s e do n h o w n e ti se s t a b l i s h e d i nt h es t a g eo fq u e s t i o na n a l y s e ,a c c o r d i n gt ot h et y p eo f t h eq u e s t i o nq u e r y g e n e r a t i o nm o d u l eg e n e r a t e so n eq u e r yw h i c hc a nb eu s e db y g o o g l e i nt h es t a g eo fi n f o r m a t i o nr e t r i e v a l ,g o o g l eu s e st h eq u e r yt og e tt h e c o r r e l a t i v ed o c u m e n t s t h e ne x t r a c t ss o m ed o c u m e n t sa st h ec a n d i d a t e d o c u m e n t s i nt h es t a g eo fa n s w e re x t r a c t i o n ,t h ec a n d i d a t ea n s w e r sc h o o s i n g m o d u l ec o m b i n e sh o w n e ta n dn a m e d e n t i t yi d e n t i f i c a t i o nt e c h n i q u et oe x t r a c t t h ec a n d i d a t ea n s w e r sf r o mt h ec a n d i d a t ed o c u m e n t s f i n a l l ye v e r yc a n d i d a t e a n s w e rw i l lb ev e r i f i e d t h r o u g h t h e q u e r yr e s u l t so ft h eg o o g l ea n dt h e i i i 太原理工大学硕士研究生学位论文 c a n d i d a t ea n s w e rw h i c hh a st h eh i g h e s tr e l i a b i l i t yw i l lb et h er e t u r n e da st h e b e s ta n s w e r i nt h es e c o n ds c h e m ew h i c hd o e s n tn e e dt oe s t a b l i s ht h eq u e s t i o n c l a s s i f i c a t i o na r c h i t e c t u r ei na d v a n c e ,a f t e ra n a l y z i n gt h et y p ea n df u n c t i o no f t h ep a r t o f - s p e e c ho ft h eq u e s t i o nt h eu n i q u es e n t e n c e sb a n ko ft h ec h i n e s e f r a m e n e tw i l lb eu s e dt od e t e r m i n et h es e m a n t i ct y p eo ft h ea n s w e ra n d c o n t r u c ts o m eq u e r i e s i nt h es t a g eo fi n f o r m a t i o nr e t r i e v a l ,g o o g l eu s e st h e q u e r i e st og e tt h ec o r r e l a t i v ed o c u m e n t sa n de x t r a c t ss o m ed o c u m e n t sr a n d o m l y a st h ec a n d i d a t ed o c u m e n t s i nt h es t a g eo fa n s w e re x t r a c t i o n ,t h ec a n d i d a t e a n s w e r sc h o o s i n gm o d u l ee x t r a c t st h ec a n d i d a t ea n s w e r st h r o u g ha n a l y z i n gt h e c o r r e l a t i v ed o c u m e n t sa n dv e r i f i e se v e r yc a n d i d a t ea n s w e rt h r o u g h tt h eq u e r y r e s u l t so ft h e g o o g l e f i n a l l yt h ec a n d i d a t ea n s w e rw h i c hh a s t h eh i g h e s t r e l i a b i l i t yw i l lb er e t u m e d a st h eb e s ta n s w e r t h em a i nd i s c r i m i n a t i o nb e t w e e nt h et w os c h e m e si st h em e t h o do ft h e q u e r yc o n s t r u c t i o n t h es p c e i a l i t yi n t h i s p a p e ri s t h a tan e wc l a s s i f i c a t i o na r c h i t e c t u r ei s p r e s e n t e dw h i c hc a nb ei m p l e m e n t e di nt h ec o n d i t i o no f t h ec u r r e n tt e c h n i q u e s k e y w o r d s :c f n ,h o w n e t ,o p e n d o m a i n ,c h i n e s eq u e s t i o na n s w e r i n g s y s t e m i v 声明,尸明, 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, , 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:三翌:叁二 :日期:涩呈:皇丝 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) 。 签;名:盟 导师签名:日期:兰竺堡! 堑: 太原理工大学硕士研究生学位论文 1 1 自动问答系统综述 第一章引言弟一早,ii 1 1 1 问答系统的研究历史 自动问答系统的研究历史可以追溯到2 0 世纪5 0 年代。从那时起,人们就对问答系 统产生了浓厚的兴趣,并在理论和实践两方面取得了很大的成就。 在理论上,首先是1 9 5 0 年图灵提出了著名的“图灵测试”问题【1 1 。随后,人们针又对 问答系统提出了多种不同的观点,如:j o h ns e a r l e 对“图灵测试”提出了质疑【2 1 ,但却否 定不了“图灵测试”;r o b e r tf s i m m o n s 指出:数据集规模不同,开发问答系统所用的方 法也不同,并提出模式推理的重要思想;中科院陆汝钤院士认为,“图灵测试”永远不可 能在图灵定义的层面上实现。这些重要的观点都不同程度地推动了问答系统的发展。 在实践上, j a s e p h w e i z e n b a u m 在 1 9 6 6年实现的e l i z a ( h t t p :w w w - a i i j s s i e l i z a e l i z a h t m l ) ,被多数人认为是第一个问答系统;1 9 9 1 年,h u g h l o e b n e r 设_ 立l o e b n e r 竹切( h t t p :w w w 1 0 e b n e r n e t p r i z e f l o e b n e r - p r i z e h t m l ) ;19 9 9 年著名 的自由文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e ,简称t r e c ) 首次设立了自动问答任务。 这其中最值得一提的就是“l o e b n e rp r i z e ”和t r e c 。1 9 9 1 年,h u g hl o e b n e r 决定对“图灵 测试”进行实际操作。他设立了“l o e b n e rp r i z e ”,悬赏1 0 0 ,0 0 0 美元奖励首次通过图灵测 试的人。迄今为止,虽然没有一个程序通过“图灵测试”,但却产生了许多著名的聊天机 器人,如a l i c e 。t i 也c 自其设立了专门的自动问答任务以来,就吸引了众多的科研 院所和大公司。这其中就包括微软、i b m 、麻省理工大学、华盛顿大学等。 1 1 2 问答系统的分裂3 】 伴随着人们在问答系统理论和实践方面的努力,各种类型的问答系统也相继出现。 总体说来,可以将这些问答系统划分为四类:聊天机器人、基于知识库的问答系统、问 答式检索系统、基于自由文本的问答系统。 聊天机器人的共同特点是:几乎全部采用模式匹配的方法来寻找最合适问题的答案; 在与用户的交谈过程中,都是基于谈话技巧。对于知道答案的问题,聊天机器人往往给 出人性化的回答。对于不知道答案的问题,有三种回答方法:猜一个答案、回答“不知 道”、转移话题。聊天机器人目前还没有太多的实际用途。许多情况下,它更像是个玩 】 太原理工大学硕士研究生学位论文 具而非工具。但是聊天机器人所体现出来的一些技术特色,却值得我们注意。例如,正 确理解用户的询问,从用户的输入中进行学习,使得答案更加人性化、更合乎逻辑等。 聊天机器人的数量很多,比较典型的有:e l i z a 、f r e d 、a l i c e 、e u g e n e 、j a b b e r w o c k 、 t a l k b o t 、u l t r ah a l 、n i a l l 、k y l i e 、c y b e ri v a r 、k a t e ,等等。这些聊天机器人各有特色, 如j a b b e r w o c k 可以讲笑话和谜语。n i a l l 可以在同用户的对话中学习知识。c y b e ri v a r 可以 提供软件工程方面的知识。k y l i e 甚至可以用语音回答用户的问题。有些聊天机器人还可 供用户在网上使用,如a l i c e ( h t t p :w w w a l i c e b o t o r g ) 。 基于知识库问答系统的共同特点是:拥有一个或多个知识库,并利用检索和推理等 技术理解用户的问题,求解问题的答案。基于知识库的问答系统又包括基于本体的问答 系统、自然语言界面的专家系统、基于受限语言的数据库查询系统、基于f a q 的问答 系统,等等。和聊天机器人不同的是,这类系统擅长于知识问答。对于不能回答的问题 就老实回答说“不知道”,而不是转移话题。 基于知识库的问答系统,其优点是显而易见的:性能优良,对于用户提出的许多问 题回答的很准确,甚至可以进行一定程度的推理计算。并且由于是基于知识库的,所以 系统具有良好的可扩展性。但是其局限性同样明显:如果用户的问题落入系统的知识库 范围之外,系统性能很快下降为零。 问答式检索系统的共同特点是:允许用户以自然语言方式提交查询请求,返回的结 果是从文档集合中检索出来的文档列表,而不是直接的答案。由于其返回的结果不是问 题的具体答案,因此从某种意义上说,问答式检索系统不能被算作是真正的问答系统, 因而也不可能成为问答系统发展的主流。 目前这类问答系统数量也不少,而且其中一些还投入了实用,比较典型的有:s m a r t 、 a n s w e r b u s 、a s k j e e v e s 等。s m a r t 是由麻省理工大学开发的自动问答系统,于1 9 9 3 年在 互联网上发布。该系统可以回答一些有关地理、历史、文化、科技、娱乐等方面的简单 问题。a n s w e r b u s 是由德国的几家机构开发的一个多语种自动问答系统。它不仅支持英 语,还支持法语、西班牙语、意大利语、德语、葡萄牙语。a s k j e e v e s 是由美国a s k j e e v e s 公司开发的问答系统。它能在用户输入问题的时候,自动给出一个可能与用户问题相匹 配的问题列表。并且除了能返回问题的答案外,还提供了相关文档的链接。例如我们问 “w h a ti st h ec a p i t a lo f c h i n a ? ”,系统会给出答案:“t h ec a p i t a lo f c h i n ai sb e i j i n g ”。 基于自由文本问答系统的共同特点是:允许用户以自然语言的方式提交查询请求, 2 太原理工大学硕士研究生学位论文 返回的结果是从文档中抽取出来的准确答案。与上述各类问答系统相比,基于自由文本 的问答系统,不需要建立大规模知识库,而是基于自由文本进行知识问答。这样就节省 了大量的人力物力。并且系统返回的结果也不是文档的列表,而是准确的答案。应该说, 基于自由文本的问答系统代表着问答系统的发展方向。特别是基于w e b 的开放领域问 答系统更是研究的热点。这也是本文研究的对象。 目前这类问答系统的数量正在逐步增多。比较有代表性的是:m u l d e r 、w e b c l o p e d i a 、 a r a n e a 、a q u a i n t 、i b m p q 、d i o g e n e 、m a r s h a 、n s i r 等。 1 1 3 问答系统的结构及核心问题【4 】 这里介绍的问答系统是指真正意义上的问答系统,即能够接受自然语言问句,并返 回准确答案的问答系统。这类问答系统从体系结构看,几乎都包括了三个主要模块:问 题分析、信息检索、答案抽取。此外,有些问答系统,特别是实用化的问答系统,还包 括了一个常问问题库( 简称f a q 库) 。这主要是为了提高系统的效率和准确率。图1 1 展示了问答系统的一般结构图。但在具体实现时,系统的结构会由于分类体系、采用的 建模方式、实现策略等的不同而有所区别。 一 1 i l问题 。i 。 ! - i 检索式生成 :7 i 答8 “ i7 i :上 : j r ; 上 i i 答案类型分析文档检索 i 答案验证 i 上上 i 土 : 关键词提取段落检索答案重排序 i 答案。 r - 问题分析信息检索答案抽取 : 图1 - 1 问答系统的一般结构图 f i g l - 1t h eg e n e r a la r c h i t e c t u r eo ft h eq u e s t i o na n s w e r i n gs y s t e m 问题分析模块的主要任务是:充分理解用户问句的意图,并产生可供信息检索模块 使用的检索式。为了理解用户问句的意图,问题分析模块通常要利用多种自然语言处理 技术( 如:句法分析、语义分析、分词、词性标注等) 来获取问题的关键字和焦点,确 定问题和答案的类型等,从而最大限度地理解问句的语义。问题分析模块在整个问答系 统中占有十分重要的地位。它对问句的处理结果会直接决定系统的性能。 信息检索模块的主要任务是:利用问题分析模块提供的关键字从文档库中找到与问 3 太原理工大学硕士研究生学位论文 题最相关的文档集合。有时,利用问题分析模块得到的关键字进行查询,系统的召回率 ( r e c a l l ) 会很低。为了提高召回率,信息检索模块一般都使用了查询扩展技术【5 】【酬。 答案抽取模块的主要任务是:从信息检索模块检索出的相关文档集中,抽取出问题 的精确答案,并返回给用户。答案抽取的难度会因问题类型的不同而有很大差异。通常, 事实性问题( 如询问时间、地点、人) 的答案抽取难度最小,列表类问题其次,定义类 问题最难。这也是答案抽取模块实现难度最大的重要原因。 综上所述,如何充分理解用户问句的语义;如何从文档库中找到与问题最相关的文 档集合;如何从相关文档集中抽取出准确的答案,是问答系统所要解决的核心问题7 】【8 1 9 1 。 1 1 4t o - 答系统的评测机制【4 】 为了定量地评价一个具体的t 口- j 答系统,需要有一种合理的评价机制。首先,为了保 证评价的合理性和公正性,必须要有一个测试集。测试集一般是人工建立的i 口- j 题和答案 对的集合;其次,需要有一个能定量描述被测试系统性能的机制。常用的评测标准是准 确率。公式如下: 。一+ 答对的问题数 、准确靼寄 如果系统给出的答案和人工对比的答案基本一致,则可以认为这个答案是正确的, 否则就是错误的。这种评测方法简单而有效,适合于对大多数问答系统的评测。但对于 定义类问题,仅仅判定答案的对错是不够的,还需要一种对预期答案和系统给出的答案 进行概念上匹配的机制【1 0 1 。 除了用准确率衡量i 口- j 答系统的性能外,i 口- j 答系统中有时还使用查准率和召回率来衡 量系统的性能,公式如下: 查棒篆瓣, 召降笔燃 t r e c 会议每年都会提供一个英文i 口- j 答系统的测试集,用来评测参赛的各i 口- j 答系统 的性能。t r e c 允许对每个j 口- j 题给出5 个答案。如果第一个答案是对的,那么这个i 口- j 题 就给5 分。如果第二个是对的就给4 分,依此类推。把每个问题所得分数相加,总分越 高说明该系统的性能越好【1 1 】。但到目前为止还没有一个公开的中文p - j 答系统测试集。 太原理工大学硕士研究生学位论文 1 2 课题的研究背景和意义 当前,国外对基于w e b 问答系统的研究目前已经成为一个热点,并取得了不错的成 就。相比之下,国内从事这方面研究的机构还很少。据我们了解的情况,目前国内仅有 哈尔滨工业大学在这方面的研究上投入了很大精力,并且已经开发出了较为成型的系统 ( h t t p :i r h i t e d u c n d e m o q a r c 0 a j s o ) 。造成这一局面的原因主要有两点:一方面是 由于缺乏低层技术的支撑,例如目前还没有成熟的汉语句法分析器;另一方面是由于国 内在这方面投入的人力物力还不够【1 2 1 。目前,国内对问答系统研究比较深入的机构仅有 哈尔滨工业大学、复旦大学、北京理工大学、中科院计算所等几家。 为了改变这种局面,我们认为可以从两方面努力。一方面应着眼于利用现有的较为 成熟的技术;另一方面也应该尝试利用新的技术。 本课题就是从以上两面进行了有益的尝试,提出了两种不同的基于w e b 开放领域中 文问答系统的实现方案。一种是基于知网( 简称h o w n e t ) 的实现方案,另一种是基于 汉语框架网络( c h i n e s ef r a m e n e t ,简称c f n ) 的实现方案。 我们认为这对于推动国内在自然语言处理技术,特别是汉语处理技术和c f n 的研究 和应用方面,有很强的现实意义。 1 3 本文的研究对象和内容 本文的研究对象为基于w e b 的开放领域中文问答系统。系统所能回答的问题主要是 事实性问题和定义性问题。本文研究的主要内容如下: 1 、为了克服传统问题分类方法的弊端,如何利用h o w n e t ,并结合汉语“重意合,轻行 合”【1 3 】的特点,建立新的问题分类体系。 2 、如何根据所建立的分类体系,结合汉语“重意合,轻行合”的特点,构造适合于g o o g l e 搜索引擎使用的检索式。 3 、如何在不建立分类体系的条件下,通过对问句的句法分析,利用c f n 句子库和词元 库,确定疑问词或疑问短语的语义角色。 4 、为了克服命名实体识别技术的缺陷,如何使用命名实体识别技术与h o w n e t 相结合 的方法提取问题的答案。 5 、如何通过对g o o g l e 返回结果中摘要的句法分析,利用c f n 句子库和词元库,提取 问题的答案。 5 太原理工大学硕士研究生学位论文 6 、针对w e b 文档“噪声”多,可信度低的特点,如何验证答案。 此外,本文还对如何利用常问问题库( f r e q u e n t l y a s k e dq u e s t i o n s ,简称f a q ) 提高 系统的准确率和效率做了简要分析。 1 4 论文的结构 第一章:引言。简要介绍自动问答系统的研究历史、分类、评测技术、论文的研究 背景、内容及意义。 第二章:系统概述。 第三章:基于h o w n e t 的问答系统实现方案。 第四章:基于c f n 的问答系统实现方案。 第五章:实验结果及分析。 6 太原理工大学硕士研究生学位论文 第二章系统概述 2 1 系统组成和工作流程 本文提出两种基于w e b 开放领域中文问答系统的实现方案。两种方案都包括三大模 块、一个语义词典、一个f a q 库。三大模块分别为:问题分析、信息检索、答案抽取。 从系统的体系结构来看,两种方案唯一区别是所使用的语义词典不同,分别使用了 h o w n e t 和c f n 。整个系统的体系结构如图2 1 所示。 图2 1 系统结构图 f i 9 2 - 1t h ea r c h i t e c t u r eo ft h es y s t e m 系统的大致工作流程为:首先,问答系统接受用户提交的自然语言问句,然后计算 用户问句与f a q 库中问句的语义相似度,最终判定出f a q 库中是否有与用户问句语义 相同的问句。如果有,则直接给出答案,否则需要经过问题分析、信息检索和答案抽取 三个模块的处理才可能给出答案。由于f a q 库初始为空,因此系统运行的初期,大多 数问题都要经过三个模块的处理才能给出答案。因此,下面将概括性地介绍三个模块的 功能。 2 2 问题分析模块 问题分析模块的主要任务有两个:问题分类和检索式构造。这两个任务分别由问题 分类模块和检索式构造模块来完成。需要注意的是,两种实现方案中对问题分类的定义 是不同的。 7 太原理工大学硕士研究生学位论文 正如第一章所介绍的那样,问题分析模块在整个问答系统中占有十分重要的地位。 其中,问题分类模块又直接决定了问题分析模块性能的优劣。需要注意的是,我们不能 像文本分类那样去单独考虑问题分类。因为二者的目标是不同的,文本分类的目标就是 对文本进行分类;而问题分类的主要目标是: 1 、指导答案选择和抽取。例如,如果问题属于地点类,那么答案中就必须包含地点。 2 、决定答案抽取策略。例如,如果问题是“承7 事7 糕怎么回事? ”这样的复杂问题, 那么进行答案抽取时就可能用到多文档文摘技术。 3 、决定答案的语义类别。例如, 2 0 0 8 李筅运套在万个掰痧举办夕”。对于这个问题, 仅仅知道答案是个地点是不够的,还必须要精确到城市。 由此可见,对问题进行分类只是为了更准确地抽取出答案。或者说问题分类只是手 段,不是目的。现阶段之所以要对问题进行分类,完全是受现有的技术条件所限。从理 论上讲,并非只有通过问题分类才能得到准确的答案。这一点将会在我们提出的第二种 方案中很清楚地看到。 2 2 1 基于h o w n e t 的问题分类 在现有的技术条件下,要想实现一个具体的问答系统,对问题进行分类是一种简单 而行之有效的方法。大多数问答系统都预先建立了一种层次结构的分类体系。这种分类 体系首先将问题划分为几个大类( 如时间、地点等) ,然后再对每个大类进行细分( 如 将地点细分为国家、省、市等) 。然而正如文献 1 4 】和文献 1 5 】所显示的那样,划分太多 的类别往往会降低系统的准确率。为此,我们根据知网哲学,并结合汉语的特点,定义 了一种新的问题分类体系。 知网的哲学观点认为:“世界上一切事物( 物质的和精神的) 都在特定的时间和空 间内不停地运动和变化,它们通常是从一种状态变化到另一种状态,并通常由其属性值 的改变来体现【1 6 1 。知网系统的哲学也就是它对客观世界的认识与把握。试以人为例, 人的生老病死是二生的主要状态。这个人的年龄( 属性) 一年比一年大 属性值) ,随 着年龄的增长头发的颜色( 属性) 变为灰白 物理知识 知识竞赛电脑知识科技知识自然知识天文知识文学知识动漫知识地理 3 ,谁煮竣z 垒龃? 是夏耋丝碍? 夏:耋蛙于1 8 7 6 年在美国事游了,毫灯泡的专利,但是他只是使 甬了加拿大人的研究成果,他玖多伦多医学电子专家盘坦趣i 。 g o 咧爨娄:嚣二嚣l 静简体帔阿页善g 国a o 的g l 罔e 搜页赘1 同页 约孝螽9 ,豹o 固隋台_ 发明了电灯。的查句结果,以下是第3 1 4 0 顼( 搜索用时0 豫秒) 问题:爱迪生发明了电灯,栽们都知道使用的是钨丝,那么枪管使用的是 问题:爱迪生发明了电灯,我们都知道使用的是钨丝,那么枪管使用的是什么物质呢? 答案: a a :钨日:锡c t 铁d :钢 g b a t d uc o m ! 9 1 s p ? a i d = 1 1 8 8 8 9 4 2 3 7 2 1 2 3 7 0 2 1 5 k 一瑟嚣堡嚣一耋篓! 蟹夏 谁是特斯拉? 摘自价值科学与财富月刊2 0 0 6 年第11 期一w w w 我们今天的生活会是什么样。1 4 我1 1 1 都知道爱迪生发明了电灯要际上特斯拉也发明了电灯只不 过爰迪生发明的是通过灯丝通电后发热发光的白炽灯,而我们今天用得更为普遍的 捌州g o t o r e a d c o r r d v 0 1 3 0 3 3 y p 叼e 3 1 9 5 9 5 h t m l 1 2 k 匿耍:送竖差丝疆匿 小发明是怎样搞出来的一瞧这网f 点子创意荟摹 爱迪生发明了电灯,使整个世界带来光明;莱特兄弟发明了飞机,实现了一天环球世界的愿 望科学家和发明家改变着人类的命运,推动了世界进步 让我们每个同学积极开动 h 7 9 5 c o r t l ,c h i e f 7 1 3 9 , 反, 1 1 a 3 7 3 4 h t m l 一1 2 k 露夏快照一类钐l 孵页 图2 - 2g o o g l e 的返回结果说明 f i 9 2 2t h ee x p l a n a t i o no f t h eq u e r yr e s u l to fg o o g l e 同时,返回的结果中显示了满足查询条件的网页数量为3 5 6 0 0 项。那么检索到的网 页数量多了好呢,还是少了好呢? 我们认为太多和太少都不好。结果太多很有可能意味 着检索式太普通,就如同一个常见词一样,不具有标识某一类信息的能力。结果太少则 有可能意味着构造出来的检索式不合逻辑,或者其中的关键词不太常用。在我们的实现 方案中,第一种情况很少出现,第二种情况在两种方案中都可能出现。解决这一问题的 简单办法就是进行查询扩展。对于两种方案,除了进行常规的同义词扩展外,我们还对 基于h o w n e t 的实现方案提出了其它扩展方法,具体情况将在第三章说明。 2 4 答案抽取模块 答案抽取模块由候选答案抽取模块和最佳答案选择模块组成。两种实现方案的最佳 答案选择方法几乎是相同的,所不同的是答案抽取模块所采用的方法。由于我们主要研 究的是事实性问题,因此这里主要讨论事实性问题的答案抽取方法。 1 4 太原理工大学硕士研究生学位论文 2 4 1 基于h o w n e t 的候选答案抽取方法 在基于h o w n e t 的实现方案中,我们采用了命名体识别技术与h o w n e t 相结合的方 法,实现候选答案的抽取,并对每个候选答案给出一个可信度,根据可信度的高低,决 定是否需要利用最佳答案选择模块从候选答案中选择一个最佳答案。 利用命名实体识别的技术辅助答案抽取,是多数问答系统采用的方法。这种技术特 别适合于抽取事实性问题的答案。因为这类问题的答案往往是一个时间、地点、人名等。 但命名实体识别技术通常只能识别出人名、地名、组织机构名、日期、时间、数字等几 类实体。因此,它只能作为抽取答案的辅助手段。在基于h o w n e t 的实现方案中,我们 是将命名实体识别的结果,按照预定义的规则映射到h o w n e t 的概念体系中,最后利用 h o w n e t 完成答案抽取的。 例如,对于问题“旌发剪7 咆灯? 一,在问题分析阶段已经知道它的类型是“实体 型 ,并且实体所对应的概念为“h u m a n 人”。假设g o o g l e 返回结果的摘要中有这么一 句话:馁迪生发明7 它灯”。则利用命名实体识别技术,可以知道“爱迪生 是个人名。 根据我们预定义的规则,我们将人名映射为“h u m a n 人”。而问题所期望的答案类型正 好是“h u m a n 人”,那么“爱迪生 就有可能是最终的答案。至于是不是问题的最终答 案,通常还需要根据其可信度的高低,决定是否需要由最佳答案选择模块做进一步处理。 由于互联网上信息的可信度有高有低,而且还存在很多“噪声”。因此对于一个具 体的问题,候选答案抽取模块可能会抽取出若干个可能的答案。例如,对于问题“日本 的国花i 是什么j ”,候选答案抽取模块抽取出的候选答案有:“樱花 和“菊花 。针对 这种情况,我们的解决方法是:通过对g o o g l e 返回结果中每条摘要的分析,给每个候 选答案的可信度打分,然后将可信度低于给定阈值的候选答案排除掉。如果剩下的候选 答案只有一个,则无需最佳答案选择模块做进一步处理,直接将答案返回给用户即可。 否则,需要最佳答案选择模块做进一步处理才能确定问题的准确的答案。具体方法见第 三童。 2 4 2 基于c f n 的候选答案抽取方法 在基于c f n 的实现方案中,答案的抽取方法类似于基于c f n 的问题分类方法,即: 首先对g o o g l e 返回结果的摘要进行分句,然后找到那些包含问句中目标词的句子,并 对这些句子进行句法分析,根据句法分析的结果推断出问句所需要的语义角色。例如, 对于“谁发剪7 龟灯? ”,问题的答案是个“认知者( c o g ) 。通过对“电灯由爱迪生发明” 1 5 太原理工大学硕士研究生学位论文 的句法分析可知:“由爱迪生”充当“认知者( c o g ) ”的角色,也就是说答案包含在这个 介词短语中,然后利用命名实体识别技术即可抽取出答案。 2 4 3 最佳答案选择 两种方案的最佳答案选择模块使用的选择策略是相同的,即:分别用每个候选答案 和问句中的关键词组合成一个逻辑与关系的检索式,然后比较每个检索式对应的g o o g l e 查询统计结果,将返回结果最多的作为最佳答案。 例如,对于“日本的国花是什么j ”,得到两个候选答案“樱花 和“菊花”,分别 将每个候选答案和问句中的关键词“日本 和“国花组成逻辑与检索式: 、“b 本”a n d “国花”a n d “樱花” 2 、“h 本”a n d “国花”a n d “菊花” 这两个表达式对应的g o o g l e 检索统计结果分别是: l 、艏2 1 5 , o o o 项符合“b 本”a n d “国花”a n d “樱花”的查询结果 2 、约有4 0 4 0 0 项符合“b 秘a n d “国花”a n d “菊花”的查询结果 由于“樱花 对应的统计结果大于“菊花 ,因此选择“樱花”作为最佳答案。 2 5f a o 库 由于我们建立的问答系统是面向开放领域的,因此既要考虑系统准确率,又要考虑 系统的效率。建立f a q 库的目的就是为了提高问答系统的效率,同时也有助于提高系 统的准确率。对于用户输入的问句,首先要查找f a q 库中是否已经存在该问题,如果 存在则直接将答案返回给用户。由于f a q 库的规模会越来越大,因此必须要设计好f a q 库的结构。针对第一种方案,我们给出f a q 库结构。具体内容在第三章介绍。 1 6 太原理工大学硕士研究生学位论文 第三章基于h o w n e t 的实现方案 3 1h o w n e t 简介 1 9 9 8 年,董振东和董强创建了h o w n e t ,又称知网。h o w n e t 是一个以汉语和英语词 语所代表的概念为描述对象,以揭示概念与概念之间,以及概念与其属性之间的语义关 系为基本内容,并z 日匕l - , 由计算机处理的常识知识库【1 6 1 。 计算机化是h o w n e t 的重要特色。h o w n e t 是面向计算机的,是借助于计算机建立的, 将来可能是计算机的智能构件。h o w n e t 作为一个知识系统,名副其实的是一个网而不 是树。它所着力要反映的是概念的共性和个性,例如:对于“医生”和“患者”,“人”是它 们的共性。h o w n e t 在主要特性文件中描述了“人”所具有的共性,那么“医生”的个性是他 是“医治”的施事,而“患者”的个性是他是“患病”的经验者。对于“富翁”和“穷人”,“美女” 和“丑八怪”而言,“人”是它们的共性。而它们的个性,即:“贫”、“富”与“美”、“丑”等 不同的属性值,则是它们的个性。同时h o w n e t 还着力要反映概念之间和概念的属性之 间的各种关系。 由此可见,h o w n e t 是一部比较详尽的语义知识词典,为自然语言处理的研究提供 了宝贵的资源【1 9 1 。 h o w n e t 中有两个基本而又重要的概念:“概念”和“义原”。 知网中的概念是对词汇语义的一种描述。每一个词可能对应一个或几个概念。通常, 词的每一个义项都对应于h o w n e t 中的一个概念。例如:“时候 一词在知网中被表达 为两个概念,而“打一词对应的概念则多达3 6 个。h o w n e t 中的概念是使用“知识描 述语言 ( k n o w l e d g ed e s c r i p t i o nm a r k u pl a n g u a g e ,简称k d m l ) 来描述的。其格式如 下: n o = 概念编号 wx = 词语 gx - 词性 ex = 例句 d e f = 词语的定义 其中,x = c 表示汉语,x = e 表示英语。 1 7 太原理工大学硕士研究生学位论文 例如:“时候”一词对应的一个概念的描述如下( 省略了英文部分) : n o = 0 7 5 9 1 4 wc = 时候 gc = n e c 2 d e f - - t i m e l 时间 通常,仅当一个词对应的概念很多时,知网才在“ex 项有对应的例句。例句有 助于实现语义消歧【1 6 1 。概念的k d m l 描述中,最重要的一项是d e f 项。d e f 项是用义原 对一个概念进行解释的。在h o w n e t 中,义原类似于汉语中的“义素”,是最小的不易 于再分割的,意义的最小单位1 6 1 。到目前为i l h o w n e t 共有1 5 0 0 多个义原【1 9 】。 义原和概念的关系就类似英文的词根与单词的关系一样:英文的词根都具有一定的 意义,并且数量基本固定。大量单词就是以词根为基础形成的。例如,词根“i n t e r ,它 与其它词根相互组合后就形成了“i n t e r n a t i o n a l ”、“i n t e r a c t ”等词。甚至根据需要还可以生 成新词,如:“i n t e m e t ”等。显然,具有相同词根的单词,在语义上必然有某种相似性, 如以上三个单词都含有“交互”的意思。同样,用相同义原定义的概念也必然具有语义上 的相似性。例如:“汽车”和“火车”都使用了义原“l a n d v e h i c l e 车”来定义。它们都表示陆 地上的交通工具。但是我们也发现,定义“飞机”一词的义原是“a i r c r a f t l 飞行器”。直观的 感觉是:飞机、汽车、火车都是交通工具,三者的语义应该具有相似性。那么,h o w n e t 是如何反应这种相似性的呢? h o w n e t 是通过将所有的义原分i - j 另t j 类,来反映这种相似 性的。h o w n e t 将所有的义原划分为1 0 个大类: 1 、e v e n t l 事件 2 、e n t i t y l 实体 3 、a t t f i b u t e l 属性 4 、a v a l u e l 属性值 5 、q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论