(计算机应用技术专业论文)基于潜在语义分析的大学概况中文问答系统.pdf_第1页
(计算机应用技术专业论文)基于潜在语义分析的大学概况中文问答系统.pdf_第2页
(计算机应用技术专业论文)基于潜在语义分析的大学概况中文问答系统.pdf_第3页
(计算机应用技术专业论文)基于潜在语义分析的大学概况中文问答系统.pdf_第4页
(计算机应用技术专业论文)基于潜在语义分析的大学概况中文问答系统.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于潜在语义分析的大学概况中文问答系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于潜在语义分析的大学概况中文问答系统摘要问答系统是指能够根据用户输入的自然语言描述的问题从大量文本集中找出确切答案的计算机程序。目前的检索系统只能定位出相关文本,却把具体信息检索的任务留给了用户自己,人们迫切需要一个能定位出用户感兴趣的信息而不是整篇文本的检索系统。基于以上原因,我们设计了一个基于潜在语义分析技术的大学概况中文问答系统q a s y s ,由于中国大学有上千所,每所大学的网页又是包罗万象,想查出确切信息要花费很长的时间。本系统将使这种查询变得相对简单,这对于想了解各院校情况的高考生们会提供很大的帮助。本系统引入了潜在语义分析技术进行信息检索,避免了传统信息检索系统的同义词和多义词问题,提高了检索精度。另外,自然语言处理技术在问答系统中也起着至关重要的作用,包括特征项抽取、词频统计、语法和语义分析等。整个系统划分为三个模块:文本库预处理模块、问题分析模块和答案抽取模块。文本库预处理模块包括网页抓取、h t m l 格式滤除、分词、标注、词频统计、特征项提取等工作,并根据t 件i d f 变形公式计算每一个项的权重,生成项文本矩阵:最后,对项文本矩阵进行奇异值分解生成潜在语义空间。问题分析模块同样要对用户提出的问题进行分词、标注、词频统计以及特征项提取,并根据词频把问题表示成易于处理的向量形式:这一模块中最重要的任务是进行答案类型分析,针对于不同类型的问题制定相应的答案抽取规则,以便在答案抽取阶段应用这些规则来抽取问题的答案。在答案抽取模块,包括相关文本检索、相关文本段检索以及答案限长处理三部分内容。本文中提出了不同的文本和文本段的权重计算函数将潜在语义分析技术与关键字匹配结合起来,即考虑了查询的语义信息,又充分认识到焦点对于返回答案的不容忽视的限制性作用,实验表明,将二者结合起来的检索方法比单纯采用其中一种的结果要理想得多;最后验证返回文本段的长度,将答案限制在5 0 字之内返回给用户。关键词:问答系统:潜在语义分析;信息检索;文本段检索;自然语言处理基于潜在语义分析的大学概况中文问答系统a b s t r a c tq u e s t i o nj 气n s w e r i n gs y s t e mi sac o m p u t e rp r o g r a mw h i c ht of i n dt h ee x a c ta n s w e rt ot h eu s e r sn a t u r a l 一l a n g u a g eq u e r yi na1 a r g ed o c u m e n tr e p o s i t o r y 。w ed e s i g nac o l l e g eg e n e r a lc o n d i t i o n sc h i n e s eq u e s t i o na n s w e r i n gs y s t e mb a s e do nl s a ( q a s y s ) i tm a k e st h er e t r i e v a la b o u tt h ec o l l e g ec o n d i t i o n sq u i c k l ya n ds i m p l e q a s y sr e t r i e v a li n f o r m a t i o no v e r c 0 eaf u n d a i i l e n t a lp r o b l e mo fs y n o n y ma n dp o l y s e m yi nt h ec o n v e n t i o n a lr e t r i e v a ls y s t e mb yl s a t h e r ea r et h r e em o d u l e si nt h i ss v s t e m :t h ed o c u m e n tr e p o s i t o r yp r e p r o c e s s i n gm o d u l ei n c l u d i n gw e bp a g e sc r a w l e r i n g 、h t m lf o r m a tf i l t e r i n g 、s e g m e n t a t i o na n dt a g g i n ge t c f i n a l l y ,w er e c e i v eat e r m d o c u | 【l e n tm a t r i xb yc o m p u t e rt h ew o r df r e q u e n c y t h i sm a t r i xi st h e na n a l y z e db ys v dt od e r i v eo u rp a r t i c u l a r1 a t e n ts e m a n t i cs t r u c t u r em o d e lf o rl a t e rd o c u m e n tr e t r ie v a la n dp a s s a g er e t r i e v a l q u e s t i o na n a l y s i sm o d u l ei si m p o r t a n tt oq as y s t e m g i v e naq u e s t i o n ,t h es y s t e mg e n e r a t e san u m b e ro fw e i g h t e dr e w r i t es t r i n g s a n dt h e n ,t r a n s f o r mt h eq u e r yi n t oav e c t o rb yt h o s ew e i g h t e dr e w r i t es t r i n g s i nt h i sm o d u l e ,l a ye i i l p h a s i so nq u e s t i o nc l a s s i f i c a t i o n s y s t e mc l a s s i f i e saq u e r yi n t ot h ep r e d e f i n e dc l a s s e sb a s e do nt h et y p eo fa n s w e ri ti s1 0 0 k i n gf o r ,t h e nu s et h eq u e s t i o nt y p e st oi d e n t i f yac a n d i d a t ea n s w e rw i t h i nt h er e t r i e v e ds e n t e n c e s a n s w e re x t r a c t i o nm o d u l ei n c l u d i n g :d o c u m e n tr e t r i e v a l ,p a s s a g er e t r i e v a la n da n s w e rm a t c h i n g s y s t e mp r o v i d eav a r y i n gm e t h o dt oc a l c u l a t ew e i g h ta n ds o r tt h ea n s w e rb yt h ew e i g h t f i n a l l y ,t h ea n s w e rb e e nr e s t r i c t e dw i t h i n5 0w o r d sl o n ga n dr e t u r n e dt ou s e r k e y w o r d :q u e s t i o na n s w e r i n gs y s t e m :l a t e n ts e m a n t i ca n a l y s i s :i n f o r m a t i o nr e t r i e v a l :p a s s a g er e t r i e v a l :n a t u r a ll a n g u a g ep r o c e s s i n g基于潜在语义分析的大学橇况中文问答系统0 前言互联网的普及使人们对网上信息的应用需求不断提高。但是且前人们还主要是利用搜索引擎和分类目录来进行网络查询,而这种查询主要是基于关键字匹配进行的,这种用词汇信息表述问题的不足是缺少上下文背景信息。而且,这种检索得到的结果往往是数以万计的相关网页,而这些网页中能够满足用户需求的却只有一小部分,用户必须逐个阅读这些网页去寻找自己真正感兴趣的信息,这样浪费了大量的时间;另外,是否存在没有被检索出来的相关网页也无从知晓。面对庞大的海量信息,如何以最快的速度准确而详尽地找到用户感兴趣的信息已经成为信息时代的一个重要研究课题,我们急需一个更加高效和人性化的搜索引擎,问答系统应运而生。问答系统的设计目标是:允许用户以自然语言的方式提闯,并以自然语言的方式精确地回答用户提出的问题。问答系统不同于一般的信息检索。传统信息检索主要基于三种模型:布尔模型、概率模型和向量空馐嘎魏;盈m 嘲协篾湔溺咧鲤羹蓠嚣篙鬈潍袋鹬翻藏基鬟,堪懋删灌躔粪蓄;箱瓣爨鋈犁妊替篓测臻掣韵幽;巍转貔翟翟冬葚霎蒿饼蠹塾鎏龋要则髦镒据毽至骚挺i 型嚯鹰懋揣隅娄霉;馨爨萄饕葫 孽愿冀萄截绑塑鬓箭基嚣熟| 霪写案懑淄灌誓;缈臻野生株h b v d n a 复制有明显的抑制作用。此外,在h e p g 2 2 1 5 内,前c 区基因组成成分的表达也可以导致h b v 复制显著的减少。通过n d r t be mb 1 0 t 分析,发现转染细胞质中无h b v前基因组r n a 水平减少的证据,提示这种作用不是通过抑制h b v 前基因组r n a 转录来实现的。已经很确定册v 前基因组r n a 与多聚酶基因产物结合构成由p 2 l 核心蛋白混合装配的核衣壳结构l l “”i 。随后伴有前一c区基因的表达,核衣壳颗粒包含野生型p 2 i 和种2 2k d a 的蛋白产物。这种p 2 2 种群是一种前c 基因产物( p 2 5 ) 在去除信号肽序列后的蛋白分解产物。实际上,当表达前c 区蛋白非分泌的p 2 2 结构的质粒与表达野生型h b v 的结构共同转染h c c 细胞时,在核农壳中检测到p 2 2 的比例大致与d 2 l 相同。更重要的是这种颗粒的结构与h b v 复制明显的抑制作用相关。一种可能的假设是h b v 复制高水平的抑制作用实际上是细胞内p 2 2 和杂交核壳水平的升高。在d 2 2 蛋白存在或缺失条件下病毒核壳产物的沉降属性是相同的。在h c c 细胞,分别各自构建表达野生型的p 2 l 核心和p 2 2 蛋白的质粒无论是单独还是共同转染细胞后,在细胞内表达p 2 i 核心和p 2 2 蛋白浓度是基于潜在语义分析的大学概况中文阃替系统l 绪论1 1 问答系统的发展史”问答系统有着相当长的历史。1 9 5 0 年,著名的英国数学家图灵发表的论文c o m p u t i n gm a c h i n e r ya n di n t e l l i g e n c e 中,提出了“机器智能”的概念,并且提出了判断一个计算机系统是否具有智能的实验方法,也就是通过自然语言问答的方式,判断机器是否具有智能,这种被称为“图灵测试”的方法是最早的问答系统模型。之后,问答系统不断发展。早期较著名的系统有1 9 6 1 年b g r e e n 等在美国林肯实验室为美国橄榄球季候赛设计的b a s e b a l l 系统,该系统把关于橄榄球比赛的相关数据存在底层数据库中,通过对用户的问题进行语言学的分析之后,产生查询来检索底层的结构数据库,回答用户的有关问题。基于同样原理构建的问答系统还有1 9 6 3 年r l i n d s a y 在美国卡内基技术学院设计的s a d s a m 系统、以及1 9 7 3 年w 0 0 d s 等开发的l u n a r 系统等。以上这些系统都是基于受限领域的问答系统,主要局限性就在于它的底层是一个基于受限领域的结构化数据库,而不是开放领域的结构文本库,由于特殊格式系统中的种种格式限制,使研究者们大大不满,因为就一个专门领域来说,最方便的还是使用不受特殊格式限制的系统来进行人机对话。这样就出现了以文本为基础的系统。最早的在线文本检索系统是1 9 6 6 年r f s i 姗o n s 、j f b u r g e r 和r e l o n g 设计的p r o t o s y n t h e x i 系统,它是以文本信息的存贮和检索方式进行工作的。从那以后,文本检索系统不断地被改进和发展。i n t e r n e t 的普及为问答系统的研究注入了新的活力,1 9 9 3 年诞生了第一个面向国际互联网的自然语言问答系统s t a r t ,它能够回答针对m i t 信息实验室的地理学知识的用户提问。s t a r t 内部将知识库中的信息组织成主体一关系一对象的三元组,然后和语义分析后的用户问题相匹配,系统本身没有知识的扩充,要想回答多领域的问题必须维护一个较大的知识库。该系统回答问题能力有限且精确度不高。同年。j u l i a nk u p i e c 等设计了舢r a x问答系统,该系统使用百科全书作为知识库来回答一般性的知识问题,它采用了基于统计与语言学知识相结合的技术,通过布尔搜索引擎和句法分析器从百科全书中抽取问题的答案。国际上第一个提供自然语言问句接口的网络商业服务商是a s k j e e v e s 公司,通过手工收集大量的自然语言问旬以及相应的u r l 链接,提取问句的问题模板并进行分类。该系统的精确度并不高,但却因其方便易用而广受欢迎。问答系统发展的另一个飞跃,是在1 9 9 9 年t r e c 一8 会议上引入了对问答系统的评测后。t r e e 是由美国国家标准技术局( n i s t n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ) 和国防部高级研究计划局( d a r p a t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 赞助并组织的文本信息检索领域一个国际性标准评测会议。t r e c 评测方法有效而可行,且数据集规模庞大,在学术界有着相当的权威性。1 9 9 9 年t r e c 一8 会议上引入了q at r a c k 之后,问答系统引起了自然语言处理专家们的广泛兴趣。在t r e c 一8 中,有4 0 多个系统参加了评测,之后每一年参加t r e c 评测的系统都有几十个之多,这些参赛者有知誉全球的大公司象i b m 、s u n 等,也有来自世界各地的高校和科研机构,开放式的t r e cq at r a c k 极大地促进了问答系统的发展。基于潜在语义分析的大学概况中立问答系统1 2 问答系统常用的技术手段当前研究的问答系统主要包括:基于知识库的问答系统、自然语言界面的专家系统、基于传统i r ( + i e ) 的问答系统,等等。( 1 ) 基于知识库的问答系统基于知识库的问答系统包括c y c 、n k i ( u s ) 、n k i ( c h i n a ) 等,以n k i ( c h i n a ) 为例,n k i( n a t i o n a lk n o w l e d g ei n f r a s t r u c t u r e ) 是一个庞大的、可共享的知识群体,为科研、教学、科普和知识服务等提供有效的基础。它不仅集成了各学科的公共知识,而且融入了各学科专家的个人知识。n k i 问答系统包括1 6 个学科领域知识,可以对国家地理知识库、城市天气预报知识库、人物知识库等2 3 个库的知识进行查询。用户可以通过自由的自然语言的提问方式获取所需要的知识,输入形式可以多样化。基于知识库的问答系统都是把相关知识预先存于知识库中,为了得到满意的结果,必须具备尽可能完备的知识库,在知识库的建立与维护中,会用到知识表示、机器学习的一些相关技术。( 2 ) 自然语言界面的专家系统”1专家系统是以计算机为工具、利用专家知识以及知识推理等技术、理解与求解问题的知识系统,是人工智能应用研究的主要领域之一。自然语言界面的专家系统可以视为一个问答系统。在专家系统的人机接口模块中,将用户输入的自然语言转换为系统可接受的内部形式,将系统的输出转换为人可理解的外部形式,这样整个专家系统就和问答系统一样以自然语言的方式进行人机交互,回答用户提出的问题。中科院王树西开发的人物关系问答系统就是一个这样的问答系统。该专家系统允许用户通过自然语言对红楼梦中的人物关系进行询问。专家系统的开发工具较多、技术较成熟,并且答案也比较准确。但是,大部分专家系统推理方法单调、固定,只能做演绎推理,不具备常识推理能力。并且,专家系统的知识库严重不足,自动获取知识能力差,存在知识获取的瓶颈问题。所以,目前专家系统的适用范围非常有限。( 3 ) 基于传统i r ( + i e ) 的问答系统参加t r e cq at r a c k 评测的问答系统多是基于传统i r ( + i e ) 的问答系统。般来讲,信息检索( i r ) 是根据用户的查询对相关文本的检索过程,它之所以和问答系统密切相关,是因为在问答系统中,为得到相关答案用户也会构造查询进行检索。但是,所不同的是,检索只能返回整个文本,而不能把问答系统所要求的答案返回给用户,最后,还需要用户在这些返回的文本中去进一步寻找自己所需要的答案。问答系统中也常常用到信息抽取( i e ) 技术。1 9 9 9 年,r o h i n is r i h a r i 和w e il i在“支持问答系统的的信息抽取”中讲解了问答系统中信息抽取( i e ) 的使用。指出:信息抽取中象有名实体识别常常是问答系统问题类型处理中不可或缺的组成部分;强健的自然语言分析器为问答系统处理用户所提出的问题提供了个结构化的基础;非受限领域的信息抽取,象多重关系和一般事件的抽取等,有望给问答系统带来一个新的突破。问答系统是一项综合性科学,涉及到计算语言学、机器学习、信息科学和人工智能学等很多领域的相关技术,其核心是自然语言理解技术。基于潜在语义分析的大学概况中文问答系统不论是英文问答系统还是中文问答系统,都离不开自然语言处理。处理用户提出的问句、检索相关文本和段落以及抽取答案时,都要用到自然语言处理技术。除了上面讲到的信息检索和信息抽取外,问答系统常用到的自然语言处理技术还包括:关键字与模式匹配技术、自动摘要技术、词法分析技术、句法分析技术、语义分析技术、等等。1 3 问答系统的发展前景”1随着各个相关领域的发展及专家们对问答系统的关注,问答系统也不断发展和成熟,但是对问答系统的要求也越来越高:( 1 ) 应用:问答系统的应用极其广泛如自动帮助系统、网络资源访问系统、在线百科全书系统等,未来的同答系统应该能够处理多语言的数据并且能够使用多媒体资源。( 2 ) 用户:目前的问答系统只能回答独立的基于事实的问题。然而不同的用户可能要求问答系统具有不同的功能。在线用户可能希望问答系统能够提供实时交互并且易读的答案:有能力的用户可能希望问答系统具有实时更新的用户模型,因此只提供给用户最新的信息:还有的用户希望问答系统给他们提供一些信息的背景知识并且最好按照时间或地点将这些信息组织起来;一些领域的初学者更希望问答系统给出的答案是针对他们自己的理解水平的。( 3 ) 问题类型:问题类型趋于更广泛,不再是传统的事实问题,而是更复杂的形式,如:列举、归纳和解释。多语言问答系统也会出现,这样用户可以用自己的母语发问,而系统从多语言文本中检索并且提交给用户符合他们母语的答案。这就要求多语言信息检索和机器翻译领域的重大突破。( 4 ) 答案类型:提交给用户适合的答案是问答系统中最大的难点之一。当找不到合适的答案或找到互相矛盾的答案时,系统必须要处理这些情况。所以提交答案将是今后研究的主要方向,这将大大酶取决于文本概括鹩能力。雨且未来的问答系统将不只局限于文本处理领域,它将包括多种媒体,如语音、图像等,最后系统将把答案以适当形式提交给终端用户。( 5 ) 表示:因为问答系统的最终目的是根据用户的需求提供相应的信息,所以成功的关键将取决于能否更好地满足用户的需要。将来的研究将着重放在交互式检索、答案表示和概括、对话式界面和人机交互上面。以人类习惯的方式从互联网上获取信息始终是人们追求的目标,而自然语言问答系统的出现使这个目标有了实现的可能。但是,问答系统是一项规模较大的系统工程,涉及到自然语言处理技术、统计计算语言技术、知识表示、人机交互、多媒体处理和智能学习系统等许多领域,它的发展也必将取决于这些相关领域的发展。1 4 课题涉及的主要研究内容本课题的晷的是对自然语言问答系统进行深入的了解,掌握国际和国内问答系统研究的新动态,在总结前人工作的基础上,设计和实现一个基于潜在语义分析的大学概况中文问答系统模型。系统的文本检索和文本段检索都是基于潜在语义空间进行的,对潜在语义分析技术的基于潜在语义分析的大学概况中文问答系统引入是系统的一大特色。其基本思想是:对文本库进行预处理构成项文本矩阵,对该矩阵进行奇异值分解形成潜在语义空间:然后对用户问题进行处理,根据问题特征项的特点分析其可能的答案类型,再把问题表示成易于处理的向量形式,投影到潜在语义空间;计算查询与文本的潜在语义空间余弦相似度权重作为文本剽囊蓊隰掣g 型;掣哪等夔篙锚公品抖萎囊攀毪掰翻篓鬈硝凛。嚣裂魏青剁掣骨篇揣翻羹攀崾氇堪壕搿倭尚湍潞汹。审畚 鲤瓣藩喾瞬甜簖墼细胞增殖过摧融斟毽羹j 季臻强删翌型羹础暂州嚣露瑚爝胀j踩雕鹫基糊篓薹鸶磊刘掣起丽j 洄吲溜氆毋镬蠕哩淬矗星曩粪囊鬟塔崖哥黼制希肴j琶士掣曜曼篓羹f ;嬷赙理蠹黩召蔼黍噬蚴瑚趔差差警? 新一产,薰鬟念融赆整塔囊一熹坐娶舍氰塑本实验c r e l 是核因子kb的成熟体形式,静息状态下,其与tkb 蛋白结合呈无活性状态存在于胞质中,r a p a 可以预防c d 2 8 介导的ikbo 的下调,抑制了转录因子c - r e l进入细胞核,使i l 一2 基因表达下调【2 “。本实验应用第一部分的实验体系,对术后14 d 用药组和对照组大鼠脾淋巴细胞的增殖能力进行检测,发现r a pa 组对于来自s d 鼠的刺激细胞表现为较低的增殖反应,同时对于b n 鼠淋巴细胞也呈现较低的反应性,因此推测r a p a 可能通过抑制淋巴细胞的增殖达到抑制角膜排斥的作用。r a p a 与c s a 作用于细胞周期的不同环节【2 3 】( 见图2 5 ) ,联合应用具有协同作用。通常,免疫抑制剂有3 种与剂量有关的反应,即免疫抑制作用、非免疫毒性和免疫反应缺陷。联合应用作用机制不同的免疫抑制剂可r 乱:臻鍪滔化早期活化后新d n a 或有丝分裂图25r a p a 和c s a 作用x基于潜在语义分析的大学概况中文问答系统引入是系统的一大特色。其基本思想是:对文本库进行预处理构成项文本矩阵,对该矩阵进行奇异值分解形成潜在语义空间:然后对用户问题进行处理,根据问题特征项的特点分析其可能的答案类型,再把问题表示成易于处理的向量形式,投影到潜在语义空间;计算查询与文本的潜在语义空间余弦相似度权重作为文本权重的一个重要因素,同时充分考虑到焦点在信息检索中所起的作用,按文本中出现的问题焦点的频度给文本设一附加权重,文本的权重由相似度权重与附加权重的乘积获得,按权重大小找到与问题相关的文本:文本段抽取是问答系统的关键,本系统中取文本中具有完整意义的句子作为一个文本段,在抽取文本段之前,先分析其语义类型是否与问题类型一致,若一致,则把该文本段视为一个独立的文本表示成向量形式投影到潜在语义空间,分配权重时除了考虑文本段与查询的潜在语义空间相似度权重、焦点权重外,还要考虑包含该文本段的文本权重,三者结合得到文本段权重,把权重高的作为最佳答案返回。由于引入了潜在语义分析技术,不用进行特征项扩展就可以解决词的同义和多义现象,大大降低了系统的复杂性,从而提高了系统的性能。1 5 论文的组织全文分六章阐述了基于潜在语义分析的大学概况中文问答系统的设计与实现:第一章介绍了课题研究背景和问答系统的发展史,并阐述了问答系统常用的技术手段及发展前景。之后说明了本课题的主要研究内容。第二章介绍了问答系统的通用体系结构,包括问题分析模块、文本库预处理模块、候选文本选择及分析模块、答案抽取及分析模块、匹配答案并排序模块及提交答案模块,并对各个模块进行了详细的阐述和说明。第三章对本文采用的潜在语义分析技术l s a 进行了详细的介绍,包括其产生背景、基本思想、理论基础、数学依据、实现方法以及潜在语义空间中各种相似关系的计算等等。第四章是系统灼总体设计,包括系统的设计目标、设计思想和体系结构,并对体系结构图中的各个模块进行了简要的说明。第五章是系统的具体设计和实现,详细地介绍了系统的三个功能模块:文本库预处理模块、问题分析模块和答案抽取模块。第六章为结束语,总结了课题的一些工作,并对系统的不足和下一步应该进行的改进工作做了阐述。基于潜在语义分析的大学概况中文问答系统2 问答系统通用体系结构在了解问答系统的各个组成部分之前,我们先来看看问答系统的通用体系结构,图2 1 给出了问答系统的通用体系结构。需要说明的是,不是每个问答系统都会采用这样的体系结构,象a n s w e r b u s ”、a s k 船r ”1 等系统,这些开放领域问答系统用w e b 资源替代大规模文本库,在处理过程中,有效地利用现有的较成熟的搜索引擎,如g o o g l e 、y a h 0 0 等,其体系结构中没有文本库预处理的过程,而且增加了搜索引擎选择模块,然后直接利用搜索引擎返回的结果进行相关文本选择。但是仍有很多基于大规模文本库的问答系统采用下面的体系结构或其中的一部分,只是实现的方式以及过程有所不同。图2 一l问答系统通用体系结构图f i g u r e2 一lg e n e r i ca r c h i t e c t u r ef o raq u e s t i o na n s w e r i n gs y s t e m这里先简要介绍一下这个模型的每一个模块;( 1 ) 问题分析:系统接受了用户提出的问题之后,要做的第一个工作就是对该问题进行分析,并将问题做适当的表示,以供下一模块的输入。例如,如果下一模块候选文本选择是一个信息检索系统,那么问题可能就被表示成一组只保留词干、带有权重的项的集合:同时还要根据问题的特征项确定问题类型,如日期型、地点型、人物型等等。( 2 ) 文本库预处理;对于待访问的文本库,在形成查询检索之前,需将文本库处理成适合于问答系统的形式,如进行词性标注、有名实体识别和语段标识等。但是这一过程不基于潜在语义分析的大学概况中文问答系统是必须的,象上面提到的a n s w e r b u s 系统,它没有经过这个过程,而是利用搜索引擎得到相关文本后,再把文本解析成句子,在这个层次上,对句子进行分析。( 3 ) 候选文本选择及分析:从文本库中抽取几篇可能含有答案的文本,并对这些候选文本按含有答案的可能性大小进行排序。大多数的t r e c 问答系统都是用传统的信息搜索引擎搜索可能包含有答案的候选文本,这就要求确定搜索引擎的种类。检索到相关文本后,对这些相关文本做进一步的分析,当然,如果系统已经对所有文本库中的文本做过预处理,这一步就不必再进行。文本分析所要做的主要工作是进行句子拆分、词性标注和语段分析。( 4 ) 答案抽取及分析:得到了相关文本后,系统一般是利用问题分析模块中所选取的问题关键字与相关文本中的旬子进行匹配来得到候选答案,通常要分析这些候选答案的类型,如日期型等,并按某种权重对这些候选答案进行排序。( 5 ) 类型匹配并排序:几乎所有的问答系统都会利用问题类型来判断答案是否准确。按照用户期望的答案类型对问题首先进行分类,比如,“w h oi s ”将被归为“人物组织”类型;“w h e nd i d ”将被归为“日期时间”类型等。这样通过问题与候选答案类型的匹配进一步确定候选答案是否正确。( 6 ) 提交答案:将最终得到的答案返回给用户。2 1 问题分析问题分析包括两部分内容,一个是将用户的自然语言形式的询问进行切词、过滤、重组,表示成系统所能识别的形式提交给下一模块以供查询之用。另外就是要根据问题确定所要搜索的答案类型。问题分析模块的输入是自然语言问题,根据系统的不同要求,对输入的形式可能会有不同的限制。例如只允许用“受控语言”( 在词汇和语法上有所限制) 进行问题的输入,或以填写表格的形式提交用户的提问。这样处理可以大大减少问题分析模块的负担,但是却是用户界面友好性大大降低。该模块的输出是重组的问题表示,如滤掉停用词的标有权重的项的集合,这些项可能是问题答案的子串,把这个集合提交给下一模块用以检索相关文本。有时还要对这些提取的项进行同义词扩充等语义处理,以提高检索的查全率。很多系统都对问题重新表述以提高得到答案的机会。l a w r e n c e 和g i l e s 提出了s p e c i f i ce x p r e s s i v ef o r m s ”“,将用户的问题用一系列相关的短语来表达,便于向搜索引擎提交。问题分析模块中一个更重要的工作就是问题类型分类( q u e r yc l a s s i f i c a t i o n ) ,以确定所要找的答案的语义类型。这些类型包括:日期型( d a t e ) 、人物型( p e r s o n ) 、地点型( p l a c e ) 、数量型( q u a n t i t y ) 等。首先要找出问题的疑问词,根据疑问词分析可能的答案类型,如:“w h e n ”的问题对应着d a t e ;“w h e r e ”的问题对应着p l a c e ,“w h o ”的问题对应着p e r s o n ,“h o wf e w ”、“m a n y ”、“m u ch i ,等问题对应着q u a n t i t y 。这些是有着直接对应关系的语义类型,可以通过很简单的规则予以确定。但是英文中还有一些疑问词象“w h i c h ”、“w h a t ”不会包含明确的语义信息,需要作进一步的处理。s a b n e y 1 等把这种问题分成两种形式:“w h a t ( w h e r e ) x ”a n d “w h a ti st h e x ”,其中x 表示包含的名词,把问题中的名词x 提取出来,通过该词在词典中映射的语义来确定问题的类型。问题类型分析对问答系统有着至关重要的影响,因此也引起了越来越多的系统对该模接于潜在语义分析的大学概况中文阀符系统块的重视。很多系统根据要找的答案类型构造出相应的问题类型,并努力将输入的问题归结到这些类型当中。一旦所要找的实体类型确定之后,在答案抽取模块中,很容易确定候选答案中哪一个更符合用户的要求。经统计分析发现,中文问答系统和英文问答系统一样,可以把用户问题分为若干种类型。下表列出了常见的问题类型“”:问题类型疑问词例子淘问人谁谁是大连理工大学校长?询问时间什么时候何时哪年香港何时回归祖国?询问数量多少几多大多高大连理工大学一共有多少学生?询问定义是什么什么是21i2 1 2 程是什么?询问地点或位置哪里哪什么地方大连理工大学在什么地方?询问原因为什么为什么大海有潮起潮落?其它一一一一表2 一l 中文问答系统常见问题分类t a b l e2 - lc o m m o na n s w e rt y p e so fc h i n e s eq u e s t i o na n s w e r i n gs y s t e m针对于不同类型的问题制定相应的答案抽取规则,以便在答案抽取阶段应用这些规则来抽取问题的答案。例如针对于“询问定义”类型的问题,可以制定这样的规则:“答案= b e h i n a d ( 询问关键字+ 是称为定义为) if r o n t ( 是称为叫做定义为等+ 询问关键字) ”。即:问题的答案是在由查询关键字加是、称为、定义为等构成的串的居面部分,或者在由是、称为、定义为、叫做7 等加被询问关键词所构成的串的前面部分。规则的构造要简练、易于储存和表示、概括性强,但对于大量的某个特定问题也可以制定针对性较强的规则,这样的规则数量是很少的。这些规则可以用符号语言形式化的表示出来,系统内实现了对这种符号语言的解释器,可以动态的对规则解释执行。在实际的处理过程中,还存在相当的一部分问题很难确定它的问题类型,这样的问题称为“其它”类型。对于这样的问题不能制定具体的规则,可以采用检索结果中权重较高的作为问题的候选答案。2 2 文本库预处理这个模块不是问答系统必需的,正如前面提到的,有很多基于w e b 的问答系统没有经过文本库预处理,而是选用某个搜索引擎直接搜索出与用户查询相关的文本,在此基础上对文本进行分析。但是,对于大多数基于大规模文本库的问答系统,对文本库进行预处理还是十分必要的。这些预处理包括词性标注( 中文问答系统首先要进行分词处理) 、有名实体识别和语段标识等自然语言处理过程。然后再存储这些标注的结果。文本库预处理流程图如下:基于潜在语义分析的大学概况中文问答系统图2 - 2 文本库预处理流程图f i g u r e2 - 2f l o w c h a r to ft e x tr e p o s i t o r yp r e p r o c e s s i n gh t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 是一种用于建立超文本超媒体的标识语言,是s g m l ( s t a n d a r dg e n e z a l i z e dm a r k u pl a n g u a g e ) 的一个予集。我们常常浏览的网页多是基于h t m l 格式的,即由一个个单元组成,标记形式为: 或 。在一个h t m l文档中,我们感兴趣的内容并不多,大多数的内容都是h t m l 的格式信息,因此,在文本库预处理阶段,我们先要把下载下来的网页进行h t m l 格式滤除,把我们所关心的文字信息抽取出来保存到本地文本库中。分词是中文问答系统所特有的过程,这是由中英文语言的差异决定的“”:( 1 ) 西文为拼音文字、汉语是表意文字;( 2 ) 西文书面语言词与词之间有空格,而汉语词与词之间无空格;( 3 ) 西方语言的同音词很少,汉语的同音词很多;( 4 ) 西方语言多有形态变化,汉语缺少形态变化;( 5 ) 西方语言语法已经形成规范,汉语语法尚未形成规范化;( 6 ) 汉语的自动处理是多学科和跨学科的,需语言学成果;由于中文不象西文那样词与词之间有空格,所以首先要对中文文本进行分词处理,这在中文信息处理中是一个至关重要的工作,分词的准确性直接影响着系统的性能。分词按一定的规范进行,1 9 9 8 年统一制定了信息处理用现代汉语分词规范,主要包括:( 1 ) 空格或标点符号是分词单位的分割标记;( 2 ) 分词单位包括词和少量结合紧密、使用稳定的词组;( 3 ) 五字和五字以上的谚语、格言等,分开后若不违背原义应予切分;( 4 ) 结合紧密使用稳定的词组,分开后若违背原义或影响进一步处理,则不予切分;( 5 ) 惯用词、有转义的词或词组、略语、儿化的分词单位、外来词一律为分词单位:等等。分词以分词规范为准,还要考虑具体的应用环境等其它因素。另外由于中文中大量同义词的存在以及语法无统一规范,进行必要的语义研究也是必不可少的,本文中采用了潜在语义分析技术对语义进行处理,下一章会有详细介绍,这里不再说明。经过分词处理之后的文本是一个词串,而其中的每一个词都可能有多种词性和词义,如何根据上下文确定每个词的词性就是词性标注所要做的工作。词性标注在问答系统中是至关重要的,宜接影响到问题的语义分类和答案匹配的结果。词性标注有很多方法,基本上可分为基于规则的方法和基于统计的方法两种。早期的标注工作多为基于规则的方法,基于潜在语义分析的大学概况中文问答系统效果一般;后来采用基于统计的方法,正确率有了很大的提高。近年来,人们试图把两种方法结合起来,使标注的效率有了更大的提高。特征项提取在问题分析模块中已经涉及到了,不论是问题还是文本库中的文本,都要表示成计算机所能识别的形式,6 0 年代末g e r a r ds a l t o n 等提出的向量空间模型( v e c t o rs p a c em e d e l ) 使这种表示成为可能。为了把文本表示成向量形式,首先要做的就是进行特征项提取,把文本表示成项的集合,然后根据项的权重把文本表示成向量。2 3 候选文本选择及分析候选文本选择就是从文本库中找出与用户查询相关的文本,即文本检索。候选文本选择模块的功能相当于我们常见的搜索引擎。我们在这一节里介绍一下文本检索的相关知我们知道,计算机并不具有人类的智能,所以将一篇文章提交给它之后,它不能象人类那样在阅读文章之后,能根据自身的理解对文章有所认识。确切地说,计算机只能识别出二进制代码0 和l ,要想让计算机识别文章,必须将文章转换成计算机厌能识别的形式。目前很多文本检索系统中,文本的表示主要采用g s a l t o n 的向量空间模型( v s m ) 。向量空间模型的基本思想是用向量来表示文本:( w ,毗,w 3 w 。) ,其中w i 为第i 个特征项的权重,那么怎样提取特征项昵? 一般可以选择字、词或词组,实验结果表明,提取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。有关特征项的提取在后面的章节中还会有详细的介绍,这里就不再一一赘述。提取特征项之后,构成特征项的集合:t e r m s = ( k ,i = l n ) :文本向量表示为:d j = ( w 1 j w2 j ,w 一,) :其中,w 。,:w e i g h t ( k ,) ,i = l n 表示第i 个词在文本j 中的权重。传统的文本检索根据权重函数的不同表示方法,有三种数学模型“:布尔模型、概率模型和向量空间模型。即权重函数w e i g h t 为布尔函数:rli fk io c c u r r i n gi nd j :w t = w e i g h t ( k 。) 刊l0e l s e查询由特征项和逻辑运算符“a n d ”、“o r ”和“n o t ”组成,文本与查询的匹配规则遵循布尔运算的法则:广1i fd ji nq :s i m ( d j ,q ) = i10e l s e布尔模型的主要优点是简单、速度快,易于表达一定程度的结构化信息。其缺点是:w 。没有反映词频f r e q ( i ,j ) = k 。在d j 中出现次数,把布尔模型作为文本的表示很不精确,不能反映特征项对于文本的重要性,缺乏定量的分析:而且表示过于严格,1 0基于潜在语义分析的大学概况中文问答系统则作为答案保留,若不一致则筛选掉该候选答案。把保留的答案按权重排序提交给下一模块。2 6 答案提交按照t r e c 的评测标准,答案是五个按权重排好序的文本段的列表,这些文本段不超过5 0 或2 5 0 字节。但是就实用角度来讲,作这样的硬性规定是不科学的。首先,无论是5 0 个字节或是2 5 0 个字节,都无法保证答案的完整性,而且未必符合语法规则,可读性也很差。相对于一个独立的文本段,用户更希望把答案放在源文件中,这样有上下文信息更便于用户理解。同时,问题的答案可能无法限制在2 5 0 字节以内,很多复杂的问题答案涵盖面很广,很难确定要把答案的哪一部分去掉才合适。随着用户需求的不断变化和提高,按照用户的需求去确定问题提交方式还有待于进一步发展。以上介绍的是问答系统的一般通用体系结构,在文章的后面将详细介绍本系统q a s y s的体系结构及其具体的实现。基于潜在语义分析的大学概况中文问答系统3 潜在语义分析技术良好的人机交互界面、系统的精确性以及实时性是评价问答系统的主要性能指标,其中,精确性是问答系统的首要目标。为达到这一目标,我们首先要对问题以及文本段进行正确的分词、标注、句法分析以及答案类型标注等预处理:而更加重要的是要正确计算出问题与文本之间的相关性,也就是提高信息检索模块的精确性,从而提高整个问答系统的精确性。当前的信息检索技术,都是通过关键字硬匹配来实现的,而汉语的表达方式是灵活多样的x基于潜在语义分析的大学概况中文问答系统3 潜在语义分析技术良好的人机交互界面、系统的精确性以及实时性是评价问答系统的主要性能指标,其中,精确性是问答系统的首要目标。为达到这一目标,我们首先要对问题以及文本段进行正确的分词、标注、句法分析以及答案类型标注等预处理:而更加重要的是要正确计算出问题与文本之间的相关性,也就是提高信息检索模块的精确性,从而提高整个问答系统的精确性。当前的信息检索技术,都是通过关键字硬匹配来实现的,而汉语的表达方式是灵活多样的,一个概念可以有多种不同的表达方式,不同语境下。一个词也可能表达有多种不同的意思。采用硬匹配技术必然会导致检索精度的下降,从而降低整个问答系统的性能。要改变这种现状,就要充分考虑到语义和语境信息,潜在语义分析技术的引入,有效地解决了同义词和多义词的问题,通过识别文本中的同义词,可以将信息检索效率提高1 0 3 0 ”。3 1 潜在语义分析技术的产生背景在第二章里已经介绍了传统的信息检索模型,即布尔模型、概率模型和向量空间模型,无论采用哪种模型,都是基于关键字硬匹配进行检索的,这样就可能产生词的间义和多义现象。所谓词的同义现象是指。不同的用户根据个人的需要、所处的环境、知识水平以及语言习惯等不同。对同一事物的表达方式也不一样,实验表明,对于同一事物,用相同词语表述的用户不到2 0 ,这样就导致用户的查询与文本索引项表面上不一致,但实际上两者却是匹配的,造成了漏查现象,使检索的查全率大大下降。查全率是返回的相关文本在文本集礁刘驭靼i 缝延拯厚舍凄锵狙裕豁弭转磊y 炎抗炎系统处于平衡状态,以维持机体内环境的稳定。机体遭受创伤打击后,机体为清除病原微生物和坏死组织,发生炎症反应,但过度x)基于潜在语义分析的大学概况中文问答系统q u e r y :“i d fi nc o i i l p u t e r b a s e di n f o r m a t i o n1 0 0 k u p ”a c c e s sd o c u m e n tr e t r i e v a li n f o r 玎i a t i o dt h e o r yd a t a b a s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论