(应用数学专业论文)基于网络的智能答疑系统的研究与实现.pdf_第1页
(应用数学专业论文)基于网络的智能答疑系统的研究与实现.pdf_第2页
(应用数学专业论文)基于网络的智能答疑系统的研究与实现.pdf_第3页
(应用数学专业论文)基于网络的智能答疑系统的研究与实现.pdf_第4页
(应用数学专业论文)基于网络的智能答疑系统的研究与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(应用数学专业论文)基于网络的智能答疑系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

兰广7 3 9 五0 4 河南大学研究生硕士学位论文第1 页 摘要 自动问答系统是当前自然语言处理领域的热点和难点,它综合运用自然语言 处理、信息检索等技术,对用自然语言描述的问题,自动生成简洁、准确的答案。 让计算机完全理解人类语言是非常困难的,因此目前还没有出现成熟的自动问答 系统。本文研究的基于网络的智能答疑系统,是基于特定领域,即远程教学领域 的自动问答系统。该系统服务于用户远程学习中的即时疑难问题解答,可有效提 高远程教学的质量。 本系统采用b s 体系结构来实现,主要包括问句理解分析、f a q ( f l r e q u e n t ly - a s k e dq u e s t i o l 3 ) 库问句匹配、学科文档库答案自动获取三个模块。 问旬理解分析模块采用分词和词性标泣、关键词提取及扩展、问句类型类别确定 等自然语言理解技术,实现对用户提问意图的准确理解;f a q 库问句匹配模块主要 采用本系统改进的句子相似度计算方法来实现用户问句的解答,该模块主要用于 实现用户常问问题的快速、准确解答;学科文档库答案自动获取模块在对学科文 档库建立倒排索引的基础上,采用高效的信息检索模型对索引库进行检索,返回 与用户查询表达式相似度较高的文档作为候选文档,针对从文档中直接获取答案 难度较大这一问题,本系统采用答案抽取技术来实现问题的最终回答。该部分对 于f a q 库无法解答的问题,可以不依赖于人工而较快地完成准确度较高的解答。 关键词:智能答疑系统,自然语言,信息检索,句子相似度,f a q 库 第1 i 页河南大学研究生硕士学位论文 a b s t r a c t q u e s t i o na n s w e r i n gs y s t e mi sav e r yh o ts p o ta n dd i f f i c u l t ys p o ti nt h er e s e a r c h c o m m u n i t yo f n a t u r a l l a n g u a g ep r o c e s s i n g ,i tc o m b i n e sn a t u r a ll a n g u a g ep r o c e s s i n g t e c h n i q u e s ea n d i n f o r m a t i o nr e t r i e v a lt e c h n i q u e se t c aq u e s t i o n a n s w e r i n gs y s t e m c a n r e t u r nu s e rac o n c i s ea n da c c u r a t ea n s w e rf o r q u e s t i o ni nn a t u r a ll a n g u a g e b u tt h e r ei s s t i l ln om a t u r e q u e s t i o na n s w e r i n gs y s t e me x p l o i t e db yn o w , b e c a u s ew e k n o wt h a tl e t ac o m p u t e rt ou n d e r s t a n dh u m a n l a n g u a g ei ss od i f f i c u r i nt h i st h e s i s ,w eh a v es t u d i e d aw e b - b a s e di n t e l l i g e n t q u e s t i o na n s w e r i n gs y s t e m ,w h i c hi s ak i n do fq u e s t i o n a n s w e r i n gs y s t e mb a s e di nd i s t a n c ee d u c a t i o n i f u s e r ss u b m i taq u e s t i o nw h e nh ei s l e a r n i n gb yn e t w o r k ,t h i ss y s t e mc a na n s w e r i ti m m e d i a t e l y b yt h i sw a y , t h es y s t e mc a n e n h a n c et h eq u a l i t yo f d i s t a n c oe d u c a t i o n t h es y s t e ms t u d i e db yt h i st h e s i si sb a s e db sa r c h i t e c t u r e s i ti n c l u d e st h r e e m o d e l s :q u e s t i o n s s e m a n t i c c o m p r e h e n s i o nm o d e l ,f a q b a s e dq u e s t i o ns i m i l a r i t y m a t c hm o d e l ,d o c u m e n tw a r e h o u s e - b a s ea u t o m a t i ca n s w e r f b t c h i n g m o d e l t h e q u e s t i o n ss e m a n t i cc o m p r e h e n s i o nm o d e l c o m b i n e sm a n yn a t u r a ll a n g u a g ep r o c e s s i n g t e c h n i q u e s ,i n c l u d i n gs e g m e n t a t i o na n dp a r t o f - s p e e c ht a g g i n g , t h ec o n f i r m a t i o no f t h eq u e s t i o nt y p e ,t h ee x t a r c t i o no fk e y w o r d sa n de x t e n d i n g ,t h ec o n f i r m a t i o no ft h e k n o w l e d g eu n i t ,t h r o u g ht h e s ew o r k s ,t h ei n t e n t i o no f t h e u s e ri sh o l d e d ,w h i c hg r e a t l y h e l p e dt h el a s tw o r ko f t h i ss y s t e m t h ef a q b a s e dq u e s t i o ns i m i l a r i t ym a t c hm o d e li s i m p l e m e n t e db ys e m a t i cs e n t e n c es i m i l a r i t yc o m p u t a t i o n ,w h i c hi si m p r o v e db yo u r s y s t e m ,t h i s m o d e lc a na n s w e rf r e q u e n t l y - a s k e d q u e s t i o nf a s t l y a n d c o n c i s e l y t h e d o c u m e n tw a r e h o u s e b a s ea u t o m a t i ca n s w e r f e t c h i n g m o d e l f i s t l y d e a lw i t ht h e d o c u m e n tw a r e h o u s eb e f o r e h a n da n dc o n s t r u c ti n v e r s e di n d e x ,t h e nu s eh i g he f f i c i e n t i n f 0 n _ n a t i ( ) nr e t r i e v a lm o d e lt os e a r c hi nt h eb a s ea n dr e t u r ns o m er e l e v a n td o c u m e n t s , 河南大学研究生硕士学位论文 第| ii 页 l a s t l y , w e u s ea n s w e re x t r a c t i o n t e c h n i q u e t o g e t t h ea n s w e rf r o mt h e s er e l e v a n t d o c u m e n t sa n dp r e s e n ti tt ou s e r s f o rt h eq u e s t i o nw h i c h c a l ln o tb ea n s w e r e db yf a q b a s e ,t h i sm o d e l c a n a u t o m a t i c l y r e t u r ne x a c ta n s w e r f a s t l y k e yw o r d s :i n t e l l i g e n tq u e s t i o na n s w e r i n g s y s t e m ; n a t u r a l l a n g u a g e : i n f o r m a t i o nr e t r i e v a l :s e n t e n c es i m i l a r i t y ;f a qb a s e 河南大学研究生硕士学位论文第1 页 1 1 论文的目的和意义 第1 章绪论 问答系统( q u e s t i o na n s w e r i n gs y s t e m ,简称q a s ) 是一种对用户用自然语言提 出的问题能够做出尽可能简洁、准确回答的计算机程序。这样的程序需要具备对 自然语言进行分析和处理的能力,它是自然语言处理技术的一个重要的应用。 早在计算机发明之初,研究人员就希望能通过某种方法使计算机能够理解人 类的自然语言。问题回答一直是计算机人工智能领域研究的核心问题。根据豳灵 测试,人们把判断计算机具有智能的标准定义为计算机是否可以和人一样理解并 回答人的问题,自由地与人交流和对话。为了达到这一目标,研究者做了不懈的 努力。问答系统的研究最早出现在6 0 年代,人工智能研究刚剐开始的时候,这时 人们就提出了让计算机用自然语言回答人们的问题,到了8 0 年代。研究者们为了 探索自然语言理解技术,纷纷研究自然语言问答系统,但是,基于当时的条件限 制,问答系统一直在非常受限的领域里研究。此后。由于大规模文本处理技术的 兴起,问答系统的研究受到冷落。近几年,随着网络和信息技术的快速发展,人 们处于一个知识爆炸的年代,为了更快地获取信息又促使了问答技术的研究。在 每年一度的文本信息检索( t r e c ) 会议上,自动问答( q u e s t i o n a n s w e r i n g t r a c k ) 是最受关注的主题之一川【2 1 。目前很多研究机构都纷纷开展了对专家系统、问答式 搜索引擎( 智能搜索引擎) 3 1 1 4 1 15 1 、基于自然语言查询接口的数据库查询系统、智 能答疑系统等的研究。 本文讨论的就是基于网络的智能答疑系统,它是一个基于特定领域远程教 学领域的问答系统。随着网络技术和多媒体技术的发展出现了新的教学模式:远 程教学模式。在远程教学模式下,人们可以不受时空限制,随时随地地接受教育。 但是它在提供给人们便利的同时,也出现了一个问题:如何实现远程答疑。我们 知道,有效的学习知识必须有学生和教师之间的交流,答疑是教学中的一个重要 环节。在传统的教学模式中,师生之间通过面对面的交流,可以及时解决教学中 出现的问题。但是在网络教学环境下,教师不可能时刻在线,也没有那么多的精 力逐个回答学生提出的问题,人工网络答疑方式将回使教师不堪重负。因此如果 能让计算机自动解答学生的疑问,将会大大减轻教师负担,同时及时排解学生在 第2 页河南大学研究生硕士学位论文 学习过程中遇到的难题,从而提高学生远程学习的学习质量和效率。但是,目前 开发高效、准确、智能化的自动答疑系统仍然是一个难题。本课题就是适应这一 要求而提出的目的是利用现有的自然语言理解技术,改革现有的智能答疑系统 模式,充分利用远程教育网络资源,通过机器处理自动理解用户提出的自然语言 描述的问题,并自动返回答案,达到减轻教师的负担,帮助学生学习,提高远程 教学质量和效率的目的。在目前的远程教学模式中,研制丌发个智能答疑系统 的意义尤为重大,这是因为: 1 答疑是学生进行系统学习的有益补充,同时也是学生巩固知识的重要途径, 无论学习的形式如何变化,答疑对于学习活动来说是必要且不可或缺的,在网络 环境下,及时、有效地获得解答是学生远程学习的基本需求。 2 通过对学生所提问题的记录分析,可以统计出学生普遍存在的知识薄弱环 节,为教师进一步改进教学方法提供参考,成为辅助教学的有效工具。 3 在网络环境下的智能答疑系统采用了友好自然的自然语言接口,学生可以 轻松自如地提问,及时解决学习过程中遇到的难题,使远程教学真正起到用户良 师的作用,对于远程教学方式在我国的进一步普及,具有不可估量的重大意义。 4 将功能良好的智能答疑系统应用于国家大力发展的远程教学支撑平台中, 具有很大的社会价值。 5 为自然语音理解以及信息检索技术的应用发展提供了一个方向,可以推动 该技术领域的发展。 1 2 国内外研究情况和发展趋势 1 ,2 1 国外的研究情况 国外的教学网站一般都具有较好的交互,答疑功能和反馈机制并且每个学 生都由专门的教师负责,利用e m a i l 、传真、信件、电话等进行答疑交流。同时。 国外也出现了一些比较成型的,能为用户解答非受限领域以及特定领域问题的问 答系统i6 】【7 】【引。这些典型的问答系统有: ( 1 ) a s k j e e v e s :该系统是美国a s k j e e v e s 公司开发的。该系统的网址为: h t t p :w w w a s k j e e v e s c o m 。a s k j e e v e s 允许用户用自然语言句子提问,检索系统会 自动分析用户的提问,然后通过与用户的交互进一步明确用户的真正意图,这使 得用户能够充分表达自己的检索要求,这种检索方式检索到的网页比单纯基于关 键词的网页更符合用户的需求。但是,a s k j e e v e s 返回的结果仍然是网页,而不是 问题的直接答案。 ( 2 ) s t a r t :是麻省理工学院丌发的问答系统。于1 9 9 3 年丌始发布在i n t e r n e t 河南大学研究生硕士学位论文第3 页 上,网址为:h t t p :w w w a i m i t e d u p r o i c t s i n f o l a b 。该系统是第一个面向国际互 联网的自然语言问答系统它能够回答针对m i t 信息实验市的地理学知识的用户 提问,比如:对于问题“w h a t i s t h e l o n g e s tr i v e r i n t h e w o r l d ? ”s t a r t 将会回答“w i t h al e n g t ho f 4 ,l8 0m i l e s ,t h en i l l er i v e ri st h el o n g e s tr i v e ri nt h ew o r l d ”同时,该系统 的答案不局限于文本,也可以是图片、声音或者动画等。s t a r t 系统使用主体关系 一对象三元组的形式存放系统知识以及回答问题,回答阃题能力非常有限,系统的 精确性和鲁棒性都比较差1 9 1 1 1 0 1 。同时,该系统是以英文为母语的,只能识别用英语 提交的问题。 ( 3 ) a n s w e r b u s :也是一个比较成熟的问答系统,网址为: h t t p :m i s s h o o v e r s i u m i c h e d u - z z h e n e a a - n e w 。a n s w e r b u s 是一个多语种的自动问 答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大 利语和葡萄牙语的问题。 ( 4 ) f a q f i n d :芝加哥大学人工智能实验室开发的f a q f i n d e r i 【1 2 】。该系统预 先收集“问答对”库( f a q 库) ,通过使用语义网分析与概念匹配技术,采用基于 向量的搜索引擎从问答对文件中抽取答案。 1 2 2 国内的研究情况 国内的智能答疑系统一般是作为远程教学支撑平台的一个子系统,而不是一 个独立的问答系统。很多远程教学平台只是提供一些简单的答疑方式,并没有专 门的答疑系统。比如:让教师和学生通过留言板、b b s 、e m a i l 、实时聊天等方式 来答疑。这种方式大部分依靠人工来实现答疑,这些答疑方式对于远程教育来说 有很多缺点:一是,会耗费教师较多的时间来答疑,教师经常需要重复回答学生 的一些问题:二是,答疑经常会延时,有时学生提出的疑问好长时间没有回复, 这在一定程度上影响了学生的学习积极性和学习效率。 另外国内还有一些答疑系统采用较复杂技术实现了智能的答疑,克服了 以上不足。它们大体上可以分为两类: ( 1 ) 基于f a q 库的智能答疑系统 比较典型的是上海交通大学的远程智能答疑系统。该系统的f a q 库存储了用 户可能提出的问答对。系统根据用户输入的自然语言句子,自动抽取其中的关键 词和库中问题进行关键词匹配,并将最匹配的问题的答案扶库中返回给用户。也 就是,这类系统只是采用简单的基于关键词的匹配技术,并没有涉及用户问句语 义理解方面的技术。 哈尔滨工业大学也开发过基于常见问题库的问答系统。与上面介绍的系统不 同的是,它考虑了词语的语义,采用基于语义的句子相似度计算方法来实现问题 第4 页 河南大学研究生硕士学位论文 的答疑。该系统运用知网计算用户问题与f a q 库中的问题的词语语义相似度,进 而得到句子之间的相似度,将相似度满足一定条件的问题对应的答案从库中返回 给用户,这种解答方式深入到了词语的语义。答疑效果要比上面的系统好。 另外北京理工大学也开发了类似的系统。不同的是它对用户问句进行了比较 深入的理解分析,将理解结果表示成问句向量,通过本体推理以及利用知网计算 问句向量之间的语义相似度等策略完成问题的答疑。 ( 2 ) 基于全文检索的智能答疑系统 基于全文检索的智能答疑系统主要利用了信息检索技术来实现答疑。它的特 点是知识库不是现成的问题答案对,而是相关文档库。对用户问句进行自然语言 理解后,采用信息检索技术对文档库中的文档进行检索后,将文档按与查询的相 关度排序输出最后系统对相关度比较高的文档采用答案抽取技术进行答案抽取 后返回给用户。如华南理工大学就丌发过类似的系统。 1 2 3 存在的主要问题 针对目前国内外智能答疑系统的发展现状的研究发现,主要存在以下问题: ( 1 ) 国内的智能答疑系统没有国外发展得快,技术还不成熟。国外的研究成 果已经能够在特定领域发挥作用,但是由于这些系统大都是以英语为背景进行研 究的,还不能直接移植到中文中来。这是由于中文在使用当中比英文要复杂得多, 比如:中文需要进行切词处理、英语可以通过词形和时态等的变换来帮助表达意 思,而汉语很少具有这些形态的变化,只能以字义和词义为中一i i , 来表达意思【1 3 】等。 但是,我们可以借鉴国外的研究思路,应用到中文智能答疑系统中。 ( 2 ) 基于f a q 库的智能答疑系统的答疑能力毕竟有限,只能回答局限于f a q 库中的问题,对于f a q 库内不存在的问题往往通过系统自动给教师发e m a i l 的 方式来解决,这种答疑方式造成答疑延时,不能实现及时解决学生在学习过程中 遇到的问题,影响答疑效果,而且也会占用教师较多的时阳j 。基于全文检索的智 能答疑系统,使系统可以回答的问题范围大大加大了,答疑能力得到大大增强。 但是,用户的全部问题都完全利用信息检索技术来实现,系统的答疑速度会比较 慢,一些用户常问的问题都要重复进行文档库的检索,会很浪费时间,影响学生 对系统的使用;但是对于完全基于f a q 库的智能答疑系统,收集常见问答对是一 个非常大的工作量。 鉴于以上的分析,本文设计的系统。把蕴涵丰富答疑材料的学科文档库作为 部分知识库,与常问问题答案库( f a q ) 答疑相结合,采用信息检索和答案抽取技 术相结合,实现了从文档中自动得到答案的策略。该方案使得系统对常问问题能 快速给出解答提高了系统的效率和准确率:同时系统还能自动回答f a q 库中没 有存储的其他大部分问题大大增强了系统的答疑能力和实用性。同时,本系统 河南大学研究生硕士学位论文第5 页 还充分将自然语言理解技术运用在本系统的实现中,提高了答疑的准确性和智能 性。 1 3 论文的工作 基于以上的研究分析,设计并实现了基于网络的智能答疑系统。本系统在完 成用户问句的语义理解与问句语义符号表示的基础上,通过f a q 库的问旬匹配模 块和学科文档库的答案自动获取模块完成解答任务。其中,对用户闯旬的语义理 解部分,研究并实现了:文本的分词和词性标注、问句类型确定、问旬所属知识 单元的确定算法;在f a q 库的问旬匹配模块中,主要研究了基于特定领域的加权 语义相似度计算方法,同时,还研究并提出了:特定领域词语权重确定算法、领 域知网构建方法、基于领域知网的词语语义相似度计算方法:在学科文档库的答 案自动获取模块中,主要根据用户查询对文档库进行非精确布尔过滤,对过滤得 到的文档集,采用向量空间模型计算相似度,最后按降序返回查询结果,并对结 果进行答案抽取后返回答案给用户。其中,主要研究并提出了:新信息检索模型、 h t m l 文档的采集和扫描算法、文档特征词的自动抽取算法以及答案抽取算法。 1 4 论文的组织 本文内容组织如一f : 第二章详细介绍了本智能答疑系统的总体结构设计、知识库的组织以及知识 库的自学习功能的实现。其中,知识库的组织主要介绍了f a q 库、学科文档库、 计算机学科本体库、以及其他辅助知识库的组织和构建。 第三章详细介绍了用户问旬的语义理解与问句符号表示。用户问旬的语义识 别过程主要包括:分词和词性标注、问句类型分析、问句关键词提取、关键词扩 展以及问句所属知识单元的确定。重点研究了分词和词性标注技术、问句类型的 确定、问句所属知识单元的确定;对于系统对问句的理解和分析结果,介绍了如 何采用切分链表、用户问句语义信息链表来表示和存储。 第四章研究了f a q 库问句匹配实现策略与核心技术。介绍了目前常见的两种 句子相似度计算方法:基于向量空间模型的t f i d f 相似度计算方法和基于语义词 典的相似度计算方法。在分析这两种方法的优缺点的基础上,提出了新的句子相 似度计算方法:基于特定领域的加权语义相似度计算方法。并对该方法在本系统 中的应用和实现进行了研究,其中包括特定领域词语权重确定方法,以及知网的 第6 页河南大学研究生硕士学位论文 扩充计算机学科领域知网的构建等内容。 第五章研究了将信息检索技术和答案抽取技术应用于学科文档库中,实现 f a q 库无法解答的问题的答疑。介绍了目i ;i 主要的两种信息检索模型,对它们进 行优缺点的分析和研究后,提出了新的信息检索模型:非精确稚尔过滤和向量空 间模型相结合的信息检索模型。然后,重点介绍了学科文档库信息检索模块的构 建工作,主要包括:领域相关h t m l 文档的采集和扫描算法、文档特征项自动提 取算法,特征项的权重确定,学科文档库倒排索引库的建立。最后采用新的信息 检索模型对学科文档库实现快速检索,并对检索结果采用本系统提出的答案抽取 算法进行答案抽取后返回给用户。 第六章主要介绍了基于网络的智能答疑系统的实现。内容包括:本智能答疑 系统的运行模式选择、运行环境以及开发工具的选择。最后给出了主要模块的程 序实现过程。 河南大学研究生硕士学位论文第7 页 第2 章基于网络的智能答疑系统总体设计及知识库组织 2 1 智能答疑系统总体结构设计 本系统对用户问题的解答策略为: 策略l :利用f a q ( 常见问题) 库和问句匹配技术实现常见问题的快速回答; 策略2 :对于策略l 无法解答的问题,采用信息检索技术和答案抽取技术直接 从学科文档库中提取答案。 根掘以上解答策略,设计了本智能答疑系统的总体结构,如下图所示: 圈2 , 1 智能答疑系统总体结构 本系统各主要模块的功能如下: ( 1 ) 问句理解分析模块 本模块的功能是通过对用户问句进行分词和词性标注,问句类型判断、问旬 关键词提取、问旬关键词扩展的娃理和向句所属知识单元的确定,从而完成对用 第8 页 河南大学研究生硕士学位论文 户问题语义的理解,然后把语义分析结果表示成中间语言形式。 ( 2 ) f a q 库问句匹配模块 f a q 库中保存的是用户常问的问题答案对,通过计算用户闯的问题与f a q 库 中的问题的句子语义相似度,看看是否能找出与用户问题相似度较高的问题,若 有,则把这些问题对应的答案从f a q 库中返回,若无,则调用学科文档库答案自 动获取模块来获取问题的答案。f a q 库问句匹配模块可实现常问问题的快速答疑, 而不需要经过复杂的处理,提高了系统的效率和准确率。 ( 3 ) 学科文档库答案自动获取模块 学科文档库1 1 4 j 中保存了大量从互联网上收集的计算机学科相关的文档,其中 的知识可以完成了大部分疑难问题的解答。该模块包括两个子模块:信息检索模 块和答案抽取模块。信息检索模块完成文档的预处理和索引,并根据用户问题。 从学科文档库中返回和用户问题相关的文档序列:答案抽取模块完成这些文档序 列的答案抽取,并将答案返回给用户。该模块的特点是能够对用户的问题自动产 生答案,而用依靠人工解答或现成的问答对。 2 2 智能答疑系统知识库的组织 知识库是知识的存储机构,用于存储专家经验、基础知识等内容。其基本任 务是为推理机提供问题求解以及解释机构问题解释所需的知识。知识库是整个智 能答疑系统的基础,其中知识质量的优劣、层次的高低、数量的多寡决定了问题 求解结果的科学合理性和求解问题的覆盏范围【l5 1 。一般,在设计知识库时应当注 意以下几点: i 知识足够丰富,要能达到定规模,否则所提供的服务将是非常受限的, 对用户的知识的学习帮助也不大; 2 知识准确度要高,否则只能误导用户,起不到应有的答疑解惑目的; 3 知识的丌放性,由于知识的多变性,要求能够很容易地添加、删除和管理 知识条目; 4 可移动性,随着网络技术的发展,需要知识库具有平台无关性,能够很方 便地将知识库从一个操作平台移到另一个操作平台: 5 充分推理,有能力以所设计的推理方法柬充分利用存储的知识; 6 知识表示要简洁、清晰、无歧义,便于计算机识别和运用; 7 知识库整体结构要完善,既要知识定位快,又要存储空间小,尽量找到矛 盾的最佳统一; 8 增量化知识库管理:信息时代的最大特色就是新信息产生速度快,尤其 河南大学研究生硕士学位论文第9 页 i n t e m e t 网的信息扩展是非常迅速的,知识库必须实现增量化管理才能及时地为 用户提供服务。 针对以上知识库的设计要求,我们设计了本系统的知识库。 一f a q 知识库 构建f a q 知识库的主要目的是通过访问f a q 知识库中对同类问题的求解过程 与结果而快速获得当前问题的解答。本系统将教师收集的常见问题答案对经过问 题理解分析模块处理后存储在f a q 库中。 对于f a q 知识库中的知识,我们采用二维关系数据库方式进行表示和存储( 下 面的知识库类似) ,具体由以下几个属性来描述: ( 1 ) 问题编号( q u e s t i o n;_id) ( 2 ) 问题( q u e s t i o n ) :对问题内容的自然语言描述; ( 3 ) 学科( c o u r s e ) :问题所属学科。如:对于操作系统学科的问题,用o s 表示; ( 4 ) 知识单元( o n t o l o g yi d ) :本系统对每一个学科的问题都按知识单元进 行划分,这里是问题的知识单元编号: ( 5 ) 专业关键词( kk e y w o r d s ) :根据系统专业关键词库,得出问题中与专 业相关的、必须含有的关键词; ( 6 ) 一般关键词( pk e y w o r d s ) :问句中的非专业关键词; ( 7 ) 答案( a n s w e r ) :对问题的解答: ( 8 ) 访问次数( f r e q u e m ) :系统自动记录该属性的值。初始时访问次数为0 , 以后每访问一次自动加l ,体现了学生对这个问题的关注程度; ( 9 ) 删除标记( d e l e t e ) :系统对f a q 知识库自动更新的时候,若该记录不 常被访问而需要被删除,只需添加删除标记。 二学科文档知识库 学科文档知识库是系统答疑能力的有力保障,大量丰富的计算机学科的文档 通过答案抽取后,可以用来解答用户提出的大部分疑难问题,因此构建好学科文 档知识库对于本系统而言非常重要。学科文档知识库具体由以下几个属性来描述: ( 1 ) 文档编号( d o ci d ) ; ( 2 ) 学科( c o u r s e ) :文档所属学科,同上: ( 3 ) 知识单元( o n t o l o g y:本系统对每一个学科的文档也都按知识单元_id) 进行了分类,这罩是文档所属的知识单元编号; ( 4 ) 文档标题( t i t i e ) :文档标题描述: ( 5 ) 文档内容( c o n t e n t ) :文档的内容。 第1 0 页河南大学研究生硕士学位论文 三、计算机学科本体库 1 o n t o l o g y ( 本体) 在介绍计算机学科本体库的组织之前,我们先对o n t o l o g y ( 本体) 的概念进 行介绍。对基于领域的智能系统而言,领域知识的表达是系统的一个非常重要的 部分。近几年来,关于应用本体( o n t o l o g y ) 作为知识表达方式的的讨论正在计算 机科学界逐步传播开来,本体论( o n t o l o g y ) 是一种对概念的精确描述,特别是对 专门的一些领域概念的描述,是一种很好的领域知识表示方法。 本体最早是一个哲学上的概念,是客观现实的抽象本质。后来随着人工智能 的发展,o n t o l o g y 被人工智能界给予了新的定义,比较公认的是t r g r u b e r 于1 9 9 4 年提出的定义:o n t o l o g y 是一个可共享的概念化规范。概念化是某领域的概念及 其相互关系的描述,是所描述的世界的一个抽象的和简化的视图。根据这个定义, 我们理解为:o n t o l o g y 是指某一领域的概念以及相互关系的统一、正规、明确的 表述,它是一种概念体系或基本知识体系,是知识库较高层次的知识抽象。 使用本体所带来的典型优势是:共享和重用。本体不仅仅是被某个个人所接 受,更重要的是获得领域内群体的一致认可,从而实现系统间的知识共享和新系 统的知识重用。 2 、计算机学科本体库组织和构建 计算机学科本体库是出每个学科的本体,以及每个学科的多个子本体一起构 成。目前,建立本体大部分还是采用手工方式,建立本体还远远没有成为种工 程性的活动,因此,本系统的本体构建采用手工方式。本体建立过程就是对某一 领域的概念体系的形式化过程。计算机学科本体的丌发步骤如下: 第一,确定建立本体的目的和范围。 本系统建立计算机学科本体的主要目的是为了利用计算机学科本体的概念集 以及概念之间的关系,实现用户问题的自动定位和计算机学科领域知网的构建, 这在后面的章节中将具体描述。 第二,获取初步知识。 针对某学科领域的知识内容,结合教师的理解和经验,获取学科知识,并粗 略地描述出知识点之间的关系。 第三,概念一关系化分析。 ( a ) 对不同的学科分别进行分析,确定该学科的基本概念;同时将同一学科 内的知识划分成不同的知识单元,针对不同的知识单元确定其中的基本概念。 ( b ) 通过对这些基本概念的分析确立它们之间的本体关系,如同义关系、 上下位关系等。 第四,给出上述概念和关系的形式化描述,得出各个学科的“概念一关系词 河南大学研究生硕士学位论文第1 1 页 典”以及各个学科内不同子本体的“概念一关系词典”,本系统对本体以及子本体 采用有向图柬表示。 下图是数据库学科的部分本体关系图。 豳2 2 数据库学科的部分本体关系 通过以上步骤,实现了计算机学科本体库的构建。 四其他辅助知识库的组织 l 、问答历史库 对于那些由于f a q 库解答失败,而通过学科文档库答案自动获取模块得到解 答的用户问题,系统在解答完成后,将新得到的问题答案对以一定形式自动保存 在问答历史库中。教学专家会定期对库中的问题解答进行正确性检查,并和知识 库管理员一起分析如何改进学科文档库答案自动获取模块的功能。 每隔一段时间系统将该库自动清空,将该库中部分问题经过筛选后添加入 f a q 库中。问答历史库属性描述如下: ( 1 ) 问题的描述( q u e s t i o n ) : ( 2 ) 学科编号( c o u p ei d ) : ( 3 ) 知识单元( o m o l o g y _ i d ) : ( 4 ) 专业关键词( k ):_keywords ( 5 ) 一般关键词( p );_keywords ( 6 ) 答案( a n s w e r ) ; ( 7 ) 访问次数( f r e q u e n t ) :自动设为1 。 第1 2 页河南大学研究生硕士学位论文 2 、专业关键词库 专业关键词库用于:用户问句专业关键词提取、句子相似度计算等。专业关 键词由每门学科的教师进行手工整理而得到。专业关键词库属性描述如下: ( 1 ) 学科编号( c o u r s ei d ) : ( 2 ) 专业关键词( k e y);_id ( 3 ) 专业关键词权重( k e yw e i g h t ) 由4 4 1 小节的词语权重计算方法可得 到。 3 、停用词库 本系统的停用词库用于;关键词提取前的停用词过滤、文档特征项自动提取 i j 的停用词过滤。停用词库的内容主要包括: a 虚词、助词和连词等。如:“的”、“与”、“之”、“或”、“以及”、“也”等: b 。其它无检索意义的词。如:“关于”、“论述”、“本文”等。 停用词库共分两个步骤来建立并扩充。首先人工收集录入“显式”的停用词, 如虚词、助词和连词等:然后对一定量的数据进行抽词试验,从抽剩下的字符中 再选取一部分词汇补充进停用词库。 2 3 智能答疑系统知识库的自学习功能及其实现 出于初始f a q 库中的问题数量是有限的,因而需要在系统运行过程中不断地 把新问题及其解决方案添加入到f a q 库中;同时,随着问题的不断加入,必然会 使f a q 库越来越大,从而导致问题检索和推理的效率的降低,因此还需要把f a q 库中的旧问题从库中删除,只有这样才能使f a q 库的内容更加丰富和完善,同时 保持最有利于服务于用户的状态。f a q 库的自学习策略如下: ( 1 ) f a q 库投入实际应用一段时问之后,哪些是热点问题、哪些是非热点问 题,将通过问题被访问过的次数得以区分。对那些访问次数特别少,低于专家设 定值的旧问题,系统自动将它从f a q 库中删除,删除时只需对该旧问题添加删除 标记即可; ( 2 ) 对于那些f a q 库中找不到与之相匹配的问题,而转经从学科文档库中获 取答案的用户问题,系统自动它们保存在问答历史库中,经过专家定期对问答历 史库中的答案进行准确性核实或修改后,定期由计算机自动把问答历史库中的问 题答案对加入f a q 库。添加算法描述如下: 步骤1 将问答历史库中的问题分为两个集合;a ,b 。开始时,a 集合为空, b 集合为问答历史库中所有问题: 步骤2 从b 集合中取出第一个问题加入a 集合中; 河南大学研究生硕士学位论文第13 页 步骤3 计算b 集合中下一个问题与a 集合中的所有问题的相似度为: q = f q i ,q 2 ,q 。) ( n 为a 集合中的问题数,0 q i 1 ) 若所有的q 。= 0 ,表明该问题没有和a 集合中的任一问旬匹配,也就是说 a 集合中没有与新问题相似的问题,则将该问题加入到a 集合中; 若a 集合中存在一个问题使q 产1 表明a 集合中已经存在与该问题意思 一致的问题,则抛弃该问题: 若所有的o 均小于某个给定的值 ( 0 1 ,具体值出专家指定) ,同 的处理方式,将该问题加入到a 集合中。 若其中有一个q i 大于某个给定的值x ( o x 1 ,具体值由专家指定) ,同 的处理方式,则抛弃该问题; 步骤4 返回步骤3 ,继续上面的操作,直到b 集合为空: 步骤5 将上述步骤得到的a 集合中的全部问题依次添加入f a q 库中,并将 问答历史库清空,结束。 以上学习策略的实施既可以避免f a q 库无限膨胀,又能使f a q 库经常保持最 佳状念。 第1 4 页河南大学研究生硕士学位论文 第3 章问句语义理解与问句语义符号表示的研究 3 1 本系统分词与词性标注实现 汉语不象英语,单词之间有空格分隔,汉语文本是分句连写的,只有句与句 之间有显性的标点符号作为分隔标记,词与词之间没有显性的分隔标记”6 】,所以 用计算机来理解和处理汉语时遇到的首要任务就是进行自动分词工作。同时,确 定词语的词性对于本系统而言也非常重要,分词和词性标注是本系统后续语法和 语义分析的基础。 3 1 1 本系统分词与词性标注模块结构图 本系统对自然语言文本进行分词和词性标注前,需要先载入学科领域词词典、 通用词典和临时词典,并采用“先专业词,后通用词”的分词策略和正向最大匹 配法( m m ) 对文本进行分词处理,然后调用切分歧异处理模块进行句子的切分歧 义判断和消除歧义的处理,接着对分词结果进行词性标注,最后输出分词和词性 标注结果。 闰3 1h e n u 分词系统总体模块结构 3 1 2 本系统分词方法 正向最大匹配法( m a x i m u mm a t c h i n gm e t h o d ,简称m m 法) 是目前答疑系 统中常用的分词方法,本系统也采用了此方法。正向最大匹配法简称最大匹配法, 它的实现方法如下: 在计算机中存放一个已知的词表,这个词表叫做底表,从被切分的语料中, 河南大学研究生硕士学位论文第1 5 页 按给定的方向顺序截取一个定长的字符串,通常为6 至8 个汉字,这个字符串的 长度,叫做最大词长。把这个具有最大词长的字符串与底表中的词相匹配,若匹 配成功,则可确定这个字符串为词,计算机程序的指针向后移动与给定最大词长 相应个数的汉字,继续进行匹配;否则,则把该字符串逐次减一,再与底表中的 词进行匹配,直到成功为止。 m m 法的原理简单,易于在计算机上实现,时问复杂度也比较低。 3 1 3 歧义切分类型的识别和处理技术 一、切分歧义的类型 对汉语进行自动切分都会产生歧义。一般把一个待切分字串存在多种分词可 能性,称作分词歧义。汉语自动分词系统中歧义字段切分是影响分词系统切分精 度的重要因素,它是自动分词系统设计中的一个最困难也是最核心的问题i l ”。切 分歧义包括交集型歧义和组合型歧义,分别描述如下: ( 1 ) 交集型歧义 设a j 和j b 都是词典中的词,如果待切分字串中包含“a j b ”这个子串,就 必然会造成两种可能的切分:“a j b ”和“a j b ”。这种类型的歧义就是交集 型歧义【怕】。交集型歧义字段中含有交集字串的个数( 不是交集字串含有的汉字个 数) ,称为链长。如:“对这种情况的确切描述。”中“的确切”可能切分为“的 确切”,也可能切分为“的确切”。正确应切分为“的确切”,链长为l 。 ( 2 ) 组合型歧义 设a b 和a 、b 都是词典中的词,如果待切分字串中包含“a b ”这个子串, 就必然会造成两种可能的切分:“a b ”和“a b ”。这种类型的歧义就是组合型歧 义。如:“他骑在马上。”应切分为:“他骑在马上。”而“马上过来a ” 应切分为“马上过来。” 二、歧义字段的发现 本系统发现歧义字段的过程如下7 j : 首先对一个汉字串用最大匹配法从该旬旬首第一个汉字开始,从词典中匹配 第一个汉字打头的最长词和次长词:然后从次长词后边的第一个汉字开始,再找 这个汉字打头的最长词和次长词:依此类推,把整个句子匹配完,得到一个切分 句子的所有切分信息。见下图所示: 第1 6 页河南大学研究生硕士学位论文 幽3 2 臼动分词匹配 在上图中w 为词,其下标表示其匹配顺序。其中1 3 ,、r l i 7 、n 、1 1 i + 1 7 、n i + 2 、 i l i + 2 ,分别代表词w 。、w ,7 、w i + i 、w i + l7 、w i + 2 、w m ,的长度( 即含有汉字的个数) , w 、w 、w m 分别为每次匹配的最长词,w 、w 7 、w 分别为每次匹配的次 长词。则有: ( n i - - n 7 ) = 第i 次匹配到的最长词汉字的个数( n ,) 一第i 次匹配到的次长词 汉字的个数( n 。) ; n i + l = 第i + 1 次匹配到的最长词汉字的个数; 下面将n 。与( n 。一n 。7 ) 相比其结果可分为以下三种情况: 若n i + l ( 1 1 。- - n 。7 ) 即超越,则说明w 。含有交集型歧义,此时链长加l 。 依次找出所有的交集串,得出一个有一定链长值的交集型字段,按交集型歧义字 段处理算法消除歧义切分。 三、切分歧义的处理算法 对于采集到的歧义字段,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论