已阅读5页,还剩50页未读, 继续免费阅读
(教育技术学专业论文)面向教育技术学科的智能问答系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s i s 摘要 答疑是教学过程不可或缺的一个环节,答疑的效果在很大程度上取决于该环节 所采用的形式和是否能满足学生个性化需求,传统的教师一学习者面对面的答疑以 及邮件答疑等形式已不能满足学习者的要求,为此很多教育工作者致力于智能答疑 系统的研究。 本文在论述国内外答疑系统研究现状、相关理论及实现技术的基础上,分析了 目前国内答疑系统存在的主要障碍,如自然言语言理解的技术不高、交互界面单一 等。针对这些缺陷,本文以教育技术学中教育技术学学科为例,综合f a q 和文 档库技术,设计并实现了一种交互界面友好、针对性强、适应多种询问方式的智能 问答系统。 论文的主要工作包括: ( 1 ) 设计面向学科的智能问答系统 研究自动问答系统的中文分词技术,句子相似度计算,知识文本检索以及答案 抽取算法等系统关键技术实现方法和模型、模式。了解目前研究的进展,以及研究 者们解决这些技术时所采取的方法模型、模式。设计系统的构架以及功能模块。 ( 2 ) 研究核心功能模块 在问题处理模块中,采用i c t c l a s 中文分词器,对问题进行中文分词,去停用 词处理;在相似度计算中,本系统主要采用义原相似度的算法,辅以义面相似度的 算法来进行句子相似度的比较;在f a q 常见问题查询中,通过预先进行重复度计算, 来提高系统的运行效率;在自动答疑模块中,包括运用煳l 技术将知识文本转化, 利用l u c e n e 为知识文本库建立索引,候选文档抽取,知识文档库答案检索,研究 答案抽取算法。 ( 3 ) 实现面向学科的智能问答系统 论文在完成各个模块后,采用j a v a 实现了教育技术学课程的智能问答系 统。系统的初步测试与应用表明,本文所用方法和技术是有效的,应用于课程答疑 具有较好的效果,基本实现了本文的研究目的。 系统的主要特点有: ( 1 ) 限定领域 教育技术学中,教学科目繁多,建立适应各种课程答疑系统工作量巨大,很难 实现。本文只针对某一具体专业课程建立自动答疑系统。专业课知识点相对固定, 变化不大,所以问题库相对稳定,容易实现。 ( 2 ) 交互性强 充分体现了“学生为中心”的特点,以无边框透明窗口、可以任意拖动的人物 头像、弹出式气球、丰富的弹出式菜单等界而设计来增强用户体验,具有活泼性。 ( 3 ) 智能性 采用自然语言进行提问,对问句以及知识文本进行自然语言语义处理,具有智 能性。 论文成果的创新性体现在: ( 1 ) 实现了基于知识和语义的问答,而不是简单的字面匹配,扩大了答案的全 面性、准确性和智能性。面向教育技术学科的智能问答原型系统的检索模块,采用 了基于语义的查找机制,而不再停留于传统的基于关键字的查找。基于语义的查找 能够使得查找的过程更加接近于人脑的逻辑思维方式,使得系统具有智能性,也避 免了基于关键字查找产生的答案遗漏问题。 ( 2 ) 在前人对问答系统研究的基础上,首次将a l i c e 引入其中。 ( 3 ) 使用x m l 存储知识文档,使用x q u e r y 技术结合l u c e n e 信息检索库来查 询知识文本。 关键词:面向学科:智能问答;问题处理;句子相似度;答案抽取 a b s t r a c t a n s w e r i n gi s a l li n d i s p e n s a b l el i n ki nt h et e a c h i n gp r o c e s s ,t h ee f f e c to fa n s w e r i n g d e p e n d sl a r g e l yo nt h ef o r m o f t h el i n ka n dw h e t h e ri tc a nm e e ts t u d e n t s i n d i v i d u a ln e e d s o rn o t ,t h et r a d i t i o n a lt e a c h e r 1 e a r n e rf a c e t o f a c eq & aa n de - m a i lq & a a n do t h e r f o r m sc a nn o tm e e tt h er e q u i r e m e n t so ft h el e a r n e r , t ot h i se n dal o to fe d u c a t o r s d e d i c a t e dt ot h es t u d yo fi n t e l l i g e n tq u e s t i o na n s w e r i n gs y s t e m t h ep a p e rd i s c u s s e st h er e s e a r c ho fa n s w e r i n gs y s t e ma th o m ea n da b r o a d ,r e l e v a n t t h e o r i e sa n dt e c h n i q u e s ,a n da n a l y z e st h em a j o ro b s t a c l et od o m e s t i ca n s w e r i n gs y s t e m , s u c ha sn a t u r a ll a n g u a g eu n d e r s t a n d i n gt e c h n o l o g yi sn o th i g h ,s i n g l ei n t e r f a c e i n r e s p o n s e t ot h e s es h o r t c o m i n g s ,w et a k ee d u c a t i o n a lt e c h n o l o g yi ne d u c a t i o n a l t e c h n o l o g yd i s c i p l i n e s f o re x a m p l e ,a n du s et h ef a qa n dd o c u m e n t a t i o nl i b r a r y t e c h n o l o g yc o m p r e h e n s i v e l y , d e s i g na n di m p l e m e n t af r i e n d l y i n t e r f a c e ,t a r g e t e d , i n t e l l i g e n tq u e s t i o na n s w e r i n gs y s t e mt oa d a p t t oa v a r i e t yo fi n q u i r y t h em a i nw o r ko ft h ep a p e ri n c l u d e s : ( 1 ) d e s i g nad i s c i p l i n e o r i e n t e ds m a r ta n s w e r i n gp r o t o t y p es y s t e m s t u d yk e yt e c h n o l o g i e st oa c h i e v et h em e t h o d s ,m o d e l sa n dp a t t e r n so fa u t o m a t i c q u e s t i o na n s w e r i n gs y s t e m s u c h a st h ec h i n e s ew o r ds e g m e n t a t i o n , s e n t e n c es i m i l a r i t y c o m p u t i n gt e x tr e t r i e v a la n da n s w e re x t r a c t i o na l g o r i t h m s u n d e r s t a n dt h ea p p r o a c h p r o c e s si nt h ep r o g r e s so f t h es t u d y , a n dm o d e l sa n dp a r e r n st a k e nb yr e s e a r c h e r st o s o l v et h e s et e c h n o l o g i e s d e s i g nt h es y s t e ma r c h i t e c t u r ea n df u n c t i o n a lm o d u l e s ( 2 ) s t u d yc o r ef u n c t i o n a lm o d u l e s i nt h ep r o b l e mp r o c e s s i n gm o d u l e ,u s i n gi c t c l a st od e a lw i t hc h i n e s ew o r d s e g m e n t a t i o n , t h ep r o c e s so fs t o p p i n gw o r d ;i nt h es i m i l a r i t yc a l c u l a t i o n ,t h es y s t e m m a i n l yu s e s t h eo r i g i n a lm e a n i n go ft h es i m i l a r i t ya l g o r i t h m ,s u p p l e m e n t e db yo f r i g h t e o u s n e s ss u r f a c es i m i l a r i t ya l g o r i t h mf o rs e n t e n c es i m i l a r i t y ;i nt h ef a qq u e r y , w e u s er e p e a t a b i l i t yc a l c u l a t i o n si na d v a n c et oi m p r o v et h ee f f i c i e n c yo ft h es y s t e m ;i n a u t o m a t i cq u e s t i o na n s w e r i n gm o d u l e ,i n c l u d i n gt h eu s eo fx m lt e c h n o l o g y , k n o w l e d g e o ft e x ti n t o t h eu s eo fl u c e n el i b r a r yf o rt h ek n o w l e d g eo ft h et e x tt oe s t a b l i s hi n d e x , e x t r a c tc a n d i d a t ed o c u m e n t s ,a n s w e rr e t r i e v a lo fk n o w l e d g eo ft h ed o c u m e n tl i b r a r y , r e s e a r c ht h ea n s w e re x t r a c t i o na l g o r i t h m ( 3 ) t oa c h i e v ep r o t o t y p es y s t e mo f d i s c i p l i n e - o r i e n t e ds m a r tq a f t e rt h ec o m p l e t i o no fe a c hm o d u l e ,w eu s et h el a n g u a g eo fj a v at o a c h i e v e i n t e l l i g e n tq & ap r o t o t y p es y s t e mo ft h e e d u c a t i o n a lt e c h n o l o g y ”c o u r s e t h e p r e l i m i n a r yt e s t i n ga n da p p l i c a t i o no f t h es y s t e ms h o w st h a tt h em e t h o d sa n dt e c h n i q u e s 硕士学位论文 m a s t e r st h e s i s w eu s ea r ee f f e c t i v e ,a n dt h ea p p l i c a t i o no fqu s e di nc o u r s e sg o tg o o dr e s u l t s t h e r e s e a r c ha c h i e v e st h ep u r p o s eo ft h i ss t u d yb a s i c a l l y t h em a i nf e a t u r e so ft h es y s t e ma r e : ( 1 ) s p e c i f i ca r e a s t h e r ea r el o t so ft e a c h i n gs u b j e c t si nt h ed i s c i p l i n eo fe d u c a t i o n a lt e c h n o l o g ya n d t h ee s t a b l i s h m e n to fa n s w e r i n gs y s t e mt oa d a p tt oav a r i e t yo fc o u r s e si sah u g e w o r k l o a d ,i ti sd i f f i c u l tt oa c h i e v e w eo n l ys e tu pa l la u t o m a t e da n s w e r i n gs y s t e mf o ra s p e c i f i cp r o f e s s i o n a lc o u r s e t h ek n o w l e d g eo fp r o f e s s i o n a lc o u r s ei sr e l a t i v e l yf i x e d , l i t t l ec h a n g e d ,s ot h eq u e s t i o nb a n ki sr e l a t i v e l ys t a b l e ,e a s yt oi m p l e m e n t ( 2 ) s t r o n gi n t e r a c t i o n f u l l ye m b o d i e st h ec h a r a c t e r i s t i c so f “s t u d e n t c e n t e r e d t h eb o r d e r l e s st r a n s p a r e n t w i n d o wc a nb ed r a g g e dp o r t r a i t s ,p o p u pb a l l o o n , p o p u pm e n u sa n do t h e ri n t e r f a c e d e s i g nh a v ee n h a n c e dt h eu s e re x p e r i e n c e ,丽t l lal i v e l yf e a t u r e ( 3 ) i n t e l l i g e n c e u s e r sc a nu s en a t u r a ll a n g u a g et oa s kq u e s t i o n s t h es y s t e ma d o p t sn a t u r a ll a n g u a g e s e m a n t i cp r o c e s s i n gt oq u e s t i o n sa n dk n o w l e d g eo ft e x t , 、析t l lt h ei n t e l l i g e n c e i n n o v a t i o n so ft h ep a p e ra r er e f l e c t e di n : ( 1 ) i ti m p l e m e n t st h ek n o w l e d g e b a s e da n ds e m a n t i ca n s w e r i n g ,r a t h e rt h a nas i m p l e l i t e r a lm a t c ht oe x p a n dt h ec o m p r e h e n s i v e n e s s ,a c c u r a c ya n di n t e l l i g e n c eo ft h ea n s w e r t h er e t r i e v a lm o d u l eo ft h ee d u c a t i o n a lt e c h n o l o g ys m a r ta n s w e r sp r o t o t y p es y s t e m a d o p t sas e m a n t i c - b a s e ds e a r c hm e c h a n i s m , r a t h e rt h a nt h et r a d i t i o n a lk e y w o r d b a s e d l o o k u p m a k i n gb a s e do ns e m a n t i cl o o k u pc a nf i n dt h ep r o c e s sc l o s e rt ot h eh u m a nb r a i n , t h el o g i c a lw a yo ft h i n k i n g ,m a k i n gt h es y s t e mh a st h ei n t e l l i g e n c e ,b u ta l s ot oa v o i d b a s e do nk e y w o r d st of i n dt h ea n s w e ro m i s s i o n ( 2 ) b a s e do np r e v i o u sr e s e a r c ho nq u e s t i o na n s w e r i n gs y s t e m ,w ei n t r o d u c ea l i c e i n t oi tf i r s tt i m e ( 3 ) u s ex m lt o s t o r et h ek n o w l e d g ed o c u m e n ta n dn s e x q u e r yt e c h n o l o g y c o m b i n e dw i t ht h el u c e n ei n f o r m a t i o nr e t r i e v a ll i b r a r yt oq u e r yt h ek n o w l e d g eo ft h e t e x t k e yw o r d s :d i s c i p l i n e o r i e n t e d ;s m a r tq & a :p r o b l e mp r o c e s s ;s e n t e n c es i m i l a r i t y ; a n s w e re x t r a c t i o n i v 硕士学位论丈 m a s t e r lst h e s i s 1 1 研究背景和意义 1 绪论 随着计算机和互联网的发展,当前社会每天的信息呈指数增长,互联网上的信 息具有开放性,无序性,一个普通的用户很难直接从海量的信息中找到所需要的信 息。用户通过搜索引擎只能得到可能包含所需信息的相关链接。比如:在百度上搜 索:“学习资源可分为哪几类? 时,找到相关结果约5 , 3 6 0 ,0 0 0 个。太多的无用信 息影响着用户的检索效率,用户希望在输入需要求教的问题后,能够直接得到答案。 为了满足用户的这种需求,常见问题解答系统应运而生。常见问题解答系统又 被称为f a q ( f r e q u e n t l ya s k e dq u e s t i o n s ) ,其实就是最常见的一种问答系统。在很 多平台上都有f a q ,它一般是作为帮助系统,为用户解答那些看似简单,但提问 频率较高的问题。 基于f a q 库的问答系统的一个显著特点是,它有一个由常见问题及其答案组成 的问题答案库。系统在回答用户提出的问题时,是固定的从问题答案库中寻找答案。 所以,基于f a q 库的问答系统与搜索引擎相比,不同之处在于:f a q 问答系统能 够直接把问题的答案呈现给用户,而不是相关网页链接。同时,基于f a q 库的问 答系统答疑能力也有限,只能回答局限于f a q 库中的问题,而且,问题与答案的 匹配是预先设定的,其匹配过程也是基于字面的,如果用户没有遵循系统设定的规 则来提问,将很难得到准确的答案,也会影响系统的召回率。 自动问答系统q a ( a u t o m a t i cq u e s t i o na n s w e r i n g ) 采用自然语言处理技术,一 方面完成对用户所提问题的理解,另一方面完成正确答案的生成。它与f a q 问答 系统的主要区别在于,f a q 问答系统的答案来源于已经建立好的常见问题答案库, 在这个库中问题和答案都已经确定;自动问答系统的答案来源于系统设定的知识文 本库。知识文本库中的知识文本来源极为广泛,甚至可以是整个互联网的信息资源。 在有足够知识源素材的情况下,自动问答系统就可以如同一个知识渊博的专家,解 答用户所提出的所有问题。 答疑是教学过程中不可或缺的一个环节,答疑的效果在很大程度上取决于该环 节所采用的形式和是否能满足学生的个性化需求,传统的教师一学习者面对面的答 疑,以及邮件答疑等形式已不能满足学习者的要求,为此很多教育工作者致力于智 能答疑系统的研究。 本文在论述国内外答疑系统研究现状、相关理论及实现技术的基础上,分析了 目前囤内答疑系统存在的主要障碍,如自然语言理解的技术不完善、交互界面单一 硕士学位论文 m a s t e r st h e s i s 等。针对这些缺陷,本文以教育技术学中教育技术学学科为例,综合f a q 和文 档库技术,同时引入了a l i c e 作为人机交互接口,设计并实现了一种交互界面友好、 针对性强、适应多种询问方式的智能问答系统。智能问答系统是一个只需要用户进 行自然语言提问,然后由计算机运用自然语言处理,通过对问题进行理解,给用户 直接提供答案的自动系统。 本文的目标,就是要建立一个面向教育技术学科的智能问答系统( 以下简称 “e t i s ”) ,系统融合了常见问题解答系统和自动问答系统。它紧密联系学科的知识 文本库,实现在学科内的自动问答,具有针对性;采用自然语言进行提问,对问句 以及知识文本进行自然语言处理,具有智能性;比如用户输入一个问题:“啥是学 习资源? ,智能问答系统首先对该问题进行自然语言处理,然后借助一定的规则, 对问题进行理解,最终通过检索程序,从知识源中抽取出答案:“学习资源是指在 学习过程中,可被学习者利用的一切资源,包括人、材、物、信息等 这样一个精 确、简练的句子来回答问题。 1 2 研究的现状 自2 0 世纪6 0 年代以来,国外就已经开始关于自动答疑方面的探索研究,经过 近四十年的发展,直到1 9 9 9 年,文本信息检索( t r e c 8 ) 会议首次开始了对问答 系统的评测,在国外逐渐形成了一整套包括研究,设计,实施以及评测在内的流程。 这对自动问答系统的进一步发展起着不可估量的作用。 1 2 1 技术基础研究方面 国外对于问答系统的相关技术理论研究及实践成果也较多。在相关技术理论研 究方面,主要有:t f i d f 算法、词形词序结合的方法、语义词典方法、基于句义的 相似度算法1 1 】l z l 。 ( 1 ) t f i d f 算法 该方法是将句子看成是词的线性序列,并不对语句进行语法结构分析。相应的, 相似度衡量机制也只是依据句子的表层信息,即组成句子的词的词频、词性等信息。 其基本思路是:利用向量之间的距离来逼近文本之间的相似性1 3 1 。t f i d f 的主要思 想是:如果某个词或者短语在一个句子中出现的频率( t f ) 很高,并且在其他句子 中出现得很少,则可以认为该词或者短语具有很好的类另l j 区分能力;如果包含该词 或者短语的句子数很少,则此短语也有很好的区分能力【4 1 。t f i d f 算法作为一种统 计方法,只有当语料库达到一定的规模时,其效果才能体现出来,否则就会出现数 据稀疏问题;另外,该算法只考虑了词在上下文中的统计特性,而没有考虑语义的 因素,更是无法充分反映句子之日j 的相似关系。 ( 2 ) 词形词序结合的方法 2 硕士学位论文 m a s t e r st h e s i s 词形词序结合的方法是指,根据词形与词序两个因素来计算句子的相似度,其 中起主要作用的是词形,其次是词序。该方法的优点是:对于句子中的一个分旬或 短语发生长距离移动后,仍然会与原句子非常相似;综合考虑了句子的结构和相同 词语的数量对相似度的影响,算法实现简单,复杂度较低。但是,由于汉语的语序 比较随意,对于很多句子而言,交换其中的词语顺序,旬意并无明显变化。所以, 这种结合了词语顺序信息的句子相似度计算方法的计算结果往往准确率不耐5 1 。 ( 3 ) 语义词典方法 语义词典方法主要是利用知网、同义词词林等现有的较为成熟的语义资源,通 过计算句子中的词语相似度来计算句子间的语义相似度。语义词典方法在处理两个 语义相近,但相同词很少的句子时效果较好。可是,目前语义标注的理论尚不成熟, 仅仅考虑词语的语义信息并不能精确地反映句子的意思,而且没有将句子的结构以 及词语权重作为考虑因素,故而准确率并不太高1 6 l 。 ( 4 ) 基于句义的相似度算法 该方法是认为,要完整的理解一个句子,需要从以下的三个方面去考虑:组成 句子的词汇信息,每个词的深层次语义信息,以及句子所在的语境信息,即:义原, 义面,以及义境三个方面,该算法很好的考虑了句子的多个方面的内容。就算法本 身的合理性来说,是充分体现了句子在文本中的综合实际情况的。但是就其运用来 说,算法的时间复杂度和空间复杂度都较高,一般的系统开发,基本上不需要用如 此高的算法。而且对于句子相似度的分析,如果在问答系统中运用频率较高,则会 严重影响到系统的速度。 1 2 2 实践成果方面 在实践成果方面,国外开发的相对成熟的问答系统有:麻省理工学院的工智能 实验室的s t a r t 、密歇根大学的a n s w e rb u s 等。与国外的研究情况相比,国内的智 能问答系统研究起步较晚,但是发展非常快。尽管由于中西方语言的差异限制了中 文信息处理上的许多基础性研究,但是国内在这方面的成绩斐然。目前,众多的科 研机构和高等院校取得了相当大的成果,如:清华大学e a s y n a v 校园导航系统、中 科院计科所的红楼梦人物检索系统、上海交通大学远程教育中心的a n s w e rw e b 、 中国人民大学的网上人大、哈尔滨工业大学语言支持平台等等。 s t a r t 问答系统是一个基于知识库的问答式搜索引擎。如果系统在问题答案库中 可以找到用户问题对应的答案,就将所找到的答案返回给用户;如果没有找到对应 的答案,就提取用户问题关键词,然后经过搜索引擎进行关键词查询,最后将相关 文本反馈给用户1 7 j 。 a n s w e rb u s 是一个基于问题理解的问答系统。它能够对自然语言问句进行处 理,然后通过搜索引擎对网络上的相关文档进行搜索,最后通过答案抽取,问题的 3 硕士学位论丈 m a s t e r st h e s i s 答案以句子和词语的形式反馈给用户。 e a s y n a v 校园导航系统是基于实体标注的问答系统。该系统对校园导航库中的 实体进行标注,并构建实体关系图,供问题处理和答案搜索时使用。 a n s w e r w e b 问答系统是一个基于数据库的f a q 问答系统。该系统收集课程中 可能出现的问题以及答案。用户输入关键词,计算机在数据库中寻找含有相同关键 词的问题,如果找到,则输出该问题所对应的答案:否则,就将该问题留给教师来 解答。 网上人大问答系统是一个“值机答疑 系统,也就是一个聊天室。教师直接和 学生实时对话,对学生所提问题进行实时解答。 哈工大的语言支持平台是一个基于语义分析的自动问答系统。该系统不仅仅需 要对问题进行自然语言处理,还需要对知识文本进行自然语言处理,再利用匹配规 则进行答疑。所以,该系统处理的文本往往比较小。 1 3 几种常见的问答系统 伴随着人们在问答系统理论和实践方面所做的努力,各种类型的问答系统也相 继出现。总体来说,现有的问答系统主要可以分为四类1 8 j : ( 1 ) 聊天机器人 聊天机器人的特点是模仿人的言语习惯,采用模式匹配的方法来寻找最合适的 问题答案。在同用户的交谈中,都是基于一定的交谈技巧。因此,对于知道答案的 问题,往往给出人性化的回答;对于不知道答案的问题,则有三种回答方式:猜一 个答案、回答“不知道 、转移话题。 ( 2 ) 基于知识库的问答系统 基于知识库的问答系统,拥有一个或者多个知识库,并利用检索或者推理等技 术来寻找问题的答案。与聊天机器人所不同的是,这类系统擅长于知识问答,对于 无法回答的问题就回答说“不知道 ,而不是转移话题。 ( 3 ) 问答式检索系统 问答式检索系统,允许用户以自然语言方式提交查询请求,然后从系统文档集 合或者力维网中,检索出相关文本,并将结果返回给用户。 ( 4 ) 基于自由文本的问答系统 基于自由文本问答系统,根据用户以自然语言方式提交的查询请求,从文档中 抽取出准确答案。它不需要建立大规模的知识库,而是依赖于自由文本进行知识问 答。现有基于自由文本的问答系统,一般采用单通道管状的体系结构:用户查询处 理一自由文本检索一答案抽取。 4 : 硕士学位论文 m a s t e r st h e s i $ 1 4 研究内容与组织结构 1 4 1 研究内容 本研究的目的,是设计并开发完成面向教育技术学科的智能问答系统,实现在 学科内的自动问答。本系统在传统f a q 的基础上,通过中文语义相似度计算和自 然语言语义处理,实现智能的自动问答系统。通过常见问题答案库( f a q ) 和学科 知识文本库相结合,提高了问答系统的针对性。同时,本研究将问答系统与a l i c e 结合,采用自然语言进行提问,对问旬以及知识文本进行自然语言语义处理,实现 了基于自然语言的人机对话,提高了交互界面的活泼性,使得学习过程更加直接、 轻松和人性化。本系统结合了基于统计学概率论的t f i d f 和基于概念词典的语义相 似度计算二者的优势,提高了系统的召回率和准确率。召回率是指已经召回的j 下确 答案数与包含正确答案的候选答案数之比。准确率是指j 下确答案数与系统召回的答 案数之比。 为实现研究目的,本系统在研究和设计中将做如下的工作: 研究系统的相关理论及技术基础,包括中文分词的原理和方法,句子相似度 计算算法的分类及具体的算法模型,知识文本的检索模型,答案抽取的算法模型。 设计本文系统的构架,并研究本文的功能模块,包括问题处理,问句f a q 查询以及自动答疑。自动答疑又分为候选问旬抽取以及答案抽取两个重要部分。最 后根据系统要求设计本文系统的问答数据库,文本库索引,x m l 文本库,以及人 机交互接口。 根据自动问答系统的理论以及前面的研究,开发面向学科的问答系统,实现 其功能模块。 对自动问答系统的关键技术进行研究,包括学科核心词的提取,句子相似度 的计算,以及知识文本检索。 对面向教育技术学科的智能问答系统进行可行性测试与应用分析。 1 4 2 论文的组织结构 第一章论述本文的研究背景和意义,阐述国内外的研究现状以及本文的内容, 阐明本文的组织结构。 第二章论述系统的相关的理论及技术基础,研究并总结前人对问答系统的设计 理论及技术模型。 第三章在前人的研究成果之上,对本文将设计的问答系统进行论证,依次研究 的系统构架,数据库的设计,以及各个功能模块的设计。 第四章论述面向学科的智能问答原型系统的开发。问答系统丌发的环境和主要 功能模块的实现。 硕士学位论丈 m a s t e r st h e s i s 第五章从技术的角度,论述在设计和实现本系统时,运用相关理论,解决系统 设计和实现中的问题。本章着重讲述x m l 搜索技术,句子相似度计算,知识文本 检索技术。 第六章是对本系统的测试与分析。 第七章是对本系统设计和实现的总结和对该系统发展的展望。 6 硕士学位论文 m a s t e r st h e s i s 2 系统的相关理论及技术基础 智能问答系统综合运用了各种自然语言处理技术,涉及计算语言学、信息科学 和人工智能等多门学科。因此,智能问答系统的设计与实现涉及到很多理论知识。 中文自动分词是中文信息处理的一项重要的基础性工作,知网是计算句子语义相似 度时要涉及到的内容,句子相似度算法是系统的核心算法,知识构建是建构智能答 疑系统知识库的基础;而答案抽取是问答系统区别于搜索引擎的一个重要指标。因 此,本章着重对系统涉及到的相关理论知识,即中文自动分词技术、句子相似度计 算、知识库的构建、答案抽取以及a l i c e 进行了介绍。 2 1 中文自动分词技术 在汉语语言系统中,最小的构成单位是字。但是在我们的自然语言中,单独的 字,在很大程度上并不能够准确的表述我们的意思。所以,实际上,最基本的构成 单位是词语。因此,在自动问答系统中,首要任务是把连续的汉字串分割成为词的 序列,即自动分词。只有当句子转化为词之后,计算机才能对句子进行理解。 2 1 1 中文自动分词方法 根据分词原理的不同,中文自动分词方法主要分为以下四大类:基于词典的分 词方法( 或词表方法) 、基于统计的分词方法、知识分词、神经网络分词方法9 1 1 1 0 】。 ( 1 ) 词表法 这种算法又叫做机械分词法,它是按照一定的策略,将待分的汉字串与一个“充 分大的”机器词典中的词条进行逐一匹配,若在词典中找到与之匹配的某个字符串, 则匹配成功,即识别出一个词。按照扫描方向的不同,字符串匹配分词可以分为正 向匹配和逆向匹配:根据不同长度优先匹配的原则,可以分为最大( 最长) 匹配和 最小( 最短) 匹配。 机械分词的核心,是建立一个通用的,且与领域无关的通用词表。但是依据其 收录规则,收录词语到词表中的操作极其复杂,而且标准也没有统一。因此,长期 以来,都没有一个权威的分词词表。 ( 2 ) 统计法【 基于统计的分词方法,主要应用的是统计最。统计模型有:互信息、n 元文法 模型、神经网络模型、隐马尔科夫模型( h m m ) 和最大熵模型等。这些统计模型主 要是利用词与词的联合出现概率作为分词的依据。其原理是:词是稳定的字的组合, 在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此,字与 7 硕士学位论文 m a s t e r s r he s i s 字相邻共现的频率或概率,能够较好的反映成词的可信度。所以,可以通过对语料 中相邻共现的各个字的组合频度进行统计,计算它们的互现信息,从而作为分词的 依据。互现信息体现了汉字之间结合关系的紧密程度,当紧密程度达到或高于某一 个阈值时,便可认为此字组可能构成了一个词。阈值的确定通常需要通过统计语料 库来实现。 基于统计的分词方法的优点是:不受待处理文本的领域限制;不需要一个 机器可读词典。缺点是:需要大量的训练文本,用以建立模型的参数;该方法 的计算量都非常大:分词精度与训练文本的选择有关。 ( 3 ) 知识分词 知识分词,又称为专家系统法,它将自动分词过程视为知识推理过程,通过建 立专家系统知识库,让系统能够通过逻辑推理过程来完成自动分词。 知识分词克服了机械分词法自身与歧义纠正分离的缺点,并且知识库维护和扩 充比较容易,但是知识库的知识要做到充分完备,却是一项非常繁重而困难的任务, 而且难以排除例外。因此,知识分词在很大程度上是一个理想而不太现实的分词方 法。 ( 4 ) 神经网络分词方法 神经网络分词,是将神经网络理论引入分词中,用神经网络系统的学习、联想 记忆等优点来实现分词。它模拟人脑运行,分布处理和建立数值计算模型,将分词 知识用隐式的方法存入神经网络内部,通过自学习和训练来不断修改内部权值,以 达到j 下确的分词结果。 神经网络技术有自组织、自学习的能力,避免了传统分词系统中“规则”的局 限性,并且其联想及并行的特点在一定程度上模拟了人在语言处理时的机理,但是 其实现比较复杂,而且如何将语义和语用知识加入到网络中也是一个难点。因此, 神经网络分词法在应用中还存在一定的困难。 2 1 2 几种典型的中文分词系统 经过我国众多研究者的努力探索和实践,自1 9 8 0 年以来,陆续开发并公开发表 的分词器就有2 2 种之多1 1 2 】。下面介绍几个有代表性的中文分词系鲥13 1 。 ( 1 ) c d w s 分词系统 c d w s ( t h em o d e m c h i n e s ed i s t i n g u i s h i n gw o r d ss y s t e m ) ,现代汉语自动分词系 统,它是我国第一个实用的自动分词系统,是1 9 8 3 年由北京航空航天大学计算机 系设计实现的。该系统采用数学模型方法,辅以词尾字构词检错技术,使用知识库 进行纠错。其分词速度为5 1 0 字秒,切分精度约为l 6 2 5 。 ( 2 ) 清华大学s e g t a g 系统 由清华大学丌发的s e g t a g 系统,利用有向图综合各类信息,然后从有向图 8 上搜索出路径,再由评价函数对该路径进行评价,进而得出最佳的分词方法。通过 实验证明,该系统的切分速度约为3 0 字秒,切分精度基本上可达到9 9 左右。 ( 3 ) 哈工大统计分词系统 由哈工大开发的统计分词系统,是采用统计方法进行分词的纯分词系统。能够 在很大程度上解决生词发现的问题。经测试表明,此系统的分词速度为2 3 6 字秒, 切分精度为9 8 5 以上。 ( 4 ) 北大计算语言所分词系统 该系统属于分词和词类标注相结合的分词系统。系统的算法中综合了多种数据 组织和搜索技术,以较低的时间和空间开销实现了高速匹配和查找,同时采用了当 代计算语言学的统计方法,运用隐马尔科夫算法进行词类标注和排歧,对算法的效 率和稳固性都作了尽可能的优化。该系统连同标注的分词速度高达每秒5 千词以上。 ( 5 ) 中科院i c t c l a s 词法分析系统【1 4 j i c t c l a s ( i n s t i t u t eo fc o m p u t i n gt e c h n o l o g y ,c h i n e s el c x i c a la n a l y s i ss y s t e m ) 是中科院计科所研制的分词和词类标注相结合的分词系统。其功能有:中文分词: 词性标注;命名实体识别;未登录词识别。该系统采取隐马尔可夫模型( h i d d e n m a r k o vm o d e l ,h m m ) 模型,建立切分词图。词语粗分阶段,先得出n 个概率最 大( 概率最高且相同) 的切分结果:然后,利用角色标注方法识别未登录词,并计 算其概率,将未登录词加入到切分词图中,之后视它为普通词处理:最终进行动态 规划优选出n 个最大概率切分标注结果。该方法一方面避免了最短路径分词方法中 大量舍弃正确结果的可能,另一方面又大大解决了全切分搜索的空间过大,运行效 率差的弊端。因此,i c t c l a s 词法分析系统不仅实现了中文分词,还实现了分词 和词性标注的一体化,未登录词与普通词处理的一体化。 i c t c l a s 有多部词典,其中最主要的为核心词典、人物词典、地名词典和实 体词典。词典中首先记录了所有中文字符的个数,然后对每个中文字符存储以该字 符为首的词表链,其中每一项存储了训练出词语的词频、词语长度、词性、以该中 文字符开始的所有词的词链( 不包括该字符) 。 中科院i c t c l a s 词法分析器不但分词的j 下确率高,而且处理速度快。数据显 示,用人民同报1 9 9 8 年1 月1 日- 1 月1 5 日( 1 2 0 0 0 行) 的新闻语料进行测试 的分词j 下确率( 按词统计) 达到9 8 3 8 ,分词速度达到6 0 0 k b s 。本系统中的分词 部件,就是采取的这个分词器,对系统中所有需要进行分词的部分进行分词。 2 2 句子相似度计算 2 2 1 句子相似度介绍 在自然语言处理中,句子相似度计算是一项基础而核心的环节。在自动问答系 9 硕士学位论文 m a s t e r st h e s i s 统中,很多部分都需要进行句子的相似度计算。句子相似度是指两个句子在语义上 的匹配符合程度,一般用【0 ,1 】的实数表示。值越大表明两个句子越相似,当值为 l 时,则表明两个句子在语义上完全相同;值越小则表明两个句子相似度越低,当 值为0 时,则表明两个句子在语义上完全不同1 5 1 1 1 6 1 。 句子相似度的计算,在自然语言处理的各个领域都非常重要,但是,与英文句 子相似度计算相比,中文句子相似度的计算更有难度。主要体现在【1 7 】【1 8 j : ( 1 ) 缺少形态变化 汉语是世界上最为古老的语言
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026学年浙江省绍兴市一年级语文期末通关精准押题卷(详细参考解析)详细答案和解析
- 汽车组装质量检验准则(制度类)
- 2026学年河南省开封市二年级数学期末模考黑金试题附答案详细答案和解析
- 2026年政府会计准则制度实施能力历年仿真题
- 2026年酒店前台服务考核模拟题
- 2026年餐饮服务员初级模拟
- 2026年生命安全与急救知识培训
- 2026年小学冬季传染病预防知识
- 2026年生鲜乳质量安全监测员测试题
- 2025年氢能系统控制软件需求文档
- 2025年小升初巴本竞赛真题
- 2026届江苏省苏州市高新区第四中学中考二模物理试题含解析
- 期货风控专员考试试卷及答案
- JJG 688-2025汽车排放气体测试仪检定规程
- 中介新店开业活动方案
- 主生产计划(MPS)编制案例
- 皮质醇增多症患者的麻醉管理
- (高清版)DB62∕T 4704-2023 医养结合机构基本服务规范
- 可信数据空间解决方案星环科技
- 2025中国建设银行的贷款合同范本
- 项目经理讲安全课件
评论
0/150
提交评论