(计算机软件与理论专业论文)领域智能答疑系统.pdf_第1页
(计算机软件与理论专业论文)领域智能答疑系统.pdf_第2页
(计算机软件与理论专业论文)领域智能答疑系统.pdf_第3页
(计算机软件与理论专业论文)领域智能答疑系统.pdf_第4页
(计算机软件与理论专业论文)领域智能答疑系统.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机软件与理论专业论文)领域智能答疑系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

领域智能答疑系统 上海师范大学硕士论文 摘要 基于网络的教学系统,使分布在各地的学生、老师不再需要面对面地进行教 学活动,这种方式的教学活动得到越来越多的人的认可与支持,远程教学也逐渐 普及。智能答疑作为教学活动中的一个重要环节,在这一新环境中的具体实现形 式正日益引起关注。目前国内的具有代表性的网络教学系统中有关智能答疑部分 的特点,有些局限于电子邮件、系统留言版、电子公告的讨论方式、进行教师主 持下的网络实时聊天室等,这些答疑方式显然不能满足教学的需求。 在网络教学中,学生同教师不能直接见面,学生在自学过程中不可避免地有 百思不得其解的问题,建立智能答疑系统就成了开发网络教学系统的重要任务之 一,近几年出现了一些自动智能答疑系统,此类系统维护一个动态的问题与答案 的数据库。首先由用户输入关键词或者关键词的逻辑组合,然后系统在已有的问 题和答案数据库中查找相关的材料。这是一种基于关键词的形式,依赖关键词的 精确匹配。一方面因为涉及到关键词的提取、逻辑组合等知识,不利于对计算机 不很熟悉的用户的使用。另一方面,由于用户的用词和系统中存储的关键词在表 达方式上可能不完全一样,精确的关键词匹配法必将导致很多问题找不到答案, 或者找不准答案。 学生获得及时的解答,有利于消除学生的学习障碍。目前国内的具有代表性 的网络教学系统中智能答疑部分都还不能令人满意。为此,本文论述了基于一系 列关键技术的智能答疑系统模型。文中详细阐述了实现基于高中数学学科的智能 答疑系统所需要的关键技术,如问题分词、句子相似度计算等概念。分析了常问 问题库的形成与处理机制、领域概念字典等技术概念,并对句子相似度计算算法 加以改进,提出了两种新的句子相似度计算模型,这些技术对于本智能答疑系统 的性能的提高有着显著的作用。 【关键词】:智能答疑系统、常问问题集、句子相似度计算 领域智能答疑系统 上海师范大学硕士论文 a b s t r a c t w e b b a s e dt e a c h i n gs y s t e m ,l o c a t e di nv a r i o u sp a r t so ft h es t u d e n t s , t e a c h e r sn ol o n g e rn e e dt oc o n d u c tf a c e t o f a c et e a c h i n ga c t i v i t i e s t h i s m e a n st h a tt e a c h i n gm o r ea n dm o r ep e o p l eg e tt h er e c o g n i t i o na n ds u p p o r t , d i s t a n c ee d u c a t i o nh a sb e c o m ew i d e l ya c c e s s i b l e i n t e l l i g e n ta n s w e r i n g t e a c h i n ga c t i v i t i e sa sa ni m p o r t a n tl i n ki nt h ec o n c r e t er e a l i z a t i o no f t h i sn e we n v i r o n m e n ti sag r o w i n gc a u s ef o rc o n c e r n c u r r e n t l y ,t h e t y p i c a ln e t w o r kt e a c h i n gi n t e l l i g e n tt e a c h i n gs y s t e mo nt h ep a r tf e a t u r e s s o m el i m i t e dt oe - n t r i l ,m e s s a g eb o a r d ss y s t e m s ,e l e c t r o n i cb u l l e t i n d i s c u s s i o n ,r e a l - t i m et e a c h e r sc o n d u c t e du n d e rt h ea u s p i c e so ft h e i n t e r n e tc h a tr o o m s ,a n da n s w e rm e t h o do ft e a c h i n go b v i o u s l yd o e sn o tm e e t t h ed e m a n d n e t w o r kt e a c h i n gs t u d e n t st om e e td i r e c t l yw i t ht e a c h e r s ,i nt h e p r o c e s s o f s e l f - s t u d y s t u d e n t si n e v i t a b l y1 0 0i n c o m p r e h e n s i b l e , i n t e l l i g e n tt u t o r i n gs y s t e mh a sb e e ne s t a b l i s h e dt od e v e l o pn e t w o r k - o n e o ft h ei m p o r t a n tt a s k so ft e a c h i n g i nr e c e n ty e a r s ,t h e r eh a v eb e e ns o m e a u t o m a t i ci n t e l l i g e n tt u t o r i n gs y s t e m s ,s u c hs y s t e m st om a i n t a i na d y n a m i cd a t a b a s eo fq u e s t i o n sa n da n s w e r s f i r s t ,t h eu s e rk e y w o r d so r k e y w o r d sl o g i c a lc o m b i n a t i o n 。t h e nt h e r ea r et h eq u e s t i o n sa n da n s w e r s i nt h ed a t a b a s et of i n dr e l a t e dm a t e r i a l t h i si saf o r mb a s e do nk e y w o r d s : k e o r d sr e l yo nt h ea c c u r a c yo fm a t c h i n g o n eb e c a u s ei ti n v o l v e st h e e x t r a c t i o no fk e y w o r d s ,t h el o g i cc o m p o s i t i o nk n o w l e d g ei sn o tv e r y f a m i l i a rw i t ht h eh e l po fc o m p u t e ru s e r s t h eo t h e rh a n d ,t h es t o r a g e s y s t e mu s e rt e r m i n o l o g ya n dk e yw o r d si nh i sm e t h o do fe x p r e s s i o nm a yn o t b ee x a c t l yt h es a m e k e y w o r dm a t c h i n gp r e c i s i o nw i i if i n da n s w e r st om a n y p r o b l e m s ,o rc a nn o tf i n dt h ea n s w e r i nt h en e t w o r ko ft e a c h i n g ,s t u d e n t sc a nn o tm e e tw i t ht e a c h e r s d i r e c t l ya n dt h e yi n e v i t a b l yh a v ep u z z l e di ns e l f - l e a r n i n gp r o c e s s ,t h e t e a c h i n gs y s t e mo fn e t w o r k sh a sb e c o m et oo n eo ft h ei m p o r t a n tt a s k so f t e a c h i n g ,s t u d e n t sr e c e i v et i m e l ya n s w e r ,w h i c hw i l lb ec o n d u c i v et o e l i m i n a t i n gt h eo b s t a c l e so fs t u d e n t s c u r r e n t l yd o m e s t i cr e p r e s e n t a t i v e n e t w o r ka r ea l s op a r to ft h et e a c h i n gs y s t e mi sn o ts a t i s f a c t o r ya n s w e r t h e r e f o r e ,t h i sa r t i c l em a k e sr e f e r e n c et oan u m b e ro fk e yt e c h n 0 1 0 9 i e s b a s e do nt h ei n t e l li g e n ta n s w e r i n gs y s t e mm o d e l t h ea r t i c l ee l a b o r a t e d o nt h es y s t e mb a s e do nh i g hs c h o o lb yr e q u i r i n gk e yt e c h n o l o g i e s ,s u c h a ss u b t e r mp r o b l e m s ,c a l c u l a t i n gt h es e n t e n c es i m i l a r i t yd e g r e ec o n c e p t 领域智能答疑系统 上海师范大学硕士论文 p r o p o s i 吨t h ef o r m a t i o nm e c h a n i s m so ff r e q u e n t l ya s k e dq u e s t i o n sb a s e , t h ec o n c e p to ft h ea r e ao ft e c h n i c a lc o n c e p t ss u c ha sd i c t i o n a r i e sa n d s e n t e n c es i m i l a r i t yd e g r e ec a l c u l a t i o na l g o r i t h mi m p r o v e m e n t s ,p r e s e n t e d t w on e ws e n t e n c es i m i l a r i t y d e g r e ec a l c u l a t i o nm o d e l sf o r t h e s e t e c h n o l o g i e st oi m p r o v et h ep e r f o r m a n c eo ft h ei n t e l l i g e n ta n s w e r i n g s y s t e m - k e yw o r d s :i n t e l l i g e n ta n s w e r i n gs y s t e m 、f r e q u e n t l ya s k e dq u e s t i o n s b a s e 、s e n t e n c es i m il a r i t yc o m p u t e 领域智能答疑系统上海师范大学硕士论文 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究 成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表 示了谢意。 储繇徽吼砂刃歹。矿 论文使用授权声明 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此 规定。 名:夏缈师签私帆研s _ 领域智能答疑系统上海师范大学硕士论文 第一章绪论 本章主要介绍本论文的研究背景,研究意义、研究现状,研究目标与研究途 径以及论文的组织结构 1 1 研究背景 基于网络的教学系统,使分布在各地的学生、老师不再需要面对面地进行教 学活动,这种方式的教学活动得到越来越多的人的认可与支持,远程教学也逐渐 普及。智能答疑作为教学活动中的一个重要环节,在这一新环境中的具体实现形 式正日益引起关注。目前国内的具有代表性的网络教学系统中有关智能答疑部分 的特点,有些局限于电子邮件、系统留言版,电子公告的讨论方式、进行教师主 持下的网络实时聊天室等,这些答疑方式显然不能满足教学的需求。 近几年出现了一些自动智能答疑系统,此类系统维护一个动态的问题与答案 的数据库。首先由用户输入关键词或者关键词的逻辑组合,然后系统在已有的问 题和答案数据库中查找相关的材料。这是一种基于关键词的形式,依赖关键词的 精确匹配。一方面因为涉及到关键词的提取、逻辑组合等知识,不利于对计算机 不很熟悉的用户的使用。另一方面,由于用户的用词和系统中存储的关键词在表 达方式上可能不完全一样,精确的关键词匹配法必将导致很多问题找不到答案, 或者找不准答案。所以很难实现较高的答案召回率和查准率。为了解决这些问 题,基于自然语言提问的方式被提了出来。由此引出了对智能答疑系统的研究。 智能答疑系统是将学生的问题和教师的解答有机的组织起来并存放在相应 的答疑库中,通过自然语言理解等技术并自动的匹配学生所提出的问题,自动的 给予解答的系统。因为智能答疑系统涉及语言问题,所以国外的研究可借鉴的 不多。目前国内的基于自然语言的问答系统的研究多数是把答案来源定位于万维 网,问题类型限于常识性、真理性问题。而专门针对中学教学领域的基于自然语 言的智能答疑系统的研究不多,本文讨论的是一个基于特定领域的智能答疑系 统,以上海市教委项目上海高中数学基础知识智能学习系统州之智能答疑系 统模块的研究与设计为背景。 1 2 研究现状 1 2 1 国外研究现状 由于西文语系的特点,国外对智能答疑系统的研究相对较早,成型产品也比 较多如a s kj e e v e s 公司的a s kj e e v e sf o rk i d s “1 ,m i t 人工智能实验室的 第】页 领域智能替疑系统 上海师范大学硕士论文 s t a r t ( s y n t a c t i ca n a l y s i su s i n gr e v e r s i b l et r a n s f o r m a t i o n ) ,美国m i c h i g a n 大学的a n s w e rb u s ,芝加哥大学人工智能实验室开发的f a q f i n d e r 等嗍。这些 系统共同的特点是: 国外的智能答疑系统相对来讲独立性较强,基本上可将其视作单独模块来满 足对不同类型智能答疑材料的检索。 智能性方面,由于西方语系的特点和分词技术研究相对较早,所以在处理机 器理解自然语言方面明显准确得多。另外,国外的智能答疑系统设计了对问题的 确认交互,从而使系统能更精确地理解用户意图,为更准确的获取答案提供了另 外一层保障。 开放性方面,这里的开放性主要体现在系统的资源库方面。一方面,资源库 的内容采用的是主题式或专业领域式,其范围相对扩大了很多,也因此能容纳对 更多问题的回答;另一方面,系统的资源库还具备一定的学习功能,能从网上其 它网站中收集到问题的回答并纳入库中。 1 2 2 国内研究现状 国内早期基本上没有专门的智能答疑系统,一般都是通过电子邮件、留言板、 电子公告等手段来回答学生提出的问题,基本上回避了人工智能、专家系统等技 术的应用。近几年,由于教学平台的需求以及中文语言处理领域取得的突破,不 少科研院所也加大了对智能答疑系统的研究和开发,己经开发出来的系统如上海 交大的a n s w e r w e b 智能答疑系统,北师大v c l a s s 教学平台中的a s l a n e ! 智能答 疑部件等。a n s w e r w e b 自动智能答疑系统是一个基于动态的问题及答案的数据 库。在用户成功登录系统并选择课程后,用户就可以看到以本课程章节形式呈现 的己有的问题和答案。用户输入要询问的问题中的关键词进行查询,系统将在问 题与答案数据库中查找。如果找到了答案则将答案呈现给用户,否则将问题存储 在数据库中并自动转发给专家请求解答。所有答案的呈现都是纯文本的形式。 目前各网络学院所用平台在对学生智能答疑方面可以分为如下两类”】: ( 1 ) 简单的智能答疑系统 此类系统没有设计专门的智能答疑系统,师生通过邮件进行交流,或者利用 留言板进行简单的智能答疑,也有的是用基于网络的电子公告或聊天室,供师生 进行实时或非实时智能答疑讨论。如北京邮电大学现代远程教育系统以及大部分 的面向中小学的远程教育系统等均属于这一类。 ( 2 ) 初步具备智能答疑功能的智能答疑系统 该类系统已经初步具备智能答疑功能,它一般是有一个存储问题及答案的数 据库用户可以输入关键词在已有的数据库中寻找相关的资料,如果有新的提问 和答案,可以增加到数据库中。 尽管上述的各类智能答疑系统已经发挥了很大的作用,但是基本上还是基于 第2 页 领域智能答疑系统上海师范大学硕士论文 分词及模糊查找的方法找到学生所提问题的答案。这种智能答疑系统并不能满足 大规模网上学生的需求也不能与学生完成真正的交互。在一定意义上,还只是个 信息查询系统,还存在种种不足: ( 1 ) 问题、答案表现方式不够丰富 现有的智能答疑系统主要还是以文本为主,比如提问时只能采取纯文本的关 键词的逻辑组合的形式。 ( 2 ) 数据库管理功能不足 利用邮件或留言板或电子公告来智能答疑虽然使用简单,但管理起来不方 便,不能方便地加到数据库中,从而不能方便地重复利用。有的系统虽然有数据 库管理功能,但是也还很不完善。 ( 3 ) 系统的智能化不足 系统的智能化不足表现在几个方面:首先在提问关键词的匹配上,经常答非 所问;其次就是问题和答案的智能管理不是很完善:再次就是智能分析、统计功 能薄弱,不能根据所提问题给老师提出教学建议。 ( 4 ) 系统的标准化不足 , 当前很多系统设计时没有考虑标准化的问题,导致重要的资源无法互相共 享。智能答疑系统的发展趋势是标准化、自动化和智能化。同时具有统计分析和 数据挖掘的功能,能够对教学效果的进行评估,指导教学方法和内容的调整,直 接为改善教学的效果服务。 1 3 研究意义 网上学习,由于师生之间缺乏面对面的交流,学习者必须进行自主学习。而 在自主学习中,不可避免地要碰到各种疑难问题,在网络环境下,学生数量众多, 教师由于时间和精力的限制,根本无法及时的回答学生提出的所有的问题,造成 学生知识掌握上的缺陷和漏洞,因此建立一套高效的、科学的智能答疑系统支持 大规模网络学习,不仅可以使学生得到快速响应,也可以减轻教师的工作压力。 教师将一些简单问题主动放到智能答疑库中,就可以节省大量的讨论时间,也就 可以将主要精力投到难点重点上。 无论从市场前景的角度,还是从理论研究的角度,自然语言智能答疑系统都 是一项理论和实际意义重大的研发项目。目前,尽管被越来越多的研究者看好, 汉语的自然语言智能答疑系统的研究仍然处于初始阶段。智能答疑系统是学生进 行系统学习的有益补充,同时也是学生巩固知识的重要途径。智能答疑系统作为 教学系统中教师和学生交互的重要方面之一,对于辅助和提高教学的效果方面具 有重要的意义: c 1 ) 改善教学的效果 通过学生在课程学习过程中所反映和提出的共同问题,教师以及课件编写者 第3 页 领域智能答疑系统 上海师范大学硕士论文 等远程教学过程中涉及的各管理和参与者,能够藉此反馈直接调整教学的内容、 进度,改善教学方式等,从而提高效果。 ( 2 ) 提高效率 通过在智能答疑系统中对一些简单的公共的问题和概念提供详细的解答和 解释,可以避免教学中的大量时间花费在基本概念的解释上,从而可以投入进行 深入的讨论和交流等。 ( 3 ) 作为宝贵的教学资源 学生在学习过程中产生的问题以及教师等的解答,经过一定时间的积累成为 可以重复利用的宝贵资源。其它的学生可以从以往学生的问题中取得收获,教师 也能够利用这些资源来有针对性的制定教学内容和进度等。 ( 4 ) 改善教学环境的设计 在网络教学系统中,整个系统的设计、教学方式的制定也直接影响了教学效 果。智能答疑系统将成为网络教学系统不可或缺的部分。 同时,进行智能答疑系统的研究为自然语言理解以及信息检索技术的应用与 发展提供一个方向,可以推动该技术领域的发展。 1 4 研究目标与研究途径 1 4 1 研究目标 本智能答疑系统的研制主要致力于改革现有的智能答疑模式。充分利用网络 教育网中知识库的资源,通过机器处理,自动回答学生的问题,从而减轻老师的 负担,提高教学的效率和质量。系统在没有人工干预的情况下对学生提出的问题 进行智能答疑活动,并给出合适的答案。系统不仅仅对关键词或关键词的组合进 行除处理,同时需要对用自然语言描述的问题具有自然语言处理能力。系统建立 一个动态的常问问题库和智能答疑知识库,可以人工和自动扩充问题答案知识 库,使问题答案知识库随着应用时间的增加逐步得到丰富,同时为以后的智能答 疑活动所利用。 1 4 2 研究途径 依托上海市教委项目上海高中数学基础知识智能学习系统,实现该项目 中的智能答疑子系统,为此我完成了自己的论文。本论文主要围绕领域概念字典、 问句预处理、智能答疑知识库的组织、改进句子相似度计算模型以及系统设计与 实现等几个方面加以研究: ( 1 ) 问句预处理 第4 页 领域智能答疑系统上海师范大学硕士论文 在线智能答疑的过程中,从输入问题的表示来看,用户可以输入关键词和关 键词的逻辑组合来寻求问题的解答,还可以输入用自然语言描述的问题。这样使 用户能更轻松的使用系统,并体现系统的智能性在一些中文搜索引擎中,已经 出现了对自然语言的支持,如c h i n a r e n 的孙悟空搜索引擎啪等。此外,为了提 高系统的效率与性能,应该对问题进行分类,以缩小查询范围,提高查询的速度 和效率。 ( 2 ) 智能答疑知识库的组织 智能答疑知识库是整个智能答疑系统的基础,其中知识质量的优劣、层次的 高低、数量的多寡决定了问题求解结果的科学合理性和求解问题的覆盖范围。在 本系统中,我们提出了常问问题集以及智能答疑库,常问问题集的提出主要是为 了提高系统性能,对于用户的提问,可以先在常问问题集中查询答案,如果有合 适的答案,就返回给用户,这样可以减少接下来在智能答疑库中进行句子计算等 操作而带来的性能上的削弱,从而在时间和空间上达到性能的提高。同时,及时 对常问问题集进行扩充与更新。 , ( 3 ) 句子相似度计算算法 在本部分中,我们分别对以前的一些句子相似度计算方法加以分析阐述,并 加以改进。 1 5 论文工作 基于以上研究分析,设计并实现了本智能答疑系统。在本系统中完成了问题 的分词以及与智能答疑库中的问题的相似度计算的改进,建立了概念字典模型、 常问问题集及其处理机制等理论。对于用户的提问,如果在常问问题集中没有合 适的答案,将会从智能答疑库中进行搜索,此时主要是应用我们提出的改进的句 子计算模型而进行搜索操作,以给出精确的答案,理论上提高系统的查准率。 1 6 研究内容与论文结构 本文内容组织如下: 第二章详细介绍了本智能答疑系统中的基于概念关系图的概念字典模型以 及概念字典在本智能答疑系统中的应用。 第三章详细介绍了用户问句的预处理,分别从问句的分词、问句类型的确立、 关键词的提取以及启发式分析等角度加以讨论与分析。 第四章研究了智能答疑系统库的组织,分析讨论了常问问题集库、领域智能 答疑知识库、概念字典库以及其他辅助知识库。并着重分析了常问问题集的处理 机制等理论。 第五章对句子相似度计算模型加以分析,并对句子相似度计算算法加以改 第5 页 领域智能答疑系统上海师范大学硕士论文 进。 第六章主要介绍了本智能答疑系统的详细设计与具体实现,以及开发模型、 开发工具的选择等。 第6 页 领域智能答疑系统上海师范大学硕士论文 第二章概念字典与词库 本章主要提出了概念字典模型以及其形成过程,介绍了概念字典模型的相关 理论知识以及概念字典模型在本智能答疑系统中的应用分析,同时简要介绍了通 用词库与停用词库概念 2 1 概念字典模型 网络教学环境中,学生提出的问题一般是针对某一特定的课程,课程的内容 具有经典和普遍意义。学生对课程的理解一般都有相似之处,因而提出的问题有 相当一部分带有普遍性。其实质性内容相同。根据这一特点,建立的智能答疑系 统的问题库所涉及的概念及概念间的相互关系就少得多,这就为概念字典的建立 和应用创造了条件。下面主要分析概念字典嘲的建立过程。 2 1 i 专业关键词 专业关键词库用于用户问句专业关键词提取、启发式提问( 即关键词扩展) 、 句子相似度计算等。专业关键词由每门学科的教师进行手工整理而得到。专业关 键词是指在某一专业领域中代表某一特定概念的词。对于高中数学课程,可以根 据其后面的附录获取该课程的专业关键词,比如数列、极限、三角形式等概念就 属于概念关键词。 答项是指在某一问题中要求回答的具体内容,如“区别”、。原因”、。如 何”、“什么是”等。 例如:。数列极限和函数极限有何区别”这一问中,虽然“数列极限( 函数 极限) ”专业词还可以分成“数列”、“函数”、“极限”三个概念,但这三者 是作为一个整体表述“数列极限( 函数极限) ”这一特定的完整概念,所以是把 。数列极限”和“函数极限”作为两个专业关键词提取出来;“区别”是本题要 求回答的具体内容,将其单独列出。专业关键词库的结构主要由以下三部分组成: ( 1 ) 学科编号( c o u r s e l d ) ( 2 ) 专业关键词( k e y i d ) ( 3 ) 专业关键词权重( k e y w e i g h t ) 2 1 2 专业关键词权重 词语的权重计算,可由专家或用户根据自己的经验和所掌握的领域知识,人 为赋予权重。但是这种办法随意性很大,效率也不高,不适用于大规模真实文本 第7 页 领域智能答疑系统上海师范大学硕士论文 的处理,因此本系统采用统计方法来计算词语权重。在建立知识库的时候,我们 已经建立了计算机学科领域专业关键词库,可根据该词库将用户问题所包含的词 语分为专业关键词和一般关键词。很明显,在问句中专业关键词要比一般关键词 影响大。比如:数学学科中,。极限”、“概率”等学科名词对答案的影响要比一 般的概念要大。因此在权重计算的时候我们会对专业关键词和一般关键词分别赋 予不同的权重。具体计算过程如下: 1 一般关键词权重根据词性来确定其值,我们定义为权重形,取值范围是( 0 ,1 ) : 2 定义专业关键词权重为。 专业关键词的重要性有这样一个特点:通常在某章节中出现次数比较多,而 在整个学科知识中出现的次数较少的专业关键词,该词所含有的信息量就越多, 这个词就越重要,因此我们给这样的专业关键词赋予较高的权重。例如:假如一 个关于数学的问句中同时了“极限”和“二重积分”这两个专业关键词。二重 积分”很容易可以将它定位到“积分”这一章;而。极限”,我们很难将其进行 定位,因为。极限”在数学的每一章节几乎都可以找到它。可见,越在小范围内 出现的专业关键词往往越重要,因此这样的词语应赋予较高权重。 ( 1 ) 设口是按以上专业关键词的特点,计算所得到的专业关键词的权重,为了确 保计算出的专业关键词权重比一般关键词的权重都要大,我们将专业关键词 权重计算公式调整为:w - 口+ 1 ; ( 2 ) 口的计算方法如下,我们分三种情况计算o : 第一种情况,当某个专业关键词在课程中多章中出现时,记它出现的章数为 n l ,则口。淼; 第二种情况,当某个专业关键词只在课程的某一章中多个节中出现时,记它 在该章中出现的节数为_ 1 2 ,则口1 话赫; 第三种情况,当某个专业关键词只在课程的某一章的某一节的多个小节中出 现时,记它在该节中出现的小节数为叼,q 勺匿葡泵姜隔 同时,在这三种情况下,根据前面分析的专业关键词的特点,有:第三种情 况下的口值 第二种情况下的口值 第一种情况下的。值。 2 1 3 概念字典的建立 基于以上关键词的研究分析,在本系统中,我们按照如下的步骤和规范建立 数学学科的概念字典: 。 第8 页 领域智能答疑系统 上海师范大学硕士论文 ( 1 ) 为了建立数学学科的概念字典,我们首先要确定其目的和范围,本系统建立 概念字典是为了利用数学概念集以及概念之间的关系,实现用户问题的自动 定位和数学领域知识网络的构建; ( 2 ) 然后获取初步的知识,针对学科领域的知识内容,结合教师或专家的理解与 经验,获取学科知识,并对其关系作粗略的描述; ( 3 ) 最后进行概念关系化分析,确立学科基本概念,同时将该学科的知识分成不 同的知识单元,针对不同的知识单元确立其中的基本概念;通过对这些基本 概念的分析,确立他们之间的关系,如上下位关系、同义关系等; ( 4 ) 给出上述概念和关系的形式化描述,得出各学科的概念关系图词典。 对于课程的所有的概念,并结合高中数学排列组合与概率叫这章的部分内 容,我们可以构织成以下的网络关系图2 - 1 的概念关系图,然后通过关系数据库 理论去实现该网络关系,从而达到概念关系的关系表示。在下图中我们有这样两 种的约定: ( 1 ) 上层概念与其子概念是上下位关系; ( 2 ) 对于同一概念下面的同层概念之间的关系是同义关系; ( 3 ) 上层概念与其子概念之间的关系用有向图表示。 田2 1 概念关系田 在抽取了概念库中所有问题的概念的基础上,我们在结合上图2 - 1 概念关系 图的思想,对所有概念进行分析并适当扩充,建立概念字典。为了简化系统,只 将概念间的关系分为两种:同义和蕴涵。相应的概念字典也分为两种:同义概念 字典和蕴涵概念字典。同义概念字典为每个概念指明了与其同义和近义的概念集 合见表2 1 ,如某一概念没有同义概念,则在同义概念字典表无此概念的同义概 念记录。为便于以后使用过程中扩展同义词,再定义一个辅助的同义概念字典表, 其结构如表2 2 所示。 学科概念编号概念名称概念描述概念权重 l 高中数学 c o n c e p t 0 0 l函数定义 w 。 l 高中数学c o n c e p t 0 0 2极限定义 w 表21 :概念字典表 第9 页 领域智能答疑系统上海师范大学硕士论文 编号 概念编号同义概念名称语义相似度 0 0 1极限l i m i t1 0 0 2 函数极限函数 o 5 寰2 2z 局义概念字典裹 蕴涵概念字典是建立已抽取的专业关键词的父概念集和子概念集,其结构如 表2 3 所示。 i 编号 概念名称”概念名称集合 一 0 0 1 极限函数极限、数列极限 裹2 3 :蕴涵概念字典表 其中,父概念集表项和子概念集表项都是专业关键词的集合,可以采用与同 义集表项相同的实现方式。这样,在搜索某一概念的上位概念和下位概念时,可 直接用语汇义蕴涵词典获得。要查概念的同级概念时,可以先查找其父概念,再 查找其父概念的其他子概念。 2 1 4 概念字典应用举例 例l :。各种l i m i t 概念有何不同? ”在单纯关键词匹配的情况下,即使问题 库中有。各种l i m i t 的区别”这一问题的答案,系统也无法给出问题的正确答案 来。如用同义概念字典对学生提问进行扩充后,在“专业关键词的同义概念字典” 中找到“l i m i t ”的同义词“极限”,在“同义概念字典”中找到。不同”的同 义词“区别”,就会找到这个问题的正确答案了。 例2 :“简述各类极限的特点? ”在单纯的关键词匹配的情况下,会找到一些 有关极限的特点的答案,而不会找到数列极限、函数极限的特点。在经蕴涵概念 字典扩充后,找到“极限”的上述两个子概念,便能够得到相应答案。 2 2 概念字典在本系统中的应用与分析 2 2 1 应用 ( 1 ) 系统建立时,由经验丰富的教师将大量的常见问题和易混淆的知识点保 存在智能答疑系统的问题库中,列出每题的专业关键词,分别建立关键 词库。 ( 2 ) 学生有疑问时,通过网络将用自然语言描述的问题提交给系统。 第1 0 页 领域智能答疑系统上海师范大学硕士论文 ( 3 ) 分词处理模块对问题进行分词处理,得出该问题对应的专业关键词和, 并由它们及其权值组成一个问题向量。 ( 4 ) 将第( 3 ) 步中获得的专业关键词与问题库中的每个问题的专业关键词快 速匹配,按一定规则排除不相关问题,找到所有候选答案。 ( 5 ) 对每个候选答案,根据它们的各自专业关键词及权重构造一个句子向量, 计算这些句子向量与问题向量的相似度,相似度的概念将在第四章详细 分析与讨论。 ( 6 ) 根据第( 5 ) 步的计算结果。取得最大相似度的候选答案。 ( 7 ) 将第( 6 ) 步获得的候选答案提交学生。如学生认为智能答疑一致时,智能 答疑过程结束。 ( 8 ) 如学生不满意问题的答案,系统可以认为系统中无相关问题,系统将其 问题通过系统和邮件发给负责智能答疑的教师,教师得到通知后,通过 系统回答学生该问题,并将该问题和答案并人问题库,当然学生可以进 行启发式提问以获取理想的答案。 2 2 2 分析 同义概念字典主要应用于上述过程的第( 4 ) 步。先用问题的与问题库中每一 个问题的进行匹配,去掉一些不相关的问题;在此基础上,用问题的专业关键词 与题库中每一个问题的专业关键词匹配,再排除一些不相关的问题。在匹配的过 程中,利用同义词概念字典,查找专业关键词的同义或近义的概念。具体过程: 1 ) 先在同义概念字典中查找该概念的同义集地址,再根据它在同义集词典中查找 具体的同义集;2 ) 扩充学生的提问。根据同义集中的同义词对分词处理学生提交 的问题所得到的专业关键词和进行扩充,将同义词加入到提问中去。如果出现了 重叠的情况,即同义词已在提问中,则忽略该同义词。这样,查全率将大大提高。 蕴涵概念字典主要用在上述过程中的第( 3 ) 步,它根据语义蕴涵概念字典, 对学生的提问用词进行提示,提供某些专业关键词和上位词、下位词或同级的词, 再通过专业关键词、同义概念字典帮助学生发现自己最需要的专业关键词。此模 块可作为一个独立的模块单独实现。其作用有二:1 ) 也许学生只是想弄清楚相近 的几个概念间的关系,利用系统提示蕴涵概念字典与专业关键词同义概念字典存 储的专业关键词,学生的提问在此就可解决;2 ) 在这个交互过程中,学生会思考 自己提问与提示词之间的关系,找到自己最希望查找的问题关键词,以便在问题 库中找到学生最希望得到的答案。另一方面,使学生发现一些自己遗忘的或没有 注意到的专业关键词,并参考到与自己提出的问题相关而本人在事先没有想到的 关联性结果,具有良好的启发性教学效果。 同时,概念字典对于问句的启发式处理具有很好的作用,详见本文第三章。 第1 1 页 领域智能答疑系统 上海师范大学硕士论文 2 3 通用词库 在本系统中,我们采用了s h o o t s e a r c h 中文分词组件“”的通用词汇的中文字 典,根据我们自己需要我们进行抽取转化为文本文件,并称之为 s n o r m a l d i c t i o n a r y t x t 的文本文件词库,采用文本文件词库可以提高系统的性能 以及响应的及时性。 2 4 停用词库 图2 - 2 通用词库图 本系统的停用词库用于关键词提取前的停用词过滤、文档特征项自动提取前 的停用词过滤。停用词库的内容主要包括: ( 1 ) 虚词、助词和连词等。如:“的”,。与”、“之”、“或”、。以及”,“也”等; ( 2 ) 其它无检索意义的词。如:“关于”、。论述”、“本文”等。 停用词库共分两个步骤来建立并扩充。首先人工收集录入“显式”的停用词, 如虚词、助词和连词等;然后对一定量的数据进行抽词试验,从抽剩下的字符中 再选取一部分词汇补充进停用词库。在本系统中,我们主要用的停用词库也来自 于s h o o t s e a r c h 中文分词组件,其名称为s n o i s e t x t , 见下图2 - 2 : 第1 2 页 领域智能答疑系统 上海师范大学硕士论文 圈2 3 停用词库田 第1 3 页 领域智能答疑系统 上海师范大学硕士论文 第三章问句预处理 汉语的问句一般分为疑问句反问句和设问句,其中疑问句的用途主要是用 来向对方询问根据疑问句表达方式的不同,又可以把疑问句分为:是非问句, 选择问句、特指问句0 1 根据统计,用户提问的大部分问题为特指问句,因此本 系统重点研究问句中的特指问句对用户问句的语义识别,其实就是计算机对用 户问句所表达意思的理解本系统通过对用户问句以下几部分的处理,大致可以 掌握用户的疑问所在 ( 1 ) 问题分词: ( 2 ) 问句类型的确立: ( 3 ) 关键词提取: ( 4 ) 关键词扩展: ( 5 ) 问题分类 本部分将对这几部分进行具体讨论与分析 3 1 汉语的特点 词是最小的、能独立活动的、有意义的语言成分“。然而,汉语文本中词 与词之间却没有明确的分隔标记,而是连续的汉字串。显而易见,自动识别词边 界,将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项 任务的首要问题。英语文本是小字符集上的已充分分隔开的词串,而汉语文本是 大字符集上的连续字串,并且在词与词之间并没有明显的分割标记。故而存在一 个对汉语中的词加以识别的问题,即中文检索引擎首先必须对原文进行切分词。 如果不切词( 按字检索) ,可能检索的结果与用户的查询要求会大相径庭,例如 当检索德国货币单位马克时,就会把4 马克思检索出来,而检索4 华人时会把 中华人民共和国检索出来。因而进行分词,可以大大提高检索的准确率。 中国的汉字是示意文字,总数有几万个,在由国家标准总局颁布的信息交 换用汉字编码字符集一基本集蚴( 即g b 2 3 1 2 - 8 0 ) 中共收录了一级和二级常用 汉字共6 7 6 3 个,而在u n i c o d e 编码中更是收录多达2 0 9 0 2 个汉字。据统计,在 常用汉语中,9 0 以上使用的是二字词和三字词,也有使用四字词和五字词。知 道这些汉字的特点,对于我们选择合理的切分算法是有益的。 3 2 问题分词 分词有人工分词与机器自动分词两种。人工分词存在两个缺点,即分词的不 一致性,处理速度慢。针对这些缺点,引中出由计算机代替人工分词,称为自动 第1 4 贞 领域智能答疑系统上海师范大学硕士论文 分词。 中文处理的基础就是中文分词。分词是什么? “分词就是将连续的字序列按 照一定的规范重新组合成词序列的过程。”o ” 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字 为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子i 锄a s t u d e n t ,用中文则为:“我是一个学生”计算机可以很简单通过空格知道 s t u d e n t 是一个单词,但是不能很容易明白。学”、。生”两个字合起来才表示 一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切 词。我是一个学生,分词的结果是:我是一个学生 知识库中与分词联系紧密的是关键词库,它直接关系到分词和相关度计算的 结果。关键词库分为常用关键词库和专业关键词库两类。除此之外因为每门课 程都有属于本专业的词语,这类词语专业性很强常用词典中很少收录却对分词具 有决定性作用,因此需要由专业词库进行收录。 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的 知识来明白哪些是词,哪些不是词,但如何让计算机也能理解? 其处理过程就是 分词算法“” 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分 词方法和基于统计的分词方法。 3 2 1 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一 个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配 成功( 识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正向匹 配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最 小( 最短) 匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和 分词与标注相结合的一体化方法。常用的几种机械分词方法如下: ( 1 ) 正向最大匹配法( 由左到右的方向) ( 2 ) 逆向最大匹配法( 由右到左的方向) ( 3 ) 最少切分( 使每一句中切出的词数最小) 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最 大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配 和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配, 遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为 1 1 6 9 ,单纯使用逆向最大匹配的错误率为1 2 4 5 。但这种精度还远远不能满足 实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通 过利用各种其它的语言信息来进一步提高切分的准确率。 第1 5 页 领域智能答疑系统 上海师范大学硕士论文 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串 中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论