(计算机软件与理论专业论文)elearning中基于语义分析的智能答疑技术研究与系统实现.pdf_第1页
(计算机软件与理论专业论文)elearning中基于语义分析的智能答疑技术研究与系统实现.pdf_第2页
(计算机软件与理论专业论文)elearning中基于语义分析的智能答疑技术研究与系统实现.pdf_第3页
(计算机软件与理论专业论文)elearning中基于语义分析的智能答疑技术研究与系统实现.pdf_第4页
(计算机软件与理论专业论文)elearning中基于语义分析的智能答疑技术研究与系统实现.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机软件与理论专业论文)elearning中基于语义分析的智能答疑技术研究与系统实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论丈 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 摘要 随着远程教育的兴起,远程答疑的作用就显得越来越重要,而智能答疑系统 已经成为人工智能和远程教育中发展迅速的研究领域之一。智能答疑中用户采用 自然语言方式向系统提问,系统结合人工智能、自然语言理解和自动搜索等技术 搜索相关信息,并呈现给用户。 智能答疑与自然语吉理解有着密切的关系,自然语言理解的程度是智能答疑 系统的主要技术保障。以往的做法只是简单的对提出的问题进行自动分词,以获 取关键词词语本身,没有对问题的语义进行分析和理解。本文从语义分析的角度 进行研究,语义分析是提高自然语言理解的重要手段。本文的研究工作主要包括 以下几个方面: 首先,本文全面阐述了e l e a r n i n g 的发展历史和特性,智能答疑系统的作用、 重要性以及目前研究的方向,在分析智能答疑现状的基础上提出目前存在的主要 问题。 其次,本文对智能答疑系统涉及的关键技术进行了详细的阐述。自动分词是 问题分析中的重点,这旱采用了简单实用的最大匹配法进行问题的自动分词:由 于每个词语有多个语义( 即h o w n e t 中的义项,h o w n e t 是揭示概念与概念之问以 及概念所具有的属性之间的关系为基本内容的常识知识库) ,那就必须根掘义项 相似度算法柬确定词语的真实语义,本文提出的语义消歧算 i 是( s d a :s e m a n t i c d i s a m b i g u a t i n g a l g o r i t h m ) 就是解决这一问题的:这样就可以更稍确地计算j 、u j 题相 似度,从而从相应的知识库中找到相关问题的答案和解释。这是本文的 要创新 之处。 最后,本文描述了基于语义分析的智能答疑系统( 1 q a s s a :i n t e l l i g e n t o u e s t i o na n da n s w e r i n gs y s t e mb a s e do ns e m a n t i ca n a s y s i s ) 的实现过程与方法, 并对关键技术做了详细的蒯述。i q a s s a 是基于h o w n e t 的结构设计的。实践表 明,基于语义分析的系统提高了智能答疑的准确性和智能性。 本文得到了国家自然科学基会智能系统中的人机交互理论及其j 、v 用研究 ( 6 0 2 0 3 0 11 ) 的资助。 关键词:智能答疑,语义分析,词语相似度,h o w n e t 上海大学硕士学位论丈 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y a bs t r a c t w i t ht h ed e v e l o p m e n to fr e m o t ee d u c a t i o n ,t h ef u n c t i o no f r e m o t ea n s w e r i n gi s m o r ea n dm o r ei m p o r t a n t t h ei n t e l l i g e n tq u e s t i o na n da n s w e r i n g ( q a ) s y s t e mi s b e i n g af a s t d e v e l o p i n gs t u d y f i e l di na r t i f i c i a l i n t e l l i g e n c e ( a i ) t h e u s e ri n i n t e l l i g e n tq aa s k sq u e s t i o n si nn a t u r a ll a n g u a g em a n n e lt h e nt h es y s t e mp r e s e n t r e l a t e di n f o r m a t i o nt ot h eu s e rc o m b i n i n gw i t hs e v e r a lt e c h n o l o g i e ss u c ha s a 1 , n a t u r a ll a n g u a g eu n d e r s t a n d i n g ( n l u ) a n da u t os e a r c h i n g i n t e l l i g e n tq ah a sc l o s er e l a t i o n s h i pw i t hn l u t h ed e g r e eo fn l ui st h e p r i m a r yt e c h n i c a lg u a r a n t e eo fi n t e l l i g e n tq a i nt h ep a s t ,n l uj u s ts e g m e n t st h e p r o p o s e dq u e s t i o n si n t ok e y w o r d sa u t o m a t i c a l l y , b u tn o ta n a l y z i n ga n du n d e r s t a n d i n g t h es e m a n t i c so ft h e q u e s t i o n t h i sp a p e rr e s e a r c h s i tf r o ms e m a n t i c a n a l y s i s s e m a n t i ca n a l y s i si sa ni m p o r t a n tm e a n st os t r e n g t h e nn l u t h er e s e a r c hw o r ki nm y p a p e ri n c l u d e ss e v e r a la s p e c t : f i r s t ,i n t r o d u c ec o m p l e t e l yt h ed e v e l o p m e n th i s t o r ya n dc h a r a c t e r i s t i co f e l e a r n i n g ,t h ef u n c t i o n ,t h ei m p o r t a n c ea n ds t u d yd i r e c t i o no fi n t e l l i g e n tq u e s t i o n a n da n s w e r i n gs y s t e m b a s e do na n a l y z i n gt h es y s t e mc u r r e n ts i t u a t i o n ,l i s tt h em a i n q u e s t i o n s s e c o n d ,d e p i c tt h es y s t e mk e yt e c h n o l o g yi nd e t a i l a u t os e g m e n t a t i o ni st h e e m p h a s e so fq u e s t i o na n a l y s i s ,w eu s et h em a x i n u mm a t c ha l g o r i t h mw h i c hi ss i m p l e a n d p r a c t i c a l t oa u t o s e g m e n t b e c a u s e e v e r y w o r d m a y b e h a s m a n y c o n c e p t i o n ( c a l l e d “m e a n i n gi t e m ”i nh o w n e t ,h o w n e ti s ag e n e r a l k n o w l e d g e r e p o s i t o r yt h a td i s c l o s et h er e l a t i o n s h i pb e t w e e nc o n c e p t i o na n dc o n c e p t i o n ,t h e r e l a t i o n s h i pb e t w e e na t t r i b u t ea n da t t r i b u t ei nc o n c e p t i o n ) ,s ow em u s tc o n f i r mt h e w o r d sr e a lm e a n i n gb yc o n c e p t i o ns i m i l i a r t ya l g o r i t h m t h i sp a p e rb r i n g so u ts d a ( s e m n t i cd i s a m b i g u a t i n ga l g o r i t h m ) t or e s o l v et h i sp r o b l e mu s i n gs d ac o u l d c o m p u t eq u e s t i o ns i m i l a r i t ym o r ee x a c t l ya n df i n da n s w e r sa n de x p l a n t i o na b o u t r e l a t e dq u e s t i o ni nc o r r e s p o n dr e p o s i t o r y t h i si st h em a i nc o n t r i b u t i o ni nt h i sp a p e r a tl a s t i nm yp a p e rd e s c r i b et h ei m p l e m e n t a t i o np r o c e s sa n dt e c h n i q u eo f i n t e l l i g e n tq as y s t e mb a s eo ns e m a n t i ca n a l y s i s i q a s s a ( i n t e i l i g e n tq u e s t i o na n d a n s w e r i n gs y s t e mb a s e do ns e m a n t i ca n a s y s i s 、i sb a s e do nh o w n e t ,l h ep r a c t i c e i n d i c a t st h a tt h ei q a s s ac a ni m p r o v e st h ea c c u r a c ya n di n t e l l i g e n c eo ft h es y s t e m t h i sp a p e rh a sb e e ns u p p o r t e db yt h en a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no f c h i n a “h u m a n m a c h i n ei n t e r a c t i o nt h e o r i e si ni n t e l l i g e ts y s t e ma n di t sa p p l i c a t i o n i 【一 上海大学硕士学位论丈 t h ep o s t g r a d u a t et h e s i so fs h a n g h i iu n i v e r s i t y k e y w o r d s :i n t e l l i g e n tq u e s t i o n a n d a n s w e r i n g s e m a n t i ca n a l y s i s w o r d s s i m i l a r i t y , h o w n e t 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的仟何 贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 期搬广乡d 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅:学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名导师签名: 日期:迎z q 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i s ,o fs h a n g h a iu n i v e r s i t y 第一章绪论 i n t e m e t 网络技术作为现代信息技术的一个典型代表不仅大大推动了社会信 息化过程,还对当前的教育改革提供了有力的支持。实践证明,基于多媒体网络 技术的网络学习方式( e l e a r n i n g ) ,能够弥补传统教学手段的缺点,给学生提供宽 广的、富有创意的学习空l 刨,有效地促进了传统被动式学习向主动式学习的转变。 智能答疑作为e l e a r n i n g 中的一个非常重要研究领域,结合了人工智能、自 然语言理解、知识表示等多方面的技术,也越来越引起人们的重视。 1 1 e l e a r n i n g 与智能答疑 1 1 1e 。l e a r n i n g 的发展历史与特点 e l e a r n i n g 作为现代远程教育的重要发展趋势之一,要了解它就必须先要熟 悉整个远程教育发展过程。远程教育是指将课程传送到校园外的处或多处学生 的教育,现代远程教育则是指通过音频、视频( 直播或录像) 及包括实时和非实时在 内的计算机技术把课程传送到校园外的教育。 世界远程教育的历史可以追溯到本世纪3 0 年代。随着先进的信息技术,特别 是互联网的出现,远程教育的特征发生了深刻的变化。 1 远程教育的发展 在2 0 世纪早期和中期,远程教育技术( 如打印机、收音机和电视) 的特征是信 息的传输单向性。这一时期远程教育技术主要用于从老师到学生的信息传递,这 种传递模式没能起到学生之间沟通的作用,仅实现了信息之帕j 有限的交流,信息 传输技术还受到时间的限制( 例如学生们收听收音机和收看电视节目的时怕j 是预 先安排好的) 。 第二代技术出现在1 9 6 0 年,大大改进了第一代技术对时削的依赖性。录像机 和有线电视的出现,使远程教育课程传播不受时间限制,将录制好课程内容的录 像带发给学生,便于他们随时观看。然而,在别的方面,这一代远程教舟技术同 上代相比并没有太大的不同,学生之间、师生之1 日j 的交流还是很少。 8 0 年代中期,远程教育开始使用多媒体和互联网技术,不久又出现了双向视 频会议系统。第三代远程教育技术同以前相比,教员可以传送大量更加复杂的信 息给学生,使学生之间、师生之间可以通过电子邮件、系统提供的问答功能、聊 天室等方式进行交流。计算机辅助教学、计算机模拟以及其它通过计算机磁髓、 上海大学硕士学位论丈 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 光盘和互联网等途径的电子资源进一步表现出这一代远程教育的特征。学生之间、 师生之i 刈的交流得到了加强。进行交换的信息的数量和种类显著增加,需要时间 变得更短。不但减少了远程教育对时间和空间的依赖性,也使得实现真正意义上 的虚拟大学成为可能。目前比较流行的学习方式有e l e a r n i n g ( 数字学习) 、 m l e a r n i n g ( 移动学习) 、t - l e a m i n l g ( 基于数字电视的学习) 。 e l e a r n i n g 是远程教育目前大力发展的、具有典型代表性的一种形式。它最 早在美国兴起,刚出现时仅仅是种进行交流的手段,逐渐成为美国高等教育中非 常流行的一种学习形式。随着计算机科学的飞速发展,这神学习方式会更加流行。 简单地况,e l e a m i n g 就是在线学习或网络化学习,即在教育领域通过搭建的互 联网平台,学生借助p c 上网通过网络进行学习的一种建立在计算机网络应用基础 上的学习活动。 2 基于e l e a m i n g 的主要功能介绍 e l e a m i n g 这种全新的学习方式离不开由多媒体网络学习资源、网上学习社 区及网络技术平台构成的全新的网络学习环境。在网络学习环境中,汇集了大量 数据、档案资料、程序、教学软件、兴趣讨论组、新闻组等学习资源,形成了一 个高度综合集成的资源库。这些学习资源对所有人都是丌放的。一方面i ,这j 资 源可以为成千上万的学习者同时使用,没有任何限制:另一方面,所有成员都可 以发表自己的看法,将自己的资源加入到网络资源库中供大家共享。在线学习 的具体功能按照角色分大致由以下几部分构成: ( 1 ) 教师角色 课件管理:自己负责课程所需的课件进行上载、删除、更新等。 问题管理:对学生提出的问题进行解答,对问题库中涉及到本fj 课程的内容 进行添加、删除、修改。 练习管理:自己负责课程所需的练习题和测试题及其答案、分数等相关资料 进行上载、删除、更新等。 讨论管理:自己负责课程所在的讨论区进行讨论信息的管理,包括发公告、 删除贴子、发贴子等等。 ( 2 ) 学生角色 个人信息:注册、登录和修改个人基本资料、个人学习界面的设置等。 课程学习:按照所选的课程进行课程学习。 问题答疑:对学习过程中遇到的问题进行提问和寻找答案。 考试测试:课程过程中及结束后进行的练习和测试,以评定自己学习的效果。 讨论:在讨论区中寻找与自己学习兴趣相同的同学,交流学列经验、询 问及寻求帮助。 ( 3 1 管理员角色 2 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 学习资源管理:对课程及各类课件等学习资源进行整体的安排,如负责丌设、 安排课程等等。 人员信息管理:包括教师和学生的管理。教师部分主要是验证和指派教师负 责课程,管理个人信息;学生部分主要是管理学生信息。 3 e l e a r n i n g 的整体特征分析 e l e a r n i n g 给人们的学习带来的变化是显而易见的,主要体现在以下几个方 面: e l e a r n i n g 不仅使自主学习成为现实,而且使自主学习成为时尚。 学习者在时阳j 上和内容上有了充分的选择余地,自主学习成为必然。 e l e a r n i n g 充分实现了交互式合作学习。 在互联网上,学习者不仅可以从网上下载教师的讲义、作业和其它有关的参 考资料,而且可以向远在千万旱之外的教师提问,与网上的其他同学讨论和评价 在课章上所学的知识,从而调动了学习的积极性。 e l e a r n i n g 充分实现了个性化学习。 在互联网上,没有统一的教材,没有统一的进度。每一位学习者都可以根掘 自己的学习特点,在自己方便的时间从互联网上自由地选择适合的学习资源,按 照适合于自己的方式和速度进行学习。 e l e a r n i n g 使教育社会化,使学习生活化。 互联网为教育走出校园、迈向社会提供了强有力的支持。在未来若干年内, 教育将从学校走向家庭、走向社区、走向乡村,走向任何信启、技术普及的地方。 e l e a r n i n g 需要多方面打造。 可以晓,e l e a r n i n g 的出现将彻底改变人们的学习方式,把人们带入一个全 新美好的学习境界,但这样的环境需要社会、学校、商家等多方来打造。随着中 国互联网的发展及e l e a r n i n g 环境的同益成熟,许多商家已经率先把e l e a r n i n g 运用到自己的工作、生活和学习中,为e l e a r n i n g 的发展做出了实实在在的努j 。 作为一种新兴的教育与学习手段,e l e a r n i n g 在未来必能得到大力发展。日 前我国的教育资源配给在布局上存在极大的不均衡,而e l e a r n i n g 这种新的教育、 学习方式不受时空及教育资源的限制,能够整合全社会的教育资源,为人们学习 所用:另一方面,目自u 传统的教育观念与手段f 受到强烈的挑战,而近几年网络 普及的迅猛发展,为中国的e l e a r n i n g 提供了峰实的基础。随着全社会对 e l e a r n i n g 的理解、支持和推动相信将会有越来越多的人采取这种方式来腱丌 自己的学习。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 4 存在的问题及进一步的研究 e l e a r n i n g 在给人们带来极大便利的同时,它自身确也存在着很多需待改进 的地方。 学生必须花费一定的时间学习计算机知识。 对于一名借助e l e a r n i n g 平台进行学习的学生来说,加入到网络并不意味着 他可以参与在线学习,在j 下式丌始学习之前必须掌握一定的计算机知识,例如他 要学会如何注册、登录,如何修改个人信息,怎样通过邮件、讨论区与别人进行 交流,下载软件等等;甚至由于不同的课程可能设计的方式的不同,学生学习起 来必须要先下载特定的软件以及软件的使用。这个问题随着个人计算机和互联网 的普及,懂得e l e a r n i n g 必需的计算机操作人数的增多,e l e a r n i n g 操作的交互 性的增强,问题也将随之变得简单。 教师负担加重。 教师在e l e a r n i n g 中要回答学生的问题、对学生的作业进行评定,还要对讨 论进行调节,这都是很花费时间的。尤其是著名的专家学者,会有更多的学生参 加他们的课程学习,向他们提问请教,最终导致一个教师实际上面对的不仅仅是 相当网下几个班的学生而是多出数倍乃至数十倍,这将会加大他们的负担。平均 一位老师每天要在e l e a r n i n g 上花费l 一2 个小时,教授个网上班级远比一个网 下班级辛苦的多。 保证e l e a r n i n g 资源的质量和数量。 e l e a r n i n g 要达到和普通学习方式同样甚至更好的效果,e l e a r n i n g 平台上拥 有充足、高质量的学习资源是关键因素和基础。没有或缺乏学习资源e l e a r n i n g 根本无从谈起,实际上e l e a r n i n g 资源充当的是教师讲授课程的角色,它的好坏 直接影响到教学效果、学生学习的兴趣。众所周知,网络一个摄大的魅力就是资 源丰富、多样,学生可以吸收网上丰富多彩、图文并茂、形声兼备的教学资源。 如何充分利用网络这一优势,制作出高水平的课程和课件也是目前很多人研究的 内容,如在线课程的质量定义和评估标准;还有更多的公司和学校致力于丌发制 作e l e a r n i n g 课程的软件。 保证e l e a r n i n g 平台的质量。 一个好的e l e a r n i n g 系统应该有一个好的平台作为基础,平台给学习提供了 好的环境,就好比一个功能齐全的教室,提供给学生各种方便的途径以达到理想 的学习效果,而平台学习的质量主要取决于信息交流的质量和数量。e l e a r n i n g 一个很大的优点就是它的远程性,只要有网络,无论何时何地都可以进行学习, 完全不受地域空间的限制;然而也正是因为这样它无法让老师与学生、学牛i j 学 生之涮进行面对面的实时交流,如果不能借助e l e a r n i n g 平台实现这一功能,将 4 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 大大影响到e - l e a r n i n g 的成功与否。所以e - l e a r n i n g 平台提供了很多功能来实现 交流,如讨论区、答疑系统、电子邮件、兴趣讨论组、新闻组等等。 1 1 2 智能答疑的重要性 答疑的作用在于能及时准确地解答学生疑问,帮助学生完成学习。智能答疑 系统作为在线学习平台的一个组成部分,可以大大减轻教师教学的负担,将教师 的大部分精力解放出来,不再需要对学生提出的问题进行重复而又繁琐的解答, 可以集中时间致力于课程资源本身的制作和维护,他们只需定期维护和更新平台 上相关的课程信息,而学生仍然可以获得及时而有效的回答。智能答疑作为学生 和系统与教师交流的一个重要方式,节省了教师的教学时间、提高了学生的学习 效率,更重要的是它将极大的提高e l e a r n i n g 平台的质量。 如何丌发出一个智能性和自动性较强智能答疑系统满足e l e a r n i n g 中越来越 多学生的需要,这也f 是本文研究的重点所在。 现在人们正在致力于具有智能答疑功能的答疑系统研究。这类答疑系统可以 让学生以自然语言的形式提问,解答学生问题。目前国内具有这种功能的系统几 乎没有,国外做的比较好的有a s kj e e v e s 系统和麻省理工设计的s t a r t 系统。 智能答疑系统通过结合人工智能、自然语言理解和自动搜索等技术来解答学 生的提问。学生采用自然语占方式向系统提问,具有良好的人机交可i 方式;系统 根据学生提出的问题自动对问题进行分词和分析,得到问题的相关信息并在知识 库中搜索相关性最强的问题答案呈现给学生:同时考虑将人工答疑和智能答疑结 合起来,当学生无法通过智能答疑解决问题时则交由相关的教师负责解答,并把 它补充到知识库中。 1 1 3 智能答疑目前研究的基本方向 综合目前智能答疑系统,其研究方向分为下面几种: ( 1 ) 通过研究问题类型以提高抽取答案的精确性。事先对问题各种类型进行 分析分类,对不同类型的问题在答案抽取时将根据问题提问的方式不同抽取出 与之相关的简短精确的答案。例如问题类型是询问时间,则答案抽取时只要侧 重时间的实体就可以。5 脚1 ( 2 ) 基于交互式的智能答疑模型改进。它主要是借助学生对于智能答疑给出 相关问题的选择顺序对原有的智能答疑模型做一个修j 下。【2 2 1 。 f 3 ) 对智能答疑问题搜索算法的研究。为了提高智能答疑的匹配速度,改进 知识库结构,建立索引提高问题定位速度或者改进问题相似度,提高搜索准确 度。1 2 3 1 5 上海大学硕士学位论丈 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 大大影响到e - l e a r n i n g 的成功与否。所以e l e a r n i n g 平台提供了很多功能来实现 交流,如讨论区、答疑系统、电子邮件、兴趣讨论组、新闻组等等。 1 1 2 智能答疑的重要性 答疑的作用在于能及时准确地解答学生疑问,帮助学生完成学习。智能答疑 系统作为在线学习平台的一个组成部分,可以大大减轻教师教学的负担,将教师 的大部分精力解放出来,不再需要对学生提出的问题进行重复而又繁琐的解答, 可以集中时间致力于课程资源本身的制作和维护,他们只需定期维护和更新平台 上相关的课程信息,而学生仍然可以获得及时而有效的回答。智能答疑作为学生 和系统与教师交流的一个重要方式,节省了教师的教学时阳j 、提高了学生的学习 效率,更重要的是它将极大的提高e l e a r n i n g 平台的质量。 如何丌发出一个智能性和自动性较强智能答疑系统满足e l e a r n i n g 中越来越 多学生的需要,这也j 下是本文研究的重点所在。 现在人们正在致力于具有智能答疑功能的答疑系统研究。这类答疑系统可以 让学生以自然语言的形式提问,解答学生问题。目前国内具有这种功能的系统几 乎没有,国外做的比较好的有a s kj e e v e s 系统和麻省理工设计的s t a r t 系统。 智能答疑系统通过结合人工智能、自然语言理解和自动搜索等技术来解答学 生的提问。学生采用自然语言方式向系统提问,具有良好的人机交互方式:系统 根据学生提出的问题自动对问题进行分词和分析,得到问题的相关信息并在知识 库中搜索相关性虽强的问题答案呈现给学生;同时考虑将人工答疑和智能答疑结 合起来,当学生无法通过智能答疑解决问题时则交由相关的教师负责解答,并把 它补充到知识库巾。 1 1 3 智能答疑目前研究的基本方向 综合目前智能答疑系统,其研究方向分为下面几种: ( 1 ) 通过研究问题类型以提高抽取答案的精确性。事先对问题各种类型进行 分析分类,对不同类型的问题在答案抽取时将根据问题提问的方式不同抽取出 与之相关的简短精确的答案。例如问题类型是询问时间,则答案抽取时只要侧 重时间的实体就可以。 5 】【”1 ( 2 1 基于交互式的智能答疑模型改进。它主要是借助学牛对于智能答疑给出 相关问题的选择顺序对原有的智能答疑模型做一个修正。 2 1 1 2 2 1 。 f 3 对智能答疑问题搜索算法的研究。为了提高智能答疑的匹配速度,改进 知识库结构建立索引提高问题定位速度或者改进问题相似度,提高搜索准确 知识库结构建立索引提高问题定位速度或者改进问题相似度,提高搜索准确 度。1 2 3 5 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y ( 4 ) 基于语义的智能答疑研究。这是最近才兴起的热点,语义是目前比较热 门的研究领域,由于智能答疑在很大程度上属于自然语言理解的范畴,所以希 望通过语义分析的方法来对智能答疑做进一步的分析,以提高智能答疑的智能 性和准确性。1 1 5 1 7 】【2 5 】 1 1 4 智能答疑发展的现状和存在的问题 目前国内外网络教育平台所具有的答疑系统大致可以分为以下几种: ( 1 ) 没有专门的答疑功能。有相当多的网络教育平台并没有专门的系统来完 成答疑功能,它们只是在涉及的课程下列出一些常见问题供学生浏览查询。 ( 2 ) 具有初步的答疑功能。这类网络教育平台中给出了一些简单的答疑部件, 例如b b s ,邮件或实时聊天等等,学生通过这些方式与教师进行沟通,向教师 提问。实际上就是把课堂上的面对面的提问方式网络化。如清华大学远程教育 系统,北京校际通公司丌发的校际通网络教学平台等都属于这一类。 ( 3 ) 具有自动答疑功能。此类系统的答疑方式是学生抽取关键字及相应的逻 辑组合,在系统内的知识库中搜索出相关的问题和答案。如果没有找剑相应的 答案,向系统提问后系统自动将问题转给相关教师负责解答。典型代表就有上 海交大开发的a n s w e rw e b 系统。 智能答疑方式存在着许多不足: 首先它们的人机交互能力很差,严重地影响了学生和系统之问的交流。只提 供给学生模糊查询的功能,这除了要求学生有良好的关键词抽取能力外还要求查 询方式具备可行的逻辑组合形式无疑为学生提问造成了极大的困难,也很难找 到满意的答案。 其次是它们的智能性不够。就整个答疑方式而言主要分为人工答疑和自动答 疑两种,人工答疑采用电子邮件、留言板、b b s 、聊天室等形式,自动答疑虽然 是在知识库中自动搜索产生,却缺乏对自然语言的理解。 系统的独立性不强。本身在线学习系统中具有答疑功能的系统就比较少,而 且这些系统也局限与在线教育本身,主要就是讨论课程相关的问题。还没有出现 那种独立的问答系统,相对来说国外的系统资源更加丰富,主题更广泛。 相关技术的难题。国外的智能答疑采用的是英语语系,目前基于英语的自然 语言处理技术、文本检索和数据挖掘技术都比国内发展的相对成熟很多。普林斯 顿大学的词汇语义网络可使消歧率超过6 0 ,还有很多研究机构在研究如何检索 出文本的片断而不是文本的全部,这些技术的发展都给国外智能答疑系统的高准 确率提供了保证。相对而言,由于汉语语言的特点,这些相应的技术实现要复杂 的多。 6 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 1 2 本文的研究内容 1 2 1 本文要解决的问题 本文的主要目的是利用语义分析方法来提高智能答疑系统的智能性和准确 性。主要包括: ( 1 ) 知识库的表示 对于整个智能答疑系统包含的知识库特别是关键词库的知识结构进行研究, 旨在为以后的操作做好准备。 ( 2 ) 基于语义的问题分析研究 研究h o w n e t 知识库词语的知识表示语言形式,对智能答疑中的问题在自动 分词粗分的基础上进行语义分析。以达到消除歧义和确定词语f 确概念的目的。 ( 3 ) 问题相似度的算法研究 对进行相关问题计算的相似度函数进行改进,引入语义相似度的概念,试图 从语义的角度来重新衡量问题相似度。 ( 4 ) 系统实现 在对关键智能答疑的关键技术如知识库、问题分析及问题相似度算法进行理 论研究和实现的基础上,实现一个基于语义分析的智能答疑系统。 1 2 2 本文的内容安排 本文共分五章,对其内容做如下安排: 第一章主要是回顾整个e - l e a r n i n g 的发展及现状以及智能答疑的基本情况。 第二章则是针对智能答疑系统中涉及的关键技术,如知识库表示、自动分词、 问题相似度计算作一些理论的探讨。 第三章详细介绍了语义知识库h o w n e t 的结构和内在关系,对于自动分词后 出现的词多义现象,在h o w n e t 义项相似度的基础上提出语义消歧算法( s d a : s e m a n t i cd i s a m b i g u a t i n ga l g o r i t h m ) ,从而更为精确的计算问题相似度。这是智能 答疑系统进行语义分析的核心。 第四章阐述是基于语义分析的智能答疑系统( i q a s s a :i n t e l l i g e n tq u e s t i o n a n da n s w e r i n gs y s t e mb a s e do ns e m a n t i ca n a s y s i s ) 具体实现过程。 第五章总结了全文的主要结论,并指出了需要进一步的研究工作。 一7 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 第二章智能答疑关键技术研究 2 1 智能答疑系统结构 智能答疑系统根据扮演的角色不同可分为三类用户。一类是学生,使用智能 答疑系统解答疑问的普通用户。他们是系统服务的目标,使用系统提出问题获取 答案并对系统给出的答案进行评价,进而改善系统的质量。另一类是教师或称 专家,智能答疑学习资源库的维护者。他们对整个系统起到关键性作用,既要负 责系统领域知识库的初始构建和后期维护,还要解答系统暂时不能解答的问题。 第三类是系统工程师,他们协助教师用户对整个系统进行丌发和维护,主要是解 决技术上的问题。 根据智能答疑系统三类用户以及设计结构的分析,系统模型结构如图2 1 系 统模型结构所示: 卜一一 1 蔓圈 直 。垃 i些堂竺耋l厂 ”8 ”广一 ,! 一 i 苎堡! ! 堡墼i l 制。孛 臣鲴 ? j n l 奠蚶卜一 r 咨至珏。_ 卜、 抽墩答窠 不满童二= i 恳反竹兰二= = =爿刖p 评价 图2 i 系统模型结构 从e 图中可以看到,系统可以分为提问、问题分析、问题搜索、答案显示几 个部分。 8 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 提问模块的作用是获取学生用户采用自然语言方式提出的问题。提问的途径 可以是多样的,通过同步提交的提问表单或者电子邮件,若是电子邮件则需将问 题提取处理,转换成格式统一的文本。 问题分析模块主要包括问题预处理、自动分词、问题分类、关键词提取、关 键词扩展几个子模块。问题预处理对问题做一个仞步处理,根据标点符号和英文 字符分解成若干个字符串。自动分词是问题分析的技术难点,它是在问题预处理 的基础上进一步将问题分解为若干词语的组合,因为汉语特殊的语言特点,分词 会出现歧义、划分错误等现象。关键词的提取和扩展是在自动分词所获取的词语 信息中词语的含义和词性剃除无关紧要的虚词或助词,确定关键词的权重,按照 词义将关键词的同义词或近义词扩展进来。 问题搜索模块的作用是根据制定好的规则在领域知识库中搜索相关文档,规 则主要是依据问题相似度函数来计算的。 答案显示模块包括答案抽取和用户评价两个子模块。以前的智能答疑系统根 据搜索的结果返回相关文档的链接,文档的顺序将根据权值的大小重新进行排序。 更为智能化的结果应该是返回文档中一段话或一个句子,甚至几个词或短语需 要一个答案抽取模块来做相应的工作,它的主要依据是问题分析模块获取的有关 问题分类和关键词信息。用户评价模块起到的是一个交互反馈调整的作用用户 点击答案的顺序或评价的分数作为改进的依据,调整答案与问题问的相关性。 领域知识库本身的质量也是十分重要的,它与系统的智能性一样小容忽视。 只有具有能充分表示和组织领域知识又便于问题搜索和答案抽耿的知识库,整个 智能答疑系统才能取得理想的效果。 下面就知识库构建、问题分析中的汉语自动分词及问题相似度计算二三个关键 技术做进一步的分析和阐述。 2 2 智能答疑知识库构建 知识库用来存储知识,包括系统原有的知识,它是长期的、相对稳定不变的; 通过学习而获得的各种新知识,这种知识是短期的、相对不稳定、变化的。知i j 库构建的目的就在于能使知识被所利用,如果知识无法被计算机和人所利用也就 失去它存在的价值。按照所涉及的范围知识又分为常识知识和领域知以。常以知 证 是通用性知识,人们普遍知道的知识,适用于所有领域。领域知以是而向某个 具体领域的知识,是专业性知识,只有相应专业的人员彳能掌握并用来求解领域 内的有关问题,如专家的经验及有关理论。智能答疑知识库中涉及到知识更多的 是领域知识。 知识库的构建包括知识获取、知识表示和知识库管理三方面。 9 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 2 2 1 知识获取 知识获取的任务就是将现实世界现有的知识从人的大脑或书本中抽耿出来, 加以归纳总结,编码成计算机可接受的形式存贮在计算机中,为计算机完成人能 从事的智能工作提供知识基础。知识获取的方式可分为两大类: 1 直接方式 该方式获取过程是搜集一定数量相关的数据和资料,运用人工神经网络、因 果推理和统计归纳等技术从中提取所需知识。 2 川接方式 目前这种方式应用比较广泛,技术也较为成熟。先由专家根据自己的语言采 用书面形式将该领域的知识整理出来,然后知识工程师在专家的帮助下理解分析 所提供的知识,抽象、简化及编码成能被计算机理解的形式,将知识输入到知识 库中。 智能答疑知识库中最初的知识获耿途径主要有两类,一利t 是涉及该领域的专 家或教师凭借自己的经验搜集整理;另一种则是由相关人员直接通过互联嘲进行 搜索分类,分类方式可以借助计算机自动进行,搜集的知识按照知识的特点以一 定的表示形式存放知识库中,即间接方式的知识获取。知识库中的知识除了由专 家或教师手动更新外,还可以发展成自学习的知识库,在智能答疑系统不断运行 的过程中挖掘有关数据,在已有知识基础上运用神经网络和统计归纳及推理的方 法,获取新知识更新到知识库中。 2 2 2 知识表示 知识表示是对知识进行符号化和形式化的过程将知识描述成一种计算机可 以接受理解的数据结构。知识表示方法就是研究如何设计各科r 数据结构,将获取 的知以以计算机内部代码的形式合理的描述和存储,让需要此类知识的人能在需 要的时候得到它。 常用的知识表示方法有很多,例如谓词逻辑、语义网络、规则和框架等等。 对同一知识可以用多种方法进行表示,但效果却不相同,因为不同领域的知识具 有不同的特点,每种表示方法也有各自的长处和不足。有时还需要把几种模式 结合起来作为一个整体来表示领域知识,以取得取长补短的效果。因此在建立 个具体的智能系统时,究竟采用哪种表示模式没有统一的标准。 作为一个涉及各种领域知识的专家系统,要建立一个针对性强的、便于实现 的知识表示形式以便最大程度地利用、优化系统。目前智能答疑中采用比较普遍 1 0 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so fs h a n g h a iu n i v e r s i t y 的方法有基于章节目录的知识表示方法、基于语义的知识表示方法及基于关键词 的知识表示方法。事实上知识表示的方法也不是单一的,这三种经常同时应甘。 基于章节目录的知识表示方法是一种结构化的知识表示方法,考虑到智能答 疑系统为远程教育服务,知识源是相对固定的各门学科,所以除了表示知识本身 外,知识所在的章节目录层次也是重点,这就有些类似于框架表示法。好处是便 于掌握各知识点之间的体系关系和进行知识的组织、搜索。 智能答疑系统中教学内容中每个学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论