(教育技术学专业论文)个性化在线答疑系统的研究与实现.pdf_第1页
(教育技术学专业论文)个性化在线答疑系统的研究与实现.pdf_第2页
(教育技术学专业论文)个性化在线答疑系统的研究与实现.pdf_第3页
(教育技术学专业论文)个性化在线答疑系统的研究与实现.pdf_第4页
(教育技术学专业论文)个性化在线答疑系统的研究与实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(教育技术学专业论文)个性化在线答疑系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

个性化在线答疑系统的研究与实现摘要随着计算机网络技术和多媒体技术的发展,远程教育越来越受到人们的重视。答疑系统作为远程教育系统中的一个重要组成部分,直接关系着整个系统的教学效果,因而越来越受到教学人员和远程教育系统开发人员的关注。本文在综述国内外答疑系统研究现状的基础上,分析了目前答疑系统存在的主要局限:( 1 ) 由于现有智能技术还不能实现对自然语言的完全理解,所以基于自然语言理解的答疑系统的智能化程度十分有限;( 2 ) 没有充分利用概念之间的语义关系来引导学习者进一步的提问;( 3 ) 缺少对学习者疑问特征的分析,不能主动为学习者推送其存在疑问或感兴趣的知识;( 4 ) 没有发挥网络的优势,为答疑系统的问题库提供丰富的参考资源。针对现有答疑系统的上述缺陷,本文设计并实现了一个特定领域的具有个性化服务能力的、基于自然语言理解的在线答疑系统。本论文的主要工作包括:( 1 ) 分析国内外网络答疑系统的现状,以及当前自然语言处理和个性化服务的相关技术:( 2 ) 用主题爬虫技术为答,。疑问题库采集问题,不断丰富问题库;( 3 ) 开发了一个具有个性化服务能力的、可以主动为学习者推送信息的、基于自然语言理解的答疑系统;并以浙江师范大学国家精品课程现代教育技术为例对所开发的答疑系统进行了应用。实验证明,该个性化的答疑系统可以为学习者推送其感兴趣的内容,促进学习者对问题相关内容的理解,开阔学习者的思路。关键词:人工智能,在线答疑,个性化,主题爬虫,自然语言r e s e a r c ha n di m p l e m e n t a t i o na b o u tp e r s o n a l i z e do n l i n eq u e s t i o na n s w e r i n gs y s t e ma b s t r a c tw i t ht h ed e v e l o p m e n to ft h ec o m p u t e rn e t w o r kt e c h n o l o g ya n dm u l t i m e d i at e c h n o l o g y , d i s t a n c ee d u c a t i o nh a sb e e np a i dm o r ea n dm o r ea t t e n t i o nt o a sa l li m p o r t a n tc o m p o n e n to fd i s t a n c ee d u c a t i o ns y s t e m ,q u e s t i o na n s w e r i n gs y s t e me x e r t sd i r e c ti n f l u e n c eo nt h eq u a l i t yo fd i s t a n c ee d u c a t i o n ,t h u sb e i n ga t t a c h e dm o r ea n dm o r ei m p o r t a n c et ob yt e a c h e r sa n dd e v e l o p e r so f d i s t a n c ee d u c a t i o ns y s t e m b a s e do nt h ec o m p r e h e n s i v en a r r a t i o no ft h ei n t e r n a la n de x t e m a lc u r r e n tr e s e a r c hs i t u a t i o n s ,t h i sd i s s e r t a t i o np o i n t e dt ot h em a j o rl i m i t a t i o n so fp r e s e n tq u e s t i o na n s w e r i n gs y s t e mi nc h i n a :1 t h ei n t e l l i g e n c es u b j e c t e dt ot h en a t u r a ll a n g u a g eu n d e r s t a n d i n gi sr a t h e rl i m i t e d ,f o rt h ea r t i f i c i a li n t e l l i g e n c ec a n n o tm a k et h et o t a lu n d e r s t a n d i n go fn a t u r a ll a n g u a g ec o m et r u e ;2 i td o e sn o tm a k eu s eo ft h es e m a n t i cr e l a t i o n so fc o n c e p t st og u i d et h eu s e r st oa s kf u r t h e rq u e s t i o n s ;3 i tc a n n o tp o s i t i v e l ys h o wl e a r n e r st h ek n o w l e d g et h e yf e e lp u z z l e da ta n di n t e r e s t e di nb e c a u s eo fl a c k i n gt h ea n a l y s i so ft h es y m p t o m so fl e a r n e r s c o n f u s i o n ;4 i td o e sn o ts u p p l ya b u n d a n tr e f e r e n c er e s o u r c e st ot h eq u e s t i o nd a t a b a s ew i t ht h ea d v a n t a g eo f i n t e m e t a i m i n ga tt h er e m e d yf o rt h ea b o v el i m i t a t i o n so fp r e s e n tq u e s t i o na n s w e r i n gs y s t e mi nc h i n a t h i sd i s s e r t a t i o nd e v e l o p sa no n - l i n eq u e s t i o na n s w 赢n gs y s t e mb a s e do nn a t u r a ll a n g u a g eu n d e r s t a n d i n g ,w h i c hp r o v i d e sp e r s o n a l i z e ds e r v i c e t h em a j o rt a s k so f t h i sr e s e a r c hi n c l u d e :1 t h ea n a l y s i so f c u r r e n ts i t u a t i o n so f t h ei n t e r n a la n de x t e r n a la n s w e rs y s t e m s ,a n do ft h et e c h n o l o g i e sr e l a t e dt ot h ep r e s e n tp e r s o n a l i z e ds e r v i c ea n dn a t u r a ll a n g u a g eu n d e r s t a n d i n g ;2 c o l l e c t i o no fq u e s t i o n st h r o u g ht h ef o c u s e dc r a w l e rw i t ht h ep u r p o s eo fc o n t i n u o u s l ye n r i c h i n gt h eq u e s t i o nd a t a b a s e ;3 d e v e l o p i n ga nq u e s t i o na n s w e r i n gs y s t e mw i t hp e r s o n a l i z e ds e r v i c e ,p o s i t i v es e n d i n go fi n f o r m a t i o nt ol e a r n e r sa n db a s i so nn a t u r a ll a n g u a g eu n d e r s t a n d i n g ,w h i c hh a sb e e na p p l i e di n t ot h en a t i o n a le x c e l l e n tc o u r s e m o d e r ne d u c a t i o nt e c h n o l o g y d e v e l o p e db yz h e j i a n gn o r m a lu n i v e r s i t y , a sa ne x a m p l e i it h ee x p e r i m e n tp r o v e st h a tt h i sp e r s o n a l i z e dq u e s t i o na n s w e r i n gs y s t e mc a ns e n dt h ec o n t e n tl e a r n e r sf e l li n t e r e s t e di n , i m p r o v el e a r n e r s c o m p r e h e n s i o no fc o n t e n tr e l a t e dt ot h eq u e s t i o n s ,a n do p e nt h et h o u g h t so f l e a r n e r s k e yw o r d s :a r t i f i c i a li n t e l l i g e n c e ,o n l i n ea n s w e r i n g ,p e r s o n a l i z a t i o n ,f o c u s e dc r a w l e r , n a t u r a ll a n g u a g ei i i图表目录表z - 1 同义概念词典表2 - 2 同义集词典表2 3 词义蕴涵词典表3 - i 关键词表的表结构,表3 - 2 语义词表的表结构表3 3 问题库表的表结构表3 - 4 同义词表的表结构表3 - 5 蕴涵词表的表结构表3 - 6 用户兴趣表u s e r i n t e r e s t s u b 的表结构表3 - 7 用户兴趣表u s e r i n t e r e s t k w 的表结构表3 - 8 主题与关键词转换表的表结构表3 - 9 用户浏览记录表的表结构表3 - 1 0 用户基本信息表的表结构表3 - 1 l 主题爬虫信息采集结果表的表结构表3 一1 2 用户提问记录表的表结构图2 - i 网络爬虫基本流程图,图2 - 2 网络爬虫体系结构,。图2 3 主题爬虫基本流程图图2 4 主题爬虫体系结构,图3 一l 系统体系结构。图4 - 1 答疑界面图4 2 注册时用户兴趣填写界面图4 - 3 问题推送界面,图4 - 4 问题手工录入界面,图4 5e x c e l 模板文件格式幽4 - 6 信息采集页面的处理界面图4 - 7 各主题的问题被浏览次数统计界面,图5 - i 系统界面幽5 - 2 答疑示例一界面幽5 - 3 答疑示例二界面幽5 4 系统信息推送界面,v iuuu毖船拢船船船弘孔孔筋撕巧巧巧掘曲凹”盯勰勰虬虬北学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其他机构己经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了谢意。研究生签名:勺而77 争日期:2 口口7 牟胡,d 日学位论文使用授权声明本人完全了解浙江师范大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件和电子文档,允许论文被查阅和借阅,可以采用影印、缩印或扫描等手段保存、汇编学位论文。同意浙江师范大学可以用不同方式在不同媒体上发表、传播论文的全部或部分内容。保密的学位论文在解密后遵守此协议。喊一:锄幸聊虢猫参f 争峨刎年咖目个性化在线答疑系统的研究与实现一、引言( 一) 国内外研究现状随着计算机网络技术和多媒体技术的发展,远程教育越来越受到人带j 的重视。远程教育不受时间和空间的限制,i n t e r n e 上更有丰富的教育资源,近几年来远程教育得到了蓬勃的发展。答疑系统作为远程教育系统中的一个重要组成部分,直接关系着整个系统的教学效果,也越来越受到教育者和远程教育系统开发者的关注。1 国内研究情况目前国内的答疑系统大致可以分为以下几类“:( 1 ) 采用传统的i n t e r n e t l 具,如e m a i l 、b b s 、c h a t 、f a q 等。这种方式虽然实现简单,但无法适应网络答疑中大规模、动态性、实时性的特点。( 2 ) 基于关键词的答疑方式,即采用关键词或者关键词的逻辑组合作为提问方式。这种方式虽然可以在一定程度上解决网络答疑中大规模、动态性、实时性的需求问题,但由于汉语词汇本身在含义上存在不一致性,使这种单纯依靠字符串机械匹配的检索方式必然导致结果集合的错误放大或缩小。此外。这种方式要求用户具备一定的问题背景知识、关键词抽取能力,以及逻辑组合能力,因而限制了用户的使用。( 3 ) 基于自然语言理解的答疑系统。它允许用户采用自然语言进行提问,系统对输入的自然语言问句进行语法和语义分析,根据分析结果在问题库中进行匹配,并将匹配后的答案集返回给用户。该方式不仅提供了较好的人机接口,而且提高了答疑结果的准确性,是网络答疑的发展方向。如上海交通大学的a n s w e r w e b 、江苏理工大学的远程辅导答疑系统、国防科技大学开发的自动问题回答子系统、清华大学教育软件研究中心开发的基于w e b 的远程答疑系统等均属于这一类答疑系统。目前,国内一些基于自然语言理解的答疑系统已经取得了较好的应用,大大提高了系统答疑的能力,为远程教育的顺利开展提供了有力保障。但是,我们也看到这些答疑系统还存在一些局限,主要体现在:( 1 ) 由于目前人工智能技术还不能实现对自然语言的完全理解,所以基于自然语言理解的答疑系统的智能化程度十分有限;浙江师范大学硕士学位论文( 2 ) 没有充分利用概念之间的语义关系来引导学习者进一步的提问;( 3 ) 缺少对学习者疑问特征的分析,不能主动为学习者推送其存在疑问或感兴趣的知识;( 4 ) 没有发挥网络的优势,为答疑系统的问题库提供丰富的参考资源。2 国外研究情况国外教育网站中答疑的实现主要通过各种网络人际交互的手段和技术来实现。国外答疑系统在智能化方面作的非常出色,如a s kj e e v e s 公司的a s kj e e v e sf o rk i d s 答疑系统。1 、支持多种语言的a n s w e r b u s 嘲、m i t 人工智能实验室b o r i sk a t z 博士组织开发的s t a r t 系统脚等。国外答疑系统与国内的答疑系统相比具有如下特点”1 :( 1 ) 系统的独立性。国外出色的智能答疑系统全部都是独立运行的系统,它们不属于任何教学或学习平台。这类系统所扮演的角色更像一个专业领域资源的提供者,提问者借助系统回答他们的问题不一定是某个完整的教学过程中的一部分,他们通过寻求答案可能是为了解决他们在相应学科中的问题,也可能仅仅是为了满足他们的好奇心,或者是为了寻找作业或任务中需要的资源。( 2 ) 系统的功能。相比国内答疑系统的丰富功能而言,国外答疑系统的功能更加简洁。虽然主要的功能与国内类似,但是所有的功能都是围绕答疑功能而设计,功能设计重点突出、设计精良。( 3 ) 系统的智能性。国外答疑系统的智能性主要体现在人机理解的自然语言接口和相应的问题查询和反馈上,但是国外系统在基于自然语言的提问方面作的比国内更加准确和人性化! 如带有问题确认的功能,主要原因是国外在问题处,。理部件上增加了问题类型判断,以及增加了答案处理和解释部件,因此不但保证了系统对问题的更准确的理解,也使呈现的答案简明扼要。( 4 ) 系统的相关资源库。国外答疑系统的资源库的突出特点是拥有丰富、高质量的内容,比如a s kj e e v e sf o rk i d s 系统的所有答案是来自数万计通过查询和研究确定的和问题有关的其他网站链接! 主要的来源是( y a h o o l i g a n s 、e d u c a t i o nw o r l d 和f e d e r a le d u c a t i o nr e s o u r c e s ) 这三个网站。这些网站资源是人为建设的,而并不是软件搜索得到的,因此,每一个答案链接都与问题相关。国外系统的答案资源库不只包括知识库还包括信息库。这样答案中呈现的信息可2个性化在线答疑系统的研究与实现能是对问题的解答,也包括能够解答相关问题的网上资源的信息。与系统的独立性相关的是,和国内针对学科和课本的内容体系相比,国外系统答案资源库的内容采用了内容更加丰富和广泛的主题式或专业领域式内容组织体系。( 5 ) 相关技术。国外智能答疑系统主要采用英语语系,目前基于英语的自然语言处理技术、文本检索和数据挖掘技术都已经得到了长期的发展,并取得了优秀的成果。很多研究机构正在并已经构建了许多问题模型和相应的解答模型。这些技术的发展是国外智能答疑系统的高准确率的保证。( 二) 本论文主要研究内容本论文的主要研究内容有:( 1 ) 特定领域中,基于自然语言理解的答疑系统的研究。利用现有的自然语言处理等技术,提高系统的自然语言处理能力,增加系统的友好性,提高系统的答疑能力。( 2 ) 答疑系统中个性化服务研究。用户特征描述、资源的描述和个性化信息推送技术研究。( 3 ) 利用网络爬虫技术为答疑系统提供丰富的参考资源。最后,本论文以浙江师范大学国家精品课程现代教育技术为例,设计、开发了一个具有个性化服务能力的、基于自然语言理解的答疑系统并进行了应用。( 三) 研究目的和意义本论文研究的目的在于设计开发一个具有个性化服务能力的、基午自然语言理解的答疑系统,该系统不仅可以采甩自然语言提问,同时还能根据学习者的特征( 包括学习者提问问题的特征和学习者的兴趣特征) 主动为学习者推送知识,方便学习者了解存在疑问的问题的相关知识,促进学习者对疑问问题的掌握,开阔学习者的思路,使答疑系统真正成为远程教学中学习者解惑的良师益友。本论文的研究意义主要体现在以下几个方面:( 1 ) 答疑是学习者进行系统学习的有益补充,同时也是学习者巩固知识的重要途径,无论学习的形式如何变化,答疑对于学习活动来说是必要的且不可或缺的,在网络环境下,及时、有效地获得问题的解答是学习者远程学习的基木需求。3浙江师范大学硕士学位论文( 2 ) 通过对学习者提问问题的记录分析,可以统计、分析学习者普遍存在问题的薄弱环节,为教师进一步改进教学方法提供参考,成为辅助教学的有效工具。( 3 ) 答疑系统采用了友好的自然语言接口,学习者可以采用自然语言提问问题,而不需具备一定的关键词抽取能力和逻辑组合能力。( 4 ) 个性化服务可以根据学习者的特征( 包括学习者提问问题的特征和学习者的兴趣特征) 主动为学习者推送相关知识,使其能更好的掌握学习内容;同时,通过协作推送技术,把其他具有相同特征的学习者所提问的问题和浏览的信息推荐给他,方便其了解其他学习者的提问内容、关注焦点,以此来开阔视野、拓宽知识面,促进学习者学习。( 5 ) 利用主题爬虫在网络中采集与特定主题相关的信息,丰富问题库的内容,提高答疑系统答疑能力。4个性化在线答疑系统的研究与实现二、关键技术( 一) 自然语言处理技术在基于自然语言理解的答疑系统中,涉及到的自然语言处理技术有分词技术和检索技术,即问题匹配技术。1 分词技术分词是自然语言理解的基础,分词的好坏直接影响自然语言理解的准确性。与英文相比,由于中文句子是连续的字符串,而且有很多的习惯用语,缺少一定的语法规则,所以中文分词存在一定的难度。我国对自然语言方面的研究已有几十年的时间,虽然已经取得了很多研究成果,但是分词问题仍未彻底解决,这也是制约智能答疑系统发展的瓶颈。现有的分词方法大致可以分为三大类:基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法”。( 1 ) 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功( 识别出一个词) 。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。这种切分方法,需要最少的语言资源( 仅需一个词表,不需要任何词法、句法、语义知识) ,程序实现简单,开发周期短,是一个简单实用的方法。( 2 ) 基于理解的分词方法这种分词方法是通过让计算机模拟入对句子的理解,达到识别词的效果,也称人工智能法。人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:基于心理学的符号处理方法。模拟人脑的功能,像专家系统,即希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现定的功能。以上两种思路也是近年来入工智能领域研究的热点问题,应用到分词方法上,产生了专家系统分词法和神经网络分词法。浙江师范大学硕士学位论文专家系统具有显式的知识表达形式,知识容易维护,能对推理行为进行解释,可利用深层知识来切分歧义字段;缺点是不能从经验中学习,当知识库庞大时难以维护及在进行多歧义字段切分时耗时较长。神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优点。不足的是网络连接模型表达复杂、训练过程较长、不能对自身的推理方法进行解释,对未在训练样本中出现过的新的词汇不能给予正确切分。( 3 ) 基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。基于统计的分词方法所应用的主要统计量或统计模型有:互信息、元文法模型、神经网络模型、隐模型和最大熵模型等。这些统计模型主要是利用词与词的联合概率作为分词的信息。基于统计的分词方法的优点是:不受待处理文本的领域限制:不需要一个机器可读词典。缺点是:需要大量的训练文本,用以建立模型的参数:该方法的计算量非常大;分词精度与训练文本的选择有关。目前,比较常用和实用的分词算法主要有最大匹配法( m a x i m u mm a t c h i n gm e t h o d ,删) 、逆向最大匹配法( r e v e r s ed i r e c t i o nm a x i m u mm a t c h i n gm e t h o d ,r m m ) 、二次扫描法、联想一回溯法、基于词频统计的分词法,以及基于知识的专家系统方法、神经网络方法等。1 。每种分词算法都有自己的特点,适合于不同的领域。在现有的比较成熟的分词系统中,往往都是各种分词算法的综合使用。随着分词技术的发展,目前也出现也一些比较成熟的中文分词系统,有代表性的有清华大学s e g 和s e g t a g 分词系统、复旦分词系统、哈工大统计分词系统、杭州大学改进的删分词系统、北大计算语言所分词系统( 分词和词类标注相结合)等”3 除此之外,还有中国科学院计算技术研究所的i c t c l a s 、海量智能分词、c s w 中文智能分词等。这些系统在分词的准确率、未登录词识别、歧义切分、分词速度等方面都已比较优秀,己达到了一定的实用要求。同时,很多分词系统都提供有共享舨或研究版,并提供有相应的函数接口,这将有利于分词技术的研究与应用。6个性化在线答疑系统的研究与实现2 问题匹配技术在基于自然理解的答疑系统中,如何根据用户输入的自然语言语句在问题库中准确的找到答案呢? 除了上面介绍的分词技术外,问题匹配也是实现智能答疑的关键技术,匹配算法的优劣直接影响到系统的查全率和查准率。下面是几种比较常用的问题匹配方法:( 1 ) 基于向量空间模型的t f - i d f 方法“”向量空间模型( v e c t o rs p a c em o d e l ,简称v s m ) 是f l q s a l t o n 教授等人在2 0世纪5 0 年代提出并发展起来的,是一个关于文献表示的统计模型,具有较强的可计算性和可操作性,已经被广泛地应用于文本检索、自动文摘、关键词自动提取、文本分类和搜索引擎等信息检索领域的各项应用中,并且取得了较好的效果。向量空问模型的基本思想是将所涉及的m 个文献中出现的所有特征词构成一个n 维向量空间t ( t ,t 。,t n ) ,其中n 为特征词的总个数,对于每一个文献i( i = l ,2 ,m ) ,定义向量p i - ( w n ,w 。:,w ;。) ,其中w 。表示特征词l 在文档i 中的重要程度,即权值。权值的计算方法主要运用t f i d f 公式,目前存在多种t f - i d f 公式,现给出一个常用的归一化公式。啥衰器( 公式2 1 )其中,t f ,。表示特征词t 。在文档d 中出现的次数( 即特征词频率) ,t f 。越高,意味着特征词t - 对于文档d 。越重要;d f - 表示含有特征词t 。的文档数量( 即特征词的文档频率) ,d f 。越高。意味着特征词t 。在衡量文档之间相似性方面的作用越低;n = idl ,即全部文档的数量,分母为归一化因子;i d f t = l o g ( n d f k ) 为逆向文档频率,i d f 。越高,意味着特征词t 。对于文档的区别作用越大。如果一个特征词仅出现在一个文档中,则i d f f i l o g ( n ) ;如果一个特征词出现在所有的文档中,则i d f t = l o g l = o 。( 2 ) 基于语义相似度计算方法计算语义相似度需要以一定的语义知识资源作为基础。目前,做的比较好的语义知识资源有董振东和董强的知网( h o w n e t ) 1 。知网是一个以汉语和英语所代表的概念为描述对象、以揭示概念与概念之间以及概念所具有的属性之间的语义关系为基本内容并能由计算机处理的常识知识库。在知网中有两个最基本的7浙江师范大学硕士学位论文概念:“概念”与“义原”。“义原”是最小的、不能在分割的最小单位。“概念”是对词语语义的描述,一个词语可以有多个语义。知网通过义原来描述概念与概念之间、概念与属性之间的语义关系。虽然义原是知网中最小的意义单位,但义原之间却存在复杂的语义关系。总的来说,知网描述了下列各种关系1 :a 上下位关系:b 同义关系;c 反义关系:d 对义关系;e 部件一整体关系;f 属性一宿主关系;g 材料一成品关系;h 施事经验者关系主体一事件关系;i 受事内容领属物等一事件关系;j 工具一事件关系;k 场所一事件关系;1 时间一事件关系;1 1 1 值一属性关系;n 实体一值关系;o 事件一角色关系;p 相关关系。根据义原之间复杂的语义关系,义原之间构成了一个复杂的网状结构,这个结构也称为义原树。这是计算语义相似度的基础。下面分别给出义原语义相似度、概念语义相似度、句子语义相似度的计算方法“”:义原语义相似度计算由于所有的义原根据上下位语义关系构成了一个树状的义原层次体系,义原间的语义相似度由它们在义原层次体系上的位置即它们间的语义距离来决定。两个义原的义原语义相似度为:s i r e ( p 1 剃p = 老( 公式2 2 )其中:p ;和p :表示知网中的两个义原;d 是p 。和p :在义原层次体系中的路径长度,为一个正整数;a 是一个可调节的参数。概念语义相似度计算概念是通过义原和关系符号来表示的。概念可以分成四个部分:a 第一基本义原描述式,d e f 项中的第一个义原( 这里的d e f 为知网中对某一词的义原描述) ;b 其他基本义原描述式,d e f 项中除第一独立义原以外的所有其他独立义原或具体词;c 关系义原描述式,d e f 项中用“关系义原基本义原”或者“关系义原( 具体词) ”或者“( 关系义原具体词) ”描述概念的部分;8个性化在线答疑系统的研究与实现d 符号义原描述式,d e f 项中用9 系符号基本义原”或者“关系符号( 具体词) ”描述概念的部分。概念的这四部分对应的语义相似度分别记为s i m 。( c t ,c :) 、s i m :( c ,c :) 、s i b ( c 。,c :) 、和s i r e , ( c ”c z ) 。于是,两个概念间的整体语义相似度为:4s i m ( c ,c :) = f l l s i m ,( c 。,c :) + 声,芦f s i r e ,( q ,c :)( 公式2 3 )i = 2其中,e 。( 1 i 4 是一个可以调节的参数,各部分的重要程度通过0 ;值进行限定,并满足:b 。+ pz + b 。+ b | - l ,b 。bz bs b 。i 0 。上式中采用b 。与p 。相乘的意义在于,主要部分的语义相似度将对其它次要部分的语义相似度起到制约作用,即:如果主要部分的语义相似度取值较低,那么次要部分的语义相似度对于整体语义相似度所起的作用也随之降低。句子语义相似度计算而句子是由词语构成的,有了词与词之间的语义相似度,我们就可以来计算句子间的语义相似度。设两个句子a 和b ,设a 包含的词为a 。,a :。,a 。b 包含的词为b 。,b :,b 。词a t ( 1 i m ) 和b ,( 1 j n ) 之间的语义相似度用s ( a 。,b j )来表示。这样我们得到一个m xn 的矩阵:fs ( 4 ,县) ,s ( 4 ,b 2 ) ,s ( a t ,e ) lm ( a ,丑) = i( 公式2 4 )卜( 以,骂) ,s ( 以,最) ,j ( 以,e ) j利用这个矩阵,我们可以用上述公式得到a ,b 两个句子之间的语义相似度s ( a ,b ) :。( 爿,动:圣:! 竺竺尘! 生:墨! :! ! 兰:生! ! :! ! 垒:堡塑( 公式2 5 )基于语义相似度计算方法可以较好的体现概念之间的联系,实现概念之间较好的匹配。但是这样方法要求建立一个语义知识资源库,而语义知识资源库的建立是一项十分复杂的工作,需要投入大量的时间和精力。同时,这种方法没有考虑到句子匹配中每个词语的权重,这也是该方法的不足。所以,该方法在本系统中不具有实用性。( 3 ) 其它相似度计算方法问题的匹配与问题的诸多因数有关,包括问题中包含的关键词、语义词,以9浙江师范大学硕士学位论文及各关键词、语义词在问题中所起的作用的重要程度等。关键词是从问题中抽取出来,能够刻画问题关键所在的若干个词“。比如“教育技术的定义? ”,在这个问题中“教育技术”这个词起主导作用,它是问题的关键所在。在特定领域中,关键词一般为该领域的专业词,可以把该领域中的专业词提取出来组成关键词词库。关键词决定了问题与什么内容有关,在问题的理解中具有重要作用。语义词是从大量的问题语料中提出来的常用词,有鲜明的语义内容,出现频率很高,如“概念”、“区别”、“什么”等“。它反映了问题要回答的内容,对问题的解答具有重要的作用。比如“行为主义学习理论的代表人物? ”,在这个问题中要求回答的是“代表人物”,即“人的姓名”。语义词对于问题的理解非常重要,可以使问题解答更加准确,问题答案更加简洁。我们知道,当问题语句中包含多个关键词的时候,每个关键词对语句意义所起的作用都不尽相同,我们把作用的程度用权重来表示,权重的值越大,表示该关键词所起的作用越大。把语句中的所有关键词根据它的重要程度设置不同的权重,并且各关键词的权重之和等于1 ,如果只包含一个关键词,则它的权重为1 。比如有问题“远程教学与传统教育的区别? ”。该语句中包含两个关键词“远程教学”和“传统教学”,并且两个关键词所起的作用是一样的,我们就可以把它们的权重都设置成0 5 ,表示他们的重要程度相同,他们的和等于1 。同样,语义词也有权重,权重的值设置与关键词类似:语义词的权重越大,表示它对语句的含义理解越重要,所有语义词的权重之和为l 。比如问题“远程教育的优点与缺点? ”。语句中包含两个语义词“缺点”和“优点”,他们的权重都为0 5 。有了关键词、语义词和它们的权重,问题的匹配程度我们可以用公式2 6 来计算”1 :曼饥妻。m蚴硝两j = l + 多南蚣舵幻其中a 和b 表示关键词和语义词的常数因子o a l ,0 p 1 ,并且a +b = 1 ,q 和b 的值可以进行调节,比如q 取o 6 ,0 取0 4 。k m 为问题库中的问题q 中和新问题匹配成功的关键词的个数,k n 为新问题中所有关键词的数目,k w 。为k m ;个关键词中第j 个关键词的权重。s i l l 。为问题库中的问题q 。中和新问题匹配成0个性化在线答疑系统的研究与实现功的语义词的个数,s r l t 为新问题中所有语义词的数目,s w 。为s m 。个语义词中第j个语义词的权重。为了提高系统的查全率、查准率,我们还可以建立概念词典“。对所有关键词和语义词分别建立概念词典,为了简化系统,我们可以只建立同义概念词典和蕴涵概念词典。同义概念词典为每个关键词和语义词指明了与其同义或近义的概念集合( 见表2 - 1 ) 。为了便于日后的维护,在同义概念词典中只存放同义集地址,把具体的同义词存放在同义集词典( 见表2 2 ) 。表2 - 1 同叉概念词典m 1概念同义集地址概念l地址l概念2地址2概念n地址n表2 - 2 同义集词典1同义集同义集l同义集2同义集m蕴涵概念词典是为关键词建立父概念集和子概念集,其结构如表2 - 3 所示。袁2 - 3 词义蕴涵词典1 ”概念父概念集予概念集概念1父概念集1子概念集1概念2父概念集2子概念集2概念n父概念集n子概念集1 3这样在问题匹配时我们就可以通过同义概念词典对关键词和语义词进行同义词或近义词的扩展,通过蕴涵概念词典对关键词的父概念和子概念进行扩展,浙江师范大学硕士学位论文同时还可以根据父概念找到同级概念。这样就增加了问题匹配的查全率和查准率。通过关键词、语义词、权重和概念词典进行问题匹配的方法最大优点就是简单实用,与知网( h o w n e t ) 相比,概念词典的建立简单的多,而且更有针对性。由于考虑了概念之间的关系,在概念的表述上可以更加的多样,可以在一定程度上满足不同用户对同一问题的不同表达方式。( 二) 个性化服务个性化服务的实现主要包括三方面的内容:用户特征的描述与更新、资源的描述、个性化推荐技术。1 用户特征的描述与更新在个性化服务系统中,用户特征的描述不仅反应用户的兴趣,而且也反应了用户之间的关系,用户特征的建立是进行个性化推荐的基础。用户特征描述还没有一个统一的标准,如w 3 c ( w w w w 3 c o r g ) 有两个涉及用户描述文件的标准:p i c s ( p l a t f o r mf o ri n t e r n e tc o n t e n ts e l e c t i o n ) 和a p p e l i 0 ( ap 3 pp r e f e r e n c ee x c h a n g el a n g u a g e1 0 ) ,p i c s 是父母和老师用来控制孩子的浏览能力的,提供了过滤规则定义语言p i c s r u l e s 。a p p e l i 0 可定义用户感兴趣的站点和过滤规则,这些规则大部分是在p i c s r u l e s 的基础上发展起来的“”。用户特征的建立一般分为显式的方法和隐式的方法,以及两种方式相结合的方法。( 1 ) 显式的方法显式的方法就是在用户注册的时候让用户自己填写用户的资料,包括用户感兴趣的内容,或者是系统事先建立好各种主题让用户选择。这种方法的特点就是简单、直接,它的缺点就是需要用户的参与,而且对用户特征的描述在使用的过程中不会自动改变,难以满足用户不同时间段兴趣不同的特点,而且用户往往不能全面、准确的表达用户自己的兴趣,系统事先定义好的主题也不一定能很好的反应所有资源的内容。( 2 ) 隐式的方法隐式的方法在用户没有明确参与的情况下,系统通过跟踪用户行为来得到用户的兴趣。用户行为可以表现为查询、浏览页面和文章、标记书签、反馈信息、1 2个性化在线答疑系统的研究与实现点击鼠标、拖动滚动条、前进、后退等“”。文献 1 6 的研究表明,简单的动作( 比如点击鼠标) 不能有效地揭示用户的兴趣,而铡览页面和拖动滚动条所花的时间可以有效地揭示用户的兴趣。该方法最大的优点就是可以自动的建立用户的特征,而且随着用户的使用可以自动的对用户兴趣进行调整,能较好的反应用户当前的兴趣特征。它的缺点就是在系统初期需要对用户兴趣进行训练,在系统的实现上比较复杂,涉及到人工智能等一些技术。( 3 ) 显式和隐式相结合的方法这种方法就是在开始的时候,让用户填写自己的兴趣,然后在使用过程中根据用户行为更新用户的特征。这也是目前采用得比较多的方法。2 资源的描述资源的描述与用户的描述密切相关,一般的做法是用同样的机制来表达用户和资源,资源描述文件可以用基于内容的方法和基于分类的方法来表示“。( 1 ) 基于内容的方法基于内容的方法是从资源本身抽取信息来表示资源,使用最广泛的方法是用加权关键词矢量“”。从资源文档中选取能表示文档意思的若干个特征词,同时对选取的关键词进行加权。对关键词的权值计算使用最广泛的是i f t d f 方法。( 2 ) 基于分类的方法基于分类的方法是利用类别来表示资源,对文档资源进行分类有利于将文档推荐给对该类文档感兴趣的用户“”。实际上,也有把两种方法结合来描述资源的:先对资源进行分类,分成几个大类,然后再对资源采取基于内容的分类方法。3 个性化推送技术个性化服务系统根据其所采用的推荐技术可以分为两种:基于规则的系统和信息过滤系统。信息过滤系统又可分为基于内容过滤的系统和协作过滤系统。“5 ( 1 ) 基于规则的系统基于规则的系统允许系统管理员根据用户的静态特征和动态属性来制定规则,一个规则本质上是一个i f t h e n 语句,规则决定了在不同的情况下如何提供不同的服务。基于规则的系统其优点是简单、直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理。浙江师范大学硕士学位论文( 2 ) 基于内容过滤的系统基于内容过滤的系统利用资源与用户兴趣的相似性来过滤信息。基于内容过滤的系统其优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。( 3 ) 协作过滤系统协作过滤系统利用用户之间的相似性来过滤信息。基于协作过滤系统的优点是能为用户发现新的感兴趣的信息,缺点是存在两个很难解决的问题,一个是稀疏性,亦即在系统使用初期,由于系统资源还未获得足够多的评价,系统很难利用这些评价来发现相似的用户。另一个是可扩展性,亦即随着系统用户和资源的增多,系统的性能会越来越低。在现有的一些个性化服务系统中,一般都不止使用一种过滤技术,如:w e b s i f t ,f a b ,a n a t a g o n o m y 和d y n a m i cp r o f i l e r 等“,同时采用了基于内容过滤和协作过滤这两种技术。结合这两种过滤技术可以克服各自的一些缺点,为了克服协作过滤的稀疏性问题,可以利用用户浏览过的资源内容预期用户对其他资源的评价,这样可以增加资源评价的密度,利用这些评价再进行协作过滤,从而提高协作过滤的性能。“”( 三) 信息获取在答疑系统中,问题库内容的添加可以分为人工的方式和自动的方式。人工的方式由系统维护人员对问题进行整理,然后添加到问题库中。人工的方式的优点就是可以对问题的答案先进行筛选和整理,答案一般比较准确、简洁,它的缺点是比较花费时间,而且需要人员参与。自动的方式则系统具有自动搜集问题与答案,并自动添加到闯题库中的功能,该方式不需要人员的参与,但问题的质量没有人工的简洁,可能包含其它的一些无用信息,而且问题答案的质量也不一定能保证。人工的方式实现比较简单,这里只介绍自动的方式。信息的自动搜集可以采用网络爬虫( c r a w l e r ) ,也叫网络蜘蛛( s p i d e r ) ,它是一种通过某种搜索策略自动在网络中搜集信息的程序。它从一个或多个种子页面u r l 开始,从这些种子页面中提取u r l ,得到新的页面,然后在提取新页面中的u r l ,如此反复得到更多的页面,即我们需要的信息。一个通用的网络爬虫的基本流程图如图2 一l 所示,它的体系结构如图2 2 所示。个性化在线答疑系统的研究与实现图2 - 1 网络爬虫基本流程图1图1 - 2 网络爬虫体系结构“”网络爬虫体系结构中各个模块的主要功能介绍如下“7 1 :( 1 ) 页面采集模块:该模块是网络爬虫和互联网的接口,主要作用是通过各种w e b 协议( 一般以h t t p 、f t p 为主) 来完成对网页数据的采集,然后将采集到的页面交由后续模块作进一步处理;( 2 ) 页面分析模块:该模块的主要功能是将页面采集模块采集下来的页面进行分析,提取其中满足用户要求的u r l ,加入到u r l 队列中。页面链接中给出的u r l一般是多种格式的,可能是完整的包括协议、站点和路径的,也可能是省略了部分内容的,或者是一个相对路径。所以为处理方便,一般先将其转化成统一的格式:( 3 ) 链接过滤模块:该模块主要是用于对重复链接和无效链接进行过滤;浙江师范大学硕士学位论文( 4 ) 页面库:用来存放己经爬行下来的页面,以备后期处理;( 5 ) u r l 队列:用来存放经链接过滤模块过滤得到的u r l ,并不断的为页面采集模块提供u r l ,当u r l 队列为空时爬虫程序终止;( 6 ) 初始u r l :提供 j r l 种子,以启动爬虫。一个通用的网络爬虫可以从网络中搜集到各种各样的信息,但是由于其涉及领域太广,因此针对特定领域来说它的信息采集不够深入和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论