(教育技术学专业论文)基于知识树的智能答疑系统的设计与实现.pdf_第1页
(教育技术学专业论文)基于知识树的智能答疑系统的设计与实现.pdf_第2页
(教育技术学专业论文)基于知识树的智能答疑系统的设计与实现.pdf_第3页
(教育技术学专业论文)基于知识树的智能答疑系统的设计与实现.pdf_第4页
(教育技术学专业论文)基于知识树的智能答疑系统的设计与实现.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕十学位论文 摘要 随着互联网的快速发展以及现代社会信息化速度的加快,知识的传播以及产 生均以几何级速度增长,虽然传统的课堂授课以及答疑还是占据主导地位,但已 经不能满足人们的终身教育的需求以及在校学生巩固知识和答疑解惑的要求。在 这样的要求背景下,网络远程教育以及各种各样的网络教学以及答疑系统孕育而 生。作为辅助学生主动学习,检验学生学习情况的一个重要的工具及手段,智能 答疑系统试图虚拟一个实际的老师面对面解决问题的网络环境,让学生能身临其 境进行学习,具有一定的建构主义思想,是传统课堂教育的有益补充。 数据挖掘在各个领域运用不断发展,近年来人们致力于寻找新的发展方向与 空间。本课题将数据挖掘算法运用到智能答疑系统中,提出了一套基于知识树的 答疑设计方案并加以实现,目的是借鉴国内外优秀的智能答疑系统的成功经验的 同时,针对其不足之处,在问题模式匹配,知识库设计等方面皆使用了我们自主 研发的智能化技术,并在问题输入这一环节上人性化地解决了公式输入的问题, 使得其具有一定的技术优势。 一个优秀的教学教育软件不但要有突出的技术特征,还要看它是否能真正的 融入先进的教育思想。智能答疑系统中体现的教学论和学习论,特别是系统中融入 的社会建构论,对以学生为主体,教师为主导的双主教学有重要的意义。 通过一段时间的线上实践证明本智能答疑系统搜索查全率与查准率较高,该 系统具有智能性以及自我更新性,且具有公式输入和反馈及时等人性化优点。 完成本课题的研究不仅对教育工作者了解用基于知识树的智能答疑系统进 行混和式教学有重要意义,而且可以在今后的工作中在现有智能答疑系统的二次 开发,以及其他智能化教学软件的使用和开发方面起到一个启迪的作用,引起国 内教育工作者对网络远程教学与辅学的重视,在此领域进行更新更深入的理论和 实践探索。 关键词:智能答疑:l a t e x 语法;m a t h m l ;数据挖掘;决策树 基于知识树的智链答疑系统的设计与实现 ab s t r a c t a st h er a p i dd e v e l o p m e n to fi n t e r n e ta n ds o c i a li n f o r m a t i o n i z a t i o n ,t h e d i s s e m i n a t i o na n dg e n e r a t i o no fk n o w l e d g eh a dar a p i dg r o w t h a l t h o u g ht h e t r a d i t i o n a lw a yo fc l a s s r o o me d u c a t i o na n df a c e t o f a c eq as t i l lh o l dm a i ns t a t u s ,i t i si n c a p a b l eo fm e e t i n gt h ep e o p l e sd e m a n df o rl i f e l o n ge d u c a t i o n ,c o n s o l i d a t i n gt h e k n o w l e d g ea n dd e a l i n gw i t hd i f f i c u l t i e s i n t h i sc o n t e x t ,d i s t a n te d u c a t i o na n d v a r i o u sq as y s t e mg e n e r a t e d a sa ni m p o r t a n ta u x i l i a r yt o o lo fa c t i v el e a r n i n ga n d e x a m i n a t i o no fl e a r n i n gs i t u a t i o n ,i n t e l l i g e n tq as y s t e mt r yt oi n v e n ta na c t u a la n d f a c e t o f a c eq ae n v i r o n m e n t i ti sab e n e f i c i a ls u p p l e m e n t o ft h et r a d i t i o n a l e d u c a t i o nf o ri tr e f l e c t sc o n s t r u c t i v i s ma n dm a k e ss t u d e n t st oe x p e r i e n c ec l a s s r o o m i n s t r u c t i o np e r s o n a l l ye d u c a t i o n w i t ht h ed e v e l o p m e n to fd a t am i n i n g sa p p l i c a t i o ni nm a n yf i e l d s ,p e o p l e d e v o t e di ns e e k i n gn e wd i r e c t i o na n ds p a c ei nr e c e n ty e a r s t h ea r t i c l et h a ta i m e da t s o l v i n gp r o b l e m sa n du s i n gs u c c e s s f u le x p e r i e n c eo fa d v a n c e di n t e l l i g e n tq as y s t e m o v e r s e a sa p p l i e dt h ed a t am i n i n ga l g o r i t h mt ot h ei n t e l l i g e n tq as y s t e m ,p r o p o s e d a n dr e a l i z e dt h eq ad e s i g np r o p o s a lb a s e do nt h ek n o w l e d g et r e e s ,a n da i m e da t s o l v i n gp r o b l e m sa n du s i n gs u c c e s s f u le x p e r i e n c eo f a d v a n c e di n t e l l i g e n tq as y s t e m w ea l s ou s e di n t e l l e c t u a l i z e dt e c h n o l o g yi na s p e c t ss u c ha sq u e s t i o np a t t e r nm a t c h i n g a n dk n o w l e d g ed a t a b a s ed e s i g n a tt h es a m et i m e ,w es o l v e dt h ed i f f i c u l t i e s i n i n p u t t i n gf o r m u l ai nw e bp a g ea n dm a k i n gt h es y s t e ma d v a n c e da n ds u p e r i o r , i t i ss a i d t h a tag o o de d u c a t i o ns o f t w a r ei sn o to n l yn e c e s s a r i l yt oh i g h l i g h ti t s t e c h n i c a lc h a r a c t e r i s t i c s ,b u ta l s on e e dt oi n t e g r a t eo u rt h i n k i n go fe d u c a t i o n t h e t e a c h i n ga n dl e a r n i n gi d e o l o g i e si nt h ei n t e l li g e n tq as y s t e ms p e c i a l l yt h es o c i a l c o n s t r u c t i v i s ma r ei m p o r t a n tt ou sf o rs t u d e n t c e n t e r e d ,t e a c h e r - l e dd o u b l em a i n t e a c h i n g ap e r i o do fo n - l i n ep r a c t i c ep r o v e dt h a tr e c a l lo fi n t e l l i g e n ts e a r c ha n da c c u r a c y o ft h ei n t e l l i g e n tq as y s t e mi sq u i c ka n da c c u r a t e t h i ss y s t e mh a di n t e l l i g e n c ea s w e l la ss e l f - r e n e w a l a n dt h i ss y s t e ma l s oh a du s e r f r i e n d l ym e r i t ss u c ha sf o r m u l a i n p u ta n dp r o m p tf e e d b a c k c o m p l e t i o no ft h i s r e s e a r c hp r o j e c t si sn o to n l yg o o df o rt h ee d u c a t o r st o u n d e r s t a n db l e n d i n gl e a r n i n ga n dt e a c h i n g b a s e do ni n t e l l i g e n tq as y s t e m ,b u ta l s o i m p o r t a n tf o re x t e n s i v ed e v e l o p m e n to fi n t e l l i g e n tq as y s t e ma n do t h e re d u c a t i o n 1 i i 硕士学位论文 s o f t w a r e f i n a l l y ,l e to u re d u c a t o rp a ya t t e n d i n gt ol o n g d i s t a n c et e a c h i n ga n d a u x i l i a r ys t u d yb yn e t w o r k ,a n dc a r r yo nm o r et h o r o u g ht h e o r ya n dt h ep r a c t i c e e x p l o r a t i o ni nt h i sf i e l d k e yw o r d s :i n t e l l i g e n tq as y s t e m ;l a t e xg r a m m a r ;m a t h m l ;d a t am i n i n g ; d e c i s i o nt r e e i v 基于知识树的智能答疑系统的设计与实现 插图索引 图2 1 数据挖掘方法图1 0 图2 2 编辑公式转换流程图1 4 图2 3 转换部分l a t e x 数学公式代码为m a t h m l 代码截图1 6 图2 4 公式编辑举例图( 1 ) 1 7 图2 5 公式编辑举例图( 2 ) 1 8 图3 1 答疑系统答疑业务基本架构图2 3 图3 2b s 架构图2 4 图3 3 问题表( t i w e n ) 中数据库字段详细解释图2 6 图3 4 提出初始问题时知识树成长图2 7 图3 5 产生层次1 相关问题时知识树成长图2 7 图3 6 产生层次2 相关问题时知识树成长图2 7 图3 7 产生层次3 相关问题时知识树成长图2 8 图3 8 产生层次4 相关问题时知识树成长图2 8 图3 9 答疑检索流程图2 9 图3 1 0t i w e n 表部分数据预览图3 0 图3 1 l 推理知识树图3 0 图3 1 2 投票界面图3 2 图3 1 3 普通用户注册页面图3 3 图3 1 4 后台管理模块的登陆界面图3 3 图3 1 5 用户管理模块的主界面一3 4 图3 1 6 一级分类管理界面3 4 图3 1 7 问题管理主界面3 5 图3 1 8 查看相关问题界面3 5 图3 ,1 9 点击进入提问界面3 6 图3 2 0 问题预览界面3 6 图3 2 1 选择类别警告界面3 6 图3 2 2 提交后提示界面3 6 图3 2 3 问题与最佳答案界面3 7 图4 1 大学物理( 1 ) 数据库答题按层次分布统计3 9 图4 2 大学物理( 2 ) 数据库答题按层次分布统计4 0 硕士学位论文 附表索引 表2 1 常用的公式结构的t e x 表示方法1 2 表2 2m a t h m l 和l a t e x 中常用的数学符号的写法对照表1 5 表4 1 大学物理( 1 ) 题目资源按层次统计( 统计时间:2 0 0 8 年6 月1 0 日) 一3 8 表4 2 大学物理( 2 ) 题目资源按层次统计( 统计时间:2 0 0 8 年6 月l o 日) 一4 0 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法 律后果由本人承担。 作者签名:奶仗曰期:埘了年7 月7 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被 查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编 本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密文 ( 请在以上相应方框内打“”) 作者签名: 导师签名: 奶欠 妥陪影 日期:纱f 年_ 7 月c 7 日 日期:硼年7 月7 日 硕十学位论文 第1 章绪论 1 1 选题的背景、目的和意义 随着计算机技术的迅猛发展和互联网时代的到来,信息的传播与产生较之过 去有了极大的增加。一个方面是量的方面:知识的不断发掘与不断更新,使得作 为社会个体的人需要学习掌握的知识量呈几何级增长。另外一个是速度的方面: 知识的传播速度通过互联网得到了极大的提高,网络成为了人们获取知识的重要 工具。 在这样的大背景下,面对面的传统的课堂传授知识的方式得到了网络方式这 个有益补充,甚至在某些时候、某些行业中基于网络的自主性学习已经成为学习 着学习的主要方式,这使学习者由听众变成了知识的主动索取者,提高了对学习 者学习的主观能动性的要求,在这样的情况下,遇到个人不能解决的问题时,及 时正确的答疑成了学习者必不可少的需求,否则学习者的学习主观能动性会受到 巨大的挫折,导致学习效果的不理想。答疑方式的网络方式演变大致经过以下几 个阶段: 1 :电子邮件阶段:学习者通过电子邮件直接与老师进行交流。很显然,这 样的方式是异步的,学习者提问后需要等待较长时间才能获得回答,受限于回答 者的时间、精力、知识面等各方面因素,不满足大规模答疑的需要。 2 :b b s 和留言版阶段:学习者在论坛或留言版上发布自己的问题,然后等 待老师或别的提问者回答。这样的方式由于参与者有电子邮件的一对一变成了多 对多,提高了回答问题的效率与准确率,但从根本上说,还是异步的方式进行, 存在和电子邮件一样的弊端。 3 :聊天室与各种聊天软件阶段( 如q q ) - 学习者和老师可以进入聊天室进行 “面对面”的交流。这种方式不同于前述的两种方式,其可以同步进行提问和回答, 就其回答速度而言有了革命性的提高,但需要双方都上网进行,对答疑时间具有 局限性。 4 :纯文本的关键字查询的在线答疑系统:这种系统已经具有初步智能答疑 系统的特征,其后台数据库含有问题和与其对应的答案,学生可以输入问题的关 键字对问题进行搜索,这要求用户具有一定的抽取关键词能力,输入的关键词若 不够精确,可能搜索出许多不相关的问题及答案。 虽然前述的几种答疑方式直在不断的完善以尽力适应教学现实的需要,也 可以在一定程度上辅助教育教学工作,但终究来说比较费时、费力,给出的答案 基于知识树的智能答疑系统的设汁j 实现 形式单一且准确性很难保证,这几种方式通常采用发帖子方式或搜索匹配的方式, 没有将解答与评价有效的结合起来,更没有有效的利用以往的教学资源或答题资 源,造成不必要的重复劳动,已经明显不能满足不断扩大的学生答疑需求,更不 能满足建设终身学习型社会的宏伟目标的要求。随着学校招生规模的不断扩大, 学生索求知识的需求急剧增加,网络教学内容的不断丰富,因此非常有必要设计 一种实用有效的智能答疑系统来满足教学的需要。 本课题研究的目的是充分利用网络资源,通过机器处理自动分解用户用自然 语言提出的问题并自动返回答案,其中运用的基本技术包括:自然语言分词技术、 文本分类技术、数据挖掘技术、数据仓库与数据自增长技术、脚本封装l a t e x 代 码技术等,最终实现了自然语言问题抽象化,答案检索的智能化,以及提问与回 答数据自增长的目的,使学习者可以方便的通过该系统找到所需问题的答案,使 管理员能用较少的时间与精力管理答疑系统,使系统在长期的运用实践中能逐步 的自我完善与成长,减轻教学与教管的负担,提高网络教学的质量与效率。 在现阶段的网络教学模式中,研发一个智能答疑系统的意义尤其重大,主要 表现在: 1 :答疑是学生学习必不可少的一部分,古语说:“师者,传道授业解惑者也” 可见在传统教学中,答疑早己被看作教学的一部分,也是教师的义务,学习者是 权利。在现行网络环境下,远程教育与远程辅导中,及时、有效的网络答疑更是 学习的基本要求。 2 :网络教学与传统教学相比较而言,其一个最大的缺点是:教师对学习者 的学习情况了解程度和了解途径不足,很难对学习者的学习情况做很正确的评价。 智能答疑系统通过学习者的提问答疑过程中收集的学习者数据,对所提问题记录 分析,可以统计出学生知识掌握的薄弱环节,为教师改进教学提供参考,成为辅 助教学的有效工具。 3 :网络教学可以满足大规模教学的需要,可为教师分担很大一部分日常教 学工作,适应社会与学校越来越庞大的教学需要。 4 :为人工智能与数据挖掘的发展提供了一个新的发展领域,可以促进该技术 领域的发展。 1 2 国内外研究动态 目前国内外对于人工智能以及智能化技术在教学领域中的应用已有相当的 研究与实践,也有了很多优秀的智能答疑系统,现在来具体了解下智能答疑系统 在国内外的发展动态; 国外动态: 国外的教学网站相对国内来说,一般具有良好的交互、答疑和反馈机制,大 硕上学位论文 多数还是学生对教师的点对点提问回答制。同时,国外也研发了一些比较成型的, 能为不同领域的用户解答问题的答疑系统,具体有: ( 1 ) 美国麻省理工大学( m i t ) 开发的s t a r t :从1 9 9 3 年开始发布在i n t e r a c t 上,网 址为:h t t p :w w w a i m i t e d u p r o j e c t s i n f o l a b ,其可以回答有关地理、历史、文化、 科技、娱乐等方面的简单问题。比如:对于问题 w h a ti st h el o n g e s tr i v e ri nt h ew o r l d ? s t a r t 将回答 “w i t hal e n g t ho f4 ,l8 0m i l e s ,t h en i l er i v e ri st h el o n g e s tf i v e ri nt h ew o r l d ” 很显然地,s t a r t 能自动分析用户所用的自然语言提问,并依据英语分词规则 抽取关键字后检索数据库回答用户的提问,其答案不仅仅限于文本,也可以是图 片、声音或者动画等,不足之处在于该系统以“主体关系对象”三元组的方式存 放答疑数据,系统的精确性和性能比较差,且只能识别用英语提交的问题。 ( 2 ) a n s w e r b u s :网址为:h t t p :m i s - s h o o v e r s i ,u m i c h e d u ,a n s w e r b u s 是个多语 种的自动问答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德 语、意大利语和葡萄牙语的问题。 ( 3 ) 美国a s k j e e v e s 公司开发的智能检索系统a s k j e e v e sf o rk i d s :网址为: h t t p :w w w a s k f o r k i d s t o m ,a s k j e e v e s 最突出的特点是允许用户用自然语言句子 提问,检索系统会自动分析用户的提问,然后通过反问,即人机交互方式,准确地辨 识用户的意图,这样用户就能够充分表达他的检索需求,这比单纯的靠关键词检索 方式有了明显的进步。 - ( 4 ) 芝加哥大学人工智能实验室开发的f a q f i n d :该系统预先收集“常问问题与 答案库”( f r e q u e n t l ya s k e dq u e s t i o n s ,简称f a q 库) ,通过使用语义分析与关键词 匹配技术,采用基于向量的搜索引擎从问答对文件中抽取答案。 国内动态: 国内的智能答疑系统一般是作为远程教育平台的一个子系统而存在,很多只 是让教师和学生通过留言版等方式交流,并不是真正意义上的智能答疑,但其中 也有一些比较优秀的例子,具体为: ( 1 ) 香港中文大学参考a s k j e e v e s 开发的中文提问式搜索引擎w e n i w e n :用户 提问时,问题被记录下来作为网页的索引,在实际使用时,如果用户的某个提问与 作为索引的某些提问在语义上非常接近,那么就把与这些提问相连的网页返还给 用户。 ( 2 ) 上海理工大学的远程智能答疑系统:其为典型的基于f a q 库的智能答疑 系统,基于f a q 库的智能答疑系统在数据库( 即f a q 库) 中存储了大量的用户可能 的问题数据。系统根据用户输入的自然语言的句子,自动抽取其关键词与关键词 库中的关键词匹配,并将所有相关答案返回。 基于知识树的智能答疑系统的设计与实现 ( 3 ) 华南理工大学开发的智能答疑系统:其为典型的基于全文索引的智能答疑 系统,基于全文索引的智能答疑系统是指利用了信息检索技术来实现答疑。它的 特点是知识库不是现成的问题答案对,而是相关文档库,当问题出现并抽取关键 字检索出相关答案后,并不是直接返回,而是使用某种方法把相关答案进行相关 度排序,然后确定最佳答案后返回。 1 3 当前研究现状存在的问题 目前国内外对于人工智能以及智能化技术在教学领域中的应用已有相当的 研究与实践。也有了很多优秀的智能答疑系统,但绝大多数还存在很多问题。具 体表现在: ( 1 ) 系统的性能不高,特别是答疑分词的速度慢。由于采用较大的关键词分词 词库,每次提问都可能要对问题进行大量的匹配。在同时用户提问太多的情况下, 系统的数据库查询响应时间过长,在长时间等待的情况下,用户很可能失去耐心 而导致系统失去原有的效果。 ( 2 ) 系统的智能化程度不高,国内具备智能答疑能力的系统大多采用根据用 户输入进行文本全文搜索关键字,从而获取答案返回给用户的。这样的方式因为 缺乏对自然语言的理解以及关键字的不全面而使得返回的答案往往与用户需要的 答案有一定的出入,且由于不加以智能筛选而返回用户太多相关信息,也影响了 系统的有效性。 ( 3 ) 系统不具备自我完善功能,任何智能答疑系统在设计之初是经过教研专 家的教研设计的,但无论多细致的设计都不可能完美无缺,更不可能与时俱进的 适应不断发展的教学的需要,以往的答疑系统在运行过程中专家定期会对系统做 出信度和效度的评估,并逐步完善知识库的内容。但这项工作极为复杂,工作量 巨大且容易出错,目前,大多数系统尚不具备自我升级的能力。 ( 4 ) 最容易被忽视的一点是:绝大多数答疑系统片面关注用户提问后如何检索 答案以及智能回答等解答环节的问题,而忽视了用户对系统提问是整个系统运作 的第一步。绝大多数答疑系统对用户提问都采取的是纯文字方式的提问,少数可 以在提问中插入图片以及多媒体等文件。但这样不能满足用户的提问要求,特别 对于理工科学生的提问以及在校初高中学生的提问,经常需要用到公式才能说明 问题。而绝大多数答疑系统并没有提供网页上的公式输入,这样用户经常无法准 确的表达自己的问题,当学习者提问都出现问题,检索相关答案更加无从说起, 因为无法检索到与某个公式相关的答案。从这个意义上来说,这样也制约了系统 智能化程度。 硕上学位论文 1 4 论文的组织结构 本论文的结构分为五个部分: 第一章绪论。主要阐述本论文的背景、研究现状、目的、研究成果和意义。 第二章智能答疑关键技术及教学思想。其中技术方面包括论题涉及的两大主 要技术:数据挖掘技术以及如何实现网页上输入公式,教学思想方面主要介绍了 智能答疑系统所蕴涵的主要教学思想。 第三章系统的总体框架与具体模块。包括系统整体框架、各个功能模块实现 机制与作用、工作原理、数据结构和数据库设计。 第四章系统的数据库统计数据和运行结果评价。本章介绍了系统本身存在的 各种统计数据以及系统试运行以来的反馈评价数据,从笔者的角度揭示系统数据 后反映的教学问题,并分析其原因。 第五章总结全文,并对下一步工作及研究方向进行展望。 1 5 论文的主要研究成果 技术方面:借鉴了国外先进智能答疑系统的成功经验,在问题模式匹配、知 识库设计等方面都使用了我们自主研究的智能化技术,并在问题输入这一环节上 人性化地解决了公式输入的问题。 教育思想方面:融合了一线教学老师的宝贵经验,设计了符合学生学习特点 的知识库与系统流程,整个系统不但注重“答疑”更突出了“导学”,突出了教育软 件的特点:以学习者为本,突出教育效应。 实践方面:经过刻苦研发成功设计与实现了大学物理智能答疑系统,成为了 湖南大学物理老师进行教育教学工作的好帮手,并获得学生和老师的一致好评。 1 6 论文的主要研究方法 在具体的研究方法上,本论文主要采用了三种研究方法,即:文献分析法、 层次分析法和实践研究法。 ( 1 ) 文献分析法 文献分析法主要是通过数据库、英特网检索、印刷品资料等对国内外相关文 献进行查阅、收集、整理有关课题的资料【1 1 。文献的主要来源为各类学术核心期 刊、其他学科学术期刊、有关学位论文、技术著作以及互联网技术文档等。在本 课题的研究过程中,笔者阅读了大量关于智能答疑系统研究的国内外文献,收集 并学习了大量关于智能答疑关键技术的技术文档,文整个课题的研究打下了坚实 的理论和技术基础。 ( 2 ) 层次分析法 基于知识树的智能答疑系统的没计与实现 层次分析法( t h ea n a l y t i ch i e r a r c h yp r o c e s s ,简称a h p 法) 是由美国著名运筹 学家a l s a a t y 于本世纪7 0 年代中期提出的。它为分析复杂的社会系统,对定性 问题作定量分析提供了一种简洁实用的方法,能够有效地分析目标准则体系层次 间的非序列关系,有效地综合测度决策者的判断和比较。该方法目前在许多复杂 规划中得到应用【2 】。该方法将决策有关的元素分解为目标、准则、方案等层次, 在此基础上进行定性和定量分析【lj 。在课题的研究过程中,笔者详细分析了智能 答疑的各级目标与框架,并依据层次分析法将其层层细化,逐级规划出实现目标, 对最后系统整体目标的实现起到了很大的作用。 ( 3 ) 实践研究法 笔者设计并实现了w i n d o w s 下的智能答疑平台,以大学物理课作为基础,为 其数据库中填充了数十万字的答疑资料,并且在系统实现后进行了一系列的系统 使用调查,在实际的开发和应用中对智能答疑系统在教学中的应用进行了研究。 硕+ 学位论文 第2 章智能答疑关键技术及教学思想 2 1 数据挖掘技术 数据挖掘( d a t am i n i n g ) ,也称为知识挖掘( k n o w l e d g ed i s c o v e r y ) 。是对巨大的 数据集进行寻找和分析的计算机辅助处理过程,在这一过程中发现先前未曾发现 的模式,然后从这些数据中发掘某些内涵的信息,包括描述过去和预测未来趋势 的信息【3 l 。 2 1 1 数据挖掘技术产生背景 数据挖掘是一种提供商业优势的活动,随着数据库技术与容量的不断发展而 产生和发展起来,随着人类社会不断发展前进,数据库管理系统的不断扩大,所 积累的数据量也随之爆炸性增长【4 】。越来越多的行业的人们希望在已经积累的大 量数据中,通过某种特定的探求模式来发现隐含在数据后的重要信息,而在这样 的大背景下,数据挖掘技术孕育而生且逐步发展应用了起来,它使数据的作用产 生了革命性的发展,即从过去单纯的记录备份的产物转变为记录过去与揭示未来 隐藏信息的工具,从这个意义上来说,数据挖掘的出现是对过去的数据库技术的 一次革命。 2 1 2 数据挖掘技术产生条件 数据挖掘技术的产生的条件和以下几点是分不开的: ( 1 ) 增长的磁盘空间 ( 2 ) 关系型数据库管理系统( r e l a t i o n a ld a t a b a s em a n a g e m e n ts y s t e m ,简称 r d b m s ) 芒j i 擎的不断提高 ( 3 ) 在线事物分析处理( o n - l i n ea n a l y s i sp r o c e s s i n g ,简称o l a p ) 的增强 在信息技术领域,磁盘空间越来越大,同时也越来越便宜,数据存储对存储 空间已经不再考虑。正如英国电信的未来学家i a np e a r s o n 的话- 超过8 0 年的生命, 我们要处理1 0 兆兆字节”1 3 】;对于日常案例来说,银行和信用卡公司通常是 把每一个发生在帐户生命周期上的事务进行存储、归档。很显然,那些大信用卡 公司一个月要打印几十万张记录单,自动的数据挖掘是在它们硬盘上存储的大堆 信息中寻找任何一种有意义的信息的唯一希望。 为了对硬盘上爆炸式增长的数据作出响应,r d b m s 引擎对查询的响应时间 已经有了大幅度的提高,进行查询时,数据引擎按给定的条件进行专门的优化以 查找数据集,无须始终执行数学计算。 基于知识树的智能答疑系统的设计与实现 o l a p 原来是为了减轻频繁使用的计算集合的问题特别创建的。与r d b m s 不 同,o l a p 的设计是一种预先计算和存储数据集的方式,该方式允许简单查询返 回预处理表中的一些结果。这样不仅消除了对昂贵的处理功能的需求也充分利用 了丰富的磁盘存储空间。除此之外,o l a p 特别的存储和显示功能使得用户可以 通过使用上下滚动的聚簇视图来访问大量的数据档案。正因为如此,o l a p 作为 数据挖掘工具被广泛使用。 需要特别指出的是,数据挖掘技术从一开始就是面向应用的,不同于一般情 况下对数据库进行的简单查询统计,而是在对数据进行处理、统计、分析、综合、 推理后,发现事物之间的关联,甚至根据此推断事物未来的发展以指导人们的活 动,这样一来,就使得人们对数据的运用,从低层次的术端查询操作,提高到高 层次的为各级决策者提供决策支持”】。正因为数据挖掘的这种应用性,挖掘发现 的知识并不是我们传统意义上所知的定律、公式或定理等,更不是放之四海而皆 准的真理,而是有特定前提、特定约束条件、面对特定领域的且易于被用户理解 接受的,最好能用自然语言表达的挖掘结果1 3 】。而o l a p 作为一种数据挖掘工具, 尽管功能强大,它还是需要初始的假设以给出导航数据努力的方向。之后数据又 被用来证实或推翻这些假设。在包含大量表和列的关系型数据库中,使用o l a p 常常导致试凑法的运用,花费巨大的时间和精力,所以数据挖掘的进行不可能是 一蹴而就的过程,而要随着数据的不断积累调节和修正挖掘模型”】。 2 1 3 数据挖掘的方法 就像信息系统所涉及的所有原则一样,数据挖掘需要设计出一个方法,并能 按照计划将最初的主意变成最终的实现。以下列出了一个最典型的数据挖掘方法 的组成,并给出图示。 ( 1 ) 分析问题。 ( 2 ) 提取和清洗数据。 ( 3 _ ) 效验数据。 ( 4 ) 创建与调试模型。 ( 5 ) 对数据模型进行数据查询。 ( 6 ) 维护数据挖掘模型的有效性。 l :分析问题 源数据库必须经过评估以确认其是否符合数据挖掘的标准。数据的质和量是 决定数据是否合适的首要因素。另外,对数据挖掘的预期结果必须仔细分析以确 认已有数据是否确实能够得出这一类别的信息。例如,如果答疑系统中数据库的 数据仅仅按题目类别方面分类记载,就无法细化到学习者身上,进而无法得出某 类学习者在某章某节的知识点掌握情况。一旦确定了预期方向( 即什么是需要预测 硕卜学位论文 的) 也必须确定这项工作要采用的预测模型。 2 :提取和清洗数据 数据最初是从自身本源提取的,比如o l t p 数据库,文本文件,a c c e s s 数据 库,以及电子表格。提取后的数据放在一个结构上与数据模型兼容的数据库或数 据仓库中。通常,要用到数据转换工具提取数据( 如s q l s e r v e r 的d t s 工具) ,以 一个统一的格式清洗那些不一致的、不兼容的数据。 3 :校验数据 一旦提取和清洗数据后,必须浏览一下你所创建的模型,以确保所有的数据 都是客观并且完整的。 4 :创建和调试模型 当算法应用于模型,即产生了一个结构。浏览产生的数据,确认它对于现实 生活中事实的准确代表性。否则,数据挖掘所产生的结果就毫无意义。 5 :查询数据挖掘模型数据 一旦合适的模型创建并生成了,该数据就可以用于决策支持了。该过程可以 使用v b 或a s p 等程序语言通过官方的数据源挖掘工具写成前端查询,也可以选 择使用能够连接所使用的数据源的的第三方报表工具。 6 :维护数据挖掘模型的有效性 数据挖掘模型组装好后,随着时间的流逝,初始数据的特征,如数据结构或 数据有效性,都可能发生改变。例如,通过三个月的时间来组装答疑系统的数据 挖掘模型,却发现大学物理课本发生了章节变化,狭义相对论由原来的第三章变 成了第四章,而信息一班的同学也由于一人退学而由4 0 人变为了3 9 人。任何细 微的变动都会对未来的预测精度产生很难估计的影响,因此它的变化影响了作为 基础的原始模型的性质【3 j 。 数据挖掘方法图示如图2 1 : 基于知识树的智能答疑系统的设计与实现 图2 1 数据挖掘方法图 2 1 4 微软决策树与知识树 决策树是一种作为商业数据挖掘工具而广为使用的算法。m i c r o s o f t 决策树算 法是由m i c r o s o f ts q ls e r v e r2 0 0 5a n a l y s i ss e r v i c e s ( s s a s ) 提供的分类和回归算 法,用于对离散和连续属性进行预测性建模。对于离散属性,该算法根据数据集 中输入列之间的关系进行预测。它使用这些列的值或状态预测指定的可预测列的 状态【5 】。具体地说,该算法标识与可预测列相关的输入列。例如,在预测什么样 的学生可能对物理学中的“非惯性系和惯性力”这个知识点掌握不理想,假如数据 集中有十名学员对此知识点进行了提问,其中九名同时对“曲线( 含圆周) 运动中的 牛顿定律的应用”这个知识点进行了提问,但在另外十名未曾对“曲线( 含圆周) 运 动中的牛顿定律的应用”这个知识点进行提问的学生中只有两名对“非惯性系和惯 性力”这个知识点进行了提问,则该算法从中推断出对“曲线( 含圆周) 运动中的牛 顿定律的应用”这个知识点进行提问与否是“非惯性系和惯性力”这个知识点掌握 情况的最佳预测因子,也就是说对物理学中的“非惯性系和惯性力”这个知识点掌 握不理想的学生,很可能具有一个特征:他们同时对“曲线( 含圆周) 运动中的牛顿 定律的应用”这个知识点掌握也不理想。 决策树根据朝向特定结果发展的趋势进行预测。对于连续属性,该算法使用 线性回归确定决策树的拆分位置,与智能答疑关系不大( 提问与回答均为离散行 为) ;如果有多个列设置为可预测列,或输入数据包含设置为可预测的嵌套表, 硕仁学位论文 则该算法将为每个可预测列分别生成一个决策树。m i c r o s o f t 决策树通过在树中创 建一系列拆分( 也称为节点) 来生成数据挖掘模型。每当发现输入列与可预测列密 切相关时,算法便会向该模型中添加一个节点。该算法确定拆分的方式不同,主 要取决于它预测的是连续列还是离散列。 在设计大学物理智能答疑系统时,m i c r o s o f t 决策树算法被添加了“知识层次” 这个元素,即决策树的节点层次依次按照物理知识点掌握层次展开。和原始的 m i c r o s o f t 决策树不同的是,算法每向下分级一个层次,题目( 也就是树的节点) 的 知识掌握层次也依次升级一个层次,这样决策树就变成了一棵“知识树”,知识树 中的节点不但保留了原决策树的“父子”、“兄弟”等基本关系,还蕴涵了物理教学 中的各个实际问题掌握层次递进的思想,由于题目的层次是由由浅入深、由易到 难的结构,所以知识树也体现了大学物理智能答疑系统“导学”的教育意义。可以 说:狭策树是知识树的基础,知识树是决策树的发展。 2 2 如何在网页上输入公式 随着基础教育信息化的推进,许多中小学开始利用网络开展教学与交流,但 w e b 数学公式的输入和显示一直是一个难题。2 0 0 1 年2 月2 1 日w 3 c ( w o r l dw i d e w e bc o n s o r t i u m ) 组织的数学课题组发布了m a t h m l2 0 的标准,此标准用于在网 络上基于代码显示数学符号及公式,m a t h m l 的语言继承了w 3 c 所倡导的通用 性,然而代码却晦涩难懂。且至今没在国内见到在网页上让用户直接输入公式的 界面友好的公式编辑器,在讲述我们的智能答疑系统如何在网页上输入公式前, 必须首先介绍两个相关概念:l a t e x 代码和m a t h m l 代码。 2 2 1t e x 和l a t e x 代码 l a t e x 代码的产生和t e x 是分不开的。t e x 是一个格式化排版系统,它一问 世便以其排版效果的高质量震动整个出版界。尤其是在排版含有大量数学公式的 科技文献方面更显示了它的优越性。t e x 还是一个程序源代码公开的免费排版系 统,因此吸引了许多计算机专家及t e x 爱好者为之添砖加瓦。 2 0 世纪6 0 年代,著名计算机专家和数学家,斯坦福大学d o n a l de k n u t h 教 授准备出系列专著计算机程序设计艺术,前三卷已经出版。当他正在撰写第四 卷时,出版社拿来了第二卷的第二版书样给他过目,结果令他大失所望,因为当 时出版社的印刷技术没有使他的书稿更好看,反而变糟了,尤其是在数学公式和 字体上面的缺陷更令他无法接受。于是他就打算自己写一个既能供科学家编排手 稿又符合出版社印刷要求的高质量的计算机排版系统。 k n u t h 教授于1 9 7 7 年开始构造t e x 系统,并为该系统设计了一个字符字体 生成软件:m e t a f o n t ,在标准的t e x 系统中包含有7 5 种不同尺寸的字体,而 基于知识树的智能答疑系统的设计与实现 且每种字体有8 种不同的缩放比例。1 9 8 2 年t e x 系统成功开发出版;之后又有 几次升级。其内核相当稳定,几乎没有程序错误,1 9 9 5 年以后版本号一直停止在 3 1 4 1 5 9 ,直到2 0 0 2 年1 2 月才又进行了一次升级。到目前为止,t e x 系统的版本 序号是3 1 4 1 5 9 2 ,m e t a f o n t 版本序号为2 7 1 8 2 8 6 1 。下表描述了常用的公式结 构的t e x 表示方法。 表2 1 常用的公式结构的t e x 表示方法 虽然t e x 有着简单、稳定的特点,但其还只

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论