已阅读5页,还剩62页未读, 继续免费阅读
(教育技术学专业论文)面向大学课程的题库扩展引擎的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南科技大学硕士研究生学位论文第1 页 摘要 计算机考试系统因便捷、安全、高效的特性,已经在各种考试中获得了 广泛的应用。大学的课程考试规模大,参加人数多,为了提高考试的效率, 一些高校开始采用考试系统进行课程考试。然而考试系统的题库试题收集工 作长期以来主要依靠人工完成。这种方式效率低,成本高,严重影响了计算 机考试系统在高校中普及和应用。 针对上述问题,本文设计了一个面向大学课程的题库扩展引擎来自动地 从互联网中寻找到相关科目的试题信息,并将其采集下来充实到本地的题库 中。根据互联网上的试题分布特点,设计了一种结合元搜素技术和网络爬虫 技术的试题采集方案,从互联网中采集试题。运用模板方法将试题信息从网 页提出来。根据试题的结构特征提出了一种基于规则的试题识别方法,将试 题从采集到文档中识别出来。使用基于s v m 的文本分类算法对试题进行知 识点预测。根据试题的具体特点,采用字符串编辑解决重复试题的检测问题。 本文对面向大学课程的题库扩展引擎进行了系统实现,并通过对数据 结构科目进行试题采集测试来验证系统的性能,测试结果表明该系统能够 在4 4 分钟内采集到1 0 6 2 道有效试题,并且保证了9 2 4 的试题识别精确率 和8 3 5 的知识点分类精确率。总体上试题采集的精确率为7 7 7 。 关键词:计算机考试系统题库自动采集 西南科技大学硕士研究生学位论文第1 i 页 a b s t r a c t c o m p u t e rt e s ts y s t e mh a sb e e nw i d e l yu s e di nv a r i o u se x a m i n a t i o n sf o ri t s c o n v e n i e n t ,s a f e ,e f f i c i e n t i no r d e rt oi n c r e a s et h ee f f i c i e n c yo fe x a m i n a t i o n s w i t hl a r g e s c a l eu n i v e r s i t yc o u r s ee x a m i n a t i o na n dn u m b e r so fp a r t i c i p a n t s ,s o m e c o l l e g e e x a m i n a t i o n s y s t e m w a si n t r o d u c e df o rc o u r s et e s t h o w e v e r ,t h e c o l l e c t i o n so ft h ei t e mb a n ko ft h ee x a m i n a t i o ns y s t e mal o n gt i m em a i n l yr e l y o na r t i f i c i a lt oc o m p l e t e i nt h i sw a y , l o we f f i c i e n c y , h i g hc o s t ,a n dh a sas e r i o u s i n f l u e n c eo nt h ep o p u l a r i z a t i o na n da p p l i c a t i o no fc o m p u t e re x a m i n a t i o ns y s t e m i nu n i v e r s i t y a d d r e s st h e s ei s s u e s ,a ni t e mb a n ki t e mb a n ke x t e n d e de n g i n ef o ru n i v e r s i t y c o u r s et os e a r c hr e l a t e ds u b je c t sq u e s t i o n sf r o mt h ei n t e r n e t ,a n dc o l l e c ti ti n t o t h el o c a li t e mb a n kw h i c hh a sb e e nd e s i g n e db yt h i sp a p e r a c c o r d i n gt ot h e d i s t r i b u t i o nf e a t u r e so ft h e q u e s t i o n so nt h ei n t e r n e t ,aq u e s t i o nc o l l e c t i o n s c h e m ew i t ht h ec o m b i n a t i o no fm e t a s e a r c ht e c h n o l o g ya n dw e bc r a w l e r t e c h n o l o g yt os e a r c ht h ei n f o r m a t i o nh a v ea l s ob e e ni m p l e m e n t e di nt h i st h e s i s b yu s i n gt h et e m p l a t em e t h o d ,t h et e s ti n f o r m a t i o nc a nb ee x t r a c t e df r o mt h e w e bp a g e t h ep a p e rp r e s e n t e dar e c o g n i t i o nm e t h o db a s e do nr u l e s w i t ht h i s m e t h o dq u e s t i o n sc a nb e a c c u r a t e l ye x t r a c t e df r o md o c u m e n t s u s i n gt e x t c l a s s i f i c a t i o na l g o r i t h mb a s e do ns v mi st op r e d i c ta c c u r a t e l yo ft h ek n o w l e d g e w h a t sm o r e ,t h ep a p e ru s e de d i td i s t a n c et os o l v et h ed e t e c t i o no fr e p e a t e d q u e s t i o n si na c c o r d a n c ew i t hs p e c i f i cf e a t u r eo fi t e m s t h i sp a p e rc a r r i e so u tt h ei t e mb a n ke x t e n d e de n g i n es y s t e ma i m e da t c o l l e g ec o u r s e s ,a n dv e r i f i e dt h ep e r f o r m a n c eb yac o l l e c t i o nt e s to nc o u r s eo f d a t as t r u c t u r e s t e s tr e s u l t ss h o w st h a tt h es y s t e mc a nc o l l e c t10 6 2i t e m sw i t h i n 4 4m i n u t e s a n dh a v ec o l l e c t i o np r e c i s i o nr e a c h e s9 2 4 a n dc l a s s i f i c a t i o n p r e c i s i o nr e a c h e s8 3 5 i ng e n e r a l ,t h ea c c u r a c yo ft h ec o l l e c t i o ni s7 7 7 k e y w o r d s :c o m p u t e rt e s ts y s t e m ;i t e mb a n k ;a u t oc o l l e c t i o n 西南科技大学硕士研究生学位论文第1 页 1 绪论 1 1研究背景 在w e b 2 0 时代,互联网和计算机技术的应用,使社会生活的各个领域都 发生了巨大变化。在教育教学领域,各种教育信息化建设也在不断推进中。 一大批与教育教学相关的信息化系统被开发出来,如:在线学习系统、网上 课堂、教务管理系统、计算机多媒体教学系统。这些系统的应用有效地提高 了教学效率,促进了传统教学形式的改革。在教育评价方面,其主要的评测 手段考试,也开始使用计算机考试系统取代传统的纸质试卷考试n 1 。 运用计算机考试系统进行考试,不仅能够节约纸张、电力、等物质资源 的消耗,而且也能减少考场安排、组织监考、以及试卷批改等人力资源的投 入。在线考试系统还可以跨越地理的限制,实现异地同步考试。计算机考试 系统运用题库和自动组卷策略取代教师人工出卷的方式,使得考试的安全性 得到了提升n 1 。计算机考试系统能够适应各种大型的考试需求,一大批成熟 的考试系统被开发出来,应用于各种技能水平的评测中。大学的课程考试规 模大,参加学生多,为了降低考试的成本,一些高校开始把计算机考试系统 应用于大学的课程考试。 题库是考试系统应用的基础,题库试题的录入一般是通过组织有经验教 师进行手工编制完成的阻1 。依据教育资源建设技术规范和教育测量理论 的要求,题库试题的录入不能简单将试题收集存储起来,还应按照相应的规 范对其进行细化地分类整理心3 。题库中的试题是海量的,其一门科目应维持 数百道的试题规模乜引,才能保证考试系统的正常运行。为了防止试题曝光 率过高,或为了适应教材和考试要求的变化,还必须对题库中试题进行更新。 这就使得传统手工录入试题的方式已经无法满足考试系统发展的要求。 在信息化高度发达的今天,互联网已经发展成了一个巨大资源库,而且 这个资源库的规模仍在不断的增长。各个学校和教育机构也已经建立了大量 信息化教育资源放置于互联网中供学习者使用。这些网络教育资源中不仅有 电子课件、电子书籍,也包含了大量的试题,特别是一些专业的考试网站已 经建立起了一批网上试题资源库。“国家精品课程申报要求”对各个学校正在 积极建设的精品课程工程进行了相关规范,规定在其课程网站上必须提供课 程的练习题。但是这些试题资源分散在互联网上,资源利用率很低。这就使 得耗费大量教师精力编制的试题不能获得充分的利用。 西南科技大学硕士研究生学位论文第2 页 论文设计了一个面向大学课程题库的扩展引擎,以智能的方式自动采集 和整合互联网中各种试题资源来扩充题库,这样不仅解决人工编辑劳动量大, 速度慢的问题,也使得现有的资源得到了充分利用,促进了考试系统在高校 中的普及和应用。 1 2 研究现状 1 2 1 计算机考试系统和题库建设的研究现状 计算机考试系统的应用改变了传统考试完全由手工操作的面貌,使得考 试能以自动化的方式进行n 1 。计算机考试系统的试卷由组卷算法产生,大大 降低了考前泄题的风险。题库的运用也使得考试系统相对于传统的方式有着 更加稳定的评测性能。目前计算机考试系统已经成为一种大规模教育测量的 标准方法。计算机考试系统在上个世纪末已经开始了应用。“托福考试已经 采用了i b t 和c b t 考试系统对国际学生的英语能力进行标准化测试。同为 美国考试服务中心管理下g r e 和“托业”考试也使用相应的考试系统对考 生进行评测。在国内“计算机等级考试的考试系统已经对数十万大学生进 行了计算机能力的考察。除教育机构外,各种行业资格认证考试也开始采用 了计算机考试系统,例如:s u n 、微软和思科的工程师认证考试已经全部或部 分地采用了机考的形式。驾驶员考试的理论部分已经实现了计算机化。此外 联想、爱立信、阿里巴巴等公司也采用计算机考试系统来评估应聘人员的 职业技能。西南科技大学已计划将所有的公共课采用计算机系统进行考核。 早期的计算机考试系统使用试卷库来存贮编辑好的试卷,进行考试时从 中抽取一份提供给被测试者。现代大多数考试系统则利用各种自动组卷策略, 从题库中抽取一部分试题组合成试卷供考生作答。组卷算法的性能直接影响 了考试的评测效果h 。组卷策略生成的试卷必须能够准确的衡量考生的知识 或能力水平,能通过成绩区分出不同水平的考生。随机算法是较早使用的组 卷策略,通过在各个知识点下等概率的抽取试题来组成试卷,这种算法由于 没有考虑到试题本身的性能,目前已较少应用。一些学者将人工智能的方法 引入到组卷策略中,这些算法将组卷看成一个搜索寻优的过程。如基于遗传 算法的组卷策略阳7 8 3 和基于粒子群算法的组卷策略阳1 ,这些方法建立在经典 地教育评测理论基础上,在实践中取得较好的效果。近些年来,基于项目反 应理论的组卷策略开始出现在考试系统中n 肛1 4 1 。这种方法依据考生对试题的 反馈,通过i r t 模型估算出考生的能力,从而确定下一道试题的难度,通过 西南科技大学硕士研究生学位论文第3 页 不断重复这个过程从而精确的计算出考生的水平。使用这种组卷策略的考试 系统,参加同一次的考试的考生将作答不同试题组成的试卷。通过等值方法 将计算出考生的能力量化到同一个标准上,将这个标准上的值作为考生的成 绩。相对于传统的组卷策略,这种组卷策略在安全性、测量的精确度,和区 分能力上都有着无可比拟的优势。 题库是考试系统应用的基础,其质量的好坏直接影响着考试系统的评 价效果。题库是为了便于构建新的试卷而建立的存储试题的集合心1 。题库在 很早的时候就已经开始使用了,早期的题库使用卡片记录和管理试题,而现 代意义上的题库是指为计算机考试系统服务的试题存储系统。国外题库的研 究和应用已经达到了很成熟的阶段,建立了许多大型的题库。国内题库的建 设和应用则相对滞后n 朝这主要集中在: ( 1 ) 题库规模小 除教育部构建大型考试系统的题库外,各高校建立的题库不仅科目不完 整,试题数量也难于达到考试系统的要求。 ( 2 ) 缺乏组织和管理 许多高校和单位建立的试题库,只是简单的将试题收录入题库,没有对 这些试题进行进一步的分类和整理。这就使得组卷算法生成的试卷的质量大 为下降。给考后的统计评估造成了极大困难。 1 2 2 爬虫技术研究现状 网络爬虫是一段计算机程序,能够自主的访问互联网,并在访问网页时 采集相应的数据n 引。网络爬虫广泛应用于舆情预警、垂直检索和互联网分析 的数据收集部分n 引。世界上第一个爬虫是由m i t 的m a t t h e wg r a y 在1 9 9 3 年 开发出来的,但是这个爬虫没有被公开发布n “。1 9 9 4 年b r i a np i n k e r t o n 开发 出的w e b c r a w l e r t ”,提供w e b 搜索服务,使其成为第一个公开应用的网络爬虫。 网络爬虫按其用途可分为通用爬虫和主题爬虫瞳们口川,通用爬虫针对整 个互联网进行爬取,主要应用于“百度”、“谷歌”、“必应”等大型全网搜索 引擎中。主题爬虫的概念最早由m e n c z e 提出心幻心3 | 。它是针对某个领域的信 息进行收集的程序,这个程序只收集与预定义的主题相关的信息而忽略其它, 所以主题爬虫不需要遍历整个互联网,而仅搜寻它的一个子集。主题爬虫常 被用来为一些应用和研究提供信息采集服务,比如,数据挖掘,垂直检索和 个性化信息服务等。 目前主题爬虫的研究主要集中以下两个方面心引: 西南科技大学硕士研究生学位论文第4 页 ( 1 )主题的描述和确定 主题爬虫是为收集某个特定领域或主题的信息而设计的。主题信息的描 述方式直接影响着爬虫信息采集的精确性。d e b r a 陷副在其设计的f i s hs e a r c h 爬 虫中使用了布尔模型乜6 1 表达主题信息。s a l o n 提出的v s m 凹73 模型有着比布尔 模型更加有效表达能力,在主题爬虫中该模型被广泛的使用。m e e r s m a n 硷8 3 提 出了基于本体的主题基准模型,将语义信息引入到了主题的表达方式中。 ( 2 )搜索策略 主题爬虫的搜索策略必须保证爬虫只在相关领域的范围内进行访问,防 止和减少访问不相关的网页。具体来说,就是如何从当前页面找到与主题相 关的u r l ,将这些u r l 保存到爬取队列中,作为下次爬取的对象,从而使爬取尽 量集中在主题的范围内,减少无效的爬取。d e b r a 提出的f i s h s e a r c h 算法乜朝 和h e r s o v i c i 提出的s h a r k s e a r h e r 乜朝利网页内容相关性构建主题爬虫的搜索策 略。而一些其它的主题搜索策略利用了网络拓扑结构来实现。p a g er a n k 阳们阳 通过入链的丰富程度来评测链接和主题的相关性。h i t s 算法综合了网页出度 和入度来决定爬取的顺序。随着文本挖掘的研究深入,一些学者提出了利用 文本分类器来对链接进行相关性预测,从而决定链接的优先级凹2 q 引,这种方 法在试验上取得了不错的效果。目前爬虫搜索策略的研究集中于改进链接预 测的准确性上瞳引。 1 2 3 信息抽取研究现状 信息抽取技术在2 0 世纪6 0 年代已经出现在自然语言处理技术研究中6 i , 到8 0 年代随着互联网的快速发展,产生了对海量文本进行挖掘和处理的需求, 促进了该领域的研究和应用。 1 9 8 7 年到1 9 9 8 年的七次的消息理解会议( m u c ) 对信息抽取方面的研 究进行了持续的关注,该系列会议制定并完善了信息抽取领域的评测体系, 使得信息抽取逐步成为自然语言处理研究中一个独立的分支铂口引。目前国外 信息抽取技术的研究已经达到相当成熟的阶段,主要集中于探索深层次理解 技术、篇章分析技术、多语言文本的处理能力上。国内的研究则相对滞后, 还停留在命名实体的识别上,国立台湾大学( n a t i o n a lt a i w a nu n i v e r s i t v ) 和 新加坡肯特岗数字实验室参加了m u c 一7 中文命名实体识别任务的评测,在 人名和地名的识别上取得了和英文系统接近的性能阳胡口9 f 。i n t e l 中国研究中心 开发出了一个中文命名实体和实体关系的抽取系统,并在a c l 2 0 0 0 上进行 了演示h 州。北京大学计算语言研究所参与了“中文信息提取技术研究”的国 西南科技大学硕士研究生学位论文第5 页 家自然科学基金项目,在中文信息抽取方面做一些基础性的研究工作h 叫 经过数十年的发展,互联网规模不断扩大,存在于互联网上面的文档已 经非常丰富了。庞大的互联网使得人们已经很难通过传统的全文检索的方式 获取自己想要的信息。为了更加有效的利用互联网,相关学者开始把注意力 转移到对w e b 信息抽取的研究上来。互联网上的网页结构缺乏统一的规范, 更新频率也较高。传统的针对自由文本的抽取方式难于应用到w e b 信息的抽 取上。w 曲信息抽取要应对海量数据规模和形式复杂的半结构化数据的挑战。 这就要求w e b 信息抽取的研究方法和自由文本有所不同。充分利用d o m 树 半结构特性是w e b 抽取方式共有特点。目前w e b 信息抽取已经成为互联网应 用和研究的一个重要的方向。 1 3 论文的主要工作 论文在对高校题库建设进行充分调研的基础上,围绕大学课程考试对试 题的实际需求,主要进行了下列工作: ( 1 ) 依据高校考试系统对试题实际需要,提出了面向大学课程的题库扩 展引擎的设计方案。 ( 2 ) 依据网络爬虫的原理,结合元搜索技术和对h e r i t r i x 开源爬虫的改 造,完成了试题采集模块的设计和实现。 ( 3 ) 设计了基于规则的试卷识别方式,利用试卷文本的结构信息对试卷 进行识别切分。 ( 4 ) 应用文本分类技术解决试题的知识点预测的问题,并建立了一个数 据结构科目的语料库用于评测系统。 ( 5 ) 实现了面向大学课程的题库扩展引擎,提供了一种自动化的题库试 题录入方式,该系统能够有效的降低题库的维护成本。 1 4 论文的组织结构 第一章阐述了论文的研究背景,分析了计算机考试系统应用状况和发 展瓶颈,论述题库扩展引擎设计的必要性。对爬虫技术和信息抽取技术的研 究现状作了总结。在以上基础上说明了论文研究内容和组织结构。 第二章介绍系统的整体方案,技术路线和设计思路,对系统的结构设 计和数据设计进行了相关的说明。 西南科技大学硕士研究生学位论文第6 页 第三章阐述了试题采集模块设计方案,根据主题爬虫技术的原理,设 计了一种结合元搜索爬虫和定制爬虫的试题采集方案。并对两种爬虫的具体 实现进行了介绍。 第四章在分析基于自动机的试题识别算法的基础上,提出了一种基于 规则的选择题识别算法。 第五章对试题分类模块设计原理和实现方案进行了介绍。给出了相关 的方案选择的实验数据。 第六章介绍了试题去重功能的必要性,阐述了重复试题认定依据,针 对试题的去重的特点给出了具体解决方案。 第七章介绍了面向大学课程的题库扩展引擎的实现技术,展示了系统 的用户界面,通过系统进行了性能测试证明了系统的有效性。 西南科技大学硕士研究生学位论文第7 页 2 系统设计 2 1设计意义 课程学习是高等教育教学中的重要环节,特别是公共课,专业基础课, 这些课程反应了我国对高等院校在校生的综合素质和专业技能的基本要求。 为了考察学生对这些知识和技能的掌握程度,通常需要对这些课程进行考试 评测。考试作为对学生知识和技能水平的一种标准化测量方法,能对学生学 习效果做出精确评价和分析,帮助学生找出学业中的薄弱环节,提供学业预 警,起到督促学习的作用。考试成绩也是一种教学效果的反馈,能够帮助教 师了解学生对知识的掌握情况,以便教学计划进行调整。 组织考试是一项非常复杂的工作,试卷的编写、考场的编排、组织教师 进行监考和试卷批改,不仅需要周密布置,而且需要投入大量的教学资源才 能完成。最近十几年由于高校扩招以及学校自身发展的原因,高校规模不断 扩大,在校生逐年增多,使得课程考试成本越来越高。计算机考试系统是一 种高效、低成本的考试方法,能够自动完成组卷、评测功能。运用计算机考 试代替传统考试,能够有效降低考试的人力物力投入。特别是计算机自适应 考试系统的出现,使得同一场考试能在不同的地点和时间内进行。目前计算 机考试系统在各种资格认证考试中获得了广泛的应用。为了缓解学生人数对 组织考试对高校教育资源的压力,一些高校开始将考试系统应用于对学生课 程学习成果的考核。 相对其它学历教育阶段的学校而言,高校有着更好师资条件,拥有大量 实验机房。许多高校建设有针对远程教育的入学考试系统。这就使得计算机 考试系统在课程考试中的应用具备了基本的条件。大学课程的课程种类繁多, 收集这些课程的试题,是一件十分棘手的工作。利用计算机考试系统进行大 学课程考试,必须首先解决考试系统的试题来源问题。论文通过对西南科技 大学信息中心从事题库维护的教师进行调查发现,目前高校题库试题通常有 两种获取方式: ( 1 ) 组织教师编写:这种方式通常运用于纸质试卷考试,试题的质量由 编写试题的教师的知识水平决定,由于这种方式极其低效,难以适应计算机 系统对海量试题需要。 ( 2 ) 手工收集互联网资源:负责题库维护的教师,通过检索互联网,从 网上搜集试题。这种方式相对组织教师手工编写试题来说效率较高,但是需 西南科技大学硕士研究生学位论文第8 页 要进行检索,下载,整理各个科目的试题,手工劳动量依然很大。 为了解决目前试题获取方式难于满足大学考试系统需要的问题。论文设 计一种面向大学课程的题库扩展引擎,自动化完成相关考试科目试题的采集, 整理,补充入库的工作。这对于加快考试系统在高校的普及,促进高校的信 息化工作的开展,有着巨大的推动作用。 2 2 设计目标 计算机考试系统应用于大学的课程考试,能够有效地降低考试的成本, 提高考试的效率。但是手工录入试题速度慢,代价高,限制了计算机考试系 统在大学课程考试中的普及和应用。论文设计了一个面向大学课程的题库扩 展引擎,该系统能自动收集相关课程的试题,从而解决试题获取困难的问题。 为了达到上述目标,本文对面向大学课程的题库扩展引擎提出了以下要求。 ( 1 ) 题库扩展的自动化:以往手工获取的方式,往往需要教师投入大量 的精力去编写和整理试题,严重干扰了教师正常的教学工作。因此题库扩展 引擎应尽量减少系统的人工干预。实现试题信息采集、试题识别、试题分类 的完全自动化。 ( 2 ) 实现试题的分类整理:面向大学课程的题库扩展引擎必须能够将采 集后的试题按照科目和知识点进行分类整理,使之能够满足各种组卷的要求。 ( 3 ) 实时性:手工编辑和获取试题的效率低下,无法满足题库试题快速 补充和更新的需要。题库扩展引擎应该能较短时间内完成海量试题的采集、 识别、分类等工作。保证题库对试题的需求能够得到快速的响应。 2 3设计思路 面向大学课程题库扩展引擎通过利用互联网中的开放资源来解决题库试 题录入的问题。使用网络爬虫将互联网中试题信息采集到本地,对这些信息 进行信息抽取从而抽取出试题。使用文本分类技术对抽取出的试题进行知识 点预测,使之能够符合考试系统对试题的实际需求。通过上述方案的实现提 供一个便捷有效的试题获取方法,实现题库试题获取的自动化。 西南科技大学硕士研究生学位论文第9 页 2 4 架构设计 图2 - 1功能模块结构图 fig u r e2 1 f u n c tio nm d uies t r u c t u r eo fs y s t e m 面向大学课程的题库扩展引擎从结构上可以分为四个模块:试题采集模 块、试题识别模块、试题分类模块和重复试题检测模块( 图2 1 ) 。试题采集 模块主要用来实现互联网中试题信息的自动采集。试题识别模块负责对采集 后试题文档进行试题识别,并将识别出的试题抽取出来。试题分类模块用来 对系统识别出的试题进行知识点预测。重复检测模块负责检测系统获取到的 试题是否存在重复,如果存在有重复的试题,就将重复的部分剔除出去( 工 作流程见图2 2 ) 。下面对各模块的功能进行分别叙述。 ( 1 ) 试题采集模块: 试题采集模块的主要功能是,从互联网中自动搜寻试题信息,并将这些 信息抽取出来保存到本地的磁盘中。试题采集模块要从庞大互联网中找到包 含试题的网页,并且在这个过程中尽量地少地访问与试题信息无关的网页, 保证整个试题采集过程能在尽量短的时间内完成。这就要求负责试题采集的 爬虫有着良好地爬取策略。试题爬虫还必须把试题信息从各种结构各异的网 页中精确地抽取出来,以便试题识别的过程能在较理想的境况下进行。 西南科技大学硕士研究生学位论文第10 页 图2 - 2题库扩展引擎流程图 f i g u r e2 - 2 w o r k f i o wc h a r to f i t e mb a n ke x p a n d i n ge n g in e ( 2 ) 试题识别模块: 题库的组织和管理以试题为基本单位,采集后的试题文档还必须对其识 别切分,将试题抽取出来。通过对大部分高校采用的考试系统进行调研,同 时参考西南科技大学考试的建设的要求( 论文设计的系统是西南科技大学网 络信息中心考试系统建设的一部分) 。确定试题识别模块的主要任务是识别选 择题。由于试卷文档在互联网存贮方式不一致,试题识别模块还必须将试 题采集模块采集到试卷文档进行统一的格式转化和数据清洗,以保证试题识 别的精确率。 ( 3 ) 试题分类模块 题库中的试题应具有良好的组织结构。为了方便试题库的组织和管理和 适应考试系统的组卷策略的需要,必须对采集过后的试题进行知识点分类。 试题分类模块通过使用文本分类技术对知识点类别进行预测。 ( 4 ) 重复检测模块 题库中出现重复试题会严重影响考试的评测精度和信度。对采集后试题 应当检测其重复性,避免重复的试题进入题库。 西南科技大学硕士研究生学位论文第1 1 页 2 5 数据库设计 面向大学的题库扩展引擎的数据库使用了试题表、知识点表、科目表, 采集网站表、试卷表、以及它们之间的关联表来维护和存储相关信息。各表 之间的关系如所图2 3 所示。一道试题可以对应多个特征词,一个特征词也 可以在多道试题中出现,所以特征词表和试题表形成多对多关联。一个知识 点对应多道试题,一道试题只属于一个知识点,知识点表和试题表的关系为 一对多,同理科目表和知识点表,采集科目和采集网站表、采集网站表和采 集文档表的关系也为一对多。数据库管理系统使用m y s q l5 1 ,数据库调用使 用j d b c 技术。下面给出了对各个表的描述。 ( 1 ) 特征词表 f q t 幻_ 1 w 滚鋈黉麓羹镶瀛滚麓麓谣鬻蔷蓄 辫辆露 。z 螂2 r 一一一峨一曲泗。4 2 霉; j 澄豢爨 j 雾4 强:搿慧熬垂鬻蓦蓦io 戮l 甏麓麓舞蕊嚣鼗鹾麓塞冀蠢蕊蠢i i l l 毒i 鬣鬻霹瀑i 溱瓣誊鬻麓 | 一蛳蹦f 自e j t v 粮删2 e s l j 础u v 嘏c m 2 主晕 j 鲫括与“v 豫。峨蕊 k 蜢l 您茁tv r 讲粮 强; l 舀蝴啦量龃畦i 鼹啦 尊一”毪嚣眷锻。i i 誊嚣”i ? 麓馨1 | 5 罐麓瀛蠢i 囊萎蠹誊塞囊塞囊墼毒i 藿羞鬻嚣 图2 - 3 题库扩展引擎数据设计图 d a t a b a s ed e s i g no fi t e mb a n ke x p a n d in ge n g ir e 表2 - 1特征词表w o r d t a b i e2 1t a b i eo fw o r d 西南科技大学硕士研究生学位论文第12 页 特征词表( 表2 1 ) 用来维护特征词的相关信息。在进行分类试题时候, 需要把试题转化为由特征词组成的向量。在特征词表中,w o r di d 为特征词 的i d 属性表,w o r d n a m e 为特征词的名称,该属性与i d 属性一样保持唯一 性约束。w o r dd f 为特征词的d f 值,该值在训练的时被赋予。 ( 2 ) 试题表 表2 - 2 试题表( q u e s t ) t a b i e2 - 2t a b i eo fq u e s t i o n s 试题表( 表2 - 2 ) 用来维护的试题相关信息,q u e s s t e m 为试题的题干, q u e s o p t i o n s 为选择题的选项部分,q u k p i d 标识试题的知识点与 k n o w l e d g e p o i n t ( 知识点表) 的k n p o _ i d 相关联。 ( 3 ) 特征词一试题关联表 表2 - 3 r e _ w o r d q u e s t 表 t a bie2 - 3 r e w o r d q u e s t i n t ( 4 )i n t ( 6 ) 表2 3 作为特征词表和试题表的关联表,实现了特征词和试题的多对多 关系。 ( 4 ) 知识点表 表2 - 4k n o w i e d g e p o i n t 知识点表 t a bi e2 - 4 t a b i eo fk n o w i e d g ep o i n t 西南科技大学硕士研究生学位论文第13 页 知识点表( 表2 4 ) 用来对试题知识点信息进行维护,k n p o i d 为知识点 i d k n p o _ n a m e 为知识点名称,s u b j i d 和s u j e c t 的表的s u s i i d 形成外键关联。 ( 5 ) 采集科目表 采集科目表( 表2 5 ) 用来维护采集科目的相关信息。s u b j i d 是科目表 的主键,s u b j _ n a m e 为科目名称,s u b j c l a s s f i e r 为存储分类器地址。 表2 - 5采集科目表( s u b j e c t ) t a bi e2 - 5 t a b i eo fc o i | e c t e ds u b j e c t s s u b i i d s u b in a m e s u b j c l a s s f i e rs u s i i d i n t ( 4 ) v a r c h a r ( 2 5 5 )v a r c h a r ( 4 5 )i n t ( 4 ) 科目i d 科目名称分类器地址关联知识点 ( 6 ) 定制网站表 表2 6 定制网站表( s i t e ) s i t e i ds i t e n a m es i t e u r ls i t e f i l t e r r e g e x s i t e e x t r a c t 定制网站表( 2 - 6 ) 用来维护定制爬虫部分爬取的网站的相关信息,s i t e i d 为网站的i d 属性,用来标识一个定制网站。s i t e u r l 是一个定制网站的种子 地址。s i t e f i l e r r e g e x 是对定制网站爬取范围进行限制的正则表达式, s i t e e x t r a c t 为该网站的对应的抽取模板。 ( 7 ) 采集文档表 表2 - 7 采集文档表( p a p e r ) t a b l e2 7t a b l eo fc u s t o m i z e dw e b p a p e i dp a p e s r cp a p e _ c r a w l _ t i m e p a s i i d i n t ( 4 )v a r c h a r ( 2 5 5 )v a r c h a r ( 2 5 5 ) v a c h a r ( 2 5 5 ) 试卷文档i d试卷文档地址爬取时间所属网站i d 采集文档表( 表2 - 7 ) 用来维护采集到本地文档信息。p a p e s r c 为文档 西南科技大学硕士研究生学位论文第14 页 的保存地址。p a p e _ c r a w l _ t i m e 为文档的采集时间,p a s i i d 表示文档的来源 网站。 2 6 本章小结 本章内容介绍了面向大学题库扩展引擎的设计意义,对题库扩展引擎的 设计原理和设计思路进行了相关的论述。阐述了面向大学课程的题库扩展引 擎的设计框架,并对系统的数据库设计方案进行了论述。 西南科技大学硕士研究生学位论文第15 页 3 试题采集模块设计 试题采集模块要从规模庞大的互联网中,搜寻到试题信息并将其抽取出 来。从功能上看试题采集的任务,可以通过网络爬虫来实现。为了完成试题 采集模块的设计,就必须了解网络爬虫的相关概念。 3 1 网络爬虫技术概述 网络爬虫最早用于为搜索引擎收集网页,它利用网络超链接所形成的图结构 来遍历互联网,在访问网页的同时进行相关资源的采集。一个爬虫能在短时 间内收集大量网页并保存到本地,也能够监视到互联网上网页的更新和改变, 从而保证采集到最新最全的信息。用户可以通过检索爬虫爬取到本地的资源 代替了访问互联网,这就使得相关网站的压力大大减轻。随着对互联网研究 的深入,爬虫也开始为互联网挖掘,互联网分析等其它应用与研究提供数据 采集服务。 图3 1爬虫流程图 w o r k f i o wo fw e bc r a w l e rf i o w 占 西南科技大学硕士研究生学位论文第16 页 如图3 1 所示,网络爬虫开始运行时,会将种子地址( u r l ) 作为爬虫访 问互联网的入口,将这些地址加入待爬取队列中,在爬取的时候会把这些u r l 从待爬取队列中依次取出,并访问其对应的网页、采集资源。爬虫访问一个 网页时,会从这个网页中解析出其包含的u r l 。如果这些u r l 没有被访问过, 或是已经被访问但是该网页已经进行了更新,就将这些u r l 地址加入到待爬 取队列当中。爬虫通过不断的取出爬取队列中u r l 进行访问,并加入满足条 件的新的u r l ,完成对互联网的遍历,当待爬取队列为空时结束爬取。 3 1 1爬虫的搜索策略 网络爬虫要面对互联网不断扩大的规模和高频率更新速度的挑战,爬虫 必须及时对最新的网页内容进行爬取。采用好的爬取策略是解决这个问题方 法之一,通用爬虫一般采用传基于图搜索的搜索策略,常用的有深度优先和 广度优先两种搜索方法h h2 | 。 通用爬虫一般把整个互联网作为要爬取对象,其必须面对海量规模数据 的采集和分析的挑战,这就对爬虫运行的硬件条件做出了苛刻要求。除了 g o o g l e ,b i n g 等大型搜索引擎外,其它数据采集应用都没有获取全网数据的 需求,这些应用往往局限在一定主题或者领域内。房屋信息垂直搜索引擎只 对和房屋出租有关的信息有需求。机票查询系统只需求和票务有关的信息。 舆情监控系统感兴趣的则是和公共服务和政治类话题相关的信息。在互联网 的规模爆炸性发展的今天,数据规模呈现指数级增长,使用通用爬虫从整个 互联网中搜集某个领域信息成本太高,使得这种方案不具有实施性。 3 2 主题爬虫技术概述 主题爬虫( 聚焦爬虫) 是指从互联网中寻找与特定主题相关信息的计算 机程序。主题爬虫并不需要访问和收集所有网页,它仅仅需要对互联网中与 特定主题相关的网页所构成的互联网子集进行访问。相对于通用爬虫,主题 爬虫有着更高的效率,它能在较短时间内收集到和主题相关的数据。 从结构上看主题爬虫继承了通用爬虫的基本结构( 如图3 2 ) ,在页面分 析阶段主题爬虫通过一个主题相关判断器来判断该页面是否和主题相关,如 果判定为否,就放弃下载这个网页。链接评价器也是一个主题爬虫的特殊组 件,它是用来控制主题爬虫的爬取范围。一个和主题相关的网页中会包含若 干超链接,这些超链接指向的网页不一定都和主题相关。这就需要一个链接 西南科技大学硕士研究生学位论文第17 页 判断器来对这些链接地址进行相关性预测。相关性较高的链接地址将会被优 先爬取,相关性较低将会推迟或放弃爬取。 图3 - 2主题爬虫流程 fig u r e3 - 2w o r k flo wo ft o p i cc r a w l e r 3 2 1主题爬虫的爬取策略 主题爬虫的爬取策略也是利用网页之间的超链接形成的有向图进行访问 的。与通用爬虫的爬取策略相比,主题爬虫除了要保证爬取的速度外,还必 须保证爬取的页面与主题相关,在爬取的过程中不会因爬取过多与主题不相 干网页而产生主题漂移现象。一般来讲主题爬虫的爬取策略有基于内容的评 价方式和基于链接结构的评价方式两种。基于链接结构的爬取策略,没有考 虑到网页的内容含义,容易使爬虫脱离主题相关的范围,而且这些算法一般 计算量比较大。基于内容评价的爬取策略,仅仅通过其相邻网页的相关性决 定爬取的方向,容易陷入局部最优。 占 西南科技大学硕士研究生学位论文 第18 页 3 3 试题采集模块的解决方案 3 3 1试题采集模块设计思路 相对于其它资源来说,大学课程的试题信息在网上分布比较不规则,除 了大型的考试网站有集中分布外。许多高校和个人也在互联网上提供了大量 的试题信息,这些资源存在于各种论坛、博客、和远程课程网站中,分布零 散不易对其进行整合利用。通常的主题爬虫解决方案难以对大学课程试题信 息进行有效的采集,根据这种情况论文对人工采集方式进行了调研,结合对 试题分布特点的分析来设计试题采集模块的方案。 通过对高校中从事题库维护的教师进行相关调研发现,组织相关教师进 行编辑试题的方法来补充题库代价较大,速度慢,该方法一般不会采用。目 前题库维护人员收集试题的方式一般有两种:一种是利用谷歌、百度、必应 等搜索引擎,通过关键字检索从搜索引擎返回的结果中寻找相关的试题资源。 另一种是在的权威考试网站中进行查找,如“考试大”,“考试吧”。如果采用 计算机程序对上述两种试题收集方式进行模拟。前一种方法可以依据元搜索 h 朝的原理构造爬虫来完成,即通过程序调用搜索引擎,从搜索结果中获取试 题。后一种方式可以通过采用基于定制的主题爬虫来实现,即通过对一些权 威网站进行深度的模板定制,来实现针对试题的主题爬取,精确地将试题信 息从网页中抽取出来。基于元搜索的试题采集方式,通过调用大型搜索引擎 搜索的结果来获取数据,所以能够获取到最新最全面的试题信息。但是搜索 引擎返回给用户的结果指向了来自不同网站的页面。这些网站采用了不同模 板和框架,结构各异,要把试题信息从这些网站的网页中抽取出来难度较大。 常见的搜索引擎都是为全文检索而设计的,很多试题信息因没有被正确的索 引而不会出现在搜索引擎返回的结果中。基于定制爬虫方案能够从相关网站 中获取大量试题资源,定制模板法能够准确抽取出各种格式化的试题资源。 但是由于制作模板的不仅需要较高的计算机水平,而且需要对定制网站进行 相关的调研。如果定制网站的数目太多,模板的制作也将成为一项繁重的工 作。另外许多试题资源在互联网中的分布较为不均衡,许多课程网站仅仅提 供了一两套可供采集的试卷。针对这些网站进行定制模板显然是低效的。 针对这两种试题采集方案的优缺点,本论文设计了一个将元搜索和定制 主题爬虫相结和的试题采集模块。元搜索爬虫负责调用搜索引擎,并从其检 索结果中获取试题信息文档。而定制爬虫则主要针对权威考试网站,运用模 板方法从这些网站中精确的抽取出格式化的试题信息。定制爬虫主要采集分 西南科技大学硕士研究生学位论文 第19 页 布较为集中的试题,元搜索爬虫则采集因为分布较为分散而不能被定制爬虫 爬取的试题信息。试题采集模块通过采用两种试题收集信息方式来收集试题, 克服了两种方式各自的缺点,提高了试题采集的覆盖率。试题采集模块的运 行流程如图3 3 图3 - 3试题采集模块原理图 fig u r e3 - 3f ig u r eo fm o d u ieo fq u e s tio nc oiie c tio np rin cipie 3 3 。2元搜索爬虫的设计 分布零散的试题信息,在其所在网站中占的比例很低,对这些试题资源 采用分别定制模板的方法进行采集显然是低效的。论文设计了一种基于元搜 索思想的网络爬虫,通过调用搜索引擎进行检索,将分布于各个站点的试题 资源
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玻璃纤维在农业机器人中的智能化应用研究-洞察及研究
- 瑞吉欧教育理念促进学前教育改革
- 新媒体内容运营方案及数据分析
- 可持续发展模式探讨-洞察及研究
- 教师备课技巧与高效课堂策略分享
- 古生态功能形态学-洞察及研究
- 建筑抹灰施工质量标准手册
- 房地产合同管理实务与法律风险
- 高三语文阶段性写作教学设计案例
- 零售行业顾客服务技巧提升
- 口腔门诊护士培训课件
- 高压用电安全培训课件
- 2025至2030中国高模量碳纤维行业产业运行态势及投资规划深度研究报告
- 轮机安全操作培训内容课件
- 2025年兰州市初中语文学业水平考试卷附答案解析
- 2026届安徽省江南十校化学高一第一学期期中考试模拟试题含解析
- 2025年沈阳市事业单位教师招聘考试教育心理学试题
- 民警法制培训课件
- 酒店行业员工绩效考核方案模板
- 个体防护知识培训课件
- 湖北省武汉市武珞路中学2023-2024学年八年级上学期期中考试物理试卷(含答案)
评论
0/150
提交评论