(教育技术学专业论文)面向远程教育的搜索引擎系统设计与实现.pdf_第1页
(教育技术学专业论文)面向远程教育的搜索引擎系统设计与实现.pdf_第2页
(教育技术学专业论文)面向远程教育的搜索引擎系统设计与实现.pdf_第3页
(教育技术学专业论文)面向远程教育的搜索引擎系统设计与实现.pdf_第4页
(教育技术学专业论文)面向远程教育的搜索引擎系统设计与实现.pdf_第5页
已阅读5页,还剩84页未读 继续免费阅读

(教育技术学专业论文)面向远程教育的搜索引擎系统设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 面向远程教育的垂直搜索引擎系统是远程教育资源获取的主要途径。在爬取 子系统中,通过对国内远程教育资源建设机制的分析,专用数据结构的设计,d n s 解析、统一编码等问题的解决,提出了基于地址段控制和c o n t e n tg r a p h 层分类控 制相结合的抓取机制,使抓取效率提高了3 6 1 ;在预处理和检索子系统中,通 过对l e x 技术的分析,设计了基于l e x 的网页内容提取器,提出了一种自适应字 长的扩展异或哈希算法,构建了行业专用词典,使冲突率减少至0 0 3 ,并依此 构建索引系统;最后通过对信息检索基础理论和检索模型的分析,提出面向远程 教育的检索模型,通过对服务接口实现完成搜索功能,为提高检索效率引入了 c a c h e 机制,使得8 0 的针对远程教育的检索为零耗时。实验表明,各子系统的 实施使垂直搜索引擎在满足查全率的前提下达到查准率要求,在系统应用中带来 了很好的效果。 关键词:远程教育搜索引擎信息检索 a b s t r a c t a b s t r a c t d i s t a n c ee d u c a t i o n - o r i e n t e ds e a r c he n g i n ei so n ew a yt ol o c a t ee - l e a r n i n gr e s o u r c e i n c r a w l i n gs t a g e ,t h i sp a p e rf i r s ta n a l y z e s t h ee d u c a t i o n a lr e s o u r c e sc o n s t r u c t i o n m e c h a n i s m ,a n dd e s i g n st h ep r i v a t ed a t as t n l c t u r e ,t h e ns o l v e st h ep r o b l e mo fd n s r e s o l u t i o n ,u n i f i e dc o d i n ga n ds oo n ac r a w l i n gm e c h a n i s mb a s e do na d d r e s ss e c t i o n c o n t r o la n dc o n t e n tg r a p hc o n t r o li sp r o p o s e d ,w h i c hm a k e st h ec r a w l i n ge f f i c i e n c y i n c r e a s e s b y3 6 1 ;i np r e p r o c e s sa n di n d e x i n g s t a g e ,t h r o u g ha n a l y s i so fl e x t e c h n o l o g y , t h i sp a p e rd e s i g n saw e bc o n t e n te x t r a c t o rb a s e do nl e x ,p r o p o s e sa w o r d - l e n g t ha d a p t i v e e x c l u s i v e - o rh a s h a l g o r i t h m ,c o n s t r u c t s t h ee d u c a t i o n a l d i c t i o n a r y , c a u s e st h ec o n f l i c tr a t er e d u c e dt o0 0 3 ,a n dd e p e n d so nt h i sc o n s t r u c t i n g t h ei n d e xs y s t e m ;f i n a l l y , o nt h eb a s eo fi n f o r m a t i o nr e t r i e v a lb a s i ct h e o r ya n d r e t r i e v a lm o d e la n a l y s i s ,t h i sp a p e rp r o p o s e sad i s t a n c ee d u c a t i o no r i e n t e di n f o r m a t i o n r e t r i e v a lm o d e l ,c o m p l e t e st h es e a r c ht h r o u g ht h eu s e ri n t e r f a c et or e t r i e v a ls u b s y s t e m , a n di n t r o d u c e st h ec a c h i n gs t r a t e g yf o re n h a n c et h er e t r i e v a le f f i c i e n c y , w h i c hc a u s e 8 0 s e a r c hi sz e r o - r e t r i e v a li nd i s t a n c ee d u c a t i o nf i e l d t h ee x p e r i m e n ti n d i c a t e st h a t t h ei m p l e m e n t a t i o no ft h es u b s y s t e m sm e e tt h ea c c u r a c yr a t er e q u e s tu n d e rt h er e c a l l r a t ea c h i e v e di nv e r t i c a ls e a r c he n g i n e s ,a p p l i c a t i o no ft h es y s t e mh a sb r o u g h tg o o d r e s u l t s k e y w o r d :d i s t a n c ee d u c a t i o n ,s e a r c he n g i n e ,i n f o r m a t i o nr e t r i e v a l 创新性声明 本人声明昕呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗歹0 的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或 其它敦育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均己在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处本人承担一切相关责任。 本人签名:盟同期型金! 关于论文使用授权的说明 本人完全丁解西安电子科技大学有关保留和使用学使论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表沦文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件允许查阅和借阅论文:学校可以公布论文的全 部或部分内容,可以子c 许采用影印、缩印或其它复制手段保存论文,( 保密的论文 在解密后遵守此规定) 本学位论文属于保密在年解密后适用本授权书。 名:五名夕同期 导师签名: v j i : 第一章绪论 第一章绪论 远程教育迅猛发展使终身教育成为必然,面向远程教育的信息检索系统将引 领人们更好的获取他们感兴趣的教学信息和教育资源。本章通过对远程教育的现 状和发展及搜索引擎系统的概述,说明了面向远程教育的垂直搜索引擎的重要性 和必然性,并分析了设计和实施系统的可行性。 1 1 远程教育与搜索引擎 近年来,主题搜索引擎的发展使得人们能够更好的定位到所需要的信息;随 着远程教育的规范化和标准化,面向远程教育的垂直搜索引擎也有不同程度的发 展。本节将对教育技术的研究概况、远程教育的发展现状和搜索引擎系统的行业 应用做简要介绍,通过对远程教育资源的描述标准的分析,提出面向远程教育的 垂直搜索引擎。 1 1 1 教育技术 教育技术,不同时期不同学者有着不同的认识和理解。广义的理解:教育技 术指的就是“教育中的技术”,是人类在教育活动中所采取的一切技术手段和方法 的总和;狭义的理解:教育技术指的是在解决教育、教学问题中所运用的媒体技 术和系统技术;现代教育技术:就是运用现代教育理论和现代信息技术,通过对 教与学的过程和资源的设计、开发、利用、管理和评价,以实现教学优化的理论 和实践1 1 2 1 【3 】【4 】。然而此领域影响最大的美国教育传播与技术协会( a s s o c i a t i o nf o r e d u c a t i o nc o m m u n i c a t i o n sa n dt e c h n o l o g y ,简写a e c t ) a e c t 2 0 0 5 的定义为:通过 创建、使用、管理适当的技术过程和资源,有利于学习和增加学习效率的学习方 法和理论。其实教育技术就是各种辅助手段和技术的融合使的学习者能更好的学 习和提高其学习自主性和兴趣的方法。 教育技术在人类社会生产力的不断发展中产生和发展,是以视听为主要技术 手段,加以先进的科技对其精华的支撑。其发展过程有如下阶段【5 j : ( 1 ) 成型期,f o r m a t i v ep e r i o d ,1 9 2 3 - 1 9 31 ( 2 ) 巩固阶段,c o n s o l i d a t i o np e r i o d ,19 3 2 - 1 9 4 5 ( 3 ) 战后发展阶段,p o s t w a rg r o w t hp e r i o d ,19 4 6 19 5 7 ( 4 ) 联邦支助繁荣期,f e d e r a la i db o o mp e r i o d ,1 9 5 8 - 1 9 7 0 ( 5 ) 独立并广泛传播阶段,i n d e p e n d e n c ea n dd i s p e r s i o np e r i o d ,1 9 7 1 1 9 8 2 ( 6 ) 计算机及应用细化阶段,c o m p u t e ri m p a c ta n dd o w n s i z i n gp e r i o d ,19 8 3 - 在国外,世界大战期间,美国战争部( t h ew a rd e p a r t m e n t ) 把电影等媒体技术 2 面向远程教育的搜索引擎系统设计与实现 作为政治宣传和军事培训的手段,导致了美国后来视听教育在学校系统中的应用, 如今,新型网络媒体技术在教育中的应用使得其在教育技术领域一直处于最前列。 我国教育技术的在2 0 世纪2 0 到4 0 年代基本形成并出现电化教育这一专有名词, 5 0 到9 0 年代得到深入的发展,9 0 年代后随着国外教育技术研究的逐步深入,和 美国a e c t l 9 9 4 定义的引入,到现在a e c t 2 0 0 5 的更新,使得教育技术工作者对 学科的定义、体系的的深入探讨取得了丰富的成果。 不同于大多人对现代教育技术的理解,事实上教育技术在早期教育的萌芽时 期就已经存在了,可追溯到把知识加以细化的原始社会,如图腾和象形文字的传 承及记录。随着人类文明的发展,以学校为中心的教师导学,通过语言及知识的 获得,以期待达到对社会和文化的改造的目标,并在学习和参加社会活动中积累 社会、文化经验等,并对获得的知识和经验验证和升华,将这种学习方式称为基 于建构主义的学习【6 】【7 】。 当代信息化技术的飞速发展,利用i n t e r n e t 的网络学习给学生提供了极具挑 战性的学习方式,因为通过w - e b 超文本的链接信息学习者就可以将放置于网络上 不同节点的知识获取到本地或者将自己的学习资料、认知信息发布到网络上供其 他人使用和参考。可见利用i n t e m e t ,可以增加挖掘问题的深度,扩大学习和解决 问题的广度;另外新技术的发展使的基于应用的协作学习成为现实滞j ,通过有效 组织兴趣小组和协作团队,使学习者在团队中进取,由于团队中不同文化背景, 学习方式和能力水平的人交流会提供不同层面的知识和解决问题的思想,从而可 以创造一个极具创造力和丰富思想的团队,协作学习的团队中的个体也将极大意 义上自我提升和学习。所以通过这种网络技术手段的交互可以达到一个新的应用 层次,提升和加强教育技术的内容。 而现在的教育技术学术前沿研究的课题已经不再局限于单一学科,而是很多 个学科交叉的知识体系的融合,技术的交叉运用共同支撑教育技术中新的教学体 系的完善和发展。从计算机网络和多媒体技术的发展,使得交互式网络多媒体网 络课件很好的吸引和引导使用者学习;到针对传统建构主义的学习模式提出的协 作学习,通过新的计算机辅助技术达到很好的解决协作学习的目的;再是新一代 e 1 e a r n i n g 系统的构建,除了遵循标准的资源描述规范外,如今游戏化、虚拟化学 习模式的应用又极大的丰富了教育技术的发展,这种学习方式将创新性、协作性、 娱乐性等揉为一体,极大程度的吸引和指导学习者,将自主学习、协作学习和研 究学习结合起来达到很好的学习和指导效果。 新的智能导学系统( i t s ,i n t e l l i g e n tt u t o r i n gs y s t e m ) ,智能导师系统和评价系 统,通过人工智能模拟人工导学,一定程度实现个别化教学,并通过反馈等提供 评估功能【9 】;数字化学习领域的技术也在发生极大的变化,如数字图书馆、泛在 学习、泛在连接及普适计算等基础上的移动学习技术及微格学习的研究和发展【1 0 】 第一章绪论 1 h ,使人们只要使用移动接入终端设备就可以随时随地进行认知学习,基于一定 的移动学习技术支持平台和标准框架,现已有相应的项目在实施;新一代教育资 源网格体系e 1 e a r n i n gg r i d 的建设和研究i l 引,将异地分布的教育资源、分布式协 作学习环境和个性化的学习支持服务等有效结合起来的面向服务的教育网格计算 平台都将是这个方向研究的范畴。以上这些新的研究课题的提出给教育技术研究 和发展提出了新的要求,也给学科建设注入了新的血液。 1 1 2 远程教育的发展 2 1 世纪是人类全面信息化的世纪,是知识爆炸的世纪,而我们已跨入一个新 起点。信息社会需要新型的信息化人才,i n t e m e t 和网络技术的发展必然导致远程 教育的出现,新的技术和学习方式对授学者和学习者提出了新的要求。我国是一 个人口众多、教育基础较薄弱、受教育层次参差不齐的国家,改革和发展教育, 培养创新型职业人才,提高专业人员的技能文化素质,是将我国人口大国转化为 人力资源强国,满足国家日益增长的高科技职能型人才的需求,屹立于当今激烈 的国际竞争中。然而对于这样一个国情的国民教育体系,要实现一对一教学显然 不现实也缺乏教育公平性,而教育的公平又是社会公平的重要基础。 对于以上问题早些年出现了传统成人教育,随着教育信息化和网格教育的迅 猛发展以面授、函授为主的传统成人教育将采用现代远程教育的形式满足教育的 公平性,随着信息网络和通信技术的发展和应用,远程教育的发展和以计算机网 络、多媒体技术及卫星通信技术为基础支撑的终生教育体制成为可能。 信息化将带动远程教育的产业化,国务院批准的面向2 1 世纪教育振兴行动 计划实施了现代远程教育工程,教育科研网提速,卫星电视教育网扩频和加快 我国网络资源支撑建设,为远程教育的发展和终生教育的实施创造了必要的基础 条件;教育部批准的6 8 所开展网络教育的试点院校至2 0 0 6 年已经设立6 7 2 7 个学 习中心,开设1 2 0 3 个专业并在资源建设,教务教学管理评估和新技术的研究方面 进行了大量的实践;十一五将远程教育作为深化教学改革、提高教育质量的重要 手段,充分利用远程教育资源加强科技教育培训等工作,充分显示了教育技术在 社会信息化中的重要地位。 同样充分利用现有的信息技术,最大化使用和共享现有的公共服务资源和平 台,使得学习者能够“需有所学,学有所教”,为此教育部中国教育科研网格计划 c h i n a g r i d 便孕育而生【1 3 】,其中由北京大学网络实验室开发和部署,全国2 0 多所 大学的自愿者参与维护运行的大学教育资源网格现己运作并在全国1 2 个不同的 大学有服务器集群结点,网格系统可以根据不同用户登陆的个人情况比如网络接 入方式,带宽和索取资料的不同而选择不同的登陆服务,而这些工作是在登陆的 4 面向远程教育的搜索引擎系统设计与实现 过程中网格系统自动完成的,用户完全不用知道具体的资源放置在那儿,而只需 知道网格的入口其余事情都有网格系统完成,给用户的就是一个统一简洁的资源 索取中心界面,实现了学有所教。 信息和网络技术的全面迅速发展,及数字学习的发展,使得远程教育内容越 来越丰富,当然信息资源的丰富是有利的好事情,但是如何在日趋丰富繁杂而又 浩渺的学习资源里面找到学习者需要的细节知识点和教育素材昵? 传统人们都会 使用搜索引擎系统帮我们定位学习信息,但是由于通用搜索引擎的浅层效应,对 于深层教育资源信息根本无从彻底分析并抓取提供服务,随着远程教育技术和规 范标准的统一和行业规范的遵从,大多的远程教育系统都朝规范化、标准化和开 放型方向发展,这就使得有可能设计和开发一种面向远程教育的专用搜索引擎。 当然在现在有的教育资源网格上做一定的资源分析并制定高效的检索系统也是非 常关键的环节。 1 1 3 搜索引擎 w w w ( w o r l dw i d ew 曲) 从她产生到现在以其超文本和超媒体技术,通过 文字、图形图像、音频视频等多种信息的有机结合,给人们提供了丰富的信息内 容和友好的界面呈现形式,近两年w w w 又成为企业进行信息化和无纸化办公等 必不可少的组成部分。由2 0 0 0 年在波士顿举行的第五届搜索引擎年会的报告可知 那时全球网页数已经超过1 0 亿,具体准确数字虽不可测,但是有一点可以肯定, w e b 数量仍然在继续增加。就仅中国的w w w 发展而言,自从1 9 9 4 年互联网登 陆中国,从中国互联网络信息中一i l , ( c n n i c ) ,每年的统计信息表明:至2 0 0 0 年中 国有上网计算机3 5 0 万台,w e b 站点有1 5 ,1 5 3 个,上网人数8 9 0 万,同样没有 具体的统计数据( 这也是不现实的) ,但是根据但根据科学杂志上提供的集合 估计法【l4 1 ,通过中国几个主要搜索引擎获得的搜索数据( 百度,雅虎,g o o g l e 等) , 可以估计到2 0 0 0 年时中国拥有的网页数已经超过1 0 0 0 万。2 0 0 7 年c n n i c 的统 计报告显示【l5 j 全国上网计算机总数为5 9 4 0 万台,w 曲站点有8 4 3 ,0 0 0 ( 不含教育网 站点) ,网页数量超过4 4 7 亿,同样上网用户数超过1 3 7 0 0 万人,与去年同期相 比,中国网民总人数一年增加了2 6 0 0 万人,增长率2 3 4 ,而上网人数的文化程 度基本较高,本科以上占2 8 5 ,这就为终生教育奠定了适应对性基础,而大多 的高中,大中专人群则为远程教育的发展也奠定了应用人群。 图1 1 为c n n i c 2 0 0 7 调查结果,结果显示中国网页总数有4 4 7 亿个,与去 年同期相比增加2 0 7 亿个,增长率为8 6 3 。本次调查结果显示,中国网页字节 总数为1 2 2 ,3 0 6 g b 。随着网页总数的增长,网页字节数也有大幅增长,与去年同 第一章绪论 5 历次调查网页数及发展情况历次调查网页字节数及发展情况 图1 1 中国互联网络信息中,t l , c n n i c 2 0 0 7 对于w e b 发展的统计报告 期相比增长5 5 ,0 0 5 g b ,增长率为8 1 7 。 可见w e b 发展之迅猛,人们可以通过w e b 技术跨越时空获取到自己想要的 信息;通过网络购物廉价的得到自己想要的物品;直接通过很多科研机构的w e b 站点获取感兴趣的文献;通过对特定远程教育平台进行信息检索。但传统的w e b 是无结构的数据组织,虽然有利于呈现,但是后期信息处理却带来了具大的困难, 而且对于交互性不强的w e b 架构的缺陷,语义网和w e b 2 0 技术产生并快速发展。 对以w e b 2 0 t 1 6 】没有准确的定义,它其实是一种新一代网站技术的应用实践和原 则,它以b l o g ,t a g ,s n s ,r s s ,w i k i 等软件为应用核心,依据六度分割、x m l ,a j a x 等新理论和技术为实现的新一代互联网模式。相对于w e b l 0 ,w e b 2 0 使得信息 交互性很强,用户的参与更自主。 然而,对于如此庞大的信息海洋,我们却无以适从,太多的相关信息使得我 们花费了大量的实践在网上“冲浪”,以至于最终可能都忘却了自己要做的事情, 对此急需一种信息发现工具为我们导航。 基本上有两类针对w w w 的导航服务系统。第一类是目录导航系统,通过有 专业背景知识的人对相应网站和网页的手工收集,建立人工索引系统,这类索引 系统一般准确率比较高,因为是人工筛选建立的,并且将用户信息定位到一个小 的范围内,极大程度满足用户的查询需求,这类目录导航服务系统的典型代表就 是y a h o o 。第二类就是搜索引擎系统,它通过爬取程序在网上按照一定策略抓取 网页,并对抓取网页进行分析,然后建立索引,为终端用户提供服务。这类网页 导航系统最大的的优点是匹配结果的查全率高,但搜索的准确率相对比较低,其 典型代表是早期的a l t a v i s t a ,如今商业化比较成功的有g o o g l e ,b a i d u 等。 虽然通用搜索引擎有时有很大的不足之处,但它却是人们在w w w 上获取信息 的有效工具。据统计约8 5 的用户通过搜索引擎定位他们需要的信息,并且几个 著名的搜索引擎一直都稳定的处于全球访问量最大的2 0 个网站之列,如g o o g l e 、 y a h o o 、m s n 、b a i d u 等,这个势头将在以后很长一段时间继续保持。 搜索引擎出现于1 9 9 4 年,如l y c o s ,i n f o s e e k ,a l t a v i s t a 和e x i t e 。称这 些搜索引擎为第一代搜索引擎。这些搜索引擎的目的是出于研究的目的,它们一 般都索引少于1 0 0 万个网页,也缺乏新页面抓取和索引重建机制,这个时期的搜 6面向远程教育的搜索引擎系统设计与实现 索引擎的检索速度也比较慢,一般都要等待1 0 秒甚至更长的时间。第二代搜索引 擎大多采用分布式技术和并行处理技术,使得系统每天能够接受1 0 0 0 万次检索, 并保持一个大约5 0 0 0 万网页的索引为用户提供服务。这一代搜索引擎的先驱是 a l t a v i s t a 和i n k t o m i ,而它们的实现方法也大不相同,a l t a v i s t a 采用大型的多 处理器计算机来支持它们搜索引擎的运转;而i n k t o m i 则采用分布式方案来解决 搜索引擎对计算能力的要求。1 9 9 7 年1 1 月,当时几个搜索引擎号称能建立2 0 万 到1 0 0 0 万的网页索引,a 1 t a v i s t a 声称他们每天大概能承受2 0 0 0 万此查询n7 j 。 9 8 年到现在,开始了新一代搜索引擎空前繁荣的时期一第三代搜索引擎。 在这一时期的搜索系统除了一般意义上的搜索以外,开始出现主题搜索和区域搜 索。很多小型的垂直门户站点开始使用该技术。 现在的搜索系统一般返回数据量过大,检索结果相关度评价成为研究的焦点。 相关的研究又可以分为两类:一类是对超文本链的分析,在这方面s t a n f o r d 大学 的g o o g l e 系统和i b m 的c l e v e r 系统作出了很大的贡献;另一类是用户信息的反 馈,d i r e c t h i t 系统采用的就是这种方法。并开始使用自动分类技术,n o r t h e r n l i g h t 和i n k t o m i 的d i r e c t o r ye n g i n e 都在一定程度上使用了该技术。这一阶段 的发展为搜索引擎拓展了生存空间,同时提高了搜索的质量和效率,为以后的发 展奠定了坚实的基础。 现有的商业搜索引擎系统将以惊人的毅力尝试索引“整个w e b ”。几个主流 的搜索引擎,如i n k t o m i ,g o o g l e ,a l t a v i s t a 都不断扩展自己的搜集能力,企图 将整个w e b 上的数据都搜集到,建立索引并为用户提供服务。同时相关度推荐功 能等的加入、个性化检索等成为研究的热点。根据用户平时的查询爱好,以及用 户日常检索行为的挖掘,为用户提供最适合他期望的检索结果己越来越受到各个 搜索引擎的关注。 1 2 1 主题搜索 1 2 面向主题的搜索引擎 目前,人们大多使用通用搜索引擎来获取信息资源,国内如百度,国外的 g o o g l e 等,这些商用搜索引擎大多采用穷尽的方法试图将整个全球存在的网页抓 取到自己的系统中,通过网页的去噪、索引等为用户提供信息检索服务,但是这 种搜索引擎随着w e b 规模和更新速度的增加,无论从技术和经济上看都已经不能 保证网页索引的召回率和准确性。我们佩服这种商用搜索引擎的勇气,但它将受 到更加巨大的挑战。 针对于此应该设计一个分类更加精确、数据更加深入、更新速度更快的面向 主题的搜索引擎。主题搜索引擎运用了人工训练分类及特征提取等策略,比以前 第一章绪论 的搜索引擎系统更加有效和准确,我们称之为第四代搜索引擎。 通用搜索引擎提供的单一查询接口很难满足用户特定信息索引的要求。因为 系统很难根据用户输入的信息确定上下文意思而准确的理解用户的想法,如果输 入大量的关键词去检索,召回率肯定会增加,但是不相关检索信息将会大量出现, 使得查询的准确率下降,并且产生“认知过载”的情况;另外通用搜索引擎出现 的问题是大量检索信息分布在表层,深层信息基本无法提取到,这也是通用搜索 的另外一个问题。对专业领域的知识和深度信息提取的问题使得出现了垂直搜索 引擎,也称主题搜索引擎或者专用搜索引擎。当然现在的大多通用搜索引擎已经 提供了语义和相关度查询一定程度上解决了这些问题。 主题搜索引擎针对某一特定领域或特定人群提供有价值、有深度的信息服务, 具有行业色彩,深入的纵向服务,针对某一特定领域提供信息全面而深入。主题 搜索引擎的爬取器只抓取特定的主题信息,按预先己定义好的抓取策略有选择地 收集相关的网页,大大降低了信息采集的难度,提高了抓取信息的质量。由于针 对一个领域进行服务,还可以利用该领域知识建立起一个高质量的、专业程度高、 能实时更新索引数据库的行业词库,由于词库针对特定行业,大大的减少了词义 的冲突,提高信息检索的查全率和查准率。主题搜索引擎这种高度目标化、专业 化的优势在于针对性强,对特定领域的信息覆盖率相对较高,并且具有可靠的专 业技术和信息资源保障,有明确的检索目标定位,有效地弥补了通用搜索引擎对 专门领域及特定主题信息覆盖率过低、深度不足等的问题。 目前主题搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、 购物搜索、房产搜索、人才搜索、地图搜索、m p 3 搜索、图片搜索几乎各行 各业各类信息都可以进一步细化成各类垂直搜索引擎。 随着教育信息化、数字化和远程教育技术的发展,面向远程教育的主题搜索 引擎就是在这样的背景下产生了。 1 2 2 面向远程教育的搜索引擎 数字学习港和远程教育的发展及教育信息资源的丰富和标准化的应用趋势, 使得必通过某种导航系统去更好的在浩渺的学习资源中定位目标,然而主题搜索 引擎的发展就为这种导航系统的实施提供了技术基础,而针对教育资源的标准化 描述标准的重要性的认识和遵从使得这种面向远程教育的搜索引起该系统的实施 更加有章可循。 远程教育资源建设是网络教育的重要基础,而从事网络教育的教育资源建设 和应用不一致性将导致教育资源的重复开发和不能共享等问题,阻止数字化教学 的发展,对此国内也致力于研究网络教育资源建设相关的标准,以此统一对教学 8 面向远程教育的搜索引擎系统设计与实现 资源的开发,解决教育资源在远程教育和教育资源网格等应用中的共建、共享和 互操作等问题。 教育资源描述标准主要包括元数据描述和内容包装两个方面。学习对象元数 据( l e a r n i n go b j e c tm e t a d a t a ) 是对学习对象数据的描述i l 引,应用元数据的目的是为 了增强结构化描述,使得后期应用处理可以方便的获取到资源;内容包装定义了 如何表示一次学习体验的预期活动( 内容结构) 和如何在不同环境中组合学习资源 的活动( 包装内容) 【l9 1 ,内容包装是关于一个学习对象内部各网络教育资源之间组 织关系的描述性信息,其主要目的是通过排序和导航增强学习对象的互操作性。 我国教育技术标准化工作比较晚,对于远程教育资源描述比较好的标准有 a d l ( a d v a n c e dd i s t r i b u t e dl e a r n i n g ) 的可共享内容对象参考模型( s h a r a b l ec o m e n t o b j e c tr e f e r e n c em o d e l ,s c o p u m ) 皿叫,s c o r m 集当今国际上流行的各个网络教育 资源描述标准的长处,通过研究可共享内容对象参考模型解决学习内容跨平台应 用、建设可供不同课程共享的可重构建以及快速准确的查找学习内容的问题。 由以上的分析可以看出,面向远程教育的主题搜索引擎的实施是非常紧迫而 又必要的,如何在日趋丰富的非结构化、半结构和结构化教育资源中定位学习者 需要的资源内容成为一个棘手的问题,而如前面分析过,通用搜索引擎的局限性 则使得面向主题的教育搜索引擎成为必然。“九五 期间面向2 1 世纪教育振兴 行动计划确定的“教育信息化工程基础教育资源建设项目”,建设的为丰富远程 教育资源信息化的国家基础教育资源网,其资源参照教育部颁布的相关国家课程 标准和基础教育资源元数据应用规范,充分实现了教学资源的共享;而后2 0 0 6 年3 月出现的基础教育搜索引擎【2 1 】【2 2 1 ,以教育领域用户的需求为准则,结合面向 基础教育的信息分类体系第一个真正意义上实现了面向基础教育的专业搜索引擎 系统,在基础原型系统上,此系统先已进行了分布式、自动教育黄页分类及信息 分类评测等方面的进一步研究;而不同于这种搜索引擎的目录式索引系则如雨后 春笋般大量出现,如:中国教育平面搜索、教育导航及其他大多的地方教育信息 目录检索系统等。这些教育搜索引擎的出现说明了人们对知识的获取方式已经不 满足于传统通用搜索引擎。不同于基础教育,对于设计范围更广的远程教育及基 于此的终生教育体制的建立,海量的远程教育资源定位更需要专业的面向远程教 育的垂直搜索引擎完成。 1 3 论文工作 近年针对于特殊领域的行业搜索引擎大量出现,但是还没有一个真正意义上 的面向远程教育的搜索引擎,为此论文在对远程教育发展的技术和标准等层面上 的分析,提出面向远程教育的主题搜索引擎。文章通过构建一个集中式搜索引擎 第一章绪论 9 系统原型,通过对各个层面技术实现和核心问题的解决,引入远程教育的相关应 用背景,构建出第一个面向远程教育的垂直搜索引擎系统。 通过对搜索引擎构建的设计和分析,文中首先通过设计一个面向远程教育领 域的高性能爬取系统,抓取内容经过地址提取和编码转换,原始网页文件顺序方 式保存到本地,并建立u r l 、网页及网页在原始网页文档中的偏移量等索引;抓 取下来原始网页文件经过l e x 提取器,提取出网页正文,并组织成相应的顺序文 件和索引文档,此顺序文件经过分词系统进行分词得到前向索引文件,为了后期 建立倒排索引和更加符合主题搜索引擎的要求,建立了面向远程教育的专业中文 词典,并据此建立倒排索引,倒排索引文件按照d f i d f 计算并用v s m 模型修正 权重后建立倒排索引文件;检索服务部分按照扩展布尔模型和空间向量模型相结 合的方法进行匹配,并做了相应的c a c h e 设计,服务部分通过c g i 接口为用户提 供服务。 文章通过数据流的处理顺序详细分析了系统的各个模块,并针对不同环节遇 到的核心问题给与了具体的分析和解决: 1 高性能爬取机制的分析和模块设计实施。这部分的关键问题在于用何种机 制高效的抓取专业信息,而不是穷尽所有页面;高性能抓取框架设计,如多线程 f e t c h e r d n sc a c h e 等;另外就是抓取时页面编码一致性等问题的解决。 2 基于l e x 技术的高效提取器p a r s i n g 的设计。通过此模块的设计对1 8 g 的 原始网页文件可以在3 4 分钟内完成内容提取,速度远大于简单的基于d o m t r e e 的匹配解析算法。 3 对于中文分词部分,文章采用中科院分词系统i c t c l a s l 0 版本内核,对 其进行了l i n u x 移植,并将其修正以适应对不同长度大小的文章做处理,经过移 植和修正的分词程序性能稳定、速度快、分词效果好,较好的满足了系统的应用 需求。 4 面向远程教育的专业中文词典的构建。文章提出一种自适应字长的异或哈 希算法构建中文词典,快速高效的完成搜索引擎中中文词典的构建,通过此词库 快速的建立了索引并提供给服务模块使用。 5 索引的建立。通过对词典和文档的矩阵计算,先后用t f i d f 公式和v s m 模型建立倒排索引,并对索进行有效压缩,提高后期服务的效率。 6 检索模型。在服务环节通过c g i 提供公共服务接口,由于前期服务量和时 间人员配置等方面原因,检索模型使用扩展布尔模型和空间向量模型相结合的方 法,依v s m 算法的的权值进行排序,较为有效的实现了检索的速度和检索结果 的排序效果;对于2 0 的常用检索关键词试图建立了一套c a c h e 机制,使得8 0 关键词检索达到零耗时。 通过各个阶段核心问题的分析和解决,较好的实现了一个面向远程教育的集 l o 面向远程教育的搜索引擎系统设计与实现 中式垂直引擎系统。 1 5 论文组织 论文第一章通过对教育技术的概要分析和远程教育的发展,以及搜索引擎系 统的深入了解提出面向远程教育的垂直搜索引擎系统,阐述了系统设计和实施的 必要性和重要意义。第二章将通过对通用和垂直搜索引擎的构架分析,从宏观上 介绍系统中主要的功能模块,使得对搜索引擎系统有一个总体的认识。论文的第 三、四、五章将以搜索引擎中基本数据流处理顺序分别从爬取子系统、预处理和 索引建立子系统和检索服务子系统三个部分进行了详细的分析、设计和描述,其 中对大量的关键性问题提出了很好的解决方案和实施策略;论文最后对系统的不 足和待解决的问题及更深一步的研究进行了总结和展望。 第二章面向远程教育的搜索引擎系统分析 1 1 第二章面向远程教育的搜索引擎系统分析 2 1 1 通用搜索引擎系统 2 1 搜索引擎系统 搜索引擎技术源于传统的全文检索技术,基本程序是将所有文章包含的 词条抽出建立以这些词条为关键字的索引,通过词和文章对应的索引关系, 当抛入一个查询关键词,检索程序通过匹配得到对应的文档序列,对此序列 进行排序后反馈给用户的应用系统。而随着w w w 和w e b 的发展,搜索引擎 成为w e b 上人们进行信息检索的关键工具,按照搜索引擎技术和原理【2 弘2 7 j 的不同大致可分为三类:基于爬取器的搜索引擎系统( c r a w l e rb a s e ds e a r c h e n g i n ) 、目录式搜索引擎( d i r e c t o r ys e a r c he n g i n e ) 、元搜索引擎( m e t as e a r c h e n g i n e ) 。 基于爬取器的搜索引擎利用一个称为c r a w l e r ( 也称r o b o t 、s p i d e r 、w a l k e r 等) 的程序以某种宽度或者深度优先的算法加上一定的抓取策略,自动的将 w e b 上的网页通过f e t c h e r 抓取到本地,经过提取和索引建立的网页检索服 务。用户需要搜索时通过服务接口提交给网关程序,由检索器从索引库中检 索出相关的文档并再次通过网关程序反馈给用户。这类搜索引擎的特点是检 索结果查全率大、无需人工参与;准确率低,不相关信息较多,出现“认知 过载 。现在出现的面向主题的搜索引擎和相关度分析技术的出现一定程度 上解决了此问题。 目录式搜索引擎通过人工或半自动方式搜集信息。再人工访问查看,对 网站加一定的描述信息,根据站点信息将对应网站加到预先定义好的分类体 系下。用户查询或者访问时,按照自己感兴趣或者需要的目录分级去查找, 方便的找到自己希望的信息。该搜索引擎的特点是用户查找结果准确;但前 期的目录建立工作需要大量的人力财力花费大量时间去建立,是一个缓慢的 过程。 元搜索引擎是近几年出现的一种新的建立在其他独立搜索引擎之上的搜 索引擎。当用户进行一个查询时,元搜索引擎将索引词条抛给几个不同的搜 索引擎系统,并收集各个不同搜索引擎返回的数据集,再经过数据融合和排 序等反馈给用户。现在的元搜索引擎也加入了一些个性化的元素进去,可以 以上两种搜索引擎的优势,兼顾搜索结果和分类及个性化推送服务。 1 2面向远程教育的搜索引擎系统设计与实现 本节重点介绍基于c r a w l e r 的搜索引擎【2 6 】【2 8 】【2 8 儿4 2 】【4 4 】【6 1 1 ,并探讨面向远 程教育的搜索引擎中关键技术的实施。图2 1 是一个搜索引擎通用的结构图。 搜索引擎的工作包括如下3 个过程: 图2 1搜索引擎通用架构图 1 网页爬取:发现、收集和抓取w e b 上的信息。一般由具有高性能的爬 取器自动完成信息的爬取。把w e b 当成一个图去研究【2 9 。3 2 】,分布在w e b 上 的站点或者页面当成结点的话,爬取器顺着网页之间的链接图关系移动,并 通过f e t c h e r 下载所经过的结点网页的内容。给定起始结点u r l 集合s ,w e b 爬取器不停的从s 中移除u r l ,下载对应的网页,又通过解析器从网页中提 取处信的超链接u r l ,通过去重机制将未访问过的u r l 加入集合s ,并继续 进行上述工作。爬取器把所抓取的信息保存下来以备建立索引库和用户检索 等预处理工作。 2 预处理及索引的建立:对抓取下来的原始网页,按照一定的结构组织 成序文件形式存储,并建立相应的网址、内容和网页内容偏移等索引。这个 过程的建立关系到后期信息处理和用户查找的准确性和广泛性。然后经过对 原始网页文件的内容抽取,并对中间数据进行分词处理和最终的倒排索引建 立,来满足下一阶段的服务模块的工作。 3 检索服务:通过用户服务接口,将用户输入的关键词或句进行分词处 理得到的查询词组合,进行索引匹配,根据倒排表查找对应文档i d ,并根据 文章的相关度或权重进行一定排序工作,客观有效的为用户准确提供搜索结 果。为加速搜索的反馈速度,通常的系统根据用户的查找信息建立检索c a c h e 服务,使得8 0 以上的检索为零耗时。 第二章面向远程教育的搜索引擎系统分析 1 3 2 1 2 面向远程教育的垂直搜索引擎设计 与大多数搜索引擎一样,面向远程教育的垂直搜索引擎也包括爬取、数 据预处理及索引、和检索服务等几个子系统。 爬取系统的任务是发现并搜集w e b 上的远程教育资源信息。这些资源信 息被爬取系统抓取到本地以原始网页文件存储。对远程教育资源的搜集设计 了两种方式实现:第一种抓取远程教育站点;第二种设计面向远程教育的专 业抓取模块;另外针对于面向远程教育的垂直搜索引擎的专用中文词库的构 建也是系统索引构建和查询等阶段十分必要的关键环节;最后就是行业个性 化服务的定制和推送,针对用户行为的跟踪和分析,自动的为用户定制和推 送与其查询最相关的匹配信息。 面向远程教育的垂直搜索引擎索引系统的任务是对远程教育信息和资源 进行有效的整合,对页面数据以及其他一些规模较大的资源数据建立索引, 加快用户查找远程教育资源的访问速度。倒排索引是建立索引的最有效最常 用的技术之一,考虑到系统的扩展和与通用系统的一致性,系统将以顺序文 件系统的形式,对结构化索引数据进行存储和处理。 图2 2 为面向远程教育的垂直搜索引擎系统架构,系统结构和通用搜索系统 的结构类似,具体的实现和这些系统也类似,但根据行业需求也有很大不一致细 节存在,如面向远程教育的专业抓取器,使用两种不同的机制进行行业网页的选 择性抓取;网页去重等使用了些简单的检测机制,在行业领域也起到了很好的效 果;网页内容提取模块使用了编译技术中的l e x 技术【3 3 】 3 4 1 ,高速稳定的进行了内 容的提取;对于索引建立阶段,不同于传统的搜索引擎系统,通过一种自适应字 长的扩展异或哈希算法以低的碰撞率和较高的效率和速度,建立了面向远程教育 的专业中文词典,为索引的建立提供了必要的核心文件,高效的使用面向行业的 专用字典也有利于后期面向用户的主题内容推荐和关键词提取等应用;最后就是 服务模块,使用c g i 网关程序和s e a r c h 模块的设计,加上使用扩展布尔检索模型, 很好的解决了多关键词查询等环节的需求,再加上对行业通用高频词的前期缓冲 机制的建立,和c a c h e 模块检索新词的再缓冲,使得大多常用检索的系统耗时为 零,很好的满足了搜索引擎系统的应用。 1 4 面向远程教育的搜索引擎系统设计与实现 图2 2 为作者设计的面向远程教育的垂直搜索引擎的架构图: 图2 2面向远程教育的垂直搜索引擎架构 2 2 爬取子系统 像很多其他复杂网络如社会网络,生物网络和其它复杂网络系统1 3 5 1 3 6 1 ,如果 我们将这个巨大的、动态的、分布式的网络看成一个复杂的分布式动态变化的 w e b 图,爬取子系统主要任务就是对w e b 图进行某种方式的遍历,按照一定的遍 历算法和控制机制对遍历到的结点进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论