(教育技术学专业论文)基础教育资源搜索引擎关键技术的研究与实现.pdf_第1页
(教育技术学专业论文)基础教育资源搜索引擎关键技术的研究与实现.pdf_第2页
(教育技术学专业论文)基础教育资源搜索引擎关键技术的研究与实现.pdf_第3页
(教育技术学专业论文)基础教育资源搜索引擎关键技术的研究与实现.pdf_第4页
(教育技术学专业论文)基础教育资源搜索引擎关键技术的研究与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(教育技术学专业论文)基础教育资源搜索引擎关键技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s t r a c t 摘要 互联网的快速发展使得嘲络上基础教育资源数量快速增长,越来越多的教育 用户开始利用互联网获取基础教育资源。为了向教育用户提供更加精确、方便的 面向基础教育的资源搜索服务而设计了基础教育资源搜索引擎博石( b e r s e ) 。 基础教育资源搜索引擎是一个庞大的资源检索系统,涉及到的关键技术包括信息 采集、预处理、中文分词、特征提取、分类、标引等技术。本文结合笔者在该项 目中负责子课题的实际情况,重点围绕信息采集、资源分类、全文检索关键技术 进行了研究。 作为一个理论与实践相结合的研究课题,本文的主要研究工作和研究成果包 括: ( 1 ) 根据对教育资源的网站级结构和网页级结构的分析,提出了一种针对 动态网页自适应算法。 ( 2 ) 提出教育资源变化的判定依据,实现教育资源的实时增量更新。 ( 3 ) 没计了分布式资源采集器,能根据实际硬件条件动态调节资源采集器 的数量,并且保证各采集器之间的通信与协同工作。 ( 4 ) 通过对常用特征提取算法的比较,提出基础教育资源的多重特征选择 方法,通过该方法提高了基础教育资源特征选择的准确性及特征的区分能力。 ( 5 ) 通过对层次分类算法的改进,提出基础教育资源层次分类算法。通过 实验证明,本文的方法能获得较好的分类效果。更适合于基础教育资源的分类。 ( 6 ) 本文通过对l u c e n e 全文检索工具包的改进,扩展了基础教育资源的索 引模块和检索模块。 关键字:基础教育,垂直搜索,信息采集,教育资源分类,全文检索 a b s t r a c t a b s t r a c t 1 1 1 ef a s td e v e l o p m e n to f i n t e m e tm a k e st h ee l e m e n t a r ye d u c a t i o n a lr e s o u r c e s g r o wq u i c k l y m o r ea n dm o r ee d u c a t i o n a lu s e r sb e g i nt og e te l e m e n t a r ye d u c a t i o n a l r e s o u r c e sb yu s i n gi n t e r n e t w ed e s i g nt h es e a r c he n g i m ec a l l e db e r s ei no r d e rt o m a k ei te a s yf o re d u c a t i o n a lu s e r st os e a r c ht h ee l e m e n t a r ye d u c a t i o n a lr e s o u r c e s a c c u r a t e l ya n dc o n v e n i e n t ly _ t h ee l e m e n t a r ye d u c a t i o n a ls e a r c he n g i n ei s ag r e a t s y s t e mf o rs e a r c h i n gr e s o u r c e s ,a n dt h ek e r n e lt e c h n o l o g i e so fi ti n c l u d er e s o u r c e f e t c h i n g , w e bp r e p r o c e s s i n g , c h i n e s es e g m e n t ,f e a t u r ef e t c h i n g , r e s o u r c e s c l a s s i f i c a t i o n ,i n d e x i n ge t c o nt h eb a s i so fw h a tia ma c t u a lc h a r g ei nt h i sp r o j e e t ,1 w i l lp a ym o r ea t t e n t i o no nr e s e a r c ha b o u tt h ek e r n e l t e c h n o l o g i e so fr e s o u r c e f e t c h i n g , r e s o u r c e sc l a s s i f i c a t i o na n df u l l t e x ts e a r c h i n g a sas t u d yt a s kc o n n e c t i n gt h e o r ya n dp r a c t i c e ,t h em a i nr e s e a r c hw o r ka n d f r u i t sa l et h ef o l l o wt h i n g s : p u tf o r w a r dad y n a m i cw e bs e l f - a d a p t i n gm e t h o dt h o u g ha n a l y z ew e bs i t e s t r u c t u r ea n dw e bs t r u c t u r e p u tf o r w a r dt h ed e t e r m i n a n tg i s t ,a n dr e a l i z et h eu p d a t et h ei n c r e m e n to f e l e m e n t a r ye d u c a t i o n a lr e s o u r c e si nt i m e d e s i g nt h ed i s t r i b u t e dr e s o u r c e sf e t c h e rs y s t e m ,w h i c hc a na d j u s tt h en u m b e ro f r e s o u r c e sf e t c h e r s d y n a m i c ,a n dm a k es u r et h ew o r ko fc o m m u n i c a t i o na n d c o o p e r a t i o nb e t w e e nt h ef e t c h e r s p u tf o r w a r dt h em u l t i s e l e c t i o nf e a t u r em e t h o db a s e do ne l e m e n t a r ye d u c a t i o n a l r e s o u r c e sb yc o m p a r i n gt h ec o u l n l o nf e a t u r es e l e c t i o n ,m e a n w h i l et h i sm e t h o dc a n a l s oi m p r o v et h ev e r a c i t yo fs e l e c te d u c a t i o n a lr e s o u r c e sa n da b i l i t yo fd i s t i n g u i s h i n g f e a t u r e p u tf o r w a r dah i e r a r c h yc l a s s i f i c a t i o na l g o r i t h mb a s e do ne l e m e n t a r ye d u c a t i o n a l r e s o u r c e sb yi m p r o v e m e n to f h i e r a r c h yc l a s s i f i c a t i o na l g o r i t h m 。a f t e re x p e r i m e n t ,w e f i n dt h a to u rm e t h o dc a ne a r nb e t t e rc l a s s i f i c a t i o nr e s u l t b ya m e l i o r a t i n gt h el u c e n eo ff u l l t e x ts e a r c h e r , w ee n l a r g et h es e a r c h i n g m o d u l ea n dt h ei n d e x i n gm o d u l ef o re l e m e n t a r ye d u c a t i o n a lr e s o u r c e s k e y w o r d s :e l e m e n t a r ye d u c a t i o n ,v e r t i c a ls e a r c h ,i n f o r m a t i o nc o l l e c t i o n ,e d u c a t i o n r e s o u r c e sc l a s s i f y , f u l l - t e x ts e a r c h n 学位论文独创性声明 本人郑重声明: 1 、坚持以“求实、创新一的科学精神从事研究工作。 2 、本论文是我个人在导师指导下进行的研究工作和取得的研究成果。 3 、本论文中除引文外,所有实验、数据和有关材料均是真实的。 4 、本论文中除引文和致谢的内容外,不包含其他人或其它机构已经 发表或撰写过的研究成果。 5 、其他同志对本研究所做的贡献均已在论文中作了声明并表示了谢 意。 作者签名: 日期: 学位论文使用授权声明 本人完全了解南京师范大学有关保留、使用学位论文的规定,学校有 权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸 质版;有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图 书馆被查阅;有权将学位论文的内容编入有关数据库进行检索;有权将学 位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。 作者签名: 第一章绪论 第一章绪论 随着互联网信息与资源成指数级增长之时,越米越多的各领域专业人员通过互联网获取 需要的信息与资源,但是现有的通刖搜索引擎已不能满足丁人们对丁专业领域的信息和资源 的搜索需求。人们急切需要一种更专业的搜索引擎技术提供面向专业领域的信息检索服务, 因此在这种现实需求的推动下产生了乖直搜索引擎技术。砥直搜索引擎技术是对且联网中特 定领域内信息进行获取的搜索技术。基础教育资源搜索是针对基础教育领域资源获取的一种 乖直搜索技术,是乖直搜索技术在基础教育领域的应 j ,同时也是专fj 为教育川户提供基础 教育资源搜索的一项服务。本文以智能算法为基础,结合基础教育领域特点,探讨面向基础 教育的智能、高效、实时资源搜索关键技术。基础教育资源搜索引擎核心技术包括信息采集、 中文分词、信息标引、资源分类、信息提取、信息索引、全文检索等。由于中文分词、信息 标引、信息提取等技术目前研究己比较成熟,冈此本文土要研究信息的采集、资源的分类、 全文检索技术及其实现。 1 1 研究背景 ,目前在互联网上存在着人量的,分布在t t c 界各地的,可以免费获取的数字资源。不同领 域的专业资源及信息以主题网站、垂直i j 户网站的形式存在并正在兴起一次网站建设的热 潮。对丁基础教育领域的用户米说这即是一次难得的机遇也是一次挑战,机遇在于互联网中 可获得的与基础教育相关的资源越来越多,挑战在于如何在大量的w e b 资源中找到自己需 要的与基础教育相关的资源。 1 1 1 教育信息化的提出 1 9 9 9 年,国务院批转了教育部提出的面向2 1 世纪教育振兴行动计划,首次明确地 将“教育信息化”确定为教育发展的重要主题,并指出教育资源建漫是重点。全国各地掀起 了一股开发各类教育资源的热潮。据统计,2 0 0 3 年我国共有小学4 2 5 8 万所,初中学校6 4 7 万所( 其中职业初中1 0 1 9 所) ,以及普通高中1 5 8 万所。为了响应教育部的号召,全国各地 许多有条件的中小学校及企业纷纷投入了大量的人力、物力进行教育资源的开发建设。与此 同时,w e b 教育资源也受到j “大中小学老师,以及相关科研人员的重视。由于当前我国教 育信息化建设尚处于初级发展阶段,基础教育资源建设缺乏行之有效的建设标准和整合手 段,w e b 基础教育资源经历了爆炸性增长之后,目前呈现高度分散状态,重复性建设非常 严重。 第一章绪论 1 1 2 基础教育资源供求矛盾 调夯数据1 显示,6 2 4 的教育用户认为网上教育资源量很多,但能用的不多。说明我国 基础教育资源网站建设的最人的矛盾体现在网站尽力提供人量的资源却不能满足用户的实 际需求上,这是当前基础教育类资源网站建设的误区之一。其原冈,首先不同的学科都有其 自己学科的专业网站,教育资源的分布极其的厂泛,散落在网络的不同角落。这为教育i :作 者对于教育资源的查找造成了很人的困难。其次,教育资源又可按资源的类型分为很多种, 即有文本型的教育资源,如:t x t ,d o c 等等,还有以多媒体形式表现的教育资源,如: f l a s h ,视频等。教育工作者很难找剑适合自己教学的资源媒体表现形式。再次是不同学 段、不同学科、不同层次( 按教学经验、上网经验等分) 的教师对网络资源的理解和需求 存在差异,网上教育资源可能存在鱼目混珠的情况,资源质量不高影响用户对网络的使用率。 1 2 研究现状及问题 本节从国内与国外两个角度分析了垂直搜索技术的研究现状及发展状况,并从教育用户 实现需求的角度分析了目前通过互联网获取基础教育资源存在的问题。 1 - 2 1 国内外研究现状 国内研究现状 国内的研究与国外相比还处于一个初步发展阶段,主要侧重丁整个系统功能的实现,在 自动垂直搜索上研究的层次还很浅。 1 s t i p i n t e m e t 科技信息门户网站s t i p ( s c i e n c ea n dt e c h n o l o g yi n f o r m a t i o np o r t a l ,s t i p ) 是中科 院文献情报中心实施中科院文献信息共享系统的一个子课题,旨在开发和利用i n t e r n e t 上的 科技信息资源,它通过搜索、发现、组织、加工、整理i n t e r n e t 上的科技信息资源并借助i n t e r n e t 网络向用户提供网络资源导航、检索等信息服务。该系统有一个类似于自动主题搜索系统的 资源采集系统,该系统采用通用爬行器模型来实现资源采集,为资源建设者提供一种方便灵 活的接口,利用人工来判断是否与主题相关、标引相关数据。该项目在自动主题搜索上面, 基本上没作深入研究,但它所提供的功能体系还是具有一定的先进性。 2 网络智能服务系统i - k n o w , 网络智能知识服务系统i k n o w 是一个完整的网络智能知识服务系统,i k n o w 系统是一整套针对专业用户的智能知识服务系统,它包括信息资源采集子系统、资源管理子 系统、用户服务子系统以及信息处理独立模块。后来在i k n o w 的基础上,进一步发展 谭金波,石晋阳,李艺基础教育网络资源现状与教师需求的调查研究【j 】中国远程教育,2 0 0 5 ( 6 ) :6 3 2 第一章绪论 为万方数据竞争情报计算机系统( w f i s ) ,该系统旨在综合采集各种可以获取( 网络资源、电 子文档、印本文档等) 的信息资源并进行统一的组织、整理、加一r ,最终服务用户。该系统 服务丁专业人员的情报加i :1 :作,可以为最终川户提供情报相关产品。 i k n o w 系统最早是采川通刖爬行器模式来实现臼动主题搜索的。后米采用了f i s h 算法米提高主题搜索的性能。简单地说,该系统住自动土题搜索上只是采j h j 了f i s h 算法。 3 南京大学的i d g s 南京大学软件新技术国家重点实验室张福炎、潘金贵教授等一直在从事i n t e r n e t 上的信 息挖掘技术研究,设计了一个互联网数据采集系统( i n t e m e td a t ag a t h e rs y s t e m ,d g s ) 。该 系统旨在对w e b 上中英文技术资料进行自动搜集。i d g s 根据用户提交的挖掘目标样本,在 w e b 上臼动奄找用户所需的信息,它采用向量空间模型和基于词频统计的权重评价技术, 由特征提取、源站点夯询、文档采集、模式匹配等4 个部分组成。 该系统的关键技术在于它的一个模式匹配模块,其任务是计算实际采集剑的教育资源与 用户兴趣之间的相关度。它的文档采集模块相当于一个爬行器,采用了兴趣漫游的模型,其 基本思想是:如果某教育资源满足用户兴趣,则继续往下找,否则就终j 卜该方向的夯找。该 模型类似于f i s h 算法,“哪儿有草,鱼儿就往哪儿游”。但它只是简单地用父结点的主题相 关度来判断是否下载孩子结点,并且只在用户给出的有限种子站点基础之上爬行,搜索的深 度很有限,更多地强调准确度,在一定程度上忽视了覆盖度。 4 北大天网 北京人学计算机科学技术系计算机网络与分布系统实验室,一直在从事搜索引擎研究, 他们研制开发的“天网”中英文搜索引擎系统是国家“九五”重点科技攻关项目“中文编码 和分布式中英文信息发现”的研究成果,并于1 9 9 7 年l o 月2 9 日正式在c e r n e t ( c h i n e s e e d u c a t i o n & r e s e a r c hn e t w o r k ) 上向广大i n t e r n e t 用户提供w e b 信息导航服务,致力于探索和 研究中英文搜索引擎系统的关键技术,以便向广大用户提供更为快速、准确、全面、时新的 海量w e b 信息导航服务。天网从最早提供简单的教育资源信息查询服务以来,不断推出文 件搜索服务、天网目录服务、天网主题服务,同时正在研制个性化服务。其中“天网主题” 就是致力于特定领域、地域、特定主题的资源搜索搜集。值得注意的是,北大天网是继- 天 网目录”服务推出之后才推出了“天网主题”服务。他们解决的关键技术是教育资源分类技 术。 国外研究现状 据笔者所掌握的文献来看,最早使用查询来指导w e b 爬行器的系统是1 9 9 4 年出现的 f i s h 搜索系统( f i s hs e a r c hs y s t e m ) 29 后来相继出现了1 9 9 8 年的s h a r ks e a r c h 3 、1 9 9 9 年 2 p m e d eb r a ,r d j p o s t ,i n f o r m a t i o nr e t r i e v a li nt h ew o r l d - w i d ew e b :m a k i n gc l i e n t b a s e ds e a r c h i n g f e a s i b l e a v a i l a b l ef r o mh t t p :c i t e s e e r n j n e c c o m 9 9 6 0 4 h t m l 3 m h e r s o v i c i ! m j a c o v i ,y s m a a r e k ,e ta i t h es h a r k s e a r c ha l g o r i g h m a na p p l i c a t i o n :t a i l o r e dw e b s i t e 3 第一章绪论 的主题爬行( f o c u s e dc r a w i n g ) 4 。印度理i :学院学者s c h a r k r a b a r t i 发表的一系列文章,在 计算机学术界掀起来研究垂直搜索的热潮。卜面部分将从研究项目的角度来综述国外的研究 进展。 1 c o l l e c t i o nb u i l d i n g c o l l e c t i o nb u i l d i n g 项目,简称c b p ,是美国国家科学数字图i s 馆支持卜- 的一个子项目, 旨在为科学、技术、1 j 程和数学教育创建人规模的在线数字图j 讳馆,研究主题资源白动建没 的可能性。该项目有如下特点:( 1 ) 它是面向教育面向教学的,主题准确度比覆盖度更为重 要;( 2 ) 它不是一次性建设而是以渐进方式米逐步建设的;( 3 ) 土要搜集那些具有教学意义 的资源,数量有限;( 4 ) 它不存储资源原文,只提供u r l 链接:( 5 ) 它只需要用户最少量 的输入,如关键词,系统就可以全自动地将有关该主题的最相关的一定数量的u r l s 返同 给用户。 在c b p 项目中,它将馆藏( c o l l e c t i o n ) 定义为关于某个主题的w e b 教育资源、p d f 、 p s ( p o s t s c r i p t ) 等文件组成的集合,它通过主题爬行米逐渐生成。它的前提是假设对于任何主 题在w e b 上都有相应的在线虚拟馆藏。 开始是没有馆藏的,只有需要建设的馆藏的主题( 词) 列表。根据这些土题( 词) 列表,利 用其它搜索引擎( 如g o o g l e ) 的检索结果构造相应的聚类质一巴, ( c e n t r o i d ) ,刚质心来代表相应主 题。例如,对丁数学论坛网站上的数学主题层次5 ,他们建立了3 5 个馆藏质心,然后使用人 规模爬行器m e r c a t o r 来爬行。下载的每个文档与3 5 个质心进行相似度计算,确定该文档属 于哪一类。在爬行的最后,希望生成有3 5 个馆藏,每个馆藏有2 0 到5 0 个左右的资源。 因为该项目是为教育、教学服务的,强调的是准确度和中心度( 可以引导用户找剑更多 的有价值的资源) ,所以每个类别的资源数量相对较少,它不符合基础教育各学科门户的w e b 资源建设的要求,本论文讨论的垂直搜索是面向教育用户,它既要求资源的主题准确度又重 视资源的主题覆盖度,这需要在两者之间作出处平衡,使它们都达到实际应用的要求。 2 f o c u sp r o j e c t f o c u sp r o j e c t 6 是f - o 度t 的学者s c h a k r a b a r t i 在伯克利人学计算机系读博士期间所从事 的一个项目。在该项目中,作者提出了一种新的w e b 资源自动爬行系统,即主题爬行器 ( f o c u s e dc r a w l e r ,简称f o c ) 。它对主题的定义既不是采刚关键词也不是加权词矢量,而是 一组具有相同主题的教育资源。尽管称为面向主题的爬行器,但它实际上是一整套关于特定 资源的自动建没方法,实现在w e b 上查找、获取、索引和维护与特定主题相关的教育资源, 以建设w e b 主题资源。w 曲内容由分布的f o c 组来管理,每个组专注于一个或多个主题。 m a p p i n g i np r o c e e d i n g so f t h e 尹i n t e r n a t i o n a lw o r l d w i d ew e bc o n f e r e n e 圮,b r i s b a n c e ,a u s t r a l i a ,19 9 8 6 5 4s c h a k r a b a r t i ,m v a nd e n b e r g ,e ta 1 f o c u s e dc r a w l i n g :an e wa p p r o a c ht ot o p i c s p e c i f i cw e br e s o u r c e d i s c o v e r y i np r o c e e d i n go f t h e8 t hi n t e r n a t i o n a lw o r l dw i d ew e bc o n f e r e n c e 。t o r o n t o ,c a n d a ,1 9 9 9 5 4 5 5 数学论坛分类目录h t t p :m a t h f o r u m o r g l i b r a r y t o c h t m i 6 f o c u sp r o j e e t h t t p :w w w e s b e r k e l e y e d u - - - s o u m e f o c u s 一4 第一章绪论 它只需在硬件和网络上作很小投资,就可以达剑很好的w e b 主题资源覆盖度。f o c 的研究 目标是精心挑选和爬行与预定义主题相关的教育资源,尽量避免对无关资源的爬行,这样可 以1 了约硬t q - 幕n 网络资源尹使得爬行结果具有更好的时效性。 该系统的最早版本网采用了两个程序:一个是分类器,用米计算f 载文档与主题的相关 度,同时也j h j 米指导爬行器优先爬行相关资源;另一个程序是净化器( d i s t i l l e r ) ,用米确定 那些指向很多相关资源的教育资源( 在h i t s 算法中,称之为中心教育资源) 。h j 相同的分类器 同时米控制待爬行队列的优先级和评价卜载教育资源的相关度,这样做会影响爬行性能的客 观评价,错误地扩人了性能。这在方法论上存在一个错误。在意识到这个问题之后,该系统 的改进版本就设计了两个分类器,一个用米指导爬行,另一个用米计算下载教育资源与主题 的相关度。 为了减少用户最初使用系统时的学习采川经典的分类,如y a h o o 、o d p ,预先建立了一 个分类体系和相关的w e b 教育资源,使得j j 户一开始就可以取得很好的使用效果。在使用 的过程中,用户可以对分类进行选择和细化,只选择自己感兴趣的类,对某些类进一步划分 子类。同时,对某主题的教育资源,系统还计算山邻近教育资源,这些教育资源可能与该主 题相关。用户在浏览的过程中可以对近邻教育资源进行审查,如果相关则纳入该类主题下。 f o c u sp r o j e c t 与本论文研究的内容有相似之处,在主题爬行方面,本论文从中借鉴了一 些思想。该项目为川户预先提供分类体系和相关资源的功能可以有效地减少用户的学习时 间,提高系统的可川性。但是f o c u sp r o j e c t 没有提供基丁主题词的搜索,只是根据用户提供 的w e b 教育资源来找出与之相似的教育资源。另外,它所搜集资源的数量有限。 3 c i t e s e e rp r o j e c t n e c 研究所主要目标是致力于k 期的计算机科学和物理科学的基础研究,为日本电气 公司的产品研发提供技术储备和扩人自己在科技界的影响力。为了解决其科研人员利用科学 文献的效率,及时获取最新科学文献及其相关w e b 地址,n e c 研究所于1 9 9 9 年建设了一 个科学文献数字图书馆c i t e s e e r 7 。c i t e s e e r 主要是为计算机研究提供文献保障,可能的话将 会很快发展到物理学科。 专门收集在w e b 上的各种格式的论文,包括学者个人主页、研究机构、计算机专业的 大型商业数据库等,对其内容做深入分析,同时抽取它的参考文献( r e f e r e n c e s ) ,利用 s c i ( s c i e n c ec i t a t i o ni n d e x ) 技术,建立了一个r e s e a r c hi n d e x 数据库,为科研人员提供文献服 务。为了实现自动化操作,s l a w r e n c e 和c l g i l e s 等人设计了一个自治引文索引系统8 ( a u t o n o m o u sc i t a t i o ni n d e x i n g ,a c i ) 。该系统可以自动查找、抽取引文、判断不同格式的引 文是否属于相同文献、识别论文主体的上下文、提供引文分析方面的统计数据。这些自动化 技术的应用大大地降低了资源建设的成本,提高了资源建设的效率,使c i t e s e e r :获得巨大 7 r e s e a r c hi n d e x 主页h t t p :e i t e s e e r e o m 8s l a w r e n c e ,c l g i l e s ,k u r t b o l l a c k e r d i g i t a ll i b r a r i e sa n da u t o n o m o u sc i t a t i o ni n d e x i n gi e e ec o m p u t e r 1 9 9 9 ,3 2 ( 6 ) :6 7 7 1 5 - 第一章绪论 成功。之后,该公司利川相同技术很快推出了一个新的专业数字图书馆e b i z s e a r c h 9 ,用来 搜集w e b 上的那些关于电子商务方面的论文。 该项日符合w e b 在线资源自动搜集的宗旨。它的数据米源相对比较稳定,主要来自学 者的个人主页、研究机构主页、商业数据库等,并且只分析格式标准的研究论文,不搜集 w e b 教育资源内容。它的研究重点与本论文差距较大。 4 h a r v e s t & g r e e n s t o n e 据笔者了解,最甲的w e b 资源搜集与整理方面的软件是1 9 9 4 年资源发现国际互联网研 究任务组( i r t f r d ) 开发的h a r v e s t 系统。该项目的研究动机是在网络环境下索引特定主 题的资源,以形成主题馆藏。h a r v e s t 是一个优秀的文档采集器,可以卜载网络资源,经索 引后再分发出去。在当时w e b 资源较少的情况下,对4 5 0 0 0 个教育资源进行索引,它可以 配置成为自动收集w e b 上相关资源的系统。 尽管g r e e n s t o n e l 0 项目起源7 - - h a r v e s t ,但g r e e n s t o n e 比h a r v e s t 复杂得多,提供了更多 功能。g r e e n s t o n e 是新西兰数字图t 侈馆的一个项目,它提出了一个完整的数字图忙馆系统, 采集到的资源库是可维护的、可检索的、也是可浏览的。在该系统中提供了一个资源采集器 ( c o l l e c t o r ) ,根据用户提供文档信息、数据源等具体地址,然后再去爬行。最后从爬行的结 果中抽取t i t l e 、e m a i l 、简要描述等信息,转换成x m l ,对其索引抽取元数据、提供 服务,代替了繁琐的人j r 操作过程。 g r e e n s t o n e 的特点是为数字图书馆提供了一整套资源自动建设j 【:舅和流程,功能强人, 可以有效地建设i n t e m e t 虚拟馆藏。但该系统没有提供合适的可以在w qb 上夯找主题资源的 t 具。在主题资源建设的时候,主题资源的地址是由人工来发现的,并i 在操作过程中还需 要人工的参与。 1 2 2 目前存在的问题 当前教育工作者通过互联网对基础教育资源的获取通过两种途径,第一种就是通过对已 知教育门户网站的友情链接中提供的教育资源网站来获取资源,通过以浏览的方式发现新的 教育资源网站和教育资源。这种方式比较矧定,用户获取的教育资源的目标网站较少,由于 是浏览方式查找,这种方式即费时又费力且不能满足需要。第二种方式就是通过一些通用的 搜索引擎如:b a i d u ,g o o g l e 等去查找教育资源。这种方式是教育用户比较常用的一种途径。 但是这种方式目前在着很多的问题,具体表现在以下几点: 1 检索结果的深度不够 9 e b u s i s e a r c h 主页h t t p :w w w , e b i z s e a r e h o r g o i h w i t t e n ,r j m c n a b ,s j b o d d i e 。a n de ta 1 g r e e n s t o n e :ac o m p r e h e n s i v eo p e n s o u r c ed i g i t a ll i b r a r ys o f t w a r e s y s t e m i n5 t ha c mc o n f e r e n c eo nd i g i t a ll i b r a r i e s ,s a na n t o n i o ,t e x a s ,j u n e 2 - j u n e 7 ,2 0 0 0 ,a l s ot i t l e da c m p r o c e e d i n g so fd i g i t a ll i b r a r i e s ,2 0 0 0 ( d l 2 0 0 0 ) ,s a na n t o n i o ,t e x a s ,2 0 0 0 113 12 1 6 - 第一章绪论 据统计,教育资源在互联网上的存储形式一般是采用静态网页和动态网页的形式。但是 其中有7 5 的教育资源是以动态网页的形式存放住专业学科的数据库中。通用搜索引擎为 了避免资源采集器陷入动态网页的海量数据库中,提高其卜载速度,一般情况下更倾向于静 态网页的卜载。从而导致通j j 搜索引擎对于教育资源的搜索是十分有限的,绝人多数的教育 资源并没有纳入通州搜索引擎的索引范围。 2 检索结果的主题性不强 通用搜索引擎住网页的搜索上更注重j 泛性和通用性,并没有根据特定的领域的分类或 是知识的关系而进行搜索。在检索方式上,一般采用的是关键字的检索,只要网页信息中出 现用户输入的关键字就将其列为检索结果。教育用户检索的目的是要查找剑与教育相关的资 源,但是返同的大量结果信息中人多数的信息与教育不相关。比如:教育用户要查找与语文 课文有关的“两种蝴蝶”,但检索结果中大多数的信息都是与教育无关的信息。 3 检索结果的质量问题 互联网上的信息无论从数最还是类型都是以指数级的速度增长,大量信息的存活期却在 缩短,这导致通用搜索引擎对网页的索引的及时性很难保持,大量返同的结果为无效或是过 时的。在海量的返同结果中要找到与教育相关的资源还得需要教育用户通过对结果信息的二 次人上处理,这种方式往往费时费力。 4 检索的结果的资源类型单一 随着信息技术与多媒体技术在教育教学中的应用,教育资源的媒介类璎得到了极人的丰 富,已从传统的文本方式向多媒体方式转变。教育资源的类型有向多媒体化发展的趋势。教 育用户对于教育资源的需要已呈现多样化的需求。但目前的通用搜索引擎由于技术等原因, 搜索的结果的类型还是局限在以文本方式为主的资源上,还是不能满足教育用户教学多样化 的要求。 综上所述,正是由于教育用户对教育资源的需求与大量w e b 资源之间的矛盾为教育技 术工作者提出了新的要求、新的挑战。如何解决教育用户对教育资源的需求,如何即时高效 的为教育用户定位指定学科、类型的教育资源? 这将是本文主要研究和解决的问题。 1 3 研究意义 要满足教育用户对教育资源的需求,就需要在教育资源与教育用户之间架起一座桥梁。 解决教育资源的检索与定位问题需要借助丁一定的技术和方法。垂直搜索引擎技术的出现无 疑为教育技术工作者对这一问题的解决指供了新的思路和方法。 垂直搜索引擎,即专业或专用搜索引擎,就是专为查询某一学科或主题的信息而产生的 查询工具,专门收录一方面、某一行业或某一主题的信息,对解决实际查询问题要比搜索引 擎门户有效得多。将垂直搜索引擎技术应用于基础教育领域,实现对基础教育资源的搜索与 - 7 第一章绪论 定位基础教育资源搜索引擎,无疑为教育资源与教育用户之间架起了一座桥梁。 1 3 1 基础教育主题的资源搜索与定位 基础教育资源搜索引擎的主要目标就是要解决教育用户不能对需要的教育资源进行直 接定位和获取的问题。基础教育资源搜索引擎通过对面向基础教育的资源进行面向主题的、 智能的收集、下载。最人限度的卜载与基础教育相关的资源与教育资源,同时最人化地避免 与基础教育无关资源与教育资源的- 卜载。教育用户将会通过基础教育资源搜索引擎的检索获 取与基础教育相关的资源列表,并可以直接对教育资源进行定位和获取。不需要对教育用户 对检索结果进行人上的二次分析与处理。比如:用户输入关键字“两只蝴蝶”,检索的结果 都将是与基础教育相关的资源。 1 3 2 基础教育资源属性的提取与分类 教育用户对资源检索获取要求不仅仅与基础教育相关,还会根据自己的实际要求检索不 同学科、不同学段、不同类型的教育资源。基础教育资源搜索引擎能够做剑对下载的资源的 内容进行文本挖掘,运用分类与信息提取对下载资源按学科、学段、资源类型等属性标引。 1 3 3 基础教育资源的深度挖掘与及时更新 伴随着基础教育改革的不断深入,教育资源也会随着教材、教学方法的变化而不断山现 新的版本。互联网上的教育资源网站会不断对教育资源进行即时的更新。基础教育资源搜索 引擎通过资源更新算法实现对教育资源网站不断的更新,及时为教育用户提供最新的资源结 果。 1 4 研究方法 本论文主要采用了如下的研究方法: 1 文献调查法 笔者利用国际互联网和光盘检索,从互联网上的联机数据库、学者的个人主页、公司或 大学实验室的主页、知名项目的主页、b b s ( b u l l e t i nb o a r ds y s t e m s ) 论坛以及与学者通过电 子邮件直接交流等方式,搜集了大量的中英文文献。除了网络检索外,还在中科院文献情报 中心、中国国家图二 馆用手工方式查阅了大量的期刊和会议论文集,基本把握了垂直搜索的 研究动向和成果,为本论文确定研究重点和研究方向奠定了基础。 2 实验法 笔者在分析目前已有算法的基础上,对这些算法进行改造和优化并给予实现,然后采用 定量分析和定性分析相结合的方法,对这些算法的实验结果进行了分析和评价。 8 第一章绪论 3 系统方法 基础教育资源搜索引擎是一个完整的系统。这一系统是由多个功能模块组成,每个模块 使川到了不同的技术与方法。各模块之间需要协同i :作,就必须要心剑系统的方法,从系统 的角度研究和发现解决方案。 9 第二章皋础教育资源搜索的介绍 第二章基础教育资源搜索的介绍 w e b 是一个巨人的资源库,蕴藏着各种丰富的数字化资源。在教育信息化进程中,“ 大基础教育用户也越来越依赖数字化的教育资源,正是这种实现需求促使了垂直搜索引擎技 术的发展,促进了垂直搜索引擎技术与基础教育领域资源搜索的结合。 本章将同绕垂直搜索技术以及在基础教育资源搜索引擎中涉及到的教育信息资源、基础 教育资源展开评述。 2 1 相关概念 基础教育资源搜索是指借助于垂直搜索技术,在w e b 上发现并获取与基础教育相关的 资源的过程。下面将阐述与基础教育资源搜索相关的儿个概念。 2 1 1 搜索引擎 现代意义上的搜索引擎最早出现于1 9 9 4 年7 月。当时m m a u l d i n 将j l e a v i t t 的蜘蛛程 序( 在本论文中称为信息采集器) 接入到其索引程序中,创建了大家现在熟知的l y c o s 。在同 一年度,斯坦福大学的两名博+ 生d f i l o 和杨致j 匹( g e r r yy a n g ) 共同创办了超级目录索引 y a h o o ,使搜索引擎的概念深入人心。从此搜索引擎进入了高速的发展阶段。 从基本原理上讲,搜索引擎都包含爬行器、索引器和检索器等三个部分。但是在实 现方式上采用了不同的解决方案,所以它们具有各自不同的特点。按照搜索引擎采集w e b 网页的方式米划分,目前的搜索引擎人致可以分为目录式搜索引擎、爬行器式搜索引擎、元 搜索引擎和客户搜索引擎等四类。 1 目录式搜索引擎 目录式搜索引擎是以y a h o o 为代表的搜索引擎,它们主要依靠人工维护网站索引。关 于目录式搜索引擎,需要关注的是开放目录( o p e n d i r e e t o r y p r o j e e t ,o d p ) 。目录式搜索引擎 通过人工浏览各站点的信息,按照一定的分类规则或分类体系,对网站进行分类。目录式搜 索引擎的优势在于内容比较好的站点更容易被编辑所认同,更容易被索引,所以它们的索引 质量比较高。目录式搜索引擎分类结构清晰、错误较少,比较符合人们的阅读习惯。缺点是 工作人员多、整理周期长、速度慢、人工干预成份多,不能适应w e b 资源的规模发展。 2 爬行器式搜索引擎 爬行器( c r a w l e r ) 是指可以在w e b 漫游并按照一定规则自动从w 曲上下载网页的计算机 程序。它对应的同义词有“蜘蛛”( s p i d e r ) 、“机器人”( r o b o t ) 、“漫游者”( w a n d e r e r ) 等。本 论文统一采用“信息采集器”来代表该类计算机程序。 爬行器式搜索引擎的全部上作基本上由程序自动完成,人工参与成份很少。它通过爬行 一1 0 第_ 二章皋础教育资源搜索的介绍 器在网上爬行,将搜索剑的网页自动地加入到本地索引数据库中,川户可以很快从索引数据 库查剑更新后的信息。如果某个网站的网页内容更新了,搜索引擎会自动发现这些变化,并 很快更新本地索引数据库,及时反映到用户的检索结果中。它的优势在丁白动化程度高、维 护费用低,更强调技术上的创新和提高,也更适合于开展研究j l :作,口:l 而成为当前研究的热 点。 现代搜索引擎一般将上述两种方法结合,形成混合式搜索引擎。如g o o g l e 、北人大网 等等,它们在爬行器式搜索引擎的基础上,提供目录服务。 3 元搜索引擎 元搜索引擎是指在统一的用户查询界面与信息反馈形式下,共享多个搜索引擎的资源库 为用户提供检索服务的系统。它的最人特点是没有自己的索引数据库,只提供一个统一的检 索界面。当用户向元搜索引擎提交查洵式时,它将该查询式翻译成相对应的搜索引擎查询式 并分别发送出去,接受各搜索引擎的检索结果,按照一定的规则,将结果返【亓l 给最终用户。 元搜索引擎的优势在于用户不需要记忆不同搜索引擎的地址和查询语法;查询多个索引 数据库,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论