(计算机软件与理论专业论文)远程教育资源智能检索系统的研究与设计.pdf_第1页
(计算机软件与理论专业论文)远程教育资源智能检索系统的研究与设计.pdf_第2页
(计算机软件与理论专业论文)远程教育资源智能检索系统的研究与设计.pdf_第3页
(计算机软件与理论专业论文)远程教育资源智能检索系统的研究与设计.pdf_第4页
(计算机软件与理论专业论文)远程教育资源智能检索系统的研究与设计.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在信息技术飞速发展的今天,互联网已成为每个人工作、学 习和生活中的一部分,用户上网离不丌搜索工具的帮助。搜索: 具以一定的策略在互联网中搜集、发现信息,并对信息进行理解、 提取、组织和处理,为用户提供检索服务,从而起到信息导航的 目的。本文通过分析国内外搜索工具的特点和研究现状,指出了 研究设计“远程教育资源智能检索系统( s y s t e mo fi n t e l l i g e n t s e a r c hi nd i s t a n te d u c a t i o nr e s o u r c e 以下简称s i s d e r ) ”的 必要性和重要性。 论文系统地介绍了s i s d e r 模型研究、设计过程,阐述了 s i s d e r 模型的工作原理。s i s d e r 主要由分布式并行p h p d i g 、信 息分析器、信息资源数据库等模块构成,支持基于x m l 封装的信 息检索。s i s d e r 是一个面向远程教育者与远程学习者专用、可调 式的i n t e r n e t 中文智能搜索工具,s i s d e r 采用客户机中间件 服务器( c m s ) 三层体系结构规划设计,由服务器端承载资源管 理器、中间件承载智能工作任务( 信息分析器、资源搜集代理) 、 客户端实现用户交互与数据表示,采用c m s 模式可同时减轻客 户机和服务器两端负载,使其协同工作以提高服务质量和效率, 并通过对搜索对象属性的语义处理来提高检索性能。 论文同时介绍了s i s d e r 搜索系统的信息封装处理模型,描述 了x m l 信息封装过程,以及p h p o i g 的多线程p h p 编程。p h p d i g 是一个分布式并行搜索的系统,它对整个s t s i ) e r 系统的数据来 源、信息及时更新起决定作用。 关键河 搜索技术x m l 封装p h p d i gp h p 编程多线程 a b s t r a c t w i t ht h ee x p l o s i v ed e v e l o p m e n to fi n f o r m a t i o nt e c b n o l o g y i n t e r n e ta so n eo f t h em o s tc o n v e r t i e n c ea n dh e l p f u l m e d f u mt og e ti n f o r m a t i o nf r o mh a sb e c o m ea ni m p o r t a n tp a r t o fp e o p l e sw o r k ,s t u d ya n dd a i l y1 i f e t h e r e f o r e ,i n t e r n e t s e a r c h e r sw h i c hh e l pt of i n da n dg a t h e ri n f o r m a t i o nserve a sa ne s s e n t i a lt o o lf o ri n t e r n e tu s e r s ,a n dt h e yc a r la ls o o f f e rs e a r c h i n gs e r v i c eb yc o l l e c t i n g ,o r g a n i z i n ga n d d is p o s i n gi n f o r m a t i o n t h i sa r t i c l ep o i n t so u tt h e n e c e s s i t ya n di m p o r t a n c eo fr e s e a r c h i n ga n dd e s i g n i n gt h e s y s t e mo fi n t e l l i g e n ts e a r c hi nd i s t a n te d u c a t i o nr e s o u r c e ( s i s d e r ) b ya n a l y z i n gs e a r c h e r s c h a r a c t e r i s t i c sa n d p r e s e n ts t a t u sb o t hd o m e s t i ca n da b o a r d t h i st h e s i si n t r o d u c e ss i s d e r sm o d e lr e s e a r c ha n d d e s i g n i n gp r o c e s sa sw e l la si t sw o r kp r i n c i p l e s i s d e ri s m a d eu po fm o d u l e ss u c ha sd i s t r i b u t e dp a r a l l e lp h p d i g ,d a t a e n c a p s u l a t e dm a c b in e ,i n f o r m a t i o ns o u r c ed a t a b a s ea n ds o o n ,s u p p o r t i n g i n f o r m a t i o ns e a r c h i n gb a s e do i lx m l e n c a p s u l a t i o n s i s d e ri sa na d j u s t a b l ei n t e r n e ti n t e l l i g e n t s e a r c h e ri nc h i n e s ef a c j n gd i s t a n c ee d u c a t i 0 1 3 i tu s e st h r e e 1 a y e r so fs y s t e m a t i es t r u c t u r a lp r o j e c td e s i g n t h es e r v e r i su s e dt ob e a rt h es e a r c h i n gt a s km a n a g e r ,w h i l et h em i d s t t ob e a rt h ei n t e l l i g e n tw o r k t a s ka n dc l i e n t u s i n gc m s p a t t e r ncan1i g h t e nt h e1 0 a do fb o t ht h ec ti e n ta n dt h e s e r v e rt oi m p r o v et h es e r v i c eq u a l i t ya n de f f i c i e n c y ,a n d d e v e l o pt h es e a r c b i n gf u n c t i o nb yh a n d l i n gt h es e m a n t i c m e a n i n go fs e a r c h i n go b j e c t t h i st h e s i sa l s oin t r o d u c e st h ei n f o r m a t i o nh a n d l i n g m o d eo fs i s d e rs e a r c h i n gs v s t e m ,a n ds h o w st h ep r o c e s so f t h ee n c a p s u l a t i o no fd a t ai n f o r m a t i o na n dt h em u l t i t h r e u d p h pp r o g r a mo f 。p h p d i g w h i c hi sds t r i b u t e dp a r a l l e l s e 8 f c h i n gs y s t 0 1 1 1 a n ( isd e c i s i v oi nt h ed a t as o u r c ea n d _ f l f 7 0 r m a t i o nr e n e w a ljnt i m e o fs s d e r k e y w o r d s :s e a r c h i n g1e c l i d 0 1 0 9 y ,x m lc r i c ; p sl i lh ti e n ,p h p d i g p i i l p r o g f hr r l m u t i t h r e a d 独仓q 性声明 本人声明所呈交的学位沦文是本人在导师指导下进行的 研究工作及取得的研究成果。据我所知,除了文中特别加以标 注和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得东北师范大学或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:驰! 参日期:坐受生且扛旦 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学 位论文的规定,即:东北师范大学有权保留并向国家有关部门 或机构送交学位论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权东北师范大学可以将学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或其它复制手 段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者毕、i k 后去向 工作单位: 通讯地址: 丕些垣太圈塑史:垒电晒: 匿壹亘匿厶鱼! ! i ! 茎邮编: 5 2 6 9 9 0 0 1 :3 0 0 2 4 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 第一章引论 l + 1互联网技术及应用 互联网,即i n t e r n e t ( 因特网) 是全球最大的计算机网络。 从概念上讲,i n t e r n e t 是由多个网络互联而成的一个庞大韵网络 集合,在组织结构上,i n t e r n e t 是路由器、交换机等连接起来的广 域的计算机网络。i n t e r n e t 使人类的生活发生根本意义上的变化。 人们既可以通过互联网收发电子邮件;浏览新闻;上传、下载文 件又可以实时进行网络聊天或观看在线影视。随着中国互联网上 网人数的持续增长,电子政务、电子商务以及远程教育等互联网 应用也得到快速发展。互联网为社会的深层需求提供了多神服务 功能的活动平台。中国的互联网产业已经进入一个应用更为广泛、 内容更加丰富多彩的发展阶段。i n t e r n e t 网上的计算机,遵循统一 的t c p i p 协议。t c p i p 以层次化的对等通信管理网上的信息交换。 基于i n t e r n e t 技术的信息服务系统建设平台,是互联网、数据库 与全文检索技术的完美结合。 1 2 基于w e b 检索系统的研究现状 随着t n t e r n e t 的延伸,人类对网络的需求增加,各种网站在 这种环境下迅速增加。网络资源也成几何级数增长,为整个人类 社会产生了划时代的影响,渗透到各行各业。然而,网络资源的 存在是一回事,网络资源的摄取又是另一回事,资源存在而不会 主动为人类服务,只有被人们所利用才能体现其价值。所以,我 们为了更好地享受这种快速、方便的信息资源,必须通过主动方 式进行鹰找,去除不必要的信息,搜索我们所需的资源。针对这 种对网络资源的特殊需求,诞生了许多满足这样功能的各种搜索 工具网站。 1 2 1i n 3 、e r n e t 上的著名导航 搜索引擎是一种用帮助州络用户查洵信息的搜索工具,它 以一定的策略在互联网中搜集、发现信息,并对信息进行理解、 提墩、组织和处理,为用户提供榆索服务,从而起到信息导航的 目的。 l y c o s ) ) l y c o s 创建于j 9 9 4 年,是昂早的搜索1 具,也是 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 许多网络使用者经常拜访的入门网站,l y c o sa s i a 能让网络使用 者依据个人兴趣搜寻资讯,对1 9 0 0 万u r l ( 包括f t p 和g o p h e r ) 进行索引,覆盖9 5 的w e b 地址;但1 9 0 0 万网页不是全文索引, 仅其中的3 6 0 万有比较完整的索引。索引的内容为页名、u r l 、子 标题、文本的前2 0 行和1 0 0 个加权的词。对提问可以选择5 种匹 配命中级别:松匹配、一般匹配、良好匹配、紧密匹配和强匹配。 另一个特色是建立了一个叫a 2 z 的l y c o s 数据库,收有最常用 主页的主题目录。 y a h o o y a h o o 的出现,使搜索工具的发展也进入了黄金时 代,相比以前其性能更加优越。y a h o o 数据库有6 5 ,0 0 0 篇h t m l 文 献和其它i n t e r n e t 资源,共2 0 多万个条目,其最大特色是提供 优秀的主题浏览工具,对网站信息按主题建立分类索引,按字母 顺序列出1 4 个大类,每个大类所包含的子类有精炼的描述,每个 子类有数以千计的相关的i n t e r n e t 网站信息。但y a h o o 只是一个 编辑网页地址目录的网站,没有一项出色的后台搜索工具技术。 g o o g l e ) ) g o o g l e 于1 9 9 8 年从第一代搜索工具中脱颖而出。 两位斯坦福大学的博士生l a r r yp a g e 和s e r g e yb r i n 创立了 g o o g l e ,g o o g e 改进了y a h o o 单一的目录服务搜索方式,增加了 网页搜索及网页评级技术,即p a g e r a n k ( 佩奇排序) :采用链接信 息分析技术,对搜索到的网页进行排序,排在前面的信息价值最 高。用页面中所粘贴的链接数去除原始链接页面的价值所得到的 结果就是链接目的页的价值。比如,由于一个1 0 0 点的页面粘贴 了二个链接,那么每个链接目的页就各自得到5 0 点;如果9 点的 页粘贴了三个链接,那么每个链接目的页就是9 的三分之一即3 点,点数多的页面列于点数低的页面前面。g o o g l e 把网页级别作 为网络搜索工具的基础,是一部高速搜索工具,它提供给个人搜 索用户的服务要比目录式搜索有效得多。特点:面向全球所有网 站,用户界面相当好,并且具有一定的大写、名词识别能力,有 庞大的数据库,有足够的响应能力来处理任何极度复杂的搜索, 提供较全面的检索结果信息。 2 2 中文榆索系统介绍 天网) ) 天网w w w 资源检索系统足中围教育和科研汁算机网 示范_ r 程应用系统课题之,也是c e r n i 玎”九h ”攻关颈乩由北大 计算机系网络研究室设计丌发。这是一个w w w 资源索引和查找服 务系统它提供一种腧索w e l ) 资源及n e w s g t 训o tp 的手段。天网大约 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 收集了1 0 0 万个w w w 页面( 国内) 和1 4 万n e w s g r o u p 文章。 网易) ) 网易新一代丌放式日录管理系统,结合了网站开发 的搜索工具的特点,对所有站点信息提供全面快速的检索功能, 使得用户能高效便捷的查询出目的站点。捌有超过一力个类目, 超过2 5 万条活跃站点信息,臼增加新站点信息5 0 0 1 0 0 0 条,日 访问量超过5 0 0 力j 次,同时它需要近万名义务目录管理员。 天极网) ) 天极( y e s k y ) 是中文i t 门户,其技术核心是网探。 网探是搜索客在搜索工具基础上开发出来的一项增值服务。 如果使用天极的服务,需要在主页中加入一段搜索客提供的 h t m l 代码( 即搜索时候的查询框) 。搜索客的s p i d e r 会自动到互 联网上的站点进行数据采集,采集后的信息纳入到搜索客数据库。 信息采集完成后,该网站就拥有全文检索功能了。当用户到该网 站进行全文检索的时候,实际上被引导到搜索客的服务器上。 百度) ) 百度是较为领先中文搜索工具。百度的核心技术也是 超链分析技术,百度在中文互联网拥有较大优势,支持搜索1 亿3 千万中文网页,是世界上最大的中文搜索工具。百度的服务 器分布在全国各地,它能直接从最近的服务器上,把所搜索信息 返回给当地用户,使用户享受较快的搜索传输速度。 百度理解中文用户搜索习惯,开发出关键词自动提示:用户 输入拼音,就能获得中文关键词f 确提示。百度还开发出中文搜 索自动纠错;如果用户误输入错别字,可以自动给出正确关键词 提示。百度网络信息检索系统整体解决方案,包括目录检索、网 页检索及站内检索都较为成熟,中国门户网站搜狐( s o h u ) 、新浪 ( s i n a ) 、中国人( c h i n a r e n ) 及2 1 c n 等中国著名网站采用的均 是百度搜索工具。 1 3 关于远程教育资源 1 3 1 远程教爵及远程教育资源库 远程教育:远程教育是指由特定的教育组织机构,综合应 用一定社会时期的技术,收集、丌发、设计、制作和利用各种教 育资源、建构教育环境,并基于定社会时期的技术、教育资源 和教育环境为学生提供教育活动。存所有活动中,教师是以教爵 资源的形式或学习帮助者的身份i 学生保持着种准永久性分离 的状念:而学生与教育组彭 机构( 教师) 或学生与学生之问将通 过建祝双向或多向通信机制保持刖卜j 会话。 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 远程教育资源库:远程教育资源库包括媒体素材库、试题 库、试卷库、案例库、课件库、文献资料库、常见问题解答库、 资源目录索引库和网络课程。基于远程教育资源库的教学工具、 学习系统、授课系统、教育资源编辑和制作系统都要与上述资源 发生关联,比如:考试系统要与试题库系统发生关联,评价系统 则涉及教育资源的各个部分。所以教育资源库建设非常重要。随 着远程教育发展,教育资源建设将会不断成熟和完善,资源库建 设也将成为远程教育机构的最重要的研究内容。 1 3 2 教育部远程教育资源封装标准介绍 教育资源封装目的:随着网络教育的不断发展,基于 i n t e r n e t 的学习内容的共享和互换越来越重要,为使学习内容可 以在不同的创作工具、学习管理系统和运行环境之间相互交换和 使用,教育资源封装标准应运而生。此标准的目的是定义一种能 够用来交换学习内容的标准数据结构。用户( 学校和学习资源开 发商) 系统可以通过采用统一的包装格式消除错误并增加互操作 性,从而提高使用效率和质量。 教育资源封装标准主要包括:内容包装信息模型规范:内 容包装x m l 绑定规范 c e l t s 一9 2 ( c d l 6 ) ;内容包装实践指南 c e l t s 一9 3 ( c d l 6 ) 。包装技术规范指能够用来交换学习内容的 数据结构,为教育执行者和学习资源开发者制作学习内容提供标 准数据绑定,是对学习内容之间进行互操作所需的数据结构以及 对学习内容的规范包装。 依据内容包装规范制定不同资源既可以在不同的平台被执 行,也可以在不同的制作:f 具中被重用,还可以作为独立单元进 行传输和交换。内容包装规范使学习内容成为可以在多个应用与 学习环境之间进行交换和重用的教学组件,有利于教育资源共享 与检索。 内容包装规范的核心标准就是资源包,图1 3 2 描述资源包 的绢成。 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 包交换 内容清 立件 包 内容清竹 元数据 组织结构 资源引用 f 子内容清单 物理资源 l 内容文件。媒体素材,评估文件 等l 图1 3 2 内容包装信息模型概念图 资源包:包括内容清单文件和物理文件。包交换文件将一个 包压缩成一个单独文件( 如z i p ,j a r , c a b ) ,以便于网络传 输包。一个包代表了一组可单独使用和可复用的学习内容。一个 包可能是课程的一部分、一门课件或者课程的集合,它是可以独 立使用的有意义单元,还可以被组合或分解成其它的包。 内容清单包含:元数据,是对内容清单作整体描述,也是对数 据属性的描述;组织结构,描述了在内容清单中内容的一个或多 个组织结构;资源引用,对所有实际资源和内容清单中所需媒体 元素的引用,以及描述资源的元数据和对任何外部文件的引用; 子内容清单,零个或多个嵌套的内容清单。 物理文件:指媒体文件、文本文件、测评文件和其他以文件 形式存在的数据。 教育资源具有一定的封装性和可分解性。单个的教育资源可 以封装成一个完整的学习对象,也可以分解成几个学习对象,这 些可通过教育资源建设技术规范的描述来确定学习对象的粒 度。对于已经被描述过的教舟资源,既可以保留在原来的系统中, 形成分布式的教育资源,也可以被存入统一教育资源库。这些资 源从物理位置卜讲是分丌的,但是由于它们通过标准化的统一标 谚 ,因此在用户查询、搜索、使j t j 时,就像面对的是一个虚拟资 源大库。资源的使用者可以通过规范的实例,即教育资源属性标 识柬过滤、选择特定主题的学习内容,从而简化快速的更新、搜 索和内容管理的过程。并以规范化的属性标谚l 为依据,刑搜索到 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 的有用教育资源进行整合,而学生用户也可以通过t n t e r n e t 构建 自己的个性化网上学习,从而使教育资源被设计成能在多个系统 中使用的学习对象,提供给多个领域,这比重新丌发资源节省了 时洲和精力,实现了资源的可重用性。 x m l 与教育资源属性的绑定:) 【m l 语言单独存在时并没有任 何应用价值,只有与具体的领域结合,才能发挥其最本质的特色。 x m l 与教育资源属性的绑定是x m l 应用于教育领域的有效范例。 教育资源属性集以l o m 为基本框架,同时针对每类资源不同 的特点提供了分类的属性集合,这些属性的一个重要作用就是为 用户对资源进行检索时提供依据。将教育资源属性与x m l 标记一 对应,根据教育资源建设技术规范编写具有良好结构的x m l 文 档,以标记和标记中的内容准确表达该属性所反映的教育资源某 一方面的信息。由于x m l 语言没有对平台的依赖性,并且在全球 范围内是公开的,因而使对资源的描述具有一套能与国际接轨、 通用性广的标准。 因为资源的属性本身携带着关于该资源内容方面的信息,这 样用户就可根据自己的需求,使用搜索工具借助x m l 文档中标记 和内容之间的依存关系对教育资源进行定向检索。教育资源标注 属性的x m l 文档不仅可用于文本类型的资源,也可利用标记和标 记之间的文字描述多媒体资源的内容。 x m l 文档样例: ( 1 - 一文件名为p l a n t x m l 一 ( v i d e o 植物 对上例x m l 文档内容进行检索,关于植物的视频资源,搜索 工具会根据 “ ”和“ ”标记进行定位,再根据 “ ”和“ ”之间的信息确定视频的 内容。 i d 论文课题的选定及应用丽景 4 1 选定课题 由于信息技术的飞速发展教育和学习的个性化需求越来越 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 明屁,已成为新世纪之初各国教育发展战略和决策的重点课题。 教育f 从校园和课堂的狭窄天地中、从大学辖区和国家边界中解 放出来,走向更广阔的世界,并开始向教育对象、教学时守、教 育观念和教学实践丌放。近几年发展起来的现代远程教育借助计 算机网络及卫星数字通讯技术逐渐开辟出了教育的新时空。 2 0 0 2 年教育部根据远程教育实际建立了一个具有中国特色的 现代远程教育技术标准体系。教育资源建设技术规范 ( c e l t s 一4 1 1 ) 、内容包装信息规范( c e l t s - 9 2 ) 是其中两项 子标准。这两个规范为教育资源的开发者提供一致的标准,统一 了开发者的行为,达到资源属性结构的一致性,实现资源在区域 内广泛共享,并为学习者或教育者查找、评估、获取和使用教育 资源提供支持。教育资源建设规范在促进各级各类教育资源库规 范建设、实现资源数据共享的同时,更有利于教育资源检索系统 的设计与开发。 针对我国远程教育资源缺少专业搜索工具的状况,以及我对 当前远程教育发展现状与需求的了解,并在研究教育资源技术规 范c e l t s 一4 1 、内容包装信息规范c e l t s - 9 1 1 的基础上,确定“远 程教育资源智能检索系统”的研究与设计工作,以期使每个远程 学习者都可以利用专业搜索工具,在远程的任何站点所需要的时 间内检索到网上的学习资源,提高学习效率。 1 4 2 应用前景 目前因特网上还没有针对网络教育资源的专用搜索工具,在 通用的搜索工具上检索教育资源其标准率很低,效率低下,使学 习者学习受到一定的限制,在一定程度上制约了我国远程教育的 开展。远程学习者如何便利地、个性化地获取网上教育资源,将 成为远程教育的重要课题。“远程教育资源智能检索系统”是根 据中国现代远程教育技术标准体系相关标准,研究开发的专业化 检索”r 具,可以帮助远程学习者从学习入口处就检索到适合个性 化的学习资料,这必将带来较大的社会效益。 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 第二章智能检索系统的特点及评价标准 2 1w e b 检索系统的类型及概念 2 1 1 与检索系统相关的网络协议t c p i p 、u r l 、h t t p 等 传输控制协议互联网络协议t c p i p t c p i p ( t r a n s m i s s i o nc o n t r o lp r o t o c o l i n t e r n e tp r o t o c 0 1 ) 协议是互联网的基本协议,由底层的i p 协议和t c p 协议组成的。 t c p 协议是一一种端对端协议。它为两台计算机之间的连接起了 重要作用:当一台计算机需要与另一台远程计算机连接时,t c p 协 议会让它们建立一个连接、发送和接收数据以及终止连接。传输 控制协议t c p 协议利用重发技术和拥塞控制机制,向应用程序提 供可靠的通信连接,使它能够自动适应网上的各种变化。即使在 i n t e r n e t 暂时出现堵塞的情况下,t c p 也能够保证通信的可靠。 i p 协议是互联网低层的网际协议。i p 协议对于网络通信有着 重要的意义:网络中的计算机通过安装i p 软件,使许多的局域网 络构成了一个庞大而又严密的通信系统,把世界上所有接入 i n t e r n e t 的计算机局域网络连接起来,使得它们彼此之间都能够 通信。让虚拟网络看起来好像是真实存在一样。 计算机通过安装i p 软件,保证了计算机之间可以发送和接收 数据,因此,接入互联网的计算机还需要安装t c p 协议来提供可 靠的并且服务。i p 协议只保证计算机能发送和接收分组数据,但 i p 协议还不能解决数据分组在传输过程中可能出现的问题。而t c p 协议则可提供一个可靠的、可控的、全双工的信息流传输服务, 能够保证无差错的数据通信。所以凡是连接到i n t e r n e t 的计算 机,都必须同时安装和使用这两个协议,因此把这两个协议统称 作t c p i p 协议。 统一资源定位符u r i ,( u n i f o r mr e s o u r c el o c a t o r ) u r l 统。资源定位符是w e b 的地址编码。w e b 上所能访问的 资源都有个唯的u r l 。u r 。包括:所用的传输协议、服务器名 称、文件的完整路径。例如:在浏览 j u r l 处键入: h t t p :w w w p er i l i c r l 就可以访东北师大的网站。,统一资源定位 器是标准的编址机制,i _ i j 米定位和检索w e bi 侄何列力的文档。 存。拍文档中单击一下起始链接时,w e b 浏览器将检索其文什名m 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 u r l 给定的文档。大多数用户不知道其原理,他们简单地单击下 并等待所键接的文件显示。 u r l 由三部分组成:代码标识所使用的传输协议;地址标识服 务器;在该服务器上定位文件的全路径名。 超文本传输协议h t t p h y p e r t e x tt r a n s f e rp r o t o c o l 。超文本传输协议。该协议主 要用于从w w w 服务器传输超文本到本地浏览器,在浏览器中访问 的网页地址均以h t t p :开头。 2 1 2 标记语言h t m l 、x m l 比较 h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 超文本标记语言,是一种 标准标记文件的定义。 是标记h t m l 文档的开始,在文件结 束处要有对应的符号 。 是标记文件体的开始,对应 结束符是 。h t m l 的标记既不能构成树型结构文档,也不能 实现查找、过滤和排序功能。 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 可扩展标记语言,其标记 属于语义标记,即只与被标记对象的内容有关,与显示细节无关。 在显示上,由x s l ( e x t e n s i b l es t y l el a n g u a g e 可扩展样式 语言) 来描述数据的显示格式,x s l 是一种x m l 表达语言,与文档 的内容相对独立,可以用来描述任意一个x m l 文档或其中的一部 分。因此,同一套x m l 文档可以由多种x s l 定义显示方式,这意 味着某一教育资源既可以朴素简单的形式呈现,也可以丰富多彩 的形式呈现,这由不同教育情境来决定教育资源的实际表现形式, 为教育资源的多种表现形式提供了可能。 在结构上,x m l 标记可以构成树型结构文档,是一种结构化的 语言。 在功能上,可以实现对文档的查找、过滤和排序。 2 卜3 检索系统的基本类型 搜索工具按其_ i :_ = 作方式主要可分为三种,分别是全文搜索工 具( f u l _ t e x ts e a r c he n g i n e ) 、日录索引类搜索工具( s e a r c 1 【n d e x i ) i r e c t o r y ) 和元搜索工具( m e t ns e a r c hf n g in 。) 。 - 仝文搜索工具 全文搜索工具是名副其丈的搜索: :具,国外具代表性的有 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 g o o g l e 、f a s t a 1 l t h e w e b ,a 1 t a v i s t a ,i n k t o m i 、t e o m a ,w i s e n u t 等,国内著名的有百度( 1 a id u ) 。它们都是通过从互联网上提取 各个网站的信息存入到自己的数掘库,检索与用户查 l | 条件匹配 的相关记录,然后按一定的排列顺序将结果返回给用户,因此他 们是真币的搜索工具。 从搜索结果来源的角度,全文搜索工具又可细分为两种,一 种是拥有自己的检索程序( s p i d e r ) ,并自建网页数据库,搜索结 果直接从自身的数据库中调用,如上面提到的几种工具;另一种 则是租用别的网站的数据库,并按自定的格式排列搜索结果,如 l y c o s 引擎。 - 目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的 搜索工具,仅仅是按目录分类的网站链接列表而已。用户完全可 以不用进行关键词( k e y w o r d s ) 查询,仅靠分类目录也可找到需 要的信息。目录索引中最具代表性的y a h o o 雅虎。其他著名的还 有0 p e nd i r e c t o r yp r o j e c t ( d m o z ) 、l o o k s m a r t 、a b o u t 等。国 内的搜狐、新浪、网易搜索也都属于这一类。 元搜索引擎 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上 进行搜索,并将结果返回给用户。著名的元搜索引擎有i n f o s p a c e 、 d o g p i l e 、v i v i s i m o 等( 元搜索引擎列表) ,中文元搜索引擎中具 代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来 源引擎排列搜索结果如d o g p i l e ,有的则按自定的规则将结果重 新排歹0 组合,如v i v i s i m o 。 2 2 智能检索系统应具备的特点 信息服务的智能性。”智能来自知以”,有综合知识库作为 背景,信息检索和导航服务将更智能。i n t e r n e t 中的语言层面知 识有助于解决”表达差异”问题,例如,只要定义”计算机”、”电子 训算机”、”电脑”是同义关系就可以消除用户由于使用不同的词表 达同一概念而带来的检索困难。另一方面,根据i n t e r n e t 的常识 性的和本体论层次知识对用户的奄询进行相关性联想,提供引导 用户进行下一步查询的线索。这样一步一步地在与用j 、,的交瓦过 樱中诱导用户”表达”出他真限想找的东两,从而实现对查询的智 能导航。这种逐步求精的策略解决了信息榆索”忠实表达”的难题, 下于多语种信息检索问题,电l j _ 蒋:语高层而来解决。 东北师范大学o il 研究生论文远程教育资源智能检索系统的研究i 设计 信息服务的个性化。i n t e r n e t 的知识库可以存放与具体用 户相关的知识( 用户的专业兴趣等) ,搜索工具将利用这些知识来 为用户提供个性化的信息服务。 具有支持a g e n t 的能力。由于w e b 服务器端有综合性知识 库,为智能a g e n t 的活动提供了基础。 2 3 智能检索系统的评价标准 智能检索系统应能自动识别用户的兴趣,并根据用户使用习 惯自动修正、完善用户兴趣( 即具备自学习功能) ,在搜索时根据 用户兴趣进行优化排序,形成符合个性化要求的搜索结果。智能 检索系统可应用于: 大型网站门户搜索,提供用户个性化搜索服务; 专业网站或网站栏目检索,提供符合本网站或本栏目专业 的垂直搜索( 如;可实现从音乐一中国名曲一梁祝等一系列精确的 w w w 搜索范围设置) ; 任意网页相似搜索,提供在任意网页搜索w w w 范围的相似 网页,便于查找相似信息。 搜索工具在最初主要解决”查全”的问题,即如何搜索出更多 的网页:发展到一定阶段后,考虑”查准”的问题,出现了基于关 键词数量评价、基于链接评价、基于大众访问量评价等一系列按 照某一个评价标准优化搜索结果的搜索工具;现在智能搜索工具 以用户的个性要求为评价标准,搜索工具更加智能化、个性化。 当今互联网搜索技术,国内与国际几乎实现了同步发展。大 型的综合搜索工具已经各据天下,研究拓展空间有限,本课题致 力于搜索服务的专业化,并结合智能代理技术,为远程教育学习 者提供专业化的搜索,服务模式为“内容精、准、快”。如查找 有关“计算机原理”的资料。在g o o g l e 上,输入“计算机原理”, 搜索出来有2 6 万个嘲页,罩面包罗万象,有用的、无用的混杂在 一起,如果你想找的网站正好排名在上千、上万个以后,无疑面 埘的是一个茫茫网海,找到这个信息十分困难。而专业搜索工具, 查出的“计算机原理”相关网站只有3 6 0 0 个,针对性非常强,有 效网站与用户的见而机会大大增强。 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 第三章智能检索系统的工作原理及可行性分析 3 1 搜索工具基本工作原理 全文搜索工具 全文搜索工具是从网站提取信息建立信息数据库,一般的全 文搜索工具都具有自动信息搜集功能。自动搜集功能分两种:一 种是定期搜索,即每隔一段时间( 比如g o o g l e 一般是2 8 天) ,搜 索工具主动派出“蜘蛛”程序,对一定i p 地址范围内的互联网站 进行检索,发现新的网站,就会自动提取网站的信息和网址加入 到自己的数据库。另一种是提交网站搜索,即网站拥有者主动向 搜索工具提交网址,它在一定时间内( 2 天到数月不等) 定向向你 的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据 库,以备用户查询。当用户以关键词查找信息时,搜索工具会在 数据库中进行搜寻,如果找到与用户要求内容相符的网站,将根 据网页中关键词的匹配程度,出现的位置频次,链接质量等 计算出各网页的相关度及排名等级,然后根据关联度高低,按顺 序将这些网页链接返回给用户。 目录索引 与全文搜索工具相比,目录索引有许多不同之处。 目录索引,顾名思义就是将网站分门别类地存放在相应的目 录中,因此用户在查询信息时,可选择关键词搜索,也可按分类 目录逐层查找。如以关键词搜索,返回的结果跟全文搜索工具一 样,也是根据信息关联程度排列网站,只不过其中人为因素要多 一砦。如果按分层目录查找,某一目录中网站的排名则是由标题 字母的先后顺序决定( 也有例外) 。 目前,搜索工具与目录索引有相互融台渗透的趋势。原来一 些纯粹的全文搜索工具现在也提供目录搜索,如g o o g e 就借用 ( ) p e nd jr e c t o r y 目录提供分类查询。而象y a h o o ! 这些老牌目录 索引则通过与o o o g l e 等搜索丁具合作扩大搜索范围,不过在默认 搜索模式、,其f i 录中匹配的网站永远排在搜索工具的网页查询 结果之前。 存这方面,困内几家著名f i 9 搜索工具网站丌始借鉴阁外的做 法,比如搜狐、新浪就有嗍e r 搜索和刚页搜索之分,用户可自行 选择。选择刚站搜索时,它们是目录索引,搜索范吲仅限丁自身 注册的网站;而选择网页搜索时,它们义成i r 全文搜索工具。 东北师范大学碗卜研究生论文 远程教育资源智能检索系统的研究i 设计 3 2 基于互联网信息检索的可行性 基于互联网的信息检索是一个知识获取的过程,网上知识浩 瀚无际,有不确定性和模糊性,要建立起知识关系网络很困难, 但是通过降低求解目标的方法,建立基于互联网的信息检索模型 还是可行和可操作的。针对某一领域的具体搜索需求,构造相应 的知识库是容易实现的。知识库里的知识可以在使用中不断改进, 数量上不断增加,质量上不断提高。这是一个对知识进行训练的 过程,可以通过人来完成,也可以使用机器学习等手段来实现。 本课题针对远程教育资源智能检索系统建立的知识库取得了良好 的效果,证明了基于互联网信息检索方法的可行性。 3 3 互联网知识获取 知识获取必须为w e b 建立适当的数据模型,利用数据模型有 效地从w e b 中获取信息。为了处理w e b 的中文数据,还必须使用 一系列中文自然语言处理技术。比较基础的技术有自动分词、人 名机构名的自动识别、自动标引等,其他象信息抽取、自动文摘、 文档自动分类、中文概念词的自动发现,以及概念词之问的语义 关系的确定等技术都必不可少。使用基于互联网信息的检索,能 够使搜索工具从基于关键词的搜索提高到基于知识的检索,与传 统基于关键词的检索手段相比,它有着显著的优势。两者的示意 图分别如下: 图: :3 l 基 i 关键词的信息检索 东北师范大学碗卜研究生论文远程教育资源智能检索系统的研究i 设计 图3 3 2 基于语义的信息检索 在上面的示意图中,基于关键词的传统信息检索以词串匹配 的方式来检索纷繁复杂的互联网信息,会导致信息检索困难。而 基于语义的信息检索,首先把用户的检索映射到i n t e r n e t ,从 i n t e r n e t 获取相关知识和联想后,再向互联网进行信息检索。这 是一个基于知识的信息检索过程,它能够使用户对要检索的东西 定位得更快、知道得更深入,了解得更多。以有序的知识库对无 序的知识库。下面举一个基于语义信息检索的例子。当用户的查 询是“自然数”时,基于语义的搜索工具将返回下面的信息。 自然数的释义:对自然数分类、数学特性和系统分类作介绍。 显示“自然数”两种专业方面的网络信息: 作为数分类:整数、偶数、奇数 作为一种网站信息获取工具 相关信息链接:自然数概念;基于基数与基于序数两种方法; 在自然数分拆中应用分组数。 东北师范大学碗卜研究生论文 远程教育资源智能检索系统的研究i 设计 第四章远程教育资源智能检索系统( s i s d e r ) 的系统分析 4 1s i s d e r 设计原则及结构设计 检索系统的设计原则 s i s d e r 设计原则要本着高性能、模块化和可移植。高性能主要 考虑查询速度和对内存的要求,特别是服务器端的并发访问方式 需要更高的处理速度和较小的内存开销。该原则将贯串系统设计 的始末,并成为数据结构与算法设计的指导性原则;模块化是指 各种功能模块化设计,既可为搜索工具所用,又可以成为其他软 件的标准组成部分:可移植是指针对网络服务的实际,为适应不 同平台、不同用途、不同指标要求,系统要具有灵活的可移植性。 检索系统的结构设计 采用的先进三层技术,基于三层客户机中间件服务器 ( c m s ) 体系结构的总体框架;分布式计算体系,充分利用计算资 源( c o r b a ) ;基于浏览器服务器( b s ) 模式的导航式查询,方便易 用;基于组件的软件开发模式,保证软件的可重用性:面向对象 的快速应用开发工具;基于软件工程的软件开发流程;技术先进、 功能完备的大型关系数据库管理系统;基于业务流程模式的积木 式系统结构,支持用户对各模块的可选用性。 三层客户机服务器模式的核心是将业务逻辑、表示逻辑和数 据分为三个不同的处理层。 表示逻辑( 客户层) 为第一层。它的主要功能是实现用户交 互和数据表示,为以后的处理收集数据,向第二层的业务逻辑请 示调用核心服务处理,并显示处理结果。 业务逻辑( 服务器组件) 为中间层。这些组件由中间件管理, 实现核心业务逻辑服务并将这些服务按名字广

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论