信息WEB课程实习模板22.doc_第1页
信息WEB课程实习模板22.doc_第2页
信息WEB课程实习模板22.doc_第3页
信息WEB课程实习模板22.doc_第4页
信息WEB课程实习模板22.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hebei Normal University of Science & Technology信息资源组织与检索课程技能训练2012-2013第2学期 题 目:传统信息检索与现代信息检索的比较研究 院(系、部): 学 生 姓 名: 指 导 教 师: 年 月 日 I 摘 要在现代社会,全球信息化的风起云涌卷席着世界的每一个角落。随着信息技术的发展和用户检索需求的变化, 现代信息检索技术在理念、 人性化、 智能化等方面发生了全面突破。信息检索的发展是随着科学技术的进步而发展的。人类已经进行了四次信息技术革命,目前正在进行第五次信息技术革命。信息检索技术由传统走向现代.关键词:信息检索技术;现代;发展;AbstractIn modern society, the surging volumes seats of the global information in every corner of the world. Modern information retrieval technology with the development of information technology and retrieval users needs change, a comprehensive breakthrough in philosophy, humane, intelligent. The development of information retrieval with the progress of science and technology development. Mankind has carried out four of the information technology revolution, and the ongoing fifth revolution in information technology. Information retrieval technology from the traditional to the modern.Keywords: information retrieval technology; modern; development;目 录摘 要IAbstractI引言11 传统信息检索12 现代信息检索22.1空间向量模型212.2概率模型142.3布尔模型213传统信息检索与现代信息检索的异同214未来网络环境中信息检索的发展趋势21结论28参考文献28英文文献29英文文献翻译29引言信息检索的历史追踪:信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成为图书馆独立的工具和用户服务项目。信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。以及互联网规模的急剧增大以及存储系统的规模日益增加推动了现有的信息检索技术的发展。 1传统信息检索传统信息检索手工检索是利用各种专门用于检索的印刷出版物,即常说的检索工具来查找所需要信息的手段。其检索方法主要有以下几种。1.1直接检索直接检索:这是人们最常用的一种查找信息的方法,如去图书馆查阅各种图书、期刊及其他资料,找到需要的信息,需花大量的时间和精力,在过去文献较少时,还能达到目的,而在信息大量产生的年代里犹如大海捞针。1.2间接检索间接检索还分为:追溯法:通过已知文献所附的参考文献,“由一变十,由十变百”地进行追溯查找有关信息。还可以利用各种“引文索引”等工具进行追溯检索。工具法:利用各种检索工具(文摘、题录、目录等)进行查找文献,是文献检索最常用的方法。2现代信息检索早期的IR系统的布尔系统允许用户指定他们的信息需要使用复杂的结合布尔ANDs, ORs and NOTs。布尔系统有几个缺点,例如,有没有固有的概念文档排名,很难形成一个良好的用户搜索请求。甚至虽然布尔系统通常返回匹配文档的一些命令,例如,(按日期或其他文档功能),相关排序通常不是一个布尔系统的关键。虽然它已被研究社区证明,布尔系统效果低于排名检索系统,许多高级用户仍然使用布尔系统作为他们感觉更在检索过程的控制。然而,大多数IR系统的普通用户期望IR系统做排名检索。IR系统等级文件由他们的估计一个文档的实用性为用户查询。大多数IR系统分配一个数字分数每个文档和等级文件这一点。几个模型被提出对于这个过程。三个最常用的模型在IR系统研究方面是向量空间模型、概率模型、推理网络模型。2.1空间向量模型在向量空间模型的文本是由向量的条款。定义一个术语的不是与生俱来的在模型中,但条件一般的单词和短语。如果单词选为条件,然后每一个单词词汇成为一个独立的维度在一个非常高的维向量空间。任何文本就可以表示为一个向量在这个高维空间。如果一个词是一个文本,它会得到一个非零值文本向量按照维度对应词。因为任何文本包含一组有限的术语词汇可能会有数以百万计的条款),大多数文本向量非常稀疏。大多数基于矢量的系统操作积极的象限的向量空间,即。,没有词被赋予一个负值。指定一个数字分数为查询文档,模型措施之间的相似性查询向量(因为查询也只是文本和可转化为一个向量)和文档向量。相似两个向量之间又不是固有的模式。通常,两向量的夹角是使用作为一个衡量之间的分歧的向量,和余弦的角是用作数字相似(因为余弦已经好属性,它是1.0和0.0相同的向量正交向量)。作为替代,内积(或点积)两个向量之间是经常用来作为相似性度量。如果所有的向量被迫是单位长度,然后cos两向量的夹角是一样的点积。如果 D是文档向量和 Qis查询向量,那么相似的文档Dto查询问(或分数的问)可表示为: 在wtiQ是第i的值组件查询向量问,wtiD是第i组件文档向量 D。(因为任何单词中不存在或者查询或文档有一个wtiQ或 wtiDvalue0,我们可以分别求和只能在条款常见的查询和文档)。我们如何到达wtiQ和wtiD是不是定义的模型,但是很重要的一个IR的搜索效率系统。wtiD通常称为重量的术语相关文档D,2.2概率模型这个家族的IR模型是基于一般的原则,那个文件在一个集合应该排名通过减少概率的相关性来查询。这通常被称为概率排序原则 (PRP)。因为真正的概率是不可以一个IR系统,IR模型估计的概率概率的相关性为查询的文档。这估计是关键部分的模型,这是哪里大多数概率模型不同于另一个。最初的想法,提出了概率检索,马龙和Kuhns在1960年发表的一篇文章。此后,许多概率模型被提出,每个基于不同的概率估计技术。由于空间的限制,不可能讨论这些模型的细节在这里。然而,以下描述抽象共同依据这些模型。我们表示概率的相关性对于文档Dby P(R|D)。因为这个排名的标准是单调的日志赔率转换下,我们可以等级文件logP(R|D),P(R|D)的概率是不相关的文档。这个,简单的贝叶斯变换,变成logP(D|R)P(R)。假设先验概率的相关性,即P(R)是独立于文档在考虑中,因此是恒定的所有文档,P(R)和P(R)只是比例因子得分和最终的文档可以去掉上面的配方(排名目的)。这进一步简化了上述配方:logP(D|R)。基于背后的假设估计的P(D|R),不同的概率模型开始发散在这一点。在最简单的形式的这个模型中,我们假设条件(通常是单词)是相互独立的 (这是通常被称为独立假设),P(D|R)是作为一个产品的修改个别术语概率,即presence/absence概率的一个术语documents:它使用概率存在的一个术语ti在有关文件所有条款常见查询和文档,以及缺乏一个学期的概率tj来自有关文件的所有条款出现在查询和缺席文档。如果pidenotes P(tijR),qidenotes P(tijR),排名对于一个给定的query,我们可以再加上一个常数变换公式只能使用排名出现在一个文件: 不同的假设来估计Pi和Qi不同文档的排名功能。如,在7克劳馥和哈珀认为Pi相同的所有查询条件和Pi/1-Pi为一个常数,可以忽略排名目的。他们还认为几乎所有的文件在一个集合是不相关的,一个查询(这是非常接近真理鉴于集合是大)和估计的B,其中N是集大小和Ni文档的数量,包含术语。这产生了一个打分函数一个类似到逆文档频率函数讨论了在4.1节。注意,如果我们认为重量的术语相关文档D,这个模式变得非常类似于相似的配方向量空间模型(2.1节)与查询条件分配一个单位重量。2.3网络推理模型 在这个模型中,文档检索被建模为一个推理过程在一个推理网络。32大多数技术使用IR系统可以实现在这种模式。在最简单的实现这个模型,一个文档实例化一个学期有一定的强度,从多个方面的信用积累给定一个查询来计算相当于一个数字分数为文档。从操作的角度看,强度的实例化一个术语,一个文档可以被视为这个词的重量在文档中,和文档的排名在最简单的形式的这个模型变得类似排名在向量空间模型和上面描述的概率模型。实例化的力量的一个术语,一个文档是不定义的模型,可以使用任何配方。3传统信息检索与现代信息检索的异同(l)检索语言:检索语言就是检索信息时所使用的语言词汇,在检索语言上,手工检索与计算机检索基本相同,不同的是计算机检索可以使用较多的自然语言,Internet网上检索一般使用自然语言。 (2)检索概念的组配:手工检索主要是以人脑进行检索概念的组配,而计算机检索则是用布尔逻辑、位置逻辑等逻辑算符进行概念组配,Internet网上检索概念组配方式尚不成熟。其中计算机检索的概念组配最为严谨,手工检索的概念组配最灵活。(3)检索途径:检索途径也就是检索入口.是根据信息的某种特征所进行的检索,手工检索与开算机检索的基本检索途径是相同的,如著者、分类、主题等。但计算机检索的检索途径要更加广泛和灵活,可以从年代、题目、文摘、语种等途径进行检索,并能进行多途径同时检索. (4)检索结果:三种检索手段相比,手工检索的结果准确率最高,误检率最低,查全率较低。计算机的查准率要低于手工检索,误检率要高于手工检索,查全率较高。网络检索结果误检率最高,查全率也较高。 (5)信息内容范围不同:传统的信息检索主要以检索文献信息为主。如图书、报刊、专利、标准、名录等。现代信息检索的信息则不再以文献信息为主,还有软件信息以至游戏等大量的各种各样的信息,其范围无所不包,Internet网上的信息是全世界最大的信息阵,信息资源分布在整个网络中,没有统一的组织和管理,也没有统一的目录。许多希望和他人进行信息共享的机构和个人将自己的信息以有偿或无偿方式通过网络对外提供。(6)信息质量及可靠性不同:传统的文献信息,如各种书刊、报纸、广告、专利、标准等。基本上是经过专业编辑人员审核、筛选、加工后才问世的,检索出的信息比较可靠,质量也较高。网络上的信息,质量参差不齐,可靠性较差。包括各种生活信息,公用软件、事实和数据信息等,并对外开放,任何人都可以查询利用。目前国际上一些著名的联机检索系统如D匕牡兀心系统,它们的传统服务受到冲击,纷纷在Internet设置地址.方便用户通过Internet联机检索有关的信息数据库,这类信息最大的特点是,它的数据基本上是经过人工处理的,与传统数据库相同,要想使用必须支付费用;其次,在二次信息组织加工方式上,传统的二次信息基本上是由人工进行加工标引而成,一般采用标准的词表, Intemet上的二次信息则是利用计算机自动标引而成。4未来网络环境中信息检索的发展趋势4.1系统总体结构设计思想(l)智能化发展趋势:即面对用户的检索要求,由网络检索系统自动选择检索工具及相应的数据库,灵活地构造检索策略,搜索并整理检索结果。(2)个性化发展趋势:网络环境中的数据库一方面向大型化、综合性方向发展。同时,网络的发展使得一批计算机终端成一个站点,都可以成为一个小型的数据库,可提供检索的数据,专业性、个性化很强。(3)主动性发展趋势:网络环境中的电子图书、两络期刊等新型出版物,可以自动形成人名、地名、年代、关键词等。具有自动编制书本式索引的功能,并可以通过网络主动分发给信息用户。同时,它们还具有一定的情报分析功能和情报计量功能。(4)标准化发展趋势:网上信息的多样性、复杂性以及分散和无序,严重影响了网络信息的检索。因此,建立一整套网络信息.录人、数据组织、信息检索以及检索结果规范化的标准是信息检索的当务之急,也是网络环境中信息检索的发展趋势。5 总结现代信息检索技术的发展趋势必将以信息技术的发展和信息用户的信息检索需求为出发, 在理念、人性化、智能化等方面取得全面突破,不断吸收信息技术上的最新成果和理解人们的需求, 逐渐适应人脑的思维方式,实现智能、 高效、 快速而灵活的信息检索, 最后达到随心所欲地查找、迅速获取所需信息的水平, 从而促进人们对无序信息世界的有序化组织,令信息资源得到更为合理的开发和利用,以一个崭新的面貌出现在人们面前。参考文献1 苏新宁主编. 信息检索理论与技术.北京:科学技术文献出版社,20042 熊回香. 网络信息检索及其发展趋势研究. 华中师范大学硕士学位论文,20033 黄如花. 网络信息检索的发展趋势.图书情报知识,2002(8) 4 R. Dingledine, M

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论