第一章信息检索导论_第1页
第一章信息检索导论_第2页
第一章信息检索导论_第3页
第一章信息检索导论_第4页
第一章信息检索导论_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章 信息检索导论1.1 信息素养与 信息 检索1.2 信息检索的概念和类型1.3 信息检索的研究对象与研究方法1.4 信息检索的发展历史1.5 信息检索需求1.6 小结11.1 信息素养与信息检索一、信息、信息社会与信息素养二、信息检索教学的主要意义三、信息检索教学的基本内容2一、 信息 、 信息社会 与 信息素养信息社会的基本特征1、信息数量的激增2、信息职业的扩大3、信息资源的显化4、信息应用的泛化5、信息意识的强化3信 息 素 养4信息信息的概念信息的基本特征信息的基本类型51、信息 日常生活概念在 日常生活 中,信息与符号、数据、消息、事实、新闻、情报、知识等概念混用,核心义项是消息。李中( 924 975)在 碧云集 之 暮春怀故人 一诗中最早提出了 “信息 ”一词。“梦断美人沉信息,目穿长路倚楼台。 ” 符号是指人类感官接受外界刺激后,大脑中产生的刺激的组合;数据是各种事实、数字和字符等符号的集合;信息是指语法特征上相互关联的数据对象的集合;知识是有语法、语义关联的信息结构;而智能则是知识精华的集合。6数据知识信息智能信息与数据、知识和智能的关系7n 数据( Data)是有关事物现象的记录,是未经加工的事实、没有指定背景和意义的数字、图像或声音等。如19491001,我们只知道这是一个数字,对于这个数字来说,它就是数字,不表示别的什么含义。n 信息( Information)是经过组织的、有序的数据,表达了数据和数据之间的联系。也就是说,对数据进行分析,找出其中的关系,赋予数据以某种意义和关联,就形成了信息。如 19491001可以看作日期,这样就成了信息。它可能是某人的生日,也可以是国庆日,等等。n 知识( Knowledge)是有意义的信息,表现在信息和信息之间的关系。譬如天空有乌云和下雨两个信息之间,如果建立一种联系,则产生了知识。n 智慧( Wisdom)是知识与判断的综合,是利用知识采取正确行动的体现 在了解多方面的知识后,能够预见一些事情的发生并采取正确的行动。例如大家都觉得国庆长假去杭州旅游的车票非常紧张(知识),但你已经非常有预见性地购买了车票,领先一步,这就是智慧的体现。信息与数据、知识和智能的关系8信息 科学概念科学概念 根植于理性的理论框架中,并与不定性、概率、熵、有序化、变异度等概念密切相关。n L. V. R. Hartley: 信息是选择的自由度( 1928);n C. E. Shannon: 信息是用来减少随机不定性的东西( 1948);n N. Wiener: 信息是指人们适应外部世界,并使这种适应为外部世界所感知的过程中,同外部世界交换的东西的名称( 1948);n L. Brillouin: 信息就是负熵,是系统组织结构和有序程度的度量( 1951);n W. R. Ashby: 信息是集合的变异度( 1956)。 一般说来,设随机事件 X(x1, x2, , xn), 每个事件(状态)发生的概率为 P(p1, p2, , pn ), 那么这一随机事件提供的信息量为I(xi)= Pi, 而整个信源的信息熵为 H(X)= Pi Pi。9信息 哲学概念在对信息进行 哲学探讨 时,信息 与物质、能量、运动、反映、意识等概念息息相关。信息是一切事物运动状态和方式的表象或表征。这里, “事物 ”泛指一切可能的研究对象,可以是外部世界的物质客体,也可以是主观世界的精神现象; “运动 ”泛指一切意义上的变化; “运动状态 ”是指事物运动在空间上所展现的性状和态势,是事物的静态特征; “运动方式 ”则是指事物运动在时间上所呈现的过程和规律,是事物的动态特征。 “表象 ”说明信息并不是事物本身;而 “表达 ”则是认识论上的主体所感知并能够表示的、与人类生活有关的东西,这是上述 本体论意义上的信息 引入认识主体这一约束条件后的产物。10信息的基本特征和属性n 普遍性与无限性n 客观性与相对性n 抽象性与依附性n 动态性与异步性n 传递性与共享性11n 普遍性 。信息是物质的普遍属性,是物质运动的状态和方式。信息的物质性以及物质的普遍性决定了信息的普遍存在性。n 无限性 。物质的更替和人事的代谢无穷无尽,信息因此是无限的;即使在有限的时空中,由于物质的多样性和物质运动的连续性,信息也是无限的。信息无限性的重要表现是信息的多样性和衍生性:就多样性而言,它一方面表现为信息的内容范围无所不包的多样性,另一方面表现为同一信息的表述、表达方式的多样性。就衍生性而言,信息的信息仍然是信息;观察的结果是信息,关于观察结果的表述是信息,关于观察结果的描述作为文献的内容也是信息,而关于该文献的目录索引还是信息, 信息的信息,可以形成无穷无尽的衍生链带。12n 客观性 。 信息的客观性源于客观存在的物质运动的特征。信息不是虚无飘渺的东西,也不是可以随意想象和 “创造 ”的事物,它是现实世界各种事物运动的状态和方式,有非常具体和真实的品格。各类信息的表达、存贮、传递、转换和利用等都必须以客观存在的物质载体为依托。n 相对性 。由于认识能力、认识目的及其所储备的先验信息各不相同,各个认识主体从同一事物中获取的信息及信息量(实得语法信息量、实得语义信息量和实得语用量)并不相同。假定事物 X的实在信息量 I(X)是常数,在这样的条件下,第 i个观察者 Ri的实得信息量 I(X; Ri)就为: I(X;Ri)=I(X)-Io(X; Ri)。 既然各个观察者的先验信息量 Io(X; Ri)各不相同,它们的实得信息量当然也就各有差异。13n 抽象性 。 信息本身是看不见摸不着的,我们所能够看得见摸得着的只是信息载体 ( 包括语言、文字、图画、符号、纸张、磁带和光盘等)而非信息内容。n 依附性 。任何信息都必须以某种物质的特定的运动形式表现出来,即信息必须依附于一定的物质载体上,用文字、语言、图像、符号等把信息记录下来,并寄载在纸张、磁带、胶卷和光盘等介质上,通过声波、光波、电波等物质载体进行传递。信息的依附性是抽象性的延伸,是信息具有可传递性、可转换性、可贮存性和可处理性的基础,是信息能够实际利用的前提;正是因为有了这些载体,信息才能变为一种广泛的资源和财富。14n 动态性 ,或称信息的时效性。信息的时效是指信息从产生、传递到接收利用的时间间隔及效率,而时效性就是指信息的内容和信息量大小都会随时间的变化而不断得到更新、充实、积累或取舍。在我们考察物质运动规律时,所取的空间界面和时间区段不同,所得到的有关信息的时效就会有所不同。n 异步性 。异步性是动态性的延伸,包括滞后性和超前性两个方面。信息脱离源物质后需要经过输入、处理、传递和输出等过程才能为人们所理解和掌握,而此时源物质已发生新的变化,这些信息因而就成为 “过时 ”的信息,它们所反映的已是某一时刻之前的源物质运动的状态和方式。换言之,任何信息总是产生、传递在事实之后,即先有事实而后有关于该事实方面的信息等,这是由于人的认识与客观事物运动的异步性造成的,并导致信息都有一定的滞后性和不完全性。另一方面,人们在掌握大量信息的基础上,又可以通过计划、预测等方式测知未来的信息,超前于现实,因而信息又具有超前性。15n 传递性 。信息传递的实质就是一种事物的运动状态与方式脱离源物质而附着于另一事物,并通过后者的运动将这种状态与方式在时空上从一点传递到另一点。信息的传递总是同物质的运动和能量的转换联系在一起。信息传递经历了点 -点、点 -面、面 -面的发展模式。n 共享性 。指同一内容的信息,可以在同一时间内为众多的使用者所接收和使用,当信息从传者转移到受者时,传者不会因此丢失信息。 信息共享实现的条件在于信息对于物质依附性的相对性,即同一信息可以采用多种相同的或不同的物质载体及其运动形式构成。 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息产品的使用价值是一个点集或面,其价值和使用价值具有非对称性;而物质产品的使用价值在同一时刻仅为一个点,且遵循等值交换原则。 信息共享的意义在于它从根本上改变了人类对资源的态度和方式。 不同的信息在共享范围和程度上是有差异的。16信息的基本类型1 以认识主体为依据对信息进行的划分2 以信息的生成领域对信息进行的划分3 以信息的媒体形式对信息进行的划分4 以信息的逻辑意义对信息进行的划分171 以认识主体为依据对信息进行的划分n客观信息,是指对事物不加判断的如实和公正的报道,即关于认识对象的信息。n主观信息,一般是依据事实和分析,阐明个人对论题的观点和见解,是经过思维主体加工的信息。182 以信息的生成领域对信息进行的划分n 自然信息,非生命物质的自然信息,是无机界事物属性及事物之间内在联系的表征。自然信息是融合式的、特殊的、弥漫的。n 生物信息,包括生物与外界联系时做出的反应以及生物体内传递的信息。生物信息是信号形态的信息。n 社会信息,人类活动和社会发展的信息以及人类接收并破译的自然信息。它以符号信息为特征。n 思维信息,以人脑为载体,以语言为外壳,以各种感觉器官为接收器,对各种外界信息进行加工、转换,并实现思维分析、语言表达的过程。思维信息是社会信息运动的主体源泉,而社会信息则是思维信息运动的外化和现实化的结果。193 以信息的媒体形式对信息进行的划分n 文本信息。按线性顺序排列的,阅读时,人们跟随文本的线性流向吸收其中的知识单元。n 超文本信息。按知识单元及其关系建立的知识结构网络。其数据库由结点和链路组成,查阅超文本信息时,以知识片段及其关系作为追踪、检索的依据。n 多媒体信息。多媒体是包括文本、图像和声音在内的各种信息表达或传播形式的总称。多媒体信息系统能针对用户的需求提供各种形式的信息。n 超媒体信息。是指通过计算机控制,把各种文献载体和各种内容综合为一个整体,从而向读者提供各种形式和各种内容的资料。超媒体是超文本与多媒体两种技术的结合,即在信息浏览环境下超文本的信息管理方式与多媒体的信息表现方法结合在一起时,就称为超媒体。204 以信息的逻辑意义和利害关系划分n 有益信息:对社会发展有积极作用的、能够消除人们对未知事物不确定性的信息,它是人类社会的资源和财富。 n 无用信息:指对信息使用者所从事的某种活动没有作用的、多余的信息。衡量无用信息可以使用以下 3个指标:一是德国文献学家瓦斯提出的废页率。二是美国信息科学家彭德尔伯里和加菲尔德等提出的不引率。三是信息冗余度,即信息中超出完整要求而在传递中属于多余的内容。信息的冗余度 R 1H/Hmax。n 有害信息:指对社会发展和信息用户有消极和阻碍作用的不真实或庸俗、媚俗的信息,主要有虚假信息和色情信息等。21按照信息资源的开发程度来区分,n 可分为潜在信息资源与现实信息资源两大类。n 现实信息 口语信息资源、 体语信息资源、 实物信息资源、 文献信息资源、 网络信息资源 多媒体信息资源。 22现实信息n 口语信息资源。交谈、聊天、授课、讨论等方式获得的信息资源。n 特点是传递迅速,互动性强,但稍纵即逝、久传易出差异。因此通过这种方式了解到的信息应记录下来,并加以证实。23n 体语信息资源。以手势、表情、姿势如舞蹈、体育比赛、杂技等方式传递的信息资源。n 特点是直观性强生动丰富、印象深刻、富有感染力,但此类信息的容量有限。24n 实物信息资源。以实物如文物、产品样本、模型、碑刻、雕塑等形式表示的信息资源。n 特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息。 25n 文献信息资源。以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息,包括图书、连续出版物、小册子以及学位论文、专利、标准、回忆录、政府出版物等特种文献。n 特点是经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后,部分信息尚待证实的情况。26文献的一些主要类型 :n 图书 n 期刊n 报纸n 会议文献n 学位论文n 。27图书 n 国家标准 情报与文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论