信息检索概论_第1页
信息检索概论_第2页
信息检索概论_第3页
信息检索概论_第4页
信息检索概论_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信 息 检 索,工程硕士研究生课程,第一章 信息检索概论,一 情报、信息、检索 二 信息检索主要内容 三 课程安排与要求,第一节 什么是信息检索,一、 情报与信息的概念 1、术语来源 “情报”是一个日制汉字术语。日本较早使用“情报”一词的人是著名的文学家、翻译家森欧外。他在1903年翻译德国克劳塞维茨的战争论一书时,使用了“情报”这个词。战争论的第六章“战争与情报”中提到“情报是我们能掌握的有关敌人和敌国的知识”。,2、汉语对情报的解释,汉语词典中的“情报” 查阅我国出版的几种辞书,最早基本上都是从军事领域来解释“情报”的。 (1)“军中集种种报告,并预见之机兆,定敌情如何,而报于上官者。”(辞源1915年版) (2)“战时关于敌情之报告,曰情报”(辞海1939年版),汉语对情报的解释(续),(3)解放后,辞书的编纂者虽然扩大了情报的外延,但仍旧保留着军事术语这一重心,例如:“在军事上,指以侦察手段或其他方法获得的有关敌人军事、政治、经济等方面的情况以及这些情况进行去粗取精,去伪存真,由此及彼,由表及里的分析研究的成果。是军事行动和战略决策的重要依据。亦泛指一切最新的情况报道。如科学技术情报。”(辞海1980年版) (4)“关于某种情况的消息和报告,多带机密性质。”(现代汉语辞典),3、与情报相关的名词术语,“情报”作为一个日制汉字术语,是20世纪初由留日学生引入中国的。有人曾批评森欧外使用的“情报”一词实际上是和“谍报” 的意思混用了 。“情报”引入中国后最初被解释为“敌情之报告”,而非“有关敌人及其国家的知识”。 因此,谍报与情报密切相关,但不是一回事。,4、情报的特点,(1)对抗性。情报的第一特性。情报总伴随着是战争或竞争过程。 (2)保密性。任何组织或部门都永远不会完全向公众解密或公开情报;情报工作者不允许知道与自己工作无关的情况,不提倡在工作上相互帮助,禁止私自进行情报交流或情报咨询。孙子曰:“故三军之事,莫亲于间,赏莫厚于间,事莫密于间 ”,情报的特点(续),(3)高智能性。孙子提出, “非圣贤不能用间,非仁义不能使间,非微妙不能得间之实 ” 、“上智为间”。这就是使用高智商、智慧出众者做间谍; 另一方面,就是利用高科技手段。在战争或对抗期间,高新技术一般优先应用于情报领域。,(4)道德性。历史上,间谍或情报工作者都有“鸡鸣狗盗”、“内奸”、“卑鄙无耻”、“奸猾诡诈”之嫌;似乎情报工作不讲道德,胡作非为。但情报工作也有它的道德低线,否则,就会出现情报丑闻。(这些情报丑闻,在英语中叫“intelligence gate”。情报门),情报的特点(续),(5)广泛的适用性 x国竞争情报研究会(Society of Competitive Intelligence of China,简称SCIC)对竞争情报的定义是:一个组织感知外部环境变化,并做出反应,使之更好地适应环境变化的能力。即获取环境信息并与之适应的能力,也就是情报能力和对策能力.,情报的特点(续),5、与情报对应的英文,(1)“情报”与Intelligence 除了CIA中的“I”外,还有C4ISR(Command, Control, Communications, Computers, Intelligence, Surveillance and Reconnaissance指挥、控制、通信、计算机、情报、侦察、监视)、工商领域CI(Competitive Intelligence竞争情报)等其中的“I”。这就是情报一词对应着英文的“Intelligence”;另外,还有AI(人工智能)。,与情报对应的英文(续),(2)“情报”与Information 中国图书馆学情报学界曾将“情报”译为“Information” ,1992年后基本上改为“信息”。因此,情报检索课程名称也被改为信息检索。,信息的概念,关于信息的定义不下百种。辞海解释为: 音讯:消息。李中在碧云集暮春怀故人中诗云:“梦断美人沉信息,目穿长路倚楼台。” 通信系统传输和处理对象,泛指消息和信号的具体内容和意义。通常需通过处理和分析来提取。,xx和xx通用2004年发生的价格战,从5月7日上海通用宣布降价,到6月16日南北两个大众最终决定以降价作为回应,竟然过去了整整一个月的时间。说明了什么? 动物对信息的反应。 企业对竞争与环境变化的反应过程,大体与此相似。,感觉器官接受刺激,神经系统,传输,做出判断,发出命令,机体做出反应,案例,信息的概念(续),对数据资料进行整理和归类产生信息,对信息进行分析,产生服务于决策的情报。,数据、信息、情报之间的关系,信息的概念(续),二、 检索含义,“检索”就是查检寻找,其英文是“Retrieval”。Retrieval是Retrieve的名词形式,其义为:“find and bring back”,即寻回,取回,也就是,事先把东西先存放好,然后需要时把它取回。 “检索”有时也称“搜索”(search)或“存取”(access)等。 在信息检索中,检索是指根据线索指引,获取所需要的资料。,三、信息检索的定义,1951年,美国学者Calvin Mooers首先使用“信息检索(Information Retrieval,IR)”这个名词术语来描述如下过程:信息用户提交一个查询(query)或信息请求(Information Request),然后通过某种转换或计算,得到与用户请求相似或相关的资料。 信息检索正式定义:IR deals with the representation, storage, organization of, and access to information items.信息检索是研究信息的表示、存储、组织以及对信息的存取(取用)。“information items”可以是系统中存储的记录(the stored records)或者是文档(document,文献),第二节 信息检索主要内容,主要内容包括两个方面: 信息检索技术研究与应用 信息检索用户研究,一、信息检索技术与应用,核心内容: 1、文档预处理 2、查询操作 3、倒排索引 4、经典的信息检索模型,1、文档预处理,包括以下几个文本操作(text operation)过程:停用词、取词干、名词词组识别、压缩,以及文本的词汇分析(对数字、连字符、标点符号和字母大小写的处理)、索引项分类结构的构造,例如词表,或者是抽取文本中的表示结构,其目的是允许用相关项来扩展原始的查询。,2、查询操作,标准的信息查询(检索、存取)过程包括以下步骤: 从信息需求开始; 选择操作的系统和文档集; 构造一个查询(表达式); 把查询提交给系统; 获得搜索到的返回结果; 查看、评价和理解结果; 结果是否满意?如果满意,则停止;否则继续; 重新构造查询,并返回到。,3、经典的信息检索模型,一个信息检索模型是一个四元组D, Q, F, R (q i, d j)。其中, (1)D是文档集中的一组文档逻辑视图(或称为文档的表示)。 (2)Q是一组用户信息需求的逻辑视图(表示),这种视图(表示)被称为查询。(查询表达式或检索式),典型的信息检索模型(续),(3)F对文档表示、查询以及它们之间关系进行建模的一个架构。(匹配) (4)R(q i, d j)是一个排序函数,该函数输出一个与查询q iQ和文档表示q iQ有关的实数。这样就在文档文档之间根据查询q i定义了一个顺序。(结果输出),典型的信息检索模型(续),(1)Boolean Model 布尔模型:基于集合理论和布尔代数 (2)Vector Model 向量模型(向量空间模型VSM) (3)Probabilistic Model 概率模型,由罗伯逊(Roberston)和斯巴克琼斯(Sparck Jones),4 、倒排索引,(1)倒排索引的概念 倒排索引,或倒排文件、倒排表,是一种索引数据结构,为文档集建立面向词项的索引机制,以提高查找的速度。倒排文件结构由词汇表和事件表(或称置入表:posting file)两种元素构成。词汇表是文本中所包含的不同词的集合。对于词汇表中的词,一个列表存储了其在文档中所有的出现位置,该列表的集合被称为事件表。如下图所示。,示例:,一个倒排索引的例子:,注释:,倒排索引类似书籍后面的索引; 支持词组和近邻查询; 停用词技术的应用; 支撑全文检索,全文检索系统、搜索引擎都采用该技术; 本词汇表没有按字母顺序排序。,倒排索引的使用,在倒排索引上进行搜索,其过程包含下面三个步骤: 词汇表搜索。将查询表达式中的单词分离出来,并在词汇表中查找、匹配。 事件表检索。对事件表中所有出现的位置进行相应的处理,定位到查询结果。 事件表上的操作。在事件表上进行处理,以实现词组查询、邻近查询或布尔操作。 在倒排索引上的查找总是从词汇表开始的,因此将词汇表单独构成一个文件。这样,当文档集很大时,可以将词汇表单独调入内存。,自学材料,Lucene倒排索引原理; MySQL、SQL Server 2000以上版本的全文检索; Google搜索引擎中的倒排索引;,二、信息检索用户研究,1、用户信息行为; 2、信息源的评价与选择; 3、信息需求的表达和检索式的构造; 4、信息利用与学术道德规范。,信息行为 概念模型及其影响因素,1、关于用户信息行为,关于用户信息行为信息行为,行为泛指人表现的活动、动作、运动、反应或行动,是在外部刺激作用下经内部经验的折射所产生的反应结果,即在一定动机支配下的主体活动。 需求动机行为 外部刺激任务,需求 内部经验 信息知识,关于用户信息行为信息行为,用户信息行为是一种在认知思维支配下对外部条件做出的反应。 是建立在信息需求和思想动机基础上,历经信息查寻、选择、搜集各过程,并为用户吸收、纳入用户思想库的连续、动态、逐步深入的过程,如明确信息需求实质、选择适当的信息系统、制定正确的检索策略等。 信息搜寻行为是所有信息行为中最主要的一种,它不是整个信息行为的最终目的,只是决策、求解或资源配置过程的一部分,是整个系统中的一个重要方面。,关于用户信息行为信息行为,信息行为是与信息源和信息传播渠道相关的所有人类行为的总和 积极行为,主动搜索 消极行为,被动接受,如收看电视广告。,关于用户信息行为概念模型,Wilson模型(1996) 该模型显示了从信息需要产生到信息利用的信息活动循环,并显示了其中所有的影响变量和机制:认知的、社会的和环境的。 这些影响变量对信息行为及其激活机制有着重要的影响。,关于用户信息行为概念模型,Wilson模型(1996) (1)情境 信息需要是由基本需要引起的第二步的需要,与心理学中的定义相一致,信息需要与生理学、认知或情感因素有关。 当我们想要去了解现实事物的意义和秩序时,就产生了认知需要。 一种特定需要的产生是受所处的情境(可以是人们自己、人们在工作和生活中所扮演的角色或者环境因素)影响的。这些因素相互交叉,有时也彼此影响。 思考现实问题: 信息需要科研任务/学习任务需要信息吗?需要的迫切程度如何?学生规定要搜索资料;科研立项/研究:别人在做什么? 学习模型别人怎么理解、应用?我们怎么借鉴怎么成功做实验?压力?应付?报酬?学习兴趣?,关于用户信息行为信息行为,Wilson模型(1996) (2)影响变量 影响变量是指从信息需要产生到信息利用的过程中,对用户信息行为产生影响的一系列因素,主要包括: 心理变量包括生活观、价值观、政治倾向、对于创新的态度、习惯、偏好、成见、自我感知(对知识和技能的自我评价)、兴趣、知识、任务等。 人口统计变量包括性别、年龄、社会和经济地位、教育和工作背景等。 人际变量包括工作角色、要求、规则和限制;已建立的行为标准和模式(在特定的职业类别中);在组织中所处的位置以及责任级别。 环境变量包括立法、经济情况、稳定程度、部门的组织结构,信息文化、IT技术、信息资源的分布、组织类型等。 信息源特征变量包括信息的流通、适量性和可靠性。,关于用户信息行为概念模型,Wilson模型(1996) (3)信息行为的激活机制 Wilson认为,并非每一个信息需要都会必然导致信息搜寻行为的产生。 Wilson主要从心理学角度去解释信息搜寻行为的激发和驱动因素,但他也指出并不排除其他学科因素的影响。,关于用户信息行为信息行为,Wilson模型(1996) (3)信息行为的激活机制 压力/应付理论 压力 当个体认为自己所掌握的知识完全可以了解情境并作出决策时,他就不会进行信息搜寻。 但是如果他缺少这样的自信,那么就会由于害怕犯错误或违反社会法律规定或丧失支付能力以及使他人失望而产生压力感。 压力越大,查寻信息的动机越强烈,直到达到某一程度后,压力才不再继续起作用。 应付 产生应付情境或解决问题的需要。 即使这种回报仅仅是因消除不确定性而带来的舒适感。,关于用户信息行为信息行为,Wilson模型(1996) (3)信息行为的激活机制 风险/回报理论 放弃搜寻行为所导致的后果是什么?(可 能是不必要的支出或者时间损失等) 自我效能的感知 通过自我效能预测是否能成功地完成任务,是否采取必要的行动或者是否试图去应付情境,关于用户信息行为信息行为,Wilson模型(1996) (4)获取信息的状态 消极注意被动地从环境中吸收信息, 积极搜索积极地去查找信息。 正在进行的搜索持续至今的或不断扩大范围的搜索。,关于用户信息行为信息行为,Wilson模型(1996) (5)信息的处理和利用 用户获取的信息经过处理转化为自己的知识,直接或间接地作用于环境,并进而产生新的信息需要。 脑力和体力的信息活动组成了一个循环的过程,个体所处的情境决定各个阶段个体的行为,而获取的信息在这个动态的系统中又成为新的影响因素。,网络时代:人机交互,取代,网络时代: 人机交互,信息搜索行为,包括心理因素,情境因素每个阶段都影响,用户可以选择两种策略,自己/服务,关于用户信息行为信息行为,Wilson模型改进 在新模型中,所有的信息行为都是在情境中进行的,这里的情境是由Wilson模型中的影响变量(个人的、与角色有关的和情境的)所组成。 这些因素在每个阶段都会出现并且一直会对信息行为产生影响。 激活机制在获取和利用信息的行为链中的每个节点都会起作用。 从心理学角度对激活机制的解释从图中移去了,这并不是忽略或降低它的作用,而是因为它是我们所具备的概念知识的一部分。 作者认为与其将它作为信息行为循环的一部分,不如把它作为隐含在每个概念后面的解释理论用阴影表示出来会更有效。,关于用户信息行为信息行为,Wilson模型改进 新模型把信息需要的产生阶段与信息搜寻行为的决定阶段分离开了,这是按照对Wilson模型的批评进行修改的。 新模型认为激活机制在信息搜寻行为的决定阶段仍然起着非常重要的作用。 信息搜寻阶段,信息选择和处理阶段以及信息应用阶段也分离开了,这种分离的原因与上相同:激活机制在停止或被迫进行搜寻的过程中也起着重要的作用。 此外,新模型还保留了Wilson模型的循环圈和动态过程。,关于用户信息行为信息行为,Wilson模型改进 这个模型显示了两种基本的信息搜寻策略: 用户自己进行信息搜寻; 用户在别人的帮助下或借助服务机构及设施进行信息搜寻。 用户可以选择两种策略中的一种,也可以兼而用之 今天网络自助式,关于用户信息行为信息行为,不确定性理论与 Kuhlthau的信息过程 阶段模型,探索、学习,十分清晰的思路,对主题有很好的把握,这时搜索信息效率最高,关于用户信息行为信息行为,不确定性理论与 Kuhlthau的信息过程阶段模型 库叟研究认为用户对信息需求的不同有赖于课题进行的不同阶段。他依据课题进展程度,将用户信息行为过程划分为六个阶段 。 开始(initiation), 用户开始意识到缺少知识,把注意力集中在理解课题上,将出现的问题与先前的知识相联系; 选择(selection), 选择一个主题进行搜索; 探索(exploration),仔细搜寻各种信息以增加个人的理解; 形成(formulation), 对主题的思路初步形成,这一阶段用户只关注于与主题相关的信息; 收集(Collection), 这时用户已有了十分清晰的思路,对主题有很好的把握,这时搜索信息效率最高,这是获得信息可以用于表达(presentation) 结束, 完成搜索,使用获得的信息。,关于用户信息行为信息行为,不确定性理论与 Kuhlthau的信息过程阶段模型 库叟从认知科学角度提出了信息搜索思想。 他认为用户的图式对信息搜索行为致关重要,当用户在进行课题研究时, 首先感觉到知识不足,由此产生信息需求,于是上网查询信息; 当需求暂时满足后,用户的认知图式也就被做了调整; 随后用户又会感到缺乏知识,产生新的信息需求。 如此这般,周而复始,直至课题结束。,关于用户信息行为信息行为,Ellis的信息查寻行为策略模型,参考文献、链接扩展.,最新信息的关注.,信息过滤.,识别相关信息,关于用户信息行为信息行为,Ellis的信息查寻行为策略模型 Ellis对不同行为的详细描述涉及到信息搜寻过程的六种策略。 开始:用户在开始进行信息搜寻时采用的方法,例 如询问某位知识渊博的同事 串联:通过引文索引沿着已知材料的脚注和参考文献或者已 知项目的“前进”链接 进行串联 浏览:“半导向性或半结构化的搜索”(Ellis,1989) 区分:基于已知的信息源差异,对获得的信息进行过滤 监视:保持对最新信息的关注和查找 提取:在信息源中选择和识别相关信息 查核:检查信息的准确性,关于用户信息行为信息行为,Ellis的信息查寻行为策略模型 但是,这个模型不能基于任务主题或掌握的与任务相关的知识来解释信息搜寻行为,因为这些策略与外部

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论