6信息检索汇总_第1页
6信息检索汇总_第2页
6信息检索汇总_第3页
6信息检索汇总_第4页
6信息检索汇总_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息管理学信息管理学 王二威2022年4月13日第二部分:信息资源采集利用第二部分:信息资源采集利用第4章 信息获取第5章 信息组织第6章 信息检索案例:专利信息的采集与利用6.1 概述 信息组织信息组织是指按照一定的规则来描述信息资源是指按照一定的规则来描述信息资源 或信息对象,以便于能被需要它们的人高效地或信息对象,以便于能被需要它们的人高效地利用。利用。 信息检索信息检索则是指为了个人或他人的需要,去发则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。现适当的信息资源或信息对象。 信息组织和信息检索是信息组织和信息检索是一对互逆过程一对互逆过程。 什么是信息检索 信息检索(信息

2、检索(Information Retrieval,IR)就是从数据源中)就是从数据源中找到满足需求的信息的过程。找到满足需求的信息的过程。 传统信息检索传统信息检索v根据笔画从字典中查找某字的读音和意思根据笔画从字典中查找某字的读音和意思v从三国演义中查找貂蝉出场的章节和地点从三国演义中查找貂蝉出场的章节和地点v从概率论中查找贝叶斯公式等等从概率论中查找贝叶斯公式等等 电子信息电子信息时代时代 的信息检索的信息检索v从手机通信录中查找某条短信v从电子词典中查找某单词的例句v从某个网页中查找某关键字出现的地方v从数据库中查询满足检索条件的记录v本书重点要讨论的信息检索: 信息检索是信息用户为处理

3、解决各种问题而查信息检索是信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活找、识别、获取相关的事实、数据、知识的活动及过程。动及过程。 广义:信息的存储与检索广义:信息的存储与检索 狭义:检索狭义:检索 本质:用户的信息需求与一定信息集合的匹配本质:用户的信息需求与一定信息集合的匹配,潜在的相关信息是信息检索系统输出的结果,潜在的相关信息是信息检索系统输出的结果。6.1 概述 满足信息用户的信息需求而建立的、存贮经过满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法

4、及传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体检索服务功能的一种相对独立的服务实体(包包括人和检索工作单位括人和检索工作单位),统称为信息检索系统,统称为信息检索系统(Information Retrieval System,简称简称IRS)。 信息检索系统的三个基本要素信息检索系统的三个基本要素:人、检索工具人、检索工具(包括设备包括设备)和信息资料和信息资料图图6.1 6.1 信息检索系统的体系结构信息检索系统的体系结构 潜在的相关信息信息组织和检索系统规范化的疑问式信息的组织概述的存贮比较/匹配索引(描述性的、受限制的)游戏规则主题索引规则辞典(包括词汇表

5、和索引语言)需求概述或疑问式信息或数据检索流程组织流程存贮1:概述/搜索请求存贮2:信息的表示 6.1.2 类型类型 文献检索文献检索 数据检索:比较分析、定量分析数据检索:比较分析、定量分析 事实检索事实检索 文本检索文本检索 数值检索数值检索 音视频检索音视频检索 1.文献信息检索(文献信息检索(Document Retrieval) 利用二次信息查找事物的信息及信息出处,检索结果是文献信息。“设计人行天桥的参考文献有哪些?” 2.数据信息检索(数据信息检索(Data Retrieval) 利用检索工具(工具书、数据库)检索文献中的数据、公式等。检索结果是数据, 23456韩元=?$ 3.

6、事实信息检索(事实信息检索(Fact Retrieval) 利用检索工具从存储事实的信息系统中查找出特定的事实。检索结果是事实,“中国最古老的桥?”6.1 概述 6.1.2 类型类型 全文检索全文检索 多媒体检索多媒体检索 超媒体检索超媒体检索检索对象:从文本到多媒体检索 信息检索的应用包含了带有结构的多媒体文档、有意义的文本内容和其他媒体 常见的信息媒体包括图片、视频、音频(包括音乐和语音) 当前搜索非文本文档的技术依赖于对这些内容的文本描述,而不是这些媒体自身的内容。对媒体内容的直接比较技术正在不断进步,例如图片的比较 TinEye 相似图片搜索引擎(加拿大)相似图片搜索引擎(加拿大) 过

7、滤:颜色、模式、形状、过滤:颜色、模式、形状、face 人立方:人物关系搜索引擎人立方:人物关系搜索引擎 R 关系可能性关系可能性 六度分割理论六度分割理论 搜索华尔兹。搜索华尔兹。按照规模分类 第一个级别是以 Web 搜索(搜索(web search)为代表的大规模级别,此时需要处理存储在数百万台计算机上的数十亿篇文档:v如何采集到这种规模的文档?v如何在这种大规模数据量的情况下建立高效运行的系统?v如何应对Web 特性所带来的特殊问题(比如欺骗)? 第二个级别是小规模,第二个级别是小规模,个人信息检索个人信息检索(personal information retrieval):v操作系统中

8、已经融合操作系统中已经融合的的信息检索的功能信息检索的功能v桌面搜索桌面搜索(desktop search)v邮件程序中邮件程序中的的搜索功能搜索功能、分类分类 问题:问题:v如何处理个人计算机上各种格式的文档?如何处理个人计算机上各种格式的文档?v如何保证搜索系统的免维护?如何保证搜索系统的免维护?v如何在启动搜索系统、处理信息和使用磁盘时保持简单且占如何在启动搜索系统、处理信息和使用磁盘时保持简单且占用的系统资源足够少而不至于对用户的正常工作造成影响?用的系统资源足够少而不至于对用户的正常工作造成影响? 介于第一种大规模和第二种小规模之间的信息检索主要面对的是中等规模的数据,包括面向企业、

9、机构和特定领域的搜索(domain-specific search):v公司内部文档v专利库或生物医学文献v学术论文的搜索 这种情况下,文档往往存储在集中的文件系统中,由一台或者多台计算机提供搜索服务标引标引检索检索输出输出存储存储过程过程一次一次信息信息信息信息特征特征检检索索语语言言信息特信息特征标识征标识信信息息检检索索工工具具检检索索结结果果检索检索过程过程检索检索课题课题检索检索提问提问检索提检索提问标识问标识分析分析分析分析标引标引输入输入信息检索原理信息检索原理信息资源集合信息资源集合信息需求集合信息需求集合匹配匹配6.1.4 信息检索的模型 20世纪世纪60-70年代年代v布尔

10、模型布尔模型v向量空间模型向量空间模型v概率模型概率模型v模糊检索模型模糊检索模型 20世纪世纪90年代后年代后v搜索引擎搜索引擎 商业性文献数据库的主流模型商业性文献数据库的主流模型 与查询条件相关或无关与查询条件相关或无关 查询结果不进行排序查询结果不进行排序 计算事物之间相似度的通用方法计算事物之间相似度的通用方法 多维空间,向量相似度多维空间,向量相似度 查询向量查询向量 文档向量文档向量 相似性相似性6.2 信息检索的发展历程 四个阶段 手工信息检索阶段 机械信息检索阶段 计算机信息检索阶段 网络信息检索阶段6.2 信息检索的发展历程 手工阶段 正规的参考咨询工作是由美国的公共图书馆

11、和大专院校图书馆于19世纪下半叶首先发展起来的。“参考咨询工作”产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室; 20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐发展到从多种文献源中查找、分析、评价和重新组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具; 40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。 6.2 信息检索的发展历程 机械检索

12、阶段 机械信息检索两种基本类型v机电信息检索系统v光电信息检索系统 机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。 6.2 信息检索的发展历程 计算机检索阶段 1971年以前建立的信息检索系统,是传统的批处理检索方式。 1971年以后,产生并发展的联机信息检索系统,如OCLC、Dialog在线数据库联机检索系统。 20世纪90年代以来,产生并发展的网络信息检索阶段。 机读数据库成为检索对象; 专业检索向个人终端转移。搜索引擎的鼻祖:Archie 1990年由Montreal的McGill Univ

13、ersity(麦吉尔大学)学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ) 实际上是一个可搜索的FTP文件名列表现代搜索引擎的起源:Wanderer 1993年MIT 的学生Matthew Gray开发了World Wide Web Wanderer,它是世界上第一个利用网页之间的链接关系来监测Web发展规模的机器人(Robot)程序。 最开始只是用来统计互联网上的服务器数量,之后发展为也能捕获网址。Yahoo 1994.4美籍华人Jerry Yang(杨致远)和David Filo完成了一套搜索软件。 最初Yahoo的

14、数据是手工输入的,实际上只是一个可搜索的目录。 1995年1月,正式成立Yahoo网站 第一个现代意义上的搜索引擎:Lycos 1994.7 Carnegie Mellon University 的Michael Mauldin 将 John Leavitt的蜘蛛程序接入到其索引程序中,创建了Lycos. 提供了前缀匹配和字符相近限制、网页自动摘要、数据量相对较大。Infoseek 1994年底,Infoseek推出,沿袭Yahoo!和Lycos的概念。 友善的用户界面、大量附加服务使其后来者居上。 1995.12与Netscape的战略性协议使它变得很强势 2001年2月,Infoseek改

15、用Overture的搜索结果第一个元搜索引擎: Metacrawler 元搜索引擎(A Meta Search Engine Roundup)。v用户提交搜索后,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni开发的 Metacrawler(1995)。第一个支持自然语言搜索的搜索引擎: AltaVista 1995年12月出现(AltaVista Public Beta Press Release )。 A

16、ltaVista是第一个支持自然语言搜索的搜索引擎。 2003年AltaVista被Overture收购,后者是Yahoo的子公司。搜索引擎的后来之王:Google 1995年,佩奇来到斯坦福读博士,开始网络链接结构方面的研究项目BackRub。 之后,他和布林提出了PageRank技术,用于对网页评级 之后用于搜索引擎,改写了搜索引擎的定义,建立了Google。搜索引擎的后来之王:Google Google在斯坦福引起了人们的关注。 佩奇开始准备出售该技术,但是没有成功。 Sun公司创始人的投资,随后成立公司。 2000年和Yahoo合作,一飞冲天。 2004年7月上市,市值250亿,增长速

17、度超过微软。Google之特点 专注、进取、朴素、低调、神话般的创业故事中文搜索引擎老大:百度 2000.1李彦宏创立了百度。 2001.8发布百度测试版。 目前是最大的中文搜索引擎 MP3搜索特色百度的特点 专注于技术专注于技术 专注于中文搜索专注于中文搜索6.3 检索工具检索工具一、检索工具定义一、检索工具定义 1. 用来揭示、存储和查找信息的工具用来揭示、存储和查找信息的工具 主要指手工检索工具主要指手工检索工具2. 检索系统:检索系统: 检索设备检索设备+ +载体载体+ +信息构成的信息服务系统信息构成的信息服务系统6.3 检索工具检索工具二、检索工具类型二、检索工具类型 l 目录目录

18、(Catalogue)1.综合性目录: 2.专题目录: 3.馆藏目录: 4.联合目录: l目录款目以各学科门类的图书或报刊文献为揭示对象的目录,如中国期刊目录揭示与报道某一特定学科、某一研究方向或课题的图书报刊文献目录揭示一个图书情报机构收藏图书报刊情况的目录,如:上海图书馆馆藏中文报纸目录揭示地区、系统或全国的图书文献机构文献收藏情况的目录,如全国中文期刊联合目录U464.176WPL 汽车风冷发动机的构造原理 / 王平利,张虹主编. 2版.北京:高等教育出版社,2004.1 242页:插图;16开 ISBN 7-04-012789-X:22元馆藏目录款目格式馆藏目录款目格式6.3 检索工具

19、检索工具二、检索工具类型二、检索工具类型 l 索引索引(Index) Ewen-Smith, B. M. 23777 Ewing, M. 20974, 20976 Excell, P. S. 22613 Ezekiel, S. 01352 Faber, M. T. 20820 Fabjan, C. W. 05177 索引款目著录格式索引款目著录格式6.3 检索工具检索工具二、检索工具类型二、检索工具类型 l文摘文摘(Abstract) 对一份文献的内容所进行的简略而准确的描述,即内容摘要目录目录反映文献的外部特征文摘文摘反映文献的内部特征 提供文献内容梗概,不加评论和补充解释,4个要素: 研究

20、目的、方法、结研究目的、方法、结果、结论果、结论6.3 检索工具检索工具二、检索工具类型二、检索工具类型 分类法主题法科学文摘 化学文摘 新华文摘是人民出版社主办的是一个大型的综合性、学术性、资料性的文摘半月刊,其选登文章代表了诸领域的前沿思想。 1979年,在时任人民出版社副社长范用的大力支持下,新华月报文摘版创刊,1981年更名为新华文摘,2004年改版为半月刊,1999年1月起出版大字本新华文摘。 中国人民大学 复印报刊资料 该库收录从95年至今100多个专题的全文复印资料,所有全文都是由100多位专家、教授从国内公开出版的3000余种核心报刊中精选出来的,其门类覆盖了全部社会科学和人文

21、科学领域,能够代表学科研究前沿状况,具有很高的学术价值和应用价值,为用户所认可的优秀数据库。前情回顾 信息检索:信息检索:用户的信息需求与一定信息集合的匹配,用户的信息需求与一定信息集合的匹配,潜在的相关信息是信息检索系统输出的结果潜在的相关信息是信息检索系统输出的结果 满足信息用户的信息需求而建立的、存贮经过加工了满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体相对独立的服务实体(包括人和检索工

22、作单位包括人和检索工作单位),统称为,统称为信息检索系统信息检索系统(Information Retrieval System,简称简称IRS)。图图6.1 6.1 信息检索系统的体系结构信息检索系统的体系结构 潜在的相关信息信息组织和检索系统规范化的疑问式信息的组织概述的存贮比较/匹配索引(描述性的、受限制的)游戏规则主题索引规则辞典(包括词汇表和索引语言)需求概述或疑问式信息或数据检索流程组织流程存贮1:概述/搜索请求存贮2:信息的表示6.3 检索工具检索工具二、检索工具类型二、检索工具类型 分类法主题法科学文摘 化学文摘信息检索系统6.4 信息检索的步骤与策略 分析检索课题 选择检索工具

23、 选择检索途径,确定检索标识 选择检索方法 获取原始文献6.4 信息检索的步骤与策略 分析检索课题v1.分析主题内容: 学科范围,关键问题;决定主题词和关键词v2.分析时间范围: 最新进展/专利-近/远v3.分析信息类型: 期刊/专著/会议论文/专利/标准文献/科技报告6.4 信息检索的步骤与策略 选择检索工具 选择检索途径,确定检索标识v1.选择检索途径v分类途径;主题途径;题名途径;著者途径;信息代码途径v2. 确定检索标识v1) 采用主题词做检索标识时,应考虑该词的同义词,近义词,如互联网/英特网v2) 根据检索课题要求,选取恰当的检索标识,适度确定其范围的大小信息检索步骤信息检索步骤分

24、析检索课题分析检索课题1.主题内容2.时间范围3.信息类型4.检索语种主主题题概概念念确定检索途径确定检索途径1.分类途径2.主题途径3.题名途径4.著者途径5.其它途径选择检索方法选择检索方法1.常规法2.追溯法3.交替法信信息息线线索索确定一次信息出处确定一次信息出处1.缩写还原为全称2.音译转换成原名3.信息类型选择检索工具选择检索工具1.馆藏目录2.图书馆信息检索系统获获取取一一次次信信息息选择检索工具选择检索工具1.索引2.文摘 信息检索策略信息检索策略 信息检索策略是针对检索提问、运用检索方法和技信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要达到一定

25、的术而设计的信息检索方案,其目的是要达到一定的检准率和检全率检准率和检全率。 信息检索策略信息检索策略 目前在以下三方面取得进展: (1)以检全为目标的检索策略的调节与控制; (2)以检准为目标的检索策略的调节与控制; (3)以最小投入为目标的检索策略的调节与控制。 对特定系统、特定数据以及某一类型课题的检索策略的研究具体表现在以下两方面: (1)是某一系统、某一数据库检索策略; (2)是某一类型课题检索策略。信息检索效率的评价 检索效率是指全、准、快、便、省(检全率、检准率、检索速度、检索方便性、检索成本与效益),最主要的是全和准。 在评价信息检索效率过程中,主要通过检全率、检准率、漏检率和

26、误检率四个评价指标进行评价,其中重点是检全率和检准率。 信息检索效率的评价 检全率R(Recall Ratio):检出能力的指标v检出相关文献/相关文献总量=a/(a+b) 检准率P (Precision Ratio):检索精度v检出相关文献/检出文献总量=a/(a+c)相关文献相关文献非相关文献非相关文献总计总计被检出文献被检出文献aca+c未检出文献未检出文献bdb+d总计总计a+bc+da+b+c+d信息检索效率的评价 漏检率O(Omission Ratio):检出能力的指标v未检出相关文献/相关文献总量=b/(a+b) 误检率E (Error Ratio)v检出非相关文献/检出文献总量

27、=c/(a+c)相关文献相关文献非相关文献非相关文献总计总计被检出文献被检出文献aca+c未检出文献未检出文献bdb+d总计总计a+bc+da+b+c+d6.5 搜索引擎 搜索引擎是信息检索技术在大规模文本集合上搜索引擎是信息检索技术在大规模文本集合上的实际应用。的实际应用。 “搜索引擎搜索引擎”一词原来是指为文本搜索服务的一词原来是指为文本搜索服务的特殊的硬件。特殊的硬件。 从从20世纪世纪80年代中期开始,在描述用来比较查年代中期开始,在描述用来比较查询和文档并生成文档排序结果的软件系统时,询和文档并生成文档排序结果的软件系统时,逐渐更多地使用逐渐更多地使用“搜索引擎搜索引擎”一词,而不是

28、一词,而不是“信息检索系统信息检索系统”或者或者“全文检索系统全文检索系统”。6.5 搜索引擎 网络搜索引擎网络搜索引擎,比如,比如Yahoo,必须能够捕获,或者说,必须能够捕获,或者说爬取爬取(crawl)TB级的数据,并对每天收到的全世界数以级的数据,并对每天收到的全世界数以百万计的查询提供亚秒级的响应时间。百万计的查询提供亚秒级的响应时间。 企业搜索引擎企业搜索引擎,比如,比如Autonomy,必须能够处理一个公,必须能够处理一个公司内部不同类型的信息源,使用与公司有关的特殊知司内部不同类型的信息源,使用与公司有关的特殊知识作为搜索和相关任务识作为搜索和相关任务(如数据挖掘如数据挖掘(d

29、ata mining)的一的一部分。数据挖掘指从数据中自动发现有趣的结构,也部分。数据挖掘指从数据中自动发现有趣的结构,也包括聚类包括聚类(clustering)技术。技术。 桌面搜索引擎桌面搜索引擎,比如,比如google和百度的桌面搜索引擎,和百度的桌面搜索引擎,必须能够在人们制作和浏览新文档、网页和邮件时快必须能够在人们制作和浏览新文档、网页和邮件时快速地合并,同时提供非常直观的界面来搜索这些非常速地合并,同时提供非常直观的界面来搜索这些非常异质的混合信息。异质的混合信息。6.5 搜索引擎 搜索引擎设计中的重要问题包括了信息检索中搜索引擎设计中的重要问题包括了信息检索中的各种问题:有效的

30、排序算法、评价及用户交的各种问题:有效的排序算法、评价及用户交互。互。 大规模数据给搜索引擎带来了其他许多难题大规模数据给搜索引擎带来了其他许多难题, 首要问题是搜索引擎的性能首要问题是搜索引擎的性能:v响应时间响应时间(response time)v查询吞吐量查询吞吐量(query throughput)v索引速度索引速度(indexing speed)。6.5 搜索引擎 搜索要处理动态持续变化的信息。另一个重要搜索要处理动态持续变化的信息。另一个重要的性能指标是把新数据合并到索引中的速度。的性能指标是把新数据合并到索引中的速度。v覆盖率覆盖率( coverage)衡量现存信息(比如在一衡量

31、现存信息(比如在一个企业信息环境中)有多少被索引和存储在个企业信息环境中)有多少被索引和存储在搜索引擎中。搜索引擎中。v新近性新近性(recency)或时新性或时新性(freshness)衡量所衡量所存信息的年龄存信息的年龄(age)。6.5 搜索引擎 Web搜索引擎搜索引擎v不仅在规模上史无前例,而且其创建过程中协调机制的缺乏也是空前的vWeb参与者的背景和动机的多样性同样也是空前的 以上的每一个因素都使得 Web 搜索有别于传统的文档搜索。6.5 搜索引擎 Web搜索引擎搜索引擎6.5 搜索引擎 Web搜索引擎搜索引擎Web 到底有多大? 到到 1995 年底,年底,Altavista声称

32、它采集并索引了大概声称它采集并索引了大概三千万个静态网页。三千万个静态网页。 动态页面(动态页面(dynamic page)通常是由应用服务器应)通常是由应用服务器应答数据库的查询需求时产生的。这种页面的一个答数据库的查询需求时产生的。这种页面的一个标志是标志是URL 中通常包含字符中通常包含字符“?”。 在在 1995 年时,由于大家相信每过几个月静态页面年时,由于大家相信每过几个月静态页面的数目就会翻番,所以早期的包括的数目就会翻番,所以早期的包括 Altavista 在内在内的的 Web 搜索引擎必须要经常增加硬件和带宽来采搜索引擎必须要经常增加硬件和带宽来采集和索引网页。集和索引网页。

33、Web图 我们可以将整个静态我们可以将整个静态 Web 看成是静态看成是静态 HTML 网页通过超网页通过超链接互相连接而成的有向图,链接互相连接而成的有向图,其其中每个网页是图的顶点,中每个网页是图的顶点,而每个超链接则代表一个有向边。而每个超链接则代表一个有向边。 一个网页的入链接数目被称为这个网页的入度(in-degree),在一系列研究中得到的。作弊网页 Web 搜索引擎显然是连接广告商和顾客的一种重要途径搜索引擎显然是连接广告商和顾客的一种重要途径! 例如:例如:用户在搜索用户在搜索“Chicago golf real estate”时,他想时,他想做的不仅仅是搜索有关做的不仅仅是搜

34、索有关 Chicago的的高尔夫球场地产的新闻高尔夫球场地产的新闻或者娱乐信息,而且很可能要寻找并购买这样的地产。或者娱乐信息,而且很可能要寻找并购买这样的地产。: 即通过操作网页内容即通过操作网页内容来达到在某些关键词的搜索结果中排名较高的目的。来达到在某些关键词的搜索结果中排名较高的目的。 为了避免用户对这些冗余和重复信息的极度反感,一些老为了避免用户对这些冗余和重复信息的极度反感,一些老练的作弊者还会采用一些手段和技巧,比如将这些重复的练的作弊者还会采用一些手段和技巧,比如将这些重复的词设置成和背景一样的颜色。词设置成和背景一样的颜色。伪装 作弊者也发展出了更多的作弊技术。一种技术被称为

35、桥页包含了精心挑选的文字和元信息,通过这些信息能够针对某些选定的搜索关键词来提高排名。当某个浏览器请求访问桥页时,它会重定向到一个更具商业性的网页。 更复杂的作弊技术还包括及指向等。回目录 由于作弊的根源来自经济利益的驱动,因此涌现了一个被称为 ,搜索引擎优化)的产业。 这些 SEO 能逐渐推断出每个 Web 搜索引擎排名算法的特性,而搜索引擎公司则会不断做出应对,他们之间的斗争将永不停止。(adversarial information retrieval)。为了对抗作弊者通过操作网页内容进行作弊的做法,人们开发出了一种利用 Web 中链接结构的被称为的方法。 最早大规模使用链接分析方法的搜

36、索引擎是Google。6.5 搜索引擎 独立搜素引擎独立搜素引擎v搜索引擎的架构为搜索引擎提供组成部分并定义各搜索引擎的架构为搜索引擎提供组成部分并定义各个组件关系的高层描述。搜索引擎的两个主要目标个组件关系的高层描述。搜索引擎的两个主要目标是:是:- 效果:对于用户的的查询,返回最准确的相关性效果:对于用户的的查询,返回最准确的相关性排序文档。排序文档。- 效率:尽可能快速的返回满足用户的查询的检索效率:尽可能快速的返回满足用户的查询的检索结果。结果。v为了提供准确的效果,搜索引擎对网页和日志等内为了提供准确的效果,搜索引擎对网页和日志等内容进行深入的加工和处理;为了高效率的服务,搜容进行深

37、入的加工和处理;为了高效率的服务,搜索引擎采用特殊的数据结构和缓存技术索引擎采用特殊的数据结构和缓存技术. 元搜索引擎元搜索引擎6.5 搜索引擎索引组件6.5 搜索引擎查询处理组件6.5 搜索引擎索引组件6.5 搜索引擎 文本采集组件用于发现文档。文本采集组件用于发现文档。 文本采集通常通过爬行(文本采集通常通过爬行(crawing),建立检索的),建立检索的文档集合、元数据(文档集合、元数据(metadata)库。)库。 元数据不表示文档的文本内容,但是表示关于一元数据不表示文档的文本内容,但是表示关于一篇文档的信息。如文档类型、文档结构、来源、篇文档的信息。如文档类型、文档结构、来源、日期

38、、长度等信息。日期、长度等信息。 爬虫爬虫 信息推送信息推送 文本转换文本转换 文档数据库文档数据库 6.5 搜索引擎 为快速生成摘要以及分析任务,有必要在搜索引为快速生成摘要以及分析任务,有必要在搜索引擎本地保存原始文档的副本。擎本地保存原始文档的副本。 文档数据库管理的数据包括非结构化的文档内容文档数据库管理的数据包括非结构化的文档内容和结构化的元数据。和结构化的元数据。 小规模的文档集,可以采用关系数据库存储这些小规模的文档集,可以采用关系数据库存储这些文档和元数据。文档和元数据。 大规模的场景中,通常采用专门设计的文档数据大规模的场景中,通常采用专门设计的文档数据库,存储大规模的文档数

39、据库,并提供高速的内库,存储大规模的文档数据库,并提供高速的内容存取。容存取。6.5 搜索引擎 文档格式解析文档格式解析 词素切分词素切分 去除停用词去除停用词 词干提取词干提取 超链接的抽取与分析超链接的抽取与分析 信息抽取信息抽取 文本分类器文本分类器6.5 搜索引擎 索引项索引项v文本转换组件将文档转化为索引项(文本转换组件将文档转化为索引项(index term)或者)或者“特征特征”(feature)。)。v最简单的索引项是一个英语单词或者一个汉语最简单的索引项是一个英语单词或者一个汉语字。字。 文档统计文档统计v文档统计组件汇总和记录词、特征及文档的统文档统计组件汇总和记录词、特征及文档的统计信息。排序组件使用该信息来计算文档的分计信息。排序组件使用该信息来计算文档的分值。值。 权重计算权重计算 倒排索引倒排索引 索引分派索引分派6.5 搜索引擎索引项索引项文档统计文档统计权重计算权重计算v索引项的权值(索引项的权值(weight)反映了文档中词的相对重要性)反映了文档中词的相对重要性,并且用于为排序计算分值。,并且用于为排序计算分值。v加权组件利用文档统计结果计算权值,并将权值存储在加权组件利用文档统计结果计算权值,并将权值存储在查找

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论