版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息治理学王二威2023年10月13日其次局部:信息资源采集利用第4章信息猎取第5章信息组织第6章信息检索案例:专利信息的采集与利用6.1概述信息组织是指依据肯定的规章来描述信息资源或信息对象,以便于能被需要它们的人高效地利用。信息检索则是指为了个人或他人的需要,去觉察适当的信息资源或信息对象。信息组织和信息检索是一对互逆过程。什么是信息检索信息检索〔InformationRetrieval,IR〕就是从数据源中找到满足需求的信息的过程。传统信息检索依据笔画从字典中查找某字的读音和意思从《三国演义》中查找貂蝉出场的章节和地点从《概率论》中查找贝叶斯公式等等电子信息时代的信息检索从手机通信录中查找某条短信从电子词典中查找某单词的例句从某个网页中查找某关键字消失的地方从数据库中查询满足检索条件的记录本书重点要争论的信息检索:从互联网中检索包含某个关键字的最相关的网页6.1概述信息检索是信息用户为处理解决各种问题而查找、识别、猎取相关的事实、数据、学问的活动及过程。广义:信息的存储与检索狭义:检索本质:用户的信息需求与肯定信息集合的匹配,潜在的相关信息是信息检索系统输出的结果。6.1概述满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,供给肯定存贮与检索方法及检索效劳功能的一种相对独立的效劳实体(包括人和检索工作单位),统称为信息检索系统(InformationRetrievalSystem,简称IRS)。信息检索系统的三个根本要素:人、检索工具(包括设备)和信息资料图6.1信息检索系统的体系构造
潜在的相关信息信息组织和检索系统规范化的疑问式信息的组织概述的存贮比较/匹配索引(描述性的、受限制的)游戏规则=主题索引规则+辞典(包括词汇表和索引语言)需求概述或疑问式信息或数据检索流程组织流程存贮1:概述/搜寻恳求存贮2:信息的表示6.1概述6.1.2类型文献检索数据检索:比较分析、定量分析事实检索文本检索数值检索音视频检索1.文献信息检索〔DocumentRetrieval〕利用二次信息查找事物的信息及信息出处,检索结果是文献信息。“设计人行天桥的参考文献有哪些?”2.数据信息检索〔DataRetrieval〕利用检索工具(工具书、数据库)检索文献中的数据、公式等。检索结果是数据,23456韩元=?$3.事实信息检索〔FactRetrieval〕利用检索工具从存储事实的信息系统中查找出特定的事实。检索结果是事实,“中国最古老的桥?”6.1概述6.1.2类型全文检索多媒体检索超媒体检索检索对象:从文本到多媒体检索信息检索的应用包含了带有构造的多媒体文档、有意义的文本内容和其他媒体常见的信息媒体包括图片、视频、音频〔包括音乐和语音〕当前搜寻非文本文档的技术依靠于对这些内容的文本描述,而不是这些媒体自身的内容。对媒体内容的直接比较技术正在不断进步,例如图片的比较新兴搜寻引擎TinEye相像图片搜寻引擎〔加拿大〕过滤:颜色、模式、外形、face人立方:人物关系搜寻引擎关系可能性六度分割理论搜寻华尔兹。。。依据规模分类第一个级别是以Web搜寻〔websearch〕为代表的大规模级别,此时需要处理存储在数百万台计算机上的数十亿篇文档:如何采集到这种规模的文档?如何在这种大规模数据量的状况下建立高效运行的系统?如何应对Web特性所带来的特殊问题〔比方哄骗〕?其次个级别是小规模,个人信息检索〔personalinformationretrieval〕:操作系统中已经融合的信息检索的功能桌面搜寻(desktopsearch)邮件程序中的搜寻功能、分类问题:如何处理个人计算机上各种格式的文档?如何保证搜寻系统的免维护?如何在启动搜寻系统、处理信息和使用磁盘时保持简洁且占用的系统资源足够少而不至于对用户的正常工作造成影响?介于第一种大规模和其次种小规模之间的信息检索主要面对的是中等规模的数据,包括面对企业、机构和特定领域的搜寻〔domain-specificsearch〕:公司内部文档专利库或生物医学文献学术论文的搜寻这种状况下,文档往往存储在集中的文件系统中,由一台或者多台计算机供给搜寻效劳标引检索输出存储过程一次信息信息特征检索语言信息特征标识信息检索工具检索结果检索过程检索课题检索提问检索提问标识分析分析标引输入信息检索原理信息资源集合信息需求集合匹配6.1.4信息检索的模型20世纪60-70年月布尔模型向量空间模型概率模型模糊检索模型20世纪90年月后搜寻引擎布尔模型商业性文献数据库的主流模型与查询条件相关或无关查询结果不进展排序向量空间模型计算事物之间相像度的通用方法多维空间,向量相像度查询向量文档向量相像性6.2信息检索的进展历程四个阶段手工信息检索阶段机械信息检索阶段计算机信息检索阶段网络信息检索阶段6.2信息检索的进展历程——手工阶段正规的参考询问工作是由美国的公共图书馆和大专院校图书馆于19世纪下半叶首先进展起来的。“参考询问工作”产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室;20世纪初,多数图书馆成立了参考询问部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。渐渐进展到从多种文献源中查找、分析、评价和重新组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具;40年月进一步包括答复事实性询问,编制书目、文摘,进展专题文献检索,供给文献代译等。“信息检索”从今成为一项独立的用户效劳工作,并渐渐从单纯的阅历工作向专业化方向进展。6.2信息检索的进展历程——机械检索阶段机械信息检索两种根本类型机电信息检索系统光电信息检索系统
机械信息检索并没有进展信息检索语言,只是承受单一的方法对固定的存贮形式进展检索,而且过分依靠于设备,检索简单,本钱较高,检索效率和质量都不抱负。6.2信息检索的进展历程——计算机检索阶段1971年以前建立的信息检索系统,是传统的批处理检索方式。1971年以后,产生并进展的联机信息检索系统,如OCLC、Dialog在线数据库联机检索系统。20世纪90年月以来,产生并进展的网络信息检索阶段。机读数据库成为检索对象;专业检索向个人终端转移。搜寻引擎的鼻祖:Archie1990年由Montreal的McGillUniversity〔麦吉尔大学〕学生AlanEmtage、PeterDeutsch、BillWheelan制造的Archie(ArchieFAQ)实际上是一个可搜寻的FTP文件名列表现代搜寻引擎的起源:Wanderer1993年MIT的学生MatthewGray开发了WorldWideWebWanderer,它是世界上第一个利用网页之间的链接关系来监测Web进展规模的机器人〔Robot〕程序。最开头只是用来统计互联网上的效劳器数量,之后进展为也能捕获网址。Yahoo1994.4美籍华人JerryYang(杨致远)和DavidFilo完成了一套搜寻软件。最初Yahoo的数据是手工输入的,实际上只是一个可搜寻的名目。1995年1月,正式成立Yahoo网站第一个现代意义上的搜寻引擎:Lycos1994.7CarnegieMellonUniversity的MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创立了Lycos.供给了前缀匹配和字符相近限制、网页自动摘要、数据量相对较大。Infoseek1994年底,Infoseek推出,沿袭Yahoo!和Lycos的概念。友善的用户界面、大量附加效劳使其后来者居上。1995.12与Netscape的战略性协议使它变得很强势2023年2月,Infoseek改用Overture的搜寻结果第一个元搜寻引擎:Metacrawler元搜寻引擎(AMetaSearchEngineRoundup)。用户提交搜寻后,由元搜寻引擎负责转换处理后提交给多个预先选定的独立搜寻引擎,并将从各独立搜寻引擎返回的全部查询结果,集中起来处理后再返回给用户。第一个元搜寻引擎,是Washington大学硕士生EricSelberg和OrenEtzioni开发的Metacrawler〔1995〕。第一个支持自然语言搜寻的搜寻引擎:AltaVista1995年12月消失(AltaVistaPublicBetaPressRelease)。AltaVista是第一个支持自然语言搜寻的搜寻引擎。2023年AltaVista被Overture收购,后者是Yahoo的子公司。搜寻引擎的后来之王:Google1995年,佩奇来到斯坦福读博士,开头网络链接构造方面的争论工程BackRub。之后,他和布林提出了PageRank技术,用于对网页评级之后用于搜寻引擎,改写了搜寻引擎的定义,建立了Google。搜寻引擎的后来之王:GoogleGoogle在斯坦福引起了人们的关注。佩奇开头预备出售该技术,但是没有成功。Sun公司创始人的投资,随后成立公司。2023年和Yahoo合作,一飞冲天。2023年7月上市,市值250亿,增长速度超过微软。Google之特点专注、进取、朴实、低调、神话般的创业故事中文搜寻引擎老大:百度2023.1李彦宏创立了百度。2023.8公布百度测试版。目前是最大的中文搜寻引擎MP3搜寻特色百度的特点专注于技术专注于中文搜寻6.3检索工具一、检索工具定义1.用来提醒、存储和查找信息的工具主要指手工检索工具2.检索系统:检索设备+载体+信息构成的信息效劳系统6.3检索工具二、检索工具类型名目(Catalogue)1.综合性名目:2.专题名目:3.馆藏名目:4.联合名目:名目款目以各学科门类的图书或报刊文献为提醒对象的名目,如《中国期刊名目》提醒与报道某一特定学科、某一争论方向或课题的图书报刊文献名目提醒一个图书情报机构保藏图书报刊状况的名目,如:《上海图书馆馆藏中文报纸名目》提醒地区、系统或全国的图书文献机构文献保藏状况的名目,如《全国中文期刊联合名目》U464.176WPL汽车风冷发动机的构造原理/王平利,张虹主编.Ⅱ2版.——北京:高等教育出版社,2023.1242页:插图;16开ISBN7-04-012789-X:22元馆藏名目款目格式6.3检索工具二、检索工具类型索引(Index)Ewen-Smith,B.M.23777Ewing,M.20974,20976Excell,P.S.22613Ezekiel,S.01352Faber,M.T.20820Fabjan,C.W.05177……索引款目著录格式6.3检索工具二、检索工具类型文摘(Abstract)对一份文献的内容所进展的简单而准确的描述,即内容摘要名目反映文献的外部特征文摘反映文献的内部特征供给文献内容梗概,不加评论和补充解释,4个要素:争论目的、方法、结果、结论6.3检索工具二、检索工具类型分类法主题法科学文摘化学文摘《新华文摘》是人民出版社主办的是一个大型的综合性、学术性、资料性的文摘半月刊,其选登文章代表了诸领域的前沿思想。1979年,在时任人民出版社副社长范用的大力支持下,《新华月报·文摘版》创刊,1981年更名为《新华文摘》,2023年改版为半月刊,1999年1月起出版大字本《新华文摘》。中国人民大学《复印报刊资料》该库收录从95年至今100多个专题的全文复印资料,全部全文都是由100多位专家、教授从国内公开出版的3000余种核心报刊中精选出来的,其门类掩盖了全部社会科学和人文科学领域,能够代表学科争论前沿状况,具有很高的学术价值和应用价值,为用户所认可的优秀数据库。前情回忆信息检索:用户的信息需求与肯定信息集合的匹配,潜在的相关信息是信息检索系统输出的结果满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,供给肯定存贮与检索方法及检索效劳功能的一种相对独立的效劳实体(包括人和检索工作单位),统称为信息检索系统(InformationRetrievalSystem,简称IRS)。图6.1信息检索系统的体系构造
潜在的相关信息信息组织和检索系统规范化的疑问式信息的组织概述的存贮比较/匹配索引(描述性的、受限制的)游戏规则=主题索引规则+辞典(包括词汇表和索引语言)需求概述或疑问式信息或数据检索流程组织流程存贮1:概述/搜寻恳求存贮2:信息的表示6.3检索工具二、检索工具类型分类法主题法科学文摘化学文摘信息检索系统6.4信息检索的步骤与策略分析检索课题选择检索工具选择检索途径,确定检索标识选择检索方法猎取原始文献6.4信息检索的步骤与策略分析检索课题1.分析主题内容:学科范围,关键问题;打算主题词和关键词2.分析时间范围:最新进展/专利-近/远3.分析信息类型:期刊/专著/会谈论文/专利/标准文献/科技报告6.4信息检索的步骤与策略选择检索工具选择检索途径,确定检索标识1.选择检索途径分类途径;主题途径;题名途径;著者途径;信息代码途径2.确定检索标识1)承受主题词做检索标识时,应考虑该词的同义词,近义词,如互联网/英特网2)依据检索课题要求,选取恰当的检索标识,适度确定其范围的大小信息检索步骤分析检索课题1.主题内容2.时间范围3.信息类型4.检索语种主题概念确定检索途径1.分类途径2.主题途径3.题名途径4.著者途径5.其它途径选择检索方法1.常规法2.追溯法3.交替法信息线索确定一次信息出处1.缩写复原为全称2.音译转换成原名3.信息类型选择检索工具1.馆藏名目2.图书馆信息检索系统猎取一次信息选择检索工具1.索引2.文摘信息检索策略信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要到达肯定的检准率和检全率。信息检索策略目前在以下三方面取得进展:(1)以检全为目标的检索策略的调整与掌握;(2)以检准为目标的检索策略的调整与掌握;(3)以最小投入为目标的检索策略的调整与掌握。
对特定系统、特定数据以及某一类型课题的检索策略的争论具体表现在以下两方面:(1)是某一系统、某一数据库检索策略;(2)是某一类型课题检索策略。信息检索效率的评价检索效率是指全、准、快、便、省(检全率、检准率、检索速度、检索便利性、检索本钱与效益),最主要的是全和准。在评价信息检索效率过程中,主要通过检全率、检准率、漏检率和误检率四个评价指标进展评价,其中重点是检全率和检准率。信息检索效率的评价检全率R〔RecallRatio〕:检出力量的指标检出相关文献/相关文献总量=a/(a+b)检准率P〔PrecisionRatio〕:检索精度检出相关文献/检出文献总量=a/(a+c)相关文献非相关文献总计被检出文献aca+c未检出文献bdb+d总计a+bc+da+b+c+d信息检索效率的评价漏检率O〔OmissionRatio〕:检出力量的指标未检出相关文献/相关文献总量=b/(a+b)误检率E(ErrorRatio)检出非相关文献/检出文献总量=c/(a+c)相关文献非相关文献总计被检出文献aca+c未检出文献bdb+d总计a+bc+da+b+c+d6.5搜寻引擎搜寻引擎是信息检索技术在大规模文本集合上的实际应用。“搜寻引擎”一词原来是指为文本搜寻效劳的特殊的硬件。从20世纪80年月中期开头,在描述用来比较查询和文档并生成文档排序结果的软件系统时,渐渐更多地使用“搜寻引擎”一词,而不是“信息检索系统”或者“全文检索系统”。6.5搜寻引擎网络搜寻引擎,比方Yahoo,必需能够捕获,或者说爬取(crawl)TB级的数据,并对每天收到的全世界数以百万计的查询供给亚秒级的响应时间。企业搜寻引擎,比方Autonomy,必需能够处理一个公司内部不同类型的信息源,使用与公司有关的特殊学问作为搜寻和相关任务(如数据挖掘(datamining))的一局部。数据挖掘指从数据中自动觉察好玩的构造,也包括聚类(clustering)技术。桌面搜寻引擎,比方google和百度的桌面搜寻引擎,必需能够在人们制作和扫瞄新文档、网页和邮件时快速地合并,同时供给特别直观的界面来搜寻这些特别异质的混合信息。6.5搜寻引擎搜寻引擎设计中的重要问题包括了信息检索中的各种问题:有效的排序算法、评价及用户交互。大规模数据给搜寻引擎带来了其他很多难题,首要问题是搜寻引擎的性能:响应时间(responsetime)查询吞吐量(querythroughput)索引速度(indexingspeed)。6.5搜寻引擎搜寻要处理动态持续变化的信息。另一个重要的性能指标是把新数据合并到索引中的速度。掩盖率(coverage)衡量现存信息〔比方在一个企业信息环境中〕有多少被索引和存储在搜寻引擎中。新近性(recency)或时新性(freshness)衡量所存信息的年龄(age)。6.5搜寻引擎Web搜寻引擎Web在很多方面都是空前的:不仅在规模上史无前例,而且其创立过程中协调机制的缺乏也是空前的Web参与者的背景和动机的多样性同样也是空前的以上的每一个因素都使得Web搜寻有别于传统的文档搜寻。一般来说Web搜寻要困难得多。6.5搜寻引擎Web搜寻引擎新用户就无需太多的学习或者阅历便可以创立自己的HTML内容,甚至可以选择宠爱的网页作为样例直接学习。扫瞄器会无视其不能解析的内容,这个特点使得Web内容的创立和使用能够被快速集中开来。在Web上公布网页已经不是少数训练有素的编程人员的特权,而是上亿一般网民参与的活动。对于大局部的用户和需求来说,Web已经快速成为供给和消费各种信息的重要场所,这些信息包括从疑难杂症到地铁时刻表的任何内容。6.5搜寻引擎Web搜寻引擎新用户就无需太多的学习或者阅历便可以创立自己的HTML内容,甚至可以选择宠爱的网页作为样例直接学习。扫瞄器会无视其不能解析的内容,这个特点使得Web内容的创立和使用能够被快速集中开来。在Web上公布网页已经不是少数训练有素的编程人员的特权,而是上亿一般网民参与的活动。对于大局部的用户和需求来说,Web已经快速成为供给和消费各种信息的重要场所,这些信息包括从疑难杂症到地铁时刻表的任何内容。Web究竟有多大?Web究竟有多大?“某个搜寻引擎中索引的网页数目是多少?”到1995年底,Altavista声称它采集并索引了或许三千万个静态网页。动态页面〔dynamicpage〕通常是由应用效劳器应答数据库的查询需求时产生的。这种页面的一个标志是URL中通常包含字符“?”。在1995年时,由于大家信任每过几个月静态页面的数目就会翻番,所以早期的包括Altavista在内的Web搜寻引擎必需要常常增加硬件和带宽来采集和索引网页。Web图我们可以将整个静态Web看成是静态HTML网页通过超链接相互连接而成的有向图,其中每个网页是图的顶点,而每个超链接则代表一个有向边。一个网页的入链接数目被称为这个网页的入度〔in-degree〕,在一系列争论中得到的网页的平均入度或许从8到15左右不等。作弊网页Web搜寻引擎明显是连接广告商和顾客的一种重要途径!例如:用户在搜寻“Chicagogolfrealestate”时,他想做的不仅仅是搜寻有关Chicago的高尔夫球场地产的新闻或者消遣信息,而且很可能要查找并购置这样的地产。这导致了第一代作弊网页〔spam〕:即通过操作网页内容来到达在某些关键词的搜寻结果中排名较高的目的。为了避开用户对这些冗余和重复信息的极度反感,一些老练的作弊者还会承受一些手段和技巧,比方将这些重复的词设置成和背景一样的颜色。伪装作弊者也进展出了更多的作弊技术。一种技术被称为伪装〔cloaking〕依据恳求是来自搜寻引擎的采集器还是用户所使用的扫瞄器,作弊Web效劳器会返回不同的网页结果桥页桥页〔doorwaypage〕包含了细心选择的文字和元信息,通过这些信息能够针对某些选定的搜寻关键词来提高排名。当某个扫瞄器恳求访问桥页时,它会重定向到一个更具商业性的网页。更简单的作弊技术还包括操纵与网页相关的元数据及指向网页的链接等。回名目SEO=哄骗?由于作弊的根源来自经济利益的驱动,因此涌现了一个被称为SEO〔SearchEngineOptimizers,搜寻引擎优化〕的产业。这些SEO能渐渐推断出每个Web搜寻引擎排名算法的特性,而搜寻引擎公司则会不断做出应对,他们之间的斗争将永不停顿。对抗式信息检索〔adversarialinformationretrieval〕。为了对抗作弊者通过操作网页内容进展作弊的做法,人们开发出了一种利用Web中链接构造的被称为链接分析〔linkanalysis〕的方法。最早大规模使用链接分析方法的搜寻引擎是Google。6.5搜寻引擎独立搜素引擎搜寻引擎的架构为搜寻引擎供给组成局部并定义各个组件关系的高层描述。搜寻引擎的两个主要目标是:效果:对于用户的的查询,返回最准确的相关性排序文档。效率:尽可能快速的返回满足用户的查询的检索结果。为了供给准确的效果,搜寻引擎对网页和日志等内容进展深入的加工和处理;为了高效率的效劳,搜寻引擎承受特殊的数据构造和缓存技术.元搜寻引擎6.5搜寻引擎——索引组件6.5搜寻引擎——查询处理组件6.5搜寻引擎——索引组件6.5搜寻引擎文本采集组件用于觉察文档。文本采集通常通过爬行〔crawing〕,建立检索的文档集合、元数据〔metadata〕库。元数据不表示文档的文本内容,但是表示关于一篇文档的信息。如文档类型、文档构造、来源、日期、长度等信息。爬虫信息推送文本转换文档数据库6.5搜寻引擎为快速生成摘要以及分析任务,有必要在搜寻引擎本地保存原始文档的副本。文档数据库治理的数据包括非构造化的文档内容和构造化的元数据。小规模的文档集,可以承受关系数据库存储这些
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年城市房地产管理法修订与市场影响
- 上海立达学院《安全防范系统工程》2025-2026学年第一学期期末试卷(B卷)
- 2026年餐厅环境卫生清洁标准与操作流程培训
- 皮革行业原材料价格波动的影响分析
- 2026年森林幼儿园课程理念与实践
- 上海立信会计金融学院《安装工程结构与施工》2025-2026学年第一学期期末试卷(B卷)
- 2026年创建绿色企业采购部分工作清单
- 2026年团队多元文化背景下的责任认知协调
- 2026年危险化学品泄漏应急处置卡
- 2026年小学数学思维训练技巧与能力提升宝典
- 2025年四川省南充市初中学业水平考试中考物理真题试卷(中考真题+答案)
- 新版病历书写基本规范
- 神经性头痛护理
- 婚前协议电子版(2025年版)
- 《基于UASB+AO工艺的屠宰污水处理工艺设计》15000字(论文)
- 2024年大学生国防科技知识竞赛题库及答案(共210题)
- 双方自愿和解协议书版
- 部编人教版小学6六年级《道德与法治》下册全册教案
- (2024年)粮食企业安全生产培训课件
- (高清版)TDT 1031.1-2011 土地复垦方案编制规程 第1部分:通则
- 广东省普通高中新课程样本学校装备标准(试行)
评论
0/150
提交评论