网络信息检索2.ppt

上传人：3*** IP属地：湖北上传时间：2020-03-17 格式：PPT 页数：55 大小：3.13MB 积分：25 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

13 第8章Internet信息检索 2 扬州职大电子工程系贾湛 INTERNET基础知识如何高效地利用网络信息资源首先应该了解IP地址 URL DNS和TCP IP协议等INTERNET基础知识网络信息资源是我们学习工作生活中利用率最高的信息资源之一网络信息资源又称电子信息资源因特网信息资源等它是以电子化数字化的形式存储在网络节点中的借助于计算机网络进行传播和利用的信息产品和信息系统的的集合体有许多网络信息是免费的因此相对与本馆纸质文献信息资源和数字资源的检索利用其对人的影响更为深远 IP地址 IP InternetProtocol 地址一台电脑的网络协议地址人们为了通信的方便给每一台计算机都事先分配一个类似我们日常生活中的电话号码一样的标识地址称作网络协议地址是分配给主机的一个32位地址由4个字节组成分为动态IP地址和静态IP地址两种动态IP地址指的是每次连线所取得的地址不同静态地址如某学校网站的IP地址 10 80 96 202在图书馆无线上网就是动态IP地址每次所取得的地址不同静态IP地址指每次连线均为同样固定的地址域名 DN 虽然可以通过IP地址来访问每一台主机但是要记住那么多枯燥的数字串显然是非常困难的为此 Internet提供了域名 DomainName 域名 IP地址的英文表述由若干部分组成各部分之间用小数点分开例如我校主机的域名是网址 URL 网页地址域名前加上传输协议信息及主机类型信息网址例如我校www主机的URL就是域名的组成一般组成主机代码子网代码网络分类代码国别代码 com商业公司 org社团 net网络服务 edu教育机构 gov 政府部门 mil军事领域 ac教育机构 inst单位网络分类代码 E mail地址用户名域名中国的商业 org hk香港的组织 net jp日本的网络例世界国名代号世界专利索引 WorldPatentIndex 简称WPI 是世界上著名的单一性检索工具由英国一家专门从事专利文献出版的德温特公司 DerwentPublicationLtd 出版习惯上又称德温特专利文献检索工具它的出版物包括专利目录文摘积累索引等各类检索工具其载体有印刷型缩微型和电子出版物目前WPI的年报道量有78万件占世界专利文献总量的70 以上 WPI的报道速度快各国专利公布后一般在1 3月内即予收录以周刊的形式出版其后出版年度为当年二月份的第二个星期三至次年二月份的第二个星期二采用英语语种该公司目前报道专利的国家共35个另有两个组织欧洲专利公约 EuropeanPatentConvention 国际专利合作条约 PatentCooperationTreaty 和两种出版物英国的研究公开和美国技术公开上的专利 1987年开始报道中国专利文献网址URL 网络地址即UniformResourceLocator 统一资源定位器的俗称其构成通信协议主机路径文件名服务器标识符通过选择服务器标识符能够确定将要访问的服务器的类型有HTTP 采用超文本传输协议 FTP 采用文件传输协议 GOPHER 采用GOPHER协议 TELNET 采用远程登录协议 NWES 采用网络新闻传输协议等类型信息资源地址主机域名信息资源地址是由两部分构成的一是机器名称 IP或域名如是用来指示资源所存在的机器另一个是通信端口号范围是0到65535之间的整数一般情况下使用的是标准端口号可以不用写出在需要特殊服务时会用到非标准端口号这时就要写出如 81 HTTP的标准端口号为80 TELNET的标准端口号为23 FTP的标准端口号为21等等路径文件在上述主机的路径和文件名如 WWW信息资源 www即是万维网 WWW WorldWideWeb 是建立在超文本超媒体技术以及超文本传输协议HTTP HyperTextTransferProtocol 的基础上方便用户在因特网上搜索和浏览信息的信息服务系统它将位于全世界因特网上不同地点的相关数据信息有机地纺织在一起媒体形式可以是文本图片动画声音等可以跳转网上冲浪浏览web信息的网络浏览器有哪些微软IE InternetExplorer 遨游 maxthon 火狐 FireFox 网景 Netscape 腾讯TT浏览器 Telnet信息资源 Telnet信息资源是指借助远程登录在网络通信协议 TelecommunicationNetworkProtocol 的支持下可以访问共享的远程计算机中的资源 Telnet使用户可以在本地计算机上注册到远程计算机中的资源使用Telnet 用户可以与全世界许多信息中心图书馆及其他信息资源联系 Telnet远程登录的使用 1 用户在远程主机上有自己的帐号即用户拥有注册的用户名和口令 2 许多Internet主机为用户提供了某种形式的公共Telnet信息资源这种资源对于每一个Internet用户都是开放的 FTP信息资源 FTP信息资源利用文件传输协议FTP FileTransferProtocol 可以获取的信息资源 FTP使用户可以在本地计算机和远程计算机之间发送和接收文件 FTP不仅允许从远程计算机上获取下载文件 Download 也可以将文件从本地计算机拷贝传输到远程计算机 Upload FTP是目前Internet上获取免费软件和共享软件资源不可缺少的工具用户服务组信息资源用户服务组信息资源包括新闻组 UsenetNewsGroup简称Usenet 邮件列表 Mailinglist 专题讨论组 DiscussionGroup 兴趣组 InterestGroup 等这些讨论组都是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛在电子论坛中所传递与交流的信息就构成了Internet上最流行的一种信息资源 Gopher信息资源 Gopher是一种基于菜单的网络服务它为用户提供了丰富的信息并允许用户以一种简单的一致的方法快速找到并访问所需的网络资源全部操作是在一级级菜单的指引下用户只需在菜单中选择项目和浏览相关内容就可完成对Internet上远程联机信息系统的访问无需知道信息的存放位置和掌握有关的操作命令在因特网上可以做些什么访问虚拟图书馆和虚拟博物馆查检图书馆联机目录获取电子出版物获取科研学习资料访问各种数据库咨询各方面专家接受远程教育获取全球最新政治财经商业教育科技消息购书预订机票和车票查找旅游度假等资料上网聊天玩网络游戏发电子邮件及贺卡等网络信息资源检索要想在Internet上获得自己所需要的信息就必须知道这些信息存储在那里也就是说要知道提供这些信息的服务器在Internet上的地址然后通过该地址去访问服务器提供的信息在Internet上 www信息资源的一般查询方法有基于超文本的信息查询基于目录的信息查询基于搜索引擎的信息查询基于超文本的信息查询通过超文本链接逐步遍历庞大的Internet 从一个www服务器到另一个www服务器从一个目录到另一个目录从一篇文章到另一篇文章浏览查找所需信息的方法称为浏览也称基于超文本的信息查询方法利用浏览模式进行检索时用户只需以一个节点作为入口根据节点中文本的内容了解嵌入其中的热链指向的主题然后选择自己感兴趣的节点进一步搜索在搜索过程中用户会发现许多相关的节点内容根本没被自己所预想到而是在浏览过程中不断蹦出来提醒用户注意它这种方式随机性很大因为网络信息非常多所以通过一步步浏览来查找所需信息却非常困难基于目录的信息查询网上目录一般以主题方式来组织大主题下又包括若干小主题这样一层一层地查下去直到比较具体的信息标题目录存放在www服务器里各个主题通过超文本的方式组织在一起用户通过目录最终可得到所需信息的网址有许多机构专门收集Internet上的信息地址并编制成目录提供给网上用户 Yahoo就是一个非常著名的基于目录帮助的网站其目录按照一般主题组织顶层按网页资讯知识音乐图片网址等分成6大类目录每一大类又分成若干子类层层递进基于搜索引擎的信息查询搜索引擎是www上的一种信息检索软件也可称为Internet上具有检索功能的网页基于搜索工具的检索方法接近于我们通常所熟悉的检索方式即输入检索词以及各检索词之间的逻辑关系然后检索软件根据输入信息在索引库中搜索获得检索结果在Internet上是一系列节点地址并输出给用户搜索引擎实际上是Internet的服务站点有免费为公众提供服务的也有进行收费服务的不同的检索服务可能会有不同界面不同的侧重内容但有一点是共同的就是都有一个庞大的索引数据库这个索引库是向用户提供检索结果的依据其中收集了Internet上数百万甚至数千万主页信息包括该主页的主题地址包含于其中的被链接文档主题以及每个文档中出现的单词的频率位置等搜索引擎的构成和工作原理构成搜索器索引器检索器和用户接口工作原理 1 存储搜索器 Spider蜘蛛 Robot机器人 Webcraw爬行者是一种软件它沿着WWW文件的链接在网上漫游从一个或一组RUL开始访问该RUL所指HTML文件中所有的RUL锚链然后再以这些新的RUL为起始点继续进行索引直到再也没有满足条件的新的RUL为止记录RUL 文件的简明摘要关键字或索引形成一个很大的数据库索引器 2 检索由检索器根据用户接口输入的查询检索词在索引器数据库中快速匹配如泛匹配模糊匹配正则匹配对查询结果根据某种算法和规则评分和排序通过用户接口显示匹配的结果搜索引擎的自动信息搜集功能分两种定期搜索即每隔一段时间比如Google一般是28天搜索引擎主动派出蜘蛛程序对一定IP地址范围内的互联网站进行检索一旦发现新的网站它会自动提取网站的信息和网址加入自己的数据库提交网站搜索即网站拥有者主动向搜索引擎提交网址它在一定时间内 2天到数月不等定向向你的网站派出蜘蛛程序扫描你的网站并将有关信息存入数据库以备用户查询由于近年来搜索引擎索引规则发生了很大变化主动提交网址并不保证你的网站能进入搜索引擎数据库因此目前最好的办法是多获得一些外部链接让搜索引擎有更多机会找到你并自动将你的网站收录搜索引擎的分类检索型搜索引擎 FullTextSearchEngine 它使用自动索引软件来发现收集并标引网页建立数据库并以Web形式让用户找到所需信息资源比较著名的有 AltaVista Google 天网百度等目录型搜索引擎 SearchIndex Directory 将搜索到的信息分门归类经过人工整理后形成庞大而有序的分类目录体系雅虎就是以卓越的分类目录型导航服务而称誉全球混合型搜索引擎它兼有检索型和目录型两种方式如新浪搜狐网易中华等门户网站元搜索引擎 MetaSearchEngine 又称集合型搜索引擎将多个单一搜索引擎集成在一起提供统一的检索界面将用户的检索提问一次搜索多个搜索引擎并将结果返回给用户有的直接按来源引擎排列搜索结果有的则按自定的规则将结果重新排列组合著名的有 Dogpile Mamma和万维搜索两种引擎的比较 1 主题引擎与目录指南型引擎的主要区别 1 信息处理对象目录指南型为网站主题型为网页 2 信息处理方式目录指南型为有人工参与主题型为全自动化 3 信息的质量和数量目录指南型质量上相对较高主题型数量上相对较多 2 主题引擎的分类途径不如目录指南型引擎主题搜索引擎提供的分类途径或者为自动分类的结果或是借用其他目录引擎的分类数据例如Google利用网景公司的OpenDirectory分类因而分类检索效果不如由人工仔细分类的目录指南型搜索引擎 3 目录指南型引擎的主题查找效果不如主题型引擎目录指南型引擎的主题检索只在对站点人工描述语言中进行查找范围有限所得结果通常是分类类名和网站名称结果数量远不如主题引擎万纬搜索引擎万纬搜索引擎是最有名的中文元搜索引擎万纬中文集成搜索引擎包括了5个英文搜索引擎Argos Google hotbot northernLight Yahoo和7个中文搜索引擎如网典新浪雅虎中文搜狐天网悠游搜索用户可根据需要自由选择其中最多6个引擎进行同步搜索搜索结果可按相关度时间域名和引擎分类万维搜索万维高级搜索界面搜索引擎的一般查询规则 1 布尔逻辑算符 1 与一般用 AND 表示有的用空格表示目的提高查准率 2 或一般用 OR 表示有的用表示目的提高查全率 3 逻辑非一般用 NOT 有的用表示目的缩小检索范围优先运算符例如检索式多媒体and 计算机or网络 2 字符串检索符如计算机软件 3 截词符一般用星号表示例如检索式 compu 则表示可以检索到computer computing compulsion等词有一些搜索引擎支持自动截词用户不需要专门输入截词符系统自动将相同词干的词全部找出来限定字段检索标题限制格式 title 检索式例如 title marslandings title marslandings 2 站点检索格式 site 域名中的词例如检索式 site 3 URL检索格式 url URL中的词例如 url home html 4 链接检索格式 link 网页中链接网站中的词例如 link thomas gov 可以检索出与 thomas gov 至少有一次链接的页面 5 文件类型限制格式 filetype 文件类型例如 filetype ppt 1990年由蒙特利尔大学学生AlanEmtage发明的Archie 虽然当时WorldWideWeb还未出现但网络中文件传输还是相当频繁的而且由于大量的文件散布在各个分散的FTP主机中查询起来非常不便因此AlanEmtage想到了开发一个可以以文件名查找文件的系统于是便有了Archie 它依靠脚本程序自动搜索网上的文件然后对有关信息进行索引供使用者以一定的表达式查询 Archie是第一个自动索引互联网上匿名FTP网站文件的程序但它还不是真正的搜索引擎搜索引擎发展史1 Archie 搜索引擎的始祖由于Archie深受欢迎受其启发 NevadaSystemComputingServices大学于1993年开发了一个Gopher GopherFAQ 搜索工具Veronica VeronicaFAQ WorldwideWebWanderer 世界上第一个Spider程序由MITMatthewGray开发开始它只用来统计互联网上的服务器数量后来则发展为也能够捕获网址 URL 搜索引擎发展史2 随着互联网的迅速发展使得检索所有新出现的网页变得越来越困难因此一些编程者将传统的蜘蛛程序工作原理作了些改进其设想是既然所有网页都可能有连向其他网站的链接那么从跟踪一个网站的链接开始就有可能检索整个互联网到1993年底一些基于此原理的搜索引擎开始纷纷涌现其中突出的有JumpStation TheWorldWideWebWorm Goto的前身也就是今天Overture 和Repository BasedSoftwareEngineering RBSE 搜索引擎发展史3 RBSE 第一个在搜索结果排列中引入关键字串匹配程度概念的引擎 Excite的历史可以上溯到1993年2月 6个StanfordUniversity 斯坦福大学大学生的想法是分析字词关系以对互联网上的大量信息作更有效的检索 Excite后来曾以概念搜索闻名 2002年5月被Infospace收购的Excite停止自己的搜索引擎改用元搜索引擎Dogpile 搜索引擎发展史4 Excite 概念搜索 1994年4月斯坦福大学的两名博士生美籍华人杨致远和DavidFilo共同创办了随着访问量和收录链接数的增长 Yahoo目录开始支持简单的数据库搜索因为Yahoo 的数据是手工输入的所以不能真正被归为搜索引擎 Yahoo 中收录的网站因为都附有简介信息所以搜索效率明显提高 Yahoo以后陆续有Altavista Inktomi Google提供搜索引擎服务 Yahoo 超级目录索引 1995年 Washington大学硕士生EricSelberg和OrenEtzioni建立用户只需提交一次搜索请求由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎并将从各独立搜索引擎返回的所有查询结果集中起来处理后再返回给用户元搜索引擎概念上好听但搜索效果始终不理想所以没有哪个元搜索引擎有过强势地位搜索引擎发展史5 Metacrawler 第一个元搜索引擎 MetaSearchEngine 最早现代意义上的搜索引擎出现于1994年7月当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中创建了大家现在熟知的Lycos 搜索引擎发展史6 AltaVista是一个以网页全文检索为主同时提供分类目录的搜索引擎内容极其丰富真正可以称海量信息检索 AltaVista于1995年由迪吉多公司 DigitalEquipmentCorporation 创立 2003年被Overture以1 4亿美元现金加股票的形式购得同年转手给雅虎雅虎宣布将于2013年7月8日关闭搜索引擎AltaVista服务 AltaVista 第一个实现高级搜索如AND OR NOT等语法的搜索引擎是全球最知名搜索引擎公司之一 Fast Alltheweb 有极其强大的高级搜索功能公司创立于1997年是挪威科技大学 NTNU 学术研究的副产品 1999年5月发布了自己的搜索引擎AllTheWeb 2003年2月25日 Fast的互联网搜索部门被Overture收购 1998年10月之前 Google只是斯坦福大学 StanfordUniversity 的一个小项目BackRub 1995年博士生LarryPage开始学习搜索引擎设计于1997年9月15日注册了的域名 1999年2月 Google完成了从Alpha版到Beta版的蜕变 Google公司则把1998年9月27日认作自己的生日 Google以网页级别 Pagerank 为基础判断网页的重要性使得搜索结果的相关性大大增强 Google公司的奇客 Geek 文化氛围不作恶 Don tbeevil 的理念为Google赢得了极高的口碑和品牌美誉 2006年4月 Google宣布其中文名称谷歌这是Google第一个在非英语国家起的名字搜索引擎发展史7 Google 世界最重要的搜索引擎搜索引擎发展史8 2000年1月两位北大校友超链分析专利发明人前Infoseek资深工程师李彦宏与好友徐勇加州伯克利分校博士后在北京中关村创立了百度 Baidu 公司 2001年10月22日正式发布Baidu搜索引擎专注于中文搜索 2005年8月5日在纳斯达克上市发行价为USD27 00 代号为BIDU 开盘价USD66 00 以USD122 54收盘涨幅353 85 创下了5年以来美国股市上市新股当日涨幅最高纪录百度世界上最大的中文信息库爱问 2005年6月新浪正式推出的自主研发的搜索引擎 2007年起新浪爱问使用google搜索引擎搜狗 2004年8月sohu公司推出自称第三代搜索引擎 1996年8月 sohu公司成立制作中文网站分类目录曾有出门找地图上网找搜狐的美誉随着互联网网站的急剧增加这种人工编辑的分类目录已经不适应 Openfind创立于1998年1月其技术源自台湾中正大学吴升教授所领导的GAIS实验室 Openfind起先只做中文搜索引擎鼎盛时期同时为三大著名门户新浪奇摩雅虎提供中文搜索引擎但2000年后市场逐渐被Baidu和Google瓜分 2002年6月 Openfind重新发布基于GAIS30Project的Openfind搜索引擎Beta版推出多元排序 PolyRankTM 开始进入英文搜索领域有道 2007年7月1日网易自主研发的搜索技术搜索引擎发展史9 中文常用搜索引擎百度中文搜索引擎国外英文常用搜索引擎 Google 以搜索精度高速度快成为最受欢迎的搜索引擎是目前搜索界的领军人物 Fast AllTheWeb 总部位于挪威的搜索引擎后起之秀风头直逼google AltaVista 曾经的搜索引擎巨人被认为是最好的搜索引擎之一 Overture 最著名的搜索引擎广告商竞价排名的始作俑者也是全文搜索引擎 Lycos 发源于西班牙的搜索引擎网络遍布世界各地 HotBot 隶属于LycosNetworks 搜索结果来自其他搜索引擎及目录索引 AskJeeves 与其他关键词搜索引擎不同被设计成回答用户提问的自然语言引擎电子电工网站导航中国电子网中电网电子产品世界今日电子国际电子商情中国电子报 PCB信息网行业导航中华液晶网阿里巴巴电子电工网广州电子技术网电子搜索引擎全球电源网电子报无线电国际电子网华强电子世界网中国电子资源网中国传感器信息网中国变压器行业信息网 AskJeeves AskJeeves于1996年六月由DavidWarthen和GarrettGruener创建他们致力于将互联网人性化总部设在加利福尼亚的Emeryville 同时在纽约波士顿新泽西洛杉机和伦敦设有办事处 AskJeeves与其他关键词搜索引擎不同被设计成回答用户提问的自然语言引擎 AskJeeves曾是著名搜索引擎DirectHit 2002年4月被关闭的母公司在2001年年末收购了全文搜索引擎Teoma并与之进行整合 Teoma是以主题分类为基础的目录集合能够返回网上最权威最相关的搜索结果所以它是唯一可以组织分析网络的搜索技术 AskJeeves是仅次于Google的第二大搜索引擎也是互联网上第五大搜索基地 Google 雅虎微软 AOL Askjeeves AskJeeves首页 AskJeeves高级检索课题查找美国市场的非国产的USB电源适配器 USBPowerAdapter 3900条检索式 HotBot曾是比较活跃的搜索引擎数据更新速度比其他引擎都快网页库容量为1 1亿以独特的搜索界面著称该引擎已被Lycos收购成为TerraLycosNetwork的一部分点击进入检索式 HotBot Lycos 最早诞生于1994年麦克马丁博士 Dr MichaelMauldin 在CarnegieMellon大学的一个搜索项目在Lycos搜索引擎被开发后不久 Lycos公司成立 2000年10月 TerraNetworks S A 收购Lycos Inc 形成了TerraLycos集团该集团在美国加拿大欧洲亚洲和拉美运营着许多网络使用者最常拜访的入门网站同时还是西班牙和拉美最大的接入服务提供商 Go Infoseek WWW 百度首席科学家张以纬创造了第一代Infoseek 而罗宾李彦宏的英文名则创造了第二代Infoseek 1998年InfoSeek被迪士尼公司买下变成G 在1999年 InfoSeek的李彦宏离开了这个搜索引

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

网络信息检索2.ppt

文档简介

温馨提示

最新文档

评论

网络信息检索2.ppt

文档简介

温馨提示

最新文档

评论

相关文档