网络信息检索2.ppt_第1页
网络信息检索2.ppt_第2页
网络信息检索2.ppt_第3页
网络信息检索2.ppt_第4页
网络信息检索2.ppt_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

13 第8章Internet信息检索 2 扬州职大电子工程系贾湛 INTERNET基础知识 如何高效地利用网络信息资源 首先应该了解IP地址 URL DNS和TCP IP协议等INTERNET基础知识 网络信息资源是我们学习 工作 生活中利用率最高的信息资源之一 网络信息资源又称电子信息资源 因特网信息资源等 它是以电子化 数字化的形式存储在网络节点中的 借助于计算机网络进行传播和利用的信息产品和信息系统的的集合体 有许多网络信息是免费的 因此相对与本馆纸质文献信息资源和数字资源的检索利用 其对人的影响更为深远 IP地址 IP InternetProtocol 地址 一台电脑的网络协议地址人们为了通信的方便给每一台计算机都事先分配一个类似我们日常生活中的电话号码一样的标识地址 称作网络协议地址 是分配给主机的一个32位地址 由4个字节组成 分为动态IP地址和静态IP地址两种 动态IP地址指的是每次连线所取得的地址不同 静态地址如某学校网站的IP地址 10 80 96 202在图书馆无线上网就是动态IP地址 每次所取得的地址不同 静态IP地址指每次连线均为同样固定的地址 域名 DN 虽然可以通过IP地址来访问每一台主机 但是要记住那么多枯燥的数字串显然是非常困难的 为此 Internet提供了域名 DomainName 域名 IP地址的英文表述 由若干部分组成 各部分之间用小数点分开 例如我校主机的域名是 网址 URL 网页地址 域名前加上传输协议信息及主机类型信息网址 例如我校www主机的URL就是 域名的组成 一般组成 主机代码 子网代码 网络分类代码 国别代码 com商业公司 org社团 net网络服务 edu教育机构 gov 政府部门 mil军事领域 ac教育机构 inst单位 网络分类代码 E mail地址 用户名 域名 中国的商业 org hk香港的组织 net jp日本的网络 例 世界国名代号 世界专利索引 WorldPatentIndex 简称WPI 是世界上著名的单一性检索工具 由英国一家专门从事专利文献出版的德温特公司 DerwentPublicationLtd 出版 习惯上又称德温特专利文献检索工具 它的出版物包括专利目录 文摘 积累索引等各类检索工具 其载体有印刷型 缩微型和电子出版物 目前WPI的年报道量有78万件 占世界专利文献总量的70 以上 WPI的报道速度快 各国专利公布后 一般在1 3月内即予收录 以周刊的形式出版 其后出版年度为当年二月份的第二个星期三至次年二月份的第二个星期二 采用英语语种 该公司目前报道专利的国家共35个 另有两个组织 欧洲专利公约 EuropeanPatentConvention 国际专利合作条约 PatentCooperationTreaty 和两种出版物 英国的 研究公开 和 美国技术公开 上的专利 1987年开始报道中国专利文献 网址URL 网络地址即UniformResourceLocator 统一资源定位器 的俗称 其构成 通信协议 主机 路径 文件名 服务器标识符通过选择服务器标识符能够确定将要访问的服务器的类型 有HTTP 采用超文本传输协议 FTP 采用文件传输协议 GOPHER 采用GOPHER协议 TELNET 采用远程登录协议 NWES 采用网络新闻传输协议 等类型 信息资源地址 主机域名 信息资源地址是由两部分构成的 一是机器名称 IP或域名 如是用来指示资源所存在的机器 另一个是通信端口号 范围是0到65535之间的整数 一般情况下使用的是标准端口号 可以不用写出 在需要特殊服务时会用到非标准端口号 这时就要写出 如 81 HTTP的标准端口号为80 TELNET的标准端口号为23 FTP的标准端口号为21等等 路径 文件在上述主机的路径 和文件名如 WWW信息资源 www即是万维网 WWW WorldWideWeb 是建立在超文本 超媒体技术以及超文本传输协议HTTP HyperTextTransferProtocol 的基础上 方便用户在因特网上搜索和浏览信息的信息服务系统 它将位于全世界因特网上不同地点的相关数据信息有机地纺织在一起 媒体形式可以是文本 图片 动画 声音等 可以跳转 网上冲浪 浏览web信息的网络浏览器有哪些 微软IE InternetExplorer 遨游 maxthon 火狐 FireFox 网景 Netscape 腾讯TT浏览器 Telnet信息资源 Telnet信息资源是指借助远程登录 在网络通信协议 TelecommunicationNetworkProtocol 的支持下 可以访问共享的远程计算机中的资源 Telnet使用户可以在本地计算机上注册到远程计算机中的资源 使用Telnet 用户可以与全世界许多信息中心 图书馆及其他信息资源联系 Telnet远程登录的使用 1 用户在远程主机上有自己的帐号 即用户拥有注册的用户名和口令 2 许多Internet主机为用户提供了某种形式的公共Telnet信息资源 这种资源对于每一个Internet用户都是开放的 FTP信息资源 FTP信息资源 利用文件传输协议FTP FileTransferProtocol 可以获取的信息资源 FTP使用户可以在本地计算机和远程计算机之间发送和接收文件 FTP不仅允许从远程计算机上获取 下载文件 Download 也可以将文件从本地计算机拷贝传输到远程计算机 Upload FTP是目前Internet上获取免费软件和共享软件资源不可缺少的工具 用户服务组信息资源 用户服务组信息资源包括 新闻组 UsenetNewsGroup简称Usenet 邮件列表 Mailinglist 专题讨论组 DiscussionGroup 兴趣组 InterestGroup 等 这些讨论组都是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛 在电子论坛中所传递与交流的信息就构成了Internet上最流行的一种信息资源 Gopher信息资源 Gopher是一种基于菜单的网络服务 它为用户提供了丰富的信息 并允许用户以一种简单的 一致的方法快速找到并访问所需的网络资源 全部操作是在一级级菜单的指引下 用户只需在菜单中选择项目和浏览相关内容 就可完成对Internet上远程联机信息系统的访问 无需知道信息的存放位置和掌握有关的操作命令 在因特网上可以做些什么 访问虚拟图书馆和虚拟博物馆查检图书馆联机目录获取电子出版物获取科研 学习资料 访问各种数据库 咨询各方面专家接受远程教育获取全球最新政治 财经 商业 教育 科技消息购书 预订机票和车票查找旅游 度假等资料上网聊天 玩网络游戏 发电子邮件及贺卡等 网络信息资源检索 要想在Internet上获得自己所需要的信息 就必须知道这些信息存储在那里 也就是说要知道提供这些信息的服务器在Internet上的地址 然后通过该地址去访问服务器提供的信息 在Internet上 www信息资源的一般查询方法有 基于超文本的信息查询 基于目录的信息查询 基于搜索引擎的信息查询 基于超文本的信息查询 通过超文本链接逐步遍历庞大的Internet 从一个www服务器到另一个www服务器 从一个目录到另一个目录 从一篇文章到另一篇文章 浏览查找所需信息的方法称为浏览 也称基于超文本的信息查询方法 利用浏览模式进行检索时 用户只需以一个节点作为入口 根据节点中文本的内容了解嵌入其中的热链指向的主题 然后选择自己感兴趣的节点进一步搜索 在搜索过程中 用户会发现许多相关的节点内容根本没被自己所预想到 而是在浏览过程中不断蹦出来 提醒用户注意它 这种方式随机性很大 因为网络信息非常多 所以通过一步步浏览来查找所需信息却非常困难 基于目录的信息查询 网上目录一般以主题方式来组织 大主题下又包括若干小主题 这样一层一层地查下去 直到比较具体的信息标题 目录存放在www服务器里 各个主题通过超文本的方式组织在一起 用户通过目录最终可得到所需信息的网址 有许多机构专门收集Internet上的信息地址 并编制成目录提供给网上用户 Yahoo就是一个非常著名的基于目录帮助的网站 其目录按照一般主题组织 顶层按网页 资讯 知识 音乐 图片 网址等分成6大类目录 每一大类又分成若干子类 层层递进 基于搜索引擎的信息查询 搜索引擎是www上的一种信息检索软件 也可称为Internet上具有检索功能的网页 基于搜索工具的检索方法接近于我们通常所熟悉的检索方式 即输入检索词以及各检索词之间的逻辑关系 然后检索软件根据输入信息在索引库中搜索 获得检索结果 在Internet上是一系列节点地址 并输出给用户 搜索引擎实际上是Internet的服务站点 有免费为公众提供服务的 也有进行收费服务的 不同的检索服务可能会有不同界面 不同的侧重内容 但有一点是共同的 就是都有一个庞大的索引数据库 这个索引库是向用户提供检索结果的依据 其中收集了Internet上数百万甚至数千万主页信息 包括该主页的主题 地址 包含于其中的被链接文档主题 以及每个文档中出现的单词的频率 位置等 搜索引擎的构成和工作原理 构成 搜索器 索引器 检索器和用户接口 工作原理 1 存储 搜索器 Spider蜘蛛 Robot机器人 Webcraw爬行者 是一种软件 它沿着WWW文件的链接在网上漫游 从一个或一组RUL开始 访问该RUL所指HTML文件中所有的RUL锚链 然后再以这些新的RUL为起始点 继续进行索引 直到再也没有满足条件的新的RUL为止 记录RUL 文件的简明摘要 关键字或索引 形成一个很大的数据库 索引器 2 检索 由检索器根据用户接口输入的查询检索词在索引器 数据库 中快速匹配 如泛匹配 模糊匹配 正则匹配 对查询结果根据某种算法和规则评分和排序 通过用户接口显示匹配的结果 搜索引擎的自动信息搜集功能分两种 定期搜索 即每隔一段时间 比如Google一般是28天 搜索引擎主动派出 蜘蛛 程序 对一定IP地址范围内的互联网站进行检索 一旦发现新的网站 它会自动提取网站的信息和网址加入自己的数据库 提交网站搜索 即网站拥有者主动向搜索引擎提交网址 它在一定时间内 2天到数月不等 定向向你的网站派出 蜘蛛 程序 扫描你的网站并将有关信息存入数据库 以备用户查询 由于近年来搜索引擎索引规则发生了很大变化 主动提交网址并不保证你的网站能进入搜索引擎数据库 因此目前最好的办法是多获得一些外部链接 让搜索引擎有更多机会找到你并自动将你的网站收录 搜索引擎的分类 检索型搜索引擎 FullTextSearchEngine 它使用自动索引软件来发现 收集并标引网页 建立数据库 并以Web形式让用户找到所需信息资源 比较著名的有 AltaVista Google 天网 百度等 目录型搜索引擎 SearchIndex Directory 将搜索到的信息分门归类 经过人工整理后形成庞大而有序的分类目录体系 雅虎就是以卓越的分类目录型导航服务而称誉全球 混合型搜索引擎 它兼有检索型和目录型两种方式 如 新浪 搜狐 网易 中华等门户网站 元搜索引擎 MetaSearchEngine 又称集合型搜索引擎 将多个单一搜索引擎集成在一起 提供统一的检索界面 将用户的检索提问一次搜索多个搜索引擎 并将结果返回给用户 有的直接按来源引擎排列搜索结果 有的则按自定的规则将结果重新排列组合 著名的有 Dogpile Mamma和万维搜索 两种引擎的比较 1 主题引擎与目录指南型引擎的主要区别 1 信息处理对象 目录指南型为网站 主题型为网页 2 信息处理方式 目录指南型为有人工参与 主题型为全自动化 3 信息的质量和数量 目录指南型质量上相对较高 主题型数量上相对较多 2 主题引擎的分类途径不如目录指南型引擎主题搜索引擎提供的分类途径或者为自动分类的结果 或是借用其他目录引擎的分类数据 例如Google利用网景公司的OpenDirectory分类 因而分类检索效果不如由人工仔细分类的目录指南型搜索引擎 3 目录指南型引擎的主题查找效果不如主题型引擎目录指南型引擎的主题检索只在对站点人工描述语言中进行 查找范围有限 所得结果通常是分类类名和网站名称 结果数量远不如主题引擎 万纬搜索引擎 万纬搜索引擎是最有名的中文元搜索引擎 万纬中文集成搜索引擎包括了5个英文搜索引擎Argos Google hotbot northernLight Yahoo和7个中文搜索引擎如网典 新浪 雅虎 中文 搜狐 天网 悠游搜索 用户可根据需要自由选择其中最多6个引擎进行同步搜索 搜索结果可按相关度 时间 域名和引擎分类 万维搜索 万维高级搜索界面 搜索引擎的一般查询规则 1 布尔逻辑算符 1 与 一般用 AND 表示 有的用空格 表示 目的 提高查准率 2 或 一般用 OR 表示 有的用 表示 目的 提高查全率 3 逻辑 非 一般用 NOT 有的 用 表示 目的 缩小检索范围 优先运算符 例如 检索式 多媒体and 计算机or网络 2 字符串检索符 如 计算机软件 3 截词符 一般用星号 表示 例如 检索式 compu 则表示可以检索到computer computing compulsion等词 有一些搜索引擎支持自动截词 用户不需要专门输入截词符 系统自动将相同词干的词全部找出来 限定字段检索 标题限制格式 title 检索式例如 title marslandings title marslandings 2 站点检索格式 site 域名中的词例如 检索式 site 3 URL检索格式 url URL中的词例如 url home html 4 链接检索格式 link 网页中链接网站中的词例如 link thomas gov 可以检索出与 thomas gov 至少有一次链接的页面 5 文件类型限制格式 filetype 文件类型例如 filetype ppt 1990年由蒙特利尔大学学生AlanEmtage发明的Archie 虽然当时WorldWideWeb还未出现 但网络中文件传输还是相当频繁的 而且由于大量的文件散布在各个分散的FTP主机中 查询起来非常不便 因此AlanEmtage想到了开发一个可以以文件名查找文件的系统 于是便有了Archie 它依靠脚本程序自动搜索网上的文件 然后对有关信息进行索引 供使用者以一定的表达式查询 Archie是第一个自动索引互联网上匿名FTP网站文件的程序 但它还不是真正的搜索引擎 搜索引擎发展史1 Archie 搜索引擎的始祖 由于Archie深受欢迎 受其启发 NevadaSystemComputingServices大学于1993年开发了一个Gopher GopherFAQ 搜索工具Veronica VeronicaFAQ WorldwideWebWanderer 世界上第一个Spider程序由MITMatthewGray开发 开始它只用来统计互联网上的服务器数量 后来则发展为也能够捕获网址 URL 搜索引擎发展史2 随着互联网的迅速发展 使得检索所有新出现的网页变得越来越困难 因此 一些编程者将传统的 蜘蛛 程序工作原理作了些改进 其设想是 既然所有网页都可能有连向其他网站的链接 那么从跟踪一个网站的链接开始 就有可能检索整个互联网 到1993年底 一些基于此原理的搜索引擎开始纷纷涌现 其中突出的有JumpStation TheWorldWideWebWorm Goto的前身 也就是今天Overture 和Repository BasedSoftwareEngineering RBSE 搜索引擎发展史3 RBSE 第一个在搜索结果排列中引入关键字串匹配程度概念的引擎 Excite的历史可以上溯到1993年2月 6个StanfordUniversity 斯坦福大学 大学生的想法是分析字词关系 以对互联网上的大量信息作更有效的检索 Excite后来曾以概念搜索闻名 2002年5月 被Infospace收购的Excite停止自己的搜索引擎 改用元搜索引擎Dogpile 搜索引擎发展史4 Excite 概念搜索 1994年4月 斯坦福大学的两名博士生 美籍华人杨致远和DavidFilo共同创办了 随着访问量和收录链接数的增长 Yahoo目录开始支持简单的数据库搜索 因为Yahoo 的数据是手工输入的 所以不能真正被归为搜索引擎 Yahoo 中收录的网站 因为都附有简介信息 所以搜索效率明显提高 Yahoo以后陆续有Altavista Inktomi Google提供搜索引擎服务 Yahoo 超级目录索引 1995年 Washington大学硕士生EricSelberg和OrenEtzioni建立 用户只需提交一次搜索请求 由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎 并将从各独立搜索引擎返回的所有查询结果 集中起来处理后再返回给用户 元搜索引擎概念上好听 但搜索效果始终不理想 所以没有哪个元搜索引擎有过强势地位 搜索引擎发展史5 Metacrawler 第一个元搜索引擎 MetaSearchEngine 最早现代意义上的搜索引擎出现于1994年7月 当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中 创建了大家现在熟知的Lycos 搜索引擎发展史6 AltaVista是一个以网页全文检索为主 同时提供分类目录的搜索引擎 内容极其丰富 真正可以称海量信息检索 AltaVista于1995年由迪吉多公司 DigitalEquipmentCorporation 创立 2003年被Overture以1 4亿美元现金加股票的形式购得 同年转手给雅虎 雅虎宣布将于2013年7月8日关闭搜索引擎AltaVista服务 AltaVista 第一个实现高级搜索 如AND OR NOT等 语法的搜索引擎 是全球最知名搜索引擎公司之一 Fast Alltheweb 有极其强大的高级搜索功能 公司创立于1997年 是挪威科技大学 NTNU 学术研究的副产品 1999年5月 发布了自己的搜索引擎AllTheWeb 2003年2月25日 Fast的互联网搜索部门被Overture收购 1998年10月之前 Google只是斯坦福大学 StanfordUniversity 的一个小项目BackRub 1995年博士生LarryPage开始学习搜索引擎设计 于1997年9月15日注册了的域名 1999年2月 Google完成了从Alpha版到Beta版的蜕变 Google公司则把1998年9月27日认作自己的生日 Google以网页级别 Pagerank 为基础 判断网页的重要性 使得搜索结果的相关性大大增强 Google公司的奇客 Geek 文化氛围 不作恶 Don tbeevil 的理念 为Google赢得了极高的口碑和品牌美誉 2006年4月 Google宣布其中文名称 谷歌 这是Google第一个在非英语国家起的名字 搜索引擎发展史7 Google 世界最重要的搜索引擎 搜索引擎发展史8 2000年1月 两位北大校友 超链分析专利发明人 前Infoseek资深工程师李彦宏与好友徐勇 加州伯克利分校博士后 在北京中关村创立了百度 Baidu 公司 2001年10月22日正式发布Baidu搜索引擎 专注于中文搜索 2005年8月5日在纳斯达克上市 发行价为USD27 00 代号为BIDU 开盘价USD66 00 以USD122 54收盘 涨幅353 85 创下了5年以来美国股市上市新股当日涨幅最高纪录 百度 世界上最大的中文信息库 爱问 2005年6月 新浪正式推出的自主研发的搜索引擎 2007年起 新浪爱问使用google搜索引擎 搜狗 2004年8月sohu公司推出 自称 第三代搜索引擎 1996年8月 sohu公司成立 制作中文网站分类目录 曾有 出门找地图 上网找搜狐 的美誉 随着互联网网站的急剧增加 这种人工编辑的分类目录已经不适应 Openfind创立于1998年1月 其技术源自台湾中正大学吴升教授所领导的GAIS实验室 Openfind起先只做中文搜索引擎 鼎盛时期同时为三大著名门户新浪 奇摩 雅虎提供中文搜索引擎 但2000年后市场逐渐被Baidu和Google瓜分 2002年6月 Openfind重新发布基于GAIS30Project的Openfind搜索引擎Beta版 推出多元排序 PolyRankTM 开始进入英文搜索领域 有道 2007年7月1日网易自主研发的搜索技术 搜索引擎发展史9 中文常用搜索引擎 百度中文搜索引擎 国外英文常用搜索引擎 Google 以搜索精度高 速度快成为最受欢迎的搜索引擎 是目前搜索界的领军人物 Fast AllTheWeb 总部位于挪威的搜索引擎后起之秀 风头直逼google AltaVista 曾经的搜索引擎巨人 被认为是最好的搜索引擎之一 Overture 最著名的搜索引擎广告商 竞价排名的始作俑者 也是全文搜索引擎 Lycos 发源于西班牙的搜索引擎 网络遍布世界各地 HotBot 隶属于LycosNetworks 搜索结果来自其他搜索引擎及目录索引 AskJeeves 与其他关键词搜索引擎不同 被设计成回答用户提问的自然语言引擎 电子电工网站导航 中国电子网中电网电子产品世界今日电子国际电子商情中国电子报 PCB信息网行业导航中华液晶网阿里巴巴电子电工网广州电子技术网电子搜索引擎全球电源网 电子报无线电国际电子网华强电子世界网中国电子资源网中国传感器信息网中国变压器行业信息网 AskJeeves AskJeeves于1996年六月由DavidWarthen和GarrettGruener创建 他们致力于将互联网人性化 总部设在加利福尼亚的Emeryville 同时在纽约 波士顿 新泽西 洛杉机和伦敦设有办事处 AskJeeves与其他关键词搜索引擎不同 被设计成回答用户提问的自然语言引擎 AskJeeves曾是著名搜索引擎DirectHit 2002年4月被关闭 的母公司 在2001年年末收购了全文搜索引擎Teoma并与之进行整合 Teoma是以主题分类为基础的目录集合 能够返回网上最权威 最相关的搜索结果 所以它是唯一可以组织分析网络的搜索技术 AskJeeves是仅次于Google的第二大搜索引擎 也是互联网上第五大搜索基地 Google 雅虎 微软 AOL Askjeeves AskJeeves首页 AskJeeves高级检索 课题 查找美国市场的非国产的USB电源适配器 USBPowerAdapter 3900条 检索式 HotBot曾是比较活跃的搜索引擎 数据更新速度比其他引擎都快 网页库容量为1 1亿 以独特的搜索界面著称 该引擎已被Lycos收购 成为TerraLycosNetwork的一部分 点击进入 检索式 HotBot Lycos 最早诞生于1994年麦克 马丁博士 Dr MichaelMauldin 在CarnegieMellon大学的一个搜索项目 在Lycos搜索引擎被开发后不久 Lycos公司成立 2000年10月 TerraNetworks S A 收购Lycos Inc 形成了TerraLycos集团 该集团在美国 加拿大 欧洲 亚洲和拉美运营着许多网络使用者最常拜访的入门网站 同时还是西班牙和拉美最大的接入服务提供商 Go Infoseek WWW 百度首席科学家张以纬创造了第一代Infoseek 而罗宾 李 彦宏的英文名 则创造了第二代Infoseek 1998年InfoSeek被迪士尼公司买下 变成G 在1999年 InfoSeek的李彦宏离开了这个搜索引

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论