搜索引擎_第1页
搜索引擎_第2页
搜索引擎_第3页
搜索引擎_第4页
搜索引擎_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

佛山科学技术学院信息中心 计算机教学部 搜索引擎 搜索引擎的应用现状 从用户使用的角度,国外的调查发现: 网上搜索信息的人很少考虑如何找到他们所需要的信息,因此搜索信息时象动物猎食般盲目; 只有 18%的用户表示总能在网上搜索到需要的信息。 68%的用户说他们对搜索引擎很失望; 平均每个搜搜者在 12分钟的徒劳搜索后就感到恼火和受挫。 46%的人只会用同一个关键词搜啊搜啊,而且是在同一个搜索引擎。 国外的应用状况 那些每周平均花 5个小时以上时间上网的人,将其上网时间的 71%都花在了搜索引擎上; 人机界面高手 究表明: 略超过 1/2的互联网用户属于 约 1/5用户属于 其它用户的搜索倾向属于混合行为型。 们对浏览网站不感兴趣,他们有明确的目的,倾向于以最快速度找到信息。 相反, 使他们想找特殊信息时也是这样,只有在他们用点击超链的方法已经实在找不到了,才会想起搜索按钮。 国内的应用状况 国内的调查发现: 月的调查: 中国互联网用户经常使用搜索引擎(仅次于 中国互联网用户得知新网站的主要途径是搜索引擎。 赛迪咨询的搜索引擎调查:截止 2000年 8月,网民使用过搜索引擎,同时有六成左右的网民将搜索引擎列为经常使用的网络服务。 新浪搜索的统计表明:第 1条搜索结果获得的点击量,是第 2页第 1条的 150倍。 百度公司: 百度 2001年中国互联网用户搜索热点统计 值得推荐的几个中文搜索引擎 全文搜索 衡量搜索引擎的指标: 查全率 查准率 速度 哪个重要? (需要出国访问权限) 新浪使用了它的全文搜索引擎服务 说明:这是 2004年 4月的情形,各大门户网站使用的搜索引擎服务经常会变化,留意 百度: 21 中国搜索 (原来的慧聪搜索) 网易、搜狐、 263使用了它的搜索引擎。 北大天网: 大量教育网内的资源,提供 几大门户网站也有自己的搜索引擎,有时也能发挥作用。 推荐的搜索引擎 网站分类目录搜索 新浪:其网站搜索最好 搜狐:网站的分类目录整理最好,最适合于浏览 网易:开放式目录,有许多网上高手加盟 中文 另类:网络实名 新浪图片搜索 : 新视科技: 供多媒体搜索 找地图 城市通: 图行天下: 用 两个斯坦福大学博士生 998年 9月发明, 于 1999年创立。2000年 7月份, 年 9月份, 1998年至今, 0多项业界大奖。 32种语言,包括简体中文和繁体中文; 有花里胡哨的累赘; 说有 10000多台服务器, 200多条 气不错”功能,提供可能最符合要求的网站; 页快照”功能,能从 文本搜索 文本搜索 目前 0多亿张网页 使用单个关键词进行搜索 理解什么是“关键词”,跟普通意义上的关键词不同。 想象目标网页上应该有的若干个词。 网页的排名问题 使用两个及两个以上关键词进行搜索 直接输入多个关键词,关键词之间用空格,这样就表示“ 系; 用减号“ -”表示“非”,用于表示要求搜索结果不包含某些特定信息; 支持 际上是支持得不好; 使用一句话进行搜索 加上双引号。这在查找名言警句或专有名词时显得格外有用。 图象搜索 目前 自称为“ 因特网上最好用的图像搜索工具 ” 象搜索”链接。 目前的图象搜索主要是基于文件名的搜索,不是基于图象内容的。 用法: 关键词的输入方法同文字搜索,不过搜索图象一般不会用太长、太复杂的关键词。 图象搜索中, 使用英文作关键词 可以搜到许多准确的结果,使用中文,效果较差,但有时 时欠稳定,其他内容的搜索也有此现象)。 可以指定图片文件的类型: 如 花) , 花) , 花) , 丹) , 鹃花) 花), 花) , 花) 柏) , 梅) 春兰( C. , 蕙兰( C. 又称夏兰 搜索特殊格式的文件 目前可搜索的文件格式: 最精彩的,可搜索 方法: 关键词 * 搜索包含关键词的文档(但又不尽然)。搜索到后,可点击打开,也可右键快捷菜单用“另存为”。对于 可以用 避免病毒的袭击。 其他特殊的搜索 搜索的关键词包含在 可用于搜索 搜索的关键词包含在网页标题中 搜索指定的网站范围 在图象搜索中,用: 搜索有多少链接到某个地址的网页 除用户记忆语法结构。 在 击“高级搜索”即可。 推荐大家使用英文版的 及英文版的帮助文档。 地址: 缺点:死链接太多,许多是学生的服务器,运行不稳定 简单搜索 输入要查询的文件名, 可以包含“ *”号 (通配所有字符 )、“ ?”号 (通配一个字符 )、空格 (表示几个查询的并 )。 按类别搜索文件 点击“分类搜索”下的各种类型,如“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”,则搜索引擎在指定的类型里搜索文件。比如点击“图象”,则在所有的图象文件里查找与匹配串相符的文件。 使用快捷方式 (已经做好的分类) 天网搜索引擎为用户常用的搜索提供了快捷方式,使用起来极为简单,直接点击快捷方式下所要的内容即可。 天网 从 入“ 面。在复杂搜索页面里,如果没有填写或者没有选择,表示使用缺省值。 文件大小过滤: 文件日期过滤: 页面显示个数: 文件类型: 限定搜索的站点范围 结果显示: 每个结果前的图标是该文件的文件类型图片, 表示“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”或者 表示搜索引擎系统未定义的文件类型; 图标后是文件名,点击可以打开文件;文件名后是文件的创建时间和文件的大小; 文件名下方是该文件所在的目录,点击可以在新的窗口里打开该目录。 关于软件的搜索 软件下载网站主要有三类: 大型软件下载网站 主要提供普通的免费和共享软件。如: 软件主页 一些最新版本的共享软件以及软件的补丁,或者软件公司推出的免费软件。如: 个人主页下载 可以找到正式网站找不到的内容。 在教育网内,许多情况下可以用天网的 如果用搜索引擎,则选择关键词很重要。通常可用以下关键词: 软件名 下载 版本 软件大小 使用网络实名 登陆 为自己的电脑开启网络实名功能。 “ 3721网络实名”是新一代的网络访问技术,它具有十大功能,其中智能推测、拼音使用等功能可以帮助我们搜索那些名称不确切的网址。 访问新浪,只要在地址栏打入“新浪”或“ 可 例如:在浏览器地址栏中输入上市公司股票代码,就可以获取实时行情 为什么搜索引擎搜不到? 有些内容,网上明明存在,但是用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,就可以设计更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最关键的一步。 这样的内容,主要有 3类: 1、网上有,但是搜索引擎库里没有 (如某些动态网页及 据库) 没有指向链接的孤岛网页 被认为是劣质网页而不抓 因为 /色情 /反动 /问题而不抓的非法网页 需要输入用户名、密码方可打开的网页 网站用 搜索引擎还未来得及抓取的新网页 为什么搜不到? 2、 搜索引擎库里有,但是未能正确索引网页中信息 分词引起误差 图型中的文字信息你看得懂但搜索引擎看不懂 停用词等搜索引擎故意不索引的信息 搜索引擎对某些网页有选择的索引,未索引全部网页信息 3、搜索引擎正确索引了网页中信息,但和你用的关键词不同 你用的搜索关键词中含有错别字 网页作者用了错别字 没有错别字,但网页作者用的词汇和你的关键词不同,毕竟,文字的特性,允许有 简体繁体不同编码 用户自己的错误 初学者搜索时容易犯的 6个低级错误和解决方法 常见错误 1:错别字 经常发生的一种错误是,你输入的关键词含有错别字,改正了就好。 常见错误 2:关健词太常见 搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如说搜索“电话”。 常见错误 3:多义词 要小心使用多义词,比如搜索“ 你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言。 用户自己的错误 常见错误 4:不会输关键词,想要什么输什么 搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词” 常见错误 5:在错误的地方搜索 有些信息不适合搜索,应该直接到网站浏览,如论坛的内容。 常见错误 6:停用词 停用词主要见于英文搜索引擎中,指的是使用过于频繁的单词,如“ “ i”、“ “ 。一些搜索引擎在它的网页库里碰到这些词时不会搜 优秀的电子信息资源 查找论文等,就不需要使用普通的搜索引擎了。 中国期刊网 (佛大镜像 万方数据: 各个专业都有自己的专业信息资源 如中文的新闻类: 中新社 新华社 交部各国资料: 何才能有效地搜索? 理解搜索引擎的原理和基本的使用技术 对于中文,要理解“分词”。 勤奋:大量实践,仔细体会每个搜索引擎的特色和功能。搜索时的坚持不懈。 积累:平时多注意积累优秀的专业网站和数据库 学问:要博学多闻 天资:主要是想象力、判断力 搜索引擎的分类及原理 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是: 搜索引擎分类 2机器人搜索引擎:由一个称为蜘蛛( 机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是: 内代表为: 天网 、悠游、 分类 3元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是 主要技术 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。 索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、 新时间、编码、长度、链接流行度( 等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格); 对于中文等连续书写的语言,必须进行词语的切分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论