《搜索引擎基本知识》_第1页
《搜索引擎基本知识》_第2页
《搜索引擎基本知识》_第3页
《搜索引擎基本知识》_第4页
《搜索引擎基本知识》_第5页
已阅读5页,还剩140页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、整理课件1搜索引擎基本知识整理课件22006年度时代周刊封面人物?是她?还是他?整理课件3是你!就是你!整理课件4你上网都做些什么?整理课件5网络信息资源的海量增加,使得网络检索犹如海底捞针,它的出现使海底捞针不再是奢望搜索引擎整理课件6整理课件72.搜索引擎的基本知识2.1 概念2.2 工作原理2.3 分类2.4 历史整理课件8工欲善其事,必先利其器 整理课件9 2.1 2.1 概念概念 伴随伴随WebWeb而出现的检索网上信息资源而出现的检索网上信息资源的新工具。的新工具。 是一种网页网址检索系统,有的提供分是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检类和关键词

2、检索途径,有的仅提供关键词检索途径。有些还提供引文检索途径。索途径。有些还提供引文检索途径。 实质上是互联网上专门提供查询服务的实质上是互联网上专门提供查询服务的一类网站。一类网站。 整理课件10 2.2 工作原理工作原理: 搜索引擎并不直接搜索互联网,它搜索的搜索引擎并不直接搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。实际上是预先整理好的网页索引数据库。 搜索引擎,也不能真正理解网页上的内容,搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。它只能机械的匹配网页上的文字。整理课件112.2 工作原理查找索引库 抓取索引web搜索引擎总体结构搜索引擎总体结构页面库

3、整理课件122.2 工作原理 至少由三部分组成: 爬行器(机器人、蜘蛛) 索引生成器 查询检索器 随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。搜集搜集整理整理服务服务整理课件13 2.3 分类分类 按工作原理划分: 独立检索工具、 元搜索引擎整理课件14独立检索工具搜索引擎工作原理整理课件152.3 2.3 分类分类元搜索引擎(集成搜索引擎)自身不采集信息,没有信息库,同时检索多个独立搜索引擎,以统一格式输出结果。信息量大,用时短。Vivisimo、Ixquick、MetaCrawler、搜星、万纬搜索等。整理课件16元搜索引擎工作原理整理课件17整理课件18

4、2.3 2.3 分类分类 按检索内容划分按检索内容划分通用检索工具 是综合性的信息检索系统,它往往基于检索词去匹配相关的内容。时常也会因检出内容太泛而无法一一过目。如:Google、Altavista、ODP、Yahoo!、百度专业检索工具 是专业信息机构根据专业需求,将Internet上资源进行筛选整理、重新组织而形成专业信息检索系统,专业针对性较强。如:Medical Matrix、HealthWeb、BIOMED整理课件192.4 2.4 历史历史 1994年,由杨致远等研制的年,由杨致远等研制的Yahoo主题指主题指南,拉开了网络信息检索的序幕。南,拉开了网络信息检索的序幕。 1997

5、年年 第一个中文搜索引擎悠游诞生。第一个中文搜索引擎悠游诞生。 目前因特网上可供检索的搜索引擎数量目前因特网上可供检索的搜索引擎数量 不下不下10,000种。种。整理课件20中国搜索引擎市场调查报告中国搜索引擎市场调查报告整理课件21整理课件22整理课件23整理课件24 (一) 简介 Google源自DLI1(Digital Library Initiative 1)的一个项目。 1994年在读研究生Larry Page和Sergey Brin参与了斯坦福大学主持的Infobus项目,这个项目以解决异构系统互操作为主要目标,他们开发了一项名为“BackRub”的搜索技术,其核心就是Pagera

6、nk技术,这就是Google的前身。 1997年他们发表了论文并建立了试验性搜索网站, 次年Google公司宣告正式成立。 当年Altavista,Infoseek,Exite甚至包括Yahoo!(当时Yahoo!搜索引擎还用的是Inktomi)风靡互联网的时候,曾有人宣告搜索引擎技术不可能有什么发展了,已经到头了。整理课件25 Pagerank:用大量的链接结构为依据为网页计算得分。从本质上来说,一个从A页到B页的链接a,算A投B一票。同时也分析投票网页本身。网页投出的票是否重要取决于该网页本身的权重,如果本身也是很重要的网页,那么它投出的票能帮助其他网页变得“重要”。 PR值的级别从1到1

7、0级,10级为满分。PR值越高说明该网页越受欢迎。 整理课件26(一) 简介 Google的来源的来源 “Googol”是一个数学名词,表示一个 1 后面跟着 100 个零。这个词是由美国数学家 Edward Kasner 的外甥 Milton Sirotta 创造的,随后通过 Kasner 和 James Newman 合著的“Mathematics and the Imagination”(数学与想象力)一书广为流传。Google 使用这一术语体现了公司整合网上海量信息的远大目标。整理课件27GOOGLEGOOGLE创办人创办人Larry Page Sergey Brin 整理课件28 G

8、oogle Google的简介的简介 搜索的网页:80 亿+;图片:10 亿+ ;Usenet 信息:10 亿+ 拥有100多种界面语言和国际域名 员工数超过5680人,大部分是技术人员和工程师(截止至2005年12月) 在搜索引擎市场占有56%的份额 广告客户数量达数千家 在世界各地拥有20个办事机构 股票面值近300美元,总市值超800亿美元! 2006年4月12日Google将中文名“科高”改为谷歌,意为山谷之歌。(截止2006年4月)2整理课件29 G 是互联网上 5 大最受欢迎的网站之一,在全球范围内拥有无数的用户。 Google 是阿根廷、澳大利亚、比利时、巴西、加拿大、丹麦、法国

9、、德国、印度、意大利、墨西哥、西班牙、瑞典、瑞士、英国和美国的头号搜索引擎(根据 Nielsen/NetRatings 05 年 6 月调查报告唯一身份访问者总数结果)。 每月全球唯一身份用户:3 亿 8000 万(Nielsen/NetRatings,05 年 8 月调查报告) 112 个国际域名 全球受众:超过50% 的 G 点击量来自美国境外。 整理课件30GoogleGoogle的特色的特色 PageRank专利网页级别技术与超文本匹配分析,客观评价网页的重要性,以提供相关性较高的搜索结果 智能化的“手气不错”功能,直接连接到可能最符合要求的网页 “网页快照”从服务器里直接取出缓存的网

10、页。用不同颜色标记检索词,很醒目。百度 最好用的图像搜索工具。 主页检索框右侧可设定“Preference(使用偏好)”,将检索界面设为中文整理课件31Google界面整理课件32整理课件33整理课件34(二)(二) Google 检索规则检索规则z自动用自动用“AND”联结多个检索词联结多个检索词,两词间空格两词间空格默认默认and匹配;支持匹配;支持OR(注意大写)注意大写)z排除检索:加上排除检索:加上“-”来指定检索结果中不包来指定检索结果中不包括某个词(减号之前必须留一空格)。括某个词(减号之前必须留一空格)。 整理课件35(二)(二)Google检索规则(续)检索规则(续)z大小写

11、无差别;大小写无差别;z不使用截词进行检索;不使用截词进行检索;z禁用词:禁用词:“where” 、 “how“、单个字、单个字母或数字;母或数字;z双引号双引号“ ”界定短语界定短语整理课件36 请以Google为工具检索有关“系统性红斑狼疮”的网站、图片、过去一年内的PPT文件、学术论文和图书整理课件37(三)(三)GoogleGoogle基本检索基本检索整理课件38同一个网站不同网页同一个网站不同网页整理课件39(三)(三)GoogleGoogle基本检索基本检索网页定位功能网页定位功能整理课件40整理课件41试用试用Google检索检索PCR检测疟原虫的有关网页检测疟原虫的有关网页整理

12、课件42整理课件43或者通过二次检索实现或者通过二次检索实现整理课件44整理课件45整理课件46整理课件47整理课件48(四)(四)GoogleGoogle高级检索高级检索整理课件49 常用网络类型代码com 商业机构 org 非营利组织edu 教育机构 gov 政府部门 net 网管组织 int 国际组织mil 军事部门 info 信息机构其他:.museum .coop .aero .pro整理课件50试利用高级检索的界面检索:人类白血病的干细胞移植治疗(非动物实验,一定要包括儿童)整理课件51整理课件52(五)(五)GoogleGoogle图像检索图像检索试用试用Google检索肝硬化的

13、图片检索肝硬化的图片整理课件53整理课件54更多Google产品整理课件55(六)(六)GoogleGoogle学术检索学术检索整理课件56 Google于于2004年年11月月18日推出的搜索学术论文、日推出的搜索学术论文、书籍、摘要及科技报告等学术文献的搜索引擎新书籍、摘要及科技报告等学术文献的搜索引擎新产品。产品。 收录医学、物理、经济和计算机等学科文献。收录医学、物理、经济和计算机等学科文献。 采用特殊的算法,搜索采用特殊的算法,搜索Google索引中的特定子数索引中的特定子数据库,过滤普通搜索结果中大量垃圾信息。据库,过滤普通搜索结果中大量垃圾信息。 检索结果提供题名、作者、摘要、来

14、源、网址和检索结果提供题名、作者、摘要、来源、网址和引用次数等信息,可查文献被引情况。引用次数等信息,可查文献被引情况。 大致按被引频次排序。大致按被引频次排序。Google学术搜索学术搜索整理课件57登革热的防治整理课件58整理课件59整理课件60学术高级搜索文献检索作者检索期刊检索整理课件61赵克森教授发表的文献被引用的情况整理课件62整理课件63整理课件64(七)(七)GoogleGoogle特色检索特色检索 1 图书检索图书检索: Google公司于2006年6月在华正式推出,2007年3月2日推出谷歌图书搜索中文试用版 Google图书搜索中国合作伙伴项目,清华大学出版社和少年儿童出

15、版社成为Google图书搜索的首批中国合作伙伴。整理课件65整理课件66整理课件67整理课件68整理课件69搜索有关伤寒的图书整理课件70整理课件71整理课件72整理课件73搜索结果的几种情况 无预览可用无预览可用 :像卡片目录一样,您可以查看有关图书的一些基本信息。 整理课件74摘录摘录 :摘录与卡片目录类似,会显示图书的相关信息,外加几小段内容(即与您的搜索字词相关的几个句子)。整理课件75有限预览有限预览 :如果出版商或作者已给予授权,用户就可以看到图书中的有限几页。整理课件76全书浏览全书浏览 :如果图书已不受版权保护,或者出版商或作者要求使全书都可浏览,您就可以进行全书浏览。您可以通

16、过全书浏览阅读图书的任意页。整理课件77整理课件78整理课件793.Google 的特殊功能的特殊功能Flash 文件 网页快照 货币转换 计算器相关搜索 类似网页 按链接搜索 指定网域手气不错 错别字改正 天气查询 金融信息邮编区号 手机号码 定义 整理课件80搜索引擎(二)Search Engine整理课件81 主要内容 一、Google扩展功能 二 、医学专业搜索引擎 HON 三、搜索引擎SCIRUS 四、其它中文搜索引擎整理课件82一、Google扩展功能整理课件83定义查找 语法:Define:词语如通过搜索引擎查找AIDS的定义(分别比较中英文版Google检索结果的差异)整理课件

17、84Google桌面整理课件85Google桌面整理课件86多种文件类型 整理课件87桌面搜索与网页搜索整理课件88整理课件89iGoogle整理课件90整理课件91iGoogle整理课件92 1 简介 2 使用整理课件931、Hon简介简介 由瑞士日内瓦国际性非盈利性组织健康网由瑞士日内瓦国际性非盈利性组织健康网络基金会(络基金会(Health on the Net FoundationHealth on the Net Foundation) )创建;创建; 19961996年年3 3月在网上发布。该网站是非常受月在网上发布。该网站是非常受欢迎的免费因特网门户网站;欢迎的免费因特网门户网站

18、; 专家编辑相关资源;专家编辑相关资源;整理课件94整理课件95中文界面,但大部分检索都只能在英文界面进行整理课件96zHONcode Sites :搜索经:搜索经Honcode认证过的可认证过的可信站点信站点zAll Web Sites:全部医学站点:全部医学站点zHONselect:通过:通过Mesh词搜索词搜索zNews:世界各地医学新闻:世界各地医学新闻zConferences:为召开的会议信息:为召开的会议信息zImages:医学图像:医学图像整理课件97(一)(一) All Web Sites 可搜索可搜索9 9万余个医学全文文档。除检索人工万余个医学全文文档。除检索人工建立的建立

19、的honouredhonoured数据库外,还通过瑞士生物数据库外,还通过瑞士生物信息研究所研发的机器人信息研究所研发的机器人MARVINMARVIN有规律地访有规律地访问医学、健康网站,建立一个相应的数据库问医学、健康网站,建立一个相应的数据库Auto-Index databaseAuto-Index database。 具有基本检索功能。具有基本检索功能。 整理课件98如:检索肝硬化( Liver Cirrhosis )方面的文献检索界面(一)整理课件99整理课件100结果按相关度排序整理课件101页面下方可进行新检索整理课件102检索界面(二)整理课件103(二)(二)HonSelect

20、HonSelect 提供了完整的医学主题词树状结构表及提供了完整的医学主题词树状结构表及3300033000个主题词的定义。推荐性地介绍个主题词的定义。推荐性地介绍4 4个主个主题大类:题大类:DiseasesDiseases、AnatomyAnatomy、Virus & Virus & DrugsDrugs、Psychiatry and Psychology,Psychiatry and Psychology,可通可通过下拉式菜单浏览和选择。过下拉式菜单浏览和选择。 选中任何类目下的任何一个主题词如选中任何类目下的任何一个主题词如AIDS/HIVAIDS/HIV,将显示该主题

21、的规范主题词、检,将显示该主题的规范主题词、检索结果和树状结构表。检索框内输入索结果和树状结构表。检索框内输入AsthmaAsthma进行检索,点击检索结果前图标可浏览树状进行检索,点击检索结果前图标可浏览树状结构表和检索结果。结构表和检索结果。 整理课件104 HonSelect显示的主题词树状结构表和相关主题词界面提供以下检索结果链接:网络信息资源医学新闻医学图像MEDLINE的检索结果链接医学会议与事件精确检索3、HonSelect 检索结果检索结果整理课件105分类浏览:关键词检索整理课件106整理课件107整理课件108可链接到PubMed中整理课件109整理课件110三、Sciru

22、s整理课件111概述 目前互联网上最全面、综合性最强的科技文献门户网站之一,由Elsevier科学出版社开发 整理课件112覆盖的内容覆盖的内容:目前Scirus已将90,000,000个网页编入索引中。除了此之外,它还包括12,800,000条MEDLINE文摘;1,600,000篇ScienceDirect全文;900,000项USPTO的专利;657,000篇Beilstein文摘;248,000篇IDEAL全文;10,310篇NASA技术报告;197,000篇来源于E-Print ArXiv的电子文献;1,410篇来源于CogPrints的电子文献;565种来自Mathematics

23、Preprint Server的预印本;820篇来源于BioMed Central的全文;565条来源于Neuroscion的新闻;465种来自Chemistry Preprint Server的预印本。 整理课件113覆盖的学科范围包括覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。 整理课件114使用 检索规则:1.支持逻辑组配符:(需大写)AND:可用“+”表示OR:ANDNOT:可用“

24、-”表示整理课件115 2.支持截词符?和* 3.支持短语检索 “” 整理课件116常用字段 author - au: Title - ti: Journal - jo: keywords - ke: URL - url: domain name - dom: author affiliation(s) -af:字段使用 字段名:检索词 如 AU:smith整理课件117基本检索 用SCIRUS检索钾(potassium) 与动脉粥样硬化( atherosclerosis)关系的相关网络资源整理课件118整理课件119高级检索高级检索整理课件120整理课件121限定条件整理课件122 检索有关纳米技术(nanotechnology)(不含纳米管nanotubes)的专利。整理课件123整理课件124检索结果输出 E-Mail:仅发送题目和到Scirus的链接 Save: Export:引文输出整理课件125整理课件126整理课件127整理课件128整理课件129二、其它中文搜索引擎整理课件130整理课件131百度的高级搜索界面和Google相似整理课件132整理课

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论