




已阅读5页,还剩82页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020/4/28,1,网络检索工具,2,2020/4/28,网络检索工具,因特网基础知识网络检索工具基础通用搜索引擎实例:Google医学搜索引擎,2020/4/28,3,1.因特网基础知识,4,2020/4/28,CNNIC最新统计:(2006/6/30)5450万台上网计算机12,300万网民(每周平均上网1小时的网民),1.1我国因特网的发展,5,2020/4/28,CNNIC历次调查我国网民总数,6,2020/4/28,TCP/IP协议通信的保证机制IP地址地址的标识技术客户机/服务器系统运作的基本模式,1.2因特网的互联原理,7,2020/4/28,TCP/IP协议,是通信的保证机制全称:TransmissionControlProtocol/InternetProtocol传输控制/交互网络协议由“因特网之父”文顿瑟夫确立因特网的基础和核心,是基本协议。保证各种不同类型的计算机网络实现相互通信一套规则或协议。TCP:传输控制协议。规定传输信息怎样分层、分组和在线路上传输。IP:Internet协议。定义Internet上计算机之间的路由选择,把不同网络的物理地址转换为Internet地址。,8,2020/4/28,地址的标识技术IP地址,识别主机的身份证,唯一性形式:四组小于256的十进制表示。如:7北京邮电大学图书馆技术部一台主机。字符型的IP地址,即域名(DN)域名的地址格式为:主机名机构名网络类型最高域名注需申请注册,9,2020/4/28,常用网络类型代码,com商业机构org非营利组织edu教育机构gov政府部门net网管组织int国际组织mil军事部门info信息机构其他:.,10,2020/4/28,客户机/服务器系统,客户机/服务器系统(Client/ServerSystem)因特网运作的基本模式服务器:提供资源和服务的计算机客户机:使用资源和服务的计算机,11,2020/4/28,1.3因特网提供的主要服务,环球网(WWW/Web)电子邮件(E-Mail)远程登录(Telnet)文件传输(FTP)等网格,12,2020/4/28,1990年诞生于瑞士全欧原子物理研究室。是通过超文本(Hypertext)方式来进行互联网上信息查询的网络工具。超级链接:通过网页上的关键字、图片等元素在网页、多媒体信息间建立起网状链接超文本:一种文件格式,将分散于各机器上的文本、图像、声音等文件通过超级链接链接起来。基于超文本传输协议:http(HypertextTransferProtocol),环球网(WorldWideWeb),13,2020/4/28,统一资源定位器(URL,网址)是信息在网上的地址,用来定位和检索WWW上的文档。由三部分组成web服务器域名、文件路径、文件名例如:,环球网(WorldWideWeb),14,2020/4/28,HTML超文本标记语言用于编辑Web网页文件,需用Web浏览器显示,可用记事本等编辑。,环球网(WorldWideWeb),15,2020/4/28,Web2.0,让互联网找回Internet的真正含义:平等、交互、去中心化。可以读写的互联网。Web1.0我们网上冲浪,Web2.0我们是波浪制造者个人媒体崛起:Blog(网志、博客)走进大众传媒,是以时间为顺序更新的个人主页。,16,2020/4/28,Web2.0,Blog与BBS的区别Blog集原创文章、评价、链接、网友跟进于一体BBS没有上下文概念,反复围绕一个问题,但人们经常忘了以前说过什么。,17,2020/4/28,网志你的网络日记,18,2020/4/28,网格:Gird,是把整个互联网整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。地区性的网格:如中关村科技园区网格、企事业内部网格、局域网网格、甚至家庭网格和个人网格。网格的根本特征并不一定是它的规模,而是资源共享,消除了资源孤岛,2020/4/28,19,2.网络检索工具基础,20,2020/4/28,且慢,让我先Google一下,我们若能更妥善地搜寻资料,实在已经改变世界,21,2020/4/28,一.网络检索工具的原理及类型,网络检索工具泛指因特网上提供网页信息资源检索和网站导航服务的站点,主要面向互联网信息检索,并通过Internet来提供服务,通常又称搜索引擎。,22,2020/4/28,网络检索工具的原理,主要由五部分构成:数据采集(robot/spider):负责按照一定的方式和要求对网络资源进行搜集,并将搜集到的网页信息经网络传输,存储到搜索引擎的临时数据库中数据分析与标引(indexer):负责对收集到的网页信息进行分析,从中提取有检索或查询价值的内容网页关键词、网页的分类类别等,并对关键词进行权值计算;,23,2020/4/28,网络检索工具的原理,数据组织:负责形成规范的索引数据库或便于浏览的层次型分类目录结构数据检索:负责帮助用户用一定的方式检索索引数据库,获取符合用户需要WWW信息信息挖掘:负责提取用户相关信息,利用这些信息来提高检索服务的质量。根据用户以前检索行为的学习统计及其登记的信息,信息挖掘模块在个性化服务中起到关键作用,24,2020/4/28,按工作原理划分,独立检索工具主题指南/目录/网站查询(Directory)由人工采集网站并进行分类,建成树状等级目录.保证了查准率,但查全率降低。如:ODP(OpenDirectoryProject)、Yahoo!搜索引擎/网页搜索通过Robot自动跟踪标引软件搜寻网页,自动进行关键词标引,它不需要人工干涉,查全率较高。如:Google,AlltheWeb,25,2020/4/28,独立检索工具搜索引擎工作原理,26,2020/4/28,按工作原理划分,元搜索引擎(集成搜索引擎)自身不采集信息,没有信息库,同时检索多个独立搜索引擎,以统一格式输出结果。信息量大,用时短。Vivisimo、Ixquick、MetaCrawler、搜星、万纬搜索等。,27,2020/4/28,元搜索引擎工作原理,28,2020/4/28,按检索内容划分,通用检索工具是综合性的信息检索系统,它往往基于检索词去匹配相关的内容。时常也会因检出内容太泛而无法一一过目。如:Google、Altavista、ODP、Yahoo!、百度专业检索工具是专业信息机构根据专业需求,将Internet上资源进行筛选整理、重新组织而形成专业信息检索系统,专业针对性较强。如:MedicalMatrix、HealthWeb、BIOMED,29,2020/4/28,CNNIC中国搜索引擎市场调查报告(2006),北京、上海和广州三地搜索引擎总体市场份额:百度64.5%(+13%);Google20.6%(-12.3%)雅虎5.4%(+1.7%);新浪3.5%(-0.5%)搜狐3.4%(-1.2%)Google用户具备比百度更早的上网经历、更多的搜索引擎使用经验、对搜索引擎的依赖度更强、对首选搜索引擎的满意度更高、更多地搜索与工作或职业相关的内容。百度在学生用户中的市场份额远远高于其在非学生用户中的市场份额。百度用户搜索音乐(Mp3)等娱乐内容的使用率相对较高;Google用户搜索网站(网页)、企业产品、商情、交通旅游等内容的使用率相对较高。,2020/4/28,30,3.通用搜索引擎实例,31,2020/4/28,3.通用搜索引擎实例:Google,3.1Google的概况3.2Google的特色3.3Google的搜索模块3.4Google的关键词检索规则3.5Google的网页目录查询3.6Google学者Scholar3.7Google使用偏好设置3.8其他检索引擎,32,2020/4/28,Google主页(),33,2020/4/28,Google与数字图书馆,Google源自DLI1(DigitalLibraryInitiative1)美国数字图书馆先导研究计划的一个项目。1994年在读研究生LarryPage和SergeyBrin参与了斯坦福大学主持的Infobus项目,这个项目以解决异构系统互操作为主要目标,他们开发了一项名为“BackRub”的搜索技术,其核心就是Pagerank技术,这就是Google的前身。1997年他们发表了论文并建立了试验性搜索网站,次年Google公司宣告正式成立。当年Altavista,Infoseek,Exite甚至包括Yahoo!(当时Yahoo!搜索引擎还用的是Inktomi)风靡互联网的时候,曾有人宣告搜索引擎技术不可能有什么发展了,已经到头了。没有DLI1计划,就不会有Google。1,34,2020/4/28,3.1Google的概况,搜索的网页:80亿+;图片:10亿+;Usenet信息:10亿+拥有100多种界面语言和国际域名员工数超过3400人,大部分是技术人员和工程师在搜索引擎市场占有56%的份额广告客户数量达数千家在世界各地拥有20个办事机构股票面值近300美元,总市值超800亿美元!2006年4月12日Google将中文名“科高”改为谷歌,意为山谷之歌。(截止2006年4月)2,35,2020/4/28,3.2Google的特色,检索响应速度极快,0.5秒内应答PageRank专利网页级别技术与超文本匹配分析,客观评价网页的重要性,以提供相关性较高的搜索结果智能化的“手气不错”功能,直接连接到可能最符合要求的网页“网页快照”从服务器里直接取出缓存的网页。用不同颜色标记检索词,很醒目。百度最好用的图像搜索工具。主页检索框右侧可设定“Preference(使用偏好)”,将检索界面设为中文,36,2020/4/28,3.3Google的搜索模块,37,2020/4/28,3.3Google的搜索模块,Google服务:网页搜索新闻搜索:阅读搜索新闻新闻快讯:定制实时新闻,直接发至邮箱论坛搜索网页目录:按主题学科分类浏览网站图片搜索网页搜索特色:计算器、股票查询、英汉互译等小窍门,38,2020/4/28,Google服务:本地搜索:查找本地公司与服务大学搜索:搜索特定大学的网站学术搜索:搜索学术文献Google实验室Google工具:工具栏翻译桌面搜索,3.3Google的搜索模块,39,2020/4/28,3.4Google关键词检索规则,必须检索:无需and,两词间空格默认and匹配。例:aspirinstroke;白血病骨髓移植或者检索:OR必须大写。例:mriORmagneticresonanceimaging排除检索:用-表示,但减号之前必须留一空格。例:hepatitis-animal(不能用NOT)短语检索:“penicillinwasinventedby”对大小写不敏感,40,2020/4/28,检索词出现位置限定:标题:allintitle;网址:allinurl;内文:allintext链接:allinanchor例:allinurl:ncbi搜索网址内含单词ncbi的网页文件类型限定:filetype:文件名后缀支持13种非HTML文件的搜索:pdf,doc,rtf,ppt,xls,swf,ps等例:chroniclowbackpainfiletype:pdf,3.4Google关键词检索规则,41,2020/4/28,禁用词(StopWords):最常用的字符以及数字和单个字母等高频词,在检索时系统自动忽略不作检索。如果必须检索禁用词时可用+,或“”如:of,is,by,i,的,为,“http”,“.com”,3等例:“diabetesi”,3.4Google关键词检索规则,42,2020/4/28,Google关键词检索实例:,例:查找有关“2型糖尿病眼部并发症研究的网页”diabetes2ORtype2diabetesORdiabetesiiORtypeiidiabeteseyecomplications信息需求类型:广泛了解课题研究的动向,43,2020/4/28,Google关键词检索结果,检出网页总数,检索式,网页标题,文件类型,网页摘录,网页网址,44,2020/4/28,Google高级检索,45,2020/4/28,例:高级检索查找我国百白破疫苗接种率包含全部字词:我国百白破疫苗包含以下完整字句:接种率为搜索网页语言:中文简体网页更新日期:过去一年网域:仅(仅在卫生部网站中搜索)信息需求类型:直接查找具体数值,并需求权威发布源,Google高级检索实例,46,2020/4/28,Google网页高级搜索界面,47,2020/4/28,Google网页高级检索结果,48,2020/4/28,例:查找与美国国立卫生研究院类似的网站()。在SearchbyURL区域,Findwebpagessimilarto后输入。点击右侧searchbyURL按钮。例:查找网页中含有美国国立卫生研究院链接的网页。在SearchbyURL区域,Findwebpagesthatlinkto后输入。点击右侧searchbyURL按钮。信息需求:查找相关专业的重要网站,Google高级检索实例,49,2020/4/28,Google网页高级检索结果,翻译网页,网页字节数,50,2020/4/28,Google网上论坛检索,信息需求:查找零次文献,51,2020/4/28,与OpenDirectoryProject链接,采用其分类目录,3.5Google的网页目录查询,52,2020/4/28,3.5网页目录查询,网站:一个机构/个人在网上提供浏览或服务的站点,一个网站包括多个页面/网页OpenDirectoryProject可按学科主题浏览相关网站例:查找免疫学研究中心的网站依次点击类目:Medicine、BasicScience、immunology、Institute、ResearchCenter,可得相关网站,53,2020/4/28,3.5网页目录查询,54,2020/4/28,3.5网页目录查询,链接至网页目录查询,55,2020/4/28,3.5网页目录查询,56,2020/4/28,3.5网页目录查询,57,2020/4/28,3.5网页目录查询,58,2020/4/28,3.5网页目录查询,59,2020/4/28,60,2020/4/28,3.5网页目录查询,用目录与关键词结合检索方法,查找有关癌症免疫学的网站。依次点击类目:Health、Medicine、BasicScience、Immunology输入:cancer,选justthiscategory,61,2020/4/28,3.5Google的网页目录查询,62,2020/4/28,3.5Google的网页目录查询,63,2020/4/28,关键词检索:目标明确、主题较狭窄、知识点、事实数据、文献等网页查找。目录检索:目标模糊、主题较宽泛、查某专业重要网站。,关键词检索、目录比较,64,2020/4/28,3.6GoogleScholar学术搜索,含期刊论文、学位论文、图书、预印本、文摘、技术报告等学术文献,文献源自学术出版物、专业学会、预印本库、大学及网上学术论文。按相关度排序,考虑全文、作者、出版物及被引情况。采取自动分析与抽取引文的方法了解有关某一领域的学术文献;某一作者的著述,并提供书目信息,65,2020/4/28,例:检索有关腰脊柱(lumbarspine)的MRI介入(interventional)研究的文献包含全部字词:mri包含确切词语:lumbarspine包含任何一个字:interventioninterventional,3.6GoogleScholar学术搜索,66,2020/4/28,3.6GoogleScholar学术高级搜索,67,2020/4/28,中文版搜索结果,相关网页检索,该文献多个原文链接网址,被引用次数,复旦SFX链接查找全文,仅显示近期发表的文章,文献出处及全文网址,68,2020/4/28,全文其它网址,获取全文,69,2020/4/28,链出OVID数据库中的全文,70,2020/4/28,相关网页检索,英国图书馆原文获取服务链接,全文链接网址,英文版Scholar搜索结果,相关论文检索,文献被引次数,命中文献按作者聚类,71,2020/4/28,72,2020/4/28,73,2020/4/28,PDF全文下载,74,2020/4/28,3.7Google使用偏好设置
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 维修执照英语真题及答案
- DB65T 4336-2020 马细管精液规范
- DB65T 4377-2021 甜菜品种抗包囊线虫鉴定技术规程
- DB65T 4351-2021 小麦根腐病综合防治技术规程
- 高数专业考试题及答案
- Unit3 weather partB (教学设计)-2023-2024学年人教PEP版英语四年级下册
- 内科专业英语试题及答案
- 2025年生物质能与新能源汽车充电设施建设投资分析报告
- 电梯倾倒应急预案(3篇)
- 活动2 有趣的数学课教学设计-2023-2024学年小学信息技术(信息科技)六年级下册黔科版
- 电池厂化成柜安全操作规范规章
- 电力公司施工安全培训课件
- 2025年一级建造师《(市政公用工程)管理与实务》考试真题及答案
- 2025年销售逻辑笔试题目及答案
- 宏村简介课件
- 2025四川安和精密电子电器股份有限公司招聘NPI工程师1人备考练习题库及答案解析
- 9 古代科技 耀我中华 课件(共2课时) 部编版道德与法治五年级上册
- 潍坊市2026届高三开学调研监测考试数学试题及答案
- 车辆产品公告管理办法
- 力帆集团摩托车营销策略优化研究:基于市场竞争与消费者洞察
- 2025喀什经济开发区兵团分区招聘(10人)考试参考试题及答案解析
评论
0/150
提交评论