青海大学Internet网络信息检索.ppt_第1页
青海大学Internet网络信息检索.ppt_第2页
青海大学Internet网络信息检索.ppt_第3页
青海大学Internet网络信息检索.ppt_第4页
青海大学Internet网络信息检索.ppt_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章 网络信息检索 第一节 Internet网络信息资源概述,一、Internet概述: 1、计算机网络:是利用通信线路将地理位置分散的、具有独立功能的许多计算机系统连接起来,按照某种协议进行数据通信,以实现资源共享的信息系统。 从网络节点分布看分为: 局域网(Local Area Network,LAN) 广域网 (Wide Area Network,WAN) 城域网(Metropolitan Area Network,MAN),2、Internet的定义,Internet(英特网):又称“网间网”、“互联网”或“国际互联网”是一个计算机交互网络。,3、Internet常用术语,1)TCP/IP协议 TCP(Transfer Control Protocol)传输控制协议 IP(Internet Protocol)互联网协议,网间协议 2)IP地址,为了在网络环境下实现计算机之间的通信,网络中的每台计算机都必须有一个不允许重复的地址,称为IP地址,由网络管理机构分配给入网主机。,Internet常用术语,3)域名(Domain Name),为了便于记忆的一种字符型标识。 常见国际域名后缀 com(用于商业公司) net(用于网络服务) org(用于组织协会等) gov(用于政府部门) edu(用于教育机构) mil(用于军事领域) int(用于国际组织),4)统一资源定位器,统一资源定位器(Uniform Resource Location,URL)用以描述具体资源在网络中的位置。 5)网页和主页 网页(Web Page)是存放在Web服务器上供客户机用户浏览的页面。 主页(Homepage)是指登录某一WWW服务器首先看到的页面。 6)超文本(Hypertext)是一种文本,它和书上的文本是一样的。但与传统的文本相比,它们之间的主要差别是,传统文本是以线性方式组织的,而超文本是以非线性方式组织的。,7)超链接(Hyperlink),也称为热链接(hotlink),或者称为超文本链接(Hypertextlink),是指文本中的词、短语、符号、图像、声音剪辑或影视剪辑之间的链接,或与其他文件、超文本文件之间的链接。 8)超媒体(Hypermedia) 是超文本(Hypertext)和多媒体在信息浏览环境下的结合。与超文本的不同之处是,超文本主要是以文字的形式表示信息,建立的链接关系主要是文句之间的链接关系。超媒体除了使用文字外,还使用图形、图像、声音、动画和影视片段等媒体之间的链接关系。,9)超文本标记语言,超文本标记语言(Hyper Text Mark-up language ,HTML)是一种用来制作超文本文档的简单标记语言,是WWW的描述语言。 10)超文本传输协议 超文本传输协议(Hypertext transfer protocol, HTTP)是一种最基本的客户机/服务器的访问协议。 11)客户机/服务器 客户机/服务器(client/server,C/S)是Internet上很多服务所采取的模式。客户机是提出请求服务的机器方;服务器是响应服请求的机器方。 12)浏览器 浏览器(Browser)是专用于查看网页的软件工具,从技术上看是运行在用户计算机上一个客户程序。,二、Internet的特点: 1.TCP/IP协议是Internet的核心 2.Internet实现了与公用电话交换网的互联 3.Internet是一个用户自己的网络,三、Internet的发展史 Internet来源于ARPAnet网,现代计算机网络的许多概念和方法都来源于它。,数据显示,截止2015年,我国网民人数达6.88亿,互联网普及率攀升至50.3%,超过世界平均水平(21.9% )。手机网民达6.2亿。,三、Internet信息检索,(一)WWW与信息检索 1.WWW的概念 环球信息网WWW(World Wide Web)也称Web或万维网,它是一个基于超文本(hypertext)方式的信息检索查询工具。,2.什么是超文本与超媒体,3.WWW的构架 (1)HTML是Hyper Text Markup Language的缩写。 (2)主页(homepage) (3)HTTP (4)URL,4.WWW浏览器 5.www采用的是客户机/服务器结构,四、网络信息资源,网络信息资源的概念,网络信息资源的类型,网络信息资源的特点,网络信息检索工具,第二节 搜索引擎,一、搜索引擎(Search engines)的概念 二、搜索引擎的发展历史 三、搜索引擎工作原理,四、搜索引擎的特点,五、搜索引擎的检索结果 1.标题:网页的标题。 2. URL :该网页对应的“访问地址”。 3.摘要:网页内容的摘要。,搜索引擎基本结构,六、搜索引擎的检索技术,1.布尔逻辑检索 (1)逻辑“与” (2)逻辑“或” (3)逻辑“非”,逻辑与,逻辑或,逻辑非,在许多搜索引擎中用空格、逗号、括号、 “”、“”、“”表示布尔逻辑符。空格、“”的作用与逻辑“与”(and)相同,比如google自动使用“and”进行查询。逗号(,)、“”的作用类似于逻辑“或”(or)。,2.位置算符(proximity search) 位置算符检索用诸如“w”、“n”的符号表示词与词之间的位置关系,如information n system表示system出现在information之后,information n system表示与前后关系无关。,3.截词检索(truncation/wildcats) 截词方式主要有右截断、左截断、左右截断、中间截断(中间屏蔽)四种。搜索引擎中的截词符通常采用“*”和“?”。,4.字段限制检索(field limiting) Title:、ubject:、Keyword:、Summary:、Image:、text:、Applet:、host:、anchor:、domain:、site:、url:、from:等。,5.精确检索(exact search) 精确检索又称之为字符串检索、短语检索。 几乎所有的搜索引擎读支持精确检索,并且都采用“ ”来表示。,6.模糊检索(fuzzy search) 7.自然语言检索(natural language search),8.区分大小写的检索(case-sensitive) 又称为大小写敏感检索,这主要针对检索词中含有人名、地名等专有名词而言的。,9.加权检索(term weighting)、 连接符有加号(+)和减号()。即在检索词前置加/减(/)号,作用相当于AND/NOT运算。,10.多语言检索(multilingual search),11.相关性排序 检索结果通常是根据相关程度按从大到小的顺序降序排列。几乎所有的搜索引擎都提供了“对检索结果按其相关性大小排序的功能。”,七、搜索引擎使用方法 1.基本使用方法 (1)分类法 目录式搜索引擎最简单的搜索方法就是掌握它的目录分类原则,确定要查找的内容或网站应该在哪个分类,然后逐级单击寻找。 (2)关键词 这是搜索引擎必备的功能。直接在输入框输入关键词即可进行的检索。,2.使用技巧 (1)选择合适的搜索工具 每种搜索引擎都有不同的特点,只有选择合适的搜索工具才能得到最佳的结果。 (2)使用正确的搜索词 就目前而言,多数搜索引擎不支持容错查询。所以,一定要注意不写错别字。 (3)正确使用布尔检索 正确使用布尔检索方式可以减少搜索结果的返回数。,八、搜索引擎的分类 1.按搜索机制分类 (1)目录型搜索引擎 (2)关键词型搜索引擎 (3)混合型搜索引擎,2.按搜索引擎提供的搜索内容来划分 (1)综合型搜索引擎 (2)专业型搜索引擎,(3)特殊型搜索引擎,3.按搜索引擎在采集信息的方法及对外提供的服务方式划分 (1)机器人搜索引擎 (2)目录搜索引擎 (3)元搜索引擎,(一) Google,九、著名搜索引擎介绍,1.Google的基本知识 (1)网页标题 (2)网页快照 (3)手气不错 (4)类似网页 (5)中英文字典,(1)数量庞大 Google目前发展为搜索80亿网页;10亿图片;10亿Usenet信息。,2.Google的特点,(2)Google支持多达132种语言,包括简体中文和繁体中文。 (3)Google速度极快,它每秒钟能够回应几千次查询,而回应每项查询,Google都要走过30多亿个网页。,(4)Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果。,3.Google搜索引擎的检索方法 (1)基本检索 (2)高级检索,4.Google Scholar学术搜索引擎,2004年11月24日Google推出了世界上第一个针对学术期刊、论文、著作、摘要的免费学术搜索引擎一一Google Scholar;2006年1月l1日,Google推出了面向中文用户的中文版Google学术搜索。,1.Google Scholar的特点 (1)学科覆盖广泛全面,学科专业性强,生物学、生命科学、环境科学(Biology,Life Sciences,and Environmental Science);商业、管理、金融与经济(Business,Administration,Finance,and Economies);化学与材料科学(Chemistry and Materials Science);工程、计算机科学和数学(Engineering,computer Science,and Mathematics);医学、药学和兽医学(Medicine,Pharmacology,and Veterinary Science);,(2)检索功能强大,搜索服务实行一站式,物理学、天文学、天体科学(Physics,Astronomy,and Planetary Science);社会科学、艺术和人文科学(Social Sciences,Arts,and Humanities)。,2. Google Scholar检索方法 (1)基本检索 (2)高级检索,高级检索界面,3.检索结果,检索结果中每条信息内容都包含:文献的题名、著者、出版物、出版年月、摘要、被引用次数、网页搜索等。,学术搜索使用偏好,(二)百度 “百度”二字源于中国宋朝词人辛弃疾的青玉案诗句:“众里寻他千百度”。 1.百度的基本功能 (1)百度快照 (2)MP3搜索 (3)“ 超链分析” 技术 (4)高级搜索,百度空间,更多,2.百度的检索技术,百度支持“与”、“或”、“非”。在关键词之间插入“空格”、“| ”、“ - ”, 可指定查询串中各关键词间“与”、“或”、“非”的关系。百度不支持AND”、“ + ”等符号的使用。,(三)雅虎(http:/),雅虎()是全球第一门户搜索网站,业务遍及24个国家和地区,为全球超过5亿的独立用户提供多元化的网络服务。1999年9月,中国雅虎网站开通。2005年8月,中国雅虎由阿里巴巴集团全资收购。,中国雅虎()将全球领先的互联网技术与中国本地运营相结合,成为中国互联网界位居前列的搜索引擎社区与资讯服务 提供商。为亿万中文用户带来最大价值的生活体验,成为中国互联网的“生活引擎”。,1.分类目录检索(/),双引号带来的精确结果 在查询词适当的位置加个空格,可以帮助您找到更精确的结果。 空格+减号,帮我们去掉无用信息。 在搜索结果页下方的搜索框中,重新输入一个查询词,然后点击“在结果中找”来缩小搜索范围。 不必担心英文的大小写,(四)搜狐(http:/www.S),1.简介 搜狗是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎,域名为。 搜狗的产品线包括了网页应用和桌面应用两大部分。网页应用以网页搜索为核心,在音乐、图片、新闻、地图领域提供垂直搜索服务;桌面应用则旨在提升用户的使用体验:搜狗工具条、拼音输入法、PXP加速引擎。,直通车,高级检索,基本搜索 进一步的搜索 搜索不区分大小写,检索技术 使用双引号进行精确查找 使用多个词语搜索 减除无关资料 在指定网站内搜索 :其格式:查询词+空格+site:网址 文档搜索 :搜索语法:查询词+空格+Filetype:格式,2.检索方法,(五)网易(或 /),(1)网易搜索引擎的特点 网易搜索引擎提供多语言检索 拥有全国最大的开放式管理目录 网易搜索结果包括相关目录、相关网站、相关网页和相关新闻 网易搜索引擎是模糊的搜索方式,网易公司于2007年12月日前正式对外发布:旗下自主研发搜索引擎“有道”()正式版问世。,1.简介,“有道”搜索类型包括网页、博客、图片、新闻、海量词典等。,有道阅读:通过在线RSS订阅,开启快捷的资讯阅读之道。包括资讯阅读、收藏分享、阅读助手和一站式服务。,桌面词典:免费中英文翻译软件,分类检索,(六)新浪爱问(http:/ www.iA),新浪搜索引擎“爱问”(www.iA), 于2005年6月30日正式推出。,新浪爱问搜索类型包括网页、新闻、博客、音乐、图片、视频、地图、知识人、资料、百事通。,(七)中国搜索(),高级检索,(八)MSN中文搜索 (),(九)TOM搜索引擎,新浪搜索分类目录(),第三节 免费学术资源,一、概述 二、免费网络信息资源分类 1.开放获取文献 2.公共版权资源 3.政府出版物 4.其他免费资源,开放获取的定义和特点 定义 开放获取(Open Access):也称开放存取,文献在因特网上可以被免费获取,允许用户阅读、下载、复制、传递、打印、搜索和超链接该文献,用户在使用该文献时不受财力、法律或技术的 限制,而只需在存取时保持文献的完整性。文献版权归作者长期所有。 特点 数字化 网络存档 免费,几乎没有授权的限制 使用者以免费方式存取信息,作者保留被存取之外的权利,开放获取文献包括,开放获取期刊( Open Access Journal) 开放获取图书( Open Access Books) 开放获取课件( Open Access Courseware) 开放获取学位论文( Open Access Thesis) 开放获取会议论文( Open Access Conference) 学术机构收藏库(Repository) 电子印本资源(e-Print),三、免费学术资源介绍,(2)开放存取资源一站式检索平台,Socolar()平台是一个Open Access学术资源一站式服务平台,用户在该平台上可以检索、浏览世界上重要的OA学术期刊和OA仓储文章,并可方便、快捷地获取每一篇文章的全文。该平台为各图书馆丰富馆藏、读者获取网上免费学术文献提供了更多的选择途径。该平台以学术价值高、更新及时、全文保存地址稳定、全文获取顺利的OA期刊和OA仓储作为收集对象,目前收录期刊超过9784 种、仓储超过1,000个,揭示的文章数量近1,700万篇,内容涵盖所有学科领域,年增数据量超过200万篇文章。,(3)HighWire Press(/),High Wire Press是全球最大的提供免费全文的学术文献出版商,于1995年由美国斯坦福大学图书馆创立。目前已收录电子期刊1270多种,文章总数已达610万多篇,其中超过193万篇文章可免费获得全文;这些数据仍在不断增加。通过该界面还可以检索Medline收录的4500种期刊中的1200多万篇文章,可看到文摘题录。,High Wire Press收录的期刊覆盖以下学科:生命科学、医学、物理学、社会科学。 部分全文可免费访问,并不是全部。,(4)FreeFullText (/),FreeFullText提供7000多种网上可以免费获取全文的学术期刊的链接,内容涉及医学、生物学、农业、计算机、物理、数学、教育等学科领域。 FreeFullText按字母顺序来排列期刊,每种期刊前详细标明提供免费全文的年、卷、期和资源链接。一部分资源链接到该期刊的网站主,一部分直接链接到免费卷期所在的网页。,(6)Open J-Gate电子期刊 (),它是目前世界最大开放存取期刊门户,提供基于开放存取期刊的免费检索和全文链接。由印度信息公司于2006年创建并开始提供服务,系统地收集了全球4400多种开放存取期刊,包含高校、研究机构和行业期刊,其中超过2300种期刊是有同行审阅的学术性期刊,可以浏览100多万篇期刊论文的全文,每年以30万篇论文的速度更新。,(5)中国科技论文在线 (),是经教育部批准,由教育部科技发展中心创建的科技论文网站,提供国内优秀学者论文、在线发布论文各种科技期刊论文(各种大学学报与科技期刊)全文。此外还提供对国外免费数据库的链接。每日更新,可为在本网站发表论文的作者提供该论文发表时间的证明,并允许作者同时向其它专业学术刊物投稿,以使科研人员新颖的学术观点、创新思想和技术成果能够尽快对外发布,并保护原创作者的知识产权。,(8)奇迹文库(),是由一群中国年轻的科学、教育与技术工作者创办,非盈利性质的网络服务项目。 其目的是为中国研究者提供免费、方便、稳定的eprint平台,并宣传提倡开放获取(Open Access)的理念。 可使用分类浏览的方法或用关键词查询的方法查找所需资料。,主要收录中文科研文章、综述、学位论文、讲义及专著(或其章节)的预印本,同时,也收录作者以英文或其他语言写作的资料。使奇迹文库成为科研人员、学生及公众交流研究,传播科学的公益平台。奇迹文库采取的是 Creative Commons Attribution License 授权方式,并对文库作品的引用作了说明。,4.开放存取课程,开放存取课程是教育学术机构及其成员建立的教育资源库,一门课程一般包括教学大纲、教学日程、讲义、参考读物、实验、作业、考试等内容,有些课程也包括实时录音和视频资料,全世界的教学人员和学习者都可以免费使用这些资源,以创新和发展教育,但课程资源提供方不负责安排与教师的联系和见面事宜,也不提供学分和学位。,课程重点说明 课程描述 讲义 作业,测验 师资 上课时数 授课对象(级别),(1)麻省理工学院开放课程MIT OpenCourseWare (/OcwWeb/web/home/home/index.htm),是一个免费的、开放的、麻省理工学院教学资源网站,由志愿者翻译的网站。有大量的在线课程,有些提供双语对照,对教学参考、双语教学有很大的帮助。目前已上线的有1800多门课程,内容涉及大部分学科,其介绍形式一般包括:,OCW Consortium发布开放式课程的大学组成的协会,加盟

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论