第二章数字信息收集方法.ppt_第1页
第二章数字信息收集方法.ppt_第2页
第二章数字信息收集方法.ppt_第3页
第二章数字信息收集方法.ppt_第4页
第二章数字信息收集方法.ppt_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 数字信息收集方法,一 、信息收集途径 1.1搜索引擎 1.2信息数据库 1.3开放获取 二、信息检索技术 2.1布尔逻辑检索 2.2字段检索 2.3加权检索 2.4引文检索,1.1搜索引擎,搜索引擎分为 普通搜索引擎 学术搜索引擎,检索需求,查找某概念的确切含义如:什么是“blog” 查找某概念的背景知识如:谁最先发现青霉素 查找某些事物的数值及量化指标特征型知识,一般通过事实型、数值型数据库和搜索引擎获得。,1.搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。,搜索信息的机器,普通搜

2、索引擎,按其工作方式主要可分为三种: 全文搜索引擎(Full Text Search Engine):如百度、谷歌 优点:信息及时 又多 缺点:根据各站的技术判定 在此不评论 目录索引类搜索引擎(Search Index/Directory):如雅虎 优点:收录网站质量高 全人工审核缺点:死链接较多 元搜索引擎(Meta Search Engine) 优点:方便简单快捷 可以同时使用多个搜索引擎 缺点:没有自己的数据库,.全文搜索引擎的工作原理 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Go

3、ogle一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。,当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻, 如果找到与用户要求内容相符的网站,便采用特殊的算法 通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等 计算出各网页的相关度及排名等级,然后根据关联度高低, 按顺序将这些网页链接返回给用户。,学术搜索引擎与普通搜索引擎的区别突出学术特点,1.百度学术搜索- 保持学习的态度2014年6月上线时间 2.搜狗学术搜索 3.Google学术搜索Google学术搜索是一项免费服务

4、 可以帮助快速寻找学术资料,如专家评审文献、论文、书籍、预印本、摘要以及技术报告。 信息来源包括万方数据资源系统,维普资讯,主要大学发表的学术期刊、公开的学术期刊、中国大学的论文以及网上可以搜索到的各类文章。,4、Scirus是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出版社开发,用于搜索期刊和专利,效果很不错!Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学

5、,社会学等。5、http:/www.base- 个开放资源(超过200 万个文档)的数据。6、http:/www.vascoda.de/Vascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。7、 。它界面简洁, 8、Google在同一水平的搜索引擎。是A推出的,Web result部分是基于Google的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。现在还是Beta,不过试用后感觉很好,向大家推荐一试 ,不过缺憾是现在书本内搜索没有中文内容。,9、 进入网页以后

6、,可以看到他有三个功能,driectory webarticle ,其中article对我们很有帮助,你可以尝试输入你要找的文章,会有很多发现的!10、现点击后或跳转到,在此搜索引擎里可以搜索到超过千万种化学品信息或相应的供应商,与Chemblink有点相似,但提供的化学品理化信息没有Chemblink详细,与其不同的是该搜索引擎可提供化学品结构式搜索(主页上有在线绘制化学结构式的搜索框)。11、 (Online Journal Search Engine,在线期刊搜索引擎)是一个强大的免费科学搜索引擎,通过OJOSE,你能查找、下载或购买到近60个数据库的资源。但是感觉操作比较复杂 12、h

7、ttp://一个关于计算机和信息科学的搜索引擎。 13、 LINK service)在线数据库检索系统,并正式开通运行。cnpLINKer即“中图链接服务”,目前主要提供约3600种国外期刊的目次和文摘的查询检索、电子全文链接及期刊国内馆藏查询功能.并时时与国外出版社保持数据内容的一致性和最新性.点评:只提供了外文检索的功能,但是无法得到全文。个人认为不是很理想。,学术搜索引擎突出学术特点,1)百度学术搜索- 保持学习的态度2014年6月上线时间,百度学术搜索,与国内外学术站点合作超过70万家,如中文学术站点知网、万方、维普,外文学术站点acm、IEEE

8、、springer等,共计收录中外文学术资源总量逾2亿,中文超1.5亿,外文超1亿,这也是国内首个拥有亿级别索引量的互联网学术平台。1中英文文献检索的学术资源搜索平台2涵盖了各类学术期刊、学位、会议论文,3并通过时间筛选、标题、关键字、摘要、作者、出版物、文献类型、被引用次数等细化指标提高检索的精准性。4. 在各文献网站中架设起了错落有致的桥梁,使得用户可以随意穿梭,让学术搜索“一键直达”。,百度学术搜索,百度学术搜索,百度学术搜索,1.2 信息数据库,文献是记录知识的载体。数据库是结构化的数据集合,至少由一种文档组成并能够满足某种特定目的或特定数据处理系统需要的数据集合 。当数据库记录的对象

9、为文献信息时,就称为文献信息数据库 。,查找某一学科的一般知识 如:关于分子生物学有哪些专著 查找学科专业领域的新进展 如:有关纳米技术的研究综述 查找课题相关的专业文献 最常见的!,文献数据库,1.2信息数据库文献信息数据库的评价标准,收录内容范围系统准确。 揭示文献详略完备详细。 更新速度快慢及时快速。 检索字段多寡途径丰富。 检索功能强弱高效完善。 用户使用方便易学易用。 维护服务质量及时到位。,文献数据库的类型,按数据库文献记载的详细度可分为 1.书目型数据库(二次文献数据库):仅提供文献检索,读者根据其提供的线索查找文献原文如文献篇名、作者、出处等线索。包含目录、索引、文摘。 可以分

10、为:题录型 文摘型 如:OPAC 全国新书目 EI SCI 中国科学引文索引,文献数据库的类型,按数据库文献记载的详细度可分为 2.全文数据库:是一种不仅能为用户提供文献的题录、摘要等信息,同时还提供原始文献本身的数据库。主要包括全文数据库、术语数据库、图像数据库等等。 如: CNKI 万方 Elsevier IEL,文献数据库的类型,按数据库文献记载的详细度可分为 3.混合型数据库:数据中的数据,一部分只是提供参考数据库中的信息(文献的基本情况及线索);另一部分则可以提供全文数据库中的信息(原始文献本身) 如: EBSCO (ASPBSP),文献数据库的类型,按文献数据库收录信息的学科范围可

11、分为 (1) 专业性文献信息数据库 (CA) (2) 综合性文献信息数据库 (中国期刊网),文献信息数据库的结构,一个数据库通常由一个主文档(Master File) 和若干个索引文档或称倒排文档(Inverted File) 组成。 文档是具有某种特征的全部记录的集合。 记录是构成文档的基本单元,由各种反映 文献特征的字段组成。如一篇论文、一件专利、 一本图书、一个标准的相关信息都能够成为文 档中的一条记录。 字段是记录的基本组成元素。一条记录的 常见字段通常包含题名字段、著者字段、主题 词字段、文献出处字段(如刊名等)多种字段。,1.3开放获取是相对于传统订阅期刊而言,是随着互联网的发展而

12、应运而生,没有互联网也没有开放获取的说法。 维基百科认为:开放获取是一个通过互联网让科研成果能够自由传播的运动, 可以让用户把经过同行评议的学术论文放到互联网上,有利于学术成果的快速传播。,开放获取,开放获取一般途径:金色道路(开放获取期刊)和 绿色道路(作者自存档)金色道路是采用作者付费,读者免费的获取方式; 绿色道路是作者向传统期刊投稿的同时,将自己的论文以电子档的形式存放在专门的开放获取知识库(知识机构库)中供读者阅读。,1.国内主要开放资源,中国科技论文在线 ,2003年上线, 主办:教育部科技发展中心主办, 打破传统出版物的概念,免去传统的评审、修改、编辑、印刷等程序,给科研人员提供

13、一个方便、快捷的交流平台,提供及时发表成果和新观点的有效渠道,从而使新成果得到及时推广,科研创新思想得到及时交流。 允许作者同时向其它专业学术刊物投稿,以使科研人员新颖的学术观点、创新思想和技术成果能够尽快对外发布,并保护原创作者的知识产权。 截止:2016.11.2 首发论文共89842篇 优秀学者论文共92551篇 自荐学者论文共31273篇 科技期刊共1273921篇,1.国内主要开放资源,中国学术会议在线 2003年上线, 主办:教育部科技发展中心主办 用户提供学术会议信息预报、会议分类搜索、会议在线报名、会议论文征集、会议资料发布、会议视频点播、会议同步直播等服务, 内容涉及:全学科

14、,检索途径包括:模糊检索 、会议检索 、视频检索、 会议论文摘要检索,1.国内主要开放资源,中国预印本服务系统 什么是预印本?预印本(Preprint)是指科研工作者的研究成果还未在正式出版物上发表,而出于和同行交流目的自愿先在学术会议上或通过互联网发布的科研论文、科技报告等文章。与刊物发表的文章以及网页发布的文章比,预印本具有交流速度快、利于学术争鸣、可靠性高的特点。,2.外文开放获取期刊/ DOAJ(Directory of Open Access Journals)开放存取期刊目录在线平台,是个很好的专门OA期刊文献检索系统, DOAJ由瑞典Lund大

15、学图书馆创建2003年和维护。 该系统收录期刊的文章都是经过同行评议或严格评审的,质量高,与期刊发行同步,且都能免费下载全文,是做研究的好帮手。 收录全世界的开放获取期刊共9,174种 其中6,418种期刊可以检索到论文水平 论文来自128国家 共有2,326,134篇论文 汤森路透公司期刊引证报告(JCR)显示, 越来越多的开放获取期刊被SCI收录。,DOAJ目前最好的OA期刊目录网站,外文开放获取期刊High Wire Press数据库/,资源简介:全球最大的提供免费全文的学术文献出版商 资源详细介绍: HighWire Press是全

16、球最大的提供免费全文的学术文献出版商,于1995年由美国斯坦福大学图书馆创立。目前已收录电子期刊1052种期刊,免费提供期刊全文达近430万篇。 资源内容类型:全文数据库资源学科分类:哲学,经济学,法学,教育学,文学,历史学,理学,工学,农学,医学,军事学,管理学通过该界面还可以检索Medline收录的4500余种期刊中的1200多万篇文章,可看到文摘题录。,High Wire Press数据库,HighWire Press在线期刊主要具有以下特点: 1提供免费全文文献的期刊。该链接下的页面列出了本站收录的所有可提供免费全文文献的期刊。 在刊名后按“Free Issues”,“Free Tri

17、al”,“Free Site”标注着相应时间或其他。其中“Free Issues”栏中如标注的是某月,则表示每年在该月及以前的所有文献都免费提供全文。 Free trials 在限定时间内所有文献提供免费全文。 free back issues某时间之前文献均提供免费全文; 2提供即将进入本站的期刊。该链接下和页面列出了即将加入本站的期刊及预计加入的时间。 3提供在线使用部分期刊的统计情况。包括该刊被经常阅读的文献和引用最频繁的文献(均采用本站收录文献的数据,每月重新统计)。 4提供需要付费的站点。列出需要收费提供全文文献的站点及其收费标准,有两种收费方式。“Pay-per-view Site

18、 ”为在一段时间内获得使用某篇文献的权利;“Site Pass”为在一段时间内获得该刊所有文献的权利。 5提供在线期刊文献数。介绍了所收录文献的总数及各个期刊所提供文献的情况。全部期刊按字顺排列,从提供的文摘数、HTML格式的全文文献、PDF格式的全文文献数、全部全文文献的总数、免费全文文献的数量,以及所提供的全部文献数等几个项目的统计表。 6除本站外,还提供了其他一些可提供免费全文服务的自然科学文献站点,并进行了简要介绍,并链接到更多的自然科学期刊的网页。,初级检索界面,高级检索界面,Open Science Directory (OSD), 语种:外文资源类型:期刊学科分类:数学/物理/化

19、学/电气/机械/材料/其他 简介: 是个不错的OA期刊查询的入口,包括了大部分开放存取的期刊,现可查到13000个OA期刊。 其中包含了一些著名的OA期刊目录,例如 DOAJ、Open J-Gate、BioMed Central 、 HighWire Press、PubMed Central (PMC) 以及一些专门的免费期刊项目: 全球农业研究文献在线获取(Access to Global Online Research in Agriculture,AGORA)、 健康科学研究计划跨网存取(Health InterNetwork Access to Research Initiative,

20、HINARI)、 环境科学成果在线存取(Online Access to Research in the Environment,OARE)和 电子期刊文献传递服务(The eJournals Delivery Service,eJDS)等 收录的期刊。,Open Science Directory提供:主题词导航浏览,刊名字顺浏览(初级检索 高级检索),关键词检索功能,Open Science Directory,2.数字信息收集方法-信息检索技术,2.1布尔逻辑检索 2.1.1基本布尔逻辑检索 2.1.2截词检索 2.1.3位置检索 2.2字段检索 2.3加权检索 2.4引文检索,2.1.

21、1基本布尔逻辑检索,基本布尔逻辑检索 指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑运算,以检索出所需信息的方法。 常用算符及含义:AND (*) OR (+) NOT (-),基本布尔逻辑检索,AND (*) 接不相容的主题概念(或不同字段) 检索结果同时出现连接的词 限定, 缩小范围, 提高准确率。 OR (+)?连接同义词 ,同族词, 相关词 检索结果至少含有其中一词或同时有 扩大,检索范围, 提高查全。 NOT (-) 缩小检索范围,起到减少文献输出量。,基本布尔逻辑检索,优先处理算符“( )” 逻辑算符OR和AND的使用方法,如果归纳成一个模式,比如有A、B、C、D四个检索

22、词(其中A和B,C和D分别为同义概念), 检索提问式为:(A OR B)AND (C OR D) 即,同一组检索提问既含有OR算符,又含有AND算符,此时须使用优先处理算符“( )”,将OR算符前后的词放入括号中,计算机将优先运算括号内的算符。,2.1.2位置检索,常用位置算符,常用位置算符,EI 数据库实例,ONEARLaser NEAR/4 diode表示:两词之间可以插入0-4字母/词,词序可颠倒; LaserONEAR/5 diode 表示:两词之间可以插入0-5的字母/词,词序不可颠倒; space NEAR/0 stations表示:两词之间紧密相连 Laser NEAR diod

23、e 系统将默认为 LaserNEAR/4 diode,2.1.3截词检索,2.2.2字段检索,相同的检索词,在不同检索字段,检索结果不同维普数据库检索结果比较2010-2012年,文献数据库中常见的字段和段码,2020/8/17,加权检索是在检索提问式中,根据每个提问词在检索要求中的重要程度,分别给予一定的加权数值加以区别,我们称这个数值为权数。同时再给出检索命中的阈值。当检索结果达到所设定的阈值时,系统将显示为命中记录。 采用加权检索的目的在于提高检索结果的准确程度 计算机检索时,首先在所有存储的记录中找到满足提问词的文献,然后对提问词加权,将文献按匹配的检索词权数之和从大到小进行排列,加权检索的全部输出结果见下表,加权检索技术,加权检索技术,例如:查找知识经济与高校图书馆人力资源管理的文献资料, 经济知识(4)高校图书馆(2)人力资源管理(3) 加权检索结果,按照下线阈值为5的设定时,组合号1-4的提问词所检索的文献为命中文献。 加权检索的优点:可明确各检索词在检索中的重要程度; 检索结果按

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论