文献信息检索与利用_第1页
文献信息检索与利用_第2页
文献信息检索与利用_第3页
文献信息检索与利用_第4页
文献信息检索与利用_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文献信息检索与利用郭强2013年 11月什么是大数据 百度百科 :大数据 (big data),或称巨量资料,指的是所涉及的资料量 规模巨大 到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的 资讯 。 维基百科 : 大数据是由数量巨大、结构复杂、类型众多数据构成的 数据集合 ,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的 智力资源 和 知识服务 能力。什么是大数据 2009年,甲型 H1N1流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周,而 Google对人们的搜索的历史记录进行处理,建立合理的数学模型后,得到的预测结果与官方的数据 相关性高达 97%,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。 Google处理了 5000万条 历史记录、 4.5亿个 不同的数学模型。什么是大数据 Farecast是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。 最初预测系统建立在 41天之内的 12000个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过 2000亿 条飞行记录。 系统只 推测 机票的价格何时最便宜, 不关心是什么原因 导致的价格下降。FarecastBing大数据的特性大数据的特性更关注更关注相关性相关性 主要用主要用于于 预测预测数据量数据量巨大巨大实时实时 性性要求高要求高大数据与传统数据库的区别 大数据是在传统数据库学科的分支 数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同: 结构化程度 传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准 XML文件的方式存储数据,由于结构清晰,处理相对容易; 大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。 异常数据的处理 传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理; 大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。大数据与其他新兴技术的关系 大数据、物联网、云计算、移动通信等都是近年涌现出来的新兴概念,彼此之间不是孤立的,而是存在着内部联系。大数据带来的思维方式的变化 处理的对象往往是全部数据,而不是部分数据的采样 采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的数据处理能力,应该去处理全部的数据。 不再执迷于精确性 精确的、规范化的、可以被传统数据库处理的数据只占全部数据的 5%,必须接受不精确性才能处理另外 95%的数据。 错误的数据是客观存在的,竭力避免它就失去了应有的客观性和公平性。 大数据的简单算法比小数据的复杂算法更有效。 更加关注相关性,而不是因果性 预测依靠的是相关性。 很多情况下知道 “是什么 ”即可,不必知道 “为什么 ”。大数据的价值链数据数据 数据的掌控者,拥有或者可以收集大量数据的公司。海量的数据就是财富,可以考虑自己分析或者卖数据给其他公司。技术技术 技术供应商或者分析公司。掌握了从海量数据中分析出有用信息的技能或者工具,但本身不一定拥有数据。思维思维有创新思维的人或者公司。他们对大数据敏感,有怎样挖掘数据的新价值的独特想法。 恒变 信息环境 -日新月异 数据库的检索界面、检索功能、版本形式经常会有变化 不变 基本技术与基本原理 方法或技巧1 信息检索七准则1) 你得到什么检索结果,取决于你怎么提问 (即主题概念分析 )2) 去信息应该在的地方检索 ( 即选择数据库 )3) 向你的检索结果提问 信息可能是真的,但内容仍然会有错的( 检索结果的判断,内容的选取 )4) 检索是一个多步骤的过程( 扩检、缩检 )5) 检索结果必须符合需求( 检索结果的选择 )6) 咨询图书馆员( 获得帮助 )7) 信息本身是无意义的,只有人提问之后才有价值( 撰写论文吧,让信息增值 )2 数据库检索常见问题1. 对信息检索有畏惧心理2. 不理解信息检索过程或原理,无法做到触类旁通。3. 不知道选择什么样的数据库检索,到哪里检索4. 不知道如何选择恰当的检索词5. 在文摘索引数据库中想下载全文6. 仅仅用一个词检索(不会利用逻辑组配)7. 在外文数据库中输入中文词检索2 数据库检索常见问题(续)8. 信息环境意识不强,在网络中搜索一个数据库就进行检索9. 用整个论文(或课程)题名在题名项中检索10. 检索结果太多(不会用限定和组配)11. 检索结果太少(课题分析不够;检索词选取)12. 检索结果的处理(排序、下载、阅读器、复制)3 信息检索 “高级检索 ”界面解读4 信息检索途径解析 信息检索途径也称为信息 检索字段 、 检索项。 信息检索的基本原理就是文本匹配。检索途径指定了输入的关键词进行匹配(比对)的范围 在检索式的编写中,如下表示: 篇名 =评价 AND 关键词 =信息资源配置16检索项检索项 /检索途径对应内容检索途径对应内容5 信息检索技术与发展 当前 信息检索是基于文本的 可检索字段信息以文本的形式存储在数据库(数据集合)中 即使是多媒体数据库,也是抽象特征进行文本化或说字符化 基于文本的匹配技术是信息检索的核心 随着信息技术的发展,以后还会有基于颜色、声音、气味、质量等等的检索。175.1 认识数据库与数据库检索 数据库是存储在一起的相关数据(信息)的集合 数据库是 信息检索的主要对象 ,比如针对网络信息资源的搜索引擎(谷歌、百度、雅虎) 就是一个数据库,文献信息检索领域的数据库非常多。185.2 数据库检索 匹配技术:有哪些匹配规则(模糊、精确、截词)? 数据库检索是一个多步骤的过程 扩检、缩减、检索词的选择与逻辑组配 数据库的检索也是一个知识的探索与发现的过程,别人没法替代 检索、浏览、判断、调整策略、再检索 花点时间,了解数据库特点的必要性 涵盖学科或主题范围 文献类型(出版形式、内容层次) 收录年限,收录对象 数据量(记录数) 文种 全文获取5.5 模糊检索与精确检索方法 模糊检索 系统根据检索词自动拆分成更小的单元词 如 “网络信息资源 ”模糊检索,相当于用: 网络信息资源 OR 网络信息 OR 信息资源 OR 网络 OR 信息 OR 资源 模糊检索是一些数据库(检索系统)的默认检索模式。 当检索结果较少或检索不到信息时,可以选择模糊检索。 模糊检索是 扩检扩检 (即扩大检索结果) 精确检索 与模糊检索相对应,检索词不能拆分开 精确检索是 缩检缩检 (即缩小检索结果20宁波市数字图书馆适用范围 :宁波市数字图书馆用户(市内 IP地址范围) 网络地址 : / 收费情况 :个人免费 服务时效 :图书即时;论文及其它资料当天(难以获取的论文一般不超过 3个工作日)。 使用指南 :宁波市数字图书馆集成了大量中外文数字资源,通过宁波地区图书馆的工作人员(论文)或系统(图书)完成文献传递。文献传递基本步骤如下: 1.先登录,本校用户无需注册,直接用本馆书目检索系统中 “我的图书馆 ”账号和密码登录,登录时单位选择 “浙江大学宁波理工学院 ”。账号为您的校园卡号,默认密码与卡号一致。若忘记密码,请本人带上校园卡到图书馆二楼服务台修改。 2.检索文献,从结果列表中点击需要的文献题名, 3.点击相应的全文链接,若不能下载全文,则点击 “馆际互借与文献传递 ”。 4.输入接收全文的电子邮箱地址。(若是电子图书,每次最多不能超过 50页,可以选择页码范围多次传递)全国图书馆参考咨询联盟适用范围 :国内 网络地址 : / 收费情况 :个人免费 服务时效 :论文当天(难以获取的论文一般不超过 3个工作日)。 使用指南 :无需注册。先检索,然后点击需要文献信息下的 “获取途径: 全国图书馆参考咨询服务联盟 ”,在跳出的窗口中输入接收文献的电子邮箱地址即可。 浙江高校数字图书馆( ZADL)适用范围 :省、市内高校 IP地址范围内 网络地址 :省中心: / 宁波分中心: 收费情况 :个人免费 服务时效 :当天(难以获取的论文一般不超过 3个工作日)。 使用指南 :无需注册。先检索,若不能下载全文,点击 “图书馆文献传递 ”,填写接受全文的邮件地址即可。提交后请求将转自动发到 “全国图书馆参考咨询服务平台 ” 。 NSTL(国家科技图书文献中心 )宁波站适用范围 :注册认证用户 网络地址 : / 收费情况 :个人免费 服务时效 : 1 - 3个工作日。 我们建议 :该系统信息资料全,特别是外文资料,建议在其它方式都没法获取全文时选择该站。 使用指南 : NSTL数字资源极其庞大,主要由其成员单位提供服务,成员单位和共建单位包括中国科学院文献情报中心、国家工程技术图书馆、中国农业科学院图书馆、中国医学科学院图书馆、中国标准化研究院和中国计量科学研究院。除提供系统已有的文献资料传递外,还可以通过 “代查代借 ”直接填写自己需要的其它文献资料申请文献传递。 请用真实信息注册 (请勿选择 “企业机构用户注册 ”),然后等待宁波市数字图书馆相关工作人员审核( 2个工作日内)。审核通过后账号中会充值(一般 500元,用完后可继续申请充值),有问题请拨打服务热线:文献传递一般步骤如下: 1.先登录,再检索文献。 2.勾选检索到的文献,加入购物篮,然后选择服务的图书馆、文献传递方式(电子邮件、快递等)等。按照操作提示完成文献传递即可。 CASHL(中国高校人文社会科学文献中心 -开世览文 )适用范围 :本校教工、研究生 网络地址 : / 收费情况 :收费。补贴政策:每篇文献的补贴金额为总费用的 50(四舍五入,精确到角)。补贴总额每年 2000元,先来先用原则。每年10月 15日后 CASHL有一定量的免费文献传递名额。文献传递总费用 =复制费 +加急费(可选)。其中, 复制费: 0.30元 /页 (指复印 /扫描 );加急费 :10.00元 /篇。如一篇 10页的文章,不加急需要支付的费用=10*0.3*50费用为 1.5元,若选择加急费用为( 10+3) *50%=6.5元。 资源特点 :人文社科外文期刊、图书全, 特藏文献 多为第一手的原始档案资料,涵盖历史、哲学、法学、社会学、语言学、经济学等多个一级重点学科,涉及图书、缩微资料、数据库等不同介质。 学科特色资源丰富 ,为国内著名高校提供。 使用指南 :在您通过其它无需自己付费方式(如上述自助文献传递)无法获得文献时,可选择本方式!需先自行注册,然后经过图书馆确认身份后就可进行文献传递操作。具体流程: 1.登录 CASHL主页( )进行帐户注册。 2.请通过右侧的联系方式联系我们以便确认身份。 3.身份确认后,在 CASHL中去检索相关资料,然后提交文献传递申请。 /图书馆名称 中文资源(种)外文资源(种)宁波大学园区图书馆 6 2宁波市图书馆 5宁波大学图书馆 24 25宁波市科技信息研究院 23宁波工程学院图书馆 5 4宁波理工学院图书馆 76 26浙江万里学院图书馆 9 3公安海警高专图书馆 3宁波教育学院图书馆 3宁波广播电视大学图书馆 3宁波职业技术学院图书馆 6 1浙江纺织服装技术学院图书馆 1 1宁波大红鹰职业技术学院图书馆 2浙江工商职业技术学院图书馆 3 2浙江医科高等学校图书馆 4 5宁波城市职业技术学院图书馆 3 1宁波天一职业技术学院 4宁波诺丁汉大学图书馆 3二、宁波市数字图书馆有哪些主要文献资源?可供检索的元数据达 1.9 亿条序号序号 元数据元数据 类类 型型 数量数量 比例比例1 中文 图书 元数据 270万种2 中文期刊元数据 4829万条3 中文 报纸

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论