信息采集技术_第1页
信息采集技术_第2页
信息采集技术_第3页
信息采集技术_第4页
信息采集技术_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息采集技术信息产品的加工4/5一、周遍性信息的处理对一种或多种相关信息进行加工,并深入信息内部对检索关键字词进行周遍性或选择性标引,使信息索引化使隐藏变显现、使无序变系统、使封闭变开放形式有全文检索系统、功能信息系统等1、全文检索系统源自情报检索系统情报检索系统旨在加工、存储、编排文献,并为用户的查询提供相关的输出给文献资料赋予检索标识是情报检索的基础全文检索是一种内容索引源自语词索引-将文献中的字或词作为标引对象,并指明其在文献中的具体地址,使用户能够找到该字或词在文献中的具体出处全文检索是在用户不满足仅查到简单的书目信息的背景下产生的,用户希望系统能够找到所需的词、字信息,并能提供检索要求的原始文献信息全文检索系统美国的Dialog全文检索系统-全文数据库将文献全文以机读版的形式存储起来,并可与相应的软件配合提供文中检索和全文输出的数据库-全文数据库的各类出版方式:印刷型平行出版的全文库/纯电子出版物存储内容:直接原文型/摘录型应用领域:法律法规/期刊/商情/新闻消息/医学等全文检索系统综上所述,其概念描述为:具有全文数据库,具备全文编辑、加工和检索功能,允许用户以自然语言进行检索并获取原文的系统特点:检索结果的直接性和可靠性检索的详尽性和彻底性用户使用的便捷性标引方法简单,具有较好的一致性和通用性全文检索系统功能:位逻辑检索/截词检索/字符串检索/限定检索/同义词检索/后控制表辅助检索开发:数据库准备→全文数据库的建立→文本检索功能的实现文件组织形式/记录分割技术/检索标识的提取检索模型的构造与选取/检索算法的设计汉字全文检索系统的模式-1单汉字无标引全文检索系统基本思想:以单个汉字作为标引的基本单元。在检索时,对不属于停用词范畴的单个汉字进行逻辑与运算,即对标引字所代表的概念层面进行后组配,从而获得检索结果。特点:以单汉字为标引单元,避免了分词的障碍;组配灵活,标引深入;标引客观且一致;隐含截词功能;操作简单,维护方便。检索效率供,速度慢,浪费空间,用户使用分析较困难。汉字全文检索系统的模式-2全文后控检索系统基本思想:针对完全自然语言检索法存在的检索策略困难和检全率较低的问题提出的,充分发挥自然语言和受控语言的各自优势,通过采用后控词表对系统加以控制,达到扩检的作用。特点:以单汉字为标引单元,避免了分词的障碍;组配灵活,标引深入;标引客观且一致;隐含截词功能;操作简单,维护方便。检索效率供,速度慢,浪费空间,用户使用分析较困难。检索词不受限制,检索方便,易用,标引简便快速,统一性好词间词义清晰,选词没有限制汉字全文检索系统的模式-2后控词表:由一个概念之下的各种相关、近义、同义的词组成的一个词表片段,在各词之间建立指引关系。类似于主题词表或入口词表,是一种转换工具,一种扩检工具,一种罗列自然语言检索标识供选择的工具。-搜狗拼音输入法/智能狂拼输入法等汉字全文检索系统的模式-2例:后按词表片段:Y:用-指向同义词,正式词汇,属等同关系D:代-指向同义词,非正式词汇属等同关系C:参-指向相关或近义词,属相关关系用户检索:”李太白+诗“执行步骤:…{李白 D李太白,青莲居士,诗仙}...{李太白 Y李白}{青莲居士Y李白}...{诗 C诗作,诗集,诗选,诗评}...{诗集鉴赏Y诗评}{诗集 C诗,诗选,诗作}{诗评 C诗,诗作,诗选,诗集 D诗词鉴赏}{诗仙 Y李白}{诗选 C诗,诗集,诗作}{诗作 C诗,诗集,诗选}汉字全文检索系统的模式-3单汉字标引与后控词表相结合的全文检索系统全文检索系统的发展单一→网络化全文数据库与全文检索系统相分离向多媒体(文本、图像、声音)一体化发展文本技术与全文检索技术相结合向智能化方向发展2、功能信息指文献内部隐含的、潜在的各种有检索和开发利用价值的信息深入文献,挖掘新质信息特点:以文献内部的单元信息为加工对象对文献的加工具有系统性和周遍性作用:方便使用帮助用户理顺检索课题的逻辑关系提供了系统开发利用深层次文献信息的途径完善了信息加工处理体系二、鉴选性信息的提取通过调查研究并根据需要对各种信息进行鉴别评价、筛选,聚其精华或录其整篇或汇成系统其形式有文献汇编、精粹节录等1、信息汇编概念:是按一定的目的和方法,依据一定的时间和空间标准,就某一学科/专题、人物、事件范围的相关原始文献进行审读、鉴评、聚合、结集、整理而成的信息加工产品1、信息汇编特点:以专题或学科为范围,复印原文,一字不易,集万册为一集,质量高,信息含量大,针对性强,用户对象明确是对一次文献进行加工、整理的产物,因而具有二次文献所特有的广泛性、系统性、检索性、动态性1、信息汇编作用:节约用户浏览、寻觅、鉴选资料的时间便于学术交流和科学研究便于回顾、总结学术发展、把握学术动态便于用户购买和收藏定题情报服务1、信息汇编信息汇编的编制原则:新颖性原则客观性原则全面性原则价值取向性原则区别对待性原则连续性原则1、信息汇编信息汇编的步骤选题→选材→分类→系统编排编制实例:《WebofScience-SCIExpanded(2000年)收录的中国期刊论文精品资料汇编》1、信息汇编信息汇编的现状及发展趋势呈现载体:印刷本与电子版共存覆盖学科:社科类,自然科学类等汇编选题:新颖性,独特性存在欠缺汇编选材:文献类型单一、语种单一、时间感不强、材料陈旧,主观性强、客观性差汇编过程:注意版权问题2、精粹信息概念: 原始文本中隐含的有价值的观点、方法、资料、事实、结论等片段语句信息加工处理方法:描述文献的外表特征,提供文献的出处线索揭示文献的整体信息,提供文献的内容梗概处理文献中的词语同内容,提供周遍性的信息鉴选文献中的单元信息,提供文献中的原始信息研究文献的内容特点,提供参考决策信息链接文献的相关信息,提供网状的关联信息2、精粹信息特点:过滤冗余信息,获取精华信息是文献中的片断,而非全部智力含量较重,机械加工成分少作用:过滤信息,消除污染

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论