信息检索与信息系统-第2章-信息存储与检索基本原理.ppt_第1页
信息检索与信息系统-第2章-信息存储与检索基本原理.ppt_第2页
信息检索与信息系统-第2章-信息存储与检索基本原理.ppt_第3页
信息检索与信息系统-第2章-信息存储与检索基本原理.ppt_第4页
信息检索与信息系统-第2章-信息存储与检索基本原理.ppt_第5页
免费预览已结束,剩余66页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、第二章信息记忆和检索基本原理、1信息记忆过程2信息记忆和检索基本原理3信息的公开和组织4情报检索方法5情报检索效率、2、1信息记忆过程、1.1信息的收集和选择1.2信息的复制加工1.3信息的标记加工1.4信息的结构编制、3、1.1信息的收集和选择1, 按照收集的原则确定收集的学科范围的主题范围,选择收集的路径3、必要的信息,在文种时间段收集的数量的记录率、4、1.2信息的记录加工、1、记录的目的通过将一个文献改为一个记录,可以压缩后表现文献的外观特征和内容特征。 外部的特征在文献中是很明显的,一般是没有反映文献本质意义的特征,例如书名、人名、各种符号标识牌(专利编号、标准编号、文献编号等)

2、、机构名等。 内容特征是指主题词(同义词、单词、牛鼻子词)、分类号、化学符号等表示文献本质意义的特征。2、书籍内容外观特征:篇名、作者、职场、编号、文种来源:哪个刊物、刊号、卷、期、页数的内容特征:摘要3、书籍形式、5、 图书书目馆藏编号: 4418391寸伊斯特类型: R ISBN编号: 92-828-556-S语言: Ger中图类编号: TD94文献题名: nmrspekeropiezurstofflichencharakterisierungvonbraunkohlen lung的作者: Michel,d组的作者: European Commission国家: BE简称: CEC出版日:

3、 1999页: 164S,6, 期刊记录标识牌: 9807001记录源: JX文献类型:刊物文献标题名称:机械零件构成查询密码频率分析和设计规范化通用标准化作者:鲍子强作者单位:长沙重型机械厂母体文献:矿山机械巻期页码: 1997,1.2 p.3942出版单位:洛阳矿山机械研究所分类号码: 97*TD-3* 1.2主题语:标准化、分组技术、机械零件、设计伊斯特:(略)、7、专利文献发明名称:蓖麻脱皮分选机范畴: B07B 1/20类别分类: 27F 33A 13A国:省市: 1.2申请方:刘国喜通讯先: (300011 ) 天津市河西区三水南里126栋发明者:刘国喜代理机构:阎俊芬代理机构:

4、12100天津市特许事务所专利代理服务代理机构地址:(300051 )天津市和平区成都道116号法律状态:认可说明书页数: 003图纸页数: 0.2权利项数: 003伊斯特: (略),8,会议文献、 论文题目:冶金反应工程问题作者:曲英:北京牌科技高等院校李士琦:北京牌科技高等院校会议名称:第七届全国冶金反应工程科学学术会议次: 7个会议时间: 1998年0.5月1.5日会议地点:沈阳会议主办者:东北大学母体文献:东北大学学学报(自然科学版)(第19卷增刊) 出版地:沈阳出版单位:东北学院大学学学报编辑部出版时间: 19980500页: 1.3馆藏号: H0 43339分类号: TF01,N9

5、4牛鼻子字:反映工程、冶金、系统工程,可持续发展文摘:(略),9,标准文献复印件标准号: GB/T 1990.2-98发布日期: 1998-11-13标准状况: ST实施日期: 1999-05-01起草单位:中国标准化与信息分类码研究所标准名称:质量管理与质量保证标准第2部分: GB/T 19001、GB/T 19002和GB/T 19003实施通用指南正文语言:对外汉语英文名称: qualitymanagementandqualityassurancemstandards-part 2: generinggguidelinesfortheapplicationofgb/t 19003 审计项

6、目: 0中国标准分类编号: a00, 1.0,标准文献(续),录用关系: ISO 9000-2-97.IDT主题语:品质管理, 质量保证质量英语主题词: qualityassurancequalitymanagementquality国家:中国申请号: 98249276公告日:申请日: 1998年1.2月0.9日公告日:审定公告日: 1999年1.1月1.0日授权公告日: 1999年1.1月1.0日, 1.1月1.1日学位论文目录论文题目:自控式同步机路端电压位置监视屏数控作者:刘波教授学位:硕士人民教师名:李永东教授学位部门:清华高等院校分类号: TM762.3馆藏号: Y248534论文页

7、数: 9.7出版时间: 1999.3主题词:自控式同步机端子电压位置监视器数控文摘托:(略),1.2技术报告,title :人力资源维护阶段4文档id 33609950021275 n (95n 276896 ) fileseries : nasatechnicalreportsreportnumber : dot/FAA/am-9.5/1.4销售(3)搜索引擎是由搜索引擎自动建立的网络资源数据库(全文牛鼻子字匹配)、4.9、超文本数据技术将文本信息容纳于无数个节点(node )中,一个节点是相对独立的“数据块”,节点之间用“网络链接”连结构成信息网络。 同样,诸如声音、图像(图形)、电影等多

8、媒体信息也可以被网络链接以构成超次元搜索点。3、选择超文本数据、5.0、4情报检索方法、4.1检索方法的种类4.2检索方法的原则4.3问题检索表达式构造、5.1、4.1检索方法的种类、1、常用检索方法、直接检索工具进行检索。 顺检:以课题开始的年代为起点,从远到近,检验全部,检验率高,但需要时间和劳力:从近到远,检验率高,检验前的一定时间不检验,所以漏检率高,但漏检:学科发展最快,文献最多的年代检验利用文献最后附加的参考文献,将上溯及3、循环法、直接法和上溯及法相结合,交替使用。 4、原始法、分散检索、利用原始文献的直接阅览、5.2、4.2检索方法的原则、1、检索条件检索工具不足,但原始文献的

9、收藏应采用上溯及法,有检索工具定径套的应采用直接法,其检验率、检验率高于上溯及法。 2、查阅检索要求1 )收集某课题的系统资料,要求全面,不得有重大泄漏。 顺查法2 )解决某个课题的重要技术,不要全面,只要能解决这个重要问题就好。 必须迅速、准确、正确。 用反查法快速获得最新资料3、搜索学科特点应该看老学科,开始得早。 只有使用逆查法、新兴学科的最初年代不远。 能够在顺查法、波浪发展学科中选择发展高峰,将循环法、5.3、4.3问题检索表达式的结构、1、检索词、问题检索表达式和关系运算子检索词以及叙述词、词条、自由指标词(identifier )、牛鼻子词(keyword )和全文检索自由词(f

10、ree terms )和信息形式的特征同义词词典和词条是由各种同义词词典和词条规定的规范词,在大规模的数据库中有自己的词典。 EI Compendex Plus使用SHE语言表,insec使用insec语言表。 最简单的检索表达式(项)由检索词和字段名(字段id )构成。 Information Science/Ti关系运算子中有逻辑运算符和位置运算符等。5.4、问题检索表达式结构规则、1、布尔逻辑运算符and(and或* )或(or或)、非(not或- )优先执行顺序为not、and、or 2、位置逻辑运算符位置运算符不仅用于组合具有前缀或后缀的搜索词,而且用于组合具有逻辑运算符的检索表达式

11、典型的位置运算符指示(1)(w )或() with运算符,在搜索结果中,(w )运算符两侧的搜索词必须按先后顺序排列,且不可以反转顺序,并可以在两个搜索词之间允许其他词或字符但保留空格和连词符例如,在检索关于相关矩阵的资料时,行政许可使用Correlation (w) Matrix,5.5,(2)(nW )运算符在位于该运算符两侧的搜索词之间插入n个实词或虚词查询“检索委托书”,Form (nW) request Form (1W) request,Form (2W) request是由Form of request和Form of a request (3)(N)Near运算符用(n )连接

12、而成的检索词(4)(nN )行政许可在运算符标识符两侧的检索词之间插入n个词,但两个检索词的位置可以替换。 例如经济萧条econom? (2N) decline,在检索结果中包含Economic decline、economy on the decline、decline of the economy、问题检索表达式构造规则、5.6、(5)(F)Field运算符,在文献记录查询密码的同一字段中运算符两侧的检索语序不变,其间插入的其他词数也是有限的。 如果搜索项目control (F) pollution,则可能会命中“controllandmanagementofindustrialpollu

13、tton”文献记录。、提问检索表达式结构规则、5.7、提问检索表达式结构规则、(6)(S)Sub Field运算符表示运算符两侧的检索词必须出现在文献目录查询密码的同一子字段中,不限定该检索词的顺序,其间夹着的词汇量也不限定,子字段通常由数据库例如标题子字段、主题子字段、骰子伊斯特子字段等各字段可以用查询密码上常用的分号分隔或单独进行排列。 (7)(L)Link运算符的运算符两侧的检索词是从属关系,前者是上位概念,后者是下位概念,表示这一情况的运算符的左侧是主叙述词,右侧是副叙述词。 因此,(l )运算符用于具有主副标题的同义词词典的数据库,检索效果最好。5.8、(8)(C)Citation运

14、算符两侧的检索词不论字段、顺序,只要在一个文献目录查询密码中出现在云同步中就命中,相当于and。 (9)(X )和(nX )的运算符。 在这里(x )表示将相邻词形相同的两个检索词作为词组进行检索,其间只有记号,不能有其他的文字或词语。 例如,“gas (X) gas”可用于搜索“gas-gas”。 (nX )两个词形表示相同的检索词,其间夹有n-1个其他词时,可以作为短语进行检索。 例如,世界可以用检索表达式世界(2x )来表示。 如果将not加在位置运算符之前,则构成位置运算符的逻辑(not ),产生相反的含义。 考虑以下运算符的含义: (not W )、(not N )、(not S )

15、、(not F )、(not L )? 问题检索表达式结构规则、5.9、3、检索字段修饰符将输入的检索用户针织面料(单一检索词或整个检索表达式)和索引文档的索引词性比率限定到一定的字段中进行匹配的这样的检索称为限制检索。 缩小检索范围的措施。 (1)基本目录索引区域的限制检索(后缀)。 反映文档内容特征的字段称为基本索引字段。 在检索词(式)后面加上斜线“/”,加上限定的字段id。 /ti (标题)、/ab (骰子伊斯特)、/de (叙利亚语)、/id (自由指标)、/nt (注释)、/sh (类别标题)等多个限定范围用逗号分隔。 Laser/ti、de、ab earthquake (w )

16、resistance (f )测量/ti、ab (legalandliabilityormalpractice )/ti是什么意思?问题检索表达式结构规则、6.0、问题检索表达式结构规则、(2)辅助目录索引域的限制检索(前缀)。 在检索项(词)前加上字段id和等号。例如,au=peter,Jacso.N,公共前缀查询密码:6.1,4,单词截取运算符后截取前截取前后截取有限截取和无限截取,问题检索表达式结构规则,6.2,问题检索表达式结构,(1)句截取,例如“与网络|现代|社会|文化|的关系”(2)。 文化”(3)概念置换水质细菌计算方法的水质污染计算方法(4)概念的限定和补充,如计算机(近义词

17、补充)、食物食品(近义词补充) (5)与检索表达式组合,则如“网络资源检索”,网络资源*检索资源*检索网络检索*资源(逻辑“或”、“与” 网络资源检索检索网络资源检索(逻辑“or)63 5情报检索效率、5.1测量情报检索效率的指标5.2检索效率的基本特性5.3影响情报检索效率的基本要素5.4提高检查率的措施5.5提高检查率的措施、6.4、 5.1测量情报检索效率的指标检测出的文献:没有检测出与文献a无关的文献b的文献:与文献c无关的文献d的检查率r的检查率p、6.5、检查遗漏率o的误检查率n的检查率和检查遗漏率互补,检查率和误检查率互补,6.6, 5.2的检索效率的基本特性检验率.检验率.根据式R(ac)=a Rc=a(1-R )即:6.7,同样,从和增益:得到:式中b、c是系数,变量p、r的二项方程式,6.8,如图所示, P高则r底; 如果r高的话,为了在p的底部得到好的检索效果,应该两者兼顾,一般来说,调查率是: 6070

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论