第1章 信息检索基础知识_第1页
第1章 信息检索基础知识_第2页
第1章 信息检索基础知识_第3页
第1章 信息检索基础知识_第4页
第1章 信息检索基础知识_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实用科技信息资源

检索与利用南华大学图书馆龙颖TELMAIL:1642486074@课前思考1、如何在我图书馆找到谢光善著的《快中子堆燃料元件》这本书?书脊下方标签TL352/XGS有何作用?2、馆内A、E、G、H、I、K、R、T类图分别是什么内容的图书?3、图书馆期刊室除了收藏纸质期刊外,还收藏什么特种文献?4、如何知晓我校博士生导师丁德馨学术研究近况?5、登录我校园网的用户名及密码是什么?南华大学网址是什么?在我图书馆主页上能检索本专业的中外文数据库有哪些?为什么要学习信息检索?当今文献信息特点——1、文献资源日益庞大非科技文献,每10年甚至7-8年翻一番科技文献,尤其是尖端科学的文献增加速度更快,如,原子能文献每2-3年就翻一番,且倍增周期逐年缩短据估计目前每年出版的各种类型的科技文献有1000多万篇2、出版速度加快据国外报导,2012年全世界出版科技文献2000印张/秒4-5种新书/小时新增3种刊物/小时3、载体形式多样化我们需要解决的问题……如何从信息的海洋中获取我需要的知识?我们被信息的海洋包围着,但是确被知识饿死了!授之以鱼,不如授之以渔1、文献检索是知识更新的手段通过文献检索获取学术动态通过文献检索寻找未知问题的答案2、文献检索是能力的培养提高自学的能力文献检索课的一个重要目标就是培养学生的信息意识

面对日益增长的文献资源,通过一种有效的方法,以最少的时间与精力来获取自己所要的信息。学习文献检索课

能帮助我们:文献检索课考核要求

考核与成绩评定:考勤(15%)实习和作业(25%)理论笔试A+综合实习机试B(60%)三者相结合。核科学与技术专业

请选题查找相关科技资料,写出6000字的综述。1、核反应堆安全问题2、核电站的辐射监测技术3、核测控设备使用4、核辐射防护方法5、溶浸采矿技术发展一、信息检索基础知识(十大情报源、中图法、检索原理及技术)二、互联网信息资源搜索(百度高级搜索、谷歌搜索实例)三、国内文献信息检索系统(读秀、维普、万方、CNKI)四、国外文献信息检索系统(EI、SD、EBSCO、SpringerLink)五、特种文献检索及其检索系统(P、S、C、D、R)六、免费文献资源及信息综合利用(国图、图书馆联盟、开放存取、NOTEEXPRESS、参考文献)七、上机检索实习八、文献检索考试课程安排(16课时)第1章

信息资源检索基础1.1信息检索原理1.2信息检索语言1.3信息检索语法1.4信息检索策略1.5电子文献阅读1.1信息检索原理1.1.1信息检索的概念1.1.2文献信息资源1.1.3信息检索系统1.1.4信息检索数据库1.1.5数据库的索引1.1.1信息检索的概念1.信息检索(informationretrival):严格地说,只有在已经有序存储的信息集合中进行搜索才是信息检索。2.信息检索大家族:

特定信息检索(数据检索:包括事实检索和数值检索);

信息资源检索(可被人们利用的信息集合:包括口传、实物、文献、网络信息资源)网上免费使用的事实/数值数据库海词在线词典:维基百科:百度百科:哥伦比亚百科全书:/65/世界年鉴(英文版):托马斯(中国)公司的全球产品目录:托马斯制造商及产品名册(多语种版):联机IC指南(英文版):上海研发公共服务平台:

信息检索原理:存储的标识和检索的用词达到匹配一致。

信息检索分为数据查询、网页搜索、文献检索三种类型。文献检索的工作原理:将文献的篇名、作者、关键词、摘要等信息录入到文献数据库主文档中,建成数据库,通过计算机自动分词标引软件,提取词语作为索引款目,建立索引数据库。检索时,检索系统自动将检索词送到索引数据库中,与索引款目进行对比,如有匹配的命中结果,就显示结果清单。信息资源检索原理1.科技文献的类型(按出版类型划分为十大情报源)(1)图书(book):专著(M),汇编(G)(2)报刊(NewspaperandJournal):报纸(N),期刊(J)(3)会议论文(ConferencePaper:C)(4)学位论文(美Dissertation/英Thesis:D)(5)科技报告(TechnicalReport:R)(6)专利文献(PatentLiterature:P)(7)标准文献(StandardLiterature:S)(8)产品资料(ProductLiterature)(9)政府出版物(GovernmentPublication)(10)档案(Archives)1.1.2文献信息资源特种文献文献类型标识代码教材后参考文献[4]黄如花.网络信息组织模式与评价[M].北京:北京图书馆出版社,2003.[14]冯进.对我国高校文献检索课教学工作的思考[J].情报探索,2005(3):37-38[17]周满英.百度和谷歌的中文分词技术浅析[J].中国索引,2011(2):44-46,51[20]王胜海.知识脉络分析服务的研究与实现[EB/OL].(2012-3-30)[2012-4-28]/view/39…….html.

文献类型标识代码文献类型标识代码专著(含教材等)M会议录C汇编(含论文集等)G学位论文D期刊J报纸N科技报告(含技术,调查,考察等)R技术标准(含规范,法规等)S专利文献P参考工具(含年鉴,手册,字典等)K常用文献类型代码电子文献类型载体和标志代码电子文献类型标志代码数据库DB计算机程序CP电子公告EB磁带(magnetictape)MT磁盘(disk)DK光盘(CD-ROM)CD联机网络(online)OL

文献加工层次划分:一次文献(PrimaryDocument):指以作者本人的研究成果或心得写成的原创性文献。

二次文献(SecondaryDocument):指提取一次文献的特征信息加以排序重组而得的目录、题录或文献等再加工文献。

三次文献(TertiaryDocument):指借助二次文献收集一定范围和数量的一次文献,然后吸取精华加工重组而得的综述、述评、年鉴、手册、百科全书等再加工文献。

零次文献(ZreoDocument):指还没有发表的手稿、书信等资料。

高次文献(AdvancedDocument):通过信息分析、知识挖掘、知识发现等现代分析研究手段生成的信息分析研究报告、可行性分析论证、新技术发展前景预测报告等。

按文献获取难易划分:白色文献、灰色文献、黑色文献1.1.2文献信息资源2.文献资源保障体系:

由各级图书馆(文献中心、信息中心)

组成——

公共图书馆(如湖南省图书馆、衡阳市图书馆)

高校图书馆(如北京大学图书馆,南华大学图书馆)

专业图书馆(如核科技图书馆,解放军医学图书馆)

我国文献资源保障单位网站和网址1、国家图书馆:2、中国科学院国家科学图书馆:3、中国社会科学图书馆:4、中国农业科学文献信息与服务平台:5、上海图书馆:

6、天津图书馆:

7、重庆图书馆:8、南京图书馆:9、湖南图书馆:www.library.10、四川图书馆:11、中山图书馆:12、中信所-国家工程技术数字图书馆:

13、中国国防科技信息网:14、全球机械文献资源网:15、中国冶金信息网:16、中国化工信息中心:17、科技文献与数据中心:18、中国船舶在线:19、中国核信息网:

中国工程技术信息网:20、中国专利信息中心:21、中国国家标准服务网:21、上海标准化服务信息网:22、国家科技图书文献中心:23、CALIS:中国核信息网中国核科技文献数据库(DEMO)INIS数据库(DEMO)中国核情报中心

/index.aspx1.1.3信息检索系统信息检索系统:由计算机、数据库及相关软件组成。提供单库或多库的跨库检索。百度搜索引擎;谷歌学术搜索国内外常见的文献信息检索系统有:

维普期刊资源整合服务平台(维普)

万方数据知识服务平台(万方)CNKI中国知识资源总库(CNKI)EngineeringVillage(EI)ScienceDirect(SD)1.1.4信息检索数据库1.数据型数据库

教材第6页表1-2:某产品信息数据库2.文献型数据库

(1)文献型数据库特征:文献的格式比较固定,字段一般有题名作者、作者单位、摘要、关键词、中图法分类号、文献标识码、DOI编号以及文献出处等信息元数据。(2)文献型数据库的类型:

目录数据库(如OPAC);题录数据库(索引数据库,如《全国报刊索引》);

文摘数据库(EI、SCI);

全文数据库(如CNKI、维普、万方)3.网页型数据库:网页快照1.1.5数据库的索引1.整字段索引2.英文全文索引3.中文全文词索引4.中文全文字索引5.中文数值索引1.2信息检索语言

检索语言:是在信息检索的存储过程中使用的标引语言(标引词或称文献标识),也是在信息检索的检索过程中使用的检索语言(检索词或称检索标识)。

检索词和标引词两者必须一致,才得检索到结果。它是用来描述文献特征和描述检索提问的统一语言。分为受控的人工语言和未受控的自然语言。1.2.1主题检索语言1.2.2分类检索语言1.2.3作者检索语言1.2.4代码检索语言1.2.1主题检索语言

主题检索语言直接采用能反映文献主题概念的词语来标引文献。1、主题词2、关键词3、文中自由词1、主题词(叙词)它能准确表达文献主题概念,并通过主题词表或叙词表来规范的人工受控词语,又称为受控词。1)、国内常用的叙词表《汉语主题词表》、《国防科学技术叙词表》、《机械工程主题词表》、《核科学技术叙词表》等;2)、国外著名的叙词表:INSPECThesaurus、EIThesaurus等;

标引主题词非常费力,而且词表更新不及时,故现代数据库已较少保留。2、关键词它是能反映文献主题概念的关键词语,可直接从文献记录的篇名、文摘或全文中,按字面拆分抽取,不用词表来对选词进行控制,是一种非受控的、不规范的自然语言。同一个主题内容,不同的作者可能会给出不同的关键词来表达,故检索噪声较大。3、文中自由词在文献标引自动化中在文献的题名、文摘甚至全文等字段中,直接抽取一个个单词作为文献标识的自由词。抽出的单词是在文中自由散布的,非人工标引的,发展了全文检索技术。1.2.2分类检索语言

受控的人工语言,其语言单位(文献标识和检索标识)是分类号或分类代码。信息检索系统中常用的分类表:《中国图书馆图书分类法》(《中图法》)《中国标准文献分类法》(《中标法》)《国际专利分类法》(《IPC》)《国际标准分类法》(《ISC》)《中图法》五大部类和22个基本大类表基本部类基本大类1、马克思主义、列宁主义、毛泽东思想A、马克思主义、列宁主义、毛泽东思想、邓小平理论2、哲学B、哲学、宗教3、社会科学C、社会科学总论D、政治、法律E、军事F、经济G、文化、科学、教育、体育H、语言、文字I、文学J、艺术K、历史、地理4、自然科学N、自然科学总论O、数理科学和化学P、天文学、地球科学Q、生物科学R、医药、卫生S、农业科学T、工业技术U、交通运输V、航空、航天X、环境科学、安全科学5、综合性图书Z、综合性图书T工业技术TB一般工业技术TD矿业工程TE石油、天然气工业TF冶金工业TG金属学与金属工艺TH机械、仪表工业TJ武器工业TK能源与动力工程TL原子能技术TM电工技术TN无线电电子学、电信技术TP自动化技术、计算机技术TQ化学工业TS轻工业及、手工业TU建筑科学TV水利工程《中图法》唯一用双字母标识的基本大类1.2.3作者检索语言它是利用作者(著者)姓名索引检索作者的标识语言。通常使用“姓在前名在后”的格式,现在一律遵从原文署名习惯。原文署名标引方法1标引方法2AliceAmeySmithSmith,AliceAmeySmithAAAliceA.SmithSmith,AliceA.SmithAAA.A.SmithSmith,A.A.SmithAA1.2.4代码检索语言它是利用文献代码或编号建立的代码索引作为检索标识的语言。比如:国际标准书号(ISBN),国际统一刊号(ISSN),数字文献标识号(DOI),科技报告的报告号,技术标准的标准号,专利说明书的公开号、公告号以及专利号等。注意代码中有无空格。1.3信息检索语法1.3.1检索词书写规则1.3.2字段限定算符用法1.3.3词组/短语算符用法1.3.4精确匹配算符用法1.3.5逻辑运算算符用法1.3.6词位限制算符用法1.3.7截词算符用法1.3.8检索条件限制语句1.3.9检索表单中的语法规则1.3.1检索词书写规则1、大小写:英文单词不分大小写

搜索引擎或EI库:CAD=cad

中国法:TG4=tg42、单复数:国外个别检索系统(如SD、EBSCO)单复数兼容SD或EBSCO库:network(network/networks)Ei或SCI:network?/network*

1.3.1检索词书写规则3、上下标:数据库不接受上、下标等文本格式符,应改写成一般字符。C3I——C3I(指挥、控制、通信和情报系统/补体第三成分灭活剂)H2SO4——H2SO4(硫酸)4、特殊符号:用半角双引号括起来。如an、and、by、for、from、of、the、to、with和C++等C++——“C++”

信息资源检索技术现代信息资源检索系统都支持多种检索技术,以满足用户的需求,但各检索系统支持的检索技术不尽相同,而且即使都支持同一种检索技术,所采用的运算符号也不尽相同,在使用检索系统时应先查看检索帮助了解其支持的检索技术和运算符。全文检索技术

建立文中自由词索引的全文检索技术可以实现对数据库中全部字段以及字段中的全部内容进行检索。英文文献的计算机自动分词以词间空格直接抽取,避开禁用词(无检索意义,或作为运算符使用),如有的检索系统规定an、and、by、for、from、of、the、to和with为禁用词。中文文献或采用单汉字切分法,或采用词典标引法,抽取词语列入索引,等等。全文检索技术默认的匹配方式为模糊匹配,即部分包含就算匹配,属于模糊检索方式。1.3.2字段限定检索技术

将检索词限定在字段中的检索技术,能提高查准率,属于精确检索方式。一般可利用表单选择相应字段,也可以使用专业检索式,不同检索系统字段限定符不同。

常见的字段有:TI=篇名;AU=作者;KY=关键词;JN=刊名;AB=文摘;PY=年代;PN=专利号等。例如:TI=信息素质AU=文格波PY=2010CNKI检索字段名称及代码题名TitleTI作者AuthorAU文摘AbstractsAB刊名JournalNameJN关键词KeywordsKY作者单位、机构AuthorAffiliationAF主题T+K+ABSU分类号ClassificationCodeCLC第一作者FirstAuthorFI所有字段、全文FulltextFT

在搜索引擎中,欲在网页标题字段中检索“软件设计”,可表述为:“intitle:软件设计”;

在NSTL检索系统中,欲在文献题名字段中检索“软件设计”,可表述为:“tit=软件设计”;在维普检索系统中,欲在文献题名字段中检索“软件设计”,可表述为:“T=软件设计”;在EngineeringVillage检索系统中,欲在摘要字段中检索“软件设计”,可表述为:“(softwaredesign)WnAB”;欲在作者字段中检索“Smith,Aaron”,可表述为:“(Smith,Aaron)WnAU”。1.3.3词组/短语检索算符用法1、有的外文检索系统中默认用空格代替逻辑“与”运算符,中文检索也会自动分词,造成检索词组被拆分的情况。2、用引号将检索的词组或短语标注起来,计算机就只检索出含有该词组或短语的信息,而不会将词组或短语中的若干个词分开检索。例如,输入带引号的“Chinaculture”,检索结果Chinaculture被作为一个整体,而那些同时有两词但被分开的情况避免了。再如,输入“北京大学”,那些“北京的清华大学”的信息就会排除。注:引号一般是半角状态下的双引号“”,有的检索系统用半角大括号{},请注意查看检索规则。1.3.4精确匹配算符用法在中文检索系统界面中,一般均选择有“模糊/精确”的交替控件,系统默认为模糊检索。1、模糊/精确检索技术第一种含义:NSTL(模糊检索=截词检索):汽车(关键词)——汽车、汽车配件、公交汽车线路;马芳(作者模糊匹配)——马芳、马芳菲、司马芳、司马芳菲NSTL(精确检索=精确匹配):信息素质(题名/模糊检索)——能检索出记录;信息素质(题名/精确检索)——结果为零(论文的题名不会仅仅是“信息素质”四个字。维普:K=柴油机K=[柴油机]1.3.4精确匹配算符用法2、模糊/精确检索技术第二种含义:CNKI(模糊/精确检索相当于词组/短语检索,模糊检索可以将检索词分解为词素,检索出包含检索词或词素的所有记录;)TI%船舶下水——“%”

为模糊算符,“船舶下水”可拆解)CNKI(精确检索则禁止拆分检索词,只能检索出包含检索词的记录。)TI=船舶下水——“=”为精确算符,“船舶下水”不拆解)AANDBAORBANOTB1.3.5逻辑运算算符用法AXORB

布尔逻辑检索:用布尔逻辑运算符把具有简单概念的检索词连接并组配成复杂概念的逻辑概念进行检索的方法,主要有逻辑与、或、非、异或四种。

1.逻辑“与”——AND(*)用于交叉概念和限定关系组配,它可以缩小检索范围提高检准率。

2.逻辑“或”——OR(+)用于并列关系的组配,它可以扩大检索范围,提高检全率。

3.逻辑“非”——NOT(-)用于从原来的检索范围中排除不需要的概念,使检索结果更准确。

4.逻辑“异或”

——XOR,用于在被检字段中或出现前者或出现后者但不同时出现两者的情况,相对于逻辑“或”来说可缩小检索范围,提高检准率。

5.多个逻辑运算符的联合使用1.逻辑“与”逻辑“与”:表示方法—AANDB或A*B

阴影部份为检中文献适用场合—概念间相互交叉限定关系含义、作用缩小检索结果,提高查准率。例如:查找有关“计算机文献检索”的相关文献检索策略:分析:计算机文献检索逻辑关系:逻辑与检索式:文献检索and计算机逻辑“或”:表示方法—AORB或A+B阴影部份为检中文献适用场合—概念间为并列关系(同族词)含义、作用:增加检索结果,提高查全率。例如:查找有关“计算机”的相关文献检索策略:分析:计算机电脑逻辑关系:逻辑或检索式:计算机OR电脑2.逻辑“或”逻辑“非”:表示方法—ANOTB或A–B阴影部份为检中文献适用场合—概念间为排斥关系。含义、作用:排除无关概念,提高查准率。例如:查找有关“硬件”而非“软件”方面相关文献检索策略:分析:硬件软件逻辑关系:逻辑非检索式:硬件NOT软件3.逻辑“非”4.逻辑“异或”逻辑“异或”:表示方法—AXORB阴影部份为检中文献适用场合—概念间为并列关系,且不同时出现含义、作用:相对于逻辑“或”来说是缩小检索结果,提高查准率。例如:查找有关“计算机”的相关文献检索策略:分析:计算机电脑逻辑关系:逻辑或检索式:计算机XOR电脑5.多个逻辑运算符的联合使用1)布尔逻辑的运算按“非(NOT)→与(AND)→或(OR)”的顺序从左至右进行运算,就象数学中的四则运算的“先乘除后加减”一样。

2)在检索表单里按由上至下的顺序进行运算。1、TI=教育艺术ANDKY=物理2、(AU=‘胡’

ORAU=‘李’)andTI=‘图书馆’

andTI=‘信息素质’3、JN=‘南华大学学报’

andAB=‘英语教学’4、中山大学刘祖国教授发表论文被外文数据库收录的情况?PUBMED:LiuZGANDGUANGZHOUORZHEJIANG(×)LiuZGANDGUANGZHOU;LiuZGANDZHEJIANGLiuZGAND(GUANGZHOUORZHEJIANG)=LiuZGANDGUANGZHOUORLiuZGANDZHEJIANG(√)实践与思考优先运算检索技术1、所有检索系统都支持括号优先符的运算。

2、括号是半角状态下的圆括号。

3、当检索式中含有逻辑“或”运算且不知道系统采用哪一种运算顺序时,可以用括号将“或”运算的前后项括起来进行优先运算。例1:检索“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论