版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章数字文献检索根底库2022/12/291第一章数字文献检索根底库2022/12/281第1章数字文献检索根底1.1数字文献及其检索概述1.2数字文献的检索技术1.3数字文献的检索策略1.4检索效果评价2022/12/292第1章数字文献检索根底1.1数字文献及其检索概述201.1数字文献及其检索概述1.1.1文献及数字文献概述1.文献的概念2.文献的类型3.数字文献的概念4.数字文献的特点1.1.2数字文献的检索语言1.数字文献检索2.数字文献检索语言2022/12/2931.1数字文献及其检索概述1.1.1文献及数字文献概述1.文献的概念世界上最早的文献:产生于距今大约10000~40000年前的旧石器时代。最古老的文献:石刻图像、楔形文字文献、纸草文献、克里特线性文字文献、甲骨文献等。文献定义:记录有知识的一切载体。文献构成:由知识、载体和记录方式3个要素构成,知识是内容,载体是形态,记录方式是构成文献的手段,三者不可分割。2022/12/2941.文献的概念世界上最早的文献:产生于距今大约10000~2.文献的类型文献有多种分类方式〔1〕按文献出版形式和内容划分①图书②报刊③科技报告④政府出版物⑤会议文献⑥学位论文⑦专利文献⑧标准文献⑨产品样本⑩其他零散资料〔2〕按文献载体形式划分①印刷型文献②缩微型文献③视听型文献④机读文献〔3〕按文献加工层次分①零次文献②一次文献③二次文献④三次文献2022/12/2952.文献的类型文献有多种分类方式2022/12/2853.数字文献的概念数字文献指以数字形式把文字、图像、声音和动画等多种形式的信息,存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。主要的类型有:按表现形式:数据库、电子图书、电子期刊、电子报纸等按性质和功能:一次数字文献、二次数字文献和三次数字文献按生产途径和发布:商用电子资源、网络公开学术资源和特色资源按生产方式:原生数字文献和复合数字文献按数据传播范围:网络信息资源和单机信息资源按存储介质:磁介质和光介质2022/12/2963.数字文献的概念数字文献指以数字形式把文字、图像、声音和全文数据库1〕数据库,是以一定的组织方式存储在一起的相关数据的集合,是数字文献最早的形式,也是数字文献的主要构成局部,包括全文数据库、文摘/题录数据库和参考数据库等类型。①全文数据库,即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例以及商业信息等为主。如国内著名的全文数据库有中国知网的中国期刊全文数据库、重庆维普的中文科技期刊数据库等;国外有ProQuest系统、EBSCOhost系统以及SpringerLink系统等2022/12/297全文数据库1〕数据库,是以一定的组织方式存储在一起的相关数据文摘/题录数据库是指包含各种数据、信息或知识的原始来源和属性的数据库。它报道文献信息的存在,提醒文献信息的内容。按数据库内容,可划分为书目数据库、文摘数据库和索引〔题录〕数据库。书目数据库主要是针对图书进展内容及存储地址的报道与提醒的,如各图书馆的馆藏机读目录数据库;文摘和索引数据库那么相对期刊论文、会议论文、专利文献和学位论文等进展内容和属性的认识与加工,它提供确定的文献来源信息,供人们查阅和检索。科学引文索引〔SCI〕、社会科学引文索引〔SSCI〕、工程索引〔EI〕和科学技术会议录索引〔ISTP〕是世界上最权威的四大索引,均属文摘/题录数据库。2022/12/298文摘/题录数据库是指包含各种数据、信息或知识的原始来源和属性参考数据库是指包含大量事实、数据,以及其他类型文献信息的数据库,具体有数值数据库、指南数据库、术语数据库、视频数据库、英语学习数据库和考试系统等。数值数据库,指以数值为主要内容的数据库,如统计数据库、化学反响数据库等;指南数据库,是有关机构、人物等相关信息的简要描述,如公司名录、产品目录等;术语数据库,即专门存储名词术语信息、词语信息等的数据库,如电子版百科全书、网络词典等。视频数据库,是指能够以多媒体方式播放的相关信息内容的数据库,如爱迪科森网上报告厅、超星学术视频等;英语学习系统,主要是指以英语学习为主要内容的数据库,如新东方多媒体学习库、冰果英语和EBSCO的学生英语学习中心〔SRC〕等;考试系统是指提供试题和模拟考试的数据库系统,如银符考试系统、起点考试系统等。2022/12/299参考数据库是指包含大量事实、数据,以及其他类型文献信息的数据电子图书、电子期刊和电子报纸电子图书:直接以数字形式出版的图书或印刷型图书的数字化形式,是以电子版的方式〔其载体主要为光盘或网络等〕呈现的,并通过计算机或电子图书阅读器进展阅读的一种电子文献。如国外的NetLibrary、Ebrary;国内的超星电子图书、书生电子图书和方正Apabi电子图书等。电子期刊:是指所有以电子形式存在的期刊,包括印刷型期刊的电子版、无印刷版的网络型电子期刊。与纸本期刊并行的电子期刊,如著名的?科学?〔Science〕、?自然?〔Nature〕、Elsevier/Wiley/Springer/Kluwer等出版商的电子期刊等;纯电子期刊,如?数字图书馆杂志?〔D-LibMagazine〕。电子报纸:指综合运用多媒体技术、网络技术和通信技术,完成出版、发行、利用全过程的新闻媒体。电子报纸的内容可以是文字、表格、彩色图形、图像,甚至是声音、动画等的多媒体信息。2022/12/2910电子图书、电子期刊和电子报纸电子图书:直接以数字形式出版的图4.数字文献的特点1〕高度的共享性。2〕类型的多样性。3〕检索的便利性。4〕信息的时效性。5〕信息的不平安性。2022/12/29114.数字文献的特点1〕高度的共享性。2022/12/2811.1.2数字文献的检索语言1.数字文献检索:是指通过检索系统,采用一定的技术手段,根据一定的原那么,在数据库或其他形式的数字文献中自动找出用户所需相关信息的过程。广义的检索包括信息的存储和检索两个过程,狭义的检索仅包括用户的信息检索过程。在数字文献检索开展过程中,先后经历脱机检索、联机检索、光盘检索和网络检索四个阶段。目前,网络检索已成为广阔用户获取信息的主要方式。2022/12/29121.1.2数字文献的检索语言1.数字文献检索:是指通过检广义的信息检索过程2022/12/2913广义的信息检索过程2022/12/28132.数字文献检索语言检索语言,是信息存储与检索过程中用于描述文献特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。
文献具有外部特征和内容特征。外部特征有题名〔书名、篇名和刊名〕、著者〔个人、团体〕、号码〔专利号、标准号、国际标准书号ISBN和国际标准刊号ISSN等〕、机构名〔责任者所属机构、出版发表机构〕以及时间等;内部特征指文献内容所属的学科和文献内容的研究对象。2022/12/29142.数字文献检索语言检索语言,是信息存储与检索过程中用于描述文献检索语言与检索途径关系2022/12/2915文献检索语言与检索途径关系2022/12/2815?中图法?构造2022/12/2916?中图法?构造2022/12/2816TB一般工业技术TD矿业工程TE石油、天然气工业TF冶金工业TG金属学与金属工艺TH机械、仪表工业TJ武器工业TK能源与动力工程TL原子能技术TM电工技术TN无线电电子学、电信技术TP自动化技术、计算机技术TQ化学工业TS轻工业、手工业TU建筑科学TV水利工程工业技术所含学科较多,其下位类用二个大写英文字母表示2022/12/2917TB一般工业技术工业技术所含学科较多,其下位类用二个大写
H31英语
H32/H37各种常用外国语均可仿H31分
H32法语
H33德语
H34西班牙语
H35俄语
H36日语
H37阿拉伯语H3常用外国语2022/12/2918H31英语H3常用外国语2022/12/2818H311语音H311.9朗读法、演讲术H312文字H313语义、词汇、词义H313.1根本词汇H313.2同义词、多义词、反义词H313.3熟语、俗语H313.5外来语H313.6略语H313.9词源H314语法H314.1构词法H314.2词类H314.3句法H315写作、修辞H315.9翻译H316词典H317方言H319语文教学H31英语2022/12/2919H311语音H31英语2022/12/2819H319.1教学改革H319.2教学方案、教学大纲H319.3教学法英语学习方法入此。仿H193分H319.4读物以提高阅读能力为目的各科简易读物、对照读物、注释读物入此。H319.6习题、试题H319.9会话口语、会话教材、听说读练习、视听教学入此H319语文教学2022/12/2920H319.1教学改革H319语文教学2022/12R1预防医学、卫生学R2中国医学R3根底医学R4临床医学R5内科学R6外科学R71妇产科学R72儿科学R73肿瘤科学R74神经病学与精神病学R75皮肤病学与性病学R76耳鼻咽喉科学R77眼科学R78口腔科学R79外国民族科学R8特种医学R9药学R医药、卫生2022/12/2921R1预防医学、卫生学R医药、卫生2022/12/28R2中国医学R21中医预防、卫生学R22中医根底理论R24中医临床学R25中医内科R26中医外科R271中医妇产科R272中医儿科R273中医肿瘤科R274中医骨伤科R275中医皮科R276中医五官科R277中医其他学科R278中医急症学R28中药学R29中国少数民族医学2022/12/2922R2中国医学R21中医预防、卫生学2022R3根底医学
R31医用一般科学
R32人体形态学
R33人体生理学
[R34]人体生物化学、分子生物学
[R35]人体生物物理学
R36病理学
R38医学寄生虫学
R392医学免疫学
R394医学遗传学
R395医学心理学、病理心理学2022/12/2923R3根底医学R31医用一般科学2022/1R4临床医学R44诊断学R45治疗学R47护理学R48临终关心学R49康复医学2022/12/2924R4临床医学R44诊断学2022/12/21.2数字文献的检索技术1.2.1布尔逻辑检索技术1.2.2截词检索技术1.2.3位置检索技术1.2.4字段检索技术2022/12/29251.2数字文献的检索技术1.2.1布尔逻辑检索技术1.2.1布尔逻辑检索技术检索词:是单字匹配?还是词组匹配?或者是句子匹配?举例:?私营企业人力资源研究?如何检索?布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法主要的布尔逻辑关系词有:逻辑与(AND)、逻辑或〔OR〕、逻辑非〔NOT〕2022/12/29261.2.1布尔逻辑检索技术检索词:是单字匹配?还是词组匹逻辑与逻辑与也称逻辑乘:使用符号“and〞或“*〞表示所连接的两个检索词必须同时出现在结果中才满足检索条件。检索式可表达为:AandB或A*B。如“图书馆and效劳〞,要求结果必须同时包含“图书馆〞和“效劳〞。使用“逻辑与〞技术,可以增加限制条件,缩小检索范围,增强检索的专指性,提高信息检索的查准率。检索式中,逻辑与连接的检索词越多,检索结果就越少。2022/12/2927逻辑与逻辑与也称逻辑乘:使用符号“and〞或“*〞20逻辑或逻辑或也称逻辑和:使用符号“or〞或“+〞表示所连接的两个检索词中任意一个出现在结果中就满足检索条件。检索式可表达为:AorB或A+B如“文献or知识〞,要求结果包含“文献〞或包含“知识〞或同时包含“文献〞和“知识〞。使用“逻辑或〞技术,常用于连接同义词、相关词等,可以扩大检索范围,防止漏检,提高信息检索的查全率。2022/12/2928逻辑或逻辑或也称逻辑和:使用符号“or〞或“+〞2022/1逻辑非逻辑非也称逻辑差:使用符号“not〞或“-〞表示所连接的两个检索词中应从第一个概念中排除第二个概念。检索式可表达为:AnotB或A-B如“文献not图书〞,要求结果必须包含“文献〞但不包含“图书〞。使用“逻辑非〞技术,可以剔除不需要的概念,缩小检索范围,提高信息检索的查准率;但这种方式也会排除掉相关信息,影响检索信息的查全率。2022/12/2929逻辑非逻辑非也称逻辑差:使用符号“not〞或“-〞2022/举例例如检索:“打印机驱动程序〞查询关键词:打印机、驱动程序检索表达式:打印机*驱动程序例如检索:“微型计算机〞方面的有关信息查询关键词:微型计算机、微机检索表达式:微型计算机+微机2022/12/2930举例例如检索:“打印机驱动程序〞2022/12/2830举例例:检索“唐宋诗歌〞的有关信息关键词:唐、宋、诗歌;检索表达式:〔唐+宋〕*诗歌;唐*诗歌+宋*诗歌;错误表达式:唐+宋*诗歌;唐*宋*诗歌;唐+宋+诗歌;唐*宋+诗歌;2022/12/2931举例例:检索“唐宋诗歌〞的有关信息2022/12/2831注意布尔逻辑检索技术应用非常广泛,但在实现方式上有所差异,即所使用的逻辑符号可能是不同的。一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。一些搜索引擎甚至用“︺、,、-〞〔即空格、逗号、减号〕来表示。一般情况下请按以下规那么使用逻辑符号,但并非所有数据库和搜索引擎都是如此,具体请参考所用数字资源。中文数据库用:*+-andornot西文数据库用:andornot搜索引擎用:︺,-2022/12/2932注意布尔逻辑检索技术应用非常广泛,但在实现方式上有所差异1.2.2截词检索技术主要应用于西文数字资源的检索定义:是指在检索式中用专门的符号〔截词符号〕表示检索词的某一局部允许有一定的词形变化。原因:在检索中,常会遇到一些词干一样、词义相近的检索词或有英、美不同拼写法的词。作用:为使检索时不遗漏相关词,扩大检索范围,提高查全率,常使用截词检索。截词符一般用“?〞、“*〞、“$〞和“!〞等,不同的系统,不同的数据库,其代表的含义可能有所不同。截词方式根据截词的位置不同,分为前截断、后截断、前后截断和中截断;根据截断的数量不同,分为有限截断和无限截断。2022/12/29331.2.2截词检索技术主要应用于西文数字资源的检索202截词位置前截断〔左截断、前方一致〕:允许检索词前有假设干变化。如*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。后截断〔右截断、前方一致〕:允许检索词尾有假设干变化。如comput*将检索出computer、computing、computerised、computerized、computerization等结果。前后截断〔中间一致〕:词干的前后各有一个截词符,允许检索词的前端和尾部各有假设干变化形式。如*computer*可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。中间截断〔前后一致〕:允许检索词中间有假设干变化。例如wom*n可检索出woman、women。英美的不同拼法,defen*e可检索出defence、和defense的结果。2022/12/2934截词位置前截断〔左截断、前方一致〕:允许检索词前有假设干变化请注意在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?〞,有的用“*〞,有的用“#〞,用的用“$〞等。即便常用的“?〞和“*〞在不同的数据库中其用法也是不一定一样的。在允许截词的检索工具中,一般是指后截断,局部支持中间截断,左截断比较少见。我们将要使用的一些数据库,一般用“?〞代表一个字符,用“*〞代表任意一个字符串。2022/12/2935请注意在不同的数据库和联机检索系统中,所使用的截词符号没1.2.3邻近检索技术
邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。例如检索“生物防治〞的文献,假设用检索式:“biologicalandcontrol〞检索,那么会将“抑制生物〞“controlbiological〞的文献也查出来,这显然不是所需文献。主要有相邻位置算符〔W〕、〔nW〕、〔N〕,〔nN〕2022/12/29361.2.3邻近检索技术邻近检索又称位置检索,主要是通过检1.〔W〕算符〔W〕算符:表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。如biological(W)control相当于检索biologicalcontrolCD(W)ROM相当于检索CDROM或CD-ROM。2022/12/29371.〔W〕算符〔W〕算符:表示此算符两侧的检索词2.(nW)算符(nW)算符:(nW)是nwords的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变。如wear(1W)material相当于检索wearmaterials、wearofmaterials等词。2022/12/29382.(nW)算符(nW)算符:(nW)是3.〔N〕和〔nN〕算符〔N〕是near的缩写,表示此算符两侧的检索词必须严密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。〔nN〕表示两词间可插入最多n个词,词序可变,如检索式environment(2N)protection就可检索出包含“environmentprotection〞、“environmentoftheprotection〞、“environmentofwaterprotection〞、“protectionofforestenvironment〞等内容的结果Information〔1N〕retrieval可检出:informationretrievalretrivealofinformation2022/12/29393.〔N〕和〔nN〕算符〔N〕是near的缩写,表示此算符请注意
邻近检索对提高检索的查全率和查准率有重要作用。不同的系统,不同的数据库,截词符号虽然含义一样,但形式可能有所不同。①有的可能有括号,有的可能没有。②小写n有时在大写的W、N前面,有时在大写的W、N后面。③常见的形式有:〔W〕、W、〔〕;〔N〕、N;〔nW〕、nW、〔Wn〕、Wn;〔nN〕、nN、〔Nn〕、Nn;2022/12/2940请注意邻近检索对提高检索的查全率和查准率有重要作用。21.2.4字段检索技术字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进展查找。根本检索字段及代码主要有:如题名〔TI〕、主题词/叙词〔DE〕、文摘〔AB〕和ID〔标识词〕等,适用于所有数据库。一般根本检索字段放在检索词〔或检索式〕后,用“/〞、“:〞或“in〞等连接。辅助检索字段及代码主要有:作者〔AU〕、语种〔LA〕、刊名〔JN〕、来源出版物〔SO〕、出版年代〔PY〕和文献类型〔DT〕等。辅助检索字段放在检索词〔或检索式〕前,用“=〞、“>=〞、“<=〞、“>〞或“<〞等连接。注意:不同的数据库其字段代码可能不同。2022/12/29411.2.4字段检索技术字段检索是限定检索词在记录中出现的字字段代码表西文数据库常用字段字段代码中文数据库常用字段AbstractsAB文摘、摘要Author/CorporateSourceAU/CS作者、著者/机构Descriptor、Subject、TopicDE、SU、TO叙词/主题词DocumentType、PublicationTypeDT、PT文献类型、出版物类型Full-textFT全文ISBN、ISSNBN、SN国际标准书号、刊号JournalNameJN刊名KeywordKW、KY关键词LanguageLA语种PublicationYearPY出版年SourceSO来源TitleTI题名、标题2022/12/2942字段代码表西文数据库常用字段字段代码中文数据库常用字段Abs1.3数字文献的检索策略检索策略就是在分析信息需求内容实质的根底上,为实现检索目标而制定的一个合理的检索方案。1.3.1信息需求分析1.3.2数据库的选择1.3.3检索词确实定1.3.4检索表达式的构造2022/12/29431.3数字文献的检索策略检索策略就是在分析信息需求内容1.3.1信息需求分析1.明确检索目的2.分析所需信息学科属性和主题概念3.确定检索的信息类型和时间范围2022/12/29441.3.1信息需求分析1.明确检索目的2022/12/21.3.2数据库的选择数据库选择要考虑所选择数据库是否与信息需求结合严密、学科专业对口、覆盖信息面广、报道及时、提醒信息内容准确以及检索功能是否完善等问题。具体选择数据库可借鉴国外称之为“4C〞的原那么:①内容〔Content〕。②范围〔Coverago〕。③时效〔Currency〕。④费用〔Cost〕,了解所选数据库的收费标准。2022/12/29451.3.2数据库的选择数据库选择要考虑所选择数据库是否与1.3.3检索词确实定确定检索词要考虑满足课题检索要求和数据库输入词的要求,检索词选择得恰当与否,会直接影响检索效果。检索词可分为四类:一是表示主题的检索词,如标题词、单元词、叙词或关键词。二是表示作者的检索词,如作者姓名、机构名等。三是表示分类的检索词,如分类号等。四是表示特殊意义的检索词。如专利号、ISBN号、ISSN号或分子式等。检索词的选择与确定需要遵循以下两个原那么。第一,根据检索课题所涉及的学科内容选词。第二,对检索词进展处理。2022/12/29461.3.3检索词确实定确定检索词要考虑满足课题检索要求和1.3.4检索表达式的构造检索表达式是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种检索算符组配构成,确定检索词之间的概念关系和位置关系,准确表达课题需求的内容。检索表达式需要能够完整而准确地反映用户需求的主题内容,适应所查数据库的索引体系和检索用词规那么,同时必须符合检索系统的概念及限制条件的规定。在检索式的构造中,检索算符主要包括前面提到过的布尔逻辑算符、截词算符、位置算符、字段算符以及括号等。不同的数据库往往采用不同的符号或文字来描述词与词之间的组配关系。2022/12/29471.3.4检索表达式的构造检索表达式是检索策略的逻辑表达1.4检索效果评价1.4.1概述1.4.2查全率1.4.3查准率2022/12/29481.4检索效果评价1.4.1概述2022/12/1.4.1概述一个理想的检索系统,应该是用户需要什么信息,它就能向用户提供什么信息;用户需要多少信息,它就能提供多少信息;其检索结果不多也不少,而又使用方便,反响信息的速度也很快。但是,目前实现这样的检索系统还存在许多困难。实际上,检索效果就是看检索出的相关文献或信息有多少。不同的检索系统,其检索效果是不一样的。同样的检索系统,如果具有不同的检索能力,其检索效果也是不一样的。对检索效果进展评价,就能为改善检索系统性能提供明确的参考依据,进而更有效地满足用户的信息需求。对检索系统进展评价时,其判定检索效果的主要指标是查全率和查准率。2022/12/29491.4.1概述一个理想的检索系统,应该是用户需要什么信息1.4.2查全率查全率,是指检索系统检出的与某课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比。当进展检索时,检索系统把文献分成两局部,一局部是与检索策略相匹配的文献,并被检索出来,用户根据自己的判断将其分成相关的文献a和不相关的文献b;另一局部是未能与检索策略相匹配的文献,根据判断也可将其分成相关文献〔遗漏〕c和不相关文献〔正确地拒绝〕d。一般情况下,检索出来的文献数量为〔a+b〕,相对整个系统的规模来说,是很小的,而未被检出的文献〔c+d〕的数量那么非常大。查全率=〔检出的相关文献数/系统中相关文献总量〕×100%=×100%2022/12/29501.4.2查全率查全率,是指检索系统检出的与某课题相关的提高查全率的根本方法1〕扩大检索课题的目标,使用主要概念,排除次要概念。2〕降低检索词的专指度。可以从词表或检出文献中选一些上位词或相关词补充到检索式。例如用“清洁能源〞替代“风能〞、“核能〞和“太阳能〞等。3〕跨库检索。例如使用国家科技图书文献中心的数据库或google来实现对不同类型文献的一次性检索。4〕逐步扩大检索途径的检索范围。例如使用?中文科技期刊数据库?逐步提高查全率的字段依次是“T=题名〞→“K=关键词〞→“R=文摘〞→“U=任意字段〞。5〕取消限定条件。例如防止使用某些检索途径,如信息类型、语种、地理范围和年代范围。6〕西文检索尽量使用截词检索技术,如librar*。7〕扩大算符的检索范围,逐步提高查全率的算符依次是:〔W〕→〔N〕→〔S〕→〔F〕→〔L〕→〔NOT〕→〔AND〕→〔OR〕。2022/12/2951提高查全率的根本方法1〕扩大检索课题的目标,使用主要概念,1.4.3查准率是指检索系统检出的与某课题相关的文献信息数量与检出的文献信息总量之比。当进展检索时,检索系统把文献分成两局部,其中一局部是与检索策略相匹配的文献,并被检索出来,用户根据自己的判断将其分成相关文献a和不相关文献b,查准率=〔检出的相关文献数/检出的文献总数〕×100%=×100%2022/12/29521.4.3查准率是指检索系统检出的与某课题相关的文献信息提高查准率的方法1〕准确确定检索课题的目标,使用专业词汇。2〕提高检索词的专指度,增加或换用下位词和专指度较强的自由词。3〕选择专业性检索工具,例如使用产品数据库、特种搜索引擎。4〕逐步缩小检索途径的检索范围。例如使用?中文科技期刊数据库?,逐步提高查准率的字段依次是“U=任意字段〞→“R=文摘〞→“K=关键词〞→“T=题名〞。该数据库还能限定期刊范围:全部期刊-重要期刊-核心期刊。5〕用不太常用的检索途径。例如信息类型、语种、地理范围、年代范围、作者或号码作为限定条件。6〕缩小算符的检索范围。逐步提高查准率的算符与逐步提高查全率的算符顺序刚好相反。2022/12/2953提高查准率的方法1〕准确确定检索课题的目标,使用专业词汇。第一章数字文献检索根底库2022/12/2954第一章数字文献检索根底库2022/12/281第1章数字文献检索根底1.1数字文献及其检索概述1.2数字文献的检索技术1.3数字文献的检索策略1.4检索效果评价2022/12/2955第1章数字文献检索根底1.1数字文献及其检索概述201.1数字文献及其检索概述1.1.1文献及数字文献概述1.文献的概念2.文献的类型3.数字文献的概念4.数字文献的特点1.1.2数字文献的检索语言1.数字文献检索2.数字文献检索语言2022/12/29561.1数字文献及其检索概述1.1.1文献及数字文献概述1.文献的概念世界上最早的文献:产生于距今大约10000~40000年前的旧石器时代。最古老的文献:石刻图像、楔形文字文献、纸草文献、克里特线性文字文献、甲骨文献等。文献定义:记录有知识的一切载体。文献构成:由知识、载体和记录方式3个要素构成,知识是内容,载体是形态,记录方式是构成文献的手段,三者不可分割。2022/12/29571.文献的概念世界上最早的文献:产生于距今大约10000~2.文献的类型文献有多种分类方式〔1〕按文献出版形式和内容划分①图书②报刊③科技报告④政府出版物⑤会议文献⑥学位论文⑦专利文献⑧标准文献⑨产品样本⑩其他零散资料〔2〕按文献载体形式划分①印刷型文献②缩微型文献③视听型文献④机读文献〔3〕按文献加工层次分①零次文献②一次文献③二次文献④三次文献2022/12/29582.文献的类型文献有多种分类方式2022/12/2853.数字文献的概念数字文献指以数字形式把文字、图像、声音和动画等多种形式的信息,存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。主要的类型有:按表现形式:数据库、电子图书、电子期刊、电子报纸等按性质和功能:一次数字文献、二次数字文献和三次数字文献按生产途径和发布:商用电子资源、网络公开学术资源和特色资源按生产方式:原生数字文献和复合数字文献按数据传播范围:网络信息资源和单机信息资源按存储介质:磁介质和光介质2022/12/29593.数字文献的概念数字文献指以数字形式把文字、图像、声音和全文数据库1〕数据库,是以一定的组织方式存储在一起的相关数据的集合,是数字文献最早的形式,也是数字文献的主要构成局部,包括全文数据库、文摘/题录数据库和参考数据库等类型。①全文数据库,即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例以及商业信息等为主。如国内著名的全文数据库有中国知网的中国期刊全文数据库、重庆维普的中文科技期刊数据库等;国外有ProQuest系统、EBSCOhost系统以及SpringerLink系统等2022/12/2960全文数据库1〕数据库,是以一定的组织方式存储在一起的相关数据文摘/题录数据库是指包含各种数据、信息或知识的原始来源和属性的数据库。它报道文献信息的存在,提醒文献信息的内容。按数据库内容,可划分为书目数据库、文摘数据库和索引〔题录〕数据库。书目数据库主要是针对图书进展内容及存储地址的报道与提醒的,如各图书馆的馆藏机读目录数据库;文摘和索引数据库那么相对期刊论文、会议论文、专利文献和学位论文等进展内容和属性的认识与加工,它提供确定的文献来源信息,供人们查阅和检索。科学引文索引〔SCI〕、社会科学引文索引〔SSCI〕、工程索引〔EI〕和科学技术会议录索引〔ISTP〕是世界上最权威的四大索引,均属文摘/题录数据库。2022/12/2961文摘/题录数据库是指包含各种数据、信息或知识的原始来源和属性参考数据库是指包含大量事实、数据,以及其他类型文献信息的数据库,具体有数值数据库、指南数据库、术语数据库、视频数据库、英语学习数据库和考试系统等。数值数据库,指以数值为主要内容的数据库,如统计数据库、化学反响数据库等;指南数据库,是有关机构、人物等相关信息的简要描述,如公司名录、产品目录等;术语数据库,即专门存储名词术语信息、词语信息等的数据库,如电子版百科全书、网络词典等。视频数据库,是指能够以多媒体方式播放的相关信息内容的数据库,如爱迪科森网上报告厅、超星学术视频等;英语学习系统,主要是指以英语学习为主要内容的数据库,如新东方多媒体学习库、冰果英语和EBSCO的学生英语学习中心〔SRC〕等;考试系统是指提供试题和模拟考试的数据库系统,如银符考试系统、起点考试系统等。2022/12/2962参考数据库是指包含大量事实、数据,以及其他类型文献信息的数据电子图书、电子期刊和电子报纸电子图书:直接以数字形式出版的图书或印刷型图书的数字化形式,是以电子版的方式〔其载体主要为光盘或网络等〕呈现的,并通过计算机或电子图书阅读器进展阅读的一种电子文献。如国外的NetLibrary、Ebrary;国内的超星电子图书、书生电子图书和方正Apabi电子图书等。电子期刊:是指所有以电子形式存在的期刊,包括印刷型期刊的电子版、无印刷版的网络型电子期刊。与纸本期刊并行的电子期刊,如著名的?科学?〔Science〕、?自然?〔Nature〕、Elsevier/Wiley/Springer/Kluwer等出版商的电子期刊等;纯电子期刊,如?数字图书馆杂志?〔D-LibMagazine〕。电子报纸:指综合运用多媒体技术、网络技术和通信技术,完成出版、发行、利用全过程的新闻媒体。电子报纸的内容可以是文字、表格、彩色图形、图像,甚至是声音、动画等的多媒体信息。2022/12/2963电子图书、电子期刊和电子报纸电子图书:直接以数字形式出版的图4.数字文献的特点1〕高度的共享性。2〕类型的多样性。3〕检索的便利性。4〕信息的时效性。5〕信息的不平安性。2022/12/29644.数字文献的特点1〕高度的共享性。2022/12/2811.1.2数字文献的检索语言1.数字文献检索:是指通过检索系统,采用一定的技术手段,根据一定的原那么,在数据库或其他形式的数字文献中自动找出用户所需相关信息的过程。广义的检索包括信息的存储和检索两个过程,狭义的检索仅包括用户的信息检索过程。在数字文献检索开展过程中,先后经历脱机检索、联机检索、光盘检索和网络检索四个阶段。目前,网络检索已成为广阔用户获取信息的主要方式。2022/12/29651.1.2数字文献的检索语言1.数字文献检索:是指通过检广义的信息检索过程2022/12/2966广义的信息检索过程2022/12/28132.数字文献检索语言检索语言,是信息存储与检索过程中用于描述文献特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。
文献具有外部特征和内容特征。外部特征有题名〔书名、篇名和刊名〕、著者〔个人、团体〕、号码〔专利号、标准号、国际标准书号ISBN和国际标准刊号ISSN等〕、机构名〔责任者所属机构、出版发表机构〕以及时间等;内部特征指文献内容所属的学科和文献内容的研究对象。2022/12/29672.数字文献检索语言检索语言,是信息存储与检索过程中用于描述文献检索语言与检索途径关系2022/12/2968文献检索语言与检索途径关系2022/12/2815?中图法?构造2022/12/2969?中图法?构造2022/12/2816TB一般工业技术TD矿业工程TE石油、天然气工业TF冶金工业TG金属学与金属工艺TH机械、仪表工业TJ武器工业TK能源与动力工程TL原子能技术TM电工技术TN无线电电子学、电信技术TP自动化技术、计算机技术TQ化学工业TS轻工业、手工业TU建筑科学TV水利工程工业技术所含学科较多,其下位类用二个大写英文字母表示2022/12/2970TB一般工业技术工业技术所含学科较多,其下位类用二个大写
H31英语
H32/H37各种常用外国语均可仿H31分
H32法语
H33德语
H34西班牙语
H35俄语
H36日语
H37阿拉伯语H3常用外国语2022/12/2971H31英语H3常用外国语2022/12/2818H311语音H311.9朗读法、演讲术H312文字H313语义、词汇、词义H313.1根本词汇H313.2同义词、多义词、反义词H313.3熟语、俗语H313.5外来语H313.6略语H313.9词源H314语法H314.1构词法H314.2词类H314.3句法H315写作、修辞H315.9翻译H316词典H317方言H319语文教学H31英语2022/12/2972H311语音H31英语2022/12/2819H319.1教学改革H319.2教学方案、教学大纲H319.3教学法英语学习方法入此。仿H193分H319.4读物以提高阅读能力为目的各科简易读物、对照读物、注释读物入此。H319.6习题、试题H319.9会话口语、会话教材、听说读练习、视听教学入此H319语文教学2022/12/2973H319.1教学改革H319语文教学2022/12R1预防医学、卫生学R2中国医学R3根底医学R4临床医学R5内科学R6外科学R71妇产科学R72儿科学R73肿瘤科学R74神经病学与精神病学R75皮肤病学与性病学R76耳鼻咽喉科学R77眼科学R78口腔科学R79外国民族科学R8特种医学R9药学R医药、卫生2022/12/2974R1预防医学、卫生学R医药、卫生2022/12/28R2中国医学R21中医预防、卫生学R22中医根底理论R24中医临床学R25中医内科R26中医外科R271中医妇产科R272中医儿科R273中医肿瘤科R274中医骨伤科R275中医皮科R276中医五官科R277中医其他学科R278中医急症学R28中药学R29中国少数民族医学2022/12/2975R2中国医学R21中医预防、卫生学2022R3根底医学
R31医用一般科学
R32人体形态学
R33人体生理学
[R34]人体生物化学、分子生物学
[R35]人体生物物理学
R36病理学
R38医学寄生虫学
R392医学免疫学
R394医学遗传学
R395医学心理学、病理心理学2022/12/2976R3根底医学R31医用一般科学2022/1R4临床医学R44诊断学R45治疗学R47护理学R48临终关心学R49康复医学2022/12/2977R4临床医学R44诊断学2022/12/21.2数字文献的检索技术1.2.1布尔逻辑检索技术1.2.2截词检索技术1.2.3位置检索技术1.2.4字段检索技术2022/12/29781.2数字文献的检索技术1.2.1布尔逻辑检索技术1.2.1布尔逻辑检索技术检索词:是单字匹配?还是词组匹配?或者是句子匹配?举例:?私营企业人力资源研究?如何检索?布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法主要的布尔逻辑关系词有:逻辑与(AND)、逻辑或〔OR〕、逻辑非〔NOT〕2022/12/29791.2.1布尔逻辑检索技术检索词:是单字匹配?还是词组匹逻辑与逻辑与也称逻辑乘:使用符号“and〞或“*〞表示所连接的两个检索词必须同时出现在结果中才满足检索条件。检索式可表达为:AandB或A*B。如“图书馆and效劳〞,要求结果必须同时包含“图书馆〞和“效劳〞。使用“逻辑与〞技术,可以增加限制条件,缩小检索范围,增强检索的专指性,提高信息检索的查准率。检索式中,逻辑与连接的检索词越多,检索结果就越少。2022/12/2980逻辑与逻辑与也称逻辑乘:使用符号“and〞或“*〞20逻辑或逻辑或也称逻辑和:使用符号“or〞或“+〞表示所连接的两个检索词中任意一个出现在结果中就满足检索条件。检索式可表达为:AorB或A+B如“文献or知识〞,要求结果包含“文献〞或包含“知识〞或同时包含“文献〞和“知识〞。使用“逻辑或〞技术,常用于连接同义词、相关词等,可以扩大检索范围,防止漏检,提高信息检索的查全率。2022/12/2981逻辑或逻辑或也称逻辑和:使用符号“or〞或“+〞2022/1逻辑非逻辑非也称逻辑差:使用符号“not〞或“-〞表示所连接的两个检索词中应从第一个概念中排除第二个概念。检索式可表达为:AnotB或A-B如“文献not图书〞,要求结果必须包含“文献〞但不包含“图书〞。使用“逻辑非〞技术,可以剔除不需要的概念,缩小检索范围,提高信息检索的查准率;但这种方式也会排除掉相关信息,影响检索信息的查全率。2022/12/2982逻辑非逻辑非也称逻辑差:使用符号“not〞或“-〞2022/举例例如检索:“打印机驱动程序〞查询关键词:打印机、驱动程序检索表达式:打印机*驱动程序例如检索:“微型计算机〞方面的有关信息查询关键词:微型计算机、微机检索表达式:微型计算机+微机2022/12/2983举例例如检索:“打印机驱动程序〞2022/12/2830举例例:检索“唐宋诗歌〞的有关信息关键词:唐、宋、诗歌;检索表达式:〔唐+宋〕*诗歌;唐*诗歌+宋*诗歌;错误表达式:唐+宋*诗歌;唐*宋*诗歌;唐+宋+诗歌;唐*宋+诗歌;2022/12/2984举例例:检索“唐宋诗歌〞的有关信息2022/12/2831注意布尔逻辑检索技术应用非常广泛,但在实现方式上有所差异,即所使用的逻辑符号可能是不同的。一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。一些搜索引擎甚至用“︺、,、-〞〔即空格、逗号、减号〕来表示。一般情况下请按以下规那么使用逻辑符号,但并非所有数据库和搜索引擎都是如此,具体请参考所用数字资源。中文数据库用:*+-andornot西文数据库用:andornot搜索引擎用:︺,-2022/12/2985注意布尔逻辑检索技术应用非常广泛,但在实现方式上有所差异1.2.2截词检索技术主要应用于西文数字资源的检索定义:是指在检索式中用专门的符号〔截词符号〕表示检索词的某一局部允许有一定的词形变化。原因:在检索中,常会遇到一些词干一样、词义相近的检索词或有英、美不同拼写法的词。作用:为使检索时不遗漏相关词,扩大检索范围,提高查全率,常使用截词检索。截词符一般用“?〞、“*〞、“$〞和“!〞等,不同的系统,不同的数据库,其代表的含义可能有所不同。截词方式根据截词的位置不同,分为前截断、后截断、前后截断和中截断;根据截断的数量不同,分为有限截断和无限截断。2022/12/29861.2.2截词检索技术主要应用于西文数字资源的检索202截词位置前截断〔左截断、前方一致〕:允许检索词前有假设干变化。如*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。后截断〔右截断、前方一致〕:允许检索词尾有假设干变化。如comput*将检索出computer、computing、computerised、computerized、computerization等结果。前后截断〔中间一致〕:词干的前后各有一个截词符,允许检索词的前端和尾部各有假设干变化形式。如*computer*可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。中间截断〔前后一致〕:允许检索词中间有假设干变化。例如wom*n可检索出woman、women。英美的不同拼法,defen*e可检索出defence、和defense的结果。2022/12/2987截词位置前截断〔左截断、前方一致〕:允许检索词前有假设干变化请注意在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?〞,有的用“*〞,有的用“#〞,用的用“$〞等。即便常用的“?〞和“*〞在不同的数据库中其用法也是不一定一样的。在允许截词的检索工具中,一般是指后截断,局部支持中间截断,左截断比较少见。我们将要使用的一些数据库,一般用“?〞代表一个字符,用“*〞代表任意一个字符串。2022/12/2988请注意在不同的数据库和联机检索系统中,所使用的截词符号没1.2.3邻近检索技术
邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。例如检索“生物防治〞的文献,假设用检索式:“biologicalandcontrol〞检索,那么会将“抑制生物〞“controlbiological〞的文献也查出来,这显然不是所需文献。主要有相邻位置算符〔W〕、〔nW〕、〔N〕,〔nN〕2022/12/29891.2.3邻近检索技术邻近检索又称位置检索,主要是通过检1.〔W〕算符〔W〕算符:表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。如biological(W)control相当于检索biologicalcontrolCD(W)ROM相当于检索CDROM或CD-ROM。2022/12/29901.〔W〕算符〔W〕算符:表示此算符两侧的检索词2.(nW)算符(nW)算符:(nW)是nwords的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变。如wear(1W)material相当于检索wearmaterials、wearofmaterials等词。2022/12/29912.(nW)算符(nW)算符:(nW)是3.〔N〕和〔nN〕算符〔N〕是near的缩写,表示此算符两侧的检索词必须严密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。〔nN〕表示两词间可插入最多n个词,词序可变,如检索式environment(2N)protection就可检索出包含“environmentprotection〞、“environmentoftheprotection〞、“environmentofwaterprotection〞、“protectionofforestenvironment〞等内容的结果Information〔1N〕retrieval可检出:informationretrievalretrivealofinformation2022/12/29923.〔N〕和〔nN〕算符〔N〕是near的缩写,表示此算符请注意
邻近检索对提高检索的查全率和查准率有重要作用。不同的系统,不同的数据库,截词符号虽然含义一样,但形式可能有所不同。①有的可能有括号,有的可能没有。②小写n有时在大写的W、N前面,有时在大写的W、N后面。③常见的形式有:〔W〕、W、〔〕;〔N〕、N;〔nW〕、nW、〔Wn〕、Wn;〔nN〕、nN、〔Nn〕、Nn;2022/12/2993请注意邻近检索对提高检索的查全率和查准率有重要作用。21.2.4字段检索技术字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进展查找。根本检索字段及代码主要有:如题名〔TI〕、主题词/叙词〔DE〕、文摘〔AB〕和ID〔标识词〕等,适用于所有数据库。一般根本检索字段放在检索词〔或检索式〕后,用“/〞、“:〞或“in〞等连接。辅助检索字段及代码主要有:作者〔AU〕、语种〔LA〕、刊名〔JN〕、来源出版物〔SO〕、出版年代〔PY〕和文献类型〔DT〕等。辅助检索字段放在检索词〔或检索式〕前,用“=〞、“>=〞、“<=〞、“>〞或“<〞等连接。注意:不同的数据库其字段代码可能不同。2022/12/29941.2.4字段检索技术字段检索是限定检索词在记录中出现的字字段代码表西文数据库常用字段字段代码中文数据库常用字段AbstractsAB文摘、摘要Author/CorporateSourceAU/CS作者、著者/机构Descriptor、Subject、TopicDE、SU、TO叙词/主题词DocumentType、PublicationTypeDT、PT文献类型、出版物类型Full-textFT全文ISBN、ISSNBN、SN国际标准书号、刊号JournalNameJN刊名KeywordKW、KY关键词LanguageLA语种PublicationYearPY出版年SourceSO来源TitleTI题名、标题2022/12/2995字段代码表西文数据库常用字段字段代码中文数据库常用字段Abs1.3数字文献的检索策略检索策略就是在分析信息需求内容实质的根底上,为实现检索目标而制定的一个合理的检索方案。1.3.1信息需求分析1.3.2数据库的选择1.3.3检索词确实定1.3.4检索表达式的构造2022/12/29961.3数字文献的检索策略检索策略就是在分析信息需求内容1.3.1信息需求分析1.明确检索目的2.分析所需信息学科属性和主题概念3.确定检索的信息类型和时间范围202
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 授权签约营销方案范文(3篇)
- 施工方案的设计要求(3篇)
- 椰子茶饮营销方案(3篇)
- 水箱外加固施工方案(3篇)
- 活动策划方案服装要求(3篇)
- 游艺城的营销方案(3篇)
- 环境应急预案整改报告(3篇)
- 福州应急预案招标公示(3篇)
- 红包全套活动策划方案(3篇)
- 视频首映活动策划方案(3篇)
- 2026江苏扬州市宝应城市发展控股有限公司招聘9人笔试参考题库及答案解析
- 2025年入团考试题及答案
- 新生儿科亚低温治疗新生儿缺氧缺血性脑病学习培训课件
- (正式版)HGT 2782-2024 化工催化剂颗粒抗压碎力的测定
- 产品经理技术知识
- 海南省2023年小升初语文试卷及答案汇总一
- 透过地理看历史
- 2019电力建设施工质量验收规程第6部分:调整试验
- 【地理】2023年高考真题江苏卷(解析版)
- 第五版-FMEA-新版FMEA【第五版】
- 大国安全知到章节答案智慧树2023年中北大学
评论
0/150
提交评论