项目一:中国期刊全文数据库信息检索_第1页
项目一:中国期刊全文数据库信息检索_第2页
项目一:中国期刊全文数据库信息检索_第3页
项目一:中国期刊全文数据库信息检索_第4页
项目一:中国期刊全文数据库信息检索_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索技术及应用,项目一:中国期刊全文数据库信息检索,目录,项目描述 项目目标 项目实施 相关知识 思考题 上机实践 总结与反思,项目描述,中国期刊全文数据库(CJFD)是目前世界上最大的连续动态更新的中国期刊全文数据库,积累全文文献800万篇,题录1500余万条,分九大专辑,126个专题文献数据库。在学校网上图书馆进入中国期刊全文数据库,检索相关文献,下载并阅读。,项目目标,掌握信息检索系统的概念、类型及评价; 掌握初级检索、高级检索、专业检索及分类检索; 掌握信息检索语言; 掌握信息检索方法、途径与步骤。,项目实施,在学校有效IP范围内或从VPN终端登录,从主页导航“图书资源”-“中文数

2、据库”-“中国知网系列数据库1” -“中国期刊全文数据库”进入检索页面,如图所示。,项目实施-初级检索,初级检索:查找袁隆平近5年学术论文,并下载阅读。 如图所示,“检索项”选择“作者”,“检索词”为“袁隆平”,检索年限为“2006”到“2011”,单击“检索”按钮。,项目实施-初级检索,单击某论文的篇名,打开如图所示页面,该部分的信息属于二次文献。这里可以选择下载caj格式或pdf格式的论文进行阅读。,项目实施-初级检索,单击“下载阅读CAJ格式全文”,打开如图所示对话框,单击【保存】按钮保存文件至本地文件夹中。,项目实施-初级检索,双击文件名即可打开文件进行阅读,这种文件我们称之为一次文献

3、,如图所示。注意,阅读caj、kdh格式的文档资料需要事先安装阅读器,如CajViewer。,项目实施-高级检索,高级检索:查找2010年发表的篇名中包含“杂交稻”或“水稻”,并且主题和关键词也包含“杂交稻”的核心期刊论文。 单击“高级检索”按钮,如图所示,将“杂交稻”和“水稻”设定为“篇名”的检索词,这两个词的“关系”为“或者”,同时“主题”和“关键词”的检索词设定为“杂交稻”,“篇名”、“主题”和“关键词”三个检索项的“关系”为“并且”,年限设定为“2010”到“2010”,“范围”为“核心期刊”。单击“检索”按钮。下载和阅读论文的方法同上。,项目实施-专业检索,专业检索:查找1990年至

4、今袁隆平为第一作者发表的篇名中包含“杂交稻”的核心期刊论文。 单击“专业检索”按钮,如图所示,根据要求设置年限,“范围”为“核心期刊”,然后在文本框内输入检索式“题名=杂交稻 and (第一责任人=袁隆平)”,这里的符号均需要在英文输入法状态下输入,注意及时切换输入法。单击“检索”按钮。 检索结果如图所示。下载和阅读论文的方法同上。,项目实施-分类检索,分类检索:查找2008年至今医药领域关于“癌症”的核心期刊论文。 将左侧的学科查询范围限定在“医药卫生”领域,然后单击“高级检索”按钮,同时用“癌症”作为“主题”、“篇名”、“关键词”的检索词,限定这三个检索项的“关系”为“并且”,年限为“20

5、08”到“2011”,“范围”为“核心期刊”,如图所示。单击“检索”按钮。下载和阅读论文的方法同上。,相关知识,1.1信息检索的概念、类型及评价 1.2信息检索语言 1.3信息检索方法、途径与步骤 1.4 CNKI概述,相关知识-信息检索的概念,信息检索,英文Information Retrieval,简写IR。 信息检索(Information Retrieval)是指将信息按照一定的方式组织和存储起来,并根据信息用户的需求找出有关的信息的过程和技术。它的全称应该叫“信息存储与检索”(Information Storage and Retrieval)。 狭义的信息检索则仅指该过程的后半部分

6、,即从信息集合中找出所需要的信息的过程。,相关知识-信息检索的类型,1.按照检索对象的内容 数据信息检索:将经过选择、整理、鉴定的数值数据存入数据库中,根据需要查出可回答某问题的数据的检索。如统计数据、人口数据、国民生产总值 事实信息检索:将存储于数据库中的关于某一事件发生的时间、地点、经过等情况查找出来的检索。 文献信息检索:将存储于数据库中的关于某一主题文献的线索查找出来的检索。,相关知识-信息检索的类型,2.按照存储载体及检索手段方式 手工检索:以手工操作的方式,利用传统的印刷型检索系统,来查找信息的检索。 机械检索:运用打孔机、分类机及光电效应等进行的检索。 自动化检索:也称为计算机检

7、索,是运用计算机和计算机网络等现代化手段进行的检索,也是目前主要的检索方式。,相关知识-信息检索系统,信息检索系统(Information Retrieval System,简称IRS)是指根据特定的信息需求而建立起来的一种有关信息收集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。 它是在一次文献的基础上,经过加工、这个理、编辑形成的二次文献。信息检索系统的基本功能是存储和检索信息。,相关知识-信息检索系统,1.按正文的内容性质划分,可分为完全二次信息检索系统和部分二次信息检索系统。 主要有目录、题录、索引、文摘等,如各种印刷型检索系统和检索型文摘数据库。,相关知识-信息检索

8、系统,(1)目录(Bibliography,Catalogue) 以完整的出版单元(如一种图书、一种期刊)为单位,按照一定次序编排的对文献信息进行描述和报道的工具,也称书目。 (2)题录(Title) 在目录的基础上发展起来的,描述文献各种特征的一条记录,通常由文献的分类号、文献篇名、著者及其单位、文献来源、主题词等项组成。 (3)索引(Index) 将某种信息集合(如目录、题录、文摘)中的一组相关信息,按照某种顺序组织并指引给用户的一种指南。 包括:分类索引、主题索引、著者索引、专用索引、引文索引 (4)文摘(Abstract) 通过描述文献各种特征,并介绍文献主要内容来报道文献的工具。,相

9、关知识-信息检索系统,2.按物质形态划分 印刷型 电子型 其它类型的检索系统。,相关知识-信息检索系统,一个完整的检索系统的基本结构一般由五个部分组成。 编辑使用说明 目次表 正文部分 索引 附表,相关知识-信息检索的评价,检索系统参量表,(1)查全率(Recall ratio),用R表示。指检出的相关文献量与检索系统中所有相关文献量的比率,是衡量信息检索系统相关文献能力的尺度。 查全率=检出的相关信息量/系统中相关信息总量100%=a/(a+c) 100%,(2)查准率(Precision ratio),用P表示。指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度。 查准

10、率=检出的相关信息量/检出的信息总量100%=a/(a+b) 100%,(3)漏检率(Omission ratio),用O表示。指漏检的相关信息量与检索系统中所有相关信息量的比率,是衡量信息检索系统漏检信息的尺度。 漏检率=未检出的相关信息量/系统中相关信息总量100%=c/(a+c) 100%=1-R,(4)误检率(Fall-out ratio),用F表示。指检出的非相关信息量与检出的信息总量的比率,是衡量信息检索系统误检信息程度的尺度。 误检率=检出的非相关信息量/检出的信息总量100%=b/(a+b) 100%=1-P,相关知识-信息检索的评价,【案例1】在一个具有1000篇文献的试验性

11、机检系统中检索某课题,用一特定检索策略查该课题时输出文献60篇。经分析评估,发现该系统中共有该课题相关文献50篇,检出的文献中实际相关文献只有30篇,求查全率、查准率、误检率和漏检率。,依题意知:检出的相关文献a=30,检出的非相关文献b=30,未检出的相关文献c=20,,故查全率: R=a/(a+c)100%=30/(30+20)=60%;,查准率: P= a/(a+b)100%=30/(30+30)=50%;,漏检率: O=100%-R=40%; 误检率: F=100%-P=50%。,相关知识-信息检索的评价,提高检索效果的措施: (1)提高检索系统的质量。 (2)提高检索人员素质,使得用

12、户具备良好的使用检索系统的能力,充分发挥检索系统的功能。 (3)根据不同的检索课题的需要,适当调整对查全率和查准率的要求,比如要求查全率很高的查新工作,就要放弃对查准率的苛刻要求。,相关知识-检索语言的概念,检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言、标引语言、文献工作语言等。,相关知识-检索语言的作用,(1)对文献的信息内容及其外表特征加以规范化的标引; (2)对内容相同及相关的文献信息加以集中或揭示其相关性; (3)可使文献信息的存储集中化、系统化、组织化,便于检索者按一定的排列次序进行有

13、序化检索; (4)便于将标引用语和检索用语进行相符性比较。,相关知识-检索语言的基本类型,相关知识-分类语言,分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。 (1)等级体系分类语言 国际专利分类表(IPC)、杜威十进分类法(DDC)、美国国会图书馆图书分类法(LC)、中国图书馆图书分类法(中图法)和中国科学院图书馆图书分类法(科图法) (2)组配分类语言。用科技术语进行组配的方式来描述文献内容。 (3)混合分类语言。是上面两者的结合。,相关知识-分类语言,中国图书馆图书分类法(中图法),相关知识

14、-分类语言,如,大学生常用分类号。 计算机类(TP3) 计算机语言TP312 网络TP393 等级考试TP3-44 英语类(H31) 词汇H313 语法H314 写作H315 阅读H319.4 口语听力H319.9 四六级考试H31-44 文学类(I) I22诗歌 I23戏曲 I24小说 I25报告文学 I26散文 历史地理类(K) 中国历史K2 人物传记K81或K82 地理K9,其中,文学类类目展开情况如下。 I文学 I2中国文学 I24小说 I247建国后作品 I247.4章回小说 I247.5新体长篇、中篇小说 I247.7新体短篇小说 I247.8故事、微型小说,相关知识-分类语言,如

15、图所示,通过学校图书馆书目检索系统检索“分类号”为“I247.8”的检索结果。,相关知识-分类语言,杜威十进分类法(Dewey Decimal Classification,DC或DDC) 简本篇幅约为详本的10,主要供中、小型图书馆使用。1894年首次出版,已出13版。共分10个大类:000总论;100哲学;200宗教 ;300社会科学;400语言学;500自然科学;600技术科学;700美术;800文学;900历史、地理。其详细的目录体系分类明细表可见附录部分。,相关知识-分类语言,中国科学院图书馆图书分类法(科图法) 中国科学院图书馆编制的等级列举式分类法,简称科图法。1954年开始编写

16、,1957年 4月完成自然科学部分初稿,1958年3月完成社会科学部分初稿,1958年11月科学出版社出版。1959年10月出版索引。1970年10月开始修订,1974年2月出版第2版的自然科学、综合性图书和附表部分;1979年11月出版第 2版的马克思列宁主义、毛泽东思想,哲学和社会科学部分;1982年12月出版第2版的索引。 科图法设有马列主义、毛泽东思想,哲学,社会科学,自科科学,综合性图书等5大部类,共25个大类。其部类、大类及其标记符号详见附录部分。,相关知识-主题语言,(1)标题词语言(Subject Heading Language) 用规范化名词术语作为标识,来直接表达文献涉及

17、的主题概念,并将全部标识按字顺排列,通过参照系统来显示各个标识所表达的主题之间的相互关系的一种主题法。,标题词的规范化处理: 同义词规范 从同义词中优选一个作为标题词,其余同义词为非标题词,不能作检索语言。 近义词和反义词规范 如,“试验”和“实验”是一对近义词,按概念等同处理,从中优选一个作为标题词,其余为非标题词。“光洁度”和“粗糙度”是一对反义词,也只选一个作为标题词,另一个为非标题词。 多义词的词义限制 如,“疲劳”是一个多义词,可以指人的疲劳,也可以指金属材料的疲劳,需要加以区分。,相关知识-主题语言,(2)叙词语言(Descriptor Language) 叙词语言是从自然语言中优

18、选出来并经过规范化处理的名词术语。 适用于手工检索,但更适用于计算机检索 用叙词语言编写的词表称为叙词表,通常是由主表和若干个辅表组成。主表是叙词表的主体,可独立存在。辅表是为便于使用主表而编制的各种辅助索引。 常用的叙词表有INSPE词表(INSPE Thesaurus)、NASA 词表(NASA Thesaurus)、Ei词表(Ei Thesaurus)及我国编辑出版的汉语主题词表,相关知识-主题语言,汉语主题词表,简称汉表 全表共收词族3707个,包含67300个叙词,社会科学部分的词族886个,自然科学词族2821个,包含57500个叙词。,正式主题词的款目结构图,相关知识-主题语言,

19、参照关系项说明,款目主题词,即正式主题词,被用来作为标引和文献的标识。 参照关系项是与款目主题词之间有着内在逻辑关系的词。,相关知识-主题语言,附表包括四种专用词汇表: 世界各国政区名称:收录世界各个国家、地区及所属的重要城市名称,共收词1100个。 自然地理区划名称:收录世界重要自然区划名称,如山、河、湖、洋、海、岛屿等,共收词361个。 组织机构:包括各学科专业领域中具有研究价值和文献论述的重要机构团体名称,共收词1900个。 人物:包括古今中外具有研究价值和文献论述的人物名称,共收词4765个。,相关知识-主题语言,辅助索引是通过改变组织方式,从不同途径查找主题词的工具。 1.词族索引又

20、称族系索引,是将主表中具有分属关系的正式主题词加以集中显示的一种索引系统。,电子计算机 处理机 微处理机 国民经济部门构成 非物质生产部门 管理部门 行政部门,相关知识-主题语言,2.范畴索引又称分类索引,是将主表中全部款目主题词按学科范畴划类编排的词汇分类体系,以便从分类角度查找主题词,是主表的辅助工具。,02 哲学 02J 宗教 02JA 宗教一般概念 阿拉伯哲学 本体 本体论 本质属性 ,相关知识-主题语言,3.英汉对照索引是一种通过英文译名检索汉语主题词的工具。按英文字母顺序排列,在英文译名后注明汉语主题词。 4.轮排索引是将来源索引中所报道的来源文献题名中能表达文章内容特征的具有实质

21、意义的词抽出,组成一条文献的标目,这些词按字顺轮流位于标目的首位,位于标目首位的词称为主要词,其余词按字顺排于其下,称为配合词。,相关知识-主题语言,(3)单元词语言(Uniterm Language) 从文献内容中抽选出来的最基本的词汇、将代表最一般、最基本的、不可再分割的概念的词作为单独标引文献的单位。 单元词是指能够表达文献主题,经过规范化处理的最小、最基本的词汇单元,具有概念上的独立性、单元性和规范性的特点。 单元词法的主要特点:用较少的词量反映较多的主题概念,具有灵活性和专指性,在各种词表中,单元词表的体积最小。但单元词法缺乏直接性和系统性,由于常常采用字面组配,易产生组配误差,检索

22、的查准率较低。,相关知识-主题语言,(4)关键词语言(Keyword Language) 关键词是指从文献的题目、摘要或正文中选出的,表征文献主题内容的具有实际意义的名词术语。关键词可直接用于文献标引。 以关键词作为检索标识的文献标引与检索的方法称为关键词法。 将文献中的一些主要关键词抽出作为检索标识,并以字顺排列而组成的查找文献用的语言,称为关键词语言。 不需进行规范化处理,相关知识-分类法与主题法的区别,分类法以学科性质分类图书资料,它以学科集中文献,属于族性检索,可能造成事物主题文献的分散;主题法以主题词概括文献内容,以事物主题集中文献,属于特性检索,它可能造成学科文献的分散。 案例“棉

23、花的加工”一文进行分类标引时,首先要考虑本文主题内容的所属学科及隶属关系,即“工业技术轻工业棉纺织的加工”,然后选取相应的分类号标引;而主题标引时不需考虑其所属学科专业,直接用描述内容主题词“棉花,加工”标引即可。 分类法适于找某一学科和专业方面的图书(检索的是一类图书资料),检索者在检索前对图书的书名及内容并不清楚;而主题词途径适于检索者在检索前对所要找的资料涉及到的主题事物很明确。,相关知识-信息检索方法,1.“拉网法” 在不了解查询某一专题信息的URL地址时,可从提供信息总目的Web 页面开始浏览,沿着专题链接层层查找,直至找到有关的内容为止。然后用“书签”保存这个页面的URL,转向另一

24、个分支。这种方法可以迅速获得较多的相关地址,然后进行筛选。就使用引擎而言,国外专家也建议先用链接页面多、响应时间快的引擎。,相关知识-信息检索方法,2.常规法 (1)顺查法 从用户要求查找的年代,或从课题分析所得出的该课题研究的起始年代开始,顺着时间的推移由远及近地查找文献的方法。 (2)倒查法 逆时间顺序,由近及远地往前追溯查找文献的方法。检索时,从当前开始,逐年向前查找,直到查找的结果满意为止。 (3)抽查法 针对某一学科的发展特点,在发表文献较多的一段时间内(几年或十几年)进行检索,用以解决要求快速检索的课题。 (4)引文法 利用引文索引查找文献,查找时,以某一特定论文的著者为对象,进行

25、检索。,相关知识-信息检索方法,3. 追溯法 (1)参考文献法 利用已有文献后面所附的参考文献查找到一批文献,又利用这批文献后面的参考文献继续追溯检索的方法。利用这种方法,可以不断扩大文献线索,产生“滚雪球”式的检索效果。 (2)科学引文法 从被引用文献查找引用文献的方法。,相关知识-信息检索方法,4. 循环法 又称分段法或综合法,是常用法与追溯法的结合。 5.排除、限定和合取法 排除法是指对查找对象的产生和存在的状态在时间上和空间上加以外在否定。 限定法是相对于排除法而言的,指对查找对象在时间和空间上加以内在的肯定。 若把不同资料中涉及到的所需信息的记录都截取下来,汇集在一起,再经过去粗取精

26、、去伪存真的加工就构成一个完整的答案,这种方法叫做合取法。,相关知识-信息检索途径,1.根据文献外部特征的检索途径 (1)著者途径:使用著者索引(或字段)检索与某个著者相关的信息内容。 (2)题名途径:利用题名索引(或字段)查找所需信息。题名包括信息标题名(或篇名)、书名或刊名、标准名、文档名、数据库名等。 (3)机构途径:在机构索引(或字段)中检索与特定机构名称相关的信息。机构名称包括著者所在单位、书刊的出版发行者、数据库的研发生产者、特定网络系统的维护者以及有关信息服务单位的名称等等。 (4)代码途径:从特定代码(或字段)入手检索所需信息,如ISBN、ISSN、专利号(或申请号、公开号)、

27、报告号、合同号、馆藏号、文档号和IP地址等。 (5)信息源类型途径:将具体信息所属的特定信息集合的类型作为检索入口的途径。检索时需使用相应的辅助索引,例如:会议索引、图书索引、专利索引等。 (6)其它检索途径:根据某些信息的特殊标识进行检索的方法。例如化学分子式、地域名称、生物属种、图案色彩等。,相关知识-信息检索途径,2.根据信息内容特征的检索途径 (1)分类途径:以学科性质和内容的相应类目和类号为特征标识来检索所需信息的途径。检索时依据所需信息的学科属性,在相应检索工具的“分类目录”或“分类索引”中查找。分类途径有助于族性检索和查全率的提高。 (2)主题途径:以课题内容的主题性质进行检索。

28、其最大优点是易于掌握、概念集中、组配灵活,是最优最主要的检索途径。 (3)关键词途径:在关键词索引(或字段)中检索所需信息。关键词组配灵活、不需规范,使用方便。,相关知识-信息检索步骤,用户评价,相关知识-信息检索步骤,1.分析检索课题 (1)分析主题内容 (2)分析问题类型 (3)分析查找年代,相关知识-信息检索步骤,2.选择检索系统 从4个因素考虑: 学科及专业范围 信息类型 文种 课题内容,相关知识-信息检索步骤,3.选择检索方法 一般优先选择主题词和关键词途径 其次是分类途径,相关知识-信息检索步骤,4确定检索途径 根据已知条件,选取合适的检索途径,如分类、主题、著者途径等。,相关知识

29、-信息检索步骤,5.查找文献线索 完成上述步骤后,即可根据分析确定下来的检索标识查找各种索引,查到题录号或文摘号,获得相应的文献线索。,相关知识-信息检索步骤,6.获取原始文献 查到课题相关信息后,首先应仔细阅读,判断是否符合检索需要。如果符合需要,可通过记录相关的文献信息,以获取原始文献或直接点击数据库提供的全文连接进行下载;对于不太符合需要的反馈结果,可进一步进行优化或二次检索。,相关知识CNKI概述,网址: CNKI称为中国知网,即中国知识基础设施工程(China National Knowledge Infrastructure),概念由世界银行于1998年提出。CNKI工程是以实现全

30、社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于1999年6月。,相关知识CNKI使用方式及流程,1.在学校有效IP范围内或从VPN终端登录,从主页导航“图书资源”-“中文数据库”-“中国知网系列数据库1” -“中国期刊全文数据库”进入检索页面。如图所示。,相关知识CNKI使用方式及流程,2.初级检索:查找2003至2011年的关于转基因食品的论文。 如图所示设置,单击“检索”按钮。,相关知识CNKI使用方式及流程,3.二次检索:检索关于转基因食品安全的论文。 如图所示设置,勾选“在结果中检索”,单击“检索”按钮。,相关知识CNKI使用方式及流程,4.不同

31、匹配方式的检索结果比较:通过设置“模糊”或“精确”匹配方式来限定查找的范围。如图所示,模糊匹配方式下返回的结果有1536条;如图所示,精确匹配方式下返回的结果有192条。,相关知识CNKI使用方式及流程,5.不同检索途径的检索结果比较 通过单击界面上的“+”可以增加检索项,单击“-”则减少检索项。 如图所示,通过设置不同的检索项检索关于大学生职业规划的论文,返回结果如图所示。,相关知识CNKI使用方式及流程,6.扩展词的用法 单击检索项右侧的图标,如图所示,在打开的界面中勾选合适的扩展词。单击“确定”按钮。,相关词自动以“逻辑与”的关系增加到检索框,如图所示。,相关知识检索结果利用,1.题录:

32、对于检索结果,可以选择打印全部或部分题录。 如图所示,单击按钮可以选择所有题录,单击按钮则取消全选。,相关知识检索结果利用,这里我们勾选了部分题录,然后单击按钮,在如图所示界面中,“输出格式”为“自定义”,勾选了部分文献特征。,相关知识检索结果利用,单击“预览”按钮查看结果,如图所示。也可单击“打印”按钮将题录结果进行打印。,相关知识检索结果利用,2.知网节聚类更多的相关文献 单击某篇文献篇名,进入知网节,如图所示。可以选择下载caj或pdf格式的文献全文进行阅读。,相关知识检索结果利用,通过知网节的信息,可以了解与该课题研究相关的其他研究情况。如图所示,“参考文献”、“共引文献”、“二级参考文献”、“相似文献”中包含有相关文献的题录

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论