




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章计算机信息检索的基本技术与方法一、计算机信息检索的基本技术:一、计算机信息检索的基本技术: 布尔逻辑、截词检索、字段检索,位置算符等布尔逻辑、截词检索、字段检索,位置算符等。在进行计算机检索时,有时有一些比较复杂的课在进行计算机检索时,有时有一些比较复杂的课题,如:题,如:“GPSGPS在建筑中的应用在建筑中的应用”,既涉及,既涉及GPSGPS,又涉及建筑,还有又涉及建筑,还有“应用应用”,这时候就要编制出满足,这时候就要编制出满足要求的计算机检索式,它是机检的基础。要求的计算机检索式,它是机检的基础。1 1布尔逻辑检索布尔逻辑检索(Boolean Logic Boolean Logic
2、 RetrievalRetrieval) 逻辑检索的基础是逻辑运算,逻辑运算中最逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(常用的是布尔逻辑运算符(Boolean Logic Boolean Logic OperatorsOperators), ,即与、或、非三种运算符号,即与、或、非三种运算符号,用用它们可以表示概念之间的逻辑关系。它们可以表示概念之间的逻辑关系。检 索 要求逻辑检索 课题 表达式 检 索 结果概念相交、限定 AND与* 计算机用于制图 A BA AND BA * B 缩小检索范围提高查准率 概念平行、并列 OR或+ 土地管理与土地利用 A B A OR B
3、 A+B扩大检索范围提高查全率 某一主题去掉一部分相关主题 NOT非- 除光电测距以外的 A 电磁波测距 BB NOT AB-A提高查准率 布尔逻辑(Boolean Logic)“与”(“AND”)、“或”(“OR”)、“非”(“NOT”)A and B and CA or B or CA and B not C2 2 位置算符位置算符( (Proximity Operators)Proximity Operators) 位置算符是表示检索词之间位置关系的一种运算位置算符是表示检索词之间位置关系的一种运算符。由于英文对一句话有多种表达方法,写法可能符。由于英文对一句话有多种表达方法,写法可能不
4、同。如:不同。如:“GPSGPS在铁路桥研究中的应用在铁路桥研究中的应用”这个课这个课题,用英文表达可能是题,用英文表达可能是“Using of GPS in Railway Using of GPS in Railway Bridge”, Bridge”, 也可能是也可能是“Using of GPS in Bridge of Railway”Using of GPS in Bridge of Railway”,因而可能编制出这样的检索式,因而可能编制出这样的检索式,GPS AND (Railway (2N)Bridge)我们可以通过位置检索提高检索的准确率(1 1) ( (W)W)算符与算符
5、与( (nW)nW)算符算符 W W 是是wordword与与 withwith的缩的缩写。写。 特点:特点:WW词序不变,中间不可插词,但两词间词序不变,中间不可插词,但两词间可有一个标点,连字符或空格。可有一个标点,连字符或空格。 nWnW词序不变,中间可插入词序不变,中间可插入N N 个词。个词。 如:如:potential (w) energypotential (w) energy可能检出可能检出potential potential energy energy , potential potential - -energy energy 或者或者potential potentia
6、l , ,energy energy 又如:又如:gone (2w)wind 可能检出可能检出gone with the wind (2 2) ( (N)N)与与( (nN)nN)算符算符 N N是是nearnear的缩写的缩写 特点:特点:N N词序不限,中间不可插词,但两词间可词序不限,中间不可插词,但两词间可有一个标点,连字符或空格。有一个标点,连字符或空格。 nNnN词序不限,中间可插入词序不限,中间可插入N N 个词。个词。 如:如:econom? (2N)recoveryeconom? (2N)recovery可能检出可能检出economic economic recovery,r
7、ecovery of the economy,recovery,recovery of the economy,(3 3)同字段检索)同字段检索A(F)BA(F)B,F F是是fieldfield的缩写。的缩写。 特点:特点:A A、B B两词必须出现在同一字段中,词序两词必须出现在同一字段中,词序与词量不限。与词量不限。 如:如:environment (F)impact/DE,environment (F)impact/DE,表示两个词必须同表示两个词必须同时出现在叙词字段内。时出现在叙词字段内。(4 4) 同句检索同句检索A(S)BA(S)B,S S是是sentencesentence的
8、缩写的缩写。 特点:特点:A A、B B出现在同一自然句中(子字段),出现在同一自然句中(子字段),其词序与词量不受限制。其词序与词量不受限制。 如:如:electric (S)plantelectric (S)plant可检出可检出electric power plantselectric power plants如:如:EI EI中的中的NEAR;PQDDNEAR;PQDD中的中的W/n (W/n (两词间距小于两词间距小于n n个单词,且前后位置任意个单词,且前后位置任意) ),Pre/n (Pre/n (两词间距小于两词间距小于n n个单词,且前后位置一定个单词,且前后位置一定) )3
9、 3截词算符截词算符( (Truncating operators)Truncating operators) 在英语词汇中,一个词可能有多种形态,在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英美拼写方法如词的单、复数形式的不同,英美拼写方法不同、词性不同等。如果检索时将这类词全不同、词性不同等。如果检索时将这类词全部输入进去,会增加检索时间和费用,采用部输入进去,会增加检索时间和费用,采用截词法可解决这一问题。截词法可解决这一问题。 所谓截词检索,是指在检索标识中保留相所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部同的部分,用相应的截词符代替可变化
10、部分。检索中计算机会将所有含有相同部分分。检索中计算机会将所有含有相同部分标识的记录全部检索出来。常用标识的记录全部检索出来。常用“?”、“* *”符号表示。符号表示。(1 1)有限截断)有限截断。即在检索词后后截几个有限的字母,。即在检索词后后截几个有限的字母,如名词的单复数,动词的词尾变化等。如名词的单复数,动词的词尾变化等。如输入如输入computer? ?computer? ?表示有表示有0-10-1个字母变化,可检出个字母变化,可检出computercomputer和和puters. 输入输入stud?stud?表示截断处有表示截断处有0-30-3个字母变化,可检出个字母变化,可检出
11、study,studies,studied,studing.study,studies,studied,studing.(2 2)无限截断)无限截断:在检索词后加一个:在检索词后加一个“* *“,表,表示该词后可加任意个字符。使用无限截词,所示该词后可加任意个字符。使用无限截词,所截词根不能太短,否则会输出许多无关文献,截词根不能太短,否则会输出许多无关文献,造成误检。造成误检。 如:如:computercomputer* *可检出可检出computers,computering,computered,computerizatcomputers,computering,computered,c
12、omputerization.ion. (3 3)中间截断)中间截断:在检索词中间加一个或:在检索词中间加一个或几个?号,主要解决一些英美拼写不同,几个?号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化单复数形式的不同的词的输入,可简化输入。输入。 如:输入如:输入wom?nwom?n可检出可检出 woman,womenwoman,women各种算符在数据库中的实际应用各种算符在数据库中的实际应用位置算符位置算符1)EI NEAR Bridge NEAR Piling*表示这两个词要彼此接近,前后顺序不限。W/n Pig*W/2pine*表示两个词的距离不能超过n个单词Adj
13、Channel adj tunnel表示含有这两个词,两个词相邻,位置一定2)ISI Proceedings 用同句算符(SAME):如如Channel same Channel same tunneltunnel,表示,表示channel channel 和和tunnel tunnel 出现在同一句子中才符出现在同一句子中才符合检索条件。合检索条件。3)CSA:within X“ 表示两词之间不得多于x个词,前后位置任意 如“women within 8 movement” (顺序不定)4)Elsevier: ADJ表示两词相邻,前后顺序固定,与词检索的结果相同;NEAR或NEAR(N),表
14、示两词相邻,中间可插入少于或等于n个单词,前后顺序可以发生变化,如果不使用(N),系统默认值为10 5)PQDD W/n (两词间距小于两词间距小于n个单词,且前后位置任意个单词,且前后位置任意),Pre/n (两词间距小两词间距小于于n个单词,且前后位置一定个单词,且前后位置一定)6 6)ProQuestProQuest W/nW/n(表示连接两个词之间可以插入(表示连接两个词之间可以插入n n个词个词 ,前后位置可颠倒),前后位置可颠倒) 如:如:Education w/5 intenet Education w/5 intenet 表示表示educationeducation和和inte
15、rnetinternet之间可以插入之间可以插入5 5个词个词 ,并且前后,并且前后位置可以颠倒。位置可以颠倒。Pre/nPre/n(表示前后两词之间最多插入(表示前后两词之间最多插入n n个词,前后位置一定个词,前后位置一定 ) 如:如:U.S pre/n economic policyU.S pre/n economic policy可检出可检出U.S aidU.S aideconomic policy,or U.S wartime economic policy,or U.S wartime economiceconomic policy policy 。截词符或通配符如:如:CSAIS
16、I ProceedingsProQuestCAISI ProceedingsProQuestCA用用通配符通配符“?”和截词符和截词符“* * ” 输入输入 “patentpatent* *”,可以检索到,可以检索到 patentpatent、patents、 patentedpatented等,等,(无限截断)(无限截断) 输入输入 wom?nwom?n,可以检索到,可以检索到womanwoman和和womenwomen。 输入输入“fib?fib?”,可检索到,可检索到fiberfiber和和 fibrefibre。(有限截断)。(有限截断) EIEI用用“* * ” 和和“$ $”( (
17、词根算符词根算符) ) 如:OpticOptic* *检索结果中包括以检索结果中包括以optic optic 开头后面加任意开头后面加任意多个字母的词例如多个字母的词例如optic, optics,optical optic, optics,optical 等等 $ $managermanager(强调语义)检索出与该词根具有同(强调语义)检索出与该词根具有同样语意的词如样语意的词如 $ $manage manage 将检出将检出managers, managerialmanagers, managerial 和和management management 等词等词 通配符不能用在检索词的最前
18、面通配符不能用在检索词的最前面4 4括号检索(括号检索(ParenthesesParentheses)用于改变运算的先后次序,括号内的内容做优先运用于改变运算的先后次序,括号内的内容做优先运算。算。用用“( () )”可以表示优先级。如比较可以表示优先级。如比较 (GPSGPSORORGISGIS)ANDANDChinaChina GPS GPSORORGIS ANDGIS ANDChinaChinaEI EI 中的表示方法:中的表示方法:Relevance AND( Aalbersberg WN AU)OR (cool WN AU)5 5、字段限制检索字段限制检索 组成数据库的最小单位是记录
19、,一条完整记录中的每一个组成数据库的最小单位是记录,一条完整记录中的每一个著录事项为字段。献书目型数据库的记录基本包括下列字段:著录事项为字段。献书目型数据库的记录基本包括下列字段:(1 1) 存取号字段(存取号字段(AN, Access NumberAN, Access Number)这是计算机检索)这是计算机检索系统为每个数据库的每篇记录规定的能被计算机识别的特定系统为每个数据库的每篇记录规定的能被计算机识别的特定号码。在同一数据库中,每篇文献记录只有一个存取号;号码。在同一数据库中,每篇文献记录只有一个存取号;(2 2) 篇(题)名字段(篇(题)名字段(Title Field, /TIT
20、itle Field, /TI)(3 3) 文摘字段(文摘字段(Abstract Field, /AB)Abstract Field, /AB)(4 4) 叙词字段或受控词字段(叙词字段或受控词字段(Destriptor Field, Destriptor Field, /DE; /DE; 或或 Controlled term Field-SU) Controlled term Field-SU) 这一字段是标这一字段是标引人员给文献标引的反映其主题概念的词,这些引人员给文献标引的反映其主题概念的词,这些词来自规范化的词表。也称主题词。词来自规范化的词表。也称主题词。 (5 5)自由词字段或非
21、受控词字段(自由词字段或非受控词字段(Identified Field, /ID; Keyword Field , / /KW ;Uncontrolled term Field) 这一字段也是标引人员给文献标引这一字段也是标引人员给文献标引反映其主题概念的词,但这些词不是规范化词表反映其主题概念的词,但这些词不是规范化词表中的词。中的词。(6) (6) 著者机构子段(著者机构子段(corporate source,CScorporate source,CS或或AFAF)(7) (7) 刊名字段(刊名字段(journal,JNjournal,JN或或STST)(8) (8) 出版年子段(出版年子
22、段(publication,year,PYpublication,year,PY)(9) (9) 文献类型子段(文献类型子段(ducument type,DTducument type,DT或或TYTY)(10) (10) 语种子段(语种子段(language,LAlanguage,LA)(11) (11) 分类号子段(分类号子段(classification,CCclassification,CC):作者检索的缩写形式:作者检索的缩写形式: :在在SCISCI中中, , 姓姓 (全称)空格(全称)空格 名(首字母并且名(首字母并且连写)如:连写)如:LI DRLI DR;GONG JYGON
23、G JY在在EI EI中中, , 姓名就比较复杂,一般有以下几种姓名就比较复杂,一般有以下几种情况:姓名都用全称(姓前名后);姓全称情况:姓名都用全称(姓前名后);姓全称名缩写(或名之间用连字符);名前姓后全名缩写(或名之间用连字符);名前姓后全称称机构检索中机构检索中 SCISCI中有多个作者单位中有多个作者单位, , 在同一在同一字段中字段中 EI EI 只收入第一作者的单位只收入第一作者的单位多字段检索时要选所有字段多字段检索时要选所有字段( (all field)all field)使用作者检索时应注意姓名的书写形式:使用作者检索时应注意姓名的书写形式: 在在ISTP中,姓前(全称)中
24、,姓前(全称) 名后(缩写)名后(缩写):E,DC 在在SCI中中, (1)姓)姓 (全称)空格(全称)空格 名(首字母并且连写)如:名(首字母并且连写)如:LI DR;GONG JY; (2)名前(全称),姓后)名前(全称),姓后 如:如:dongchen,e; e,DC 在在EI中中, 姓名就比较复杂,一般有以下几种情况:姓姓名就比较复杂,一般有以下几种情况:姓 名都用全称(姓前名后);名都用全称(姓前名后);姓全称名缩写(或名之间用连字符);名前姓后全称姓全称名缩写(或名之间用连字符);名前姓后全称 如如 ke hengyu=ke heng-yu=ke,hengyu ke,h.y.=ke
25、,h-y;e,d.c. hengyu ke;dongchen,e 基本索引子段和辅助索引子段基本索引子段和辅助索引子段一篇记录中主要用来表达文献内容的一篇记录中主要用来表达文献内容的子段称为基本索引子段(子段称为基本索引子段(basic index basic index fields),fields),如篇名子段、文摘子段、叙词如篇名子段、文摘子段、叙词子段、自由词子段。子段、自由词子段。 表达文献外部特征的子段称为辅助索引子表达文献外部特征的子段称为辅助索引子段(段(additional index fields),additional index fields),包括著者子段、著包括著者
26、子段、著者机构子段、文献类型子段、语种子段等。者机构子段、文献类型子段、语种子段等。6 6短语检索(短语检索(phrase search)phrase search)即精确检索即精确检索短语用短语用“”“”表示,检索出与表示,检索出与“”“”内形式完全内形式完全相同的的短语,以提高检索的精确度和准确相同的的短语,以提高检索的精确度和准确度度7 7自然语言检索(自然语言检索(natural language search)natural language search)直接采用自然语言中的字、词、句进行提问式检直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。这种基于自然语言的检索索
27、,同一般口语一样。这种基于自然语言的检索方式又被称为方式又被称为“智能检索智能检索”,适合不太熟悉网络,适合不太熟悉网络信息技术的人员使用。支持自然语言检索的有中信息技术的人员使用。支持自然语言检索的有中文的悠游,英文的文的悠游,英文的AltaVista, AltaVista, Excite,Infoseek,HotBot,AskJeevesExcite,Infoseek,HotBot,AskJeeves等等8 8多种语言检索多种语言检索multilingual search)multilingual search)提供多种语言的检索环境供用户选择,提供多种语言的检索环境供用户选择,系统按用户
28、选定的语种进行检索并反系统按用户选定的语种进行检索并反馈结果,支持多语种检索的馈结果,支持多语种检索的 如:中文如:中文天网,英文天网,英文AltaVista,GoogleAltaVista,Google等。等。9 9模糊检索(模糊检索(fuzzy search)fuzzy search)又称概念检索。当我们输入一个检索词时,搜索引称概念检索。当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。比如:我们查找关键词意义相近的内容。比如:我们查找“查询查询”一词时,模糊检索会反馈来包含了一词时,模糊检索会反馈
29、来包含了“查询查询”、“查查找找”“”“查一查查一查”、“寻找寻找”、“搜索搜索”等内容的网等内容的网址。反馈网址的排列,一般是完全符合关键词的在址。反馈网址的排列,一般是完全符合关键词的在最前边,其次是相近的。现在大多数搜索引擎都有最前边,其次是相近的。现在大多数搜索引擎都有这种功能,只是模糊的程度不同。这种功能,只是模糊的程度不同。10 字母大小写检索字母大小写检索如果用户的检索式用小写字母表示,搜索工具既如果用户的检索式用小写字母表示,搜索工具既匹配大写又匹配小写,如:匹配大写又匹配小写,如:china(瓷器),瓷器),china(中国);如果用大写字母表示,搜索工具中国);如果用大写字
30、母表示,搜索工具认为用户指定了只要大写,就只会查找那些与用认为用户指定了只要大写,就只会查找那些与用户键入的输入形式完全相同的结果,如:户键入的输入形式完全相同的结果,如:china,只检索出只检索出china。Alta Vista等搜索引擎支持区分大等搜索引擎支持区分大小写的检索小写的检索 注意注意自然语言检索、模糊检索、多种语言检索自然语言检索、模糊检索、多种语言检索和区分大小写的检索是网络检索所特有的和区分大小写的检索是网络检索所特有的在在实际检索中,往往将多种检索技术混合使实际检索中,往往将多种检索技术混合使用。如:查找标题中含有用。如:查找标题中含有“网络营销网络营销”的的资料,它的
31、计算机检索提问式(表达式)资料,它的计算机检索提问式(表达式)可以是:可以是:TI TI(Web OR WWW) AND marketWeb OR WWW) AND market* *又如:又如: (城市(城市 OR 都市都市 OR 城区)城区) AND (TI=生活污染生活污染 OR 生活垃圾生活垃圾 OR 生活污生活污水水 OR 电磁辐射污染)电磁辐射污染)CPCI中的综合表示方法中的综合表示方法TS=(nanotub* SAME carbon) NOT AU=Smalley RE示例示例: :有关有关“企业知识产权研究企业知识产权研究”检索式检索式 检索结果检索结果 (*表示表示AND,
32、+表示表示OR,限定篇名字段),限定篇名字段) (2004-2006)1 企业知识产权企业知识产权 191篇(准确度最高漏检大)篇(准确度最高漏检大)2 企业企业*知识产权知识产权 404 (漏检率较高(漏检率较高 ) 3 (企业(企业+集团集团+公司)公司)* 知识产权知识产权 466 (适合综述性文献)(适合综述性文献)4 (企业(企业+集团集团+公司)公司)* (知识产权(知识产权+专利权专利权 520 (查全率查准率较高)(查全率查准率较高)+商标权商标权+著作权著作权+名称权)名称权)5 (企业(企业+集团集团+公司)公司)* (知识产权(知识产权+专利权专利权 137 (缩小范围效
33、果最佳)(缩小范围效果最佳)+商标权商标权+著作权著作权+名称权)名称权)* 保护保护 检索结果表明:检索结果表明:检索词的选择、逻辑算符的使用、同义词近义词的扩展、检索字段的检索词的选择、逻辑算符的使用、同义词近义词的扩展、检索字段的选择等变化,对检索结果数量的多少、检索的查全和查准有很大影响选择等变化,对检索结果数量的多少、检索的查全和查准有很大影响二、数据库的检索方法二、数据库的检索方法 检索界面浏览方式( Browse )检索方式 ( Search ) 浏览方式浏览方式 ( Browse ) 一般包括作者、作者单位、出版物名称及出版社索引或者按学科一般包括作者、作者单位、出版物名称及出
34、版社索引或者按学科划分的分类索引划分的分类索引 如:如:EI Elsevier CSA PROQUEST IEEEIEE 重庆维普以及中国期刊网重庆维普以及中国期刊网等等都提供了各种不同的浏览方式等等都提供了各种不同的浏览方式检索方式检索方式 ( ( Search )Search ) 基本检索基本检索 (basicquicksimpleeasy) 属于一般性的检索,它是根据自己的检索需要,输入字、词或简单的属于一般性的检索,它是根据自己的检索需要,输入字、词或简单的检索式(不能使用位置检索)来完成检索的,是一种初级性的检索方检索式(不能使用位置检索)来完成检索的,是一种初级性的检索方式。式。
35、高级检索高级检索 ( (advanceexpendfullexpert)advanceexpendfullexpert) 属于专家性的检索,可以根据自己属于专家性的检索,可以根据自己的检索需要,构件比较复杂的检索式的检索需要,构件比较复杂的检索式(可以使用逻辑、括号、截词以及位(可以使用逻辑、括号、截词以及位置算符)来完成高层次、高质量的检置算符)来完成高层次、高质量的检索,检索结果快速、准确。索,检索结果快速、准确。高级检索菜单式检索和命令式检索菜单命令三、三、 检索效果的评价检索效果的评价 查全率与查准率是检索质量的两个重要的评价指标。查全率与查准率是检索质量的两个重要的评价指标。 查全率
36、查全率(recall ratio)=检出的相关文献量检出的相关文献量/检索系统中相关文献总量检索系统中相关文献总量即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。查全率高说明有用的东西都被你检中了,但对于数量有文献的比例。查全率高说明有用的东西都被你检中了,但对于数量巨大的数据库而言,要达到巨大的数据库而言,要达到100%的查全率是不可能的,在网络条件下的查全率是不可能的,在网络条件下尤其如此。尤其如此。查准率查准率(precision ratio)=检出的相关文献量检出的相关文献量/检出的文献总检出的文献总
37、量。指检出文献中合乎需要的文献数量占检出文献全部量。指检出文献中合乎需要的文献数量占检出文献全部数量的比例。数量的比例。 准确率高说明你检出的东西都是有用的东西。一般地说,准确率高说明你检出的东西都是有用的东西。一般地说,很少能达到很少能达到100%的查准率。的查准率。在查全与查准两个方面一般难以两全,为了获得很多有在查全与查准两个方面一般难以两全,为了获得很多有用的东西(达到高的查全率),需要较少的限制检索条用的东西(达到高的查全率),需要较少的限制检索条件,但这样检出的无用的东西就会很多(查准率不高),件,但这样检出的无用的东西就会很多(查准率不高),反之亦然。在计算机检索中,一般认为查准
38、率为反之亦然。在计算机检索中,一般认为查准率为6070、查全率为、查全率为4060是较为理想的。是较为理想的。 n n为检索系统中文献总量,为检索系统中文献总量,m m为检索输出的文献量,为检索输出的文献量,a a为为n n中中与检索课题有关的文献量,与检索课题有关的文献量,b b为为m m中与检索课题有关的文献量中与检索课题有关的文献量( (检准文献量检准文献量) ),则,则n n、m m、a a、b b之间的关系如图所示。之间的关系如图所示。 图1.4 文献总量与检出文献之间的关系 文献总量与检出文献之间的关系文献总量与检出文献之间的关系 令令R R表示查全率、表示查全率、P P表示查准率
39、、表示查准率、M M表示漏检率、表示漏检率、N N表示误检率,则表示误检率,则R R、P P、M M、N N定义如下:定义如下:R=b/aR=b/a* *100100 P=b/mP=b/m* *100100 M=(1-b/a)M=(1-b/a)* *100100=100=100-R -R N=(1-b/m)N=(1-b/m)* *100100=100=100-P-P 在一个具有在一个具有10001000篇文献的试验性机检系统中检索某课题,用一特定检篇文献的试验性机检系统中检索某课题,用一特定检索策略查该课题时输出文献索策略查该课题时输出文献6060篇。经分析评估,发现该系统中共有该篇。经分析评
40、估,发现该系统中共有该课题相关文献课题相关文献5050篇,检出的文献中实际相关文献只有篇,检出的文献中实际相关文献只有3030篇,求查全率、篇,求查全率、查准率、误检率和漏检率。查准率、误检率和漏检率。 查全率查全率=30/50=30/50* *100%=60%100%=60% 查准率查准率=30/60=30/60* *100%=50%100%=50% 误检率误检率=(60-30)/60=(60-30)/60* *100%=50%100%=50% 漏检率漏检率=(50-30)/50=(50-30)/50* *100%=40%100%=40%四、四、 检索策略的实施技巧检索策略的实施技巧检索策略
41、检索策略:为实现检索目标而实施的方法。:为实现检索目标而实施的方法。 计算机信息检索,实质上由计算机将输入的计算机信息检索,实质上由计算机将输入的检索检索策略策略与系统中存贮的文献特征标识及其逻辑组配关与系统中存贮的文献特征标识及其逻辑组配关系进行类比、匹配的过程。由于系进行类比、匹配的过程。由于信息需求信息需求本身具有本身具有不确定性,加之对数据库中的文献特征标识不能充不确定性,加之对数据库中的文献特征标识不能充分了解,以及系统功能的某些限制,都会不同程度分了解,以及系统功能的某些限制,都会不同程度地影响检索效果。但是只要遵循一定的检索步骤,地影响检索效果。但是只要遵循一定的检索步骤,制定良
42、好的制定良好的检索策略检索策略,便可以减少各种不利因素的,便可以减少各种不利因素的影响,尽可能地使检索提问标识与信息需求和检索影响,尽可能地使检索提问标识与信息需求和检索系统保持良好的一致性,从而在系统中检索出满足系统保持良好的一致性,从而在系统中检索出满足用户需求的信息。用户需求的信息。 信息需求信息需求是人们客观上或主观上对各种情报信息的是人们客观上或主观上对各种情报信息的一种需求。这种需求是人们索取情报信息的出发点,一种需求。这种需求是人们索取情报信息的出发点,也是计算机信息检索时选择数据库、确定检索策略也是计算机信息检索时选择数据库、确定检索策略以及评价检索效果的依据。以及评价检索效果
43、的依据。不同类型的课题,其信息需求的范围和程度也不尽不同类型的课题,其信息需求的范围和程度也不尽相同。例如,申请发明、申报成果奖励、鉴定及立相同。例如,申请发明、申报成果奖励、鉴定及立项类的查新课题,往往需要全面地收集某一主题范项类的查新课题,往往需要全面地收集某一主题范围的文献信息,这类课题具有普查、追溯的特点,围的文献信息,这类课题具有普查、追溯的特点,应着眼于应着眼于查全查全;而对于科研、生产中为解决某一特;而对于科研、生产中为解决某一特定问题的攻关课题,往往只要求检出的信息对自己定问题的攻关课题,往往只要求检出的信息对自己的研究有所帮助,而对查找的文献范围不需要很广。的研究有所帮助,而
44、对查找的文献范围不需要很广。因此,这类课题则要求因此,这类课题则要求查准查准。 检索策略制定的原则检索策略制定的原则: (1)快,即从检索请求的提出到检索结果的提交要快速:快,即从检索请求的提出到检索结果的提交要快速: (2 2)准,即检索结果要准确,避免检索出过多无关内容;)准,即检索结果要准确,避免检索出过多无关内容; (3 3)全,检索结果全面,满足用户的需求;)全,检索结果全面,满足用户的需求; (4 4)效益原则,即以最低的费用获取所佳的信息。)效益原则,即以最低的费用获取所佳的信息。五、五、 计算机信息检索的具体步骤计算机信息检索的具体步骤 1 1 分析检索课题,制定切实可行的检索
45、策略分析检索课题,制定切实可行的检索策略 ( (这是检索的出发点,依据这是检索的出发点,依据) )2 2 利用检索系统特定的指令正确实施检索利用检索系统特定的指令正确实施检索3 3 通过人通过人- -机对话的方式不断调整、修改、机对话的方式不断调整、修改、检索策略检索策略4 4 根据查找的文献线索获取原始文献根据查找的文献线索获取原始文献(实例分析与说明实例分析与说明 课题一课题一 GISGIS技术的可视化研究技术的可视化研究课题分析:课题分析: 二十一世纪是一个信息大爆炸的时代,随着二十一世纪是一个信息大爆炸的时代,随着“信息论信息论”,“控制论控制论”及及“认知论认知论”等理论的产等理论的
46、产生,作为一门古老的学科的地图学也在这些新兴理生,作为一门古老的学科的地图学也在这些新兴理论的指导下,在这个信息时代产生了新的发展点,论的指导下,在这个信息时代产生了新的发展点,“数字地球数字地球”的提出为地图科学提出了更新更高的的提出为地图科学提出了更新更高的要求,要求,GIS作为处理地理信息的一种技术,应运而作为处理地理信息的一种技术,应运而生。生。 GIS GIS是一种采集,加工,分析,访问及是一种采集,加工,分析,访问及表达空间数据的信息系统。作为数据本身表达空间数据的信息系统。作为数据本身是抽象的,不易直观接受的信息,因此研是抽象的,不易直观接受的信息,因此研究如何对数据进行加工和究
47、如何对数据进行加工和可视化可视化表达,对表达,对于用户来说是十分必要的。于用户来说是十分必要的。目前的目前的GISGIS可视化的研究正方兴未艾,对可视化的研究正方兴未艾,对DEMDEM,DTMDTM和和DLGDLG等数据模型特别是等数据模型特别是DEMDEM的研究进展飞速,而的研究进展飞速,而三三维维可视化的表达方式又成为其中最热门的方向,通可视化的表达方式又成为其中最热门的方向,通过过DEMDEM生成的等高线,地貌晕渲土,三维透视景象,生成的等高线,地貌晕渲土,三维透视景象,三维地形漫游及交互式三维可视系统在地图学界开三维地形漫游及交互式三维可视系统在地图学界开始发挥其强大的效用,并将在始发
48、挥其强大的效用,并将在GISGIS技术中占有三分天。技术中占有三分天。 数字高程模型数字高程模型( (DEM)DEM)作为数字地形模拟的重作为数字地形模拟的重要成果已经成为国家空间数据基础设施要成果已经成为国家空间数据基础设施( (NSDI)NSDI)的基本内容之一,其相关学科有数据库,软件的基本内容之一,其相关学科有数据库,软件工程,遥感与航测等。在不久的将来,随着工程,遥感与航测等。在不久的将来,随着虚虚拟现实拟现实技术与技术与GISGIS的融合,必然为地理信息学科的融合,必然为地理信息学科带来翻天覆地的变化。带来翻天覆地的变化。检索关键词与表达式中文关键词:地理信息系统或GIS(上位)数
49、字高程模型,可视化,三维,虚拟现实(下位)基本表达式:关键词=(地理信息系统OR GIS)AND (可视化)AND (三维 OR 虚拟现实)英文Topic Words:GIS or Geography Information System3D,DEM,VR,visualizationBoolean Expression:kw= GIS AND visualization AND (3D OR DEM)城市生活污染研究城市生活污染研究 关键词:城市(都市、城区)关键词:城市(都市、城区) 生活污染(生活污水、生活垃圾、电磁辐射污染等)生活污染(生活污水、生活垃圾、电磁辐射污染等) 检索式检索式(
50、城市城市 or 都市都市 or 城区)城区)and(生活污染(生活污染 or 生活污水生活污水 or 生活垃生活垃圾圾 or 电磁辐射污染)电磁辐射污染)了解有关国内近十年来室内装修污染方面的研究了解有关国内近十年来室内装修污染方面的研究 关键词:室内、装修、污染关键词:室内、装修、污染 同义词或近义词:同义词或近义词: 室内(住宅、居室、房屋)室内(住宅、居室、房屋) 污染(放射性、化学、氡气、甲醛、苯等)污染(放射性、化学、氡气、甲醛、苯等) 确定学科范畴等辅助信息:环境科学。中文库为主,十年期限。确定学科范畴等辅助信息:环境科学。中文库为主,十年期限。 以室内环境污染检测,危害和处理等方面研究为主以室内环境污染检测,危害和处理等方面研究为主 选择专业数据库选择专业数据库 和各类型综合数据库为主,以和各类型综合数据库为主,以google等网络资源为辅等网络资源为辅 计算机检索逻辑表达式举例计算机检索逻辑表达式举例:例例1 1:GPSGPS在建筑事业中的应用在建筑事业中的应用 主题词主题词:A A:全球定位系统;:全球定位系统;B B:建筑测量;组:建筑测量;组配词:配词: C C:应用:应用 表达式表达式:A AND B AND CA AND B AND C例例2 2:加
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 材料力学与智能材料性能应用拓展重点基础知识点
- 材料疲劳断裂预测研究进展重点基础知识点
- 行政法理论的基本原理试题及答案
- 半地下仓库火灾应急预案(3篇)
- 跨文化管理与经济政策试题及答案
- 消防火灾应急预案预演(3篇)
- 计算机程序开发中的风险评估试题及答案
- 资源分配不公的经济原因探讨试题及答案
- 客房火灾报警应急预案(3篇)
- 2025年法学概论考试的法律思维模式与试题及答案
- 2025年山东出版集团招聘笔试参考题库含答案解析
- 2025年济南铁路局招聘笔试参考题库含答案解析
- 药品养护管理制度
- 《消防应急疏散培训》课件
- 药品类体外诊断试剂专项培训课件
- 《数据资产会计》 课件 第三章 数据资产的确认和计量
- 2025年九省联考新高考 数学试卷(含答案解析)
- 《红高粱》典型人物形象分析与影视比较-课件
- 《雾化吸入疗法合理用药专家共识(2024版)》解读
- 2024年新北师大版一年级上册数学课件 第四单元第7课时 可爱的企鹅
- 2023年湖北数学高考卷-理科(含答案)
评论
0/150
提交评论