版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,计算机检索技术及中文数据库使用方法,一、计算机信息检索的基本技术: 布尔逻辑算符、截词算符、位置算符、字段限定检索等等。在进行计算机检索时,有时有一些比较复杂的课题,如:“GPS在建筑中的应用”,既涉及GPS,又涉及建筑,还有“应用”,这时候就要编制出满足要求的计算机检索式,它是机检的基础,3,一、计算机信息检索的基本技术,布尔逻辑算符、截词算符、位置算符、字段限定检索等等。 在进行计算机检索时,有时有一些比较复杂的课题,如:“GPS在建筑中的应用”,既涉及GPS,又涉及建筑,还有“应用”,这时候就要编制出满足要求的计算机检索式,它是机检的基础,4,1布尔逻辑检索(Boolean Logi
2、c Retrieval) 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(Boolean Logic Operators),即与、或、非三种运算符号,用它们可以表示概念之间的逻辑关系,2 位置算符(Proximity Operators) 位置算符是表示检索词之间位置关系的一种运算符。由于英文对一句话有多种表达方法,写法可能不同。如:“GPS在铁路桥研究中的应用”这个课题,用英文表达可能是“Using of GPS in Railway Bridge”, 也可能是“Using of GPS in Bridge of Railway”,因而可能编制出这样的检索式,GPS AND (
3、Railway (2N)Bridge)我们可以通过位置检索提高检索的准确率,1) (W)算符与(nW)算符 W 是word与 with的缩写。 特点:W词序不变,中间不可插词,但两词间可有一个标点,连字符或空格。 nW词序不变,中间可插入N 个词。 如:potential (w) energy可能检出potential energy and function 又如:gone (2w)wind 可能检出gone with the wind,8,2) (N)与(nN)算符 N是near的缩写 特点:N词序不限,中间不可插词,但两词间可有一个标点,连字符或空格。 nN词序不限,中间可插入N 个词。
4、如:econom? (2N)recovery可能检出economic recovery,recovery of the economy,3)同字段检索A(F)B,F是field的缩写。 特点:A、B两词必须出现在同一字段中,词序与词量不限。 如:environment (F)impact/DE,表示两个词必须同时出现在叙词字段内,10,4) 同句检索A(S)B,S是sentence的缩写。 特点:A、B出现在同一自然句中(子字段),其词序与词量不受限制。 如:electric (S)plant可检出electric power plants如:EI中的NEAR;PQDD中的W/n (两词间距小
5、于n个单词,且前后位置任意),Pre/n (两词间距小于n个单词,且前后位置一定,3截词算符(Truncating operators) 在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英美拼写方法不同、词性不同等。如果检索时将这类词全部输入进去,会增加检索时间和费用,采用截词法可解决这一问题,12,所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分标识的记录全部检索出来。常用“?”、“*”符号表示,13,1)有限截断。是指在检索词后后截几个有限的字母,如名词的单复数,动词的词尾变化等。如输入computer? ?表示有0
6、-1个字母变化,可检出computer和computers. 输入stud?表示截断处有0-3个字母变化,可检出study,studies,studied,studing,14,2)无限截断:在检索词后加一个“?“,表示该词后可加任意个字符。使用无限截词,所截词根不能太短,否则会输出许多无关文献,造成误检。 如:computer?可检出computers,computering,computered,computerization,15,3)中间截断:在检索词中间加一个或几个?号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化输入。如:输入wom?n可检出 woman,women
7、,16,各种算符在数据库中的实际应用位置算符,1)EI NEAR Bridge NEAR Piling* 表示这两个词要彼此接近,前后顺序不限。 W/n Pig*W/2pine*表示两个词的距离不能超过n个单词 Adj Channel adj tunnel表示含有这两个词,两个词相邻,位置一定 2)ISI Proceedings 用同句算符(SAME):如Channel same tunnel,表示channel 和tunnel 出现在同一句子中才符合检索条件,17,3)CSA,within “X” 表示两词之间不得多于x个词,前后位置任意 如“women within 8 movement”
8、 (顺序不定) 4)Elsevier: ADJ表示两词相邻,前后顺序固定,与词检索的结果相同;NEAR或NEAR(N),表示两词相邻,中间可插入少于或等于n个单词,前后顺序可以发生变化,如果不使用(N),系统默认值为10,18,5)PQDD W/n (两词间距小于n个单词,且前后位置任意),Pre/n (两词间距小于n个单词,且前后位置一定,19,6)ProQuest W/n(表示连接两个词之间可以插入n个词 ,前后位置可颠倒) 如:Education w/5 intenet 表示education和internet之间可以插入5个词 ,并且前后位置可以颠倒,20,Pre/n表示前后两词之间最
9、多插入n个词,前后位置一定 如:U.S pre/n economic policy可检出U.S aideconomic policy,or U.S wartime economic policy,21,截词符或通配符,CSAISI ProceedingsProQuestCA用通配符“?”和截词符“* ” 输入 “patent*”,可以检索到 patent、patents、 patented等,(无限截断) 输入wom?n,可以检索到woman和women。 输入“fib?”,可检索到fiber和 fibre。(有限截断,22,EI用“* ” 和“$”(词根算符) 如:Optic*检索结果中包括
10、以optic 开头后面加任意多个字母的词例如optic, optics,optical 等$manager(强调语义)检索出与该词根具有同样语意的词如$manage 将检出managers, managerial和management 等词 通配符不能用在检索词的最前面,4括号检索(Parentheses)用于改变运算的先后次序,括号内的内容做优先运算。用“()”可以表示优先级。如比较 (GPSORGIS)ANDChina GPSORGIS ANDChinaEI 中的表示方法:Relevance AND( Aalbersberg WN AU)OR (cool WN AU,5、字段限制检索 组成
11、数据库的最小单位是记录,一条完整记录中的每一个著录事项为字段。献书目型数据库的记录基本包括下列字段:(1) 存取号字段(AN, Access Number)这是计算机检索系统为每个数据库的每篇记录规定的能被计算机识别的特定号码。在同一数据库中,每篇文献记录只有一个存取号;(2) 篇(题)名字段(Title Field, /TI)(3) 文摘字段(Abstract Field, /AB,25,4) 叙词字段或受控词字段(Destriptor Field, /DE; 或 Controlled term Field-SU) 这一字段是标引人员给文献标引的反映其主题概念的词,这些词来自规范化的词表。也
12、称主题词。 (5)自由词字段或非受控词字段(Identified Field, /ID; Keyword Field , /KW ;Uncontrolled term Field) 这一字段也是标引人员给文献标引反映其主题概念的词,但这些词不是规范化词表中的词,26,6)著者子段(Author,AU)(7)著者机构子段 (corporate source,CS 或Affiliation source,AF) (8)刊名字段(journal,JN或Source Title,ST,27,9)出版年子段 (publication,year,PY) (10)文献类型子段 (ducument type,
13、DT或Type,TY) (11)语种子段(language,LA) (12)分类号子段(classification,CC,28,使用作者检索时应注意姓名的书写形式,在ISTP中,姓前(全称) 名后(缩写):Gong,jy; E DC 在SCI中, (1)姓 (全称)空格 名(首字母并且连写) 如:Tait NG; LI DR (2)名前(全称),姓后 如:Zequn,guan; Qingquan,Li 在EI中, 姓名就比较复杂,一般有以下几种情况:姓 名都用全称(姓前名后);姓全称名缩写(或名之间用连字符);名前姓后全称 如 ke hengyu=ke heng-yu=ke,hengyu k
14、e,h.y.=ke,h-y;e,d.c. hengyu ke;dongchen,e,29,6短语检索(phrase search)即精确检索短语用“”表示,检索出与“”内形式完全相同的的短语,以提高检索的精确度和准确度,30,7自然语言检索(natural language )直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。这种基于自然语言的检索方式又被称为“智能检索”,适合不太熟悉网络信息技术的人员使用。支持自然语言检索的有中文的悠游,英文的AltaVista, Excite,Infoseek,HotBot,AskJeeves等,31,8多种语言检索(multilingual
15、search)提供多种语言的检索环境供用户选择,系统按用户选定的语种进行检索并反馈结果,支持多语种检索的 如:中文天网,英文AltaVista,Google等,32,9模糊检索(fuzzy search)又称概念检索。当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。比如:我们查找“查询”一词时,模糊检索会反馈来包含了“查询”、“查找”“查一查”、“寻找”、“搜索”等内容的网址。反馈网址的排列,一般是完全符合关键词的在最前边,其次是相近的。现在大多数搜索引擎都有这种功能,只是模糊的程度不同,33,10 字母大小写检索如果用户的检索式用小写字母表示,
16、搜索工具既匹配大写又匹配小写,如:china(瓷器),china(中国);如果用大写字母表示,搜索工具认为用户指定了只要大写,就只会查找那些与用户键入的输入形式完全相同的结果,如:china,只检索出china。Alta Vista等搜索引擎支持区分大小写的检索,34,实际检索中,往往将多种检索技术混合使用。如:TI(Web OR WWW) AND market*TS=(nanotub* SAME carbon) NOT AU=Smalley RE,35,例:以汽车导航系统为研究课题,构建计算机逻辑检索式,题名词:汽车导航系统研究 题名扩展词:机动车;全球定位技术(GPS);设计调查 计算机逻
17、辑检索式: (汽车机动车)(导航系统全球定位技术 GPS)(研究设计调查,36,示例:有关“企业知识产权研究,检索式 检索结果 (*表示AND,+表示OR,限定篇名字段) (2004-2006) 1 企业知识产权 191篇(准确度最高漏检大) 2 企业*知识产权 404 (漏检率较高 ) 3 (企业+集团+公司)* 知识产权 466 (适合综述性文献) 4 (企业+集团+公司)* (知识产权+专利权 520 (查全率查准率较高) +商标权+著作权+名称权) 5 (企业+集团+公司)* (知识产权+专利权 137 (缩小范围效果最佳) +商标权+著作权+名称权)* 保护,37,检索结果表明: 检
18、索词的选择、逻辑算符的使用、同义词近义词的扩展、检索字段的选择等变化,对检索结果数量的多少、检索的查全和查准有很大影响,38,检索结果过少,漏掉了相关文献? 放宽检索要求,提高检全率 去掉某个方面的检索要求; 放宽检索范围:学科领域、时间、文章类型,关键词出现的字段等; 将描述检索主题的词想全,包括同义词及缩写形式; 如:MRI OR magnetic resonance imaging 使用单数单词检索,可以检索到大多数单词单数、复数和所有格,不规则单词除外; 如:city 可以检索出 city,cities,citys,cities 使用通配符,39,检索结果过多,很多文献不相关? 进一步
19、限定检索,提高检准率 更加准确地描述检索需求; 严格限定检索范围:学科领域、时间、文章类型,关键词出现的字段等; 选择与检索主题密切相关的词和专业术语,如:kidney disease OR renal failure,避免使用过于宽泛的词汇,如:influence; 使用词组检索或位置检索; 在检索结果的基础上进行二次检索,40,二、数据库的检索方法,检索界面,浏览方式 ( Browse,检索方式 ( Search,41,浏览方式 ( Browse ) 一般包括作者、作者单位、出版物名称及出版社索引或者按学科划分的分类索引 如:EI Elsevier CSA PROQUEST IEEEIEE
20、 重庆维普以及中国期刊网等等都提供了各种不同的浏览方式,42,检索方式 ( Search,基本检索 (basicquicksimpleeasy) 属于一般性的检索,它是根据自己的检索需要,输入字、词或简单的检索式(不能使用位置检索)来完成检索的,是一种初级性的检索方式。 高级检索(advanceexpendfullexpert) 属于专家性的检索,可以根据自己的检索需要,构件比较复杂的检索式(可以使用逻辑、括号、截词以及位置算符)来完成高层次、高质量的检索,检索结果快速、准确。高级检索分为菜单式检索和命令式检索两种,43,44,45,46,47,48,49,50,51,52,三中文数据库的使用
21、方法,中国期刊网 重庆维普数据库 万方数据库 全国期刊联合目录 高校期刊联合目录 书生之家,53,一) 收录特点,中国期刊网目前世界上最大的连续动态更新的中国期刊全文数据库。收录1979年至今约7200种期刊全文。至2005年4月止,累积全文文献1370多万篇。分为九大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、经济政治与法律、教育与社会科学 、电子技术与信息科学;126个专题文献数据库。 知识来源:中国国内约7200种核心期刊与专业特色期刊的全文以及优秀博硕士学位论文和重要报纸,54,重庆维普资讯有限公司是科学技术部西南信息中心下属的一家大型专业化数据公司,是中文期刊数据库建设事业
22、的奠基人。自1989年以来,一直致力于报刊等信息资源的深层次开发和推广应用,业务集数据采集、数据加工、光盘制作发行和网上信息服务于一体。目前,已成为中国最有影响力的数据库建设者之一。 维普公司收录有中文报纸400种、中文期刊8000种、外文期刊5000种;已标引加工的数据总量达1300万篇、3000万页次、拥有固定客户2000余家,在国内同行中处领先地位。维普数据库已成为我国图书情报、教育机构、科研院所等系统必不可少的基本工具和获取资料的重要来源。 数据主要来源于期刊,55,万方数据资源系统是建立在因特网上的大型科技、商务信息平台。自1997年8月面向社会各界开放以来,在国内外产生了较大的影响,同时在全国各省市建有几百个服务中心,直接用户达数万人。万方数据资源系统以其巨大的信息量和方便的检索查询功能成为我国信息界的知名品牌,56,万方数据主要资源建立在万方数据庞大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理记录的团队协作
- 2026五年级数学上册 循环小数的认识
- 2026二年级数学下册 调查方法的学习
- 2026年医疗废物规范化管理培训试题及答案
- 快捷酒店岗位责任制度
- 意识形态与主体责任制度
- 房地产安全责任制度
- 扶梯安全生产责任制度
- 技术经济承包责任制度
- 护士法律责任制度
- 《社会工作研究方法》教学大纲
- 材料设备验收移交单
- 输煤栈桥彩钢板更换施工方案
- PCI术后常见并发症及处理
- GB/T 35163-2017载重汽车轮胎湿路面相对抓着性能试验方法
- 【公开课】排列、排列数+课件高二下学期数学人教A版(2019)选择性必修第三册
- 溢油应急处置培训讲义
- 袁晓萍:认识圆柱
- 胜任特征辞典
- 顶松DS822-D数字仪表调角和标定方式
- 小学美术第6课 飞天(一) 课件 课件
评论
0/150
提交评论