信息检索语言.ppt_第1页
信息检索语言.ppt_第2页
信息检索语言.ppt_第3页
信息检索语言.ppt_第4页
信息检索语言.ppt_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第三讲:信息检索原理、检索语言与技术,王建涛,2,2.1 信息检索的含义,含义:从信息集合中迅速、准确地查找出所需信息的过程和方法。 信息集合是指有组织的信息资源整体,可以是:馆藏目录、数据库、(印本)检索工具等。,3,2.2 检索与查找的区别,4,2.5 信息检索的意义,避免重复研究,提高研究效率 节省查找资料时间,提高信息获取效率 获取新知识的捷径,培养创新型人才,5,2.4 信息检索类型划分示意图,6,数据信息和事实信息检索是确定性的检索,检索结果可以直接利用,一般通过三次信息来完成。 文献信息检索是一种相关性检索,检索结果是文献信息的线索,一般通过二次信息来实现。 全文数据库:是一

2、次信息和二次信息的综合体。在检索结果中,有直接的全文链接。,7,1.2 信息处理级别(加工深度)示意图,俗称全文,信息,8,2.9 信息检索效果评价,检索效果(retrieval effectiveness)是指检索系统检索的有效程度,它反映检索系统的能力。 也涉及实施检索的人所能发挥检索系统的最大能力、效益等因素。 包括6个方面:收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率(Recall ratio)和查准率(precision ratio),分别用 R 和 P 大写字母表示。,9,相关文献 非相关文献 总计 检出文献 B(hit) M-B(nois

3、e) M 未检出文献 A-B 总计 A,查全率(Recall Ratio): R= B/A100% 查准率(Precision Ratio): P= B/M100% 一系列的实验结果表明查全率与查准率之间存在互逆关系 。 力争克服漏检(必要条件),尽量避免误检(充分条件),10,2.3 信息检索原理,从技术上来说,信息检索是以信息的存储与检索之间的相符性为基础的,如下图“信息检索原理图”:,11,1 信息检索语言,信息检索语言=信息组织与存储的方法或规则,12,1 .1 什么是信息检索语言,回顾“信息检索原理图”,作为信息检索的桥梁信息检索语言 含义:是根据信息检索系统存储和检索的需要而编制的

4、人工语言。 语言词汇语法 信息检索语言的词汇:分类号、检索词、代码 信息检索语言的语法:如何正确描述记录和有效地检索记录的一整套规则。,13,14,1.2 信息检索语言类型示意图,文献信息分类 网络信息分类 数据库信息分类,15,1.3.1 文献信息分类语言,分类语言是一种按学科范畴和体系来划分事物的检索语言 国内中国图书馆分类法中图法中国科学院图书馆图书分类法科图法中国人民大学图书馆图书分类法 人大法中国图书分类法台湾赖永祥编订 国外杜威十进分类法DDC国会图书馆分类法LCC,16,中图法等级分类体系,H1 H2 H3 R1,17,中图法结构示意图,A 马克思主义、列宁主义 毛泽东思想、 邓

5、小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书,U1 综合运输 U2 铁路运输 U4 公路运输 U6 水路运输 U8 航空运输,U41 道路工程 U44 桥涵工程 U45 隧道工程 U46 汽车工程 U48 其他道路 运输工具 U49 交通工程与公路 运输技术管理,U441 结构原理、 结构力学 U

6、442 勘测、设计 与计算 U443 桥梁构造 U444 桥梁建筑材料 U445 桥梁施工 U446 桥梁试验观测 与检定 U447 桥梁安全与 事故 U448 各种桥型 U449 涵洞工程,基本大类 简表 详表,18,中国科学院图书馆图书分类法简表(第三版),00 马克思列宁主义毛泽东思想 10 哲学 20 社会科学(总论) 21 历史、历史学 27 经济、经济学 31 政治、社会生活 34 法律、法学 36 军事、军事学 37 文化、科学、教育、体育 41 语言、文字学 42 文学 48 艺术 49 无神论、宗教学,50 自然科学(总论) 51 数学 52 力学 53 物理学 54 化学

7、55 天文学 56 地球科学(地学) 58 生物科学 61 医药、卫生 65 农业科学 66 农作物 67 园艺 68 林业、林业科学,71 工程技术 72 能源学、动力工程 73 电技术、电子技术 74 矿业工程 75 金属学(物理冶金) 76 冶金学 77 金属工艺、金属加工 78 机械工程、机器制造 81 化学 83 食品工业 85 轻工业、手工业及生活供应技术 86 土木建筑工程 87 运输工程 90 综合性图书,19,人大法简表,1.马克思主义、列宁主义、毛泽东思想 2.哲学 3.社会科学、政治 4.经济 5.军事 6.法律 7.文化、教育、科学、体育 8.艺术,9.语言、文字 10

8、.文学 11.历史 12.地理 13.自然科学 14.医药卫生 15.工程技术 16.农业科学技术 17.综合参考,20,中国图书分类法(台湾),000 总论 100 哲学 200 宗教 300 自然科学 400 应用科学 600 历史、地理 700 历史、地理 800 语文 900 美术,310 数学 320 天文 330 物理 340 化学 350 地质 360 生物、博物 370 植物 380 动物 390 人类学,410 医学 420 家政 430 农业 440 工程 450 矿冶 460 化学工业 470 制造 480 商业 490 商学,441 土木工程 442 道路工程 443

9、水利工程 444 船舶工程 445 市政工程 446 机械工程 447 陆空交通 448 电气工程 449 核子工程,21,杜威十进分类法(DDC),000 总论 100 哲学 200 宗教 300 社会科学 400 语言 500 自然科学 600 应用科学 700 艺术 800 文学 900 历史、地理,510 数学 520 天文学 530 物理学 540 化学 550 地球科学 560 古生物学 570 生命科学 580 植物学 590 动物学,621 应用物理学 622 采矿 623 军事及航海工程 624 土木工程 625 道路工程 627 水力工程 628 卫生及市政工程 629 其

10、它工程 610 医学 620 工程与应用科学 630 农业 640 家政 650 管理科学 660 化学工业 670 制造业 680 特种制造业 690 建筑,22,美国国会图书馆分类法 (LCC),A 综合性类目 B 哲学、宗教 C 历史辅助科学 D 历史与地方志(美洲以外) EF 美洲历史与地方志 G 地理学、人类学 H 社会科学 J 政治学 K 法律 L 教育,M 音乐 N 艺术 P 语言、文字学 Q 自然科学 R 医学 S 农业、矿业 T 工业技术 U 军事科学 V 海军 Z 目录学、图书馆学,QA 数学 QB 天文学 QC物理学 QD 化学 QE 地质学 TA 工程总论 TC 水力工

11、程 TD 卫生工程和市政工程 TF 铁道工程和运输 TG 桥梁工程 TH 建筑工程,23,1.3.2 网络信息分类,很多情况下并不很清楚自己的信息需求,或者无法清楚表达信息需要,需要通过类目浏览,获得一些基本信息,然后再选择检索关键词 搜索引擎【目录专题网站】 google网页目录 搜狗目录 学科信息门户 开放目录 / 特殊资源分类电影分类/软件分类/商业分类,24,1.3.3 数据库信息分类,如CNKI中国学术文献网络出版总库,25,小结NO6,文献信息分类特点 方便文献信息的排架,便于索取; 类目的结构严谨,逻辑性强; 适合学术信息资源(特别是印刷型)的组织。

12、网络信息分类特点 根据网络信息的存在状况和当前上网用户的特点来编制的,有一定的科学性和系统性; 适合大众信息资源的组织。 数据库信息分类特点 结合文献信息分类和网络信息分类的优点 方便浏览和检索,26,1.4 主题语言,主题:论述的对象和研究的问题 主题语言:以文献的主题为依据,以规范化或未经规范化的名词术语作为文献标识来进行检索的一种检索语言。,27,1.4.1 标题词语言,标题词:从自然语言中选取并经过规范化处理的、表示事物概念的的词、词组或短语。 代表:EI中工程主题词表(简称SHE) 电脑-见(see)-计算机 局域网-参见(see also)-计算机网络,28,1.4.2 关键词语言

13、,所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表达文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可作为检索“入口”的)那些词语。 关键词基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。 概括地说,关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。,29,1.4.3 叙词(主题)词语言,叙词是指一些以概念为基础的,经过规范化的,具有组配功能并可以显示词间关系和动态

14、性的词或词组。 如:汉语主题词表、机械工程主题词表 有一些英汉对照,30,主题词语义参照系统,31,正式主题词款目,32,非正式主题词款目,33,词族索引款目,Din z du kng 电子对抗* 通信对抗 通信干扰 脉冲干扰 欺骗性干扰 载波干扰 噪声干扰 扫频干扰 阻塞式干扰 通信抗干扰,34,概念组配是叙词语言的基本原理。 概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:,字面组配 模拟+控制-模拟控制 香蕉+苹果-香蕉苹果,概念组配 模拟+控制-模拟控制 香蕉味食品+苹果-香蕉苹果

15、,35,小结NO7,36,2 计算机信息检索技术,机检 回忆“信息检索原理图”见第二讲PPT50 信息检索系统=硬件+软件+数据库 计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需要人机协同作用来完成。,37,2.1 计算机信息检索的类型,38,2.2 计算机信息检索技术,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 由于信息检索提问式是用户需求与信息集合之间匹配的依据,所以信息检索技术的实质是信息检索提问式的构造技术。 目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、限制检索、短语检

16、索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。,39,2.2.1 布尔逻辑检索,布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、 “非(not,-)”将检索词联络起来。 AND*&空格 A and B 逻辑与。A和B都为真时,结果才为真 ,即:A*B,逻辑含义用图表示是:,40,OR +| A or B 逻辑或。A或B中只要有一个为真时,结果就为真,即:A+B NOT-!A not B 逻辑非。A为真、B为假时,结果才为真,即:A-B,41,布尔逻辑运算符的运算次序,括号优先与计算机编程中一样(A OR B

17、) AND C NOT D 不同的系统次序有差别,但总的来说一般次序为:NOT AND OR 例A:查找有关信息检索的非英文文献信息information 检索retrieval 英文english(信息 and 检索 ) not 英文(information and retriever) not english,42,分析实例:,上海零售业的现状与发展趋势 上海 零售业 现状 发展趋势 上海 and 零售业 and (现状 or 发展趋势),43,2.2.2 截词检索,截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形: 截词符? 中截一字符,后截断n个字符 如 w

18、om?n 可以检索出: woman, women 如 coumput? 可以检索出Compute, Computer, Computing, computable,44,? 后、中截二字符 如:transplant? 可以检索出:transplant、transplanted、transplanter ?后、中截三字符 如: comput? 可以检索出:compute;computer;computing,45,通配符,无限截断,% ?* 后方一致(前截断):“%国庆” 将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。 前方一致(后截断) : 如:“热电材料% ”将检索出热电材料梯度化、热电

19、材料及其梯度化等的记录。,46,2.2.3 邻近检索,位置算符(W) with,(nW)n with 表示检索算符两侧的词不可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the) 如:control(1w)system可以检索出“control system” “control in system”等的信息。,47,位置算符(N) near ,(nN)n near 表示检索算符两侧的词可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the) 如:control system可以检索出“control system” “system control”等的信息。,48,字段算符(F) (L) (F)- in the same field 表示检索算符两侧的词必须同时出现在记录的同一字段内。 (L)- link 表示检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系,可以用来链接主标题词和副标题词。,49,句子位置算符(S)-in the same subfield or same paragraph 表示检索算符两侧的词只要在同一个子字段(文摘中的句子)或全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论