




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章第四章 计算机信息检索计算机信息检索 n计算机信息检索系统计算机信息检索系统n数据库的类型及结构数据库的类型及结构n计算机信息检索的原理计算机信息检索的原理计算机信息计算机信息检索系统的构成检索系统的构成计算机信息检索系统的类型计算机信息检索系统的类型(一)计算机信息(一)计算机信息检索系统检索系统的构成的构成1、概念、概念计算机信息检索计算机信息检索(简称机检),指检索人员在(简称机检),指检索人员在电子计算机或计算机网络的终端上,对用户的电子计算机或计算机网络的终端上,对用户的检索提问使用检索提问使用特定的检索指令和组配关系特定的检索指令和组配关系,由,由计算机从数据库中检索出所需的
2、文献、事实、计算机从数据库中检索出所需的文献、事实、数据或其他记录,用电子化的手段传输,显示数据或其他记录,用电子化的手段传输,显示或打印检索结果,提供给用户使用的过程或打印检索结果,提供给用户使用的过程.计算机信息检索系统计算机信息检索系统利用计算机的有利用计算机的有效存贮和快速查找能力来进行信息的分析、效存贮和快速查找能力来进行信息的分析、组织、存贮和查找的系统。组织、存贮和查找的系统。2 2、构成、构成按物理构成分:按物理构成分:硬件硬件、软件软件、数据库数据库(1)硬件系统)硬件系统: 主机主机:计算机的核心部件。:计算机的核心部件。 外围设备外围设备: 外部存贮器:磁带、磁盘、光盘等
3、外部存贮器:磁带、磁盘、光盘等 输输入输出设备:数据录入设备、键盘、鼠标器、光学入输出设备:数据录入设备、键盘、鼠标器、光学字符识别装置、光笔、缩微扫描器、扫描仪、显示字符识别装置、光笔、缩微扫描器、扫描仪、显示终端等。终端等。其他其他:运算器、控制器。:运算器、控制器。(2)软件系统)软件系统软件是软件是用来管理、控制与规定计算机运行步骤用来管理、控制与规定计算机运行步骤的的各种程序的总称各种程序的总称。包括包括系统软件和应用软件系统软件和应用软件。系统软件:系统软件: 主要用于简化设计及使用方法,管理主要用于简化设计及使用方法,管理计算机资源,提高其使用效率,发挥和扩大其功计算机资源,提高
4、其使用效率,发挥和扩大其功能及用途。包括各种系统服务程序、语言处理程能及用途。包括各种系统服务程序、语言处理程序、操作及数据库管理系统。序、操作及数据库管理系统。如如WINDOWS。应用软件应用软件(检索软件检索软件),),是用户利用计算机来是用户利用计算机来解决某一问题而编制的程序,解决某一问题而编制的程序,包括数据库管理系包括数据库管理系统、自动标引、输入输出控制软件及检索匹配程统、自动标引、输入输出控制软件及检索匹配程序等序等.如文件管理程序、检索程序、记帐统计程序如文件管理程序、检索程序、记帐统计程序等。等。(3)数据库)数据库其含义有多种表达:其含义有多种表达:国际标准组织标准国际标
5、准组织标准ISO/DIS5127规定,数据库是指规定,数据库是指至少由一种文档至少由一种文档(file)组成,能满足特定目的或特定组成,能满足特定目的或特定功能数据处理系统需要的功能数据处理系统需要的数据集合数据集合.数据库是数据库是“按照数据结构来组织、存储和管理按照数据结构来组织、存储和管理数据的数据的仓库仓库”。数据库(数据库(DataBase,DB)是一个长期存储在计算机)是一个长期存储在计算机内的、有组织的、有共享的、统一管理的内的、有组织的、有共享的、统一管理的数据集合数据集合。它是一个按数据结构来存储和管理数据的它是一个按数据结构来存储和管理数据的计算机软计算机软件件系统系统 。
6、数据库是依照某种数据库是依照某种数据模型数据模型组织起来并存放二级组织起来并存放二级存储存储器器中的中的数据集合数据集合 (二)计算机检索系统的功能(二)计算机检索系统的功能1.信息处理、存贮与检索的功能信息处理、存贮与检索的功能: 包括对包括对信息的自动搜集、排序、生成关联数据库,信息的自动搜集、排序、生成关联数据库,并按一定方式进行检索。并按一定方式进行检索。2.输出功能输出功能:将检出文献按一定的格式(目:将检出文献按一定的格式(目录、题录、文摘或全文等)输出。录、题录、文摘或全文等)输出。3.自我完善与更新的功能自我完善与更新的功能:即可维护功能:即可维护功能4.网上检索功能:网上检索
7、功能:三、计算机信息检索系统的类型三、计算机信息检索系统的类型检索系统存储的内容检索系统存储的内容文献信息检索系统文献信息检索系统事实信息检索系统事实信息检索系统数值信息检索系统数值信息检索系统图像信息检索系统图像信息检索系统多媒体信息检索系统多媒体信息检索系统检索访问模式检索访问模式脱机信息检索系统(脱机信息检索系统(20世纪世纪5060年代)年代)联机信息检索系统(联机信息检索系统(20世纪世纪70年代年代光盘信息检索系统(光盘信息检索系统(20世纪世纪80年代年代网络信息检索系统(网络信息检索系统(20世纪世纪90年代年代如:按检索系统的访问模式分如:按检索系统的访问模式分 1脱机检索脱
8、机检索 是采用单机进行存储和处理信息,回答检索提问是采用单机进行存储和处理信息,回答检索提问时,采用批处理方式。这种机检方式,时,采用批处理方式。这种机检方式,人机不能人机不能进行应答,必须由专职人员建立用户提问档,系进行应答,必须由专职人员建立用户提问档,系统定期进行检索统定期进行检索。时间:时间:20世纪世纪50年代年代60年代年代 检索人员检索人员检索策略检索策略成批检索成批检索用户用户 不足:地理上的障碍;时间上的迟滞;封闭式的不足:地理上的障碍;时间上的迟滞;封闭式的检索检索2.2.联机检索联机检索( (Online search)Online search)联机检索是指利用检索终端
9、,通过联机检索是指利用检索终端,通过通信网络通信网络和检和检索系统联机,从检索系统的数据库中进行检索索系统联机,从检索系统的数据库中进行检索 时间:时间:20世纪世纪70年代年代 用户用户 检索策略检索策略“人机对话人机对话” 获取所需信获取所需信息息 著名的国际联机检索系统有美国的著名的国际联机检索系统有美国的DIALOG系统、系统、ORBIT系统、系统、BRS系统以及系统以及IBM公司的公司的“文献文献处理系统处理系统”等等.3.光盘检索光盘检索( (CD-ROM search)CD-ROM search)时间:时间:20世纪世纪80年代以后年代以后光盘检索阶段:光盘检索阶段:单机光盘检索
10、单机光盘检索 联机光盘检索联机光盘检索(光盘库光盘库,2-6个个光驱,多达光驱,多达500张光盘张光盘光盘塔光盘塔,8-64个光个光驱)驱)。WAN)连接连接地理地理范围较大,常常是一个国家范围较大,常常是一个国家或是一个洲或是一个洲通信系统是通信系统是广域网广域网的关键的关键LAN)MAN)(Internetwork):是一系列是一系列局域网局域网和和广域网广域网的组合,的组合,Internet便是一个当前最大也最为典型的便是一个当前最大也最为典型的网间网。网间网。 第二节、第二节、 数据库的类型及结构数据库的类型及结构数据库的类型数据库的类型 数据库的结构数据库的结构(一)数据库的类型(一
11、)数据库的类型按存储文献类型分为按存储文献类型分为:1.全文数据库全文数据库: 存贮一次文献全文或其中主存贮一次文献全文或其中主要部分等。要部分等。2.书目数据库书目数据库: 存贮文摘、索引、目录、题存贮文摘、索引、目录、题录等二次文献,提供文献线索,一般都有相录等二次文献,提供文献线索,一般都有相应的印刷型检索工具。应的印刷型检索工具。书目型全文型(一)数据库的类型(续)3.事实数据库事实数据库 指包含大量数据、事实的数据库,指包含大量数据、事实的数据库,如指南数据库、术语数据库等,相当于印刷如指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、百科全书、组织机型文献中的字典、辞典、百
12、科全书、组织机构指南、人名录、图册(集)等。构指南、人名录、图册(集)等。4.数值数据库数值数据库 提供数值信息,如统计数据库提供数值信息,如统计数据库5.图像数据库图像数据库 提供图像信息。提供图像信息。6.多媒体数据库多媒体数据库 提供文字、图像和声音等多种提供文字、图像和声音等多种信息。信息。数值型(二)数据库的结构(二)数据库的结构 数据库数据库database文档文档file,archive 顺排文档顺排文档 记录记录Record字段字段Field倒排文档(索引倒排文档(索引index)1、记录( (record)record)记录记录:构成数据库的基本单元构成数据库的基本单元,也也
13、是是文文档的构成单位,档的构成单位,是对某一实体的属性进是对某一实体的属性进行描述的结果。在书目数据库中,被行描述的结果。在书目数据库中,被描述的实体是某一特定文献,其属性描述的实体是某一特定文献,其属性就是该文献的外表特征和内容特征。就是该文献的外表特征和内容特征。即一条文献信息(款目)即一条文献信息(款目)。如:一条文摘信息(记录) 一条一条书目信息书目信息( (记录记录) ): : ACCESSION: 31739598ACCESSION: 31739598 AUTHOR: Dichter, Carl. AUTHOR: Dichter, Carl. TITLE: Software eng
14、ineering with Perl TITLE: Software engineering with Perl PLACE: Englewood Cliffs, N.J. PLACE: Englewood Cliffs, N.J. PUBLISHER: Prentice Hall PTR,PUBLISHER: Prentice Hall PTR, YEAR: 1995 YEAR: 1995 PUB TYPE: Book PUB TYPE: Book FORMAT: 282 p. : ill.; 24 cm. + 1 computer disk (3 1/2 in.) FORMAT: 282
15、p. : ill.; 24 cm. + 1 computer disk (3 1/2 in.) NOTES: Includes bibliographical references NOTES: Includes bibliographical references (p. 267-268) and index System requirements (p. 267-268) and index System requirements for accompanying computer disk: High Density for accompanying computer disk: Hig
16、h Density MSDOS; Macintosh with PC Exchange. MSDOS; Macintosh with PC Exchange. ISBN: 013016965X ISBN: 013016965X SUBJECT: Software engineering. SUBJECT: Software engineering. Perl (Computer program language) Perl (Computer program language) Software - Engineering Software - Engineering OTHER: Pease
17、, Mark. OTHER: Pease, Mark.2 2、字段(、字段(field)field)是组成记录的下级单位是组成记录的下级单位( (条目中的一个条目中的一个信息项信息项) ) ,用来描述实体的某一具体属,用来描述实体的某一具体属性。如表述文献内容特征的有文摘、叙性。如表述文献内容特征的有文摘、叙词、自由词字段,表述文献外表特征的词、自由词字段,表述文献外表特征的有著者、篇名、出版年、专利号等等字有著者、篇名、出版年、专利号等等字段,段,( (subfield)subfield),是字段的构成单位。是字段的构成单位。 顺排文档顺排文档是将记录中的信是将记录中的信息按某一字段息按某一
18、字段(一般为存取(一般为存取号)的顺序存号)的顺序存放起来形成的放起来形成的文档文档,通常按记通常按记录存入的先后顺录存入的先后顺序线性排列,所序线性排列,所以也称为以也称为线性文线性文档档,或,或主文档主文档.122 Student Teaching in the Context of a School-University123 Cooperative Learning in Response to an 124 In Search of Responsive Teaching for 125 Teaching Topography: Introducing Students to Con
19、tour Map Construction. Fife, Barbara S. Science Teacher, v62 n5 p38-43 May 1995 ISSN: 0036-8555 Available From: UMI倒排文档倒排文档 n数据库的数据库的“索引索引”即是即是它的倒排文档,它的倒排文档,它是将它是将记录中一切可检索的标记录中一切可检索的标识抽出,按某种顺序识抽出,按某种顺序(如字顺,分类)重新(如字顺,分类)重新排列而形成的文档排列而形成的文档。如。如主题、著者、文种等倒主题、著者、文种等倒排文档。排文档。倒排文档著者倒排档主题倒排档文种倒排档著者存取号主题词存取号文
20、种存取号Han js010003基因010003China010002Han qd010001心血管010001Eng010003Ma dl010002肿瘤010002Eng010001第三节、计算机信息检索的原理第三节、计算机信息检索的原理 信息信息存贮存贮信息信息检索检索一、信息存贮一、信息存贮信息的存贮实际上是生成数据库:信息的存贮实际上是生成数据库:文献数据文献数据库的形成,先产生线性主文档,然后依一库的形成,先产生线性主文档,然后依一定的规则,由线性文档构造倒排文档。这定的规则,由线性文档构造倒排文档。这个过程要对禁用词和词标引作一些处理。个过程要对禁用词和词标引作一些处理。禁用词:
21、禁用词: 是指那些频率较高而对标引和检索是指那些频率较高而对标引和检索没有价值的词,如一些介词,连词,冠词没有价值的词,如一些介词,连词,冠词及一些泛指意义的词等及一些泛指意义的词等。布尔逻辑检索布尔逻辑检索截词检索截词检索字段限定检索字段限定检索全文检索全文检索 ?1、布尔逻辑检索、布尔逻辑检索它是不同的它是不同的单一主题概念单一主题概念,通过,通过“布尔布尔”逻辑算符组配形成逻辑算符组配形成多主题概念多主题概念的检索式。的检索式。常用的布尔逻辑算符有常用的布尔逻辑算符有4 4种:逻辑与种:逻辑与(ANDAND、* *)、)、逻辑或(逻辑或(OROR、+ +)、)、逻逻辑非(辑非(NOTNO
22、T、- -)、异或(、异或(XOR,XOR,不常不常用)用)。如如solar和和energy,它们的三种逻辑组它们的三种逻辑组配关系分别为:配关系分别为: 逻辑与逻辑与( (andand、* *、空格等、空格等) )solar and energysolar and energysolar solar * * energy energy 逻辑或(逻辑或(oror、+ +、 ) solar or energysolar or energysolar + energysolar + energy 逻辑非逻辑非(notnot、- -、) solar not energy solar not ener
23、gy solar - energysolar - energy例如:例如:n1、“城市绿化城市绿化”n检索式:检索式:城市绿化城市绿化+(城市城市+北京天津上海北京天津上海+ )*(园林绿化(园林绿化+绿化建设绿化建设)n(禾谷类作物禾谷类作物+小麦小麦+水稻水稻+玉米玉米+)* 病害病害 -(白粉白粉病)病)n3、土壤环境条件对豆科植物固氮作用的影响、土壤环境条件对豆科植物固氮作用的影响n关键词:土壤环境条件(温度、湿度,关键词:土壤环境条件(温度、湿度,ph值)值) 豆科豆科植物(大豆、花生等)植物(大豆、花生等) 固氮作用(固氮菌、根瘤菌)固氮作用(固氮菌、根瘤菌)n检索式:检索式:(土
24、壤环境条件土壤环境条件+温度温度+湿度湿度+ph值值)*(豆科豆科植物植物+大豆大豆+花生花生+)*(固氮作用固氮作用+固氮菌固氮菌+根瘤菌根瘤菌)2 2、截词、截词(truncation)检索检索截词截词指检索者将检索词在他认为合适的地方截断。指检索者将检索词在他认为合适的地方截断。截词检索截词检索( (也称模糊检索或词干检索也称模糊检索或词干检索) ),是用截断的词的一,是用截断的词的一个局部进行的检索,并认为凡是满足这个词局部中的所个局部进行的检索,并认为凡是满足这个词局部中的所有字符(串)的文献,都为命中文献。有字符(串)的文献,都为命中文献。截词符号截词符号一般为一般为“ ?”,也常
25、用,也常用“$ $”, ,“* *”。加在检索词的加在检索词的词干或不完整的词形后或中间词干或不完整的词形后或中间,可以减少词的输入量。可以减少词的输入量。其基本含义是布尔逻辑其基本含义是布尔逻辑OR的组配的组配截词方式截词方式: :根据截词的位置不同分为:根据截词的位置不同分为:前截断、后截断、中截断前截断、后截断、中截断;根据截断的数量不同分为:有限截断和无限截断。根据截断的数量不同分为:有限截断和无限截断。后方截词后方截词:在一个词干后加一个在一个词干后加一个“*”,表示可,表示可检出在该词后加任意个字符或不加字符的记录,检出在该词后加任意个字符或不加字符的记录,如如computer*,
26、可检出可检出computer,computers,computerisation等词。等词。前方截词前方截词:如:如*computer,可检出可检出computer,minicomputer,microcomputer等等前后截词前后截词 又称无限中截词,它是又称无限中截词,它是满足中间一致满足中间一致的检索。的检索。用截词符用截词符“*、?、?”加在词干的前后,表示检索词与被加在词干的前后,表示检索词与被检索词之间只需中间匹配即可,如检索词之间只需中间匹配即可,如“*relation*”,可,可检索出检索出“relation”,“relations”,“interrelation”等等。等等
27、。 A.无限截词无限截词*(或叫或叫非限定性截词非限定性截词? ?)有限后截词有限后截词: :smoksmok?,其后最多有三个字符变化,其后最多有三个字符变化可检出:可检出:smoksmoke e, smok, smoky y, smok, smokerer, , smoksmokersers,smok,smokeses, smok, smokinging等等SmokSmok?, ,最多有两个字符变化最多有两个字符变化, ,可检出可检出: : smoker, smokes等等.smoksmok? ? ?,最多有一个字符变化最多有一个字符变化可检出:可检出:smoksmoke e, smok,
28、 smoky y等等B B、有限截词有限截词(controlled Length controlled Length truncationtruncation)()(又叫又叫限定性截词限定性截词 )有限中截词有限中截词(中间屏词中间屏词)如: wom?n可检出: women woman如: fib?board 可检出: fiberboard fibreboard3、字段限定检索、字段限定检索n将将检索词限定检索词限定在某一字段中,检索时,计算机只对限在某一字段中,检索时,计算机只对限定字段进行运算。定字段进行运算。nA.A.主主题题字段字段: :是是内内容特征的字段(有容特征的字段(有Titl
29、e,KeywordsTitle,Keywords,Subject,SummarySubject,Summary等等) )nB B、非主题字段非主题字段:是外部特征字段,如作者、文献类型、语是外部特征字段,如作者、文献类型、语种、出版年份等字段种、出版年份等字段. .常用的检索符号有:常用的检索符号有: in、=、 例1:English in la 例2: py1992 例例3:查:查“玉米方面的英文玉米方面的英文”文献文献 检索式检索式=(maize or zea-mays or corn)in de and(English in la)4、全文检索、全文检索又叫位置检索又叫位置检索posit
30、ion operators)、或、或邻接检索(proximity)限定两个关键词在限定两个关键词在文本中的距离,文本中的距离, (1)记录级检索)记录级检索C(cition)两词必须同时出现在两词必须同时出现在同一同一文献记录中文献记录中,不限定词序和字段不限定词序和字段.如如 Solar (C) energy(2)字段级检索)字段级检索nF(field)两词必须同时出现在文两词必须同时出现在文献记录的献记录的同一个字段中,词序和词间插同一个字段中,词序和词间插入词数不限入词数不限,但需指明要查找的字段,但需指明要查找的字段,如如pollution (F) control/ABn文摘中含有如:
31、文摘中含有如:control and management of industrial pollution ,等等均为命中文献,等等均为命中文献 。(3)子字段级检索子字段级检索S(Subfield)表示两词必须同时出现在表示两词必须同时出现在同同一个一个子子字段字段中,即同一句子或短语中中,即同一句子或短语中,词序和,词序和中间插入词数不限中间插入词数不限 。Same(Sent)两个词在同一个段落中。两个词在同一个段落中。 (4)词位置检索词位置检索W(with)或或 Pre检索算符两侧的词必须相检索算符两侧的词必须相邻且邻且词序不能颠倒词序不能颠倒。如如:(w)(w)及及( (nW)nW)
32、与(与(withwith) flue( flue(w w)cure tobacco)cure tobacco 可检出:可检出: flueflue- -cure tobaccocure tobacco flue flue cure tobaccocure tobaccobuildingbuilding( (1W1W) )constructionconstruction可检出可检出: : building building andand construction construction building building underunder construction construction等
33、等N(near)检索算符两侧的词必须相邻但检索算符两侧的词必须相邻但词序可以变。词序可以变。如:如:( (N)N)及及( (nN)nN)邻近(邻近(nearnear)如:如:information(1N)retrievalinformation(1N)retrieval可检出可检出: :information retrievalinformation retrieval,retrieval retrieval of informationof information等等L(link)检索算符两侧的词必须在数据库界检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系定的统一规范字段内。且有一定的从属关系,可以用来链接主标题词和副标题词可以用来链接主标题词和副标题词X X两边的检索两边的检索词完全一致,并以指定的顺序相邻词完全一致,并以指定的顺序相邻.注意:注意:不是每一个检索系统都使用上述位置算符,不同不是每一个检索系统都使用上述位置算符,不同的系统使用的位置算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 如何进行有效的SWOT分析试题及答案
- 风险监测与控制措施试题及答案
- 认识网络管理的基本架构试题及答案
- 软件工程中的用户参与的重要性试题及答案
- 提升艺术素养的班级活动设计计划
- 软件设计师未来趋势2025年试题及答案
- 完善信息化管理系统的工作计划
- 未来企业战略挑战试题及答案
- 2025届北京市怀柔区八下数学期末考试试题含解析
- 2025年网络管理模拟试题及答案
- 胸腔穿刺术评分表
- 15D503 利用建筑物金属体做防雷及接地装置安装
- (完整版)中国书法英文版
- XX医院远程医疗服务信息系统运行维护记录(B1)
- 川教版二年级《生命.生态.安全》下册第10课《面对学习困难》课件
- 端午节趣味谜语及答案
- 天府国际生物城C7-1实验室项目环境影响报告
- 家校携手决战中考-九年级家长会课件
- 2023年高考英语模拟卷(天津专用)(解析版)
- 山西煤炭运销集团锦瑞煤业有限公司煤炭资源开发利用、地质环境保护与土地复垦方案
- 教育公共基础知识整理版
评论
0/150
提交评论