




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章文本信息存储技术 可编辑 第四章文本信息存储技术 2 可编辑 第一节书目数据库结构 3 可编辑 一 结构化与非结构化数据 结构化数据 信息能够用数据或统一的结构加以表示 结构化数据主要包括两种形式 即 关系型数据库 如Oracle DB2 Access Excel 符合SGML的数据 如SGML HTML与XML 几个术语 SGML StandardGeneralizedMarkupLanguage 标准的通用标记语言 HTML HypertextMarkupLanguage 超文本标记语言 XML eXtensibleMarkupLanguage 可扩展置标语言 4 可编辑 一 结构化与非结构化数据 2 非结构化数据非结构化数据 无法用用统一的结构表示的数据 或者 非结构化数据就是无法用统一的结构表示的数据 字段数和字段长度可变并且允许存在子字段和重复字段的数据形式 在信息检索方面 非结构化数据库不仅能够对字段进行查询 而且还可以提供子字段检索 位置检索和全文检索 在信息检索领域 针对的主要是非结构化数据的处理 5 可编辑 二 字段与记录 子字段 字段 记录 文档 数据库 1 字段 1 定义字段 field 用来描述实体的某一特定属性的数据单位 字段名或属性名 每个字段有一个名称 字段值或属性值 字段中的具体内容 字段长度 字段中字符数的多少 子字段 Subfield 是字段的下层概念 6 可编辑 二 字段与记录 子字段 字段 记录 文档 数据库 1 字段 2 分类存取号字段 存取号是计算机检索系统为数据库中的每一条记录规定的 能够被计算机识别的特定号码 一般由6 9位数字或字母与数字混合构成 基本索引字段 也称主题性字段 主要是指那些用来表达文献记录的内容特征的字段 辅助索引字段 也称为非主题性字段 主要表达文献的外表特征 7 可编辑 二 字段与记录 子字段 字段 记录 文档 数据库 1 字段 3 结构固定长字段 字段所含的字符个数规定在一个固定的范围 并且在计算机处理过程中不被改变其位数的字段 可变长字段 字段所含的字符个数未做规定 而是由字段的实际字符数确定的字段 8 可编辑 二 字段与记录 可变长字段的识别方式 A 字段标识方式 即在字段前放置一个指示字段属性的符号 字段标识符 用以标记这个字段是属于什么内容的字段 并将其与别的字段区分开 扩展形式 标识 值连接方式 B 字段目录方式即将字段起始地址做成目录放在所有字段前面处理的方式 注 上述两种识别方法可以结合使用 9 可编辑 二 字段与记录 2 记录定义 记录是作为一个单位来处理的有关数据的集合 P58 记录格式 记录结构 记录中字段的数目 类型 顺序等 逻辑记录有以下三种格式类型 固定格式 固定长字段 各记录中的字段数目 字段顺序和字段长度都固定的格式 因而各记录的总长度也固定不变 固定格式 可变长字段 字段数目和字段顺序固定 字段长度可变 记录长度也可变的格式 可变格式 字段数目可变 字段顺序不变 字段长度不可变 可变的格式 可变长记录标识方法记录长度标识 记录终止符 10 可编辑 三 顺序文档与随机文档 文档 File 若干个逻辑记录构成的信息集合称为文档 或者 文档是性质相同的记录的集合 文档的组织形式与检索系统的硬件和软件功能密切相关 在数据库中 按照文档存放的物理特征 文档可以分为 顺序文档 随机文档 按照文档存放的信息内容 又可以分为 主文档 索引文档倒排文档 11 可编辑 三 顺序文档与随机文档 1 顺序文档顺序文档 Sequentialfile 是文档在计算机存储器中的一种存放形式 文档中的全部记录按顺序一个接一个地存放 记录的物理位置通常按照存取号由小到大排列 或者说 记录的物理位置通常由记录的键值决定 记录之间的逻辑顺序与物理顺序一致 因此又称为链式文档或线性文档 在信息检索系统中 主文档通常以顺序文档的形式存放 也可以称之为顺序主文档 或简称主文档 Masterfile 顺排档 特点 检索时间与物理位置有关系 顺序文档的修改和删除操作比较简单 但是插入操作比较麻烦 12 可编辑 三 顺序文档与随机文档 2 随机文档随机文档 记录按随机方式存放在支持直接存取的磁盘 光盘或内存中 在记录的关键码和记录的地址之间建立某种关系 根据这种关系来确定该记录在文档中的位置以及对文档进行存取的方式 随机文档的特点 数据的存取时间与数据的存储位置无关 文档的更新维护操作更为容易 13 可编辑 三 顺序文档与随机文档 3 顺序文件与随机文件的比较 1 从维护上讲 2 从存取时间上讲例 现在有60000 6万 条记录 假设 随机文件记录读取时间均为0 01秒 读取顺序文件的第一条记录的时间是0 001秒 第二条记录则为0 002秒 问 1 读取文件中全部记录的时间 2 读一条记录的平均时间 结论 当管理的信息数量庞大 且对需求响应速度要求不高时 可以采用顺序存储法并对各种信息需求进行批处理 若信息总量不多 每次信息处理时需求比例不大且对响应速度有较高的要求的时候 多采用随机存储法并对用户的需求进行联机处理 14 可编辑 三 顺序文档与随机文档 4 混合存储法 主文档 顺序文件 索引文档 包括倒排档 随机文档 使用时 先将随机文件调入内存 数据多时可以分成若干个文件 加快找出所需信息在主文件中的存储地址 再到外存主文件上按照地址索取所需信息加以使用 15 可编辑 四 索引文档与倒排文档 1 索引文档文件的索引是指记录关键字与相应记录的存储地址的对照表 存储这个对照表的文件就叫索引文件 一般情况下 索引文件中每条记录包括两个字段 主文件中某条记录的关键字 该记录在主文件中的物理地址 16 可编辑 四 索引文档与倒排文档 17 可编辑 四 索引文档与倒排文档 2 倒排文档 1 倒排档的概念倒排文件就是建立在主文件 顺排文档 基础上倒排索引的文件形式 所谓倒排档 Invertedfile 就是把记录中一切可检字段或属性值 如著者名 主题词等 抽出 按某种顺序重新加以组织后所得到的一种文档 倒排档的组成元素包括 具有某种属性的字段值 包含该字段值的记录数 具有该字段值的记录存取号集合 18 可编辑 四 索引文档与倒排文档 19 可编辑 结构特点 三个字段 属性 两个有序 优点 支持快速的多字段或多途径检索 并可方便 迅速地进行逻辑组配和限定检索 缺点 1 空间代价 表现在要完成集合运算需要工作空间建立多种倒排档 因而需要较多的外存开销 2 维护代价 一旦主文件更新 倒排档也必须随之更新 比较浪费时间 20 可编辑 四 索引文档与倒排文档 3 主辅倒排档倒排档的数量 既可以按照不同类型的字段组成多个不同的倒排档 如著者倒排档 主题词倒排档等 也可以把所有不同的字段组成一个混合倒排档 在DIALOG中 把文献的属性项数据分为两大类 分别组成两个倒排档供检索使用 主倒排档是把反映文献主题特征 内容特征 的属性项数据 例如 篇名 文摘 主题词等全部抽出后构成一个基本的倒排档 辅倒排档是把反映文献外表特征的词 词组 代码 例如作者 期刊名称 语种 出版项等抽出构成一个辅助倒排档 把所有属性项分成两大类分别构成两个倒排档是为了提高检索时的效率 21 可编辑 四 索引文档与倒排文档3 主辅倒排档 1 主倒排档 后缀词倒排档 22 可编辑 四 索引文档与倒排文档3 主辅倒排档 2 辅倒排档 前缀词倒排档 23 可编辑 四 索引文档与倒排文档 4 倒排档的存储固定长存储方式 这种存储方式的倒排档有三个字段 每个字段都是固定长的 可变长链表方式 这种方式是将倒排档分作两个文件来组织 一个文件存放检索入口词 地址个数和地址号集合指针 另一个文件仅存放地址号集合 位图方式 这是存放一个二进位 bit 矩阵 行代表记录个数 列代表属性值的个数 属性值与记录之间的关系用二进制位 bit 来表示 0表示没有关系 1表示有关系 24 可编辑 五 信息检索系统的数据库文档组织 一个信息检索系统的数据库是由多种文档构成的 其中最主要的是顺排主文档 MF 和在主文档基础上生成的倒排档 IF 例如 STAIRS StorageAndInformationRetrievalSystem IBM公司20世纪70年代初推出的一个大型的商品化信息检索软件包 适于用来建立文献数据库和指南数据库 STAIRS的程序由两部分组成 数据库建立和维护程序 多用户联机检索系统 25 可编辑 四 索引文档与倒排文档 26 可编辑 第二节书目数据库格式 27 可编辑 一 机读目录 MARC 概述 1 定义所谓机读目录 MARC MachineReadableCatalog 是指以代码形式和特定结构记录在计算机存储介质 磁带 磁盘 光盘 上的 用计算机识别和阅读的目录 28 可编辑 一 机读目录 MARC 概述 2 MARC的产生与发展1963年 可行性研究 1965年 MARCI1967年 MARCII LCMARC1969年 MARC的发展 UKMARC JMRAC CANMARC1971年 USMARC ANSI MARC 1973年 ISO27091975年 UNIMARC IFLA 1982年 ISO2709 UNIMARC CNMARC1999年 MARC21 29 可编辑 二 CNMARC的总体结构 CNMARC的记录格式见P591 记录头标 头标区 Recordlabel 作用 是说明一条记录的基本内容 以供计算机进行识别和处理 结构 头标区采用固定格式 固定长字段结构 对于所有的记录 头标的长度均为24个字符位 30 可编辑 二 CNMARC的总体结构 2 地址目次区 目录区 目次区 directory 作用 目录区是一条记录中所有字段的目录表 结构 固定格式可变长结构 格式固定 每个目录都包含3个部分 字段标识符 字段长度 字段起始地址 可变长 其长度取决于登录的文献记录中不同属性项的个数 字段数量 注意 目录区中各个目录的排列顺序是按照标识符号的升序排列的 31 可编辑 二 CNMARC的总体结构 2 地址目次区 目录区 目次区 directory 1 字段标识符 采用3位十进制来标识相应的数据字段的意义 数据内容 字段标识符从001到999分别代表不同的属性项 特定的标识符含义见P61 2 字段长度 标识符标识所表示的字段在数据区中的总的字符个数 一般用4位十进制数表示 3 数据字段起始地址 习惯上又称为相对地址 从数据区的第一个字符起 数到该字段的第一个字符前的字符数量 该属性项在数据区的第一个字母的位置 4 字段分隔符 指在每个变长字段的结尾用来分隔字段的控制符 在CNMARC中 该字符即为文本格式中的 目录区中各个目录的排列顺序是按照标识符号的排列顺序排列的 也即是按照001 999的数字排列的 例如 001001300000008004100013050001800054 32 可编辑 二 CNMARC的总体结构 3 数据字段区 数据区 data 作用 存放目录区所指出的字段的具体内容 结构 可变格式可变长 采用字段标识方式存储 每个字段后都有一个字段结束符作为字段之间的分隔符 数据区中的字段分为三大类型 1 记录识别字段 流水号 该字段标识符为001 是唯一标识本条记录的编号 在数据区是固定长的 10字符 2 保留字段 其范围从002至009 保留字段为处理记录提供可能需要的参数 也是固定长的 记录识别字段和保留字段组成了数据区中的控制区 是数据区中的定长字段 其结构见P60 33 可编辑 二 CNMARC的总体结构 3 数据字段区 数据区 data 3 文献数据字段 其范围从010至999 记录了书目的各项数据 由于这些书目数据不能固定其字符个数 所以 它是可变长的 其结构如下 或见P60 字段指示符 P62 描述字段内容含义和进一步信息的指示符号叫字段指示符 它放在数据区可变长字段的前面 提供有关该字段的描述信息 子字段标识符 也叫子字段代码 P62 是用于识别和区分子字段的一组符号 由两位字符组成的代码 其第一位字符即为文本格式中的 第二位字符为字母或数字 34 可编辑 二 CNMARC的总体结构 4 记录分隔符著录于每个MARC记录最后的专门符号 是该MARC记录结束的符号 在CNMARC中 该符号即为文本格式中的 将MARC的四个部分 区 按照以上的顺序连接起来 就成为一条完整的MARC格式逻辑记录 35 可编辑 第三节系统文档的生成 倒排档的生成 根据系统设计所确定的检索点的个数和实现方法 决定了倒排文档的个数和倒排文档的信息内容 由顺排文档构造倒排
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国广电鹤壁市2025秋招笔试行测题库及答案供应链采购类
- 中国广电黄冈市2025秋招财务审计类专业追问清单及参考回答
- 国家能源宜昌市2025秋招面试专业追问及参考化学工程岗位
- 国家能源拉萨市2025秋招笔试资料分析题专练及答案
- 大唐电力亳州市2025秋招面试专业追问及参考机械工程岗位
- 珠海市中石化2025秋招笔试模拟题含答案油气储运与管道岗
- 2025年甲亢用药考试题及答案
- 德宏自治州中储粮2025秋招质检化验岗高频笔试题库含答案
- 中国广电珠海市2025秋招笔试行测题库及答案网络优化与维护类
- 亳州市中储粮2025秋招面试典型题目及答案
- 不锈钢水池施工方案
- 高考3500词汇表(完整版)
- 公务员考试:判断推理公式
- 中考英语过去将来时趣味讲解动态课件(43张课件)
- 赛题 模块一 职业素养测试-2023年全国职业院校技能大赛拟设赛项赛题
- 有害物质管理培训课件
- GB/T 33363-2016预应力热镀锌钢绞线
- GB/T 23510-2009车用燃料甲醇
- 实用英语口语900句
- 食品安全事故流行病学个案调查表
- 风机运行记录表
评论
0/150
提交评论