




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 / 8 数字图书馆信息资源本体论的构建 【内容提要】在借鉴国外信息处理领域本体论的理论研究和实践应用最新成果的基础上,根据数字图书馆信息资源管理的不同层次,从宏观上建立数字图书馆信息资源本体论的 3个层次结构,并从微观上为每一层次提出可操作的方法体系。 【摘 要 题】信息资源建设 . 【关 键 词】本体论 /数字图书馆 /层次结构 /信息资源 随着信息技术的发展和数字化时代的到来,数字图书馆应运而生。数字图书馆的核心是数字化信息资源的组织与管理,而目前已有的信息处理方法在对信息客体进行深层描述时 存在一定的缺陷。本体论( ontology)从信息客体或信息对象出发,通过建立信息客体之间的概念联系和等级关系,将对信息客体的揭示深入到知识内涵的层次并实现对信息客体内在联系的推理。由于本体论为信息资源组织引入了新的方法和思想,它无疑会对数字图书馆建设产生积极的作用。 1 本体论的概念 本体论原本是哲学中的一个概念,是指从人类行为中2 / 8 抽象出来的现实本质。但信息处理领域中的本体论与哲学领域中的内涵不同,国外一些学者已从多种角度对其进行了描述,如:“本体论是一种概念化的关系明确的模式”;“本体论 是解释概念潜在的含义的逻辑关系”;“本体论是可以在人和机器间进行交流的某一领域共同的概念表达”;“本体论是可以共享和再利用的概念化模式”。而 Borst 则将本体论定义为“共用概念的正规明确的具体的概念化模式”,其“概念化”指的是通过标识某一现象的相关概念而建立的这一现象的抽象模型,“明确”指的是所用的概念的类型和用法的限制有明确的定义,“正规”指的是本体论的实例可以实现机读,“共用”指的是本体论所捕捉的知识带有一般性,而不是某些个体所独有的。 从本体论这些定义可以看出,本体论这一信息处理模式在保持原有核 心特征的基础上,本身在逐步发展和完善。简而言之,本体论是一个概念的集合,这些概念包括等级结构、概念间的关系、每个概念所具有的属性及进一步限制的定理。当使用本体论表示数字文献资源时,是在描述一个事物的两个方面:一是资源外在形式 题名、作者、出版者、文件格式、知识产权等,另一方面是资源内容 文献的主题。两个方面都可以使用本体论来建立等级关系的知识模型,在等级结构的知识模型中可以定义信息客体、信息客体的内容和相关的属性与关系。 3 / 8 2 文本文献本体论的构建 为数字图书馆信息资源构建本体论不是单 一的一个层次,而是在传统图书馆的基础上,针对数字图书馆信息资源管理的不同发展阶段,形成一个多层次的体系,其中的第一层就是为文本文献构建本体论。 可行性分析 文本文献资源是传统图书馆馆藏的主体,随着图书馆数字化进程的深入,对揭示大量文本文献内在关系的需求更为紧迫,因而为文本文献构建本体论成为数字图书馆信息资源本体论构建的第一步。 构建本体论的核心是建立概念的等级结构及定义概念属性,从而利用逻辑推理来推导概念之间的关系。对于文本文献来说,构建本体论的实质就是建立文献之间的等级结构,并定义 文献之间的关系。与其它类型的信息资源相比,文本文献本身就有较为规范和概念明确的特点,所以为文本文献信息建立等级结构和定义属性较为便利。因为文本文献的等级关系在 MARC 上有较好的体现,所以在 MARC 数据的基础上构建本体论具有较强的可行性和实用性,由此文本文献本体论的构建包括一个 MARC 记录的转化过程。构建本体论的最终目的是实现推理,利用文献的等级结构和定义的属性可以在转化后的 MARC 上实现推导文献间关系的目标。构建文本文献本体论的最后一步是将推理的结果生成知识库。 4 / 8 文献等级结构的建立 构建文 本文献信息本体论的基础是文献等级结构的建立。文献的创造过程始于一种思想,即“构思”。这种“构思”一经抽象,则被称之为“表述”。当“表述”出版后,它就成为“版本”。“版本”的物理形式为“载体”;如果是数字化的,这种“载体”则称为“数字化形式”。“载体”的某一版本称为“实例”。 文献等级各层次之间的关系比其看上去要复杂,低层次对高层次而言是一种继承关系。“实例”是“载体”、“版本”等中的一种,因此,“实例”有一个统一题名,这一统一题名可以直接检索到而无需利用文献等级结构导航。在著录逻辑中,文献等级中的每一 个概念被定义为“属于”关系,或是一种对上层概念的“延伸”关系。继承的值与“延伸”关系相关上位类的值“相同”。 MARC 记录转入本体论 将 MARC 字段和值转化为标识的文本要借助 4 个控制文档,这组文档著录了 MARC 格式和它与本体论的关系。主控文档将选定 MARC 字段和编码扫描为一个或多个本体论概念。一些扫描过程视 MARC 值而定,依据不同情况将单一字段扫描为多个本体论概念。第二个控制文档对多个 MARC 字段扫描为同一个本体论概念的情况建立优先权。第三个控制文档依据 MARC 记录的类型和书目层次标识 MARC 字段内编码5 / 8 的位置。第四个控制文档包括每一个编码的信息,包括编码 值表的长度和位置。 知识库的生成 将 MARC 数据转为用本体论概念标识的文本后,依据本体论所规定的文献等级结构及定义的相关属性可以进行如下推理: 用统一的标准对中间概念的多项进行合并。统一标准算法使用基数限定,这一基数限定是本体论定义的一部分。如果某项的类型属于另一项,且允许多重值,那么该项被合并。 标识合并相同的构思。有相同统一题名、作者、序列号的构思被视为相同的构思。当缺少统一题名时,使用版本项的题名代替 。 如果文风和相关作者值相匹配,或者版本层的某种衍生关系可以识别的情况下,标识和合并有相同构思的表述。 在出版者和出版日期相匹配,并且一项的出版形式值是另一项出版形式值的子集时,标识和合并有相同表述的版本项。同时还可在载体层某种衍生关系可以确定的情况下合并版本项。 依据 MARC 记录描述的衍生关系建立与先前文献的关系。如果在文献族中未发现原作,则生成原作相关知识的6 / 8 本体论(包括在文献等级结构中衍生文献所在等级以上的全部层次和来自 MARC 记录的信息)。 最后将推理的结构进行归纳,将具 有相同关系的文献合并,从而生成知识库。 3 XML 中本体论的构建 数字图书馆管理的不仅是文本文献,还有多媒体信息,因此,为此类信息资源构建本体论就成为数字图书馆信息资源本体论构建的第二个层次。 可行性分析 由于 MARC 等处理手段著录多媒体信息的缺陷,数字图书馆必须采用能标识各类型信息资源的标准和技术。 XML具有灵活性和可扩展性优势,突破了 MARC 的局限,可以描述各种类型的文献资源。使用者可利用 XML 中的 DTD 自行定义所需的标记语言及 XML 文件的结构。如果使用者就 DTD 达成一致,则文献可以用一致的方式创造、传 递和翻译,同时保留传递者指明的语义。在 XML的 DTD中构建本体论可以实现在概念层整合各种类型信息资源,它将来自句法和表述层的信息提高到更为抽象的概念和关系层进行描述,满足了揭示多媒体信息内在关系的需求。 等级关系的建立 实现基于本体论的 XML描述首先要定义描述客体之间7 / 8 的等级关系,这就需要建立等级关系模型。以一个由人和出版物概念等级结构组成的本体论关系模型为例,本体论在框架逻辑中描述概念,规定“人”是“客体”的一个子概念;“职员” 和“学生”是“人”的子概念等等。概念“博士生”同时继承了“学生”和“研究者”的属性,相继承的属性被定义在本体论的第二部分,指的是概念之间的关系,在此通过相应类型的属性建立起概念之间的关系。本体论的第三部分是定理,使用这一定理可以在已有事实的基础上推断新知识。例如,假设研究者 A 和 B 合作,则可推断出 B 也是研究者,同时 B 也与 A 合作。因此,本体论可以推断不完整的知识。 本体论 DTD 的生成 因为继承关系是本体论的核心,而 XML 本身并不支持这种关系,所以这一关系模式需要借助其它方法才能在 DTD中生成。 使用 XML 的参数实体可以实现这一目标,参数实体定义了可以用于 DTD的替换字符串,每当参数实体被参照时,这一参照则使用替换字符串来代替。 DTDMAKER 是一个在 XML文献的 DTD 中构建本体论的有效工具,它将本体论的概念扫入 DTD 的元素类型中,即对每一个概念元素类型都做定义,这些元素类型的内容模型由表达概念属性的元素构成。本体论中的属性和 XML 的属性一样可以表述出来,也就是说本体论的属性可以被扫入相应的 XML 属性中。最后一步是将本体8 / 8 论属性元素内容模型的规
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消防国考考试题目及答案
- kmp算法数据结构考试试题及答案
- 护理管理正考试题及答案
- 护理编内操作考试题及答案
- 2025教资考试教知真题及答案
- 2025交规考试真题及答案
- 2025护士求职考试真题及答案
- 考点解析-人教版八年级上册物理声现象《噪声的危害和控制》综合练习练习题(含答案解析)
- 单招培训第八类考试题及答案
- 洱源县期中考试卷及答案
- 《地震反演技术》课件
- 冷冻食品供货方案
- 2024年小学生航空航天知识竞赛题库附答案 (共150题)
- 军体拳第一套全套图文教程
- 主动脉内球囊反搏术的应用与护理
- 针刺伤预防与处理-2024中华护理学会团体标准
- 店长周工作总结数据报表模板
- 羽绒原料购销合同
- 2-2新能源汽车充电系统检修
- 敦煌舞智慧树知到期末考试答案章节答案2024年兰州文理学院
- 机械工程学科研究前沿
评论
0/150
提交评论