下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于本体的Web文档知识获取的框架研究 08-07-30 14:24:00 作者:董斌 陈进哲 张 编辑:studa0714 摘 要 本文在分析了Web文本的知识获取途径之后,提出了一个基于本体的Web文档知识获取模型。该模型具有较好的适应性和可移植性,模型使用了可扩充标记语言(XML),使得对知识库的处理更加简便。最后,通过一个临床实例对其流程进行了详细说明,并分析其在医
2、院知识库系统中的应用。 关键字 知识获取;本体;Web文档 1 引言 互联网技术的发展为知识获取方法的研究带来了机遇和挑战。必须发展相应的知识自动获取技术。为了使语义网应用到实际中给人们提供知识服务,就需要解决从Web文档中获取知识的问题。尽管从Web页面的注释中我们可以发现部分信息,然而所获得的信息是不全面的,而且很难能获取元信息。有研究者将本体的概念引入到知识发现领域1 5,但还没有充分发挥到本体的优势。本文中本体以概念和关系来划分知识类型,并且以获取知识的本体为指导来从非结构化的W
3、eb文档中发现知识。2 面向eb文本的知识获取途径 互联网中存在大量的Web文档,其中记载着大量的信息。通过超链接逐页阅读相关文献来查找所需信息是初级的且效率较低的知识获取方式。从文本中发现知识并提供给用户从技术上讲有两条主要途径: (1)传统的途径,即通过使用如归纳程序等工具直接获取文本中的知识,或通过知识工程师或领域专家使用知识编辑、编译工具间接获取知识,然后构造专家系统知识库,通过专家系统间接为用户提供知识2。这种方法有如下不足:第一,专家系统知识库的表现形式不统一,存在知识难以共享的问题,且不适合逐页浏
4、览;第二,在知识从文本转移到专家系统知识库过程中,存在信息丢失的弊端 3。 (2)自然语言技术,即直接从自然语言文本获取有用的知识并提供给用户4。但由于目前自然语言理解水平还比较低,主要是利用用户提供的样本进行训练,然后开发相应的程序来获取特定范围的知识。这种途径的缺点是有限的样本库资源限制决定了其应用范围的狭窄性。 为此,需要有一种新的知识获取方法,它能以适当的方式及时地将适用的知识从众多的文本提供给用户。将知识表示技术处理技术及XML技术标准结合起来,构成了一种新的知识获取途径。3 基于本体的知识获取模型3
5、.1 本体的基本概念 本体的英文有两种写法:大写开头的Ontology 指哲学领域的本体论的概念。在哲学中Ontology 是一种存在的系统化解释,用于描述事物的本质。本体论的概念和方法被计算机领域采用,用于知识表示、知识共享和重用。小写开头的ontology 是计算机领域广泛使用的概念,翻译为本体,是某领域内共享概念的明确的形式化规范说明。虽然本体还没有一个明确的定义,AI领域普遍认同Gruber于1995年指出类似的概念:本体是“概念化(Conceptualization) 的显式( Explicit) 说明或表示”6 。直观地讲,本体是一个
6、实体,是对某一领域应用本体论的方法分析、建模的结果,即将现实世界中的某个领域抽象为一组概念及概念之间的关系。3.2 基于本体的知识获取方法 很多知识获取系统(如IE)能识别一些文档实体,例如张三是一个人,2004年6月是一个日期,但是如果不将这些信息通过它们之间的关系联系起来,就没有太多的实用价值了。因为它不能表达出张三出生于2004年6月的完整含义。这就要求有一种自动处理机制用于发现实体之间的关系,也就是要求信息向本体转化。 基于本体的知识获取模型将知识获取工具与本体联系在一起,用本体来支持和指导知识获取,是
7、零散的信息集中到一起形成知识,以不断地获取知识。知识获取工具通过搜索Web文档,将那些能与给定的规则结构匹配的知识提取出来,然后将它格式化为一种便于机器阅读的格式(如XML),并将它存入知识库(KnowledgeBase)。在知识获取过程中起指导作用的本体本身也要采用一种字典扩展机制来扩展本体集合。3.3 基于本体的知识获取模型 基于本体的知识获取模型包括知识获取、信息管理、和知识生成3大部分。其中知识获取工具利用搜索引擎技术从Web文档中一点一点地收集信息项(如句子和段落)。知识获取工具将所获得的信息片断和本体字典库中的元数据一起传送到本体服务
8、器中,本体服务器存储并固化这些信息到知识库以备知识生成工具访问,当用户请求查询某条相关信息时,知识生成工具从知识库中获取信息并生成知识叙述通过用户接口返回信息给用户。其结构如图1所示。 1) 知识获取 首先,用户向系统发出请求并提供相关的信息,如姓名,职业等;然后知识获取工具根据用户所提供的信息,利用Web搜索引擎在Web文档中进行检索,其检索到的信息项以句子和段落的形式,传送到本体库中;在本体库中,根据用户提供的信息在本体字典找到需要的元数据,并连同Web搜索引擎的结果一起发送到本体服务器上。
9、160; 2) 信息管理 信息管理模块主要由本体服务器和知识库组成。本体服务器在接收到知识获取模块发送的信息项和本体元数据后,根据元数据对信息项进行处理,通过对句子和段落进行语义识别,包括语法分析、语义分析和本体分析,生成一个关于本体的XML文档,其中的各属性名为本体的属性,对应的值是从语义识别中获得数据。然后将生成的XML文档保存到知识库中,以备返回给用户接口程序,为用户提供知识。 3) 知识生成 知识生成模块主要负责将知识库中的知识,以自然语言的形式生成知识文档,通过用户接口,输出给
10、用户界面。其中最重要的是知识文档的生成,由于在知识库中预先存有知识文档模板,因此只要将知识文档中对应的属性值填充到模板的相应位置即可。4 实例分析 大多数Web信息以自然语言文档形式存在,一般的信息获取工具可以将文档信息分成实体,但是它们不能识别实体间的相互关系。为此提出了一种基于本体的识别工具来识别实体中的信息碎片及它们之间的关系。本系统以一个临床疾病的本体为例,该本体除了包含该疾病的临床表现、主要特征等外,还包含了这些文本信息所在的网络路径,以便重新组织它们时起指导作用。 例如用户从用户接口发出请求查询感冒的知识,知识生成工具迅速搜索知识库,看能否找到有关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届江苏省常州市前黄高中生物高二第一学期期末检测试题含解析
- 山东省文登一中2026届高二生物第一学期期末调研试题含解析
- 辽宁省东北育才、实验中学、大连八中、鞍山一中等2025-2026学年高一生物第一学期期末考试模拟试题含解析
- 新疆巴州焉耆县第三中学2026届高二上生物期末经典模拟试题含解析
- ICU呼吸机操作培训
- 血液科再生障碍性贫血患者输血疗法规范
- 外科甲状腺手术前后护理要点
- 肾内科CKD患者透析护理管理规范
- 酒店服务托盘培训课件
- 人事行政部工作规划
- 新课程中考数学备考策略
- 物业减灾安全知识培训课件
- 某大型制造集团“十五五”产业数字化转型规划方案
- 水中的牛奶烟花课件
- 预防术中获得性压力性损伤专家共识
- 平衡营养膳食宝塔解读
- 湖北省武汉市多校2024-2025学年五年级上学期语文期中试卷(含答案)
- 人才培养方案修订汇报
- 商业摄影师-国家职业标准
- 2025消化内镜室护士护理应知应会考核试题及答案
- 牙科种植与修复病例的多学科联合治疗
评论
0/150
提交评论