




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于知识单元间隐含关联的知识发现【原文出处】情报学报【原刊地名】京【原刊期号】20075【原刊页号】653658【分 类 号】G9【分 类 名】图书馆学、信息科学、资料工作【复印期号】【英文标题】A New Knowledge Discover Based on Knowledge ElementWen Youkui and Cheng Peng(School of Economy and Management, Xidian Univerisity, Xian )【标题注释】本文为国家自然科学基金项目()研究成果。【作 者】温有奎/成鹏【作者简介】温有奎,男,西安电子科技大学经济管理学院教授
2、,研究方向为知识管理,文本挖掘,西安成鹏,男,西安电子科技大学经济管理学院硕士研究生,研究方向为语义网。西安【内容提要】面对现代科研环境e-Science,知识合作和新知识发现成为严峻的挑战。本文提出了基于共引知识元间语义关联的隐含知识发现方法。该方法将文献单元分解成知识元,以资源描述框架模式(RDFS)建立由性质P为中心的知识元本体模型,利用知识元间的共引关系挖掘知识元间隐含关联关系,通过隐含关联实现新知识发现。软件试验表明这一方法鼓舞人心。【摘 要 题】信息技术与方法【关 键 词】知识元/隐含关联/知识发现【正 文】1引言随着现代科研环境e-Science的出现,科学家跨领域知识合作和新知
3、识发现方法成为科学研究中最严峻的挑战1,2,3。科学知识发现的目标是发现新奇、有意义、可行和可理解的知识。知识发现一直是人工智能、认知学、机器学习及其他学科研究热点。基于数据库的知识发现(KDD, Knowledge Discovery in Database)和文本挖掘(Text Mining or Text Data Mining)成为知识发现研究的重要对象。目前人们对文本挖掘有了新的认识,认为发现文本中的合适应用目标和知识是文本挖掘的主要内容。文献4提出,大多数的文本知识都包含在大量简单的语句表达中,因为简洁的表达出主要知识和传达主要信息是语言发展的基本准则。因此,文本挖掘可以基于简单的
4、特征就能发现有价值的创新知识,多个研究成果也表明了这个假设的有效性57。1975年Brooks8,9曾提出对文献的内容进行知识分析和组织,以便找到知识创造过程中的连接点,从而深入揭示知识的有机结构。1985年美国芝加哥大学的Don R.Swanson教授创立了基于“非相关文献的知识发现方法”,并开发出Arrowsmith软件系统10,11。非相关文献的知识发现方法创立了一种新的独特的文本知识发现方法,为知识管理的研究开辟了一个新的方向。引起了国内许多文献4,1218的关注。但Don R.Swanson教授的“非相关文献的知识发现”方法及Arrowsmith软件系统还存在原理上的不足,因而导致了
5、使用上的困难性和效率不高。为此,我们提出了基于共引知识元间语义关联的隐含知识发现理论方法,把文献单元分解成独立使用的知识元,利用知识元间的共引关系是一种揭示隐含语义关联关系的有效方法。本文的第2节为非相关文献的知识发现方法讨论,第3节为知识元间的共引关系;第4节为基于语义网的知识元模型;第5节为基于知识元间共引关系的知识发现试验;第6节为小结。2非相关文献的知识发现方法Swanson教授研究工作的意义在于:首先,他的研究成果表明,通过揭示公开发表的文献中的隐含关联关系确实可以发现新知识,为知识管理研究开创了新的研究方向;其次,他建立了一定的研究方法;建立文献中知识片段间的逻辑传递关系AB,BC
6、,则AC;第三,也更具现实应用意义的是,Arrowsmith拓展了Medline的查询功能;它能够帮助使用者发现文献间的新联系并建立新的知识假设13。继Swanson的开拓性研究之后,国外其他情报研究人员也开始了此类研究工作,并在Swanson的研究理念基础上进行了拓展性研究。非相关文献知识发现方法引起了我国知识管理界许多研究者的兴趣,成为国内外研究的热门和焦点。在一片赞扬声中美国费城科学情报所的Henry Small对Swanson的方法持一种怀疑的态度。Arrowsmith的一个显著的缺点是只能作用于文献的标题,而不能作用于全文、文摘甚至是主题词。Arrowsmith的另一个问题是使用者需
7、要花费大量的时间和精力,因为两类非相关文献的合并会产生词语数量相当庞大的列表B,需要使用者认真地浏览和筛选。并且当网络的速度减慢时,则系统的反应时间也会变慢12。对Swanson教授非相关文献知识发现方法的研究,我们认为该方法的核心在于一个最基本的假设。医学文献中存在着大量的未被发现的隐含的关联。这种隐含关联关系表现形式为:“两类文献是互补的,并且是相互独立的(即非相关的)”。互补性表现在:如果把两类文献放在一起加以研究就会获得有用的信息,即A作用于C,而这种信息是不能根据单独一类文献得到的,我们称AB和BC这两种文献是互补的。非相关性表现在:一个专业领域的文献的作者和读者一般并不熟知另一专业
8、领域的文献,也就是说两类文献从没有或很少被共同引用并且也不相互引用,我们称这两类文献是相互独立的,也就是非相关的12。互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。如“镁”与“偏头痛”之间的隐含关联的发现过程。先找出A(“镁”)和C(“偏头痛”)的联系中介B(“癫痫”),通过“癫痫”获知:“镁”缺失是诱发“癫痫”的病因之一,即(AB);而“癫痫”与“偏头痛”相关,即(BC);由此推理出“镁缺乏”和“偏头痛”的关系(AC)。这一推理过程可以表示为:由AAB,BBC,得到AB和BC存在互补关系,进而由AB,BC假设可能存在(A,B)(B,C),即(AC)。我们将隐含关联中
9、的互补性和非相关性描述成图1。可以看出Swanson教授非相关文献知识发现方法原理上还未给出实现AC隐含关联的理论方法,还只是一种假设;由此带来的Arrowsmith软件的实现上困难性和实用性差。因此探讨隐含关联的知识发现原理是一项重要的课题。图1隐含关联中的互补性和非相关性描述3知识元间的共引隐含关系3.1共引关系美国人斯莫尔(Senry Small)与前苏联人马尔沙柯娃(I.V.Marshakova)于1973年分别引入了共引文(co-ciation)的概念19,即若两篇论文M1,M2同被一篇后来的文献m所引用,则M1与M2之间的关系称为共引关系。科学引文索引SCI创造者Eugene Ga
10、rfield博士发现了文献之间内在联系,通过引文关系揭示某一学科的继承与发展,反映学科之间相互交叉、相互渗透的关系。“非相关文献的知识发现方法”的创立者Don R.Swanson教授进一步发现了事实上文献间隐性的关联数量可能远多于显性的相互引用的关联数,并且这种隐性关联的发现比信息本身的增长更有意义。进而证实两篇医学文献放在一起会揭示出一个问题的答案,而这个答案是从单独一篇文献得不到的。这预示着在医学文献单元中存在着大量的未被发现的隐含的关联。3.2共引隐含关系我们把Swanson这种假设与共引文概念加以比较分析,即A与B有关,B与C有关,则可能通过关联B发现A与C之间存在的隐含关系。可以看出
11、这种隐含现象与共引概念相同,即A与C两篇文献同被后来的B文献所引用,A与C就为共引关系。为实现基于共引关系的隐含关联关系的发现,我们可将文献单元分解成知识元20,通过知识元间的共引关系建立知识元的隐含关联关系。由此我们得到了通过显性的文献共引关系去发现知识元间的弱隐含关联关系方法,通过语义关联方法实现隐含关联的知识发现。图2具有共引关系的性质P为中心的概念模型3.3共引隐含关系举例试验利用CNKI全文数据库进行试验。具体步骤:(1)从CNKI全文数据库中找出一篇文章B:红葡萄酒保护心血管的功效;(2)检查B中的参考文献得到文章A和C,A:高效液相色谱法测定葡萄皮和葡萄籽中白藜芦醇的含量,C:白
12、藜芦醇及药理保健功能的研究、白藜芦醇及其生物活性研究进展、白藜芦醇苷生物活性及药理作用、葡萄酒的功能因子白藜芦醇;(3)推理分析:A被引文章介绍葡萄皮和葡萄籽中含有白藜芦醇,C被引文章介绍了白藜芦醇具有四个生物活性:a.抗癌活性;b.保护心血管系统;c.雌激素样作用;d.促进骨代谢。由此我们可以看出A和C之间的隐含关系是:干红葡萄酒(含葡萄皮和葡萄籽酿造)可以防治心血管疾病。4基于语义网的知识元模型4.1知识元模型我们在疾病和饮食两方面分别建立语义网知识元模型。 疾病领域:?xml version=1.0?!DOCTYPE疾病!ELEMENT疾病(名称,病因*,症状*)!ELEMENT名称(#
13、PCDATA)!ELEMENT病因(#PCDATA)!ELEMENT症状(#PCDATA)疾病 名称脑出血名称 病因脑血管韧性降低病因 症状脑血管容易破裂症状疾病饮食领域:?xml version=1.0?!DOCTYPE饮食!ELEMENT饮食(食物,饮料)!ELEMENT食物(食物名称,营养物)!ELEMENT食物名称(#PCDATA)!ELEMENT饮料(饮料名称,营养物)!ELEMENT饮料名称(#PCDATA)!ELEMENT营养物(营养物名称,营养物作用)!ELEMENT营养物名称(#PCDATA)!ELEMENT营养物作用(#PCDATA)饮食 饮料 饮料名称绿茶饮料名称 营养物
14、 营养物名称茶甘宁营养物名称 营养物作用促进血管韧性,抑制血管破裂营养物作用 营养物饮料饮食4.2知识元的本体框架上述知识元模型是XML格式,我们采用的本体构建工具Stanford University开发的本体软件Protege3.2-beta版自动生成的图3知识单元的本体结构。在图3中,化学营养物质类包含了所有知识元中涉及的营养物;病理病症类包含了所有知识元中涉及的病因和症状。具体的本体结构类树图如图4所示。知识元的本体框架还不具有本体间的语义关系,因此还不能实现本体推理,这也正是下一步语义推理要做的工作。图3知识单元的本体结构图4疾病与饮食本体类树图5共引关系的隐含知识发现5.1作用与反
15、作用的共引关系对我们将知识元间的共引关系建立一对作用与反作用的共引关系对,采用Semantic Web体系结构建立了语义推理机制,实现了利用一对作用与反作用的共引关系达到发现隐含关联关系的知识发现目标。Semantic Web体系结构使得推理逻辑变得容易,但是这种语义推理机制是建立在类之间的关系上的,因此,建立类之间的关系是实现Semantic Web推理的关键。这里的“关系”,也称之为“属性”。只有找到并确定了属性,才能将两个或多个类(本体单元)连接起来,形成一个知识链,进而进行推理。对疾病领域的文章进行分析,得到疾病与病理病症之间的关系为;增加或降低。对饮食领域的文章进行分析,得到化学营养
16、物质与病理病症的关系为:促进或抑制。另外在饮食领域文章中,得到饮食与化学营养物质的关系为:包含。图5疾病领域和饮食领域顶层推理逻辑图图5给出了疾病领域和饮食领域顶层的推理逻辑图。从图中可以看出,将疾病与饮食连接在一起的因素是病理病症,当疾病与病理病症的关系(增加或降低)和饮食与病理病症的关系(促进或抑制)能够相互作用(存在互逆性)时,我们就可以发现疾病与饮食之间的潜在的隐含关联关系。5.2隐含关联关系推理实例用上述方法对疾病和饮食领域各100篇文章进行分析推理,我们一共挖掘出93个知识元,其中疾病领域49个,饮食领域44个,语义关联后获得了33条知识链,经过约简,最后得到23条知识链。图6给出
17、了一个基于本文4.1节给出的知识元模型结构的推理实例。图6推理实例从图6中我们可以看出脑出血是由于血管韧性降低导致血管破裂增加而引起的;化学营养物质茶甘宁能够提高血管韧性、抑制血管破裂。两者的关系能够相互作用(作用与反作用关系),可以推导出茶甘宁可以防治脑出血,而绿茶中含有茶甘宁,所以可以推理出下面的结论:饮用绿茶可以防治脑出血。6小结随着现代科研环境e-Science的出现,科学家的跨领域知识合作和新知识发现方法已成为科学研究中最严峻的挑战。Swanson教授的非相关文献的知识发现方法创立了一种新的独特的文本知识发现方法,为情报学的研究开辟了一个新的方向。但“非相关文献的知识发现”方法存在原
18、理上的不足,因而导致了使用上的困难性。我们提出了基于知识单元间语义关联的隐含知识发现理论方法,利用知识元间的共引关系揭示隐含语义关联关系,从而找到了一种可有效操作的文本知识发现方法。下一步我们将研究共引关系的自动挖掘软件系统,作大规模的试验。收稿日期:2006年8月15日【责任编辑】芮国章【参考文献】1Lan Foster, Carl Kesselman. Tile Grid: Blueprint for a New Computing Infrastructure. Amsterdam, Boston, Elsevier: Morgan Kaufmann, 2004.2Deborah Ber
19、anek Lagky, Knowledge Integration for the PostGenomic Era:A Progress Report. 0-7803-7960-8/2003IEEE.3Pearson D. The Grid: Requirements for Establishing the Provenance of Derived Data, in Data Derivation and Provenance Workshop, Chicago, 2002.4周雪忠.文本挖掘在中医药中的若干应用研究.浙江大学博士学位论文,2004.5Gordon M D, Lindsay
20、 K. Literature-based Discover by Lexical Statistics. J An Soc Inf Sci, 1999,47(2):16-128.6enssen T K, et al. A Literature Network of Human Genss for High-throughput Analysis of Gone Expression. Nature Genetios, 2001,28:21-28.7Stephers M, Palakal M, Mukhopadiyays, et al. Detecting Gene Relations from
21、 Medline Abstracts. Pac Sysp Biocomput, 2001:483-495.8Brookes B. The Fundamental Problem of Information Science/Horsnell V, Informatics 2: Proceedings of a Conference Held by the Aslib Coordinate Indexing Group, March 25 1974.1975a.9Brookes B. The Fundamental Equation of Information Science. In Problem of Information Science (pp.115-130)(FID
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车库房屋合同协议书范本
- 2025秋五年级上册语文(统编版)-【25 古人谈读书】作业课件
- 搭用电合同协议书范本
- 运输司机合同协议书模板
- 盆景买卖合同协议书
- 解除挂靠工程合同协议书
- 乙方商业租房合同协议书
- 取消租车合同协议书范本
- 基因编辑技术在农业上的应用
- 街舞计划书文案
- 智能建造基础考试题及答案
- 2024年苏教版三年级下册数学全册教案及教学反思
- 承运商KPI考核管理办法2024年2月定稿
- 2025年中国石油化工行业市场发展前景及发展趋势与投资战略研究报告
- T-ZZB 3669-2024 嵌装滚花铜螺母
- 医务人员廉洁从业培训课件
- 第十八届“地球小博士”全国地理知识科普竞赛题库(附答案)
- 《智慧医院建设指南》
- 新《民法典》知识竞赛题库附答案
- 《食管胃结合部癌》课件
- 驾驶员三级安全教育卡考试试卷(含公司级、部门级、车队级)
评论
0/150
提交评论