(计算机应用技术专业论文)基于概念短语的科技文献知识管理系统的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于概念短语的科技文献知识管理系统的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于概念短语的科技文献知识管理系统的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于概念短语的科技文献知识管理系统的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于概念短语的科技文献知识管理系统的研究与设计.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(计算机应用技术专业论文)基于概念短语的科技文献知识管理系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 科技文献中存在着大量的信息资源。如何让科研工作者在研究过程 中有效地利用、发现、获取、组织和管理这些信息资源是摆在信息服务 工作者面前的难题。知识的高速增长迫切需要一种全新的知识管理工具 来有效地组织管理通过各种途径获得信息,以便科研工作者在进行研究 工作时检索和利用。本文的研究工作主要包括以下几个部分: 知识模型研究。建立了科技文献知识表示模型:本文分别从概念级、 短语级和框架级等不同层次描述科技文献知识表示模型。概念级指的是 本体概念网络模型,主要包括领域概念网模型和知网的组织与利用两大 方面;短语级指的是概念短语的特征及其结构模型分析;框架级是指文 档表达一科技文献的知识描述框架,包括科技文献知识表述特征的分析 和科技文献知识描述框架的建立两方面的工作。 科技文献知识框架描述短语的获取。本文针对文本信息,采用基于 本体概念网的特征提取方法提取其中的特征信息一概念短语。设计了基 于本体概念网络的科技文献描述短语的获取、评价及其相关度计算算 法。 信息检索。设计了基于框架的科技文献知识概念检索策略及评价方 法。系统在了解用户个人特性的基础上,在概念层次上理解用户的查询 请求,填充查询框架,通过计算查询框架与文献框架的相似度,返回用 户需要的文档。 知识管理。设计了领域概念网编辑工具、文献阅读器( 笔记本) 等工 具。用户通过这些工具可以方便的对信息进行自动收录或进行人工管 理。 系统构建。本文最后设计并构建了基于概念网的科技文献知识管理 系统平台,为用户科研工作提供帮助。 关键词:知识模型,本体概念网,知识描述框架,概念短语获取, 基于框架的概念检索 a b s t r a c t t h ei n f o r m a t i o nr e s o u r c e sl i e si nt h et e c h n o l o g yi i t e r a t u r e sa r et r e a s u r e s t or e s e a r c h e r s h o wt ou t i l i z e ,f m d , o b t a i n , o r g a n i z ea n dm a n a g ee f f e c t i v e l y t h i si n f o r m a t i o nb yr e s e a r c h e ri sah a r dp r o b l e mf a c e db yi n f o r m a t i o n s e r v i c ew o r k e r s n eh i g h s p e e dg r o w i n gk n o w l e a g er e q u i r e s u r g e n t l ya w h o l en e wk n o w l e d g em a n a g e m e n tt o o lt oo r g a n i z ea n dm a n a g ee f f e c t i v e l y t h i si n f o r m a t i o nt h a to b t a i n e db yi n f o r m a t i o nw o r k e r sf r o me v e r ym e t h o ds o t h a tt h er e s e a r c h e r sc a nu s ea n dr e t r i e v ew h e nw o r k i n g 1 h em a i nr e s e a r c h w o r k si n c l u d e di nt h i sp a p e ra r ea sf o l l o w s : k n o w l e d g em o d e lr e s e a r c h b u i l dt h ee x p r e s sm o d e lo ft e c h n o l o g y l i t e r a t u r e sk n o w l e a g e t h ep a p e rd e s c r i b e st e c h n o l o g yl i t e r a t u r e sk n o w l e d g e e x p r e s sm o d e li nd i f f e r e n tl a y e r ss e p a r a t e l y ,f r o mc o n c e p tg r a d e ,p h r a s e g r a d et of r a m eg r a d e c o n c e p tg r a d em e a n so n t o l o g yc o n c e p tn e tm o d e l m a i n l yi n c l u d e sd o m a i nc o n c e p tn e tm o d e la n dh o w n e t so r g a n i z a t i o na n d u t i l i z a t i o nt w or e s p e c t s ;p h r a s eg r a d em e a n sc o n c e p tp h r a s e sf e a t u r e sa n d i t s a n a l y s i s o fs t r u c t u r e m o d e l ;f r a m eg r a d e m e a n sd o c u m e n t e x p r e s s i o n - - t e c h n o l o g yl i t e r a t u r e s d e s c r i p t i o nf r a m e m a i n l yi n c l 硼e s w o r k so nt e c h n o l o g yl i t e r a t u r e sk n o w l e d g e sd e s c r i p t i o nf e a t u r ea n df r a m e s c o n s t r u c t i o n 1 1 l ea t t a i n m e n to ft e c h n o l o g yl i t e r a t u r e sk n o w l e d g ef l a m ed e s c r i p t i p h r a s e t h i sp a p e r d i r e c t sa td o c u m e n ti n f o r m a t i o n , d i s t i l lf e a t u r e s i n f o r m a t i o n - - - c o n c e p tp h r a s eb ya d o p t i n gf e a t u r e sd i s t i l l i n gm e t h o dr e s t i n g o no n t o l o g yc o n c e p tn e tf e a t u r e s a n dd e s i g n e dt h ea t t a i n m e n t ,e v a l u a t i o n a n dr e l a t e d d e g r e e c a l c u l a t i o nm e t h o d so ft h et e c h n o l o g yl i t e r a t u r e s d e s c r i p t i o np h r a s e sb a s e do no n t o l o g yc o n c e p tn e t i n f o r m a t i o nr e t r i e v a l h a sd e s i g n e dt e c h n o l o g yl i t e r a t u r e sk n o w l e d g e c o n c e p ts e a r c h e ss t r a t e g ya n de v a l u a t i o nm e t h o d sb a s eo nf l a m e s y s t e m u n d e r s t a n d su s e r s e n q u i r yd e m a n d s o i l c o n c e p tg r a d e ,a c c o r d i n g t o u n d e r s t a n d i n go f u s e r sp e r s o n a lf e a t u r e ,f i l l si ni n q u i r yf l a m e ,a n ds e e k st h e s i m i l a r i t i e sb e t w e e nf r a m ea n dl i t e r a t u r e sf l a m et h r o u g hc a l c u l a t i o n , a n d t h e nr e t u r n sf i n d i n g so fd o c u m e n t sw h i c ha r en e e d e db yu s e r s k n o w l e d g em a n a g e m e n t h a sd e s i g n e df i e l dc o n c e :p tn e te d i t i o nt o o l s , l i t e r a t u r e sr e a d i n gi n s t r u m e n t ( n o t e b o o k ) t o o l se t c u s e r sc a l l m a n a g e c o n v e n i e n t l yt h ei n f o r m a t i o nr e c o r d sb yu s i n gt h e s et o o l s ,a m e n ds o m e i n f o r m a t i o nt h a ta r eu n r e a s o n a b l e ,o rm a k e p e r s o n a l i z e ds e t t i n g st ot h e m a n a g e m e n to fl i t e r a t u r e sa c c o r d i n gt os e l fu n d e r s t a n d i n go rp r e f e r e n c e , f a c i l i t a t e su s e r sm a k i n gs u p p l e m e n t sa n da m e n d m e n t st oc o n c e p tn e t s y s t e m c o n s t r u c t i o n t h i s p a p e rf i n a l l yd e s i g n s a n dc o n s t r u c t s t e c h n o l o g yl i t e r a t u r e sk n o w l e d g em a n a g e m e n ts y s t e mp l a t f o r mo nt h eb a s i s o f c o n c e p tn e t ,p r o v i d e sh e l pt ou s e r si ns c i e n t i f i er e s e a r c h k e yw o r d s :k n o w l e d g em o d e l ,o n t o l o g y c o n c e p tn e t ,k n o w l e d g e d e s c r i p t i o nf r a m e ,c o n c e p tp h r a s ea t t a i n m e n t ,c o n c e p tr e t r i e v eb a s eo n f r a m e 1 1 1 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获 得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的 同志对本研究所作的贡献均已在在论文中作了明确的说明。 作者签名,豳丝整日期:竺! k 月! 日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有权 保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的 全部或部分内容,可以采用复印、缩印或其它手段保存学位论文;学校 可根据国家或湖南省有关部门规定送交学位论文。 蜱日期:卑年上月幽 硕十学位论文第一章绪论 1 1 研究背景 第一章绪论 科学技术就是生产力。正如资本和能源在3 0 0 年前取代土地和劳动力一样,信息 和知识正在取代资本和能源而成为能够创造财富的主要资产。一旦知识成了经济发 展的内生变量面非外部条件时,无论是宏观还是微观层次,最重要的问题就是将知 识这一要素有效地整合于组织活动中,使之转化为现实生产力。这个整合的过程就 涉及到人类社会最重要的实践形式管理。它始终伴随着人类社会与人类文明的 进程,只要存在知识的地方,就存在对知识的管理。就一般意义而言,如何对知识 进行有效的管理就是知识管理( k n o w l e d g em a n a g e m e n t ) 。在知识管理的大背景下, 就会提出对各种与知识相关的实践活动进行管理的问题。对科研工作者在科学研究 过程中的知识管理进行研究就是其中的一部分。 近几十年来,知识的增长速度呈加速形式。科研工作者每天要面对着各种各样 的科技文献,需要通过阅读来获取许多文献数据、获取知识。由此,产生了各种各 样的文献阅读工具,如:p d f 阅读器、c a j 阅读器等;用户在阅读文献的过程中通 过这些文献阅读工具,利用系统剪贴板把自己感兴趣的知识通过复制、剪贴等方法, 很方便的从文献中提取出来以文件的形式组织和保存。但是,如何有效地组织管理 用户已经获取的知识或者信息,以便进行研究工作时检索和利用,也越来越引起广 大研究工作者的关心。另外,即使是科技工作者对于自己曾经阅读、处理过的科技 文献知识的检索也困难重重,用户在重新检索曾经阅读过的文献知识的时候,往往 不能直接获得所需要的知识和信息;必须花很多时间来寻找、阅读和选择,才能从 中得到所需要的也许是很少量的知识和信息。现有的文献管理工具“1 如:e n d n o t e , b i b l i o s c a p e ,r e f e r e n c em a n a g e r ,p r o c i t e ,p a p y r u s ,s c h o l a r s a i d 等。将各种文献 资料用文献库进行存储,提供的最基本功能包括对文献进行导入、维护、检索和输 出这样在一定程度上缓减了科研工作者管理科技文献的压力,使他们即使在资料 很多的情况下也可以很方便的查找和利用文献。但是,利用这些工具,对文献知识 的管理还仍然知识停留在文件的层次;对文献内知识资源的管理粒度太粗糙,对用 户的知识需求只是按照关键字匹配的方式对知识进行查找与搜索;且要支付大量的 费用。这已远不能满足用户的需要。 科技的高速发展带来知识的指数增长,人类的知识创新活动对知识信息保障体 系提出了更高的要求。以往的存储和利用知识的状态已不适应,如何更有效地组织、 硕士学位论文第一章绪论 控制、传递知识,以提高知识的利用率,己成为当前关于知识管理研究的重点和方 向。 1 1 1 面临问题 知识是人们对于客观事物极其规律的认识,是人的主观世界对客观世界的反映 和认识。在这个认识过程中包括对事物现象、本质、属性、状态、关系、联系和运 动等的认识。就认识而言主要是用语言、文字、符号、图形、声音等能被直接识别 和处理的形式明确的在其载体上表示出来。知识按载体的不同,可区分为丰观知识 和客观知识两种形态,客观知识必须依附于一定的物质载体,人们称其为文献 2 1 。 那么,什么是科技文献的知识呢? 知识工作者在大量阅读文献的过程中,对具体文 献中的所涉及主要内容、所解决的问题、以及解决问题的方法构成了科技文献中的 知识。其中主要内容包括问题分析、求解方法( 模型、基础技术) 、主要工作( 技术路 线、新算法) 等。所谓的问题分析是指科技文献所论述的主要问题是什么? 他属于什 么领域? 问题适用于什么范围? 与平常所见的问题有什么不同? 求解方法是解决问 题关键,对于一个具体的闻题,科技工作者经常对解决此问题所采用的方法产生兴 趣;要分析该方法的启发性的意义;以及考虑该方法的改进与推广;该方法对解决 其他类似问题的启发意义等。科技文献的主要工作是指文章提出的新的技术路线, 即对某一类问题的解决形成的某种方法论的东西,还有就是解决该问题的过程中所 提出的新算法等。 科技文献的知识是采用自然语言来描述的,是无结构化的数据,那么如何描述 科技文献所蕴含的知识呢? 基于图书馆知识组织方法对于科技文献知识的描述限于 在文献单元层次上展开,“这种状况的存在,并不意味着人们对文献具有特殊的偏好, 丽是人类还没有找到知识的有效表示方式;一旦着手研究知识时不得不退却到文献 这一层次,用文献间接地表示知识”【3 】。以数据单元为基础的传统的知识组织方式 的出现和发展,很大程度上弥补了以文献为单元的知识组织方式的不足。这种组织 方式采用标题、作者、关键词等表示科技文献,用x m l 等形式化描述语言,对论 文的知识做出标记。向用户直接提供他们所需的知识或信息,大大提高了知识的利 用率和针对性,节省了科研人员的大量时间。目前,这类数据信息系统所存储的数 据非常广泛,既包含传统的数字形式,又包括各种事实、概念、图表、化学结构式、 物理参数产品名称、标准等等。这类系统发展很快,成为当前知识组织与管理的主 流和方向。然而,这种知识组织方式在满足用户对特定知识信息的需求方面虽然胜 于文献组织方式,但也却存在着一些弊病,主要体现在: 2 硕士学位论文 第章绪论 1 知识工作者的知识生产特性无法得到反映。 科技工作者需要对科技文献中所蕴含的知识进行加工或者处理。科技工作者个 体的不同决定他的所关心的问题的侧重不同,他们有时需要对比性的知识,对知识 进行对比、比较;有时需要关联性的知识,对知识进行关联、扩展。 2 它没有解决知识表述的模糊性和不确定性,只是相关数据的罗列。 采用以数据单元为基础基于关键词的方法管理科技文献知识存在难以克服的缺 陷。随着阅读的文献数量的增长,用户经常会遗忘自己曾经阅读、处理过的知识。 面对这样一堆无序的科技文献资料,采用人工的方法来完成对知识的收集、管理和 检索是一种费时、费力的艰苦劳动。 总而言之,传统的科技文献知识管理方法还不能完全满足科技工作者对科技文 献知识管理的需求。用户怎样在阅读的过程中通过最少的人工干预完成知识的收集、 过滤、关联等任务,实现知识收集与检索的智能化;如何组织、管理与查找自己所 需的信息成为人们必须面对的问题。 1 1 2 对科技文献知识管理的新要求 针对以上不足,人们对新一代文献知识组织、管理与检索技术进行了大量的研 究。当前主要包括以下三个趋势: , 1 智能化检索 检索的目的就是帮助用户寻找信息资源。如上所述,目前搜索引擎的典型实现 是基于关键字或主题分类目录的,如y a h o o 、a l t a v i s t a 和i n f o s e e k 。无论是哪一种 搜索引擎,它们都是在标题中或正文里进行基本的字或词的匹配操作,这种处理方 法无法避免检索结果不尽人意的现象。据专家预测,目前主要的搜索引擎返回的相关 结果的比率不足4 5 5 ,其原因是现有的搜索引擎仅拥有极少量的知识,而且是面向 最一般的用户模型。不划分知识领域,不对用户建立任何描述以及基于关键词匹配 的交互方式都限制了搜索引擎的使用效率。在检索过程中引入人工智能、知识工程 等先进技术的智能检索技术j 它不仅可以分析用户的查询意图,而且可有效地解决 关键词的多义性、关联性的问题。 智能检索所涉及的两个关键问题:一是搜索知识的具体内容与表示;二是搜索 知识的有效获取方法。 。 2 ,个性化服务 个性化的知识管理服务是指文献知识的组织和管理方法、方式符合或者体现用 户科技工作者个性。用户对文献知识关注的侧重点是不同的,怎样提供更好的知识 硕十学位论文 第。章绪论 管理的个性化服务是科技文献知识管理发展的必然趋势。个性化知识管理的主要目 的就是要为用户管理个性化的信息。个性化信息服务应该是能够满足用户的个体信 息需求的一种服务,即根据用户提出的明确要求提供信息服务,或通过对用户个性、 使用习惯的分析而主动地向用户提供其可能需要的信息服务。 3 垂直化专业领域发展 由于社会分工的加大,用户从事的职业有很大不同,不同用户对信息检索也往 往有自己的专业要求。比如信息技术类从业人员最希望有面向信息技术的专业搜索 引擎,金融证券从业人员则希望使用金融证券类的搜索引擎。因而只针对某领域的 搜索引擎可保证此领域信息的完备性和实时性。垂直类搜索引擎面向某一特定专业 领域,专注于自己的特长和核心技术,保证了对该领域信息的完全收录与及时更新。 因此,基于专业领域的“垂直搜索引擎”开始成为信息服务发展的一个新趋势。 个性化、智能化、专业化这三个方面都是为了使信息服务能提供更准确、更符 合用户需求的信息。信息的准确性取决与信息系统所拥有的知识。因此,新的信息 服务模式都是基于知识而进行的。从某种意义上说,类似于一个专家系统。 1 _ 2 相关研究 本节将回顾与科技文献知识管理相关内容的研究状况。主要是知识表示、文本 分类与文本挖掘、信息检索这三个方面。 1 2 1 知识表示 知识表示是人工智能研究中一个重要的问题。研究科技文献知识管理的第一个 首要的任务就是怎样表示科技文献中所蕴含的知识。人工智能经过半个多世纪的发 展,在知识表示方面取得了不少的成果。迄今为止,矢盯识表示法有很多,例如:状 态空间表示法、产生式表示法、逻辑表示法、语义网络表示法、框架表示法、过程 表示法、剧本表示法以及面向对象的表示方法等。 1 框架表示法 框架“1 ( f r a m e ) 是一种描述所论对象属性的数据结构。在框架理论中,将框架视 为知识表示的一个基本单位。框架由若干个被称为槽( s l o t ) 的结构组成,用于描述对 象属性。每一个槽又可根据实际情况划分为若干个侧面( f a c e t ) 。槽和侧面所具有的 属性值分别称为槽值和侧面值。槽的值可以是一个简单对象,也可以是复杂对象, 这就是说槽的值可以是框架,形成一种框架的嵌套结构。在一个框架知识系统中, 4 硕士学位论文第一章绪论 一般都含有多个框架,对框架及其不同槽、不同侧面,分别赋予不同的名字,分别 称为框架名、槽名及侧面名。其一般表达形式为:( ( ( ( ) ) ) ) 。 框架知识表示法”能够把知识的内部结构关系及知识间的联系表示出来,因此 它是一种经组织起来的结构化的知识表示方法。它能够描述出知识间的层次关系, 框架的最顶层是固定的一类事物,基于概念的抽象程度表现出自上而下的分层结构。 有效地实现了框架之间的继承关系。 2 语义网络表示法 现有的基于语义网络的知识表示法主要有概念图( c o n c e p tg r a p h ) 、概念格 ( c o n c e p tl a t t i c e ) 、概念层次网络( h n c ,h i e r a r c h i c a ln e t w o r ko f c o n c e p t ) 、知网( h o w n e t ) 及概念网( c o n c e p tn e t ) 等。 , 1 ) 概念图 概念图【6 l 是1 9 7 6 年由美国人j o h n e s o w a 在文章“c o n c e p tg r a p h f o rad a t a b a s e i n t e r f a c e 中首先提出,1 9 8 4 处在他出版的“c o n c e p ts t r u c t u r e 7 ”一书中形成了完整 的概念结构理论。概念图是一种知识表示,其目的是向用户提供一种最接近于自然 语言的方式向系统表达并传递知识,同时将知识转换为机器容易操作的统一代码形 式。它是由概念及概念关系两种结点组成的有向连通图,结点之间以有向弧进行连 接。由于它表现了概念的语义性并充分反映了事物是普遍联系的这一哲学思想,自 提出以来便引起广泛关注,目前已经在人工智能、知识组织、远程教育等多个领域 得到广泛应用。 2 ) 概念格 概念格【8 ,9 1 是由德国学者w i l l er 于1 9 8 2 年首先提出,其思想来源于哲学中的概 念。哲学中的概念是由外延和内涵两部分组成。例如,现实生活中存在着具有相同 特征的个体,同时也可以从一些个体中得到些共同的特征,因此提出了形式概念、 概念格、形式背景等若干概念。外延表示属于这个概念的所有对象集合,内涵是指 所有这些对象的特征或属性集合。如人这个形式概念,外延可以是张三、李四等具 体的人组成的集合,内涵则是如身高、体重、籍贯等共有的属性集合。 3 ) 概念层次网络 概念层次网络理论【加1 是由中科院黄曾阳先生提出来的。它是面向整个自然语言 理解的理论框架。这个理论框架是以语义表达为基础的,它对语义的表达是概念化、 层次化、网络化的,所以称它为概念层次网络理论。 4 ) 知网 硕士学位论文 第一章绪论 知网【l l l 是一个以英汉双语所代表的概念以及概念的特征为基础的,以揭示概念 与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网运算 和描述的基本单位是:万物,其中包括物质的和精神的两类。具体可以分为部件、 属性、时间、空间、属性值以及事件。 知网着力描述了概念之间及概念的属性之间的各种关系,主要包括;上下位关 系、同义关系、反义关系、对义关系、属性一宿= i 三关系、部件一整体关系、材料一成品 关系、事件一角色关系。 h o w n e t 和h n c 都是面向自然语言理解的知识库,它们基于概念的思考问题 的方式,以及它们对概念关系的处理都是概念网的有益的理论基础。但它们提出的 初衷都是面向机器翻译这样的课题,因而它们更多的考虑的单个语句的理解,即考 虑的是概念和概念之间如何组成句子。概念图表示知识直观、可靠性好、表达能力 强,接近自然语言,但是概念图描述知识的粒度( g r a n u l a r i t , ) 过于细,不适合构造反 映学科领域中层次性和结构性强的规模较大的知识体系。内容丰富、关联复杂的概 念图可能会令人眼花缭乱。概念格可以较客观地反映概念的内涵与外延的统一性, 但从一大堆粗糙数据集中提取有用信息及有益规则牵涉到运行速度及准确率等问 题。 5 ) 概念网 概念网的提出源于信息检索系统。概念网汲取框架理论和面向对象的知识表示 的优点,将概念、概念的属性、概念的行为、概念的关联以及概念的描述性材料都 封装在概念节点中。一般采用树结构来描述概念分类层次结构,采用知识关联连接 各树枝上的概念节点。之前的研究各有其局限性,主要着眼于怎样把概念网利用于 知识库的组织。如,文献 1 2 ,1 3 】提出采用知识结构描述文献资源的知识内容,但没 能解决如何规范描述数据,使它们既能准确细致的描述文献资源中丰富多彩的知识, 又能被计算机理解和计算的问题。文献 1 4 - 1 6 提出基于元数据的概念理解和运算的 方法,通过计算文献的元数据概念与检索词概念之间的相似度,实现文献检索。但 是,由于元数据的结构和概念网的概念结构比较粗糙,不能有效地描述文献所蕴含 的知识以及知识之间的联系,因此,不能实现较高的查准率和查全率。 1 2 2 文本分类与文本挖掘 文本分类“”的目标是在分析文本内容的基础上给文本一个或多个合适的类 别。分类方法主要分成两大类别:手工分类和自动分类。手工分类是项耗时的工作, 而且成本也较高。对于自动分类,它的分类知识可以从领域专家直接获取,或者从 6 硕士学位论文 第一章绪论 训练集文档中自动学习获取。从领域专家直接获取分类知识的方式相对来说有较高 的可靠性和有效性,但该方法在时间上和知识维护上花费的代价较高。此外,获取 的知识很可能还不完善,这需要应用套复杂模型和理论来完善它。另一方面,从 训练集文档中自动获取分类知识相对来说效率较高,但是它的精度受到所采用的学 习模型和训练数据的制约。 在自动分类领域,目前已提出了许多统计方法和机器学习方法。a p t e 用决策树 “”技术来获取分类器;y a n g 构造了一种近邻算法进行分类;l e w i s 采用了一个线 性分类器;c o h e n 设计了一种建立在权值更新基础上的休眠专家算法2 1 。上述大 多数方法均采用了经典的向量空间模型( v s m ,v e c t o rs p a c em o d e l ) 。它们把文 本视为词( 或词组) 的序列。对于每一词( 以下称为向量空间的特征) ,都根据其在文 档中的重要程度赋以一定的权值,从而构成一个向量,作为文本向量空问的一个点。 然后通过计算向量间的距离决定向量类别的归属。 文本挖掘 2 “- 2 7 堤指利用数据挖掘技术,从大量的文本数据中提取感兴趣的、潜 在的有用模式和隐藏的信息,并利用这些知识更好的组织信息的过程。文本挖掘技一 术是从海量文本信息中获取潜在有用知识的有效途径。 文本挖掘分为基于v s m 的文本挖掘与基于本体论的文本挖掘郾j 。它是一个多 学科,混杂的领域,涵盖了多种技术。主要利用人工智能算法,如神经网络,基于 案例的推理,可能性推理等,并结合文字处理技术,分析大量非结构化的文本源, 抽取或标记关键字概念、文字间的关系,并按照内容对文本进行分类,获取有用的 知识或信息。知识管理系统利用文本挖掘技术可以从文档中找到有用的信息。 1 2 3 基于本体的信息检索 信息检索就是“将信息按照一定的方式组织和存储起来,并根据用户的需要找 出有关信息的过程。帅。图1 1 给出了信息检索的基本原理。 特征提取 + 概悉j r 图1 1 信息检索基本原理示意图 传统的基于关键词匹配的文本信息检索技术对语义匹配的支持能力较差,其性 7 硕士学位论文 第一章绪论 能取决于用户对方法的理解,具有很大的局限性。尽管摹于关键词匹配的检索技术已 经经过了多次改进,但是由于没有添加语义处理方面的功能,致使检索性能没有得到 根本的改善,那些没有被文字直接表述出来但隐含在文本内容中的一些重要的信息 也无法被检索。 本体是一种技术,它可以在许多涉及知识表示与共享的环境下应用。由于本体 具有良好的概念层次结构,并且支持逻辑推理,这使得本体在信息检索,特别是知 识检索中得到了广泛的应用。基于本体的信息检索的基本思想是:在领域专家的帮 助下,建立相关领域的本体;收集信息源中的数据,并参照已建立的本体把收集来 的数据按规定格式存储在元数据库中;对从用户检索界面获取的查询请求,查询转 换器按照本体把查询请求转换成规定的格式,在本体的帮助下从元数据库中匹配出 符合条件的数据集合;检索的结果经过处理后返回给用户。 目前,国外关于基于本体的信息检索的研究有o n t o a g c n t o ”、o n t o b r o k e r t 。2 1 、 t e x t t o o n t o ”1 、s h o e “ 、o n t o s e c k ”1 等。 国内也有一些学者正在研究如何将本体应用于信息检索领域,主要包括:万捷 等人提出基于内容的信息检索系统,利用本体对检索需求进行语义扩充,并用文档 分析器对检索文档进行过滤。郭祥文等人讨论了如何采用本体技术对搜索引擎进行 改进1 。改进的搜索引擎采用全文检索技术,保留了从字( 或者词) 到文档的倒排索 引,通过增加由关键词到领域的索引,消除了关键词在语义上的歧义,支持领域分 类。曹锐等人针对目前在网络化制造环境下制造资源检索过程中存在语义信息表达 不足的问题,提出了一个基于本体的制造资源获取和智能检索系统结构啪1 。在此基 础上,建立了一个多层次信息智能检索模型,并论述了语义检索相关算法,最后给 出一个运行实例。 但是,基于本体的信息检索还处于实验原型阶段,还没有真正进入商业化实施 阶段。对于怎样规范本体的描述,以及怎样构建支持特定知识领域查询的领域本体 模型还有待迸一步探索。 1 3 本课题研究目标、内容和意义 1 3 1 研究目标 本课题的研究旨在设计一个基于概念网的“数字图像处理”学科领域的科技文 献知识管理系统,帮助用户有效地收集、获取和管理该领域内的科技文献知识信息, 为用户在该领域内提供高效的文献知识收集、组织、管理及检索服务。 8 硕士学位论文 第一章绪论 1 3 2 研究内容 本课题主要研究基于概念网的科技文献知识管理方案( 包括信息收集、管理与检 索) 。具体包括以下几个方面: 1 知识模型研究 建立科技文献知识模型。科技文献知识表示模型的建立主要包括科技文献知识 框架模型和本体概念网模型两大部分。 2 ,科技文献知识的获取 科技文献知识通过概念短语来表达。科技文献知识的获取主要是指科技文献知 识框架描述短语的获取,包括科技文献描述短语的获取、评价及其相关度计算三大 部分。 3 知识的管理 知识的管理包括对概念网的管理与维护、论文知识资源库管理与维护等。 4 信息的检索 本部分主要包括基于框架的论文检索方法研究与概念检索策略的评价两部分。” 系统在概念层次上理解用户的查询请求,填充查询框架,通过计算查询框架与文献 框架的相似度,返回用户需要的文档。 5 系统构建 系统构建主要包括系统的功能模块设计、概念网知识库的组织与利用等。 1 3 3 研究意义 本课题旨在设计基于概念网的科技文献知识管理的平台,依靠概念网为用户组 织、管理和检索信息。一定程度上满足科技工作者的对科技文献知识信息的更快、 更准、更易获取的需求。其研究意义主要包括以下几点: l ,构建面向科技文献知识管理的知识管理平台,向系统用户提供更加方便、 快捷、准确的信息检索与其他知识服务,以适应科技工作者在日常科研工作中对科 技文献知识管理的需求。 2 研究用结构化的概念框架来描述半结构化的科技文献知识资源;利用本体 概念网络描述文献知识资源知识单元的内在联系,提供有效的文献知识资源描述与 管理方法并提高复用效率。 3 在科技文献知识表示的基础上对实现科技文献知识本体的获取及检索策略 进行了有效地探索。 9 硕士学位论文第一章绪论 1 4 论文内容安排 本文分为六章:绪论、科技文献知识模型的构建、论文框架描述短语的获取及 其相关度计算、知识检索、系统实现以及总结与展望。第一章( 绪论) 介绍研究背景, 引入需要解决的问题以及所采取的相应的技术路线;第二章( 科技文献知识模型的构 建) 从论文要解决的问题入手详细讨论了文献知识描述的框架、本体概念网络模型以 及怎样在本体概念网的支持下科技文献知识的理解:第三章( 论文框架描述短语的获 取及其相关度计算) 重点讨论了基于本体概念网络及统计模型的科技文献知识短语 的获取、评价及相关度计算算法;第四章( 知识检索) 重点介绍了本文提出的基于框 架的科技文献概念检索方法,对用户提交的查询条件进行理解,根据第四章提出的 算法先提取出用户查询的主题,然后填充查询框架,通过计算查询框架与论文知识 框架之间的相似度返回符合用户意图的文档;第五章( 系统实现) 重点讨论的系统的 功能模块的划分、系统后台知识库的组织、系统的实现等;最后是对本文的总结及 对后继工作的展望。 1 0 硕士学位论文第二章科技文献知识模型的构建 第二章科技文献知识模型的构建 科技文献知识表示模型的构建是建立科技文献知识管理系统的基础。传统的文 档表达方式一般采用向量空间模型,该模型不去理解每个词的含义及其之间的关系, 仅仅将其视为字符序列,这样容易造成语义丢失,无法真正的反映文档的主题,那 么后继的处理自然无法获得很好的结果。本章主要要解决的问题是构建个怎样的 科技文献知识表示模型去支持科技文献知识的理解。 2 1 概述 2 1 1 科技文献知识资源元数据分析 科技文献( 论文) 是自由格式的元数据。科技期刊发表的论文,从内容上看,是 由研究目的、研究方法、结果和结论几部分组成的完整的文章。从形式上看,其基 本要素包括:题名、作者署名、摘要、关键词、分类号、引言、正文、结论和参考 文献等几大部分。传统的图书馆科技文献元数据索引方案包括t i t l e ( 标题) 、c r e a t e l l a m e ( 作者) 、c r e a t ea f f i l i a t i o n ( 单位) 、d e s c r i p t i o n ( 描述o r 摘要) 、 s u b j e c t k e y w o r d ( 主题词) 、d a t e ( 日期) 、t y p e ( 类型) 等几个要素。这些对文献知识内容特征 的描述仍然停留在主题和关键字的层次上,着重描述的是科技文献的一般属性,对 科技文献知识主体( b o d y ) 描述能力比较差。因此,基于这种元数据索引模式下的文 献管理工具( 程序) 还不能精确的表示文献资源所蕴含的知识资源。 2 1 2 科技文献知识表示模型的提出 一篇科技文献中所蕴含的知识是丰富的。不同的科技工作者在阅读科技文献的 过程中,由于个体的不同,所关注的论文的知识对象的侧重是不同的,有些注重于 解决问题的过程;有些注重于问题对于一般的启发性;有些强调在解决具体问题过 程中的具体方法的使用;有的则侧重于方法论的东西。对于一篇科技文献,科技工 作者具体关心什么东西,是主观的、随意的。因此,科技文献知识表示模型的建立 要考虑解决两个方面的问题。 其一,怎样描述科技论文,即根据用户科研活动的创新性特点和文献知识的内 容特征而确定采用什么样的元数据解决方案。 其= ,怎样理解科技论文。对科技文献所蕴含的知识的理解基于对科技文献知 硕士学位论文 第:章科技文献知识模型的构建 识本体的分析。因此,必须首先构建文献知识本体,在充分理解文献知识本体的基 础上理解科技文献知识。 概念是在客观事物的基础上概括而成的,是客观事物在头脑中的反映。概念之 间存在着各种各样的关联。在科技领域中,不同领域的知识本体有着自己的术语命 名规范。同一个知识本体可以由多个描述元素来表达,这些描述元素在此知识本体 的约束下就形成同义关系。另外,知识本体并不是孤立存在。一个知识本体总是与 其他知识本体之间存在这样那样的联系。例如,“计算机网络”这个知识本体与个 产品、一种模型、一门课程、一种用途、一种属性等联系起来。知识本体与概念的 相似性决定了知识本体可以通过概念来表达。 本文引入“框架”来描述科技论文,即根据科技工作者阅读文献时关注的问题 对象的不同把科技文献所蕴含的知识分解成知识描述框架中的各个槽,把知识槽扩 展为各个侧面,用知识本体来描述每个侧面。而知识本体则采用概念及概念短语来 表达。通过建立支持概念理解的概念网来理解概念及概念短语。 2 2 总体架构 本文将文献知识表示模型( l k p m ,l i t e r a t u r ek n o w l e d g ep r e s e n t a t i o nm o d e l ) 建 模为三层体系结构,如图2 1 。定义3 元组:l k _ p m = ( o l ,c l ,1 l ) 。分别为: 0 卜本体层,c 卜概念层,- 信息层。本体层由收入领域概念网( d c ,) 的基本术 语组成。概念层用来描述文献所蕴含的知识单元,即对文献知识内容的概念化描述, 一般由概念短语组成。信息层即框架层,由本文定义好的论文知识框架描述收集进 本系统的文献知识单元的集合。从文档分级表达的角度来看也可以把各个层次分别 称之为概念级、短语级、框架级。 ( ! ! j ! ! ! 1 5 丑一一一( :! l ! ;i i 固 i ;j i ! i i 蛰 图2 - 1 文献知识表示模型总体结构 下文分别从框架级、短语级、概念级三个层次来讨论科技文献知识表示,即 硕士学位论文第二二章科技文献知识模型的构建 论文知识通过框架来表达;通过短语来描述框架;短语又通过分解为概念来表达。 2 3 文献知识框架 从框架级的层次上描述科技文献,可以把框架简单的分解为结构框架与规则框 架。从整体上看,通过定义好的文献知识的结构框架可以描述科技论文所蕴含的知 识,例如:对一篇科技论文可以提取它的主题、研究问题、采用方法、所属领域、 所做的贡献等要素,通过这些要素来进行管理。 2 3 1 结构框架 论文的知识框架可以描述为论文标题,主题,技术路径,领域4 个槽,主题槽 可以分解为主题类型,研究对象,针对问题,研究方法,方法评价等几个侧面,这 些侧面和槽具有的特定的属性值决定了论文所蕴含的知识单元特征。另外,对于一 篇论文可能具有多个主题,需要从主题槽的各个侧面对不同的主题进行描述。 l 论文标题 论文标题是论文内容的高度浓缩。论文标题有一定的模式可寻,这比对整篇文 章进行全文分析的难度显然要小很多,而且处理速度也快得多。因而在确定论文船, 识框架时,可以重点考察论文标题。 2 主题 主题槽可以分解为主题类型,研究对象,针对问题,研究方法,方法评价等月叠 个侧面。根据论文研究的目的,一般论文可以分为综述型的论文和研究性的论文。 在研究性的论文中论文主题中的研究对象包括对象、对象所属的类、对象属性和属 性值、对象的构件等;主题中的问题域指的是针对具体的对象所采取的行为。例如: “种不规则类圆形团块目标图像识别的新方法”中,主题类型为“算法( 方法) ”; 研究对象是“不规则类圆形团块目标图像”;对象的行为构成主题的问题域,即“识 别”与“计数”。针对这个主题所采用的研究方法和对此方法的评价可以通过阅读论 文获得。 3 技术路径 包括研究手段、方法和方式、工具、材料原料、能源、途径和策略等。例如: “依靠概念网进行概念匹配划分出短语结构”是技术路径,而“概念网”是工具, “概念匹配”是手段。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论