




已阅读5页,还剩62页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京航空航天大学硕士学位论文 摘要 随着入类社会逐步双王业经济到知识经济的转交,知识在社会中的作用变得越来越重要, 正逐渐成为生产力要素中最活跃的部分,同时也成为企业最具有竞争力的表现。在制造领域中, 由于工艺知识的复杂性和多样性,导致知识共享不便和知识检索的查准率和查全率较低等问题, 为了解决以上河题,本文给出了一种基予本体和分词技术的菲结构化工艺知识管理系统。 本文首先分析了非结构化工艺知识管理系统f 内研究现状和存在的问题,结合非结构化工艺 知谈管理麓需求,绘出了基于本体耪分谲技术蘸嚣结构化工艺知识管理系统的框架结构和流程, 并详细阐述了各个组成部分。 然后,研究了系统的关键技术:基予分词技术的非结构化工艺知识本体构建和基于本体匹 配技术的非结构化工艺知识检索。利用分词技术,结合领域词典实现对非结构化工艺知识文档 的术语抽取,通过对抽取的术语集进行自动分析,完成非结构化工艺知识本体的构建,设计了 薹# 结构诧工艺知识本体构建算法。构建了用户模型,将鼹户检索请求经预处理嚣转纯为检索条 件本体,设计了非结构化工艺知识本体匹配算法,实现了语义上的非结构化工艺知识检索,并 将检索结果与用户模型对比进行过滤,得到用户需要的非结构化工艺知识,体现了个性化盼检 索特征。 最后,进行了系统的实现,并将其应用于中德国际合作项目中,应用表明:基于本体和分 词技术豹非结构化正艺知识管理熊够有效地勰决企业的喾结构化工艺知识共享朔重用效率低等 问题,提高了非结构化工艺知识使用效率。 关键词:非结构化工艺知识,本体,分词,术语抽取,工艺知识检索,本体匹配 基于本体和分词技术的非结构化工艺知识管理系统 a b s t r a c t w i t ht h eg r a d u a lc h a n g eo fh u m a ns o c i e t yf r o mt h ei n d u s t r i a le c o n o m yt ok n o w l e d g ee c o n o m y , k n o w l e d g eh a sb e c o m em o r ea n dm o r ei m p o r t a n ti ns o c i e t y , a n di sg r a d u a l l yb e c o m i n gt h em o s t a c t i v ep a r ti nt h ep r o d u c t i v ee l e m e n t s ,a n da l s ob e c o m e st h em o s tc o m p e t i t i v ep e r f o r m a n c ei nt h e e n t e r p r i s e s i nt h em a n u f a c t u r i n gf i e l d ,d u et ot h ec o m p l e x i t ya n dd i v e r s i t yo ft h ep r o c e s sk n o w l e d g e , t h ep r o b l e m so ft h e k n o w l e d g es h a r i n ga n dl o w e rp r e c i s i o nr a t ea n dr e c a l lr a t ei nk n o w l e d g er e t r i e v a l a r er a i s e d t h e r e f o r e ,t h ei d e ao fu n s t r u c t u r e dp r o c e s sk n o w l e d g em a n a g e m e n ts y s t e mb a s e do n o n t o l o g ya n dw o r ds e g m e n t a t i o nt e c h n i q u ei ss t u d i e dt os o l v et h e s ep r o b l e m s f i r s t l y , t h er e s e a r c hs t a t u sa n di s s u e s t h a te x i s t e di nt h eu n s t r u c t u r e dp r o c e s sk n o w l e d g e m a n a g e m e n ts y s t e ma r ea n a l y z e d a c c o r d i n gt ot h er e q u i r e m e n t so fu n s t r u c t u r e dp r o c e s sk n o w l e d g e m a n a g e m e n t ,t h ef r a m e w o r ka n dp r o c e s s e so fu n s t r u c t u r e dp r o c e s sk n o w l e d g em a n a g e m e n ts y s t e m b a s e do no n t o l o g ya n dw o r ds e g m e n t a t i o n t e c h n i q u ea r eg i v e n ;a n d ,t h ec o m p o n e n t so fn l ef r a m e w o r k a n dp r o c e s s e sa r ed e s c r i b e di nd e t a i l f u r t h e rm o r e ,t h ek e yt e c h n i q u e so ft h es y s t e mi n c l u d i n gu n s t r u c t u r e dp r o c e s sk n o w l e d g e o n t o l o g yc o n s t r u c t i o nb a s e do nw o r ds e g m e n t a t i o nt e c h n i q u ea n di t sr e t r i e v a lb a s e do no n t o l o g y m a t c h i n gt e c h n i q u e a r e d e e p l yr e s e a r c h e d a c c o r d i n gt ow o r ds e g m e n t a t i o nt e c h n i q u e ,t h e t e r m i n o l o g i e sa r ee x t r a c t e df r o mu n s t r u c t u r e dp r o c e s sk n o w l e d g ed o c u m e n t sb yu s i n gd o m a i n d i c t i o n a r y , a n dt h ep r o c e s s e so fp r o c e s sk n o w l e d g eo n t o l o g yc o n s t r u c t i o na r ec o m p l e t e db y a u t o m a t i c a l l ya n g l i c i z i n gt h ed o m a i nt e r m i n o l o g i e s ,t h ea l g o r i t h mo fu n s t r u c t u r e dp r o c e s sk n o w l e d g e o n t o l o g yc o n s t r u c t i o ni sd e s i g n e d a c c o r d i n gt ou s e rp r o f i l e ,t h eu s e r ss e a r c hr e q u e s ti sc o n v e r t e dt o s e a r c hc o n d i t i o no n t o l o g yb yp r e t r e a t m e n t , t h ea l g o r i t h mo fu n s t r u c t u r e dp r o c e s sk n o w l e d g eo n t o l o g y m a t c h i n gi sd e s i g n e d ,t h es e m a n t i cp r o c e s sk n o w l e d g er e t r i e v a li sa c h i e v e d , a n dp e r s o n a l i z e dr e t r i e v a l f e a t u r ei sr e f l e c t e db yf i l t e r i n gr e t r i e v a lr e s u l t sc o m p a r i n gt ou s e rp r o f i l e f i n a l l y , t h es y s t e mi si n i t i a l l yr e a l i z e da n da p p l i e dt ot h es i n e - g e r m a ni n t e m a t i o n a lc o o p e r a t i o n p r o j e c t t h ea p p l i c a t i o nr e s u l ts h o w st h a t :t h ep r o b l e m so fs h a r i n ga n dr e u s eo fu n s t r u c t u r e d k n o w l e d g ei nt h ee n t e r p r i s e sc a nb es o l v e de f f e c t i v e l yb yu s i n gu n s t r u c t u r e dp r o c e s sk n o w l e d g e m a n a g e m e n ts y s t e mb a s e do no n t o l o g ya n dw o r ds e g m e n t a t i o nt e c h n i q u e ,a n dt h eu s ee f f i c i e n c yo f u n s t r u c t u r e dp r o c e s sk n o w l e d g ei si m p r o v e d k e yw o r d s :u n s t r u c t u r e dp r o c e s sk n o w l e d g e ,o n t o l o g y , w o r ds e g m e n t a t i o n , t e r m i n o l o g y e x t r a c t i o n ,p r o c e s sk n o w l e d g er e t r i e v a l ,o n t o l o g ym a t c h i n g i i 南京航空航天大学硕士学位论文 图清单 图2 1u p k m so w s t 的框架结构1 3 图2 2u p k m so w s t 的工作流程1 4 图2 3 基于字典树的词典组织结构。1 6 图3 1 基于分词技术的非结构化工艺知识本体构建过程。2 1 图3 2 基于领域词典的中文分词流程。2 3 图3 3 工艺知识本体构建算法流程。2 8 图3 4 工艺知识本体属性集确定的算法流程一2 9 图4 1 用户模型的工作过程。3 3 图4 2 非结构化工艺知识检索过程。3 4 图4 3 检索请求预处理过程。3 5 图4 4 非结构化工艺知识的本体匹配算法3 7 图5 1u p k m so w s t 功能结构4 4 图5 2u p k m s _ o w s t 用例图4 5 图5 3 工艺知识本体的部分类图。4 6 图5 4 用户模型部分类图一4 7 图5 5 非结构化工艺知识本体构建时序图。4 8 图5 6 非结构化工艺知识检索时序图4 8 图5 7 非结构化工艺知识本体构建运行流程一4 9 图5 8 领域词典界面。5 3 图5 9 工艺知识本体构建界面5 4 图5 1 0 工艺知识检索界面5 4 v 承诺书 本人声明所呈交的硕士学位论文是本人在导师指导下进 行的研究工作及取得的研究成果。除了文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得南京航空航天大学或其他教育机构的学位 或证书而使用过的材料。 本人授权南京航空航天大学可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本承诺书) 作者签名:烛墩。 日 期:逖曼:12 南京航空航天大学硕士学位论文 第一章绪论 1 1 引言 2 1 世纪,人类社会从工业经济时代逐渐进入到知识经济时代,知识正在逐渐取代货币资本、 劳动力和原材料等有形资源而成为经济增长中关键的生产要素之一,也逐渐成为具有经济价值 的稀缺性资源。同时,激烈的竞争要求企业能尽快的适应领域和市场的快速变化,要求企业能 尽快获取各种知识,推动企业快速发展。知识经济使世界进入一个信息传递高速化、商业竞争 全球化、科技发展高新化的时代,说明知识是提高劳动生产率和实现经济增长的推动器。知识 的创新和应用使企业在竞争中不断发展,不断创造出巨大的财富。越来越多的企业逐渐认识到 拥有知识是企业具有竞争力的根本保证【1 j 和建立知识管理系统实现知识共享和重用的重要性和 紧迫性。然而,现有的知识管理系统存在许多不完善之处,主要体现在对知识的管理仍然采用 传统的信息处理方式,以及一些关键技术没有得到改善,如:现有的搜索方法大多是基于关键 词的搜索,这种方法采用字段匹配,搜索结果经常出现信息遗漏和搜索出不相关信息等问题: 对不同信息源的相关信息没有自动关联 2 1 ,目前大多数的关联都是靠人工来完成。因此有效地 解决原有知识管理系统在信息搜索和获取方面的不足非常重要。 工艺知识作为制造知识的重要组成部分,对制造业的发展相当重要。虽然工艺知识有一般 知识的共性,但亦有自身的复杂性和特殊性,具有一般知识管理系统难以解决的问题,因此, 对工艺知识管理的研究以及对工艺知识管理系统的开发已迫在眉睫。 1 2 工艺知识 知识和数据、信息是不同的,数据是对一系列事实的描述,没有确定的意义;信息是在数 据的基础上赋予数据以一定的意义,即具有一定目的和意义的数据,但这些信息不一定对人们 有用:知识是对人们有用的信息,即只有当人们使用这些信息时才能称之为知识。所以知识和 具体的人有关系,知识管理的目的就是在海量信息中让人们发现自己所需要的知识。 知识以显性和隐性两种方式存在【3 】【4 1 ,显性知识( e x p l i c i tk n o w l e d g e ) 是指可以通过语言 方式传播的知识,隐性知识( t a c i tk n o w l e d g e ) 是个人或组织长期积累所拥有的( 经验的) 知 识,通常不易用语言表达,也难以传播。显性知识又可以分为结构化的、半结构化的和非结构 化的知识。结构化知识是指模式明确、结构固定的知识,如关系数据库中的知识:半结构化知 识是指模式不明确、结构不固定的知识,如w e b 页面和由异构数据库组成的集成数据库等;非 结构化知识是指没有模式或没有文字化的知识,如普通文档、技术人员的经验和工程背景等【5 】 工艺知识除了具有知识的共性外,还有自身的特殊性,主要体现在: l 基于本体和分词技术的非结构化工艺知识管理系统 ( 1 ) 广泛性:工艺知识通常包括制造资源、结构设计、工艺方法、工艺参数、优化、评价、 拆卸、维修等一系列从产品进行市场调研开始直到售后服务过程中所有可能要用到的知识; ( 2 ) 隐含性:企业中对工艺知识的存储通常是以非结构化的方式保存,使用率极低,员工 之间的知识共享和检索非常困难; ( 3 ) 复杂性【6 】:这是工艺知识区别于其它知识的一个最重要的特性。工艺知识是机械、材 料、力学、计算机、图形等各学科知识的交叉,又有冷热工艺的交叉,并且和具体企业的资源 密切相关。所以在工艺知识的收集、整理、应用时,一定要注意各层次之间的关联性。另外, 新工艺、新技术、新方法层出不穷,工艺知识在不断增加、更新,这种动态性也增加了复杂性。 1 3 非结构化工艺知识管理研究现状 目前,国内外在知识管理方面已经做了大量的研究工作,但国内外对知识管理的起源和研 究重点不同。国外对知识管理工作的研究起源于企业或公司【7 】【8 】【9 】,如s a p 公司、g e 公司、h p 公司等,而国内则起源于高等院校和科研机构【l o 】。国外在企业知识管理方面的研究主要用来帮 助企业用系统的方法来管理知识和信息,满足企业适应新环境的需求,如s a p 公司的知识管理 工具,它的知识管理策略是通过工具:内容和服务三个部分来帮助那些掌握知识的人与需要知 识的人进行联系,实现知识共享,创造价值。然而国外在制造业方面对知识管理的研究比较滞 后。国内对知谢1 1 l 管理的研究重点放在企业管理策略、机制、人力资源方面,同时也有一些软 件系统相继问世,如同济大学经济与管理学院开发的e - - k n o w l e d g e 知识管理系绀1 1 】。但是这 些管理系统过于笼统,覆盖面较广,专业化程度不够高。 我国制造领域对工艺知识的存储常以文档形式保存在电脑上,由于文档的非结构化特点, 导致了知识的共享不便。过去,对于非结构化文档的检索都是通过手工方法根据路径进行查找, 然后打开文档进行查看,速度很慢。再加上工艺知识的特殊性,查找相关知识需要翻阅许多相 关文档,造成了检索时间度和复杂度的加大,导致这种手工式的检索方式更加耗时耗力。 虽然企业已经加强了对工艺知识的管理,但仍存在一定的缺陷【1 2 l ,主要表现在:缺乏统一 的知识模型,容易造成对同一知识描述的不同,影响用户对知识的理解和共享:缺乏统一的知 识存储形式,造成各个知识存储形式的不同,妨碍人们对于知识的应用和交流,形成知识孤岛: 知识检索过程缺少语义和上下文支持,导致查全率和查准率不高。 针对以上缺陷,开始研究采用本体技术实现对工艺知识的管理【叼f ”】【,如高焕明等提出基 于本体的工艺知识管理方法【1 4 】来满足工艺知识载体多样性的需求;文献 6 】对工艺知识管理及关 键技术进行了研究,但都没有涉及非结构化工艺知识的管理。本文采用基于本体和分词技术的 非结构化工艺知识管理系统( u n s t r u c t u r e dp r o c e s sk n o w l e d g em a n a g e m e n ts y s t e mb a s e d0 1 1 o n t o l o g ya n dw o r ds e g m e n t a t i o nt e c h n i q u e ,u p k m so w s t ) 来实现对非结构化工艺知识文档的 2 南京航空航天大学硕士学位论文 管理,旨在解决企业中存在的大量非结构化工艺知识文档的共享问题,其中本体技术是为了保 证提取工艺知识文档的结构化信息时的语义一致性,同时也实现了知识的集成,分词技术用来 实现对非结构化工艺知识文档的自动处理能力以及用户检索请求的自动分析。 1 4 关键技术研究现状 1 4 1 本体技术研究现状 起源于哲学的本体论( o n t o l o g y ) 近年来一直受到信息科学领域的广泛关注,其重要性已在许 多方面表现出来并得到广泛认同。目前,本体论的思想被引入到知识工程领域,被应用到知识 管理中,目的是为了解决知识共享和知识检索等方面的问题。 1 4 1 1 本体概念 关于本体的定义很多,被广泛应用的和普遍接受的本体定义是g - r u b e r 于1 9 9 3 年提出的 “o n t o l o g y 是概念模型的明确的规范说明”。后来,b o r s t 在此基础上,给出了o n t o l o g y 的另外 一种定义:“o n t o l o g y 是共享概念模型的形式化规范说明”【1 5 l 。s t u d e r 等对上述两个定义进行了 深入的研究,认为o n t o l o g y 是共享概念模型的明确的形式化规范说明。这包含4 层含义1 6 】:概 念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 、共享( s h a r e ) 。 概念模型:指通过抽象出客观世界中一些现象的相关概念而得到的模型。概念模型所表现 的含义独立于具体的环境状态: 明确:指所使用的概念及使用这些概念的约束都有明确的定义: 形式化:指o n t o l o g y 是计算机可读的,即能被计算机处理; 共享:指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即 o n t o l o g y 针对的是团体而非个体的共识。 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认 可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间相互关系的明确定义。 本体可以实现知识的共享和重用,本文的目的在于从异构知识文档中实现知识描述的系统化和 标准化,实现知识的共享和重用。 1 4 1 2 本体描述语言 o w l t l 刀( w e bo n t o l o g yl a n g u a g e ) 是- - 种优秀的本体描述语言,是以描述逻辑为理论基础 构建的语言系统,它继承了r d f ( r e s o u r c e d e s c r i p t i o n f r a m e w o r k ) 【1 8 l 的基本事实陈述方式以及 r d fs c h e m a 的类和属性分层结构,在此基础上进行扩展,加入了许多新词汇,克服了r d f r d f s 对概念、属性之间关系描述能力弱的问题,同时,o w l 采取“开放世界”的设计思想, 3 基于本体和分词技术的非结构化工艺知识管理系统 即没有显式说明的信息就是未知,这符合描述逻辑的推理思想,所以o w l 具有丰富的语义表 达貔力、耩确的语义表述性能力籁有效的可计算性,能够诖使用者对领域内的概念进行显式的、 正规的描述,并进行合理致的推理。o w l 利用丰富的建模原语对特定领域概念的含义以及 概念之阕黥语义关系进行清嚷、形式证的表达;另外,这些建援原语也毙概念间的接理提供了 形式化基础。 o w l 拥有3 个子语言:o w ll i t c 、o w ld l 、o w lf u l l ,它们的表达麓力依次递增: ( 1 ) o w ll i t c 表达熊力最有限,仅提供了类分层的能力翻简单的约束功能,支持基数约 束,但只允许基数为0 或l ,然而推理效率高。 ( 2 ) o w l 撼述逻辑( o w l d e s c r i p t i o nl o g i c ,o w l d l ) 包括了o w l 全部语言构造成分, 但在使用时受到限制,如:类型的分离( 一个类不能同时是一个个体或属性,个属性不能同 时是一个个体或类) ,潋在保持计算完整性和霹判定性的薪提下,提供尽可毵大的表达能力。 ( 3 ) o w lf u l l 取消了o w ld l 中的限制,支持那些需要在没有计算保证的语法自由的 r d f 上进行最大程度的表达用户,即具有最强的表达能力,但也因此对推理的支持不可预测, 所以叠前任何推理软件均不能支持o w lf u l l 的所有& a t u r e 。 选择o w ll i t e 还是o w ld l 主要取决于用户在多大程度上需要o w ld l 提供的表达能力 更强躲成分。选择0 w l d l 还是o 妮融l 主要取决子麓户在多大程度士需要r d f 的缀模型撰 制,使用o w lf u l l 相比于o w ld l ,推理的支持是更难预测的【1 9 1 。非结构化_ i 艺知识本体来 源于菲结构化工艺知识文档,领域本体之间有着丰富的语义信惠,所以本文使用o w ld l 来描 述据结构化工艺知识本体。 1 4 1 3 本体构建方法 目前,国内外一些研究小组提出不少知名的本体构建方法,这些方法包括:骨架法 2 0 1 、企 业建模法 2 ”、循环获取法渊、难劂g 法 2 3 t 2 4 1 、i d e f 5 法拉翻、知识工程法【2 6 j 以及基 于领域知识重用的虚拟本体构建方法【2 _ 7 1 等,这些方法基本都是针对各自具体的项目提出的,通 用往比较羞,所以,要想我蓟适用于任何领域的本体构建方法怒非常豳灌酶,僵这些方法对工 艺知识本体的构建具有一定的参考价值。 ( 1 ) 骨架法 l r s c h o l d 等人提出的嚣架法【删,是从开发企业建模过程的e n t e r p r i s eo n t o l o g y 的经验两总结 的,该方法使用m i d d l e o u t 开发方式,为本体构建提供了指导方针。骨架法的开发过程为:首 先确定本体应用的蟊的纛范蠢;然螽定义本体中厥用术语及箕之闯鳇关系,并爝语义模型来表 示本体;接着对建立的本体进行评估;最后确立本体并保存。 ( 2 ) 循环获取法 4 南京航空航天大学硕士学位论文 循环获取法【2 1 1 采用一种环状结构的开发思路,类似于软件工程中的原型法思想,由 a l e x a n d e rm a e d c h e 等人提出。该方法的基本流程为:资源选取- 从资源中学习概念并建立概 念间的分类关系去除和领域无关的概念进行领域聚焦丰富概念之间的关系对建立的 本体进行评价 资源选取。 ( 3 ) 企业建模法 企业建模法【2 2 1 是g r u n i n g e r 和f o x 在t o v e 项目中提出并加以运用的,t o v e 项目的目标 是建立一套为商业和公共企业建模的集成本体。该方法的开发过程:激发应用领域的场景:提 出本体能够回答的非形式化的能力问题;从非形式化的能力问题中提取出形式化的术语然后利 用本体进行形式化定义;对本体进行规格说明;定义本体的完备性条件。 ( 4 ) m e t h o n t o l o g y 法 由西班牙m a d r i d 理工大学a i 实验室开发的m e t h o n t o l o g y 法【2 3 】【2 4 1 开发过程包括三个阶段: 项目管理阶段,对任务的进度进行安排、确定所需要的资源等;开发阶段,对开发进行规范化、 概念化、形式化的执行和实现;维护阶段,对知识进行获取、评估以及文档说明等。 ( 5 ) 知识工程法 知识工程法伫6 1 是斯坦福大学n a t a l y a 等人基于本体开发工具p r o t 6 9 62 0 0 0 而提出的一种本体 开发方法,本体开发过程是一个不断重复的过程,本体中的概念应该与领域内的目标和关系接 近。该方法的基本步骤是:确定本体的领域和范围;考虑重用已有本体;列举重要概念:定义 类及类的层级结构;定义类的属性,槽;定义槽的分面( 类型) ;创建本体实例。 ( 6 ) 基于领域知识重用的虚拟领域本体构造方法 国内由陈刚等提出的基于领域知识重用的虚拟领域本体构造t 2 7 也比较有影响力,该方法充 分利用了领域知识模型以及领域本体相互之间存在的语义相关性,从语义匹配的角度探讨构造 新领域本体的可能性。 综合上述方法,骨架法为本体构建提供了指导方针,适合从无到有构建本体的过程;循环 获取法采用环状结构的开发思路,便于优化本体构建的过程;企业建模法注重领域的场景: m e t h o n t o l o g y 法可以对本体进行规格说明;基于领域知识重用的虚拟本体构造方法充分考虑了 本体相互之间存在的语义相关性。这几种方法各有不同的优势所在,但都不能直接应用在非结 构化工艺知识本体构建中,所以本文在非结构化工艺知识本体构建过程中将综合运用这几种方 法。 1 4 1 4 本体匹配 本体匹配是发现两个不同本体之间相似程度的过程。本体匹配对于本体映射与集成、信息 集成、本体的重用和检索、语义w e b 服务匹配以及基于本体的软件需求工程等都是不可缺少的 5 基于本体和分词技术的非结构化工艺知识管理系统 必要环节。 匹配粒度是指本体匹配描述本体知识的精细度。严格讲,本体元素仅包括概念( 类、实例) 、 属性、约束等基本元素,而结构是以上述元素为基础的较为复杂的特殊元素。因此本体匹配可 以分为两种匹配粒度:元素层匹配和结构层匹配【2 8 】【2 9 】。 ( 1 ) 元素层匹配:包括类一类、属性一属性、类一属性、实例一实例、类一实例和约柬一 约束等类型。元素层匹配可以依据本体元素的名称、注释或者数据类型等特征,采用具体的算 法来发掘对应元素的语义相似度。目前本体匹配研究主要局限于元素层匹配。 ( 2 ) 结构层匹配:是指聚集在某个结构中的元素集合间的匹配。匹配的范围取决于结构所 需要的匹配精度和完备程度。在一般情况下,两个本体中只有部分结构是相匹配的,即部分结 构匹配,但有时也可能会出现完全匹配的情况,即完全结构匹配。与元素层匹配不同,结构层 匹配仅需考虑它的子结构和组件,可以忽略较高层的元素或者结构。 由上可知,元素级匹配分析本体元素中包含的信息,通过直接计算两本体元素间的相似度 来获得两本体的匹配对,在计算过程中很少考虑元素间关联。结构级匹配通过分析本体元素间 的关联得到两本体的元素匹配对。通过将图匹配算法应用到本体有向图结构上,得到两本体的 匹配对。 目前,对于本体匹配方法的研究大致分为三种删: ( 1 ) 基于语言学的本体匹配方法 基于语言学的本体匹配方法是一种采用自然语言处理技术进行本体匹配的方法。它用于计 算本体中单个实体( e n t i t y ) 与单个实体之间的名字、标签以及注释的相似性。目前几乎所有的 本体匹配工具都会采用自然语言处理的相关技术,或单独使用其中的一种技术或综合多种技术。 典型的匹配工具有:c u p i d 3 1 1 ,o l a l 3 2 1 ,s - m a t c h 【3 3 】。 ( 2 ) 基于结构的本体匹配方法 目前基于结构的本体匹配方法比较多,主要采用结构层进行匹配。典型的匹配工具有: c u p i d 3 1 1 ,a n c h o r - p r o m p t s t a 4 。 ( 3 ) 基于实例的本体匹配方法 基于实例的本体匹配方法一般使用综合多种学习策略的机器学习方法,寻找两个本体之间 的映射关系。目前,基于实例的本体匹配方法和工具还比较少,比较有名的是g l u e l 3 5 。 在非结构化工艺知识管理系统中,工艺知识检索模块利用本体匹配技术实现工艺知识的语 义检索,现有的匹配工具大都是针对英文文献的处理,对中文不支持,不能直接应用在该系统 上。根据具体需求结合现有的本体匹配方法,本文设计了一种本体匹配方法,利用该本体匹配 方法实现了非结构化工艺知识检索的语义性。 6 南京航空航天大学硕士学位论文 1 4 2 中文分词技术研究现状 中文分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题。在 非结构化工艺知识管理系统中,知识一般都是以文档形式进行存储的,要实现对文档的自动处 理,首要工作就是分词,然后自动提取文档中的关键词或术语。自上世纪八十年代初期国内开 始研究自动分词技术以来,已经取得了很大的进展,提出了各种分词算法和分词模型,开发了 各种分词软件 3 0 1 。众多分词方法都是以最主要的三种分词方法为基础,且目前国内公开的分词 系统采用的分词方法也是以这三种为主要类型,分别是: ( 1 ) 机械分词方法 这种方法以分词词典为依据,通过将文档中的汉字串和分词词典中的词条逐一匹配来完成 分词。例如北京航空航天大学计算机系的c d w s 分词系统,清华大学的s e g 分词系统和 s e g t a g 系统。 ( 2 ) 语义分词 其基本思想是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理分词中 出现的歧义问题。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、 复杂性,难以将各种语言信息组织成机器可以直接读取的形式,因此目前基于语义的分词系统 还处于试验阶段。 ( 3 ) 人工智能法 人工智能是对信息进行智能化处理的一种模式,其两种处理方法分别是基于心理学的符号 处理法和基于生理学的模拟方法,由此分别在分词上产生了专家系统分词法、神经网络分词法 和神经网络专家系统分词法。 在以上三种主要分词方法类型中,语义分词法和人工智能法是汉语自动标引技术发展的必 然趋势,标引质量较高,但目前对这两方面的研究技术还不很成熟,都还处于试验阶段。本文 对分词的使用,主要是借鉴机械分词的思想,借助领域词典和通用词典,实现对非结构化工艺 知识文档的分词。 1 4 3 关键词提取技术研究现状 关键词表征文档的重要信息和核心内容,便于得到文档的摘要信息和检索具体文档。传统 的关键词提取一般采用人工提取,而人工提取关键词非常费时。随着文档数量的剧增,人工提 取关键词越来越不能满足实际应用的需求,因此,如何自动提取关键词成为目前计算机领域的 一个研究热点。 现有的关键词自动提取算法可以分为三大类: ( 1 ) 基于统计的方法 7 基于本体和分词技术的非结构化工艺知识管理系统 该方法简单易行不需要复杂的训练过程,比如基于词共线的方法p 7 1 ,基于p a t 树的方法p 8 1 等,基于p a t 树的方法是利用p a t 树结构获取新词,采用互信息等统计方法进行关键词提取, 但建立p a t 树需要大量的存储空间。 ( 2 ) 基于规则的方法 国外已经建立了一些实用或实验系统,采用朴素贝叶斯技术对短语离散的特征值进行训练, 获取模型的权值,开发了系统k e a 3 9 】;国内同样利用朴素贝叶斯模型对中文关键词提取i 加】进 行了研究。这两类方法都是从频度或规则上提取关键词,没有考虑词的语义、词性等信息,精 确度不高。 ( 3 ) 基于自然语言理解的方法h 1 】【4 2 】 该方法主要利用词义或语义和词性特征来提取关键词,能从文档中提取出较高正确率的关 键词,已成为自动提取关键词的主要研究方向。 张虹等【4 1 1 人基于文本分类的关键词提取算法以词语的权重公式为中心,利用遗传算法训 练、优化公式中的参数的方法提取关键词,但未对文档中的同义词现象进行处理。人工提取关 键词时,不仅考虑文档的概念层,还对文档的理解层有比较深入的考虑。已有的自动提取关键 词方法主要从概念层进行提取,对于理解层考虑较少。m e d e l y a n 等 4 2 1 人利用文档的语义信息提 取关键词,考虑词汇的理解层,提取用词义代替词,通过消歧算法和上下文得到候选词的词义, 然后进行词合并、特征提取,但算法是针对英文文献进行的关键词提取,采用已有的消歧算法, 精度不够高。索红光等f 4 3 】人利用词汇链提取关键词,通过计算词汇相似度构建词汇链,然后结 合词频和区域特征进行关键词选择,该方法构建的词汇链对候选词的过滤有很好的作用,但该 算法在构建词汇链时,对该词的所有词义进行词义相似度计算,没有考虑该词在文档上下文的 信息,也没有考虑文档中的同义词。本文中的关键词主要指文档中的术语,利用自然语言处理 的方式,通过构建同义词链,解决了文档中的同义词现象,提高关键词提取的精度和准确度。 1 5 项目背景 目前,我国制造企业中存在越来越多的非结构化工艺知识文档,并以指数级数量不断增加, 然而企业对这些文档的重视程度不够,导致资源严重浪费。随着社会的发展,企业逐渐认识到 这些已有工艺知识文档的重要性,所以中德国际合作项目面向中国制造业对高性能加工的实际 需求,结合德方在高性能加工技术领域优势,通过采集中德双方基础工艺知识和工艺数据,针 对典型零件和典型材料优化工艺过程,开发一套高性能加工工艺技术知识管理的工具,更有效 地收集、存储和检索工艺知识,以及在中德两国企业的新工程中进行应用。结合中国制造企业 中的实际情况,本文建立一个非结构化工艺知识管理系统,以解决企业中存在的工艺知识文档 共享和重用为目的,提出了一种基于本体和分词技术的非结构化工艺知识管理系统。针对当前 8 南京航空航天大学硕士学位论文 制造企业对大量非结构化工艺知识文档管理不足的现状,利用分词技术实现对非结构化工艺知 识文档的自动分析和处理能力,利用本体技术,实现对非结构化工艺知识文档语义信息的管理, 加强对非结构化工艺知识文档的管理,提高文档的共享性和重用性。 在制造企业中,工艺知识在设计过程中,需要参照大量的资料,仅靠人工记忆或经验难以 解决问题。传统方法是手工翻阅查找相关文档,但是手工查找这些文档消耗大量的时间,且工 艺知识文档存储的分布性和异构性,导致手工查找费时费力。同时,由于工艺人员人数众多, 知识背景不同,导致对文档的描述不同,以及存档的习惯不同,给其他工艺人员参考或查找带 来一定的困难,所以需要对现有的工艺知识文档进行统一的管理。利用分词技术和本体来实现 对工艺知识文档的自动处理转化,将非结构化工艺知识文档转化为结构化的带有语义的工艺知 识本体库,存入工艺知识本体库中,便于工艺人员之间共享和重用现有知识,建立基于本体和 分词技术的非结构化工艺知识管理系统。 基于本体和分词技术的非结构化工艺知识管理系统是中德国际合作项目的重要部分,该项 目旨在提高企业的竞争力,以及员工的学习和创新能力;同时,充分利用企业中存在的非结构 化工艺知识文档,给工艺人员检索提供方便。 1 6 论文研究内容及结构安排 ( 1 ) 研究内容 本文的主要目标是通过研究本体和分词技术来实现非结构化工艺知识的管理,设计并初步 实现非结构化工艺知识管理系统。主要研究内容包括:非结构化工艺知识文档术语的抽取:非 结构化工艺知识本体构建;用户模型;基于本体匹配技术的非结构化工艺知识检索。 本文的主要工作有: u p k m so w s t 的总体框架:结合u p k m so w s t 的具体需求,给出系统的框架; 术语的抽取:在机械分词的基础上,设计了基于领域词典的中文分词方法,在中文分 词的基础上,给出了术语抽取步骤,利用上下文窗口和消歧算法解决词语在上下文中的语 义问题,利用文档中的同义词构建同义词链,提取文档的领域术语; 非结构化工艺知识本体构建:给出了非结构化工艺知识本体构建算法。术语抽取后, 对术语集进行分析,并结合领域词典完成工艺知识本体构建,存入工艺知识本体库: 用户模型:为了实现非结构化工艺知识检索的个性化需求,根据企业中的用户基本信 息、知识背景以及用户习惯用语建立用户模型; 非结构化工艺知识检索:用户输入检索请求后,显示最适合该用户的检索结果。对用 户检索要求进行预处理,构建检索条件本体,然后与工艺知识本体进行匹配,设计了非结 构化工艺知识本体匹配算法。以及检索结果的过滤步骤。 9 基于本体和分词技术的非结构化工艺知识管理系统 ( 2 ) 结构安排 论文的正文部分共分为六章,结构安排如下: 第一章绪论:主要介绍了工艺知识以及非结构化工艺知识管理研究现状和研究背景,给出 了本体技术和分词技术的研究现状,并阐述了本文的主要研究内容和所要做的工作以及论文的 结构安排。 第二章u p k m so w s t 的总体框架:首先分析该系统的需求,针对具体需求给出 u p k m so w s t 的框架结构和工作流程,重点阐述u p k m so w s t 的关键技术:基于字典树的 领域词典构建、基于分词技术的非结构化工艺知识本体构建技术和基于本体匹配技术的非结构 化工艺知识检索。 第三章基于分词技术的非结构化工艺知识本体构建技术:首先,给出了非结构化工艺知识 本体的相关定义,然后,描述了非结构化工艺知识本体构建过程,最后重点阐述了基于分词技 术的非结构化工艺知识术语抽取和非结构化工艺知识本体的构建。 第四章基于本体匹配技术的非结构化工艺知识检索:首先建立用户模型,然后充分利用用 户模型,给出非结构化工艺知识检索的过程,最后着重阐述了检索请求预处理、非结构化工艺 知识本体匹配算法和非结构化工艺知识检索结果过滤的实现。 第五章u p k m s o w s t 的实现与应用:结合中德国际合作项目,给出了u p k m s o w s t 的设计和关键部分的实现。 第六章总结和展望:对本文所做工作进行总结,并对将来进一步的研究工作进行了展望。 1 0 南京航空航天大学硕士学位论文 第二章u p k m so w s t 的总体框架 本章主要描述u p k m s _ o w s t 总体框架,首先阐述u p k m s o w s t 的需求分析,然后根 据系统的需求,设计u p k m so w s t 的框架结构和工作流程,最后分析u p k m s o w s t 的关 键技术。 2 1u
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 补气水果茶行业跨境出海项目商业计划书
- 贴剂仿制药行业深度调研及发展项目商业计划书
- 高空滑索体验区行业跨境出海项目商业计划书
- 公路工程AI智能应用企业制定与实施新质生产力项目商业计划书
- 幼儿园老师进餐管理制度
- 幼儿园防汛经费管理制度
- 广东幼儿园食膳管理制度
- 建筑公司临时会议室管理制度
- 录播班教室设备管理制度
- 循环经济示范园管理制度
- 2024年杭州市萧山区机关事业单位招聘真题
- 北京经济技术开发区教育领域招聘聘任制教师笔试真题2024
- 2025高考英语解析及其范文
- 2025年6月8日北京市事业单位面试真题及答案解析(下午卷)
- 四川省眉山市东坡区苏辙中学2025年七下英语期末质量跟踪监视试题含答案
- 2024年贵州省粮食储备集团有限公司招聘真题
- 房屋市政工程生产安全重大事故隐患判定标准(2024版)培训课件
- 国家开放大学《中国法律史》形考任务1-3答案
- “职业健康达人”竞赛考试题库500题(含答案)
- 压力容器使用年度检查报告(范本)
- 内蒙古自治区公路工程施工企业信用评价管理实施细则
评论
0/150
提交评论