




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中央民族大学硕士学位论文 关键字模糊本体,模糊形式概念格,概念聚类,生物多样性,阀值 控制 僦珂嬲f 燃必 a b s t r a c t o n t o l o g yt h e o r yi so r i g i n a l l yap h i l o s o p h i cc o n c e p t i np h i l o s o p h y , i t m a i n l ys t u d i e st h en a t u r eo fe x i s t e n c e b u ti nt h el a s t f e wd e c a d e s ,t h i s w o r di sa p p l i e dt ot h ec o m p u t e rf i e l d ,w h i c hi sd e f i n e da st h ee x a c t d e s c r i p t i o no ft h ec o n c e p t s o n t o l o g yp l a y sam o r ea n dm o r ei m p o r t a n t r o l ea sat o o lo fc l a s s i f i c a t i o ni nt h ea r t i f i c i a li n t e l l i g e n c e ,c o m p u t e r l a n g u a g ea n dt h et h e o r yo f d a t a b a s e d u et oi t sc h a r a c t e r i s t i c s ,o n t o l o g y i sl a r g e l yb u i l ti nm a n u a lw a y , w h i c hd e e p l ym a k e sm a n yt r o u b l e si nt h e s h a r e a b l e ,r e c y c l i n g u s ea n dc o o p e r a t i o n i no r d e rt oi m p r o v et h e e f f i c i e n c yo ft h eo n t o l o g yb u i l d i n g ,am o d e mm e t h o di s t ou s ef o r m a l c o n c e p ta n a l y s i st ob u i l do n t o l o g y t h er e s e a r c hi nt h ep a s ti sb a s e do nt h et r a d i t i o n a ls e tt h e o r y , b u t a c t u a l l ym a n yo fi n f o r m a t i o na r ef u z z ya n dc o m p l e x i ti sr e a l l yd i f f i c u l t f o rt h et r a d i t i o n a lo n t o l o g yt od e s c r i b ee f f e c t i v e l y a sar e s u l t ,w ea p p l y z a d e h sf u z z ym a t h e m a t i c si d e at ot h ep r o c e s so fb u i l d i n go n t o l o g y , c o m b i n et h ef u z z ys e tt h e o r yw i t ht h ec o n c e p t u a ll a t t i c et of o r mf u z z y c o n c e p t u a ll a t t i c e ,t h e n u s et h em e t h o do ff u z z yc l u s t e r i n ga n a l y s i s t r a n s f e r st h ef u z z yc o n c e p t u a ll a t t i c et ot h ef u z z yo n t o l o g y , a n dl a s tm a k e s o m eo p e r a t i o n so nt h eo n t o l o g ya n de v a l u a t ei t a c c o r d i n g t ot h ec u r r e n ts i t u a t i o na n de x i s t i n gp r o b l e m s o f b i o l o g i c a ld i v e r s i t y , t h i sp a p e r m a i n l ya p p l i e st h i sm e t h o do fu s i n gf u z z y c l u s t e r i n gt ob u i l do n t o l o g y t ot h eb u i l d i n go fb i o l o g i c a ld i v e r s i t y 中央民族大学硕士学位论文 o n t o l o g y t h ef o l l o w i n gi so u rm a i nr e s e a r c hw o r k s : 1 g i v eab r i e fd e s c r i p t i o no ft h ec u r r e n ts i t u a t i o no ft r a d i t i o n a lb i o l o g i c a l o n t o l o g ya n dr a i s et h em e a n i n go fb u i l d i n ga nu p d a t e do n e 2 c o m b i n ea na c t u a le x a m p l et ob u i l dab i o l o g i c a l d i v e r s i t yf u z z y o n t o l o g yt h r o u g ht h em e t h o do ff u z z yc l u s t e r i n g 3 m a k ea ni n s e r t i n gr e n e wo p e r a t i o no nt h eo n t o l o g yf o r m e da b o v ei n t h ew a yo ff u z 珂r e a s o n i n g 4 e v a l u a t et h eo n t o l o g yf o r m e da b o v et h r o u g ht h es t u d yo ft h et h r e s h o l d 死a n d a n d i伍l8 中央民族大学硕士学位论文 目录 第一章引言l 第一节本文的研究背景1 一、本体的构建l 二、基于模糊聚类的本体构造l 三、生物多样性本体的构造意义2 第_ 二节本文的主要内容3 第二章预备知识4 第一节本体和形式概念分析4 第- 二节模糊形式概念分析和模糊本体8 第二节基于模糊聚类方法的模糊本体构造l o 第三章生物多样性本体构造的案例分析1 7 第节生物本体研究现状1 7 一、生物木体的理论1 7 二、存在的问题和现状1 7 第二节 生成关于生物多样性的模糊奉体1 8 一、生成相应的模糊概念格1 8 二、生成相应的概念聚类集2 l 三、生成模糊本体2 2 第三节对生成的模糊本体进行操作2 3 一、命题的提取2 4 二、模糊近似推理2 5 第四节对本体模剐结果的评估2 7 一、模糊概念格构造中阀值的评估2 8 二、概念聚类中阀值的评估3 0 第五节存在的i j 题和研究展望3 2 一、存在问题和不足3 2 二、研究展望3 3 参考文献3 4 攻读学位期间发表的学术论文3 7 中央民族大学研究生学位论文作青声明3 8 致谢3 9 v 中央民族大学硕士学位论文 第一章引言 第一节本文的研究背景 一、本体的构建 本体论( o n t o l o g y ) 最早是一个哲学概念。在哲学中,它是形而上学的一个分 支,研究存在的本质,即什么是最一般意义上真实存在的,亦即如何描述它们。 但近几十年里,这个词被应用到计算机界。斯坦福大学的t r g r u b e r 给出的定 义得到了许多同行的认可,即本体论是对概念化的精确描述,本体论用于描述事 物的本质【1 1 。本体作为一种分类学的研究工具在人工智能、计算机语言以及数据 库理论中扮演着越来越重要的作用【2 1 。 基于本体的自身特点,构建本体大多采用手工方式,远远没有成为一种工程 性、通用的活动。在一些复杂的应用领域,这将是一项费时费力的任务,而且具 有很大的主观性,影响了本体的共享、重用和互操作。为了提高本体的构造效率, 一种新型的方法是依靠结构化的数据或文本,采用自动或是半自动的方法来构建 本体【3 1 。 形式概念分析( f o r m a lc o n c e p ta n a l y s i s ,f c a ) 是2 0 世纪8 0 年代初由德国 w i l l e 教授提出的,它是以数学化的概念和概念层次为基础的应用数学领域,它 激发了人们对概念数据分析和知识处理的数学思考1 4 1 。近几十年来形式概念理论 已广泛应用到了文本处理、知识表达、知识挖掘、专家系统等很多领域。 由于形势概念格和本体都具有形式化的结构,我们可以利用f c a 来构建本 体p 1 0 1 。虽然在构造本体的过程中,仍然需要一部分领域专家的手工操作,但是 已经提高了构造效率,大大减少了工作量。 二、基于模糊聚类的本体构造 以往研究的本体都是基于传统集合论的,而实际上很多信息都是模糊的、复 杂的,传统本体很难做到有效的表达。于是我们想到引入模糊的概念。模糊数学 是研究和处理模糊性现象的种数学理论和方法,它是由美国控制论学者 l a z a d e h 创立的【1 1 】。模糊化的数学处理就是将经典的集合论扩展为模糊集合论。 中央民族大学硕士学位论文 由于我们的构造方法是基于半自动化的概念格构造,所以我们要把模糊集合 论与形式概念格结合起来,生成模糊概念剧1 2 】。接下来的工作需运用模糊聚类 分析方法,即把z a d e h 模糊集合思想运用到聚类过程中。这是模糊统计学中一个 重要的组成部分。模糊概念聚类技术可以把概念聚成多个聚类,概念聚类可以有 如下性质:概念聚类有层次关系;关系可从模糊概念导出;由概念聚类表示的概 念可以是其他概念聚类的子概念或超概念;可用近似置信阈值确定两个概念是否 近刨1 3 l 。最终我们通过映射得到模糊本体【1 4 , 1 5 1 ,并对其进行操作和评估。 三、生物多样性本体的构造意义 生物多样性是指一定范围内多种多样活的有机体( 动物、植物、微生物) 有 规律地结合所构成稳定的生态综合体。这种多样性包括动物、植物、微生物的物 种多样性,物种的遗传与变异的多样性及生态系统的多样性【1 6 ,1 7 1 。 生物分类是研究生物的一种基本方法。生物分类主要是根据生物的相似程度 ( 包括形态结构和生理功能等) ,把生物划分为种和属等不同的等级,并对每一类 群的形态结构和生理功能等特征进行科学的描述,以弄清不同类群之间的亲缘关 系和进化关烈1 8 】。分类的依据是生物在形态结构和生理功能等方面的特征。分 类的基本单位是种。分类等级越高,所包含的生物共同点越多;分类等级越低, 所包含的生物共同点越少。 在分类学角度,按照以往的方法,大多是对生物的形态特征进行简单的归类。 例如,东北虎属于猫科虎种。这对于大多数生物的划分是可行的。但是对于一些 特殊动物的特征划分却显得很牵强,例如在动物分类上把鸭嘴兽简单归为哺乳类 或爬行类,把蓝鲸归为哺乳类或鱼类都不是很合适,在我们对大自然的认识中, 很多东西并不是非彼即此的,而是存在过渡和中间部分。 为了更好的描述这种复杂的生物界特征,构造一种含不确定信息的、特殊的、 新型的本体意义重大。一个可行的方法是在生物本体的构造中引入模糊数学理 论,这样既有利于高效分类模式的建立,也能通过加入隶属度问题更好表达这种 模糊的信息。 2 中央民族大学硕士学位论文 第二节本文的主要内容 在第二章中,首先介绍本体论和形式概念分析的相关内容,以及将其模糊化 后的相关介绍和定义。接着给出模糊聚类方法生成本体的过程,即模糊集合论与 形式概念格结合起来,生成模糊概念格;通过模糊聚类分析生成概念聚类集;通 过映射生成模糊的本体;对生成的本体进行以模糊推理为主的判别分析;最后提 出几项模型评估指标。 在第三章中,重点介绍对生物多样性本体构造这个案例研究和讨论。主要做 了以下几项工作: 1 介绍了生物多样性本体的现状和构造意义; 2 结合一个实例通过模糊聚类的方法生成一个生物多样性模糊本体; 3 对这个生成的本体进行以模糊推理为主的插入更新操作; 4 通过对阀值疋和的研究,对生成的本体进行评估: 5 提出存在的问题和不足以及研究展望。 3 中央民族大学硕士学位论文 第二章预备知识 第一节本体和形式概念分析 一、本体的定义 本体论( o n t o l o g y ) 最早是一个哲学范畴,被人工智能界赋予了新的定义,从 而被引入信息科学中。然而信息科学界对o n t o l o g y 的理解也是逐步发展才走向 成熟的。1 9 9 1 年n e c h e s 等人最早给出o n t o l o g y 在信息科学中的定义:“给出 构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些 词汇外延规则的定义 。后来在信息系统、知识系统等领域,随着越来越多的人 研究o n t o l o g y ,产生了不同的定义。目前对o n t o l o g y 概念的统一看法是其应包 含四层含义【1 】: ( 一) 概念模型( c o n c e p t u a l i z a t i o n ) :通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型,其表示的含义独立于具体的环境状态; ( 二) 明确( e x p l i c i t ) :所使用的概念及使用这些概念的约束都有明确的定义; ( - - ) 形式化( f o r m a l ) :o n t o l o g y 是计算机可读的,也就是计算机可处理的; ( 四) 共享( s h a r e ) :o m o l o g y 中体现的是共同认可的知识,反映的是相关领域中公 认的概念集,它所针对的是团体而非个体。 一个本体通常由四部分组成【l 】:概念,用于表示一组或一类实例,通常用来 表示具有共同性质的一类事物。本体中的概念是广义上的概念,不仅可以表示一 般意义上的概念,还可以表示任务、功能、行为等;关系,用于表示概念或它们 的属性之间的关联;公理,用于对概念或实例的值进行约束,表示一些永真式; 实例,用于表示类的一个具体的个体,对于本体而言,实例可有可无。 具体的说,一个本体形式地刻画一个论域( d o m a i no f d i s c o u r s e ) 。一个典型的 本体由有限个术语以及它们之间的关系组成。术语( t e r m ) 指给定论域中的重要的 概念( 对象的类) 。 二、形式概念分析的基本概念 形式概念分析( f o r m a lc o n c e p ta n a l y s i s ,f c a ) 理论又称为概念格理论。是由德 国的w i l l e 教授于1 9 8 2 年作为一种数学理论首先提出的,它是一种基于概念和概 4 中央民族大学硕士学位论文 念层次的数学化表达的应用数学的一个分支,在应用形式概念分析理论时,需要 用数学的思维方式进行概念数据分析和知识的处理【4 1 。 概念格是f c a 的核心数据结构。概念格的每个节点是一个概念,由外延和 内涵组成。外延是概念所覆盖的实例;而内涵是概念的描述,是该概念所覆盖 实例的共同特征。以下定义参考文献【4 】和 1 9 】 定义2 1 1 设有对象的集合g 和属性的集合m 。若,g x m ( 从g 到m 的一 个二元关采) ,则称三元组( g ,m ,) 是一个( 形式) 背景。若( g ,m ) i ,则称:对 象g 有属性m ,并记为g l m 。 对于a g ,b m ,令: 彳= 肌mi ( 坛彳) g 砌) , b = g gl ( v m b ) g l m 。 由彳h 彳7 和bh 给出了映射:双g ) j 双m ) 和:双m ) 一双g ) ,称为关系, 的极。 定义2 1 2 设a g ,bca , 。若a = b ,b = a ,则称( 4 ,b ) 是背景( g ,m ,) 中的一个概念。彳叫做概念( 4 ,b ) 的外延,曰叫做概念( 4 ,b ) 的内涵。背景 ( g ,m ,i ) 中的所有概念构成的集合记作男( g ,m ,) 定义2 1 3 令( g ,m ,) 是一个背景。( 4 ,置) ,( 4 ,垦) 召( g ,m ,) ,我们规定: ( 4 ,色) ( 4 ,也) 4 4 尽2 展 容易看出关系是召( g ,m ,) 中的一个序。 定理2 1 4 ( 概念格基本定理i ) 设( g ,m ,) 是个背景,三= $ ( g ,m ,) 是伴随 的( 概念) 完备格,映射7 :g - - yl ,:m - - - yl 的定义如上。则: ( 1 ) r ( g ) 在三中是并稠密的。 中央民族大学硕士学位论文 ( 2 ) ) 在三中是交稠密的。 ( 3 ) v g g ,v m m ,g l mc y ( g ) ( ,竹) 。 定理2 1 5 ( 概念格基本定理i i )设三是完备格,g ,m 是集合,且存在单调映 射y :g 专三,:m 专三,使得r ( g ) 在三中并稠密,) 在三中交稠密。定义 关系,g x m 如下: v 窖g ,v m 夕,g l mc ,y ( g ) 4 m ) 。 贝, j jl 同构于易( g ,m ,) 。 推论:任何完备格三同构于概念格易( 厶l , ) 。 则称4 是u 上的模糊集, ) 称为a 的隶属函数。 定义2 2 2 ( 模糊集的基数) 令a 是定义在u 上的模糊集,a 的基数定义为 i a i = ( ”) h 【, 定义2 2 3 ( 模糊集的并集、交集和补集) 模糊集a 和b 的交集、并集和补集,分别定义如下: 交集:4 n b - - - - - m i n ( g a ( x ) ,( x ) ) 并集:儿= m a x ( g a ( x ) ,( x ” 补集:儿( z ,) = 1 - g a ( u ) 8 中央民族大学硕士学位论文 定义2 2 4 ( 模糊集的相似度) 两个模糊集彳和b 的相似度定义为 e ( 么,b ) = l 号啬j 二、模糊形式概念分析和模糊本体的相关定义 根据上一节中形式概念的相关定义性质,我们利用模糊理论予以扩充,给出 相应的定义和性质。以下定义见文献【1 2 】和 1 3 】 定义2 2 5 ( 模糊形式背景) 一个模糊形式背景是一个三元组k = ( g ,m ,i = e ( g m ) ) ,其中g 是所有对 象的集合,m 是所有属性的集合,是一个在域g x m 上定义的模糊集,每个关 系的元素( g ,m ) 均有一个隶属度u ( g ,掰) ,0 ( g ,m ) l 。 定义2 2 6 ( 模糊形式概念) 给定一个模糊形式背景k = ( g ,m ,i = a p ( gx m ) ) 以及一个阀值r ,对于对象 集合的子集a g ,定义a = m e m i 坛a :p ( g ,历) n ,对于属性集合的子 集b c _ m ,定义b = g g i v m b :( g ,m ) 乃。一个具有阀值的形式概念为 k ,= 劬( 彳) ,b ) ,其中a g ,bc _ m ,a = b ,b 。= a ,e ( a ) 是定义在a 上的 模糊集,每个对象g 彳均有一个隶属度心定义为 以2 咖( g ,历) 这里( g ,m ) 是模糊形式背景中定义的对象g 与属性m 间的隶属度。如果 b = 矽,则对任意g 均有心= l 。相应地,称彳为k ,的外延,b 为k ,的内涵。 定义2 2 7 设k = ( g ,m ,= o ( gx m ) ) 为一模糊形式背景,k ,。= ( 缈( 4 ) ,置) 与 k ,:= ( 妒( 4 ) ,b ) 是k 上的两个概念,规定c l e 4 4 ( 铮垦2 忍) 。此时, 9 中央民族大学硕士学位论文 c 2 称为c l 的超概念,c l 称为e 的子概念。 定义2 2 8 ( 模糊形式概念的基数) 因为一个模糊形式概念的模糊度用该概念中的对象的隶属度来表示,所以 一个模糊形式概念k ,= ( 伊0 ) ,b ) 的基数定义为ik ,i = l9 ( 彳) i 。 定义2 2 9 ( 模糊形式概念的相似度) 一个模糊形式概念k ,。= ( 缈( 4 ) ,尽) 与它的子概念k ,:= ( 缈( 4 ) 岛) 的相似度为 e ( k ,。,k ,:) = e ( 缈( 4 ) ,p ( 4 ) ) 一个模糊本体【1 3 ,1 5 1 由以下四个部分组成( c ,a c , r ,x ) ,其中c 代表概念的集 合,彳c 代表属性集合的集合,尺= ( 碍,目) 代表关系的集合:b 是分类关系的集 合,凡是非分类关系的集合。c 中的概念c ,代表对象或实例的集合,概念c ,中 的对象q 可以被一个属性值集合所描述并记为彳c ( q ) 。r 中的每个关系对 ,;( c ,) 代表概念和之间的二元关系,这种关系的实例是概念对象对 ,q ) 。每个对象或关系的实例的属性值和 o ,1 】间的模糊隶属度相关联,表达 属性值或关系的不确定度。x 是公理的集合,代表永真断言,是定义在概念和 属性e 的限定和规则。 第三节基于模糊聚类方法的模糊本体构造 在这一节中,我们将就整个模糊本体的构造过程进行详细的讨论研究,下图 为整个过程流程图。 1 0 中央民族大学硕士学位论文 图2 - 1 一、模糊聚类分析 模糊聚类分析是涉及事物之间的模糊界限时按一定要求对事物进行分类的 数学方法。事物之间的界限,有些是确切的,有些则是模糊的。当聚类涉及事物 之间的模糊界限时,需运用模糊聚类分析方法。即把z a d e h 模糊集合思想运用到 聚类过程中。这也是模糊统计学中一个重要的组成部分。通常把被聚类的事物称 为样本,将被聚类的一组事物称为样本集。在这里我们给出在模糊概念格聚类分 析中相关的所需的定义。以下定义参阅文献 1 3 】 2 l 】 2 2 】和 2 3 】 定义生3 1 ( 概念聚类) 一个带有相似度阀值五的概念格k 的概念聚类是k 的一个子格& ,且具有 以下性质: 1 & 含有一个最大概念g ,即它不是& 中其它任何概念的超概念。 2 对& 中的任何概念c g ,一定至少含有它的一个超概念c & ,使得它们之 间的相似值e ( c ,c ) 五。 定义2 3 2 ( 概念聚类的对象集) 一个概念聚类c 的对象集表示为品( c ) = ug ( k ) ,其中k 是模糊形式概念, k c g ( k ) 是k 上的对象集合。品( c ) 称为c 的对象集。 定义2 3 3 ( 概念聚类的属性集) 一个概念聚类c 的属性集表示为只( c ) = u m ( k ) ,其中k 是模糊形式概 k c 中央民族大学硕士学位论文 念,m ( k ) 是k 上的属性集合。e ( c ) 称为c 的属性集。 定义2 3 4 ( 概念聚类对象成员的隶属值) 给定一个概念聚类c 和对象集品( c ) 。c 中对象集的每个成员o s o ( c ) 的 隶属值定义为( c ) = m i n k 。c ( 心( k ) ) ,其中k 是模糊形式概念,( k ) 是k 中 对象d 的隶属值。 定义2 3 5 ( 概念聚类的模糊表示) 给定一个模糊聚类c ,且品( c ) = d l ,0 2 ,q ) ,c 的模糊表示为模糊集 ( c ) 满足( c ) = 西( d 1 ) n ( d 2 ) n n o ( o ) 。 二、聚类集到模糊本体的映射 这一步是本节中非常关键的一部分。要求把由概念分类技术所生成的模糊聚 类转化成模糊的本体。模糊概念聚类是采用一定的聚类技术、依据格结点间的相 似度参数对模糊概念格上的概念进行聚类,生成模糊概念聚类集合,进而生成模 糊概念层次。 映射的理论基础是形式概念分析和本体都是基于形式定义的本体。但是形式 概念分析具有外延和内涵,而本体中的概念注重它的内涵方面。要建立模糊本体, 我们需要把形式概念格中的概念的外延和内涵都转化成本体中相应的类和关系。 整个映射的过程如下图所示: 图2 - 2 1 2 中央民族大学硕士学位论文 由于模糊概念格中的每个模糊概念包含外延和内涵信息,模糊概念层次体现 了模糊概念之间的分类关系;而本体描述的是概念和概念之间的关系,包含5 个基本的建模元语,分别是:类、关系、函数、公理和实例。所以,由模糊概念 格转化到模糊本体,需要将两者的内容做映射f 2 4 ,2 5 , 2 6 1 ,具体的映射方法如下所 示: ( 一) 为每个模糊概念层次中的概念节点定义一个标识,每个标识名对应模糊本体 中的一个类名,从而使得模糊概念之间的层次关系对应本体中相应类之间的分 类关系;本体中每个类对应的属性由模糊概念层次中相应模糊概念内涵对应的 模糊语言变量值表示,属性的值对应形式背景中模糊隶属度值。 ( 二) 生成分类关系 分类关系定义为弓= s u p e r c l a s s ( i ,) ,s u b c l a s s ( i ,) 有以下两个规则: s u pe r c l a s s ( x ,y ) :- s u b c l a s s ( y ,x ) ,s u b c l a s s ( x ,】,) :- s u pe r c l a s s ( y ,x ) 这主要表明生成的内涵之间的层次上的关系,是两个内涵之间的关系。即若x 和】,是新生成的表示内涵的节点,若x 是y 的上一级,则】,就是x 的下一级; 若x 是y 的上一级,则】,就是x 的下一级。 ( 三) 生成非分类关系 非分类关系定义为凡= 如( ,e ) ,( e ,) ) 有以下两个规则: 如( x ,】,) :一( 】,石) ,如( x ,】,) :一( 】,x ) 这主要是一种单向的指引关系,是一个外延和个内涵之间关系。由外延指向 内涵,或者由内涵指向外延。若x 是外延,y 是内涵。石和j ,存在一种关系, 】,就是x 的这种关系的逆关系。此外,是的逆关系。 ( 四) 本体中类的实例即模糊形式背景的对象。 由上述四个步骤生成的本体具有一致性,故不需要一致性检查;本体中类的 对象即实例的属性值是用模糊值表示,体现了现实性;但是,由这种方法生成的 本体中表示的关系相对比较简单,要想得到现实中存在的其他复杂的关系,以及 中央民族大学硕士学位论文 要求的函数及公理的设置,必须通过专家参与,人为的加入到已有的本体原型中, 这样才得到比较完整的本体模型。 三、新个体插入模糊本体 判别分析是在分类确定的条件下,根据某一研究对象的各种特征值判别其类 型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建 立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并 计算判别指标。据此即可确定某一样本属于何类。根据判别中的组数,可以分为 两组判别分析和多组判别分析;根据判别函数的形式,可以分为线性判别和非线 性判别;根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;根 据判别标准不同,可以分为距离判别、f i s h e r 判别、b a y e s 判别掣2 7 1 。 同样作为常用统计方法,判别分析与聚类分析研究的出发点不同。判别分析 是在已知研究对象分成若干类型( 或组别) 并己取得各种类型的一批已知样品的 观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判 别分类【2 8 l 。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正 需要通过聚类分析来给以确定类型的。 判别分析和聚类分析往往联合起来使用,判别分析是要求先知道各类总体情 况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批 样品进行分类,然后再用判别分析建立判别式以对新样品进行判别【2 9 1 。 对于生成本体而言,一个普遍的问题是怎样插入新的节点数据。模糊本体中 新对象的插入主要包括命题的提取和模糊推理两个部分【1 3 , 2 3 l 。模糊本体是通过概 念聚类分析生成概念分层得到的。如果插入新的数据节点时再次使用模糊聚类的 方法是一种浪费资源和时间的行为。为了避免重复劳动,我们使用基于模糊的近 似推理来插入新的数据节点到合适的聚类。 四、对生成的本体进行评估 ( 一) 对模糊格构造的评估 我们利用模糊格生成本体,对于大型的本体而言,其模糊格的构造非常复杂, 我们往往利用自动的生成算法来取代手工构建,这就涉及到属性数,对象数,格 1 4 中央民族大学硕士学位论文 规模和运行时间的相互关系。在文献【3 0 】中,作者通过j a v a 编程绘图很好的诠 释了模糊概念格的效率问题,下面将引用这些图表,就这一问题的进行解释阐述。 其中实验数据采取随机数据。 1 空间复杂度方面 假设属性数不变的情况下,对象数与格规模的关系如图2 - 3 所示;假设对象 数不变的情况下,属性数与格规模的关系如下图2 - 4 所示。 餐 蠕 毫 键 苷 八, 弋v 1 | | l 一 对肇敷 图2 - 3 叛 磐 犍 曜 硝 图2 - 4 由以上两图可知,当固定属性数,对象数增加时所生成的节点数不是直线上 升的,而是起伏变化的;当固定对象数,属性数增加时所生成的节点数也有相同 的规律。所以这指导我们做模糊格前,要设定合适数量的属性数和对象数,以使 得生成的格的规模适中,易于操作,效率高。 2 时间复杂度方面 对象数不变,属性数和运行时间的关系如图2 - 5 所示;属性数不变,对象数 和运行时的关系如图2 - 6 所示。 图2 - 5 3 5 0 0 3 o 2 5 0 0 詈2 0 0 0 蚣 。t 5 0 0 l 0 0 0 5 0 0 0 八 l 八 厂f lr v y - o1 0 0 2 3 0 0 对象数 图2 - 6 中央民族大学硕士学位论文 由以上两图可知,当固定对象数,属性数增加时生成模糊格的运行时间不是 一直上升的,而是存在起伏变化的;当固定属性数,对象数增加时生成模糊格的 运行时间也呈现同样的规律。这就要求我们制定合适的属性数和对象数,使得在 格规模上和运行时间上达到一种最优配置。 二、对聚类的评估 本体是基于概念层次构造的,故本体的质量多依赖于概念分层的质量。概念 层次是由聚类技术得到的,评判聚类结果优劣的过程,称为聚类的有效性分析。 一般来讲,使类内距离极小化而类间距离最大化的聚类是最优聚类f 3 l 】。通常有 三大类评判标准【3 2 1 。 ( 一) 外在标准:基于已知的数据结构,检验聚类结果与已知分类的吻合程度。 ( 二) 内在标准:只根据数据量和数据内在的特征来检验聚类结果。 ( 三) 相对标准:上述两类标准是以统计检验为基础的,其计算量较大。相对标准 不要求统计检验,其基本思想是根据预先定义的标准来寻找最佳的聚类方式。 对聚类效果进行评估的方法很多。在此次评估中,我们使用容错法【2 4 1 ,它 通过定义聚类的各部分之间的关系对模糊聚类做出有效的评价。 聚类c 的有效性矿定义为: 矿( c ) = 1 - r e ( c )其中r e ( c ) 是聚类容错性。 艇( c ) = 三,:。p 珍( c ,) d q ( q ,c j ) q a 其中a 是聚类c 中的属性集,p ) 是聚类c 中q 的概率,d q ( q ,c ,) 是属性q 上对象q 和c j 的距离。d q ( q ,巳) = i ,( q ,4 ) 一,( 巳,哆) l ,( q ,4 ) 和,( 巳,哆) 是属性 口f 上的对象q 和c ,的隶属度值。矿值越大,说明聚类有效性越好。 1 6 中央民族大学硕士学位论文 第三章生物多样性本体构造的案例分析 第一节生物本体研究现状 一、生物本体的理论 生物学与本体结合的生物本体是当近世界生物学研究的一个高速发展的领 域。生物学本体在两个方向对生物学研究起到了促进作用【3 3 1 :一是,它为生物学 家提供一个共享的辞典,实现科学领域的整合,以及在不同领域问检索数据;二是, 它为使用计算机来进行数据的检索、推理和挖掘提供了更加强大的支持。 开放的生物医学本体组织( o p e nb i o m e d i c a lo n t o l o g y ,o b o ) 是生物学本体 研究领域最具权威性的组织 3 4 1 。目前其网站上提供了6 2 种本体,跨越了不同生物 和医学研究领域。o b o 中主要包含了以下几个项目:基因本体( g e n eo n t o l o g y , g o ) ;序列本体( s e q u e n c eo n t o l o g y , s o ) ;植物本体( p l a n to n t o l o g yc o n s o r t i u m , p o ) ;基因表达谱本体( m i c r o a r r a yg e n ee x p r e s s i o nd a t a , m g e d ) ;功能基因组 本体( s t a n d a r d sa n do n t o l o g i e sf o rf u n c t i o n a lg e n o m i c s ,s o f g ) 此外,细胞本体( c e l lo n t o l o g y , c o ) 、解剖学本体( g a l e n ) 、细胞类型本体( c e l l t y p eo n t o l o g y , c l ) 也在各自的专业研究领域被广泛使用。 二、存在的问题和现状 在分类学角度,按照以往的方法,大多是对生物的形态特征进行简单的归类。 例如,东北虎属于猫科虎种。这对于大多数生物的划分是可行的。但是对于一些 特殊动物的特征划分却显得很牵强,例如在动物分类上把鸭嘴兽简单归为哺乳类 或爬行类,把蓝鲸归为哺乳类或鱼类都不是很合适,在我们对大自然的认识中, 很多东西并不是非彼即此的,而是存在过渡和中间部分。 结合生物本体而言,这种新型的、基于计算机的分类技术主要也是采用明确 的分类标准,不能具有像人们那样能够接受模糊语言与模糊信息,并能做出正确 的识别和判断。生物学知识表达分为两大阵营:第一个阵营由生物学专家组成, 他们拥有各自研究领域的专业知识;第二个阵营由本体专家组成,他们要求采用 一个具有明确语义基础的语言对知识进行表达;这两个阵营经常发生冲突【5 1 。造 成这一冲突的根本原因是:相同的知识可以采用不同的方式进行表达。这种多样 1 7 中央民族大学硕士学位论文 性引发的问题,在对未知或不明确的知识进行表达的过程中就显得尤为突出。 为了更好的描述这种复杂的生物界特征,构造一种含不确定信息的、特殊的、 新型的本体意义重大。一个可行的方法是在生物本体的构造中引入模糊数学理 论,这样既有利于高效分类模式的建立,也能通过加入隶属度问题更好表达这种 模糊的信息。例如对上述两种动物,我们可假设为下图: 图3 - 1 第二节生成关于生物多样性的模糊本体 基于上一章提供的理论基础,本节将构造关于生物多样性的一个本体。在这 里我们把重点集中在理论上的分析研究,而不是大规模的计算,提出的是一种方 法和思路的运用,对于最终的多样性本体库的建立,需要包括数学、计算机、生 物等多领域的专家共同合作。 我们选取一个地域为研究对象,这里有这样三种动物:d 1 ,0 2 ,0 3 。对它们的 形态特征和基因进行检验后发现,它们都或多或少的具有特征a ,b ,c ,d 。我们从 此入手开始建立一个简单的多样性生物模糊本体。 一、生成相应的模糊概念格 首先我们根据生物领域专家了解到这三种动物关于四种特征的吻合程度,即 隶属度,制定如下图所示的模糊形式背景表: 1 8 中央民族大学硕士学位论文 表3 1 模糊形式背景表 特征a特征b特征c特征d 动物o t o 8o 6 5o 1 2o 3 动物0 2 o 2 3o 7 30 5 40 4 动物0 3 o 1 6o 2 3o 7 5o 8 7 经过生物领域和计算机领域专家的共同协商和研究后,设定阀值瓦为o 5 , 那么大于这个数值的特征我们认为它不明显,可以被忽略掉。处理后的模糊形式 背景为: 表3 2 处理后的模糊形式背景( 阀值疋为0 5 ) 特征a特征b特征c特征d 动物0 1 0 8o 6 5 动物0 2 o 7 30 5 4 动物0 3 o 7 5o 8 7 我们把处理后的模糊形式概念表中的不同的隶属值全部看成是1 ,缺失值看 成是0 ,根据上一章所述的传统的概念格生成算法生成一般的概念格,如下图所 示: 图3 - 2 1 9 中央民族大学硕士学位论文 这里,模糊概念格的框架是由概念格的基本生成方法得出的,在上图中,对 于概念( d 2 ,0 3 , c ) ) ,( d 3 ) , c ,d ) ) 而言,前者外延 d 2 ,d 3 ) 包含后者外延 d 3 ) ,后者 内涵 c ,d ) 包含前者内涵 c ) ,于是得到的概念格是满足偏序关系的完备格。 接下来根据模糊概念中的相关定义,分别对每个概念中对象的隶属度进行计 算。 设概念( d 1 ,d 2 ) ,p ) 为置,其对象d l ,d 2 的隶属度为: 心= ( d l ,6 ) = 0 6 5 ;心= ( d 2 ,6 ) = o 7 3 设概念( ( d l , 口,6 ) 为k ,其对象d l 的隶属度为: 心= m i n g ( o l ,口) ( d l ,6 ) ) = m i n o 8 ,0 6 5 ) = 0 6 5 设概念( d 2 ) , 6 ,c ) ) 为墨,其对象d 2 的隶属度为: 心= m i n g ( 0 2 ,6 ) ,( d 2 ,c ) ) = m i n o 7 3 ,0 5 4 ) = 0 5 4 设概念( d 2 ,0 3 , c ) ) 为k 4 ,其对象d 2 ,d 3 的隶属度为: 心2 ( 0 2 ,0 = 0 5 4 ;心= ( d 3 ,c ) = 0 7 5 设概念( 如) , c ,d ) ) 为墨,其对象d 3 的隶属度为; 心= m i n p ( 0 3 ,c ) ,( d 3 ,d ) ) = m i n o 7 5 ,0 8 7 ) = 0 7 5 接f 来我们考虑概念间的相似度 概念k 和间的相似度为: e ( 墨,k z ) = e ( 缈( 彳- ) ,矽( 4 ) ) = i p ( 4 ) u 妒( 4 ) l i = i m 聂i 夏n i 0 r 石6 歹5 石0 了7 j 3 f + f 磊m 函i n i 丽0 6 5 , o : q :鱼! 竺 :o 4 7 一“,概念墨和恐间的相似度为: e(k,墨)=e(妒(4),缈(4)=抟要爰号合器l=一min065073+min0,054 中央民族大学硕士学位论文 概念墨和k 4 间的相似度为: e ( 墨,丘) = e ( f o ( d 3 ) ,缈( a 4 ) ) = :旦:鱼! 旦:o 5 1 一i , o 7 3 + 0 5 4 :竺坐旦:! 兰! q ! 竺型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025网络小说版权购买合同范本
- 聚焦2025年新能源产业技术创新与环保责任挑战报告001
- 2025年新能源电动汽车电机技术创新与资本市场分析报告
- 基于2025年教育改革的学前教育师资队伍建设分析报告
- 2025年度企业办公场地租赁协议
- 2025年中国个人用IPL脱毛仪行业市场全景分析及前景机遇研判报告
- 音乐产业未来竞争格局:2025长尾词视角下的版权运营与科技驱动报告
- 高效减水剂的作用
- 劳务派遣合同签订与执行:三方权益保障与风险防范
- 离婚房产分割及财产补偿与子女教育辅导协议
- 血常规室内质控模板
- YY/T 1943-2024医疗器械唯一标识的包装实施和应用
- 盾构施工基本原理及操作常见问题与处理方法
- 统编版初中语文八年级下册第四单元:超级演说家
- T-CUWA 20059-2022 城镇供水管网模型构建与应用技术规程
- GB/T 32066-2024煤基费托合成液体石蜡
- 雅典帕特农神庙古希腊建筑典范与历史见证
- GA/T 2019-2023公安视频监控视频存储技术要求
- 2024零碳建筑评价标准
- 机械设计基础(第六版)课件
- 口腔癌术后患者的护理查房课件
评论
0/150
提交评论