(机械电子工程专业论文)基于相似度量的机械产品系统的分类方法研究.pdf_第1页
(机械电子工程专业论文)基于相似度量的机械产品系统的分类方法研究.pdf_第2页
(机械电子工程专业论文)基于相似度量的机械产品系统的分类方法研究.pdf_第3页
(机械电子工程专业论文)基于相似度量的机械产品系统的分类方法研究.pdf_第4页
(机械电子工程专业论文)基于相似度量的机械产品系统的分类方法研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于相似度量的机械产品系统的分类方法研究 摘要 本课题对基于相似度量的机械产品系统模式分类的相关问题进行了研究。探 讨了在相似度量中机械产品系统特征属性的重要性问题,提出一种新的权重值确 定方法,在此基础上建立加权距离系数法,并研究了系统相似度量方法,提高了 相似度量的客观性与准确性。用主成份分析法进行特征提取,简化计算的复杂度。 提出以加权距离和系统相似度量方法为基础进行聚类分析,提高聚类结果的 有效性。针对机械产品实例建立分类决策函数,设计了最小加权距离分类器和最 大系统相似度分类器,在保证适用范围的前提下提高分类的精度,并提出基于系 统相似度的最小风险决策,确保决策带来的损失最小。 本课题的研究有利于提高机械产品系统分类与决策的客观性与准确性,提高 分类的自动化水平。 关键词:相似度量方差权重值聚类分析分类与决策 r e s e a r c ho nc l a s s i f i c a t i o nm e t h o d so fm e c h a n i c a l p r o d u c t ss y s t e mb a s e do n s i m i l a r i t y m e a s u r e s a b s t r a c t s i nt h i s d i s s e r t a t i o n ,t h ep r o b l e m so fp a r e r n c l a s s i f i c a t i o no fm e c h a n i c a l p r o d u c t ss y s t e mi sr e s e a r c h e db a s e d o ns i m i l a r i t ym e a s u r e s a f t e rt h ew e i 曲t i n e s so f p r o d u c ta t t r i b u t e sb e i n gr e s e a r c h e d an e wm e t h o di s e s t a b l i s h e dt oc a l c u l a t et l l e w e i g h to fa t x r i b n t e s t h em e t h o di sa p p l i e di nw e i g h l e dd i s t a n c ec o e f f i c i e n ta n d s y s t e ms i m i l a r i t y t om e a s u r es i m i l a r i t y d e g r e e i t e n h a n c e st h e o b j e c t i v i t y a n d a c c u r a c yo ft h es i m i l a r i t ym e a s u r e s t h em a i nc o m p o n e n ta n a l y t i c a lm e t h o di s a p p l i e d t oc h o o s et h ea t t r i b u t e sa n d s i m p l i f yt h ec o m p l e x i t yo f c a l c u l a t i o n c l u s t e ra n a l y s i si sa r g u e dt op r o c e s sb a s e do nw e i g h t e dd i s t a n c ec o e f f i c i e n t a n ds y s t e ms i m i l a r i t ym e t h o d st oe n h a n c et h ev a l i d i t y o ft h e c l u s t e r i n gr e s u l t c l a s s i f i c a t i o na n dd e c i s i o n m a k i n gf u n c t i o ni se s t a b l i s h e d t os o l v et h e p r o d u c t i n s t a n c e t h em i n i m u mw e i g h t e dd i s t a n c ec l a s s i f i e ra n dt h em a x i m u ms y s t e m s i m i l a r i t y c l a s s i f i e ri s d e s i g n e dt o e n h a n c et h ep r e c i s i o no fc l a s s i f i c a t i o n t h e m i n i m u mr i s kd e c i s i o n - m a k i n gb a s e do ns y s t e ms i m i l a r i t yi sf o u n d e dt om i n i m i z e t h el o s sb r o u g h tb yd e c i s i o n m a k i n g 1 1 1 er e s e a r c hi m p r o v e st h eo b j e c t i v i t ya n da c c u r a c yo ft h ec l a s s i f i c a t i o na n d d e c i s i o n m a k i n go f m e c h a n i c a lp r o d u c t ss y s t e m ;i ta l s oe n h a n c e st h ea u t o m a t i z a t i o n l e v e lo f c l a s s i f i c a t i o n k e yw o r d s :s i m i l a r i t y m e a s u r e s ,v a r i a n c ew e i g h t ,c l u s t e ra n a l y s i s ,c l a s s i f i c a t i o n a n d d e c i s i o n - m a k i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究了:作及取得的研究成果。据 我所知,除了文中特3 日, lj j n 以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得盒目王些盍生 或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文版权使用授权书 本学位论文作者完全了解佥壁i :些盍堂有关保留、使用学位论文的规定,有权保留 井向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权金 壁工些厶堂可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名:莒、略 签字日期:口d 吖7 年月f 日 学位论文作者毕业后去向 工作单位: 通讯地址: 导师签名 阀弘 签字日期:纠9 年牛月芍日 电话: 邮编: 致谢 在近三年的硕士学习期间,导师周美立教授在学业上给予我精心的指 导,在生活上给予我无微不至的关心。同时,周老师渊博的学识、严谨的 治学态度也值得我永远学习。老师不仅教我严谨治学,而且教我踏实做人。 在此,我向周老师致以衷心的感谢。 衷心感谢教研室的朱家诚、董玉革、吴天星、汪进、王勇等老师在学 业上和生活上给予的指导和关怀。由衷感谢宋晖、常传勇、徐丰羽等同学 给予的热情支持和大力帮助。 最后感谢我的父母和家人,感谢他们多年来对我的关爱和支持。 作者:章四兵 2 0 0 4 年4 月8 日 符号清单 向量 转置向量 矩阵a 的转置 矩阵a 的逆 矩阵a 的迹 以括号中的元素为对角线元素的对角阵 数学期望 均值向量 样本协方差阵 第j 个特征值 样本方差 第i 项特征属性的权重值 范数 集合a 中的基数 相似要素数量的相似度 相似元数值 系统相似度 类别i 类别的个数 典型模式( 样本均值) 损失矩阵 , 。 a 曙, ,i 。 , x ,r m 慨m u v产岛舱q q。帆a 1 1 课题的来源及目的 第一章绪论 本课题来源于安徽省自然科学基金项目( 项目编号:0 1 0 4 4 1 0 8 ) ,主要研究 机械产品的相似度量以及相似信息的分析与分类处理的问题。 事物间的相似性是普遍存在的,只是有着相似程度上的差异【l 训。机械产品 间的相似性更是广泛存在,大量的机械系统、部件、零件之间都有着不同程度 的相似性。对机械产品进行相似性研究,获取相似信息并对相似信息进行分析 与处理,对于改善制造业中的重复设计多、设计周期长、产品相关的分类与决 策分析受主观因素影响大等问题,有着重要的意义。通过本课题的研究,应该 达到以下目的: 1 ) 提出一种在相似度量中确定系统各参数重要性的新方法,并在此基础 上建立相似度量方法。现在已有多种相似度量方法,但有的方法精度不高,有 的方法则计算复杂、应用场合受到限制。新提出的度量方法应当客观可靠,复 杂度较低,能够胜任机械系统的模式分类任务: 2 ) 以此相似度量方法为基础,与模式识别科学相结合,对现有的部分模 式分类算法提出改进方法: 3 ) 获取相似信息,结合模式分类中的方法,对机械系统间的相似信息进 行分析与处理,对产品相关的分类决策问题进行合理客观的分析。 1 2 模式识别科学 模式识别诞生于2 0 世纪2 0 年代,在6 0 年代初迅速发展成一门学科。人在 生活中时时刻刻都在进行模式识别,如认人、辨物等。这些模式识别的能力看 起来极为平常,谁也不会对此感到惊讶,然而当人们试图用计算机来实现这些 能力时,它的难度才逐步为人们所认识。 随着建立智能自动化系统的需要,模仿各种形式的对象识别能力的方法得 到了发展,同时也带动了工业及其他领域技术的发展。在这些系统中,对象被 表示成适当的形式,以便对它们进行处理,这种表示形式就称为模式( p a t t e r n ) 捧l 。 需要注意模式指的不是事物本身,而是从事物获得的信息。因此,模式往往表 现为具有时间和空间分布的信息f 5 。 人们为了掌握客观事物,按事物相似的程度组成类别。模式识别的作用与 目的就在于面对某一具体事物时将其正确地归入某一类别。 模式识别中的主要任务是分类和聚类。分类的目的是提出一个分类函数或 分类模型( 也常常称作分类器) ,该模型能把数据库中的数据映射到绘定类别中 的某一个。聚类是根据数据的不同特征,将其划分为不同的数据类。它的目的 是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的 距离尽可能的大。 1 3 相似度量与模式识别的有机结合 周美立教授在相似学( s i m i o l o g y ) 、相似系统论、相似工程学等 著作的基础上建立了一门新的科学相似性科学。相似学认为,事物间的相 似性是普遍存在的。不过,仅仅定性地知道这点是远远不够的,更多时候还需 确定事物间相似程度的大小。然而,相似度的计算并不是一个容易解决的问题。 尽管现在国内外已有多种相似度量方法,但仍然有很多人认为不存在个精确 的相似度数值。但是我们认为并非如此。诚然,当两个对象确定后,它们的相 似度就应该是一个确定的值,我们所要做的就是要找到一种方法来得到这个准 确值,或者得到一个尽可能准确的值1 7 j 。 另一方面,模式识别的主要任务是分类。当然,如果样本类别未分,那么 必须先对样本进行聚类。无论分类还是聚类,其实质都是计算并比较样本间的 相似度大小。分类就是将待识别样本分入与其相似度最大的模式类中;聚类则 是将样本划分为不同的类,使得同类中样本问相似度尽可能大,不同类上样本 间相似度尽可能小1 8 j 。因此,本课题将相似度量与模式识别结合起来,如果能 解决好相似度量的问题,那么模式分类中的主要问题也就迎刃而解了。 将模式识别方法应用于机械产品的设计及制造中,可以根据分类结果充分 利用以往的设计制造经验,获取相关信息。例如,我们可以根据设计任务的部 分信息对其迸行分类,然后根据其所属类别中样本的信息推测( 或设计) 该任 务的未知信息,从而达到加快设计过程、减少重复设计的目的。同时,正确的 分类也可以为产品相关的决策提供理论依据。 总之,本课题的任务就是将相似度量方法与模式分类理论结合,从而客观、 高效地解决制造业中机械产品系统的分类与决策问题。 2 第二章相似度量方法及分析 事物间的相似性是普遍存在的。通过计算相似度可以进行对象间的相似性 分析,这一方法广泛应用于模式识别、人工智能( a j ) 1 9 1 、成组技术( g t ) 1 0 1 3 1 、 相似产品建模【1 4 - 】、系统仿真、实例推理( c b r ) 1 9 】等领域。那么,两个对 象间的相似度究竟该如何计算呢? 目前国内外主要有以下这些方法。 2 1 用欧氏距离系数法计算相似度 假定有两系统s ,和s 。,现研究其n = 2 个特征属性,画一对直角坐标( 如图 1 ) ,横坐标x 表示特征属性l ,纵坐标x :表示特征属性2 。对所研究的两个 特征属性而言,两系统恒等时,则其位置将重迭,其间距离为零。其问差异越 大,则其距离越大。也就是说,距离被视为相似性之余 2 0 】。 0 图2 1 两系统间的距离系数 当我们要研究n = 3 个特征属性时,必须在图1 上加上第三坐标蜀,这样就 建立了一个三维模型。事实上,可以在数学上证明【2 0 】:常规三维空间的几何定 理在欧几里德超空间中,能扩展到n 维。也就是说,可以对s ,、s :两系统间的n 项特征属性建立个r l 维模型,并在此n 维超空间中计算s 。、s :间的距离为 f g n - x i 2 ) 2 d l :2 1 旦- ( 2 1 ) 这就是传统的欧几里德距离系数( e u c l i d e a n ) ,可以用这种距离度量的非增 函数计算相似度。这种方法方便、直观,但是也存在明显的缺陷与不足,如距 离的大小与单位有关、没有考虑各特征属性的重要性问题等。这些将在第三章 中详细论述并讨论改进方案。 2 2 其它距离系数法计算相似度 除欧氏距离外,其它常用的典型距离定义还有 1 1 绝对值距离( m a n h a t t a n ) : d i j = 岁- 2 x 一x i k 2 ) 闵可夫斯基距离( m i n k o w s k i ) : 妒i 喜( x , k - xk ) q - x i d 尹l i 3 ) c o g n i t i v es y s t e m 公司开发的r e m i n d 软件使用下式计算相似度1 8 ,s i m ( f , ,8 ) 0 9 t 其中,u 表示特征的权重值,s i m 是相似度函数,7 ,”分别是源实例和 实例库中实例的第i 个特征的值。 2 3 系统相似度的计算方法【m 2 j 相似学认为,任何事物、生物个体、天体、生物群落、经济实体都是系统。 任何两个系统间的相似性,是系统间存在的许多要素数量以及每个要素特性特 征值的函数。因此,应从系统的全部组成要素及其属性和特征上,考察系统间 的相似性。可以通过识别系统组成要素,确定系统要素的数量,对要素特性进 行定性分析和定量计算,构造相似元,确定相似元数值的大小,进而计算系统 相似度数值的大小。 计算系统相似度反映系统相似程度,记为q 。当计算子系统( 要素) 间相 似度时,称子系统相似度,即相似要素的相似度,用相似元值q ( u i ) 表示。显然, 相似元值和系统相似度数值是对不同层次系统间相似的度量。系统相似度量就 是基于上述相似系统分析模型进行的。下面给出系统相似度的计算方法: 1 相似要素数量的计算 为对系统中要素数量计算的方便起见,对系统中要素组成的有限集合,用 4 集合中的基数来讨论。任意一系统从哲学上来说可能有无限多个要素,但在实 际考察时,可以把系统要素划分为有限个。对于有限个元素组成的集合,有限 集的基数就是该集合中元素的个数。 集合a 中的基数记为# ( a ) ,集合b 中的基数记为撑( b ) ,集合u 中的基数记 为样( u ) 。 假定系统a 中要素为k 个,系统b 中要素为,个,相似要素为n 个,即: 拌( a 产女,拌( b ) = 0 ,# ( u ) = # ( a f 3b ) = , 式中,n 一 m i n k , ,其中是,n 。 拌( a t o b ) = 群( a ) + 撑( b ) - 样( u ) = k + ,一玎 2 相似要素数量确定的系统相似度计算 在相似系统a 、b 中元素数量一定条件下,系统间相似元素的多少直接决 定着由元素数量确定的相似程度,记为q 。,且有2 】 q 。2 黼b = 而器= 忐kl 汜z ) u 拌( 爿u )拌( 爿) + 拌( b ) 一样( u ) + 一 。 其中k ,1 分别表示两系统各自的组成要素数量,n 表示它们共有的相似要素的 数量。 3 相似元数值的计算 每个相似要素是由若干相似特征组成,对于第i 个相似元的m 个特征值的 比例系数可分别记为: f i l r i 2 ,r i m 。 则有 咖弘矗已私。 其中商为各特征的权,k ,7 1 分别表示两相似要素各自的特征数量,r n 表示 它们共有的相似特征的数量,q ( u ) 为共有的第i 个相似要素的数值。 4 相似元数值确定的相似度计算 系统a 、b 间共有1 1 个相似要素,其中每一相似元值对系统相似度的影响 可以不等,分别取不同的权重系数来表征各自的重要性,从而给出相似元数值 确定的相似度,记为q 。,且有 q u = f 1 q ( u 。) + f 1 2 q ( u 。) + f + f 1 q ( u 。) = 卢,q ( u ) ( 2 3 ) f _ l 其中y 屈= 1 。 冒 5 权重系数的确定方法 从客观上说,每相似元对系统相似度的影响是不等同的,即意味着它们 之间相对比较而言,对系统相似度作用重要程度是不一样的。因此,相似学参 考层次分析法,把相似元作为评价要素,建立评价因素集,从而对权重系数进 行分配,具体方法可参见参考文献【2 。 6 系统相似度的数值方法 在计算了相似要素数量确定的相似度和相似元数值确定的相似度后,参考 并合算法,可以给出系统相似度的计算公式如下1 2 : q - q n q u 2 矗b 喜麒 ( 2 - 4 ) 且有: jq = 1 k = ,= ” q ( u ,) z 1 q = 0 q 【v ,d 卜e i g ( c o v ( c ) ) 并执行,得单位特征向量矩阵v 为( 注意:此矩阵所用符号v 为软件系统 所规定,无法更改,因此要与上文中的协方差阵v 区别使用。指令中用e i g ( c o v ( e ) 1 而不是e i g ( v ) 也是因为如此) r ,0 0 7 8 9 0 7 6 7 9 0 1 2 7 3 0 1 5 5 9o 4 8 5 60 3 5 7 5 、 f 一0 2 2 6 50 0 5 8 30 0 5 5 10 0 2 7 2 0 5 9 6 00 7 6 5 7i v = 1 0 6 8 2 9 o 2 8 3 9 o 2 3 6 60 5 9 0 6 0 0 6 7 50 2 0 9 1 i 一0 5 8 8 4 0 4 3 150 0 0 4 70 4 4 4 6 0 4 6 3 40 2 3 4 9 i 1 0 1 1 9 0 - 0 3 1 2 5 0 5 9 3 40 6 0 0 4 0 2 8 7 80 3 0 4 4i 0 ,3 4 0 2 0 ,2 0 6 3 0 7 5 6 70 2 6 0 8 0 3 2 6 90 ,3 0 7 0 得特征值对角矩阵d 为 d = d i a g ( 0 ,o 0 0 0 7 o 0 0 1 6 ,o 0 2 5 6 ,0 1 0 0 3 ,0 3 9 4 0 ) ,故特征根为 t = o 3 9 4 0 ,a2 = 0 1 0 0 3 , 3 = 0 0 2 5 6 , 4 = o ,0 0 1 6 , 5 = 0 0 0 0 7 由于 尘当堡:9 9 舶 兄, 产f 因此只需取前3 个主成份就足够了。 前3 个特征根各自对应的单位化特征向量为 v 。= ( 0 3 5 7 5 ,o 7 6 5 7 ,o 2 0 9 1 ,o 2 3 4 9 ,o 3 0 4 4 ,o 3 0 7 0 ) 1 v 2 = ( o 4 8 5 6 ,0 5 9 6 0 ,0 0 6 7 5 ,o 4 6 3 4 ,0 2 8 7 8 ,o 3 2 6 9 ) 7 v f ( - 0 1 5 5 9 ,o 0 2 7 2 ,一0 5 9 0 6 ,一o 4 4 4 6 ,o 6 0 0 4 ,o 2 6 0 8 ) 7 1 r 据此得到三个样本主成份的表达式为: y i = o 3 5 7 5 x l + 0 7 6 5 7 x z + 0 2 0 9 1 x 3 + 0 2 3 4 9 x 4 + 0 3 0 4 4 x 5 + o 3 0 7 0 x 6 y 2 = 0 4 8 5 6 x l o 5 9 6 0 x 2 0 0 6 7 5 x 3 + 0 4 6 3 4 x 4 + o 2 8 7 8 x 5 + o 3 2 6 9 x 6 y 3 = - 0 15 5 9 x 1 + 0 0 2 7 2 x 2 0 5 9 0 6 x 3 0 4 4 4 6 x 4 + 0 6 0 0 4 x 5 + o 2 6 0 8 x 6 4 ) 主成份表达式的意义 应用主成份分析法,要求对样本主成份y l ,y k ,的实际意义能作出分析, 通常要结合具体问题和专业知识才能给出合理的解释。现在来解释上述液压机 实例中前三个主成份的意义。为了直观起见,将液压机的特征属性列于表4 2 。 表4 2 液压机的特征属性分量表 公称压力缓冲缸液压缸快降液压缸压制l 1 :作台工作台 ( k n )有= 1 ,速度( m m ,s )速度( m m s )i 受度( m m )宽度( m m ) 无= 0 x ix 2x 3x 4 x x 6 从y 】的表达式看出,y l 是六个变量的加权和,当一台液压机的y l 数值较大 时,可以推断或有缓冲缸或速度较快或机身较大,或同时满足两个或三个条件, 很可能是性能较好的用于薄板拉伸的液压机,故y 。是反映机器综合性能的指标。 再注意y 2 的表达式中x 3 的系数较小( 一0 0 6 7 5 ) ,故不考虑,另外5 个系数为4 正( x 】,x 4 ,x 5 ,x 6 ) 1 负( x 2 ) ,当一台液压机的y 2 数值较大时,表明x 1 ,x 4 , x ,x 。大而x 2 小( 很可能为0 ) 。因此很可能是机身较大、压制速度较侠但没有 缓冲缸的液压机,故y 2 是反映机器快速冲压能力的指标。再看y 3 的表达式中 x 2 的系数较小( o 0 2 7 2 ) ,故不考虑,另外5 个系数为2 正( x 5 ,x 6 ) 3 负( x l , x 3 ,x 4 ) ,当一台液压机的y 3 数值较大时,表明x 5 ,x 6 大而x 1 ,x 3 ,x 4 小,可 能是工作台很大、压制速度较慢的液压机,故y 3 是反映机器拉伸大型工件( 如 车身覆盖件) 能力的指标。 5 ) 主成份分析的结论 由于能够合理地解释上述液压机实例中前三个主成份的实际意义,因此对 该实例运用主成份分析法是可行的,因此在相似度量和模式分类中只需选择前 三个主成份,并把这三个主成份看作液压机的新的特征属性,从而达到降低特 征空间维数的目的,这其实是一个特征压缩的过程,特征压缩后的液压机特征 属性如表4 3 所示。 事实上,这样处理后的结果并不仅仅降低了问题的复杂性,由于这些主成 份具有实际意义,所以在实际设计生产的决策与分析中也可以参考这些指标。 表4 3 特征压缩后的液压机实例特征属性表 产品综台冲压能力大型工制:拉伸 实例 指标y l指标y 2能力指标y 3 实例1 0 5 3 0 40 4 9 6 9- 0 2 6 7 4 实例2 1 5 4 0 00 1 0 4 80 4 0 4 5 实例3 0 8 3 9 90 8 8 3 00 2 7 4 9 实例4 1 6 8 0 10 3 0 0 80 ,0 1 0 6 实例5 1 8 9 0 60 5 4 9 9- 0 4 4 3 1 实例6 2 1 5 5 40 9 0 7 70 2 3 7 1 例如可以根据综合指标y 。来确定液压机的价格;当客户需要一台用于冲压工艺 的液压机时,他可以根据冲压能力指标y 2 来选择实例6 ,如果考虑价格因素( 根 据综合指标y ,来判断) ,可以选择实例3 ,在性能接近的前提下,大大地降低价 格,提高性价比。另外,可以预先为每个指标设定一个阙值,如果实际指标值 超过这个阈值,则认为该液压机可以用于此指标相对应的工艺。 4 。5 加权距离系数法中权重值的确定 在前面几节中重点讨论了特征的选择与提取的问题,并应用主成份分析法 降低特征空间维数,然而这并不意味着经压缩后的特征在相似度量和模式分类 中具有相同的重要性。事实上,主成份分析法舍弃了那些相关的、重复的信息, 降低了问题的复杂性,但这种方法并没有揭示原始特征的重要性问题,而那些 保留下来的主成份仍然需要进一步确定各自的重要性。 在相似学中较多地采用层次分析法确定各特征属性的重要性,这符合系统 相似度量方法的特点。另外,在其它领域诸如知识发现【8 】、人工智能【9 j 等领域, 还经常用模糊数学【3 4 。37 1 、粗集理论、实验方法或利用专家集体智慧评判等方 法1 2 1 来确定特征属性的重要性。实际上这是一个很复杂而且重要的问题,可以 有多种方法,下面提出一种新的解决方法。 假设现有m 个样本,样本间有1 1 个相关的特征属性,粕为第i 个样本的第j 项特征属性值,a 为特征属性值矩阵。 令x ,= m a x x ,记 】,x 2 ,) ,令 。即可将各特征属性值 b = d i a g ( x x a x = ab 标准化,且有o x 日1 ,x i j 为第i 个样本的第j 项标准特征属性值。记s j 2 为第 j 项特征属性值在所有样本上的方差,岛为第j 项特征属性的权重值。现在的问 题就是要确定卢i 的值。 先举一个生活中的例子。一个白人a 在路上碰见了另一个自人b ,a 看了 看b ,说:“我们俩长得一点都不象。”这时,远处有两个黑人c 和d 结伴走了 过来,a 看了看这两个黑人c 和d ,又看了看b ,说:“我们俩长得真象。”实 际上,a 进行了两次与b 之间的相似度量,却得出了两个相反的结论。我l f j n 以将这个例子看作是一次试验,并假设在第二次试验中c 和d 是另外两个自人, 其它条件与第一次试验相同,那么a 最后会对b 说:“我还是觉得我们俩一点 都不象。”可见两次试验结果相反,那么为什么会出现这种情况昵? 显然这两次 试验与肤色有关,因此将a 、b 、c 、d 四人看作一个总体,将他们的肤色灰度 值标准化( 在0 与1 之间) ,并将两次试验的情况列于表4 4 中。 表4 4 肤色灰度值表 删? 些欢度舂 3 第一次试验第二次试验 a0 1 2o 1 2 b0 1 701 7 c0 8 30 1 0 d0 9 10 1 9 肤色灰度值方著 0 1 7 7o 0 0 2 分别计算两次试验中a 见到c 、d 前、后肤色灰度值方差,并与a 的结论 一起列于表4 5 中。 表4 5 肤色灰度值方差与结论 f 第一次试验第一次试验第二次试验第二次试验 见到c 、d 前见到c 、d 后见到c 、d 前见到c 、d 后 l f肤色灰度值方差 0 0 0 1o 1 7 7o 0 0 l0 0 0 2 la 的结论: 不象很象不象不象 与b 象否 由表4 5 可以看到,同样是a 与b 之间的相似度量问题,只有第一次试验 见到c 、d 后,a 才得出“很象”的结论,注意到此时的肤色灰度值方差很大, 而其它三种情况时肤色灰度值方差很小,得出的结论是“不象”。我们由此也可 以得出结论( 不是a 的结论) :肤色灰度值方差越大,a 与b 之间的相似度也 越大。这是什么原因呢? a 与b 之间在肤色这一特征属性上是非常接近的( 为o 1 ,另一为o 2 ) , 按理他们之间的相似度也应该很大,然而三种情况时事实并非如此,只能说明 a 在这三种情况时不重视肤色这特征属性。第二次试验见到c 、d 后,a 与b 之间的相似度很小,它由两部分构成:肤色这一特征属性虽然接近,但分配了 较小的权重值,故它构成的相似度很小;显然其它特征属性构成的相似度也很 小。而在第一次试验见到c 、d 后,a 与b 之间的相似度却变得很大,由于其 它特征j 蓐1 生构成的相似度没有变化仍然很小,那么只可能是肤色这一特征属性 构成了很大的相似度,也就是说,给肤色分配了很大的权重值。而这样做还是 因为第一次试验见到c 、d 后肤色灰度值方差变得很大的缘故。至此,我们又 可以得出结论:肤色灰度值方差很大,就应该给肤色分配很大的权重值。 那么是否可以得出进一步的结论:肤色灰度值方差越大,就应该给肤色分 配越大的权重值呢? 也就是需要讨论权重值与方差是否存在一种比例关系。 现在来做第三次试验,假设c 和d 是两个黄种人,其它条件与前两次试验 相同,那么a 最后会对b 说:“我觉得还是我们俩比较象。”现在将三次试验 的情况列于表4 6 中。 表4 6 = 次试验肤色灰度值表 础迹 第敞试验第二次试验第三次试验 a0 1 20 1 20 1 2 bo 1 7o 1 7o 1 7 co 8 3o 1 0o 4 2 d0 9 10 1 9 o 5 】 l 肤色灰度值方差 0 1 7 70 0 0 20 0 3 6 计算三次试验中a 见到c 、d 后肤色灰度值方差,并与a 的结论一起列于 表4 7 中。 表47 二次试验的肤色灰度值方著与结论 l 第一次试验第二次试验第三次试验 见到c 、d 后见到c 、d 后见到c 、d 后 f肤色灰度值方差 0 1 7 70 0 0 20 0 3 6 la 的结论 f与b 象否很象不象较象 可见,第三次试验中a 见到c 、d 后肤色灰度值方差介于前两次的方差之 间,而a 得出的结论是“比较象。”,也就是说此次相似度量的结果得到的相似 度介于前两次的相似度之间,因此有理由得出结论:肤色灰度值方差越大,就 应该给肤色分配越大的权重值。 在此基础上可以得出一般化的结论:在两个对象问迸行相似度量时,应根 据各特征属性的方差大小来确定各自的重要性并赋予不同的权重值,方差越大 则应赋予越大的权重值:反之亦然。 说到这旱就很容易给出确定权重值的公式了。对于一个有m 个样本的总体, 样本间有n 个相关的特征属性,记s j 2 为第j 项特征属性值在所有样本上的方差, 卢为第i 项特征属性的权重值,令 s 2 岛= ( 4 4 ) 研 显然 :卢= 1 ,我们可以称卢i 为方差权重值( v a r i a n c e w e i g h t ) 。 j = l 下面对这种权重值确定方法作一下总结与评价。 ( 1 ) 一个特征属性的权重值不是固定不变的,而是会随总体而改变的。“有 对比才会觉得象。”这句话就揭示了这个道理。原本就有某个特性比较象,只是 没有对比( 方差小) ,没有重视此特性,所以觉得整体并不象。等到有了对比( 方 差大) ,才重视此特性,觉得整体都比较象。 ( 2 ) 此权重值确定方法是基于人的判断而得出启发的,看上去可能有人为 因素的影响,不过事实并非如此。首先我们应该看到,人具有很强的相似判断 和模式分类的能力,现阶段的计算机技术根本无法全部模拟实现,因此并不代 表有人的参与就影响此方法的客观性,在人工智能和知识发现等领域,很多成 果就是在借鉴了人的思维活动的基础上取得的。再者,此方法最终使用方差这 客观标准来确定权重值,事实上比其它方法具有更良好的客观性。 ( 3 ) 此方法是建立在“特性方差越大,在相似度量和模式分类中越重要” 的思想之上。这意味着方差最大的特性最重要,分配了最大的权重值,因此在 此特性上差别较大的样本间相似度较小,比较接近的样本间相似度则较大。这 样处理的优势在于,最终的相似度结果间差距被

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论