(技术经济及管理专业论文)基于混合多指标信息的聚类分析.pdf_第1页
(技术经济及管理专业论文)基于混合多指标信息的聚类分析.pdf_第2页
(技术经济及管理专业论文)基于混合多指标信息的聚类分析.pdf_第3页
(技术经济及管理专业论文)基于混合多指标信息的聚类分析.pdf_第4页
(技术经济及管理专业论文)基于混合多指标信息的聚类分析.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(技术经济及管理专业论文)基于混合多指标信息的聚类分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

纠 一 ad i s s e r t a t i o ni ne k o n o m i cm a n a g e m e n t t h e c l u s t e r i n ga n a l y s i sb a s e d o nm i x e d a t t r i b u t ei n f 0 r m a t i o n b y z o uj i 蕊n g s u p e r v i s o r :p r o f e s s o rg u oy 萄u n n o r t h e a s t e m u 1 1 i v e r s i t y j u l y2 0 0 8 夺 , l 毋 j 习i11 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰 写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明。 并表示谢意。 学位论文作者签名:幺邛缉学 于。比比人lf 侣笠自:,口y 订r 1 日 期:跏芳7 f 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年一一年口一年半口两年口 学位论文作者繇卸辱学 签字日期:瑚7 ,7 缈 导师签名: 签字日期: 一i - - i 东北大学硕士学位论文 摘要 基于混合多指标信息的聚类分析 摘要 所谓聚类是指按照事物的某些属性,把事物聚集成类,使类间的相似性尽量小, 类内相似性尽量大的一个无监督学习过程。聚类分析在经济管理及工程等许多领域 有大量的实际背景。在聚类分析中,如果聚类信息( 一般指聚类对象特征指标值或 相似矩阵以及指标权重) 是精确数值的,那么相关的聚类分析方法具有十分丰富的 研究成果。但在许多实际问题中,由于被聚类的信息估计不精确或测量的误差以及 人为判断等原因,常常以区间数、三角模糊数、语言短语以及不完全信息等这些不 确定性信息的形式出现,针对具有不确定性信息的聚类分析问题的研究也有了一些 研究成果。但这些研究大多要求聚类信息是同一种形式的信息,而由于聚类问题的 复杂性,聚类对象的指标中可能包含有多种形式的信息,针对特征指标值包含确定 性信息或多种不确定性信息在内的混合多指标信息聚类分析问题更贴近现实情况, 目前,这方面的研究还很少。因此,对此类问题的研究,无论是在理论方面,还是 在应用方面,都具有重要的意义。为此,本文针对具有混合多指标信息的聚类分析 问题,进行了相应的理论与方法研究。 本文首先对混合多指标信息的概念做了定义并对这方面的研究进行了综述,然 后介绍了聚类分析的相关知识。提出了基于对部分聚类样本类别判定的混合多指标 信息聚类分析和基于组合相似度的混合多指标信息聚类分析两种聚类分析方法,前 一种方法是为了通过对部分聚类样本的类别判定来合理地诱导出指标权重,后一种 方法是通过构建组合相似度来提高聚类的准确性。在论文最后,总结了本文的研究 成果和结论,同时也指出了需要进一步研究的工作。 关键词:聚类分析;混合多指标信息;指标权重;组合相似度 一 j , 东北大学硕士学位论文 a b s t r a c t a b s t r a c t c l l l s t 硎n gi s 弛u i l s u p e r 、,i s e ds t u d yp r o c e s s ,m eo b j e c t i v co fc l u s t e ra n a l y s i si st o g r o u pas e to fo b j e c t si i 】幻d u s t e r ss uc _ hm a to b j e c t sw i l i n l es 锄ed u s t e rh a v ea1 l i g l l d c 印eo fs i i n i l 撕呗w h i l e0 b j e c t sb e l o n g i n gt 0d i 脑e n td l l s t e 璐h a v eal l i 曲d e 黟o f d i s s i m i l a r i 哆i th 勰b e e nm o s tc o m m o i l l ya p p l i e di i ln l ee c o r l o m i ca n dm em a n a g e m e n t a r e 舔,e t c i ft h ed u s t e f i n gi n f o 皿a t i o n ( f e a t u r ev a l u eo fc l u s t 舐n go 协e c t0 rs :i i i l i l a r i 哆 m 撕x0 rm ef 孤r cw e i 鳓i se x a c t l ym l m e r i c a l ( c d s p ) d a t a m e r ea r em a i l yl i t e r a t l l r e s o nt l l i st o p i c b u tf o fm a i l ya c t i l a lp r o b l e m s ,b e c a u s eo ft l l ev a g u e 髓d l en o n p r e c i s eo f t l l eo 岈e c t s 庇砒l 礤e 也eo 忉e c t t sf e 咖r e 砌u 销a r ei l l t e r y a lm m l b e ro rt r i a r i g u l 盯f l l 2 掣 瑚加i b e r so rl i n g u i s t i c 嬲s e s s m e n tf o n i l s t h e r ea r es o m ef 髓e a r c l lr e s u l t st 0m er e s e a r c _ ho f 廿1 ed l l s t 嘶n g 肌a l y s i sp r o b l e i i l sw i t l l1 l i l c e r t a i l li j l f 0 】m 撕o n w 1 l i l et l l er e s e 锄c ho fm e c l l 鼬g 觚a l y s i s 咖b l e i n s 诵li i l i x e da 嘣b u t ei n f o 肌a t i o n 恤c hc o n t a i 嬲m ed e 矗i ! i i t e i n f 0 n n a t i o no rm eu n c e n a i l li i l f o n n a t i o nh a ss e l d o mc 0 n c 锄t h e r e f 0 r e ,t ot l l ei e s e a r c ho n 也i sk i l l do fq u e s t i o n ,n o t0 1 1 l yi nm e o r ) rb u ta l s o i na p p l i c a t i o n t 1 1 e r ea r ci n 驴r t a n t s i g l l i 矗c a n c 豁t i l i s 枷c l eh 嬲c a 玎i e do n l ec o r r e s p o i l d i i 培n l e 0 巧a i l dm em e m o ds t u d 弘 a tf i r s t ,也i s 矾d ed e f i n 髓m ec o n c 印to fm i x e d 蛐u t ei 1 1 f 0 加彻j t i o na n das i 】栅a r y o fr 骼e 锄c h 袱斌t si i le x i s t e l l c ei s 菩v 吼t h c nt h er e l a t e dk n o w l e d g ea b o u t 也ed l l s t e r 趾l a l y s i si si l l 们d l l c e d t w oc l l l s 蛐gm e t i l o d sa r ep r o p o s e db a s c do ni n i x e da t 仃i b u t e i n f o m 撕o n t h co n ei sac l l l s t e 血gm c 1 0 db a s e do nm ej u d g m e n tc a t e 9 0 巧t 0p 枷a l d 吣t e rs 锄p l e i ti st 00 b t a i l lt h ei i l d e xw e i g h t ,a n d 姐o m e ri sad u s t e r i n gm e m o db a s e d o nm ec o m b m e ds i i i l i l a d t yt oi 1 i l l f o v cm ea u r a c y f 协a l l y t h i sp a p e rs u m m a r i z e sm e r 楣e 甜曲r e s u l t 锄dc o i l c l u s i o n f 0 1 l o w i n gm a tt l l e 如加r e s e a r c hn e e d e di sp o i l l t e do u t k e ”阳r d s :d u s t e f i n ga n a l y s i s ;i i l i x e da t t r i b u t ei n f o 衄a t i o n ;h l d e xw e i g h t ;c o m b i i l o d s i l i l i l 撕够 i h 东北大学硕士学位论文 目录 独创性声明 摘要 目录 。掌第一章绪论。掌弟一早殆咒 i i i i 1 1 1 研究的背景及意义一l 1 2 聚类分析在经济管理中的实际背景2 1 3 基于混合多指标信息的聚类分析方法研究综述4 1 3 1 混合多指标信息概念4 1 3 2 基于混合多指标信息的聚类分析方法研究进展6 1 4 本文的研究内容8 1 5 本章小结8 第二章聚类分析相关知识 2 1 聚类分析简介。1 0 2 2 聚类分析基本理论1 l 2 2 1 相似和距离l l 2 2 2 聚类分析的数学模型。1 5 2 3 硬聚类方法15 2 3 1 硬聚类方法简介。1 5 2 3 2 常用的硬聚类方法。1 6 2 4 模糊聚类2 2 2 4 1 模糊聚类理论研究进展及现状。2 2 2 4 2 常用的模糊聚类方法。2 3 2 5 本章小结。3 0 第三章基于对部分聚类样本类别判定的混合多指标信息聚类分析3 1 3 1 引。言3l 3 2 问题的描述3 l 3 3 聚类分析方法的实现过程。3 3 3 4 算例:3 8 东北大学硕士学位论文 目录 3 5 本章小结4 2 第四章基于组合相似度的混合多指标信息聚类分析 4 1 弓i 言z m 4 2 预备知识4 4 4 2 1 序关系分析法( g l 法) 。4 4 f 4 2 2 灰色关联度分析法4 6 4 3 问题的描述4 9 , 4 4 聚类分析方法的实现过程5 0 4 5 算例5 4 4 6 本章小结。5 7 第五章结束语 ! ;8 5 1 工作总结5 8 5 2 需要进一步开展的研究工作5 9 参考文献 致谢 v 一 i , 彳 东北大学硕士学位论文 第一章绪论 第一章绪论帚一早珀。了匕 1 1 研究的背景及意义 所谓“物以类聚”,就是把具有某种相同或相似特征的事物聚为一类。在现实生 活中,一般不去研究单个事物,而更多的去分析某一类具有代表性的问题。所以, 聚类分析正是实际中常用的工具之一。它按照研究的目的,找出物与物之间的相同 点和类与类之间的差异,这样,在解决不同类问题时就具有很强的针对性,能做到 “具体问题具体分析 。 在实际问题中,经常要遇到分类的问题。例如,在考古学中,要将某些古生物 化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济 学中,为了研究不同地区城镇居民的收入及消费状况,往往需要划分为不同的类型 去研究;在产品质量管理中,也要根据各产品的某些重要指标而将其分为一等品, 二等品等等。总之,科学的分类方法无论在自然科学,还是在社会科学中,都有着 极其广泛的应用。 历史上的这些分类方法多半是凭借经验和本学科的专业知识来进行的,很少利 用数学,也可以说是按定性来分类的,很少利用它们的数据特征用定量的方法。由 于事物的复杂性,单凭经验来分类是远远不够的,利用数学方法进行更科学的分类 成为必然趋势,于是形成了一门新兴的学科数值分类学。后来随着多元分析方 法的引进,从数值分类学中逐渐分离出了聚类分析这个分支。 聚类分析的基本思想是,从一批样品中的多个指标变量中,定义能度量样品间 或变量间相似程度( 或亲疏关系) 的统计量,在此基础上求出各样品( 或变量) 之 间的相似程度度量值,按相似程度的大小,把样品( 或变量) 逐一归类,关系密切 的类聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的 样品( 或变量) 都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关系谱系 图,以便更直观地显示分类对象( 样品或变量) 的差异和联系。 聚类分析的历史还很短,由于在其发展过程中首先是着重于实用,因此相对而 言理论上还不够完善。无论聚类统计量还是聚类方法,都还未最终定型。目前,聚 类统计量种类繁多,聚类方法也五花八门,但由于聚类分析方法能广泛地应用于解 决实际问题,它和回归分析,判别分析一起被称为多元分析的三大实用方法。 随着研究的深入,面对的聚类问题越来越复杂,聚类信息的形式也越来越多样 化,在聚类分析中,如果聚类信息( 一般指聚类对象特征指标值或相似矩阵以及指 ) 东北大学硕士学位论文 第一章绪论 标权重) 是精确数值的,那么相关的聚类分析方法十分丰割1 9 】;对聚类信息为区间 数的聚类分析问题已逐渐引起人们的重视并得到了较深入的研究【n 1 7 】;对聚类信息 为模糊语言的聚类分析问题也有了一定的理论成果【1 8 2 5 】:对聚类信息为不完全信息 的聚类分析问题也引起了关注【2 6 ,2 7 ,2 引。由于客观事物的复杂性、不确定性以及人类思 维的模糊性,在实际的聚类分析问题中,聚类信息常常是包含精确实数形式、区间 数形式、模糊数形式等多种形式的混合型多指标信息,而在大多数聚类分析中,要 求聚类对象特征指标值是同一种形式的信息,目前,关于混合多指标信息的聚类分 析还很少有文献论及,故对于此类问题的研究有着较重要的理论意义与实用价值。 研究混合多指标信息的聚类分析问题,不仅是在聚类信息形式上对传统聚类问 题的扩展,而且对聚类样本的指标权重及聚类样本之间相似度的探讨,更是对传统 聚类分析方法的深入。同时,基于客观事物的复杂性和模糊性,对于研究具有混合 多指标信息的聚类分析问题,更贴近实际情况,故有广泛的应用前景。 1 2 聚类分析在经济管理中的实际背景 聚类分析方法在经济管理中具有广泛的实际背景,下面给予简要的介绍。 ( 1 ) 在客户分类方面。当前,客户的需求已趋向多样化和个性化市场表现出难 以预料和混沌的特征。批量定制是适应当前市场特征的一种新的生产理念,它以接 近批量生产的成本和效率来满足客户的个性化需求,被认为是2 1 世纪制造业最重要 的生产模式。来自美国的一项技术调查显示,7 l 的决策者认为,造成产品开发延误 的原因是不良的产品定义。这种定义会导致产品后期既费钱、又费时的工程更改, 更为严重的是产品投放市场时,不能满足客户真正的需要,使企业丧失了竞争优势。 完善的产品定义,必须有效地将客户的呼声转化为产品设计的详细说明和资源的优 先顺序。在批量定制中,企业首先应对市场潜力进行彻底的调查研究,细分客户, 了解客户的价值和偏好,将客户的呼声转化为产品族,并制定出最佳的定制程度和 定制范围,正确地决策和规划预定制产品,以快速地响应客户的需求。完善合理的 产品定义的前提是按照客户需求的相似性,将客户归组,形成若干客户群,针对不 同的客户群实施不同的产品策略。因此,如何抽取客户需求的相似性,将客户聚类 成组,是有效实施批量定制的基础。而聚类分析法就能够有效地解决客户的分组问 题。王红军将聚类分析方法应用到客户分类【2 9 】,综合应用响应曲线法、适应性关联 技术和系统聚类法,根据客户需求效用值进行客户群聚类划分,得到了具有不同需 求效用的客户群。 ( 2 ) 在虚拟企业( 组织) 核心竞争力的识别方面。虚拟企业是企业外部资源整合 的一种手段,而企业核心能力则是资源整合过程中首要考虑的一种重要资源。从某 东北大学硕士学位论文第一章绪论 种角度来说,虚拟企业主要是针对不同企业核心能力这样一种资源的整合,即把经 营及管理的注意力集中到企业自身核心能力上,而一些非核心能力、或自己短时间 内不具备或不需要具备的核心能力则转向依靠外部虚拟企业伙伴提供。如何定量识 别企业自身和合伙企业的核心能力,避免选择与自身核心能力相近的企业是虚拟企 业构建与管理过程中的重要问题,而利用聚类分析的定量方法则能够较为客观而实 际地解决这一问题。吴跃新等有效地运用聚类分析方法对虚拟企业的核心竞争力进 行了定量识别唧1 ,汪贻生等将模糊聚类算法应用于对虚拟物流组织核心能力的评价 和对虚拟物流组织伙伴的选择p 1 1 。 ( 3 ) 在证券投资应用方面。聚类分析在证券投资方而的研究有很大的发掘空间。 首先,聚类分析是建立在基础分析之上的,立足于对股票基本层面的量化分析,弥 补了基础分析对影响股票价格的因素大多是定性分析的不足。作为理性的长期投资 的参考依据,其目的在于从股票基本特征决定的内在价值中发掘股票真正的投资价 值。其次,在建立聚类分析模型时,进一步考虑对股票投资价值有着重要影响的行 业和公司的成长性。成长性是一个变化的趋势,在哥登模型中,假设股息按不变的 增长率g 增长与实际情况不符。就是运用多阶段增长模型,要准确地给出不同增长 阶段的参数g 也是十分困难的。因此在探讨股票的成长性时,选取了如主营收入增 长率、净利润增长率等客观指标,由此投资者就能正确预测股票的发展潜力。再次, 与现代投资组合理论相比,聚类分析法显得直观、实用,而且在应用时所受的局限 小,操作性强,有一定的优越性,适合于广大投资者采用。聚类分析建立的是一种 长期投资的理念,因此在我国证券市场走向成熟的过程中,提倡运用这种理性的投 资分析方法,不仅可以降低投资风险,规范投资行为,还有利于促进股票公司从经 营业绩和成长能力出发参与市场竞争,促进了我国证券市场的健康发展。周焯华等 通过对股票的行业因素、公司因素、收益性、成长性等基本层面进行考裂3 2 l ,建立 了较为全而的综合评价指标体系,衡量样本股票的“相似程度”。然后建立聚类分析 模型来确定投资范围和投资价值。结果表明该方法能帮助投资者准确地了解和把握 股票的总体特性,预测股票的发展潜力,并通过类的总体价格水平来预测股票价格 的变动趋势,选择有利的投资时机。 柯冰选取9 项主要财务指标,对汽车及配件行业1 9 家上市公司进行了聚类分析 和因子分析【3 3 】,研究结果表明,两种分类方法都能把上市公司区分为蓝筹股、绩优 股、一般股和劣质股,与公司的实际情况相符。吴明瓒对上市公司投资价值进行模 糊争均值聚类分析【3 4 1 ,以判别上市公司投资价值的类别,在实际应用中证明这种方 法是有效的。 此外,l e e 运用层次聚类法,实现了商务过程的识别【3 5 1 。魏新军提出了一套物流 东北大学硕士学位论文第一章绪论 绩效衡量的指标体系,并运用聚类分析方法对企业物流绩效进行了评估【3 6 1 。 可见,聚类分析在经济管理领域有着广泛的应用前景,由于经济管理自身的特 点,这就使聚类分析并不是简单的在这个领域应用,这需要结合这个领域的特点, 针对具体问题,提出一些具体的聚类分析方法,做到真正的“具体问题具体分析 。 1 3 基于混合多指标信息的聚类分析方法研究综述 1 3 1 混合多指标信息概念 要弄清混合多指标信息的概念,应弄清确定性信息和不确定性信息的内涵,而 首先要弄清“信息 一词的内涵。综观信息理论的发展历史,目前还没有一个明确 的定义。很多学者给出了各自的关于“信息”的定义,王清印教授在预测与决策 的不确定性数学模型一书中给出了如下定义唧:“反映事物本质特性的一切表现形 式( 如形象、声音、数据等) 统称为信息。信息又分为源信息和宿信息。源信息向外反 射的信息称为源信息;经过信道传输在接收系统呈现的信息称为宿信息。 源信息是 事物本身所固有的,是潜在于事物内部可以向外发射的信息,故又称为潜信息。宿 信息是人类通过对事物的观测所获得的结果,是源信息的显化、再现,故又称为显 信息。人类所能了解、所能掌握的关于反映事物特性的信息只能是自己的观测结果, 即只能是宿信息。宿信息又是以源信息为依据的。否则,信息将是无源之水、无本 之木。 下面简单介绍一下确定性信息和不确定性信息的有关知识。 ( 1 ) 确定性信息。能够本源地反映事物本质的信息,称为确定性信息。在现实 世界中,很难获得本源地反映事物本质的信息,即便是精确实数,虽然在数值上它 是确定的,但并不一定本源地反映了事物的本质,所以,不确定性信息更接近现实 世界,是研究的重点。 ( 2 ) 不确定性信息的概念及产生的原因。因为源信息是事物本身所固有的,所 以不论事物本身多么复杂多变,源信息能反映事物的本质属性,即源信息总是确定 的。宿信息则不然,因为它是源信息的再现,由于再现过程的复杂程度不同,由于 观测者能力不同,有可能使宿信息部分失去源信息本来面貌,不能本源地反映事物 的本质特性。因此,不能本源地反映事物的本质特性的信息,称为不确定性信息。 源信息是事物本质属性的表现形式,是事物本身所固有的。因此,不论事物的 结构多么复杂,不论事物的运动规律多么富有多变性,它潜在的源信息总是确定的。 宿信息是人类观测的结果,是源信息经过人类的观测的再现形式。由于信道的畅通 性不同,信道上受到的外界噪音的干扰程度不同,会使得对同一事物在不同的情况 1 一 r , , 东北大学硕士学位论文 第一章绪论 下( 包括不同观测者) 获得的观测结果有所不同。由于接收系统能力的限制,包括不同 的观测这不同观测能力的限制,这种再传播的过程也会使观测结果不能准确地反映 事物的本来而目。基于如上原因,使得人类所获得的宿信息与源信息相比,就有一 定程度的差异,即所谓失真。另外,由于信道上各种噪音的干扰,接收系统能力的 限制还会有部分信息遗失。遗失的信息所反映的事物特性是不可认识的,它也属于 不确定性信息的范畴。人类所能了解、所能掌握的信息只能是宿信息。而宿信息又 是信息过程的最后呈现结果。由此可以断言,除事物结构特别简单,或主体对客观 的观测要求特别简单之外,可以说宿信息就是不确定性信息。 从上面的叙述可以看出,确定性信息完全地反映了事物本质特征的信息,而不 确定性信息只是部分地反映了事物本质特征的信息,所以,从某种意义上来说,不 确定性信息已包含确定性信息,确定性信息只是不确定性信息的一个特例。 由于信息过程的条件不同,不确定性信息会有不同情况的表现。目前,人们已 经认识到了六种不确定性信息。 随机信息。由于客观条件不充分或偶然因素的干扰,使得人们已经明确的几 种结果在观测中出现偶然性,在某次试验中不能预知哪一个结果发生。这种试验称 之为随机试验;由随机试验获得的信息称为随机信息。随机信息在经济系统中表现 尤为突出,如市场价格波动、市场兴衰状况、工程施工工期等。 模糊信息。由于事物的复杂性,其元素特性界限不分明,使其概念不能给出 确定性的描述,不能给出确定的评定标准。它向人们提供的宿信息称为模糊信息。 如技术经济方案的优与劣、产品质量的好与坏、合格与不合格等等,都是难以给出 确定性描述或评定标准的模糊概念,它向人们提供的信息称为模糊信息。 灰色信息。由于事物的复杂性,由于信道上各种噪声的干扰以及接收系统能 力的限制,使得人们只能获得事物的部分信息或信息量的大致范围,而不能获得全 部因素的信息或确切的信息。这种部分已知部分未知宿信息称为灰色信息。如经济 指标的量化数据,由于上述原因,人们不能获得某指标的全部数据或真实数据,所 获得数据也只能反映某时刻的大致状态,这就是经济系统中的一类灰色信息。 未确知信息【3 引。这是中国工程院院士王光远教授提出来的,他认为:“在进行 某种决策时,我们所研究和处理的某些因素和信息可能既无随机性又无模糊性,但 是决策纯粹由于条件的限制而对它认识不清,也就是说,所掌握的信息不足以确定 事物的真实状态的数量关系。这种纯主观上、认识上的不确定性信息称为未确知信 息。这种信息的产生可归结为盲动试验。它可以在似乎相同的条件下重复进行,但 试验的结果并非完全是已知的,例如,折旧资金产生于机械磨损和精神磨损,其中 机械磨损是有生产因素和自然因素引起的,可以看作是已知的。精神磨损是由于同 东北大学硕士学位论文第一章绪论 类机器的生产费用降低或由于产生了新型的更有效的机器设备而引起的原有固定资 产的贬值。它向人们提供的信息是客观存在的,人们难以给出精确的量化纯属主观 原因,这样产生的宿信息就是未确知信息。 泛灰信剧3 9 1 。泛灰信息是灰色信息的扩张,它除了包括从正面描述的灰色信 息之外,还包括了从反面描述的灰色信息。 粗糙信息( r o u 曲i l l f o m 撕o n ) 。r 0 u g l ls e t s 理论是由波兰华沙理土大学帕拉克 ( z p a w l a k ) 1 9 8 2 年创立的,是“一种研究不完整、不确定知识和数据表达、学习、 归纳的理论方法 【柏】,这种不确定性导致了对象的不可分辨性。r s 理论与呦s e t s 理论对不确定性事物的描述既有相似之处,又互相补充,相互区别。模糊性表示集 合具有某种平滑边界,粗糙性则是集合中元素的不分明性。 综上所述,可以将混合多指标信息定义为:在多个指标或属性中,包含有确定 信息或不确定信息,是多种形式信息的任意组合。比如数值形式的信息、区间数形 式的信息、三角模糊数形式的信息、梯形模糊数形式的信息、语言信息、灰色信息 等等在内的多种信息的任意组合。 明确了混合多指标信息的概念,将指导本文实现对混合多指标信息的处理工作。 1 3 2 基于混合多指标信息的聚类分析方法研究进展 目前,关于混合多指标信息的聚类分析还很少有文献论及,文献【4 l 】针对具有实 数值、区间数和自然语言等形式的混合多指标信息的聚类分析问题,基于传统的数 值信息f c m 聚类算法,提出了一种新的聚类分析算法。在该方法中,首先描述了具 有混合多指标信息的聚类分析问题,提出了基于混合多指标信息的关于确定最优划 分和最优聚类中心的两个定理,并定义了聚类对象之间的距离,然后给出了基于混 合多指标信息的f c m 聚类算法的迭代步骤。该方法对混合多指标信息的聚类分析问 题有很好的指导作用。 从前文关于确定性信息、不确定性信息及混合多指标信息的相关概念可知,混 合多指标信息与不确定性信息有着非常密切的关系,介于有关混合多指标信息的聚 类分析的文献还很少,下文着重介绍一下关于不确定性信息的聚类分析方法研究进 展。 关于不确定性信息的聚类分析方法,国内的文献所见不多,比较典型的有:孟 丹提出了基于区间值的模糊聚类分析方法【4 2 】。该方法用区间值表示各个对象对于每 个因素状态的隶属度,在获取了每个对象对于每个因素的特征值后,将其转化为【0 , 1 】上的区间,然后直接在区间的层次上求各个对象间的相似度,在如此求出的相似矩 阵的基础上,直接得出聚类的结果。陆建江、徐宝文定义了区间数据的距离和四则 、一 1 东北大学硕士学位论文。 第一章绪论 运算【4 3 1 ,将普通的模糊c 均值聚类分析方法扩展到单指标区间数聚类对象的情形, 在此基础上,讨论了对区间数据进行聚类的并行模糊c 均值算法。孟广武,张兴芳 等提出了基于区间值模糊集的两种聚类分析的方法【1 4 1 ,并引入了一种指标,对分类 结果的可信度进行了定量分析,并给出了这两种方法的一个实际应用。梅长林,张 文修【4 4 1 、张兴芳,孟广列4 5 】分别给出了基于模糊数模糊集的聚类分析方法,文献 4 5 】 提出了模糊数模糊集及模糊相似矩阵的概念,建立了基本模糊数模糊集的聚类分析 理论,并引入了分类可信度的概念。毕华,李济洪运用回归分析的方法给出了一种 迭代算法为缺失数据确定一个合理的替补值m ,构造出一个“完全 的数据集,逐 步迭代进行聚类分析。汪明瑾给出了一种随机聚类法h 7 ,4 引。y a n g 和k 0 将普通的模糊 c 均值聚类分析方法扩展到区间数、三角模糊数、梯形模糊数和一般模糊数等表示 的聚类对象的情形【l 引。 s o n b a 哆、i s m a i l 、蹦y a n i 和s 诞h m 倾针对具有语言评价信息的聚类分析问题的 做了相应的研究【2 啦1 1 。文献【4 9 】和【5 0 】就具有不精确属性值或具有不完全相关系数的 情形给出了聚类解决方法,其中文献【4 9 】的基本思路是将缺失数据合理地估计出来, 并进而运用硬c 均值聚类法对具有不精确属性值的聚类对象加以聚类;文献【5 0 】首 先用三角不等式表示出相似系数之间的关系,再运用非欧模糊c 均值聚类算法 ( n e f f c m ) 进行聚类。针对信息是不完全的情况,文献【2 6 】利用改进的模糊聚类算 法,依据邻域信息实现了对丢失图像信息的恢复,并完成了对该图像的检测;文献【2 7 】 采用粗糙集方法对w e b 信息不完全的聚类分析问题进行了研究。 于春海、樊治平等分别针对聚类样本的特征信息为区间数【1 0 ,1 1 ,1 2 ,1 3 1 、三角模糊数 【1 8 ,嘲、语言信息瞄,2 3 翔,2 5 1 、不完全信息等形式【2 8 1 的数据类型采用某种聚类方法进行深 入研究。分别提出的基于风险态度因子的区间数聚类分析方法【l o 】、基于区间数多指 标信息的f c m 聚类算法【l l ,1 3 】和基于区间数多指标信息的最大树聚类分析方法【1 2 】,扩 展了已有传统的基于精确数值信息的聚类分析方法,文献【1 0 】通过引入具有风险态度 因子的区间映射函数,将区间数信息转化为点值信息,避免了区间数的排序,也尽 量反映了决策者的偏好。文献【l l 】和【1 3 】对于基于区间数多指标信息的f c m 聚类算 法的收敛性给出了严格的证明。分别提出的基于三角模糊数多指标信息的f c m 聚类 算法【1 8 】和基于三角模糊数多指标信息的最大树聚类分析方法【1 9 1 ,扩展了已有传统的 基于精确数值信息的聚类分析方法,文献【1 8 】对基于三角模糊数多指标信息的f c m 聚类算法的收敛性给出了严格的证明。提出解决具有不确定性语言评价信息的聚类 分析问题的两种方法【2 2 筇】,分别针对将语言评价信息转化为三角模糊数和二元语义 的形式后,采用传统的编网聚类法对具有语言评价信息的聚类对象加以聚类。上述 方法具有将模糊而不连续的自然语言评价信息连续化的特点,使聚类结果更为精确。 东北大学硕士学位论文 第一章绪论 提出了两种基于语言评价信息的多指标群聚类分析方法【2 4 ,2 5 1 ,将多个专家给出的语 言信息进行了“量化”集结,然后聚类。语言相似矩阵和特征指标语言评价信息在 管理中有广泛的实际背景,上述两种聚类方法的提出填补了这类背景情况下的聚类 分析问题的解决。文献【2 8 】提出的针对具有多指标信息不完全的聚类分析方法,通过 建立优化模型,将不完全信息转化为完全信息并就此实现了对多指标信息不完全的 聚类对象的聚类分析。 总之,关于不确定性信息的聚类分析问题已经引起了广泛关注,并且已经取得 了一些成果。但有关混合多指标信息的聚类分析研究还甚少,有待进一步研究。而 且随着新的实际应用问题的不断出现,相应地也会对聚类方法的研究提出新的方向。 1 4 本文的研究内容 本文共分为五章,内容如下: 第一章绪论部分介绍了本文研究的背景及意义、聚类分析在经济管理中的一些 应用,并对以往的研究做了综述,最后简单介绍了本文研究内容。 第二章介绍了聚类分析的基本理论知识,然后着重介绍了硬聚类分析方法和模 糊聚类分析方法中几种常用的聚类分析方法。其中硬聚类分析方法有:系统聚类法、 h c m 聚类法;模糊聚类分析方法有:传递闭包法、编网法、最大树法、模糊c 均值 聚类法。 第三章提出基于对部分聚类样本类别判定的混合多指标信息聚类分析方法。该 方法主要用于解决聚类样本较多,且聚类样本的指标权重难以显性确定情况下的聚 类分析问题。介绍了一些有关区间数、三角模糊数以及语言变量与三角模糊数对应 关系的知识,并给出了聚类分析方法的原理与计算步骤。 第四章提出基于组合相似度的混合多指标信息聚类分析。首先介绍了序关系分 析法及灰色关联分析理论的相关知识。之后分析了本聚类方法的合理性并给出了方 法计算步骤。 第五章对本文的工作进行了总结,并对后继工作提出一些展望。 1 5 本章小结 本章介绍了本文研究的背景及意义,指出具有混合多指标信息的聚类分析问题, 因其更贴近实际情况,很有研究价值。又介绍了聚类分析在经济管理中的一些应用, 指出聚类分析在经济管理领域也有着广泛的应用前景,并且需要结合这个领域的特 点,针对具体问题,提出一些具体的聚类分析方法,做到真正的“具体问题具体分 东北大学硕士学位论文 第一章绪论 析 。为了更好的实现混合多指标信息的处理工作,本章就混合多指标信息的概念做 了定义,然后介绍了基于混合多指标信息的聚类分析方法研究进展,混合多指标信 息因其包含的信息可以是多种确定性信息或不确定性信息,更符合客观世界的实际 情况,势必成为研究的热点。最后,就本文的研究内容做了简单介绍。 东北大学硕士学位论文 第二章聚类分析相关知识 第二章聚类分析相关知识 2 1 聚类分析简介 人们在感受外界现象的时候,总要把它们进行分类,即把相似而又不完全相同 的现象分成一组。这样在同一组中不同的物体和现象之间总有某些方面具有相似性。 人们只要熟悉现象中为数不多的代表,就能形成类的概念。任何一门学科都要通过 分类来建立自己的概念,也要通过分类来发现和总结规律。所以作为一种强有力的 数学工具,分类的研究具有十分重要的意义。 从处理问题的性质和解决问题的方法等角度,分类可分为有监督的分类和无监 督的分类两种【5 1 1 。 所谓有监督的分类,又称为有教师的分类或有指导的分类。在这种分类方法中, 已知模式的类别和某些样本的类别属性,用这些已知的样本对分类系统进行学习或 训练,使该分类系统能够对这些已知样本正确分类,然后用学习好的分类系统对未 知的样本进行分类。这就要求对分类的问题有足够的先验知识,而要作到这一点, 往往要付出相当大的代价。 在没有先验知识的情况下,则需要借助无监督的分类技术。无监督的分类又称 为聚类分析,是本文将要研究的主要内容,它运用数学的方法来研究类的划分以及 各类之间的亲疏程度,所以不需要知道样本的先验知识。作为多元统计分析的一种, 聚类分析试图根据数据集的内部结构将数据集分成不同的几个子类,使得在同一类 的样本尽可能的相似,在不同类的样本尽可能的不相似。确定数据集中样本相似性 的常用方法是欧氏距离。目前已提出了许多不同的聚类方法来解决聚类问题。聚类 分析从技术上大体分为硬聚类方法、模糊聚类方法和可能性聚类方法删。 传统的聚类分析是一种硬划分,这种硬聚类方法将样本对各个类的隶属度取成o 和l 两种值【5 2 5 3 ,5 4 罔,取值为o 表示不属于这一类,取值为l 表示该样本属于这一类。 传统的硬聚类方法包括争均值,i s o d 阉隗,f o r 了y ,w i s h 等方法。硬聚类算法具 有花费时间少的优点,但其缺点也是明显的,它把每个待辨识的对象严格地划分到 某类中,具有非此即彼的性质,而实际上大多数对象并没有严格的属性,它们在性 态和类属方面存在着中介性,具有亦此亦彼的性质,这样硬聚类割断了样本与样本 之间的联系,使得所得的聚类结果偏差较大,并且容易陷入局部最优解。 模糊聚类方法将样本对各个类的隶属度扩展到区间【o ,1 】【5 6 ,5 7 1 ,该类方法是基于 z a d e h 在1 9 6 5 年提出的模糊集理论,模糊聚类顾及到了样隶属关系。模糊聚类能够 , , 东北大学硕士学位论文第二章聚类分析相关知识 有效的对类与类之间有交叉的数据集进行聚类,所得的聚类结果明显的优于硬聚类。 模糊聚类大体上分成下面几种:基于相似关系的聚类方法、基于数据集的凸分解、 基于目标函数的聚类方法、基于模糊关系的传递闭包、聚类神经网络和基于先进的 优化算法的聚类方法。模糊聚类一般要求每个样本对各类的隶属度之和为1 ,这一要 求是对划分情况的概率约束。这一约束反映不出样本的典型性,对含有噪声的数据 集的分类结果很不理想。与硬聚类算法相比,模糊聚类算法的收敛速度要慢的多。 但由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的中介 性,即建立起了样本对于类别的不确定性描述,更能客观地反映现实世界,从而成 为聚类分析研究的主流。 可能性聚类也将样本对各个类的隶属度取成区间 o ,1 】【5 8 ,5 9 】,但可能性聚类不要 求每个样本对各个类的隶属度之和为l 。可能性聚类不仅估计到每个样本与各个聚类 中心的隶属关系,而且考虑到样本的典型性对分类结果的影响,能够对含有噪声的 数据集进行聚类。最近的研究表呀删,可能性聚类与传统的鲁棒性统计理论有密切 的关系。可能性聚类对初始化非常敏感,需要借助其他方法( 如模糊聚类技术) 对 数据进行预处理。 从数据集的划分空间上看,硬聚类是在立方体的顶点上搜寻最优解,模糊聚类 是在超立方体内搜寻最优解。可能性聚类是在超立方体内搜寻最优解。 2 2 聚类分析基本理论 2 2 1 相似禾口足巨离 在分类学中,一般是把某种性质比较相近的东西归于同一类,把性质不相近的 东西归于不同的类,进而按性质相近的程度来划分各个不同的小类、大类,这样把 某大类的东西按某性质相近的程度归于一个分类系统。例如生物分类就是将生物作 为一大类,可分为动物和植物两个界,这两界又可分为不同的门纲目等,从而使每 种生物都归属于某一个类别之中。 用数学方法进行分类是客观实际分类的抽象,应和实际有类似之处,不同的只 是数学方法的分类是建立在各个客体关于其各变量( 指标) 的测量数据基础之上的, 即利用这些数据的内在联系和规律( 当然这种联系和规律在不同程度上是客观事物 性质的反映) 来进行分类的。为此,首先需要有刻画各个变量之间或者各个客体之 间关系密切程度的数学描述( 注意,在本文中所讨论的聚类方法可以是对个体( 或 叫样本) 进行) ,也可以是对( 或叫指标) 进行) ,由于在数学上的处理是一样的,所以 为简单计,统称为对变量的聚类) 。例如需要根据变量间的相似程度距离,就需要描 东北大学硕士学位论文第二章聚类分析相关知识 述变量相似程度的数学关系,用这种数学关系反映出来的量作为聚类的依据。显然, 描述变量关系的数学方法不同,产生的分类结果一般也会有所不同。目前用来描述 变量间关系的数学方法有许多,但用得较广的大体可分为两类,一类是相似或相关 系数,另一类是距离,下面分别来介绍【。 ( 1 ) 相似系数 设测得了p 个变量而,x ,的刀组数据:砀,f = l ,疗,这p 个变量的刀个 观测记为中尺4 的p 个向量t ) ,气p ) ,和以前一样并写成矩阵形式 持( 勤) = ( x ( 1 ) ,x (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论