




已阅读5页,还剩72页未读, 继续免费阅读
(管理科学与工程专业论文)基于语言信息的聚类方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
?弩 f 1 葶 : i ;、 l ad i s s e r t a t i o ni nm a n a g e m e n ts c i e n c ea n de n g i n e e r i n g s t u d y o nc l u s t e r i n gm e t h o d b a s e do nl i n g u i s t i ci n f o r m a t i o n b yl ib o s u p e r v i s o r : a s s o c i a t ep r o f e s s o r j i a n gy a n g p i n g n o r t h e a s t e m u n i v e r s i t y j a n u a r y 2 0 08 - - a i 0 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 :也 恧。 学位论文作者签名:7 枣鸽 日期: 神口g 、1 6 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 学位论文作者签名: 日期: 另外,如作者和导师不同意网上交流,请在下方签名;否则视为同意。 学位论文作者签名:导师签名: 签字日期:签字日期: _岭0 filii【i t_t、一l- 1j 最j - 霹 下 l 、 东北大学硕士学位论文摘要 摘要 所谓聚类是指按照事物的某些属性,把事物聚集成类,使类间的相似性尽量小,类 内相似性尽量大的一个无监督学习过程。聚类分析在经济管理及工程等许多领域有大量 的实际背景。目前,关于精确数值形式聚类信息( 一般指聚类对象特征指标值或相似矩 阵以及指标权重) 聚类分析方法已取得丰富的研究成果。但在许多实际问题中,由于对 被聚类对象的信息估计不精确或测量的误差以及人为判断等原因,评价信息常常以区间 数、三角模糊数、语言短语甚至是语言区间信息等形式出现。因此,针对具有语言信息 的聚类方法进行研究,无论是在理论方面,还是在应用方面,都具有重要的意义。为此, 本文针对具有语言信息的聚类方法进行了分析和研究,主要研究内容概括如下: 第一章介绍了本文研究的背景和意义;介绍了本文的研究目标与内容;并提出了本 文的拟创新点和研究思路。 第二章对具有语言信息的聚类方法的理论及相关问题的研究成果进行了综述,并对 已有的研究成果作出总结。 第三章首先介绍了聚类分析的概念以及两种比较常见的聚类方法。然后介绍了语言 变量概念。最后介绍了二元语义及其集结算子。 第四章首先在语言变量和二元语义的基础上定义了语言区间变量和区间二元语义, 并给出了相应的算子;然后对具有语言区间信息的聚类问题作出了描述,给出了基于语 言区间信息的最大树聚类方法及f c m 聚类方法;最后针对这两种方法分别给出了算例。 第五章针对具有实数、区间数、,语言变量等不同形式评价信息的聚类问题,提出了 一种新的基于混合评价信息的f c m 聚类方法,并给出了具体算例。 在本文最后总结了本文的主要研究成果及结论和本文的主要贡献,并指出了今后需 要进一步开展的研究工作。 关键词:聚类;语言信息;语言区间信息;二元语义:最大树聚类方法;f c m 聚 类方法 - i i q|llk tk;i, ,。山,l、 , 一 -k劈j - , : 东北大学硕士学位论文 s t u d y o n c l u s t e r i n gm e t h o d b a s e do n l i n g u i s t i c i n f o r m a t i o n a bs t r a c t 一一 一一 c l u s t e r i n gi sa l lu n s u p e r v i s e ds t u d yp r o c e s s ;t h eo b j e c t i v eo fc l u s t e ra n a l y s i si st og r o u p as e to fo b j e c t si n t oc l u s t e r ss u c ht h a to b j e c t sw i t h i nt h es a n l ec l u s t e rh a v eah i 曲d e g r e eo f s i m i l a r i t y , w h i l eo b j e c t sb e l o n g i n gt od i f f e r e n tc l u s t e r sh a v eah i g hd e g r e eo fd i s s i m i l a r i t y i t h a sb e e nm o s t n m a o n l ya p p l i e di nt h ee c o n o m i ca n dt h em a n a g e m e n ta r e a s ,e t c i ft h e c l u s t e r i n gi n f o r m a t i o n ( f e a t u r ev a l u eo fc l u s t e r i n go b j e c to rs i m i l a r i t ym a t r i xo rt h ef e a t u r e w e i g h t ) i se x a c t l yn u m e r i c a l ( c r i s p ) d a t a , t h e r ea l em a n yl i t e r a t u r e so nt h i st o p i c b u tf o r m a n ya c t u a lp r o b l e m s ,b e c a u s eo ft h ev a g u ea n dt h en o n - p r e c i s eo ft h eo b j e c t sf e a t u r e ,t h e o b j e c t sf e a t u r ev a l u e sa l e i n t e r v a ln u m b e r 。o rt r i a n g u l a rf u z z yn u m b e r so rl i n g u i s t i c i n f o r m a t i o ne v e nl i n g u i s t i ci n t e r v a li n f o r m a t i o nf o r m s t h e r e f o r e ,、) l ,i t hr e s p e c tt ot h er e s e a r c h o fc l u s t e r i n ga n a l y s i sp r o b l e m s 晰ml i n g u i s t i ci n f o r m a t i o n ,n o to n l yi nt h e o r yb u ta l s o i n a p p l i c a t i o n ,t h e r ea r ei m p o r t a n ts i g n i f i c a n c e s t h i sp a p e rs t u d i e sc l u s t e r i n ga n a l y s i s 而ml i n g u i s t i ci n f o r m a t i o n , w i t hc o n t e n t s 嬲 f o l l o w s : , i nc h a p t e r1 ,t h eb a c k g r o u n d , m e a n i n g ,p u r p o s ea n dt h em a i nw o r ko ft h ep a p e ra r e i n t r o d u c e d ;m o r e o v e r , t h ep o i n to f i n n o v a t i o na n dt h er e s e a r c hi d e ao ft h i sp a p e ra r eg i v e n i nc h a p t e r2 ,t h em e t h o d sf o rc l u s t e r i n ga n a l y s i sw i t hl i n g u i s t i ci n f o r m a t i o na n di t s r e l a t e dp r o b l e m sa l es u m m a r i z e d c h a p t e r3g i v e st h ec o n c e p t i o no fc l u s t e r i n ga n a l y s i sa n dt w om e t h o d so fc l u s t e r i n g ,a n d t h e ni n t r o d u c e st h ed e f i n i t i o n so fl i n g u i s t i cv a r i a b l ef i n a l l y , t h ec o n c e p t i o na n da g g r e g a t i o n o p e r a t o r so f2 - t u p l ei si n t r o d u c e d c h a p t e r4g i v e st h ec o n c e p t i o no fi n t e r v a ll i n g u i s t i cv a r i a b l e ,i n t r o d u c e st h ec o n c e p t i o n a n da g g r e g a t i o no p e r a t o r so fi n t e r v a l2 - t u p l e a n dt h e nt h ed e s c r i p t i o no fc l u s t e r i n gp r o b l e m w i t hi n t e r v a ll i n g u i s t i ci n f o r m a t i o ni sg i v e n am a x i m a lt r e ec l u s t e r i n gm e t h o da n daf c m c l u s t e r i n gm e t h o db a s eo l fi n t e r v a ll i n g u i s t i c2 - t u p l ei n f o r m a t i o np r o c e s s i n ga r ep r e s e n t f i n a l l y , t w oe x a m p l e ss h o wt h ea p p l i c a b i l i t yo ft h ep r o p o s e dm e t h o d ss e p a r a t e l y i i i t 严 东北大学硕士学位论文 a b s t r a e t i nc h a p t e r5 ,a i m i n ga tt h ec l u s t e r i n ga n a l y s i sp r o b l e m s 谢mm i x e da t t r i b u t ei n f o r m a t i o n s u c ha sr e a ln u m b e r , i n t e r v a ln u m b e ra n dn a t u r a ll a n g u a g e ,an e wc l u s t e r i n ga n a l y s i s a l g o r i t h mi sp r o p o s e d ,w h i c hi s t h ee x t e n s i o no ft h et r a d i t i o n a lf c m c l u s t e r i n gm e t h o d f i n a l l y , a ne x a m p l ei sg i v e n t os h o wt h ea p p l i c a b i l i t yo ft h ep r o p o s e df c mc l u s t e r i n g m e t h o d f i n a l l y , t h ed i s s e r t a t i o nd r a w sac o n c l u s i o n ,s u m m a r i z e st h er e s e a r c hf r u i t s o nt h eb a s i s o ft h ea b o v e ,s o m es u g g e s t i o n so nf u t u r er e s e a r c ha r ep u tf o r w a r d k e y w o r d s :c l u s t e r i n g ;l i n g u i s t i ci n f o r m a t i o n ;l i n g u i s t i c i n t e r v a li n f o r m a t i o n ;l i n g u i s t i c 2 一t u p l e ;= n a x i m a lt r e ec l u s t e r i n gm e t h o d ;f c mc l u s t e r i n gm e t h o d 一 mum,v ,弧节:j 东北大学硕士学位论文目录 ?目录 、独创性声明i 学位论文版权使用授权书i 。 摘要i i ; o a b s t r a c t i i i 第1 章绪论1 1 1 研究背景1 1 1 1 聚类分析是完成数据挖掘任务的重要手段1 1 1 2 聚类分析在经济管理中的实际应用背景2 1 1 3 基于语言信息聚类分析的出现3 1 2 问题的提出4 , 1 2 1需要对基于语言信息的聚类方法进行研究4 1 2 2 需要对基于语言区间信息的聚类方法进行研究4 1 2 3 需要对基于语言与其他形式混合信息的聚类方法进行研究4 1 3 研究目标及研究内容5 1 3 1 研究目标一5 1 3 2 研究内容5 1 4 研究方法及研究思路6 1 4 1研究方法6 1 4 ,2 研究思路6 1 5 本文的创新点7 1 6 论文结构8 第2 章相关文献综述1 0 2 1 文献的检索源及检索方式1 0 2 2 关于语言评价信息相关研究成果综述1 0 2 2 1 关于语言信息的处理1 0 。 2 2 2 关于语言信息集结算子1 2 v 东北大学硕士学位论文 目 录 2 2 3 关于语言判断矩阵的一致性1 3 2 3 基于语言信息的聚类方法及相关研究成果综述13 2 4 基于其他不确定信息的聚类方法及相关研究成果综述1 4 2 5已有研究成果的贡献与不足1 7 2 6 小结l8 第3 章基于语言信息的聚类方法的相关研究基础2 1 3 1 聚类分析的基本概念及常见的聚类方法2 l 3 1 1聚类分析的基本概念及分类2 1 3 1 2 最大树聚类方法2 2 3 1 3f c m 聚类方法2 4 3 2 语言变量2 6 3 2 1基本概念2 6 3 2 2二元语义2 7 3 3 小结3 0 第4 章两种基于语言区间评价信息的聚类方法3 1 4 1 语言区间变量及区间二元语义3 l 4 1 1 语言区间变量3 1 4 1 2 区间二元语义31 4 2 问题的描述一3 2 4 3 基于语言区间评价信息的最大树聚类算法3 3 4 4 基于语言区间评价信息的f c m 聚类算法3 4 4 5 算例3 6 4 5 1基于语言区间的最大树聚类方法算例3 6 4 5 2 基于语言区间信息的f c m 聚类方法算例3 9 4 6 d 、结4 2 第5 章基于混合多指标信息的f c m 聚类方法4 3 5 1问题的描述4 3 5 2 基于混合多指标信息的f c m 聚类算法4 4 v i 东北大学硕士学位论文 目 录 5 3 算例4 7 5 4小结5 0 第6 章结论与展望。51 6 1 主要研究成果与结论5 l 6 2 进一步需要开展的工作5 l 参考文献5 3 致谢。5 9 攻读硕士学位期间发表论文及参加科研情况6 0 附录61 v i i , j 、 , 一;、一 东北大学硕士学位论文第1 章绪论 1 1研究背景 第l 章绪论 1 1 1聚类分析是完成数据挖掘任务的重要手段 聚类分析是将数据对象分组为多个类或簇( c l u s t e r ) 的数据挖掘技术。在数据挖掘中, 聚类分析主要集中在聚类方法的可伸缩行、对聚类复杂类型的数据有效性、高维聚类技 术以及针对大型数据库中混合数值和分类数据的聚类方法上。 数据挖掘是指从大量无序的数据中提取隐含的、有效的、可理解的、对决策有潜在 价值的知识和规则,为用户提供问题求解层次的决策支持能力。因而被认为是解决现代 社会“数据爆炸”和“r i c hd a t ap o o ri n f o r m a t i o n ”问题的一种有效方法【l 】。数据挖掘主 要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神经网络算法等 等。聚类算法是一种有效的非监督机器学习算法,是数据挖掘中的一个非常重要的研究 课题。 当人们使用数据挖掘工具对数据中的模型和关系进行辨识的时候,通常第一个步骤 就是聚类,其目的就是将集中的数据人为地划分成若干类,使簇内相似度尽可能大、簇 间相似度尽可能小,以揭示这些数据分布的真实情况。聚类分析在数据挖掘中的应用【2 】 主要有以下几个方面: ( 1 ) 聚类分析可以作为其他算法的预处理步骤,这些算法再在生成的簇上进行处理。 也可以作为特征和分类算法的预处理步骤,或将聚类结果用于进一步关联分析。 ( 2 ) 可以作为一个独立的工具来获得数据的分布情况、了解个数据类的特征、确定 所感兴趣的数据类,以便作进一步分析。可以用在市场细分、目标客户定位、业绩评估、 生物种群划分等方面。 ( 3 ) 聚类分析可以完成孤立点挖掘。许多数据挖掘算法试图使孤立点影响最小化, 或者排除他们。然而孤立点本身可能是非常有用的,如在欺诈探测中,孤立点可能于是 这欺诈行为的存在。 另外在概念聚类方面,聚类分析可以:一是发现适当的类( 仅当一组对象可以有一 个概念描述时) ;二是根据每个类形成相应的特征描述。 在数据挖掘中,大多数工作都集中在设计能够有效、高效地对大数据库进行聚类分 析的方法上。相应的研究课题包括:据类方法的可扩展性、复杂形状和复杂数据类型的 东北大学硕士学位论文第1 章绪论 聚类分析及其有效高效性、高维聚类技术,以及混合数值属性与符号属性数据库中的聚 类方法等【2 ,3 1 。 1 1 2 聚类分析在经济管理中的实际应用背景 聚类方法在经济管理中具有广泛的实际背景,下面给予简要的介绍。 ( 1 ) 在虚拟企业( 组织) 核心竞争力的识别方面。虚拟企业是企业外部资源整合的一 种手段,而企业核心能力则是资源整合过程中首要考虑的一种重要资源。从某种角度来 说,虚拟企业主要是针对不同企业核心能力这样一种资源的整合,即把经营及管理的注 意力集中到企业自身核心能力上,而一些非核心能力、或自己短时间内不具备或不需要 具备的核心能力则转向依靠外部虚拟企业伙伴提供。如何定量识别企业自身和合伙企业 的核心能力,避免选择与自身核心能力相近的企业是虚拟企业构建与管理过程中的重要 问题,而利用聚类分析的定量方法则能够较为客观而实际地解决这一问题。吴跃新等有 效地运用聚类方法对虚拟企业的核心竞争力进行了定量识别【4 】,汪贻生等将模糊聚类算 法应用于对虚拟物流组织核心能力的评价和对虚拟物流组织伙伴的选择【5 】。 ( 2 ) 在客户分类方面。当前,客户的需求已趋向多样化和个性化,市场表现出难以 预料和混沌的特征。批量定制是适应当前市场特征的一种新的生产理念,它以接近批量 生产的成本和效率来满足客户的个性化需求,被认为是2 l 世纪制造业最重要的生产模 式。来自美国的一项技术调查显示,7 1 的决策者认为,造成产品开发延误的原因是不 良的产品定义。这种定义会导致产品后期既费钱、又费时的工程更改,更为严重的是产 品投放市场时,不能满足客户真正的需要,使企业丧失了竞争优势。完善的产品定义, 必须有效地将客户的呼声转化为产品设计的详细说明和资源的优先顺序。在批量定制 中,企业首先应对市场潜力进行彻底的调查研究,细分客户,了解客户的价值和偏好, 将客户的呼声转化为产品族,并制定出最佳的定制程度和定制范围,正确地决策和规划 预定制产品,以快速地响应客户的需求。完善合理的产品定义的前提是按照客户需求的 相似性,将客户归组,形成若干客户群,针对不同的客户群实施不同的产品策略。因此, 如何抽取客户需求的相似性,将户聚类成组,是有效实施批量定制的基础。而聚类分析 法就能够有效地解决客户的分组问题。王红军将聚类方法应用到客户分类【6 1 ,综合应用 响应曲线法、适应性关联技术和系统聚类法,根据客户需求效用值进行客户群聚类划分, 得到了具有不同需求效用的客户群。 ( 3 ) 在证券投资应用方面。聚类分析在证券投资方面的研究有很大的发掘空间。首 先,聚类分析是建立在基础分析之上的,立足于对股票基本层面的量化分析,弥补了基 2 东北大学硕士学位论文第1 章绪论 础分析对影响股票价格的因素大多是定性分析的不足。作为理性的长期投资的参考依 据,其目的在于从股票基本特征决定的内在价值中发掘股票真正的投资价值。其次,在 建立聚类分析模型时,进一步考虑对股票投资价值有着重要影响的行业和公司的成长 性。成长性是一个变化的趋势,在哥登模型中,假设股息按不变的增长率g 增长与实际 情况不符。就是运用多阶段增长模型,要准确地给出不同增长阶段的参数g 也是十分困 难的。因此在探讨股票的成长性时,选取了如主营收入增长率、净利润增长率等客观指 标,由此投资者就能正确预测股票的发展潜力。再次,与现代投资组合理论相比,聚类 分析法显得直观、实用,而且在应用时所受的局限小,操作性强,有定的优越性,适 合于广大投资者采用。聚类分析建立的是一种长期投资的理念,因此在我国证券市场走 向成熟的过程中,提倡运用这种理性的投资分析方法,不仅可以降低投资风险,规范投 资行为,还有利于促进股票公司从经营业绩和成长能力出发参与市场竞争,促进了我国 证券市场的健康发展。周焯华等通过对股票的行业因素、公司因素、收益性、成长性等 基本层面进行考察【_ 7 1 ,建立了较为全面的综合评价指标体系,衡量样本股票的“相似程 度”。然后建立聚类分析模型来确定投资范围和投资价值。结果表明该方法能帮助投资 者准确地了解和把握股票的总体特性,预测股票的发展潜力,并通过类的总体价格水平 来预测股票价格的变动趋势,选择有利的投资时机。 柯冰选取9 项主要财务指标,对汽车及配件行业1 9 家上市公司进行了聚类分析和因 子分析【8 】,研究结果表明,两种分类方法都能把上市公司区分为蓝筹股、绩优股、一般 股和劣质股,与公司的实际情况相符。吴明瓒对上市公司投资价值进行模糊c 均值聚类 分析 9 】,以判别上市公司投资价值的类别,在实际应用中证明这种方法是有效的。 此外,l e e 运用层次聚类法,实现了商务过程的识别【1 0 1 。魏新军提出了一套物流绩 效衡量的指标体系,并运用聚类方法对企业物流绩效进行了评估【l 。 1 1 3 基于语言信息聚类分析的出现 在许多复杂的评价系统中,对于某些评价信息,人们很难用具体的数值来对其进行 表示,这时,往往以某种定性的形式表述这些信息。一种很直接的方法就是使用自然语 言,例如,在定性的评价中,人们经常给出的评价信息是自然语言而不是数值。 使用自然语言表述信息的原因较为复杂,概括起来有三个方面:一是由于信息本身 的自然特性决定了信息难以数值化,只能使用语言描述,例如评价一位学生的素质,评 价一部电影的精彩程度等;二是因为完全数值化的信息无法获得,或获取需付出过于高 昂的代价,或决策时间紧迫,这时不得不降低精度要求而使用自然语言评价信息;三是 3 东北大学硕士学位论文第1 章绪论 决策者自身能力的有限,或经验不足,以及对问题认识不够深入。 因此,当我们不能用精确数值来描述事物的特性时,语言短语可以灵活、直接、适 宜地描述事物的特性,从而表述评价信息。可见,采用语言评价信息符合当今决策的实 际情况,同时它也是人们研究的热点问题。 1 2 问题的提出 1 2 1 需要对基于语言信息的聚类方法进行研究 聚类分析在经济管理中是一个非常重要的基础性工作,在许多实际的聚类问题中, 决策者在对事物进行判断时,给出的评价信息往往不是具体的数值,而是自然语言短语 这种定性的评价信息【l2 1 。尤其在社会科学、心理测验学、经济管理等方面语言短语形式 评价信息的使用非常普遍。在评价一个企业的战略整合能力时,采用“一般”、“较强”、 “很强”等语言短语描述是比较方便的。显然,这样的信息也更“准确”些,更能反映 客观情况,更易于理解,因而更合理些。正由于其深刻的理论意义和广泛的实际背景, 具有语言信息的聚类问题的研究日益受到人们的重视。因此我们有必要对基于语言信息 的聚类方法进行研究。 1 2 2 需要对基于语言区间信息的聚类方法进行研究 随着科技的发展和新方法的不断出现,新的研究成果不断涌现,使得基于语言信息 的聚类方法越来越丰富和完善。但有些时候,由于被聚类对象的特征指标的模糊性和不 确定性,语言短语这种定性的表达不足以准确的描述问题,于是有些专家给出语言区间 形式的评价信息。例如风险投资公司对一个投资项目的风险率进行评估,经调查研究后 确认起风险在“高 和“很高”之间。因此,针对具有语言区间评价信息的聚类分析问 题的研究引起了人们的关注【1 3 , 1 4 】。但相关的研究成果甚少。基于此,本文认为有必要对 基于语言区间评价信息的聚类方法进行研究。 1 2 3 需要对基于语言与其他形式混合信息的聚类方法进行研究 目前已有的关于聚类方法及其应用研究,大多要求被聚类的信息是同一种形式的信 息,例如数值形式的信息 1 5 , 1 6 ,区间数形式的信息【1 7 , 1 8 】,语言信息【1 3 】等等。但在许多实 际问题中,由于聚类问题的复杂性,模糊性和不确定性,以及对被聚类的信息估计不精 确或测量的误差等原因,对于同一个聚类问题,针对某些指标进行测度,可能得到实数 4 东北大学硕士学位论文第1 章绪论 值形式的特征指标值;有些指标可得到区间数形式的特征指标值;而另外一些指标,可 能给出语言形式的特征指标值会更为准确和方便。因此,需要考虑具有混合信息的聚类 方法。基于这一点的考虑,本文认为有必要研究一种针对具有实数值、区间数和语言短 语等混合形式的特征指标信息的聚类方法。 基于语言信息的聚类分析问题的解决无论是理论上,还是应用上都是有重要的价 值。而目前关于这方面的研究偏少,现有的成果正如上面所述还有许多不足之处。本文 正是考虑到现在的研究状况和经济管理中的现实需要,对基于语言信息的聚类分析方法 进行了研究。 1 3 研究目标及研究内容 1 3 1 研究目标 在聚类的过程中,专家根据自己的知识、经验对方案的各个指标进行评价。由于评 价指标的模糊性和不确定性,专家最好表达方式就是自然语言,因此基于语言信息的聚 类方法的研究无论在理论上,还是在应用上都是有价值的。 虽然有关基于语言信息的聚类理论与方法的研究已经取得了一些研究成果,但仍需 要进一步研究。因此,本文的研究目标在于: ( 1 ) 完善基于语言信息的聚类方法; ( 2 ) 利用区间二元语义对评价信息进行处理,将专家给出的语言区间评价信息进行 “量化 集结,完善具有语言区间信息的聚类方法的研究; ( 3 ) 给出不同形式评价信息下的聚类方法,完善具有多种形式评价信息的聚类方法; ( 4 ) 对具有语言区间信息和具有语言与其它不同形式评价信息的聚类问题,给出了 具体的算例,完善基于语言信息的聚类方法的应用研究。 1 3 2 研究内容 针对具有语言信息的聚类方法及相关问题,本文的主要研究内容如下: ( 1 ) 在介绍具有语言信息的聚类问题的研究背景的基础上,对具有语言信息的聚类 方法及相关问题的研究成果进行了总结,分析了现有理论与方法存在的问题及其进一步 研究的必要性,从而确定本文的研究内容。 ( 2 ) 关于具有语言区间信息的聚类方法的研究。利用区间二元语义对评价信息进行 处理,将专家给出的语言区间评价信息进行“量化”集结,给出了两种基于语言区间信 - 5 一 东北大学硕士学位论文第1 章绪论 息的聚类方法。 ( 3 ) 关于具有多种形式混合评价信息的聚类方法研究。针对具有实数、区间数、语 言变量等不同形式评价信息的聚类问题,给出了具体算法及算例。 1 4 研究方法及研究思路 1 4 1 研究方法 本文在研究中注重定性分析与定量分析的结合,主要采用了运筹学、模糊数学方法 和语言信息处理方法等研究方法对基于语言评价信息的聚类方法进行分析和研究。 在文献综述中,采用了归纳、总结的方法,将目前关于语言信息、聚类分析及二者 相结合的文献从几个方面来概括其研究现状。 在基于语言区间信息的聚类方法中,采用了二元语义信息处理的方式对语言区间信 息进行了处理。二元语义信息处理的方法有效避免在评价过程中的语义信息的丢失,从 而保证评价结果的合理和有效性。 在基于混合信息的聚类方法中,采用了事先定义的三角模糊数对语言信息进行了有 效的处理。这种方法简单直观地对语言信息进行了处理。 最后,运用算例分析的方法,通过三个具体的算例,验证了本文所提出的理论、方 法。 1 4 2 研究思路 本文通过总结观察发现近年来专家常常应用语言短语对聚类指标的做出更为客观 的评价。基于此本文对基于语言信息的聚类方法做了深入的研究。首先在理论研究的层 面上,对基于语言信息的聚类方法的相关研究成果进行了综述,然后介绍了本文的相关 研究基础,即聚类分析的基本概念;两种常见的聚类方法( 最大树聚类方法及f c m 聚 类方法) ;语言变量和语言区间变量。接下来也就是本文的核心部分:首先针对具有语 言区间评价信息的聚类问题,利用二元语义及区间二元语义的相关性质和算子对语言区 间信息进行了处理,提出了基于语言区间的最大树聚类方法及基于语言区间的f c m 聚 类方法;其次针对具有数值、区间数、语言信息等混合评价信息的聚类问题,在采用三 角模糊数处理语言评价信息的基础上,提出了基于混合评价信息的f c m 聚类方法。最 后,通过三个算例,验证了本文所提出的理论、方法。本文的研究思路如图1 1 所示。 6 - 东北大学硕士学位论文第1 章绪论 基于语言信息的聚类方法研究 研究背景、问题的提出、研究目标、内容、方法及思路 ( 确定研究问题) 文献综述 ( 了解已有研究成果,明确其不足) 基于语言的聚类方法的相关研究基础 ( 清晰界定研究需要使用的基本概念) 两种基于语言区间信息的聚类方法 ( 本文的主要贡献) 基于混合信息的f c m 聚类方 ( 本文的主要贡献) 于语言区间的最大树聚类方法il 基于语言信息的f c m 聚类方法 1 5 本文的创新点 结论与展望 图1 1 本文的研究思路 f i g 1 1 t h er e s e a r c hi d e ao ft h i st h e s i s 针对具有语言信息的聚类方法及相关问题,本文的创新点如下: ( 1 ) 针对具有语言区间评价信息的聚类问题,提出了两种聚类方法。在这两种方法 中,将近年来国际上最新发展的二元语义及其集结运算算子,拓展到区间二元语义及其 集结运算算子。并运用它们对语言区间评价信息处理,将传统最大树聚类方法及f c m 聚类方法扩展到具有语言区间评价信息的聚类情形。给出了两种基于语言区间评价信息 的聚类方法。 ( 2 ) 针对具有多种形式混合评价信息的聚类问题,给出一种聚类方法。该方法通过 将语言变量形式的评价信息转化为三角模糊数,将传统的f c m 聚类算法扩展到具有混 合多指标信息的情形,给出解决具有混合多指标信息的聚类方法。 ( 3 ) 将基于语言区间评价信息的聚类方法应用于建立虚拟团队及虚拟科研团队的成 员选择问题中;将基于混合评价信息的聚类方法应用于客户分类的问题中。 - 7 东北大学硕士学位论文第1 章绪论 1 6 论文结构 研究问题的提出 第一章绪论 第二章文献综述 基本概念认识, 与理论铺垫 第三章基于语言信息的聚类方法的相 关研究基础 第四章基于两种语言信息的聚类方法 1 - 田、 l 。l 上l 再 理y 匕力法削儿 解与创新, 第五章基于多指标信息的f c m 聚类方法 本文结论 第六章结论与展望 图1 2 论文结构 f i g 1 2t h e s t r u c t u r eo ft h i st h e s i s 本论文的结构由6 章组成,论文结构图如图1 2 所示。具体说明如下: 第一章,绪论。在这章中,介绍了论文研究的背景和意义;介绍了本文的研究目标 与内容;并提出了本文的拟创新点和研究思路。 第二章,对具有语言信息的聚类方法的理论及相关问题的研究成果进行了综述,并 。 对已有的研究成果作出总结。 第三章,具有语言信息的聚类方法的基础知识。在这章中,首先介绍了聚类分析的 概念和分类以及两种比较常见的模糊聚类方法。然后介绍了语言变量和一种语言信息的 处理方法,即二元语义。分别介绍了二元语义的概念以其集结算子。 第四章,具有语言区间信息的聚类方法。在本章中,首先根据二元语义及其集结算。 子定义了区间二元语义及其集结算子;然后对具有语言区间信息的聚类问题作出了描 - 8 东北大学硕士学位论文第1 章绪论 述,给出了基于语言区间信息的最大树聚类方法及f c m 聚类方法;最后针对这两种方 法分别给出了虚拟团队及虚拟科研团队的成员选择的算例。 第五章,具有多种形式评价信息的聚类方法。在这章中,针对具有实数、区间数、 语言变量等不同形式评价信息的聚类问题,提出了一种新的基于混合评价信息的f c m 聚类方法,并给出了基于混合评价信息的客户分类的算例。 第六章,结论与展望。这章总结了本文的主要研究成果及结论和本文的主要贡献, 并指出了今后需要进一步开展的研究工作。 - 9 一 东北大学硕士学位论丈第2 章相关文献综述 第2 章相关文献综述 2 1文献的检索源及检索方式 本文以聚类分析语言信息c l u s t e r i n ga n a l y s i s l i n g u i s t i ci n f o r m a t i o n 作为主题词,以 e l s e v i e rs d o s 、k l u w e r 、e b s c o 、美国计算机协会a c m 数据库和中国学术期刊网全文 数据库作为检索源,进行了中英文文献检索。从1 9 9 7 年到2 0 0 7 年,以“聚类分析 c l u s t e r i n ga n a l y s i s 为关键词在上述各检索源中共检索到文献2 2 0 5 篇;以语言信息 l i n g u i s t i ci n f o r m a t i o n 为关键词在上述检索源中共检索到英文文献5 5 6 篇。以“聚类分析 + 语言信息”和“c l u s t e r i n ga n a l y s i s l i n g u i s t i ci n f o r m a t i o n ”的组合为主题词在上述各检索 源中共检索到英文文献1 1 篇。 从这些文献中可以看出,有关聚类分析和语言评价信息的研究呈现出逐步上升的趋 势,但是对于将二者结合的相关研究却相对较少。 通过对已有文献的筛选分析,本章将从以下几个方面对已有的文献进行综述。通过 对相关领域文献进行总结和概括,了解现有对基于语言信息的聚类方法的研究情况,明 确本文研究的的核心问题。 2 2 关于语言评价信息相关研究成果综述 在许多实际的聚类中,由于事物的模糊性和不确定性,用数值标度通常不能够有效 地、准确地反映决策者的偏好,而利用自然语言变量表示决策者的主观判断是一个比较 合理和可行的方式。由于这样一类具有语言评价信息的聚类问题具有重要的理论研究意 义和广泛的实际应用背景,所以近年来,有关这一问题的理论和应用研究受到了广泛的 关注。下面将给出相关问题的研究成果综述。 2 2 1 关于语言信息的处理 z a d e h 提出了语言变量”这个概念【19 1 ,此后,以后提出了“c o m p u t i n gw i t hw o r d s 【2 0 1 ,引起了人们对于语言信息的极大关注。从而开始了对语言信息的处理并应用与多个 领域。目前人们对语言信息处理方法主要分为三类: 第一类方法是基于扩展原理的分析方法,该方法主要将语言评价信息转化为模糊 数,并依据扩展原理进行模糊数的运算与分析。 一1 0 东北大学硕士学位论文第2 章相关文献综述 这类方法这类方法的研究较早也较多:b e l l m a n 和z a d “2 l 】将模糊集理论首先应用 到多目标决策问题的研究,并提出了模糊最大最小法;b a s s 和k w a k e n l a a l 【2 2 1 ,c h e n g 和m c l n n i s 2 3 1 ,d u b o i s 和p r a d e 【2 4 1 ,分别利用截集将经典线性加权法推广到了模糊状态 下,提出了模糊加权平均法、( f s a w ) ,b o n i s s o n e 2 5 】利用模糊数近似运算对模糊加权 平均法进行了改进:l a a r h o v e n 和p e d r y c a 2 6 】在传统a h p 法中引入了模糊数,提出了模 糊层次分析法( f a h p ) ,b u c k l e y l 2 7 l 和许若宁【2 8 】分别对它做丁改进;c h e r t 和h
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年保育员职业认证考试模拟题及备考策略
- 初中阶段道德与法治课程计划
- 浙美版三年级美术课堂活动计划
- 2025制造业骨干发展对象培训心得体会
- 焦炭堆场现场管理办法
- 煤矿折旧资金管理办法
- 爆破资质使用管理办法
- 特殊作业取证管理办法
- 特殊物品售卖管理办法
- 特殊设备租赁管理办法
- 《九州通医药简介》课件
- 《学术写作与研究方法》课件
- 评价量规介绍课件
- 魏桥供煤合同协议
- 抗血小板药物知识
- 中国工会章程试题及答案
- 国家职业技术技能标准 4-03-02-10 调饮师 人社厅发202338号
- 2025年浙江省杭州市杭州第二中学高考化学试题模拟训练试题含解析
- 老带新活动方案
- T-CAS 952-2024 基于荧光标记二抗的免疫组织化学检测 质量控制规范
- 企业员工健康管理方案
评论
0/150
提交评论