




已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于粗糙集理论的类别数据聚类算法研究 中文摘要基于粗糙集的类别数据聚类算法研究的聚类方法引起了广泛关注,并出现了本文所做的工作主要包括以下三个部分:重,从而可以有效地体现出不同属性之间的差异性。实验充分证明了该算法的。为了避免将 中文摘要等问题,本文进一步提出一种基于信息熵的离群点检测方法,并基于该方法来 鬷,瑃, , 狤瑃 : 青岛科技大学研究生学位论文钟械恼攵岳啾鹦褪莸木嗬攵攘糠椒钟械恼攵岳啾鹦褪莸某跏贾行难穹椒钟械幕诖植诩木劾嗨惴诩尤氐嗬氲腒聚类 劾喑跏蓟惴法展望 青岛科技大学研究生学位论文绪论据记录技术的普及;近年来,计算机软件和硬件技术快速发展,价格却逐渐下降,使得互联网用户迅速增加,产生了“数据过剩”但“知识贫乏”的现状。简单的数据分析已经不能满足人们的需要,人们希望能够对这些大量数据深入分析,获得更有价值的信息以辅助决策,然而当前所拥有的数据分析工具难以对数据进行深层次的处理,人们只能够从其中得到简单易获得的信息,面对这种现状,一种数据处理的新技术数据挖掘是从大量的、有噪声的、不完全的、随机的、模糊的数据中提取出人们需要的知识和规则的过程,这些知识和规则是隐含的、先前未知的、普通方法判断不出来的、对决策有潜在价值的有用信息。数据挖掘与传统数据分析方法有本质的区别,数据挖掘是在没有明确假设前提的情况下来挖掘和发现知识,其所发现的知识是先前未知的、有效的和实用的。先前未知的知识是指事先未曾预料到,不能依靠直觉或经验发觉甚至违背直觉的知识。挖掘出的知识越是出乎意料,该知识可能越具有价值。 基于粗糙集的类别数据聚类算法研究有类别的样本聚集成不同的簇蚶,并且对每一个这样的簇进行描述的过程。聚类分析技术试图找到数据集中数据的相似性和相异性,将具有相似性的对象聚集在相应的簇中。聚类前没有任何关于数据和分类的准备知识,仅仅依靠事物之间的相似性和相异性作为分类的准则,簇的形成过程完全是数据本身驱动的,聚类属于无指导无监督的学习方法。引起了广泛的关注,成为聚类分析中的一个研究热点【。 青岛科技大学研究生学位论文首先,我们提出一种新的距离度量加权重叠距离,并由此提出一种基于其次,由于离群点不应作为初始聚类中心,在选择初始中心时,有必要将离中,我们将基于距离的离群点检谒惴 基于粗糙集的类别数据聚类算法研究聚类【】作为数据挖掘的一种重要工具已经在许多领域得到广泛应用,如生 青岛科技大学研究生学位论文度量相似度。等人提出的类别型数据的相似性度量方法是基于条件概率的距离度量【,】。这两种方法都是通过属性值之间的共现程度来度量同一属性下两个属性值之间的相似度。尽管针对类别型数据的的相似性度量方式已经有很多,但是现有的方法还存在不少问题,例如,在计算相似性或距离时,它们并没有考虑到不同属性之间的差异性。 基于粗糙集的类别数据聚类算法研究用粗糙集理论中的粗糙熵、属性重要性等概念根据每个属性的重要性为每个属性定义一个权值,以解决现实生活中每个属性贡献不同的问题。越重要的属性得到一个越大大的权值,以此加大重要属性的影响,去除影响聚类的不重要因素。在此基础上,我们计算对象之间的加权距离,以解决现有的距离度量标准所存在的问题。 青岛科技大学研究生学位论文论文的组织结构 基于租糙集的类别数据聚类算法研究析和粗糙集理论。实验验证了该算法的有效性。算法的有效性。 青岛科技大学研究生学位论文 基于粗糙集的类别数据聚类算法研究聚类分析技术是不需要对样本数据库进行预先分析,仅仅在聚类过程中试图发现数据集中数据的共同点与差别,并且将具有共同点的对象聚集在一个簇中,使得同一个簇中对象的相似度尽量高,而不同簇之间对象的相似度尽量低。聚类分析可以判断哪些对象组合在一起更有意义,聚类分析在信息检索、客户细分和定向销售等领域己得到广泛应用。聚类分析和分类分析这两种方式容易被混淆。分类分析需要事先分析得出的规则进行指导,必须预先定义数据集中的类。而聚类分析是一种无需事先分析和指导的观察式学习,不需要对数据集中的类进行预先定义。分类需要预先对示例样本进行训练找到分类规则,而聚类则是在对数据集的聚类过程中找到这些分类规则。亓分析 青岛科技大学研究生学位论文数据挖掘是知识发现的一个重要环节,其步骤描述如图所示。转换为容易挖掘的数据存储方式。 萃诰的模式或规律。选,选出有效且实用的知识。知识表达技术将这些知识展示出来。作为近几年来数据挖掘范畴中刚刚兴起的分支,文本挖掘主要是用以发现某些文字出现的规律以及文字和语义、语法间的联系。文本挖掘通常用于自然语言的处理,如机器翻译、信息检索、信息过滤等。文本挖掘通常采用信息提取、文本分类、文本聚类、自动文摘和文本可视化等技术,从非结构化文本数据中发现知识。 青岛科技大学研究生学位论文聚类烤褪墙菁治S上嗨贫韵笞楹铣傻亩喔鲎对象的相似度尽可能低。聚类是一种无监督的机器学习方法,事先对需要进行分类的数据集没有任何了解,仅仅依据相似性度量标准将数据集自动分成组或簇,尽量使同一个组里样本间的相似度高,而不同组之间的样本相似度低。聚类中的组不需要预先进行定义,仅仅根据数据的实际特征按照数据间固有的相似性来自动划分。聚类分析系统输入的是度量数据间相似性的标准和需要分类的数据集,输出的是己分好类的结果。聚类分析的附加结果是对每个组进行综合描述,这种综合描述可用来对数据集的特征进行更深入的分析。聚类分析的任务包括五步:模式 基于粗糙集的类别数据聚类算法研究一般来说,基本聚类运算主要可以分为以下凡类: 青岛科技大学研究生学位论文基于网格的方法将对象数据空间划分成个数有限的小单元,形成网格结构,以网格为基础进行所有的聚类操作,这种方法的优点是处理速度快,且其处理时间与空间中数据对象的数目并无关联,基于网格的方法依赖的是量化空间每维的单元数量。鉴于基于网格方法处理速度快,聚类效果好的特点,经常与其他聚类方法叠加使用。 基于租糙集的类别数据聚类算法研究 青岛科技大学研究生学位论文定义对于每个属性子集埏琁谱饕桓霾豢煞直娑9叵不分定义对任意对象蔝,蔝蔍表示的一个定义给定一个信息表弘蔵手胋是不分明关系上近似集和下近似集的也可以通过集合来定义:口,。 基于粗糙集的类别数据聚类算法研究以形象化表示为图的形式。且桓雎塾騏,其中每个格都是一个等价类。当且仅当,称集合荁可定义集;当且仅当口,称集合荁则得到边界域。对于边界域中的元素,它们和集合之间的关系是不同的。对于以对他们属于或不属于集合娜范冉醒芯浚遥杂谝桓鯞 青岛科技大学研究生学位论文规则来判断和分析数据。而如何得到这些规则就是该决策系统的关键,粗糙集理论通过分析以往大量数据,从中寻找规律和关联,依靠经验得到这些规则。以往的决策系统需要非常精确和完整的数据,而基于粗糙集理论的决策支持系统则允许经验数据中的缺失和待决策对象中存在模糊和缺失的属性,并能依据经验得到基本正确的结果。医生可以通过该决策支持系统从模糊而不完整的病人描述的症状和医疗检查结果得到对疾病的诊断;作为一种新的控制规则提取手段 本章小结 青岛科技大学研究生学位论文距离。但是,针对类别型数据,我们一般不能直接进行数值运算,这样就需要专门为类别型数据设计相应的距离度量。相应的,针对类别型数据,我们所设计出的聚类模型及聚类算法应该与数值型存在很大的不同,而且相对来说也更加复杂。目前,针对类别型数据的聚类分析已经成为聚类研究中的一个热点,有很多问题值得我们进一步研究与探讨。仅能处理数值型数据。劾嗨惴嵌訩算法的扩展,能处理类别 基本定义笫鞘粜约闹涤颍矗琕圪,圪为属性口的值域;口们称信息策表坶为类别型信息表。给定一个信息表肛琄厂杂谌魏蜝,我们称二元关系为一 青岛科技大学研究生学位论文定义给定信息表僻彳,以厂匀我釨,令疘恚定义谛畔氐氖粜灾匾P浴扛畔砀以琄厂匀我鈇,其中,对任意,以功表示不分明关系的信息熵。加权重叠距离五蔝,隮之间的简单重叠距离定义如下:很明显,在上述定义中,每个属性对于计算两个对象之间距离的影响是一样 基于粗糙集的类别数据聚类算法研究距离定义如下:,苭口镣瑈口【,勇塾騏中随机选择龆韵笞魑3跏贾行牡悖篫琙顃; 青岛科技大学研究生学位论文重叠距离,近的中心点所代表的簇中去;低为罥谧罨档那榭鱿拢惴的时间复杂度为实验结果及分析小型数据。表 本章小结 青岛科技大学研究生学位论文现有的初始中心选择方法 基于粗糙集的类别数据聚类算法研究热嗽谖南譡】中结合距离和密度来选择初始中心。利用对象和整个数据集的中心的距离来避免选择边界值作为第一个初始中心,在这个方法中,对象选出来并不是作为初始聚类中心而是作为一个聚类模型。把聚类模型和它周围的相邻对象结合起来作为候选的初始聚类中心,然后规定一些标准来从候选点中选择初始中心。算法中,我们将传统的基于距离的离群点检测方法引入到初始中心的少,其离群程度越高。然后,根据每个对象的离群程度值来选择初始中心,以避免离群点成为初始中心。由于不同的中心点代表了不同的簇,需要尽量保证这些中心点来自不同的簇,因此,我们还将计算各个初始中心之间的距离,使得它们的距离尽可能大。在选取第一个初始中心时,由于不需要考虑中心之间的距离,我们将选择离群程度值最小的对象。而在选择剩余初始中心时,我们将同时考虑对象的离群程度值以及该对象与每个已有中心的距离,通过综合考虑这两方面的因素,来获取其余的初始中心,从而使得每个中心的离群程度值尽可能小,同时 青岛科技大学研究生学位论文 基于粗糙集的类别数据聚类算法研究在现实生活的许多应用中,数据是没有标号的,而且数据的处理是有时效要如参数分布缇祷蚍讲、预定义的离群点数目缰眯徘。如果一个数据对象在数据的概率分布模型下的概率值很低时,则认为该对象是离群点。基于统计的离群点检测方法是建立在概率统计理论的基础之上的,由于其坚实的理论基础,在某些情况下这种检验方法是非常有效的,但是它也有其缺点:对数据分布的依赖、仅使用于低维数据、不适合混合类型的数据等。 青岛科技大学研究生学位论文为了避免离群点成为初始中心,我们的初始化方法将使用基于距离的离群点检测方法来计算每个对象的离群程度值。传统的基于距离的离群点检测方法只能本文中,我们设定痢芶渲校瑆表示属性口的权韵骕的离群因子和杏隭的 算法中,我们将离群因子最小的对象作为第一个初始中心。采用基数排序的方法,计算划分疘一; 青岛科技大学研究生学位论文计算不分明关系的信息熵粄回;计算属性的重要性和留的权重;如果蛄頲;计算对象坼的离群因子,即令五型;祷谻;行了实验俊哉个数据集进行了描述: 基于粗糙集的类别数据聚类算法研究 我们使用语言实现了算法,并将该算法的实验结果与现有颐欠直鹄肞、这三个指标来评价一个聚类方法的性能,其中:隧一刍玦一在我们的实验中,对表中所描述的四个数据集,我们采用不同的初始化 青岛科技大学研究生学位论文袁数据集上的聚类结果袁 表数据集上的聚类结果从表到中可以看出,我们提出的初始化方法要优于随机方法,这是 基于租糙集的类别数据聚类算法研究得出的、和都要高于或等于和姆椒赯数据集上,算法在上始终要高于本章小结 青岛科技大学研究生学位论文检测方法基于距离的离群点检测方法所存在的问题 基于租糙集的类别数据聚类算法研究信息熵及其在粗糙集中的应用假设有一个离散的数据集合弘铆抛加扛鍪莸南嘤鱿制德饰猵,为了衡量这个数据集合中特定序列的随机性,我们定义离散随机变量的熵为:。熵具有以下性质:裕篐,是牧 青岛科技大学研究生学位论文岢龅男畔豙】以及相关此外,撵匾脖挥美唇写植诩脑技颍纾篠肧在本节中,我们将提出一种基于信息熵的离群点检测方法。该方法采用洚, 緓,琕,令一【吭墨,弧瑇:一硎綢中表示瑕中划分的信息熵。 青岛科技大学研究生学位论文由定义,我们可以得出:即卜莩群品嵫:群窱篒刀从定理的颐强梢缘贸鲆桓鲈谖屑扑慊【吭的信的,我们不需要计算械幕】。相反,我们首先基于中。定义【基于权重的属性序列】给定一个信息表伊疭脀睿口,硎臼粜詀娜见公式,口趍杂谒 定义【基于权重的属性子集序列】给定一个信息表伊从定义中,我们可以看出,给定一个基于权重的属性子集序列艽删除了属性口;得到的,其中嘭是么,表示中基于权重的属性子集序列,对任意蔝,中对象谛畔氐睦肴阂蜃的定义如下:痵聊。和埽少直鸲辶硕韵髖在关系 青岛科技大学研究生学位论文萋【吼勺贏形立捎谠诖蠖嗍榭鱿拢琔中的大部分对象对疘勺熵值几乎没有影数级,这使得我们不能处理超过个属性的数据集。因此,为了降低离群点检劾喑跏蓟惴的两个因素,即睦肴撼潭群蚘与已存在的初始中心的距离。 基于粗糙集的类别数据聚类算法研究定义给定一个信息表僻琄厂杂谌我舛韵髕肐表示对象谛畔氐睦肴阂蜃印肅,表示所有已存在的初始中,一厕而鰆鴏,贗泄乖旎谌氐氖粜孕蛄腥断酰浴和基于权重的属性子集序列匀我鈒,反复执行和划分一【而】爿彳,男畔; 青岛科技大学研究生学位论文覷中选出第一个对象胰肅颐茄作为第一个初始从如果有一个中心蔆可以让,于是我们认为虲属如果对于所有中心蔆有,蛉肅;计算对象且桓鲋行牡母怕蔖;实验结果及分析的六个类别数据集来进行实验:;。表对这六个数据库进行了描述。 算法同样采用语言实现。 青岛科技大学研究生学位论文 基于粗糙集的类别数据聚类算法研究类别 青岛科技大学研究生学位论文 基于粗糙集的类别数据聚类算法研究 青岛科技大学研究生学位论文 法的性能。惴贸龅呐蟊萕虲的方法要略差,但是比 青岛科技大学研究生学位论文要略差于的方法,这是由于数据集只有两种类别,多一个对象的错分就会带来结果的巨大差距。从表到校颐腔箍梢钥闯觯琹,和从以上实验得出的数据中整体分析,我们可以看出,本文提出的两
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 凉山自治州中储粮2025秋招信息技术岗高频笔试题库含答案
- 中国移动达州市2025秋招笔试行测题库及答案供应链采购类
- 安徽地区中石油2025秋招笔试模拟题含答案油品分析质检岗
- 牡丹江市中石油2025秋招面试半结构化模拟题及答案机械与动力工程岗
- 中国移动包头市2025秋招笔试性格测评专练及答案
- 商丘市中石油2025秋招笔试模拟题含答案炼油设备技术岗
- 珠海市中石油2025秋招笔试行测50题速记
- 三明市中石油2025秋招笔试提升练习题含答案
- 国家能源吉林市2025秋招机械工程类面试追问及参考回答
- 张掖市中石油2025秋招笔试模拟题含答案安全环保与HSE岗
- 成人重症患者颅内压增高防控护理专家共识(2024版)解读课件
- 山体滑坡事故应急处理模版课件
- 体检中心投诉处理流程
- 基于学科核心素养下的教学设计
- 人教版英语七年级(全册)单词表
- 全心衰竭的治疗与护理
- 扩张型心肌病治疗及护理
- 2002版干部履历表(贵州省)
- DL∕T 1396-2014 水电建设项目文件收集与档案整 理规范
- 行路难课件8省公开课一等奖新名师比赛一等奖课件
- 防欺凌隐患排查和矛盾化解记录表
评论
0/150
提交评论