版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/7/24,第五章 数据的排序及有向聚类分析,5.1 引言 5.2 事务项的排序标准 5.3 属相项的排序标准 5.4 数据的衍生 5.5 有序近邻聚类分析 5.6 有序平均秩效应聚类分析,2020/7/24,5.1 引 言,数据排序在数据挖掘中显得尤为重要,但往往被人们所忽视.因为在数据量较少时,对于排序看起来不是什么问题,也无需专门去研究和讨论.然而,对于海量数据的分析,排序问题就不是那么简单了.可以想象利用Web的有关资料,我们如何将网络广告、街头广告、报刊广告等对电视广告的影响程度排序呢?又如,在大学生成长和发展过程,因素q1,q2,.,q25所起的作用大小又是如何呢?这些问题
2、的解决不仅为进一步的数据挖掘提供适合的数据形式,而且为数据分析过程中的算法改进、提高精度、增强有效性奠定了理论基础.,2020/7/24,数据排序必须要有研究对象,即我们是对属性项(变量)进行排序,还是对事务项(样本)进行排序,这一点必须要明确.研究对象要根据问题的研究目的和内容来确定. 在明确了排序的对象后,进行排序前还要确定一个排序标准,标准不一样,排序的结果不一样.排序标准的确定不是那么轻而易举的,如果标准确定不好,不仅反映不出实际问题,而且还有可能误导人们对问题的认识.因此,排序标准的确定既要建立在一定的理论基础上,而且又要有一定的实际背景.这方面的内容我们将在后面详细探讨.,2020
3、/7/24,随着对数据的进一步考虑,我们将会发现,排序后数据之间的“距离”(包括相似的概念,以后不再强调)并不相等,也就是排序后数据的稀疏程度不均匀.由于数据量过大,我们自然要关心的是对一个数据集合进行分析,这样就提出了如何对排序资料进行聚类分析.,2020/7/24,我们知道聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习,但对有序样品的聚类分析的理论内容并不多 (胡国定,张润楚 (1989), 286-319),而且所研究的内容立足点是,已知变量(或样品)具有一定的顺序,其顺序在聚类中是不能打乱的,即只能按其顺序分成若干类.例如,欲了解儿童的生长发育规律,对所获得的儿童的
4、体重按发育阶段进行分类,这里很清楚,只能按年龄由小到大分成若干个发育阶段,如果按不同的年龄(非顺序性)将儿童的体重进行聚类分析,这样的结果不适合生长发育规律的要求.这类有序变量(或样品)是客观现实中存在的,这种有序我们称为客观有序.,2020/7/24,对于非有序数据进行聚类分析,这在数据挖掘中已经成为一个非常活跃的研究课题 (Trespv,V. (2001),Van Hulle,M.M.(2000),Gardner,M., Lalmas,M.and Ruthven,I.(2001),Friedman,J.H. (1997).但是根据我们研究的内容和聚类的目的,将数据排序后,再进行聚类分析,这
5、样不仅会对聚类的结果有更细致深刻的认识,还会大大提高聚类的运算速度.在这里我们所涉及到的有序数据是根据某一研究的目的排列而成的,这种有序我们称为目的有序.,2020/7/24,5.2.1 以信息源为标准的排序,5.2 事务项(样品)的排序标准,2020/7/24,2020/7/24,5.2.2 以综合属性项为标准的排序,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,5.2.3 移动通讯用户综合费用排序,我们已经对某地区中国移动通讯用户数据库进行了压缩分析,得到了关于属性子集A=本地话费、长途话费、漫游费的压缩信息系统.现在将利用上面的方法对
6、移动通讯用户的消费情况进行综合评价,以2001年10月的压缩信息系统为例分析.计算出综合评价指标Z,将其可视化得到2001年10月移动通讯用户消费属性综合评价分布(图1-b),比较接近用户消费概率分布 (图1-a),综合排序以后的分布见图2,由于图2反映出排序以后前20位的综合指标较大,将其事务项列出见下表.,2020/7/24,图1-a 图1-b 移动通讯用户消费概率分布与综合属性评价分布比较,2020/7/24,图 2移动通讯用户消费综合属性评价排序,2020/7/24,2020/7/24,通过分析我们可以挖掘出以下知识: i).以此排序结果看,该地区移动手机用户平均消费最大的综合评价指标
7、值是0.9865,即本地话费在3档上(100-300元),长途话费和漫游费的消费在2档上(0-100元).从总体上,该地区的移动手机用户的本地话费消费群体集中在3档,长途话费和漫游费的消费群体集中在2档上,处于中低档消费水平. ii).这里需要特别说明的是,所有的1档消费群体综合评价指标值为0.0513,排在第13位,这些消费者虽然拥有手机但没有消费,它直接影响着该地区移动通讯的业务总收入量,这部分消费者具有潜在流失倾向,公司应该针对此情况采取措施.我们对以后的几个月进行分析,发现这种情形越发严重.这种异常现象的发现,充分体现了数据挖掘的特点.,2020/7/24,5.3 属性项(变量)的排序
8、标准,2020/7/24,5.3.1 以平均水平为标准的排序,2020/7/24,2020/7/24,2020/7/24,5.3.2 以秩效应为标准的排序,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,5.4 数据的衍生,5.4.1 数据矩阵 聚类分析是一种重要的人类行为,通过聚类人们能够识别密集和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系.聚类分析作为数据挖掘的一种功能,不仅能独立地来获得数据分布情况,观察每个族的特点,集中对待定的某些族作出进一步的分析,而且还是进行其它数据分析(如回归、分类、网络分析等)的预处理
9、过程 (Owen, A. B. (1999).可以说,聚类分析不论在理论上,还是在应用上正在蓬勃发展,有贡献的研究领域包括数据挖掘 (Trespv, V. (2001)、统计学 (Van Der Ark, L. A., Van Der Heijden, P. G. M. and Sikkel, D. (1999)、机器学习 (Krieger, A. M. and Green, P. E. (1999)、空间数据库技术(Nelson, D. E. (2001)、生物学 (Segal, E. and Koller, D.)以及市场营销 ( Yun, C. H., Chuang, K. T. and
10、 Chen, M. S.)等.由于数据库中收集了大量的数据,聚类分析的研究工作已经涉及到大型数据库的有效和实际的聚类分析寻找适当的方法上.那么,聚类分析所针对的数据类型如何呢?这一问题的明确,将会为聚类分析的方法研究澄清思路.,2020/7/24,2020/7/24,5.4.2 相异度矩阵,2020/7/24,2020/7/24,2020/7/24,2020/7/24,5.5 有序近邻聚类分析,5.5.1 相似指标的确定及聚类分析,2020/7/24,2020/7/24,2020/7/24,2020/7/24,5.5.2 Fisher最优求解法与有序近邻方法的比较,2020/7/24,2020
11、/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,5.6 有序平均秩效应聚类分析,5.6.1 平均秩效应原则及聚类方法,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,2020/7/24,通过上面的计算结果我们可以挖掘出一下知识: i).第一类与第二类所包含水平的影响程度明显地高于平均影响程度,而且第一类远远高于其他类对大学
12、生成长与发展的影响,说明个人对未来的发展动机与家庭状况对自己的成长与发展影响最大.第二类仅次于平均影响程度,说明大学生对专业知识的加强在自己的成长与发展中起着相当重要的作用. ii).第三类包括社会政治环境、报刊杂志的内容、兄弟姐妹言行、校风学风状况.由于报刊杂志的内容、兄弟姐妹言行、校风学风状况均与社会环境的好坏有着密切的关系,我们可以将这一类概括为在现社会大环境因素,它对大学生成长和发展的影响与平均影响程度没有显著性的差异. iii).第四类、第五类与第六类所包含水平的影响程度均低于平均影响程度.,2020/7/24,第四类所包括的内容从两个方面影响大学生的成长与发展,即一是对物质方面的追
13、求,二是老师言行及典型人物的影响,例如科学家和英雄人物. 第五类包括校园文化活动、学校管理制度和学校周围环境.说明学校的各种状况对大学生成长与发展有一定的影响. 第六类所包括的水平有一般性的学术讲座、学校政治思想工作、同班同学言行举止、录像或电影内容、老乡的各种行为,这一类涉及的内容比较广,称其为综合水平.其中老乡的各种行为影响程度最小,而且它与其它水平影响程度的差异比较大,说明老乡的各种行为在大学生成长与发展中作用极小.在这里需要强调的是,一般性的学术讲座和学校政治思想工作的影响程度略低于第五类,表明它们对大学生成长与发展有影响,但这种影响远远低于平均影响程度.这就要求学校有针对性的开展一般性的学术活动和政治思想工作.,2020/7/24,最后需要说明的是,平均秩效应聚类分析是建立在秩分析基础之上的,类与类之间可以比较影响程度的大小,从中可以寻找出主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 叉车维修服务合同协议2026年标准版
- 员工三级安全教育培训规范
- 收银系统操作流程规范手册
- 奶牛产后子宫恢复管理规程
- 柑橘果园机械化采收分拣技术操作规范
- 花椰菜高垄栽培操作指引
- 养老护理员交接班记录填写规范
- 养生药膳食材采购规范
- 高价值客户维护服务方案
- 理疗师绩效考核方案
- 2022年湖南省普通高中学业水平合格考试-英语(含答案)
- 2024年歌尔股份有限公司校园招聘考试试题汇编
- MOOC 针灸学-经络养生与康复-暨南大学 中国大学慕课答案
- 招标代理机构工作培训课件
- 电化学全套课件
- 大唐国际600MW仿真机题
- 红色旅游项目可行性研究报告
- 河北省唐山市高新区2022-2023学年数学三下期末综合测试试题含解析
- 工程项目法律风险管控办法
- WS/T 82-1996蜡样芽胞杆菌食物中毒诊断标准及处理原则
- JB/T 20176-2017汽化过氧化氢灭菌传递舱
评论
0/150
提交评论