毕业论文范文——基于C4.5算法的空间分类应用探究_第1页
毕业论文范文——基于C4.5算法的空间分类应用探究_第2页
毕业论文范文——基于C4.5算法的空间分类应用探究_第3页
毕业论文范文——基于C4.5算法的空间分类应用探究_第4页
毕业论文范文——基于C4.5算法的空间分类应用探究_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本 科 毕 业 设 计(论文)题 目:基于C4.5算法的空间分类应用探究学生姓名:学 号:专业班级: 指导教师: 年 月 日中国石油大学(华东)本科毕业设计(论文)基于C4.5算法的空间分类应用探究摘 要随着大数据时代的到来,通过数据挖掘获取海量数据背后的知识变得尤为重要。而空间数据是大数据的基础使得空间数据挖掘意义更为突出。其中空间分类是空间数据挖掘近年来较活跃的一个分支。本文基于决策树算法中的C4.5算法,以94年美国部分人口收入数据为例进行了空间分类应用研究。C4.5算法采用信息增益率作为选择分支属性的标准,分类得到一组判断个人年收入是否大于5万美金的规则用于预测人口收入,并得到不同因素对收入影响力的排序。其中工作周数、年龄、学历和性别对于收入的影响,提醒我们需要进一步促进就业,普及高等教育,消除性别歧视以及给年轻人创造更多的机会。将分类结果与空间信息相关联后直观地展示到地图上,可以看到各行业的人口收入在各地区间的一些差异,有利于进一步挖掘空间知识,指导各地区乃至国家的经济部署。关键词:空间数据挖掘;空间分类;C4.5算法;人口收入 Research and Application of Spatial Classification Based on C4.5 Algorithm AbstractAlong with the Big Data era, seizing the knowledge behind the huge data by data mining is very important. According to the knowledge people can forecast the unknown information from the known data attributes. Spatial data is the basis of the Big Data. So spatial data mining becomes extremely significant. Spatial classification is a hot direction of spatial data mining.The thesis chose the census income data in 1994 from U.S. Census Bureau for classification based on C4.5 algorithm. C4.5 algorithm uses information gainratio to select the attributes for classification. The algorithm produced a set of rules which can judge and predict if the personal annual income is beyond 50,000$. According to the rules, the thesis got the different degrees of these attributes influential power on income. The influences of attributes like work-weeks, age, sex and education give us the suggestions that we should still promote employment, education, reduce sexism and create more opportunities for young people.The classification results can be related to the spatial data and showed on the Map. And we can find the differences of census income from different industries in various areas. Spatial knowledge can be found more easily to be used for guiding the plan of economy in these areas even the country.Keywords:spatial data mining; Spatial Classification; C4.5 Algorithm; census income目 录第1章 引言11.1研究背景11.2研究意义2第2章 空间数据挖掘42.1 数据挖掘42.2 空间数据挖掘52.2.1 空间聚类52.2.2 空间分类62.2.3 空间关联规则72.2.4空间趋势预测7第3章 决策树分类算法8 3.1 决策树算法综述8 3.2 C4.5分类算法原理9第4章 数据预处理114.1 数据来源114.2 数据属性值的选取与特殊样本的剔除114.3 数据缺失值处理与字符串的数值化12第5章 决策树分类结果与讨论155.1 决策树分类结果155.2 分类结果的讨论19第6章 结论25致 谢27参考文献28附 录29附录A 按工种分类各区域人口收入分布表29附录B C4.5决策树算法流程图30第1章 引言第1章 引言1.1研究背景随着计算机网络与移动通讯技术的高速发展,人类所拥有的数据正在经历着爆炸式的增长,大数据时代已经不可阻挡地到来了。面对大数据,人们迫切需要获取海量数据背后的重要信息和知识,发现数据中存在的关系和规则,并根据现有数据对未来的发展做出预测。其中空间数据是大数据的基础,约80%的数据与空间位置有关1。 因此对于空间数据进行挖掘具有十分重要的意义。数据挖掘技术综合了人工智能、数据库系统、专家系统、统计学、机器学习、信息科学和可视化等多个学科领域,经过近20年的研究和改进已经形成了一套较为完整的理论体系和技术体系。数据挖掘是指从大量的、模糊的、随机的、有噪声的、不完全的数据中,提取隐藏在其中的、人们事先不知道的但又是有用的信息和知识的过程。空间数据挖掘即指以空间知识为主的数据挖掘。这里的空间知识主要指空间的关联、特征、分类及聚类等规则和异常检测2。它是计算机技术、数据库应用技术和管理决策支持技术等发展到一定阶段、多学科交叉的新兴边缘学科,汇集了来自机器学习、模式识别、数据库、空间统计学、人工智能以及地理信息系统等各学科的成果3。空间数据挖掘的方法主要有空间聚类,空间分类,空间关联规则以及空间趋势预测等等。而决策树算法(Decision Tree Algorithm)是用于分类和预测的主要算法,它通常从一组无规则的事例推理出以决策树形式表达的分类规则,利用自顶向下的递归方式,不断在决策树内部节点进行属性值比较,根据不同属性判断是否从该节点向下分支,并在决策树的叶结点得到结论。所以,从根节点到叶结点对应着一条分类规则,一整棵树就对应了一组表达式规则。决策树算法的一个最大优点就是它在学习过程中不需要获取很多背景知识,只要训练样本能用属性加结论的方式表达出来,就能用决策树算法进行学习。决策树分类算法里C4.5算法是空间数据挖掘中最常用、最经典的分类算法之一,能够以图形化的形式展示挖掘结果,从而方便使用者快速做出决定或预测。决策树分类算法在各行业都有广泛应用,如自然地理综合区划、灾害风险区划、农业区划、交通管理、流行病预测、人口统计以及客户资源管理(CRM)系统等。1.2研究意义数据挖掘是现代数据研究领域的重要技术,是能够给使用者带来收益的一项技术手段,其无论在商业领域还是在研究领域中都占有非常重要的地位,对该项技术的研究也就无可厚非的成为了各领域关注的重点,其重要性和意义如下:(1)数据挖掘可以提升信息服务层次;(2)数据挖掘可以提升政府、企业以及研究机构对信息的把握程度;(3)数据挖掘为决策提供可靠的技术支持。其中空间数据挖掘中的空间分类算法是属于预测式数据挖掘的一种数据分析方法,其目的是根据重要样本数据集找出能准确描述并区分数据类或概念的模型,以便依据实体的属性值及其它约束条件将其划分到某个数据类别中去。分类是已知现存的类别,要建立类别的描述规则,并对新例的观察值判别归类,在机器学习中这种分类被称为有指导学习或有监督学习。分类对象通常表示为数据库表或者文件中的记录,分类工作包括向数据库中添加一个新列,并给出某种分类代码。分类工作首先要对所要处理的数据进行合理的分析处理,有一个清晰定义的类,还要有一系列已分类实例。分类似乎是人类的规则,为了理解并与周围环境交互,人们每天都在归类、分类以及分级。分类包括考察一类新出现的对象的特征,并归类到已定义类中。因此空间分类的意义有: (1)以空间对象的方位、距离或形态和连通关系把它们映射到有意义的的不同类别; (2)通过空间分类解决区划问题,可将分到同一类的地区划到一个区域; (3)通过空间分类解决预测问题,可利用分类准则预测未知的分类结果。本文以居民的收入数据为例进行分类研究。居民收入水平的高低直接影响其生活质量的好坏,收入分配是否均匀关系到社会的和谐与稳定。对居民的收入情况进行调查统计,对人口收入数据进行分类发掘人口收入数据中对收入影响较显著的因素,根据这些因素的变化来预测某地区的收入变化,或者改善相应环境以提高人口收入对于一个国家或地区具有十分重要的意义。同时,在分类过程中选取一定的空间属性信息进行关联,从数据中挖掘空间信息,直观地展示到地图上,有利于发现收入及相关因素在空间分布上可能存在的不均衡,根据收入的差距可划分不同区域(区划参考),从而对于一个地区或国家下一步的投资发展提供一定的决策参考。本课题主要以美国人口普查局1994年间的人口与收入数据为训练样本,使用C 4.5算法进行决策树分析,将可能影响人口收入的一些空间属性,比如研究对象的父母的出生国,本人的出生国、国籍,本人是否有从乡村向大都市区迁移以及现在的住址位于美国的哪个区域,哪个州等等空间数据,以及其他对于收入影响较为明显的非空间属性,如年龄、性别、学历、一年中工作的周数等作为分类的依据,通过C4.5算法寻找影响力较强的因素,理解C4.5算法相对于ID3算法的改进。通过对分类的结果进行分析,并展示到空间上,我们可能发掘出一定的空间知识,并可以对人口的收入情况进行预测。找到哪些因素对个人年收入大于5万美金呈现正相关关系,可以用于指导人们提高个人收入,以及发现社会中导致收入差距存在的一些影响因素,缩小收入差距,促进收入分配的公平。31第2章 空间数据挖掘第2章 空间数据挖掘2.1 数据挖掘数据挖掘是新兴的一门技术学科,起源于1989年于底特律(美国)举行的第一届KDD(从数据库中发现知识)国际学术会议。1994年在加拿大举行的地理信息系统国际会议上,李德仁院士第一次提出了从地理信息系统数据库中发现知识的理念,也就是KDG英文名称即:knowledge discovery from GIS。第一届知识发现与数据挖掘(knowledge discovery and data mining)的国际会议于1995年在加拿大召开。数据库中的数据在会议上被形象地比喻成了矿床,由此诞生崭新的数据挖掘学科(DM, data mining, 又译作数据发掘、数据开采或数据采掘等)。数据挖掘技术综合了人工智能、统计学、数据库系统、专家系统、机器学习、信息科学和可视化等多个学科领域,经过近20年的研究和改进已经形成了一套较为完整的理论体系和技术体系。数据挖掘是指从大量的、模糊的、随机的、有噪声的、不完全的数据中,提取隐藏在其中的、人们事先不知道的但又是有用的信息和知识的过程。这些信息和知识能够以概念、规律、规则和模型等形式表达4。数据挖掘涉及数据、信息和知识三个基础概念,这三个概念如同几何上线、面、立体之间的关系,其中数据是原始的未解释的符号或信号,比如0、1;信息则是有一定解释或意义的数据,例如SOS;而知识是综合信息形成的观点及普适性的理论,信息与数据相连,知识则同时与数据和信息相关。通过数据挖掘一般可以得到以下结果:(1) 从数据中形成模型;(2) 从数据中派生出新数据;(3) 从数据中获取知识与规律,达到更充分利用数据的目的数据挖掘可以分为两种类型:数据驱动和模型驱动。数据驱动方法是基于已有数据里面说发现的模式而创建的模型,这种新式模型必须在被确认正确之前进行检验,模型的建立过程是交互的,最终模型一般由新发现的信息和历史经验结合来完成5。与之相反,模型驱动的数据挖掘要求用户根据可利用的数据建立的模型或者历史经验,估计模型参数,然后也要检验模型是否有效,模型的主要用途是描述和预测。数据挖掘中的知识发现要依靠这样两种方法的协同作用,数据驱动与模型驱动在数据挖掘过程中的关系如图2-1所示。图2-1 数据驱动和模型驱动的数据挖掘过程(据Gahegan et al.,2001)2.2 空间数据挖掘空间数据挖掘即指以空间知识为主的数据挖掘。这里的空间知识主要指空间的关联、特征、分类及聚类等规则和异常检测2。它是计算机技术、管理决策支持技术以及数据库应用技术等发展到一定阶段的新兴边缘学科,汇集了来自数据库、空间统计学、机器学习、模式识别、人工智能以及GIS等各学科的成果3。空间数据具有高维的数据结构,包含了拓扑、方位、距离等信息。空间数据挖掘是为了解决“空间数据爆炸但知识贫乏”的现象而不断发展起来的。它的研究对象主要有Spatial Database或Spatial Data Warehouse。空间数据挖掘与传统的地学数据分析相比,更强调在隐含未知情况下对空间数据本身进行分析并挖掘规律,空间知识分析工具获得的信息会更概括和精炼6。2.2.1 空间聚类空间聚类分析是指通过空间对象的相似特征,将它们聚成一类,目的是发现研究对象在空间上的相连、相邻和共生等关系。由于空间聚类通常是对图形直接聚类,导致聚类形状复杂、数据量大,因此采用经典的多元统计分析的方法就显得速度慢、效率低,这对空间聚类算法提出了更高要求,以下对于常用的一些聚类算法基于六个指标进行了比较,比较结果见表2-1:表2-1 聚类算法比较2.2.2 空间分类空间分类是指通过空间对象的方位、距离或形态和连通关系把它们映射到有意义的的不同类别。很多区划问题和空间预测问题都可以通过空间分类来实现,例如自然地理综合区划、灾害风险区划和农业区划以及流行病趋势预测等课题。空间分类作为最近较为活跃的一个分支也属于空间挖掘领域。其中决策树分类技术是迄今为止发展最为成熟的一种概念学习方法。它产生于上个世纪的六十年代,前身为由Hunt等人在研究人类概念建模的时候所建立的学习系统,到了上世纪的七十年代,J Ross Quinlan提出了ID3算法,此算法旨在减少树的深度。然而忽略了叶子数目的研究。1975年和1984年,分别有人提出CHAID(Chi-squared Automatic Interaction Detection)和CART(Classification and Regression Tree,亦称BFOS)算法。1986年,J.C.Schlimmer提出ID4算法。1988年,P.E.Utgoff提出ID5R算法。1993年,Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法,C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大的改进,既适合于分类问题,又适合于回归问题。决策树分类算法的优点如下:(1)分类精度高;(2)生成的模型简单;(3)对噪声数据有特别好的鲁棒性。因而成为目前应用极其广泛的归纳推理算法之一,在数据挖掘理论中受到了广泛的关注。而决策树分类算法中的C4.5算法是空间数据挖掘中最常用、最经典的分类算法之一,能够以图形化的形式展示挖掘结果,从而方便使用者快速做出决定或预测。决策树C4.5算法和C5.0算法一样,它们都是基于ID3算法的改进。 2.2.3 空间关联规则空间关联规则指的是空间对象间相连、相邻、共生、包含等空间变量之间明显依赖关系的模式,反映了空间对象之间以及对象与空间位置等属性的关联关系。关联规则可以描述为A=B%s,%c,其中A与B是空间和非空间谓词集合,%s表示规则的支持度,而c%表示规则的可信度。空间关联规则发现方面,Malerba等人在2001年提出了归纳逻辑编程,作为空间关联规则解决方案。这个方案受益于空间领域的先验知识,系统地研究了地图图层的层次结构,处理对象的数值属性,这个方案已经在ILP系统的SPADA上实现了。该方案成功地应用到了对于英国曼彻斯特Stockport的人口普查数据的空间关联规则的发掘,它能够利用计算逻辑来处理传统统计方法无法处理的应用;Aspinall等人在2000年把景观生态学、环境模型和GIS结合,利用综合地理评估,研究了黄石公园的水流汇合处环境条件,并发掘出了环境保护方面的关联规则;陈江平等人在2003年提出基于空间分析提取关联规则,把提取过程分为3步,分别是第一步空间目标确定与第二步空间关系精简以及最后的一步空间关联规则提取,这种方法有效降低了空间关联规则提取算法的空间及时间复杂度。2.2.4空间趋势预测空间趋势分析要处理的数据通常是根据某个空间维发现的变化趋势数据,既有空间数据变化也有非空间数据变化,比如距离都市中心远近变化对应的经济形势的变化趋势等等。一般采用空间回归和自相关分析等方法进行预测。近年来,不少研究机构在空间趋势预测方面取得了不错的成果,例如明尼苏达大学的空间数据库研究小组采用SAR(Spatial Autoregressive Model)模型进行空间位置预测,成功预测出湿地中鸟巢的位置7;Hoffman和Fraczek利用软件ArcView对南加州San Bernardino县的麻疹病流行趋势进行各类空间分析,从而确定了危险区域人口的参数模型;Fraczek还基于Arcview的空间分析模块GRID对1990年的人口数据进行分析,定义了各种独立参数,例如年龄、出生率、收入等等,更为精确地预测了麻疹病毒的依赖参数,并在这些参数的基础上建立了线性衰减模型。该模型已经用于分析引起流行病的原因和特征,预测哪些区域未来可能爆发流行病8。第3章 决策树分类算法第3章 决策树分类算法3.1 决策树算法综述决策树算法(Decision Tree Algorithm)是用于分类和预测的主要算法,它通常从一组无规则的事例推理出以决策树形式表达的分类规则,利用自顶向下的递归方式,不断在决策树内部节点进行属性值比较,根据不同属性判断是否从该节点向下分支,并在决策树的叶结点得到结论。所以,从根节点到叶结点对应着一条分类规则,一整棵树就对应了一组表达式规则。决策树算法的一个最大优点就是它在学习过程中不需要获取很多背景知识,只要训练样本能用属性加结论的方式表达出来,就能用决策树算法进行学习9。决策树算法中经典算法有ID3、C4.5、C5.0和CART算法等,决策树分类模型有如下优点:(1) 结构简单,容易理解;(2) 处理效率高,适用于处理大数据;(3) 通常不需要接受训练集以外的数据;(4) 分类精度较高。 ID3算法之所以是一种经典的决策树算法,是因为它从根节点开始,给予根节点一个最好的属性。随后对该属性的每个取值都生成相应分支,每个分支上又生成新节点。关于最好属性的选择标准,ID3采用信息熵定义的信息增益来选择内节点的测试属性,熵(Entropy)刻画了任意样本集的混乱度。ID3算法存在的缺点:(1) ID3算法在选择根节点和内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多是属性,在有些情况下这类属性可能不会提供太多有价值的信息;(2) ID3算法只能对描述属性为离散型属性的数据集构造决策树。C4.5算法之所以是最常用的决策树算法,是因为它继承了ID3算法的所有优点并对ID3算的进行了改进和补充。C4.5算法采用信息增益率作为选择分支属性的标准,克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足,并能够完成对连续属性离散化是处理,还能够对不完整数据进行处理。C4.5算法属于基于信息论(Information Theory)的方法,它是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。C5.0算法与C4.5算法相同,也是基于增益率来构造的,同样是ID3算法的扩展。不同之处是C5.0算法作为C4.5算法的修订版,又进行了一些改进,使得运行效率更高,占用计算机内存更少,更适合于处理大数据集10。CART算法是决策树算法中的一种,基本理论与C4.5算法类似,也是一种比较经典的决策树算法。它采用二分递归分割技术,把样本分为两个子集样本,依次进行,使得决策树的每个非叶子节点都派生出两个分支。CART算法最终生成的决策树就是结构简单的二叉树结构了。3.2 C4.5分类算法原理C4.5分类算法是以信息增益率为指标进行决策树分类的,设S为s个样本的集合,假设类标号Ci(i=1,2,,m)具有m个不同的取值,而si是Ci类中的样本数目,则一组样本数据的总信息值定义如公式(3-1): (3-1)其中,pi是任何一个样本属于Ci的概率,用si/s来估计。设属性A有a1,,av共v个取值;其中sj表示S中属性A取值为aj的样本数目,如果取A作为测试属性,则可以设sij是属性值取aj的样本中类别为Ci的样本数,|S|表示总的样本数目。那么根据属性A划分的子集的熵值可以用公式(3-2)表示: (3-2)那么属性A的信息增益可以用公式(3-3)表示为: (3-3)则属性A对应的拆分信息(SplitInfo)可以用公式(3-4)来表示: (3-4)其中|Si|表示S中属性A的取值为ai的样本数目。如此一来,属性A的信息增益率GainRatio可以用公式(3-5)表示: (3-5)按照上述过程依次计算出所有属性的信息增益率,然后取信息增益率最大的属性作为根节点划分属性向下派生分支,然后对派生的分支再依次计算剩余属性中信息增益率最大的属性作为该节点下一轮派生分支的划分属性,如此进行下去,直到所有当前节点内的样本都属于同一类时,得到一个完整的决策树,终止迭代计算11。第4章 数据预处理第4章 数据预处理4.1 数据来源本次课题选取的数据为美国国家人口普查局(U.S. Census Bureau)于2000年3月7日捐赠给加州大学欧文分校著名机器语言学习网站:/ml/datasets.html的人口与收入统计数据。数据分为1994年和1995年,共计有199523个数据样本,每个样本有45条属性,样本数量接近20万之多,属性信息也非常丰富,而且其中包含了9条空间信息,适合于本次课题的研究。样本分类的类别标志为个人年收入是否超过5万美元,通过C4.5算法的分析计算,致力于对影响人们收入的属性数据按影响力的大小进行排序,从而为预测、提高人们的收入以及描述收入的空间分布提供参考。4.2 数据属性值的选取与特殊样本的剔除由于样本量过于庞大,导致计算机在处理过程中效率十分低下,以及一些属性信息对本次课题的主题联系不大,所以不得不从45条属性中删除大部分属性。首先本课题的研究以空间数据为主,所以是否保留属性有两个原则:第一是与空间数据信息的相关性,第二是是否有利于进一步优化数据并帮助分类。根据这两个原则,我选择了父亲的出生国,母亲的出国,本人的出生国, 本人的国籍,本人是否在过去一年搬过家,本人是否有过在大都市区或非大都市区之间的迁移经历,具体是从哪种区迁到哪种区等等空间数据属性用于决策树分类以及分类后在空间上展示分类结果;年龄,学历水平,工种,所在行业及一年中工作的周数这5种属性数据也被保留了下来用作数据的优化与分类;个人年收入是否大于5万美金作为分类的结果的标签。首先因为1994年和1995年的数据在很大程度上具有重复性,且1995年数据缺失大量的搬家信息,因此决定只使用1994年的数据,这样既可以提高计算机的运行速率,减轻计算机的内存负担,也可以确保搬家信息的有效性。另外年龄低于18岁或者还在上学阶段的样本对象要剔除,因为他们绝大多数没有固定收入,故收入一定低于5万美元,不受空间位置或学历等的影响。另外年龄大于65的人口也要剔除,他们大部分人收入低于5万美金,原因是已经退休,每年的工作周数基本为零,他们收入低通常也不是空间位置等因素造成的。另外就是直接对样本对象每年工作的周数进行判别,如果每年工作的周数少于等于26周(其实绝大多数工作周数少于26周的人的工作周数都集中在0周到4周),即一年中一半以上的时间都没有参加工作,那么收入低于5万美元一年更可能是由于没有工作(比如家庭妇女在家里负责照顾家庭不外出工作,以及年龄较大或较小的人只偶尔做兼职或完全不工作这些情况),而不是因为空间因素的影响。属性列的剔除比较简单,在Excel表格中可以直接选中一个属性列删除即可。而样本的剔除由于数量庞大,需要自己编程通过遍历和判断来依次删除。 4.3 数据缺失值处理与字符串的数值化考虑到MATLAB自带函数在处理数据上的简便性,本次课题使用MATLAB编程实现C4.5算法。由于MATLAB处理矩阵时,数字矩阵识别度和处理能力更强,而原始数据中大都为字符串数据,因此需要将字符串数据自己编码转换成数字。首先是关于出生国属性的编码,由于该属性有多达43个属性值,处理起来过于繁杂,且没有必要划分如此详细,本课题将其划分为4类如表4-1所示:表4-1 出生国情况分类表 国别美国本土 发达国家 发展中国家 最不发达国家 代码 0 1 2 3划分的依据是联合国开发计划署(UNDP)2010年11月4日发布的2010年人文发展报告。其中归入发达国家的国家或地区有美国,美国本土外的关岛,波多黎各,维京群岛等,加拿大,英国,德国,法国,荷兰,波兰,意大利,希腊,苏格兰,匈牙利,爱尔兰,韩国,香港,台湾,日本等等;归入发展中国家的有中国,墨西哥,越南,菲律宾,印度,古巴,波多黎各,泰国,秘鲁,哥伦比亚,巴拿马,洪都拉斯,多米尼加共和国,特立尼达和多巴哥尼加拉瓜,厄瓜多尔,萨尔瓦多,南斯拉夫等等;归入最不发达国家的是海地,柬埔寨,老挝等等。接着是对个人国籍5种情况的编码,这5种情况有:土生土长美国人(AA);外国出生的外国人(FF);父母美国人在外国出生的美国人(FA);父母是美国人出生在美国本土外领土如波多黎各,关岛等地的美国人(OALA);父母外国人移民到美国来的美国人(PFFA)。编码情况见表4-2:表4-2 国籍情况分类表 国别AAFFFAOALA PFFA 代码 0 1 2 3 4然后是对人口迁移情况的编码,把从大都市区迁往非大都市区(msa2nonmsa),非大都市区迁往大都市区(nonmsa2msa),同类地区之间迁移(same2same),没有迁移(nonmover)分为4类编码,如表4-3所示:表4-3 人口迁移情况分类表 国别msa2nmsanmsa2msasame2samenonmoverabroad2msaabroad2nmsa 代码0 1 23 4 5有部分样本的该属性值缺失,显示为“?”,由于这些数据比例极小,并且C4.5算法可以识别缺省值,所以可以不用处理。对于学历情况,共有17种属性值,过于繁琐,于是将其划分为4类,编码情况如表44-4所示:表4-4 学历情况分类表 国别0-11年级其他本科本科以上 代码 0 1 2 3对于工种,原始数据中共有多达47种属性值,数目太多,不利于生成较为简明的决策树,并且容易导致过拟合,所以将47种属性值分为了6个大类,其中第六类军方人员由于占总人口比例过低(不足0.2%),所以在分类中直接舍去。编码分为5类如表4-5所示:表4-5 工种情况分类表 国别服务类行政管理类技术类专家类农业类 代码 0 1 2 3 4对于行业属性,共有8个属性值,将其中在联邦政府、州政府、地方政府工作并为一类:政府工作。得到行业属性值分类如表4-6所示:表4-6 行业情况分类表 国别政府个体经营未工作私营业主 志愿工作自由职业 代码 0 1 2 3 45对于美国的分区属性,共划分为5个区域,分为东北、东南、西北、西南和中西部,编码情况如表4-7所示:表4-7 美国分区情况分类表 国别东北部中西部西北部西南部东南部 代码 0 1 2 3 4年龄作为连续变量处理,性别男性用0编码,女性用1编码。至此,分类运算过程中所有需要的属性均已编码。第5章 决策树分类结果与讨论第5章 决策树分类结果与讨论5.1 决策树分类结果数据预处理后,使用MATLAB编程实现C4.5算法。经实验,自己的程序调试通过之后,只取空间信息进行分类,得到的分类结果与预期结果差异较大,分类直接将所有样本的收入类别归入低于5万美金的类,数据集中的空间信息对分类没有做出贡献,因此只能推测,本数据集所含的空间类信息对居民的收入影响不强,起码达不到预测个人年收入是否大于5万美金的影响力。于是通过实验筛选出数据集中其他与收入关系更紧密的普通属性数据:例如年龄、性别、学历、年工作周数、工种等属性来对样本进行分类,以期获得一个可以预测收入的分类模型,结果成功地完成了分类。分类所得的结果如下:work-weeks 38| age 31| | sex = -Male| | | education = -low-level: -50000 (1944.0/109.0)| | | education = -Bachelors-degree(BA-AB-BS)| | | | industry-code = -Not-in-universe: -50000 (51.0/12.0)| | | | industry-code = gov| | | | | age 46| | | | | | occupation-code = -Not-in-universe: -50000 (0.0)| | | | | | occupation-code = -Professional-specialty| | | | | | | age 54: +50000 (31.0/14.0)| | | | | | occupation-code = service: +50000 (22.0/8.0)| | | | | | occupation-code = -Farming-forestry-and-fishing: -50000 (0.0)| | | | | | occupation-code = admin: +50000 (76.0/33.0)| | | | | | occupation-code = Technician: -50000 (7.0/1.0)| | | | | | occupation-code = -Armed-Forces: -50000 (0.0)| | | | industry-code = -Never-worked: -50000 (0.0)| | | | industry-code = -Private| | | | | occupation-code = -Not-in-universe: -50000 (0.0)| | | | | occupation-code = -Professional-specialty| | | | | | age 33| | | | | | | work-weeks 51: +50000 (348.0/153.0)| | | | | occupation-code = service: -50000 (439.0/181.0)| | | | | occupation-code = -Farming-forestry-and-fishing: -50000 (20.0/3.0)| | | | | occupation-code = admin| | | | | | age 36: +50000 (535.0/201.0)| | | | | occupation-code = Technician: -50000 (271.0/76.0)| | | | | occupation-code = -Armed-Forces: -50000 (0.0)| | | | industry-code = -Self-employed-incorporated| | | | | occupation-code = -Not-in-universe: +50000 (0.0)| | | | | occupation-code = -Professional-specialty: -50000 (30.0/12.0)| | | | | occupation-code = service: +50000 (90.0/28.0)| | | | | occupation-code = -Farming-forestry-and-fishing: -50000 (14.0/7.0)| | | | | occupation-code = admin: +50000 (108.0/37.0)| | | | | occupation-code = Technician: -50000 (25.0/4.0)| | | | | occupation-code = -Armed-Forces: +50000 (0.0)| | | | industry-code = -Self-employed-not-incorporated: -50000 (292.0/82.0)| | | | industry-code = -Without-pay: -50000 (2.0)| | | education = middle-level: -50000 (7994.0/1263.0)| | | education = high-level| | | | occupation-code = -Not-in-universe: -50000 (82.0/33.0)| | | | occupation-code = -Professional-specialty| | | | | industry-code = -Not-in-universe: +50000 (0.0)| | | | | industry-code = gov| | | | | | age 42: +50000 (248.0/106.0)| | | | | industry-code = -Never-worked: +50000 (0.0)| | | | | industry-code = -Private| | | | | | age 33: +50000 (579.0/229.0)| | | | | industry-code = -Self-employed-incorporated: +50000 (111.0/16.0)| | | | | industry-code = -Self-employed-not-incorporated: +50000 (176.0/56.0)| | | | | industry-code = -Without-pay: +50000 (0.0)| | | | occupation-code = service: -50000 (394.0/121.0)| | | | occupation-code = -Farming-forestry-and-fishing: -50000 (52.0/6.0)| | | | occupation-code = admin| | | | | work-weeks 50| | | | | | age 35| | | | | | | industry-code = -Not-in-universe: +50000 (0.0)| | | | | | | industry-code = gov| | | | | | | | age 45: +50000 (106.0/31.0)| | | | | | | industry-code = -Never-worked: +50000 (0.0)| | | | | | | industry-code = -Private: +50000 (417.0/135.0)| | | | | | | industry-code = -Self-employed-incorporated: +50000 (67.0/18.0)| | | | | | | industry-code = -Self-employed-not-incorporated: -50000 (51.0/23.0)| | | | | | | industry-code = -Without-pay: +50000 (0.0)| | | | occupation-code = Technician: -50000 (516.0/111.0)| | | | occupation-code = -Armed-Forces: +50000 (1.0)| | sex = -Female: -50000 (13155.0/1033.0)该分类结果的解读方法如下(以前6行为例):work-weeks 38| age 31| | sex = -Male| | | education = -low-level: -50000 (1944.0/109.0)(1) 如果一年中工作周数小于等于38周,则个人年收入归入低于5万美金;(2) 如果一年中工作周数大于38周,则继续判断年龄属性;(3) 如果年龄小于等于31岁,则个人年收入归入低于5万美金;(4) 如果年龄大于31岁,则继续判断性别属性;(5) 如果性别为男性,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论