版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于决策树剪枝的两点探讨杨龙平【摘要】数据挖掘中的决策树方法可以很好地实现对数据的分类,并根据生成的决策树模型,为决策者提供决策参考。但在创建决策树模型时,要避免两个主要的问题:一是预防决策树过于庞大;二是防止决策树的过匹配。本文通过两种简单的方法实现对决策树的预先剪枝。【关键词】决策树信息增益属性剪枝【作者简介】杨龙平,男,柳州运输职业技术学院信息工程系教师。广西柳州,545007数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,使用这些模型和关系可以进行预测,它帮助决策者寻找数据间潜在的关联,发现被忽略的因素,因而被认为是解决当今时代所面临的数据爆炸而信息贫乏问题的一种有效方法。数据挖掘的方法有很多种,其中有一种方法是决策树方法。如何创建一个有效而合理的决策树,是很多专家长期以来一直探讨的问题。而充分合理地利用预先剪枝可以从很大程度上降低决策树计算的复杂度。决策树概述决策树是一个类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,而每一个树叶结点代表类或类分布。树的顶层是根结点。一颗典型的决策树结构如图1所示。内部结点用矩形表示,而树叶结点用椭圆表示。为了对未知的样本分类,样本的属性值在决策树上测年龄年龄学生≦30否否是是31~40是信贷>40否高是低图1决策树模型当决策树创建时,由于数据中的噪声和孤立点,许多分枝反映的是训练集中的异常,同时对最终要拿给人看的决策树来说,在建立过程中让其生长的枝繁叶茂是没有必要的,这样既降低了树的可理解性和可用性,同时也使决策树对历史数据的依赖性增大,也就是说,这棵树对当前的样例数据可能非常准确,一旦用到新的数据时准确性急剧下降,我们称这种情况为训练过度。为了使得到的决策树所蕴涵的规则具有普遍意义,必须防止训练过度,这样也减少了训练时间,因此必须对决策树进行剪枝。剪枝是一种克服噪声的基本技术,同时它也能使决策树得到简化而变得更容易理解。在收集到的这些毕业生数据中,并不是完美的,有些数据表中的字段并不一致,有些字段和课题的关系并不紧密,还有些数据并不准确、甚至含有噪音。由于基本的决策树构造并不考虑噪声,因此,生成的决策树完全与训练例子拟合。在有噪声情况下,完全拟合将导致过分拟合,即对训练数据的完全拟合反而使现实数据的分类预测性能下降。剪枝有两种基本的策略:预先剪枝和后剪枝。从理论上讲,后剪枝好于预先剪枝,但计算复杂度大。目前的决策树有很多种算法,最为常用的是ID3和C4.5算法,它们可以分别处理离散的信息和非离散的信息。关于预先剪枝的两点探讨ID3算法的基本思想是贪心算法,采用自上而下的分而治之的方法构造决策树。首先检测训练数据集的所有特征,选择信息增益最大的特征A建立决策树根节点,由该特征的不同取值建立分枝,对各分枝的实例子集递归,用该方法建立树的节点和分枝,直到某一子集中的数据都属于同一类别,或者没有特征可以在用于对数据进行分割。ID3算法总是选择具有最高信息增益(或最大熵压缩)的属性作为当前结点的测试属性。该属性使得结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。这种信息理论方法使得对一个对象分类所需的期望测试数目达到最小,并尽量确保一棵简单的(但不必是最简单的)树来刻画相关的信息。在ID3算法中,计算信息增益时,由于信息增益存在一个内在偏置,它偏袒具有较多值的属性,太多的属性值把训练样例分割成非常小的空间。因此,这个属性可能会有非常高的信息增益,而且被选作树的根结点的决策属性,并形成一棵深度只为一级但却非常宽的树,这棵树可以理想地分类训练数据。但是这个决策树对于测试数据的分类性能可能会相当差,因为它过分地完美地分割了训练数据,不是一个好的分类器。解决此类问题最好的方法是对属性值进行分类,以减少其取值的数量。比如,某学院的专业数量有20多个,为了降低模型的复杂度,在进行数据处理时,对各专业按照其性质进行分类,可以有效地减少属性的取值,从而降低模型的复杂度。假设有表格数据如表1所示。姓名性别专业名称成绩班干否英语水平计算机水平综合能力工资待遇专业对口否主观意愿行业发展就业否何石竹103022231130罗幼才204132331030王天麟112021220131赵远威132021121131杨飞114033221130甘奇冬102022131131黄隆邦143022231130李懿104032221030李勇154032331130刘影101011131131马少柳251111131131张葵102022221130表1处理后的属性的取值表理想的决策树分为3种:①叶结点数最少;②叶子结点深度最小;③叶结点数最少,且叶子结点深度最小。决策树的好坏,不仅影响了分类的效率,而且影响分类的准确率。根据信息熵的计算公式,有如下的结果:=0.00005,=0.025291=0.031285,=0.003524=0.096703,=0.107777,=0.255758,=0.047532=0.039567,=0.078395=0.0482851.将信息增益值很小的属性忽略为了减少决策树的深度和叶结点数,在计算信息熵的过程,可以将熵值很小的属性忽略。在第一次计算信息熵的时候,“性别”属性的增益值为0.00005,比最小的信息增益值0.003524还小差不多100倍,因此,在以后的计算过程中,可以不再对“性别”属性计算增益,这样一方面可以减少计算的工作量,另一方面,可以有效地防止创建一棵庞大的决策树。2.引入替代错误率决策树停止的条件有三个:给定结点的所有样本属于同一类;没有剩余属性可以用来进一步划分样本;分支的测试属性没有样本。但是,在计算过程中,对子树的某个分支上继续划分子集时,虽然所有的样本并不属于同一类,但是不同类别的记录数如果相差很大时,可以引入错误替代率公式:(2-1)其中,表示分支的记录数,表示该分支中多数类别的记录数,表示训练集的记录总数。利用该公式计算的值,如果小于0.5%,则将子树转换为叶结点,从而可以预防决策树的过匹配问题。例如,有一个“主观意愿”属性作为子树的根结点,设它有两个属性值0和1,如果继续进行测试,则将0和1作为分支进行划分子集。假设对0分支划分子集时,若所有的子集并不属于同一类,如果有14个0(未就业),有1个1(成功就业),则可以通过上面的公式计算错误替代率(如果总记录数为500条),小于预定的值,因此将0分支转换为叶结点,该叶结点的类别为0。经过实践证明,可以通过使用以上的两种相对简单的方法,将会大大减少计算的复杂度,而且可以减少决策树的复杂度,并且对决策树的预测准备度也影响很小。参考文献[1]张云涛等.数据挖掘原理与技术[M].北京:电子工业出版社,2004.4[2]毛国君,段立娟等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.7[3]陈文伟.智能决策技术[M].北京:电子工业出版社,1998.6[4]王志海,林友芳等.W.H.Inmon.数据仓库[M].北京:机械工业出版社,2003.3[5]HanJiawei,KamberM.数据挖掘概念与技术[M].范明,盂小峰译.北京:机械工业出版社,2001.8[6]AdamDrozdek.数据结构与算法(java语言版)[M].周翔,王建芬等译.北京:机械工业出版社,2003.7
企管培训资料经营决策条件分析一.企业外部环境分析企业的外部环境是指“存在于企业之外,对企业的生存和发展产生决定性影响的各种因素的总和。”企业外部环境主要包括企业的宏观环境、微观环境两部分。(一)宏观环境分析企业的宏观环境,是指企业所面对的其所在产业外的宏观环境,是企业的间接环境因素。它主要包括经济环境、政治法律环境、社会人文环境、科学技术环境和国际环境等。1.经济环境。它主要指一个国家的经济制度、经济结构、产业布局、资源状况、经济发展水平以及未来的经济走势。2.政治、法律环境。它主要指对企业经营活动具有实际与潜在影响的政治力量和有关的法律法规等因素的总称。3.社会人文环境。它主要指企业所在社会中成员的民族特征、人口统计特征、文化传统、价值观念、宗教信仰、教育水平以及风俗习惯等因素。社会人文环境直接影响着居民的消费结构和偏好,强烈地影响着人们的购买决策和企业的经营行为。4.科学技术环境。它不仅包括那些引起时代革命性变化的发明,而且还包括与企业生产有关的新技术、新工艺和新材料的出现和发展趋势以及应用前景。5.国际环境。经济全球化作为不可逆转的进程,使得世界各国经济愈益相互开放和融合。从世界经济联系的范围和广度看,经济全球化囊括了世界所有的国家和地区,无论发达国家还是发展中国家都无法回避,任何一个国家都成为世界市场的一部分。在这个大背景下,企业管理者应十分关注全球范围内的环境机会和威胁的战略分析。一方面,企业应正确确定自己在经济全球化进程中的位置,以此为前提,制定企业的全球战略;另一方面,也要充分认识国际跨国集团在世界内建立市场的形势,努力做到准确定位,充分发挥自己的优势和克服自己的劣势,在与跨国集团的竞争和合作中,不断提升竞争力,维持自己的生存和争取更好的发展。(二)微观环境分析企业微观环境是从个别企业视角来观察、分析其竞争对手竞争实力的分析。对竞争对手的分析有三种诊断因素:未来目标、现行战略、假设。1.未来目标.分析与了解竞争对手的竞争目标,有利于预测竞争对手对其自身定位及检测财务成果的满意度,有助于推断竞争对手改变竞争战略的可能性及对其他企业战略行为的反应程度。竞争对手未来目标的关键问题主要包括了:竞争对手追求的市场地位总体目标;竞争对手各管理部门对未来目标是否取得一致性意见;竞争对手的当前财务目标及未来财务目标;竞争对手的核心领导的个人行为对整个企业未来目标的影响。2.现行战略.对竞争对手现行战略的分析,目的是观察竞争对手正在做什么以及能够做什么,对竞争对手作分析,主要包括了三个关键性的问题:竞争对手的研发能力如何和投资能力如何;竞争对手的市场占有率如何以及采取什么样的销售方式和促销策略;竞争对手的产品价格如何制定以及在产品设计、要素成本和劳动生产率等因素中哪些对产品成本影响较大等等。3.假设.它包括竞争对手自身企业的假设和所处行业及其他公司的假设。自我假设是企业各种行为取向的最根本的原因。但是,对竞争对手作出分析也是重要的,竞争对手的自我假设包含了几个关键性的问题:竞争对手如何估计同产业中的其他企业的潜在竞争能力;竞争对手如何看待自己在战略方面的优势和劣势;竞争对手如何预测产品的未来需求和产业的发展趋势及其预测依据是否可靠;是否有影响竞争对手对其他企业的战略行为看法的严密的组织准则或法规或某种强烈的信条。二.企业内部条件分析企业在制定经营决策时,不仅要考虑企业所处的外部环境,而且还要知己,即对企业自身的内部条件和能力加以正确的估计。所谓企业的内部条件是指企业能够加以控制的内部因素。企业内部环境或条件是企业经营的基础,是企业制定经营目标和经营决策的出发点、依据和条件,是竞争取胜的根本,对企业的内部条件进行分析,其目的在于掌握企业目前的状况,明确企业所具有的长处和弱点,以便使确定的目标能够实现,并使选定的经营活动能发挥企业的优势,有效的利用企业的资源;同时对企业的弱点,能够加以避免或采取积极改进的态度。企业内部条件分析包括以下内容:第一,基本情况分析。包括企业领导状况、企业经营目标与经营方针、长远计划、企业改造、经营组织等等。第二,生产分析。包括生产概况、生产计划、工序管理、作业管理、质量管理、搬运管理、设备、动力管理等等。第三,销售分析。包括市场调查及情报工作、销售计划、产销衔接、销售渠道、销售策略等等。第四,科技分析。包括有科技人员结构及分布使用情况、科技手段、科技开发、科技工作组织等等。第五,财务分析。包括对企业的收支、决策的经济评价、财务管理等方面的问题。企业内部条件分析的主要内容是以上几个方面,但是企业并不是经常进行全面的分析,企业内部条件的分析应该有重点,我们认为企业内部条件分析的重点是产品、市场和财务。产品分析是为了产品品种决策,市场分析是为了销售决策,而财务分析是为了财务决策,同时也是产品和市场在经济上的反映,三者是密不可分的。(一)产品分析产品分析主要是对产品的现状进行分析、评价,并做出预测。具体的分析如下:1.竞争能力分析.竞争能力是综合性指标,它包括的内容视产品而定。可从产品的竞争性强弱、价格、成本、质量、服务、信誉六个方面入手。竞争性强弱是指一种产品有多少与它的用途、功能相同或相似但又不是同类的竞争产品。一般竞争性越强,对企业的生产经营越不利;价格和成本分析,主要是确定其现状,预测其发展趋势,并用预测和现状作比较。这两项分析的目的是与同行业作比较,看自己企业产品在同行业中价格和成本是否占优势;质量、服务、信誉主要是比较本企业产品在同行业中的地位,通过质量、服务、信誉的分析以确定本企业产品在同行业中的地位。2.销售增长率或产品所处寿命周期位置分析销售增长率是销售增长额与基准期销售额之比。销售增长率和产品所处的寿命周期是一致的。企业的产品一般都经历了这样四个时期,各个时期的决策是不一样的,投放期主要是宣传、改革产品;成长期是扩大产品的影响;成熟期大量销售,并进一步判断是否接近饱和点;衰退期主要考虑淘汰或改进产品,这种分析是很重要的。3.市场容量分析.市场容量是指市场需求量,它取决于产品的市场面和各类用户的需求数量。它对于企业增加销售,扩大生产规模的决策有很大影响。一般来说,产品适应性大,服务面广,市场容量就大;反之,市场容量则偏小。4.市场占有率分析.市场占有率是指企业某种产品销售额占该种产品全部市场销售总额的比重。这个指标综合地反映了本企业产品在市场上的竞争能力。(二)市场分析市场分析主要分析企业产品市场面分布情况及其发展变化趋势以及产品在有关市场的竞争情况。分析所提供的资料是企业制定经营决策、销售策略的重要依据。市场分析主要有以下几个方面的内容:1.市场面分布分析.运用市场细分法可以获知企业产品市场面分布现状。通过比较分析近几期的资料,还可以找到市场各类用户的发展变化情况,市场面分布分析,主要目的是看企业产品的销售市场主要是哪些?有无变化?等等。2.价格变动对需求影响程度分析.产品需求与价格水平有关,但是其敏感程度不同。为了制定正确的价格政策,通常用试销或临时调整价格办法进行侦察、试探来了解它们之间的影响关系。3.开辟新市场分析.当企业准备把产品投入新市场时,需要对该市场的情况详细分析,要分析市场可能的用户及市场容量,竞争对手占领该市场所用策略及其产品销售情况,本企业产品与竞争对手的对比,可以选择的销售渠道及所需条件,进入该市场的其它各种障碍等。(三)财务分析为了弄清企业生产经营效果的现状,必须对企业的财务状况进行分析,财务分析主要是分析企业的盈利能力。常见的衡量财务状况的指标有以下几个:1.收益性指标.分析收益性指标,目的在于观察企业一定时期的收益及获利能力,主要指标有资产报酬率、所有者权益报酬率、市盈率、销售利润率、毛利率及净利率等指标。2.安全性指标.安全性指的企业经营的安全程度,也可以说是资金调度的安全性。分析安全性指标,目的在于观察企业在一定时期内的偿债能力,主要指标有流动比率、速动比率、资产负债率等指标。3.流动性指标.分析流动性指标,目的在于观察企业在一定时期内资金周转情况,掌握企业资金的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临床护理社区护理服务模式
- 2026四川南充市莲池幼儿园自主招聘2人考试参考题库及答案解析
- 2026年江西生物科技职业学院单招职业技能考试题库及答案解析
- 2026泰安聚智人力资源有限公司招聘项目外包人员9人考试备考试题及答案解析
- 2026年甘肃甘南临潭县新城镇东街小学招聘考试参考题库及答案解析
- 2026西安曲江第九小学教职工招聘考试参考试题及答案解析
- 三基护理技能竞赛指导
- 2026年库车市柔性引进高层次和急需紧缺人才(66人)笔试模拟试题及答案解析
- 2026广东中烟工业有限责任公司招聘员工160人考试备考试题及答案解析
- 教学主张让课堂生长成树
- JGJ82-2011 钢结构高强度螺栓连接技术规程
- 变化点管理培训课件
- 2024-2024年同等学力计算机综合真题答案解析
- 电子商务客户服务课件
- 农村妇女法律知识讲座
- 《物流信息技术与信息系统》第7章POS
- 父母会说话孩子才听话
- 质量环境职业健康安全管理体系培训
- 中华文化与传播教材课件
- 《材料物理性能》配套教学课件
- 眼科OCT异常图谱解读
评论
0/150
提交评论