Clementine决策树CHAID算法_第1页
Clementine决策树CHAID算法_第2页
Clementine决策树CHAID算法_第3页
Clementine决策树CHAID算法_第4页
Clementine决策树CHAID算法_第5页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、CHAID算法(Chi-SquareAutomaticInteractionDetection)CHAID提供了一种在多个自变量中自动搜索能产生最大差异的变量方案。不同于C&R树和QUEST节点,CHAID分析可以生成非二进制树,即有些分割有两个以上的分支。CHAID模型需要一个单一的目标和一个或多个输入字段。还可以指定重量和频率领域。CHAID分析,卡方自动交互检测,是一种用卡方统计,以确定最佳的分割,建立决策树的分类方法。1. CHAID方法(卡方自动交叉检验)CHAID根据细分变量区分群体差异的显著性程度(卡方值)的大小顺序,将消费者分为不同的细分群体,最终的细分群体是由多个变量

2、属性共同描述的,因此属于多变量分析。在形式上,CHAID非常直观,它输出的是一个树状的图形。1 .它以因变量为根结点,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或有序变量)进行分类,计算分类的卡方值(Chi-Square-Test)o如果几个变量的分类均显著,则比较这些分类的显著程度(P值的大小),然后选择最显著的分类法作为子节点。2 .CHIAD可以自动归并自变量中类别,使之显著性达到最大。3 .最后的每个叶结点就是一个细分市场CHAID自动地把数据分成互斥的、无遗漏的组群,但只适用于类别型资料。当预测变量较多且都是分类变量时,CHAID分类

3、最适宜。2. CHAID分层的标准:卡方值最显著的变量3. CHAID过程:建立细分模型,根据卡方值最显著的细分变量将群体分出两个或多个群体,对于这些群体再根据其它的卡方值相对最显著的细分变量继续分出子群体,直到没有统计意义上显著的细分变量可以将这些子群体再继续分开为止。4. CHAID的一般步骤- 属性变量的预处理- 确定当前分支变量和分隔值属性变量的预处理:-对定类的属性变量,在其多个分类水平中找到对目标变量取值影响不显著的分类,并合并它们;- 对定距型属性变量,先按分位点分组,然后再合并具有同质性的组;- 如果目标变量是定类变量,则采用卡方检验- 如果目标变量为定距变量,则采用F检验(统

4、计学依据数据的计量尺度将数据划分为三大类,即定距型数据(Scale)、定序型数据(Ordinal)和定类型数据(Nominal)。定距型数据通常指诸如身高、体重、血压等的连续性数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以数值或字符表示。如职称变量可以有低级、中级和高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A、BC表示等。这里无论是数值型的1、2、3还是字符型的A、B、C,都是有大小或高低顺序的,但数据之间却是不等距的。因为低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的;

5、定类型数据是指没有内在固定大小或高低顺序,一般以数值或字符表示的分类数据。)2sF检验:比较两组数据的方差s2,F=一,假设检验两组数据没有显著差异,F<F表,则接受原假设,两组数据没有显著差异;F>F表,拒绝原假设,两组数据存在显著差异。属性变量预处理的具体策略-如果仅有一个或两个分组,则不做合并处理- 根据卡方统计量(或似然比卡方)的P-值决定合并哪些组(P值口merge)- 如果用户指定在合并同时还考虑组拆分(Allowsplittingmergedcategories),则新近合并的组中如果包括三个以上的原始分组,应根据检验结果判断是否需再拆分成两组(P-值组split-m

6、erge)确定当前分支变量和分隔值- 计算经预处理后的各属性变量与目标变量的卡方检验统计量和P-值。P-值最小的变量(与目标变量联系最紧密)作为当前的最佳分支变量,该变量的所有分组形成该分支下的子节点对每个子节点重复上述处理,直到满足收敛条件为止5. CHAID的适用范围当预测变量是分类变量时,CHAID方法最适宜。对于连续型变量,CHAID在缺省状态下将连续变量自动分为10段处理,但是可能有遗漏。当预测变量是人口统计变量时,研究者可以很快找出不同细分市场特征,免去对交叉分析表归并与检查之苦。6. CHAID的预剪枝基本参数:1 .决策树最大深度:如果决策树的层数已经达到指定深度,则停止生长。

7、2 .树中父节点和子节点所包含的最少样本量或比例:对父节点是指,如果节点的样本量已低于最少样本量或比例,则不再分组;对于子节点是指,如果分组后生成的子节点中的样本量低于最小样本或比例,则不必进行分组。3 .当输入变量与输出变量的相关性小于一个指定值,则不必进行分组。7. CHAID模块的优点:- 不像CARTWQUEST1块,CHAID可产生多分枝的决策树- 目标变量可以定距或定类的- 从统计显著性角度确定分支变量和分隔值,进而优化树的分枝过程- CHAID是建立在因果关系的探讨中的,依据目标变量实现对输入变量众多水平的划分例:心脏数据综合诊断数据现有数据OVERALL_DIAGNOSI跺合诊

8、断)本案例是一个医学心脏病综合诊断报告案例,目的通过已知的22个变量F1F22来预测每个病人是否正常。0-正常,1-异常AErDIFCHIJKOVEF.ALLFlF3FlF5F6F7FEF9Fl11i0Q11000121iQQ1L0o0Q31QU01O-1004101i0d1Q151:0L0C01061:01I01D0171100L001LJS1100L0c00J910Q00Qc0:01011n011J00111.1100niQ001二21100011cQ0U110100Q0c。C11q:gu01151100110101161100100101711100111101B1100QOi11001

9、51100t1c:cQ201110101102L1100010c0022110J111LLJ2310IJJ11001J241L101111002511一01101002611L0011100271101L1<1D02811111011LQ291110r11j003010000。00Q3L111ftQ1fl013211L0001I00S3100000口1I0S111Q001QDI0克100110C0-1卡方检验:计数项:3E1H30OVERALL01(空白)总计04S7551ST125212(空白)息计13513Z267P(KA2k)0.500,400.250150.10k0.455D.7

10、0S1.3232.0722.70aP(Km2mK)0.05D.0Z5D.01000050.001K38415,024津6357,8791C.82B(1) 零假设H0:心脏病检验结果与F13变量无关。(F13变量对输出变量无影响)卡方值越大,说明两者有关系可能性越大。(2) 确定自由度:(行数-1)*(列数-1)=1选择显著水平a=0.05,对应的卡方值K为3.841(3) 卡方值=(48*125-87*7)2*267/(55*212*135*132)=37.35>10.828>3.481拒绝原假设。故心脏病检验结果与F13有关。(卡方值为37.35时,对应的P值已趋于0,即“心脏病

11、检验结果与F13有关”成立的概率趋于1-0=100%)建立CHAID模型-在“建模”中选择CHAID节点,将其加入数据流中totalxls分区类型OVERALL_DIAGhOSIS“TYPE节点-"Ranged范围:用来描述数值,如0-100或0.75-1.25范围。一个范围值可以是一个整数,实数,日期/时间。- "Discrete离散:用于不同的字符串数值的确切数目是未知的。这是一个未初始化的数据类型,即对数据的存储和使用的所有可能的信息尚不清楚。一旦数据被读取,类型标志,集,或无类型的,取决于最大集大小属性对话框中指定的流。- “Flag标志:用于具有两个不同值的数据,

12、如Yes和No或1和2的数据。可能是文本,整数,实数,日期/时间数据。注:日期/时间是指三种类型的存储时间,日期或时间戳- “Set”集:用来描述具有多个不同的值的数据,每个被视为一个集的成员,如小型/中型/大型数据。在这个版本的Clementine,一套可以有任何存储数值-字符串或日期/时间。请注意,设置类型设置不会自动改变字符串的值。- "OrderedSet”有序集合:用来描述具有多个不同的值的数据,有一种内在的秩序。例如,工资类别或满意度排名可以分为一组有序。有序集的顺序是指通过其元素的自然排序顺序。例如,1,3,5,是一组整数的默认排序顺序,而高,低,师范大学(升序按字母顺

13、序排列)是一组字符串的顺序。有序的集合类型,可让您定义一组有序数据的可视化,建立模型(C5.0,C&RTree,TwoStep),并扩展到其他应用程序,如SPSS,承认有序数据作为一个独特的类型。此外,任何存储类型(真实的,整数,字符串,日期,时间,等等)的领域都可以被定义为一个有序的集合。- "TypelesS无类型:用于数据不符合任何上述类型的集合类型或包含太多值的集合类型。它是有用于一个集合包含太多值(如帐号)。CHAID“字段”选项目标。对于需要一个或多个目标字段的模型,请选择目标字段。此操作与在类型节点中将字段的方向设置为输出类似。输入。选择输入字段。此操作与在类型

14、节点中将字段的方向设置为输入类似。分区字段。该字段允许使用指定字段将数据分割为几个不同的样本,分别用于模型构建过程中的训练、检验和验证阶段。通过用某个样本生成模型并用另一个样本对模型进行检验,可以预判出此模型对类似于当前数据的大型数据集的拟合优劣。如果已使用类型或分区节点定义了多个分区字段,则必须在每个用于分区的建模节点的字段”选项卡中选择一个分区字段。(如果仅有一个分区字段,则将在启用分区后自动引入此字段。)同时请注意,要在分析时应用选定分区,同样必须启用节点模型选项”选项卡中的分区功能。(取消此选项,则可以在不更改字段设置的条件下禁用分区功能。)使用频数字段。此选项允许选择某个字段作为频数

15、权重。如果训练数据中的每条记录代表多个单元(例如,正在使用聚合的数据),则可采用此项。字段值应为代表每条记录的单元数。使用加权字段。此选项允许选择某个字段作为案例权重。案例权重将作为对输出字段各个水平上方差的差异的一种考量。CHAID“模型”选项- 模型名称指定要产生模型的名称- 使用分区数据若用户定义了此选项,则模型会选择训练集作为建模数据集,并利用测试集对模型评价。利用训练集建立模型,用测试集剪枝。- 方法该节点提供了CHAID和ExhaustiveCHAIDW种方法,后者会花更多时间,但会得到更为可靠的结果ExhaustiveCHAID算法是CHAID的改进算法。它的改进主要集中在如何避

16、免自由度的影响上。在选择最佳分组变量时采用了“将分组进行到底“的策略。也就是说,仍然保留输入变量预处理的结果,并将各分组作为决策树的各分枝。但在计算检验统计量的概率P值时,将继续合并输入变量的分组,直到最终形成两个组或两个“超类”为止,进而确保所有输入变量的检验统计量的自由度都相同。最后,再比较概率P值,取概率P值最小的输入变量为当前最佳分组变量。- 模式生成模型:计算机直接给出最终模型,自动建立和剪枝决策树。启动交互回话:可以逐层建立,修改和删除节点。若同时勾选“使用树指令”,则可以指定任意层节点的分割方式或字节点数,所做设定也可以保存,以供下次建树使用。- 最大树状图深度:用户可以自定义C

17、HAID树的最大层数,避免过度拟合问题。(完整的决策树能够准确反映训练样本集中数据的特征,但可能因其失去一般代表性而无法用于对新数据的分类预测,这种现象称为“过度拟合”现象)CHAID“专家”选项楔式该节点提供简单和专家模式-Alpha用于合并:指定合并的显著水平。若要避免合并,该值应设为1。该选项对于ExhaustiveCHAID无效。默认值为0.05,表示当P值>0.05时,认为输入变量目前的分组水平对输出变量取值没有显著影响,可以合并;否则不能合并。(该值越大,合并的可能性越不容易,树就会越庞大)-Alpha用于分割:设定分割标准。显著水平越低,则树的分叉越少。默认值为0.05,表

18、示当P彳1<0.05时,认为输入变量目前的分组水平对输出变量取值有显著影响,可以分割;否则不能分割。- 卡方用于类别目标:当目标变量时分类变量时,CHAID模型可利用Pearson卡方值或者似然比方法来进行分类。但小样本下不应该使用Pearson卡方值,似然比更为通用和稳健。似然比检验LRTLR=2*(lnL1-lnL2),似然函数L(6)=L(x1,x2,.,xn;0)二口P(不日)节点终止选项。这些选项控制树的构造,设置最小分支数目以避免分割出过小的子群-正在停止使用绝对值,允许用绝对记录数来指定大小/使用百分比,允许按照整个训练集的百分比来指定大小- 父分支()中的最小记录数:表示

19、当父节点中的样本百分比(占总样本量的百分比)低于指定值(默认2%)时则不进行分组。- 子分支()中的最小记录数:表示当分组后产生的子节点中的样本百分比低于指定值(默认1%)时则不进行分组。- Epsilon(8)用于收敛:当卡方值大于Epsilon值时,需进一步迭代;否则停止迭代- 收敛的最大迭代次数:指定收敛的最大迭代次数。当实际迭代次数超过设定值时,终止计算。- 允许分割合并的类别:选中表示,新近合并的组中如果包括三个以上的原始分组,允许将它再拆分成两个组。例如,可以将1,2,3组拆分成1,2和3或是1,2,3。- 使用Bonferroni调整:对策略变量组合进行分类时,根据检验次数调整显

20、著水平,以获得较稳健的分类树CHAID“成本”选项-误判成本值,调整误判(clementine决策树之调整误判成本来优化模型)- 在某些情况下,特定类型的错误比其他类错误所引起的损失更大。成本选项卡允许指定不同类型预测错误之间的相对重要性- 错误归类损失矩阵显示预测类和实际类每一种可能组合的损失。所有错误归类都预设为1,要输入自定义损失值,选择“使用误分类损失”,然后把自定义值输入到损失矩阵中。模型执行结果飞=乩1_.口小口取口印与ll£Pt-Itill卡内1oou旱日工亮蜃立了ID0Q$皿71ncs斤E'jJ1k总计附4弟1普FMMPift-ajuu.E5srmitK-ff

21、l-OOin,kti.i与第瓦dfeiLDO月KPRJg亦H,flfei080il«07NQCiiXi211仙Mw城电另口力叩口8。模型的收益评价目怖茎国一OVERALL_jl义日HOSIS目有生品.0-0调班挥市丽祥布节苴中占n节3烦做矩n的挂隔Put知箱制陶II节百书占n书由惦小筐n片拈冏向应闻佶就常?4Mb210S2SJJ065h5751:299.®-|724R02924HDDOOlOO50X102,2.5092JUD5OD217A113.LMP|y5.DU5BBDDDU口口000U.OU437.002DJ8GOO17141S2284,32422.00-OOD3000

22、2727116.01口11iDDE041DD工口日gag<T.3Tk1DD1口口口non652.002£,57D.I:iO0.000.000.0062£,0034,121.DD5.003.5H.B&1019口口1044DDOaoaaaanon|id400口巴1OD50Q8口口106.25醐.实际031JJ-TotalU.D12,n1?020!530561节点:节点编号,与决策树图形展示中的节点编号相对应。这个号码是CLEMENTIN由动分配的,每次运行时会不同。节点:n:节点包含的样本个数。例如:7号测试节点,总个数为:24.节点():节点包含的样本个数占总样

23、本的百分比。例如:7号测试节点,24/85=28.24%收益:n:节点包含指定类别(这里为0类)样本的个数。高收益的节点应包含尽可能多的指定类别的样本。例如:7号测试节点,“0“类个数为:12收益():节点包含指定类别(这里为0类)的样本占相应类别总样本数的百分比。同样,高收益的节点值应越高。(匹配项)例如:7号测试节点,12/20=60%.响应():节点包含指定类别(这里为0类)样本占本节点样本的比例。例如:7号测试节点,12/24=50%指数():节点包含指定类别(这里为0类)样本的比例(响应)是所有同类别样本占总样本比例的百分比,这个值也称为提升度(lift).或:收益(%)是本节点样本

24、占总样本比例的百分比。例如:7号测试节点,50%/(20/85)=212.50%提升度是数据挖掘中最重要且应用最广的模型评价指标,其定义为lift=P(classt/sample)/P(classt/population)其中,P(clasts/samp)l表示在模型所限定的特定样本空间内输出变量值为t类的概率;P(clas(s/populat)表示在所有样本空间内输出变量值为t类的概率。可见,提升度本质是收益()和响应(%)综合的反应。该值越大说明模型对t类样本所应具备的特征和“捕捉”能力越强,模型的收益越好。制作模型评价图通常按提升度(指数)降序重新排列,然后按百分比点的样本所在节点的累计

25、收益评价数据。片印第.OVER*LL_DIAGIMOSIS利域别:口0节点n1处如回应再1陵叫7wooladd1DIDD2957575D2990?3000丸DO2100r750带i*or"nr75nj24B23噂40007JDO1000NE3和5Ban.aogioc第DO9?97357BUSS95*目GDODmdo”DD4胃49Ji9416g11阴7000127DD3EDD100.QD27501031BOtiDD1«.DO15looon3397IXS66JU9000IMDO1土加10CI.DD2134110.9810IM00192DO3500100.DIW2310000胞武柯事1百廿匕鼓:百日dq玷inJ他CM硒妆行数网71DODeloi口5口口22,505EJ.0D2T2.5CI720100什JOO9j1042jS050.002(1507.9.30002ft12006000«J51例.15Q/400033口110066J6239.30167.U545000心miaoa70.0938港1M.344sornosum口口!dUiQD351g

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论