Correspondence Analysis统计方法课件PPT教案讲义_第1页
Correspondence Analysis统计方法课件PPT教案讲义_第2页
Correspondence Analysis统计方法课件PPT教案讲义_第3页
Correspondence Analysis统计方法课件PPT教案讲义_第4页
Correspondence Analysis统计方法课件PPT教案讲义_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Correspondence Analysis统计方法课件PPT教案讲义 对应分析对应分析目录?关于对应分析?对应分析的应用范围?统计量?应用案例对应分析介绍?在市场研究中经常会使用一些定性变量,例如名义变量或序次变量来反映研究对象的行为、态度等,研究不同性别的消费者对不同品牌的喜好等在市场研究中经常会使用一些定性变量,例如名义变量或序次变量来反映研究对象的行为、态度等,研究不同性别的消费者对不同品牌的喜好等?过去在分析这样的定性变量时,往往使用非线性统计方法,但在每个变量都划分成许多类别的情况下,这些分析方法就很难直观地揭示出变量之间的联系及变量类别之间的关系过去在分析这样的定性变量时,往往使用非线性统计方法,但在每个变量都划分成许多类别的情况下,这些分析方法就很难直观地揭示出变量之间的联系及变量类别之间的关系?对应分析是解决上述问题的较好的方法对应分析定义?对应分析(Correspondence Analysis)是一种多元相依变量(Interdependence)统计分析技术,它通过分析由定性变量构成的交互汇总表(crosstabs)来揭示变量间的联系?对应分析是探索研究分类变量之间关系的一种专用技术,也可认为是分析列联表的一种图示技术。 特别是当分类变量的水平数较大时,它可以将列联表中众多的行和列的关系在低维空间中表示出来分为二元对应分析和多元对应分析。 对应分析输出方式-.5-1.0-.20.0-.2-.4-.6-.8品牌特点海尔三星飞利浦TCL松下LG长虹索尼东芝康佳高档次售后服务好高品质外观设计好物有所值技术含量高国际知名品牌国内知名品牌图1.品牌比较?LG界于国际知名品牌与国产知名品牌之间,与其它国际品牌尚有一段距离?LG的品牌特点不明显,“物有所值”、“外观设计好”是主要特点图2.市场定位-.5-1.0-.50.0-.5-1.0-1.5IneBrandHighMiddleLow广本波罗宝来奥迪夏利别克Dimension1Dimension1Corr.case高中低档车层次分明对应分析的应用?市场细分?寻找目标消费群体;?划分产品的细分市场;?描述各细分市场的人群特征?形象测量?新产品开发?评价广告效果?竞争策略分析?.对应分析的优缺点优点?揭示行变量类别间与列变量类别间的联系?将类别联系直观地表现于图形中?可以将名义变量或序次变量转变为间距变量?定性变量划分的类别越多,这种方法的优势越明显缺点?不能用于相关关系的假设检验?维度要由研究者决定?对极端值敏感对应分析的假设条件?被调查者回答问题时并不都从同一角度(或维度)作出判断被调查者回答问题时并不都从同一角度(或维度)作出判断?所有被调查者对于某一维度重要性的评价不必一样?被调查者的评判角度和看法可以改变这些假设条件也是设计对应分析问卷时应注意之处。 有关统计量 (1)?列联表(contingency table)将行和列的概率(百分比)看成是空间行点和列点的分量,称这些点为行轮廓(row profile)和列轮廓(column profile)?主成份(principal ponents)通过主成份分析,在以两个主成份为坐标轴的空间中,标出行轮廓或列轮廓,或同时标出行、列轮廓,从而探索它们之间的关系。 这种图形叫对应图(correspondence plot)有关统计量 (2)?惯量(inertials)和特征值(eigenvalues)惯量是度量行轮廓和列轮廓的变差的统计量总惯量表示轮廓点的全部变差作图用的是前两个维度分别对应的两个(principal inertials),表示在坐标轴方向上的变差主惯量就是对行轮廓和列轮廓作主成份分析时的特征值,特征值的平方根叫做奇异值(singular values)?卡方(Chi-square)、似然比卡方(likelihood ratioChi-square)是检验对应分析显著性或近似效果的统计量典型案例二元对应分析居住方式与健康状况研究Corr.case1题卡范例非常好好一般差非常差q1Self-reported quality of lifeq2coresidence单独只与配偶与子女Corr.case1Correspondence TableTheCorrespondence Tablebelow issimply thecrosstabulationof the row andcolumn variables,including the row andcolumn marginaltotals,serving asinput.Correspondence Table1472301331170847642029033799505329157624101154818034328530631271103260208323非常好好一般差非常差Active MarginSelf-reportedquality of life单独只与配偶与子女ActiveMargincoresidenceCorr.case1Row ProfilesTheRow Profilesare thecell contentsdivided by their correspondingrow total(ex.,147/1708=.086for thefirst cell).Row Profiles.086.135.7791.00641.00541.000.335.140.5251.000.444.079.4761.0023非常好好一般差非常差MassSelf-reportedquality of life单独只与配偶与子女ActiveMargincoresidenceCorr.case1Column ProfilesTheColumn Profilesare thecell elementsdivided bythe columnmarginals(ex.,147/1271=.116).This tablealso showsthe rowmasses(row marginalsas apercent ofn)(ex.,1708/8323=.205).These areintermediate calculationson theway towardputingdistances betweenpoints.Column Profiles.05.375.407.482.456.397.319.262.290.090.047.030.041.022.005.005.0081.0001.0001.000非常好好一般差非常差Active MarginSelf-reportedquality of life单独只与配偶与子女MasscoresidenceCorr.case1SummaryIn theSummary table below,we firstlook atthe tablechi-square valueand seethat itis significant,justifying theassumption that the twovariables arerelated.SPSS hasputed theinterpoint distancesand subjectedthe distancematrix toprincipal ponentsanalysis,yielding in this casetwo dimensions.Only theinterpretable dimensionsare reported,not thefull solution,which iswhy theeigenvalues(labeled Inertiabelow;these arethe percentof variance explained byeach dimension)add tosomething lessthan100%-in thiscase only.036=3.6%.This reflectsthe fact thatthecorrelation betweenqualityof life andliving arrangement,while significant,is weak.The eigenvaluesreflect therelative importanceof each dimension,with thefirst alwaysbeing themost important,the nextsecond mostimportant,etc.The singular values aresimply thesquare rootsof theeigenvalues.They areinterpreted asthe maximumcanonical correlationbetween thecategories of the variablesin analysisfor any given dimension.Corr.case1SummaryNote thattheProportion ofInertiacolumns arethe dimensioneigenvaluesdivided bythe total(table)eigenvalue.That is,they arethe percentof varianceeach dimensionexplains of the varianceexplained:thus thefirst dimensionexplains95.9%of the3.6%of thevarianceexplainedbythe model.The standarddeviation columnsrefer backto thesingularvalues and helpthe researcherassess therelative precisionof eachdimension.Summary.185.034.959.959.012.012.038.001.0411.000.011.036297.385.000a1.0001.00012TotalDimensionSingularValueInertiaChi SquareSig.AountedforCumulativeProportion ofInertiaStandardDeviation2CorrelationConfidence SingularValue8degrees offreedom.a.Corr.case1Overview Row PointsThe Overview Row Points table below,for eachrow pointin the correspondence table,displays themass,scores in dimension,inertia,contribution of the pointto the inertia of the dimension,and contribution of thedimension to theinertiaofthepoint.To recall:?Mass:the marginalproportions ofthe rowvariable,used toweight thepoint profileswhen putingpoint distance.This weightinghas theeffect ofpensating forunequal numbersof cases?Scores indimension:scores used as coordinatesfor pointswhen plottingthe correspondence map.Each pointhas a score oneachdimension.?Inertia:Variance?Contribution ofpoints to dimensions:as factorloadings areused inconventional factoranalysis toascribe meaningtodimensions,socontributionofpoints todimensionsis used to intuitthe meaningof correspondencedimensions.?Contribution ofdimensions topoints:these aremultiple correlationswhich reflecthow wellthe principalponents modelis explaininganygivenpoint(category).Corr.case1Overview RowPointsOverview RowPointsa.205-.417-.234.007.193.295.939.0611.000.456-.201.177.004.100.375.863.1371.000.290.392-.132.0077.0231.000.0411.218-.051.011.330.0031.000.0001.000.0081.830.992.0043.0571.0001.000.0361.0001.000非常好好一般差非常差Active TotalSelf-reporquality ofMass12core inDimensionInertia12f Pointto InertiaoDimension12TotalDimension to Inertia ofPoContributionSymmetrical normalizationa.Corr.case1Overview Column PointsThe Overview Column Pointstablebelowis similartotheprevious one,except for the columnvariable in the correspondencetable.OverviewColumnPointsa.153.986.106.028.802.045.998.0021.000.124.084-.517.001.005.871.113.8871.000.723-.223.066.007.193.083.982.0181.0001.000.0361.0001.000单独只与配偶与子女Active TcoresidenMass12core inDimensioInertia12f PointtoInertiaDimension12TotalDimension toInertia ofPoContributionSymmetrical normalizationa.Corr.case1Confidence Row&Column PointsTheConfidence RowPoints andConfidence ColumnPoints tablesbelow displaythe standarddeviations oftherowor columnscores(the valuesusedascoordinates toplot thecorrespondence map)and areusedtoassess theirprecision.Confidence RowPoints.038.035-.305.028.025.202.025.022.389.043.047-.318非常好好一般差非常差Self-reportedquality oflif12Standard DeviationinDimension1-2CorrelationConfidence ColumnPoints.038.033-.410.074.072.010.012.011.396单独只与配偶与子女coresidenc12tandard DeviationinDimension1-2CorrelationCorr.case1Transformed CategoriesTheplots oftransformed categoriesfor dimensionsbelow displaya plotofthetransformation oftherowcategory valuesand ofcolumn categoryvalues intoscores indimension,with oneplot perdimension.The xaxis hasthe categoryvaluesandthe yaxis hasthe correspondingdimension scores.Thus thecategoryNortheastin theOverviewRowPointstableabove hadascoreindimensionof1.80,as shownon theplot below.Note thatthere arevarious typesof normalization,a.k.a standardization,not justthe symmetricaloption usedinthisexample.Comparing howdifferent typesof normalizationaffect transformationof categoryvalues intodimension scorescan beinsightful,but thatrequires re-running theanalysis usingdifferent normalizationoptions,not illustratedhere.Corr.case1Transformed CategoriesDimension1&2Transformed Self-reported qualityoflifeCategoriesDimension1&2Transformed Self-reported qualityoflifeCategoriesSymmetrical NormalizationSelf-reported qualityoflife非常差差一般好非常好2.00.0-.5-1.0Symmetrical NormalizationSelf-reported qualityoflife非常差差一般好非常好.-.2-.4Dimension1&2Transformed coresidenceCategoriescoresidenceDimension1&2Transformed coresidenceCategoriesSymmetrical Normalization与子女只与配偶单独.-.2-.4coresidenceSymmetrical Normalization与子女只与配偶单独.2.10.0-.1-.2-.3-.4-.5-.6Corr.case1Row/Column PointsThenext two plots belowthe uniplotsfortherow andcolumn variables.Note thatthe originoftheaxes isslightly differentinthetwoplots.Not alsothat bothplots arebased onsymmetrical normalization.Usuallyuniplots arebased onrow normalizationor columnnormalization,but thatrequires re-running theanalysis usingthese normalizationoptions,not illustratedhere.RowPointsfor Self-reported qualityCategoriSymmetricalNormalizationDimension12.00.0-.5Dimension.-.2-.4非常差差一般好非常好ColumnPointsfor coresidenceSymmetricalNormalizationDimension.4.20.0-.2-.4Dimension-.1-.2-.3-.4-.5-.6一般好非常好Corr.case1Row/Column PointsFinallythe biplotcorrespondencemapis shown.Note theaxes nowenpass themost extremevalues ofboth oftheuniplots.Note thatwhile somegeneralizations canbe madeabout theassociation ofcategories,the researchermust keepfirmly inmind thatcorrespondence isnot association.That is,the researchershould notallow themaps displayof inter-category distancesobscure thefactthat,for thisexample,themodelonly explains3.6%ofthevariance inthecorrespondencetableCorr.case1Row and Column PointsRowandColumnPointsSymmetrical NormalizationDimension12.00.0-.5Dimension.6.4.2-.0-.2-.4-.6coresidenceSelf-reportedquality oflife与子女只与配偶单独非常差差一般好非常好Corr.case1典型案例1二元对应分析电信卡类业务研究Corr.case2题卡范例电视广播报纸户外广告朋友家人/同事介绍q1获得的渠道q2更希望的渠道电视广播报纸户外广告朋友家人/同事介绍Corr.case2列联表Correspondence Table481314719101918781153148953392351078539644435373309190888380114555电视广播报纸户外广告/朋友家人同事介绍Active Margin获取的渠道获取的渠道电视广播报纸户外广告户外广告朋友家/人同事介绍人同事介绍ActiveMargin更希望的渠道Corr.case2统计量Summary.210.044.614.614.020.275.889.042.089.008.1111.000.001.000.0001.000.07239.8261.000a1.0001.0001234TotalDimensionSingularValueInertiaChiSquareSig.AountedforCumulativeProportion ofInertiaStandardDeviation2Corre-lationConfidenceSingular Value121degrees offreedom.a.Corr.case2对应分析图0.0-.5-1.0.4.2-.0-.2-.4-.6更希望的渠道获取的渠道朋友家人/同事介绍户外广告报纸广播电视朋友家人/同事介绍户外广告报纸广播电视Dimension1电视、广播和朋友家人/同事介绍是现有传播渠道中人们更希望的了解信息的渠道Corr.case2典型案例2二元对应分析92年美国总统大选分析案例说明?92年的美国大选早已尘埃落定,大家都知道是克林顿击败了老布什和佩罗当选总统,那么,不同教育程度的选民其倾向性如何?SPSS自带数据集vote.sav是一部分抽样数据,本案例就此进行对应分析。 ?共有1847个样本。 变量解释?候选人(pres92)1.Bush2.Perot3.Clinton?选民学历(degree)1.It highschool2.High school3.Junior college4.Bachelor5.Graduate degree输出结果解释 (1)credit?上表是对应分析模块的一个版权信息。 ?该模块是由荷兰Leiden大学DTSS课题组编制的,由于SPSS是通过合同对该程序进行了嵌套,所以在输出结果中会显示该信息。 (2)Correspondence Table(对应分析表)?上表被称为对应分析表,实际上是一个列联表或频数汇总表。 ?从表中可以很容易地看出两个变量不同水平的大致对应情况,也可以用于检查有无数据录入错误。 ?从上表我们可以看出,似乎高中学历的人群支持克林顿的人较多 (3)Summary(结果汇总表)?上表是整个对应分析的结果汇总表,是相当重要的一部分。 它主要用来确定需要使用多少个维度来对结果进行解释。 ?表中前五个指标依次是维数、奇异值、惯量、总的卡方检验值及P值,其中的奇异值就是惯量的平方根;?上表中,第一维的惯量值为0.019,第二维为0(确切的说应该是接近于0)。 对应右侧的百分比,它们分别解释了总信息量的98.7和1.3,因此二维图形可以完全表示两变量间的信息,并且以第一维度为主。 (4)行点纵览表?左侧为变量pres92的三个取值类别在两个维度中的分值,实际上就是坐标值。 其中的Mass列为每一类别所占的百分比;随后的两列为坐标值。 由表可知,三个人在第一维上分散较明显。 ?右侧给出了每个类别对各个维度的贡献率,包括点对维度惯量的贡献和维度对点惯量的贡献两种。 (5)列点纵览表?该表是变量degree的五个取值类别在两个维度上的分值,具体含有同前表类似。 (6)对应分析图 (7)对应分析图的解释?两个变量在第一维度上分的非常开,第二维度上的差异不是特别明显,这也与前面变异以第一维为主的结果相一致。 ?具体在投票倾向性上,高中学历和本科学历的选民更倾向于选布什,而研究生学历的选民较为倾向克林顿。 至于候选人佩罗,则看不出谁有特别的偏爱。 ?结果的具体解释很重要布什是战斗英雄,当时又刚刚打赢了海湾战争,可能会比较受到年轻人的偏爱,学历多以高中和大学为主;克林顿是实干家,他的政策重点是发展社会生产力,应当大受中产阶级的欢迎,这部分人群的学历应当是研究生居多。 注最后的解释仁者见仁、智者见智,既要求分析者对所研究问题的背景知识有一定掌握,也要求分析者有较强的归纳总结能力。 最优尺度分析多重对应分析?最优尺度分析的核心目的也是力图在低维空间表述两个或多个变量之间的关系,这些变量以分类变量为主,但也可以是连续性变量。 ?最优尺度分析一共包括了三种方法同质性分析、分类变量的主成分分析和非线性典型相关分析。 其中的同质性分析就是我们需要的多重对应分析。 ?最优尺度分析是独立发展起来的,与对应分析是相互完全独立的两类方法,只不过它也可以进行多重对应分析。 ?多重对应分析就是多元对应分析。 对应分析的菜单操作?二元对应分析的菜单AnalyzeData ReductionCorrespondence Analysis?多元对应分析(最优尺度分析)的菜单AnalyzeData ReductionOptimal Scaling典型案例3多元对应分析停车行为调查(快速调查)Corr.case3题卡范例5万元以下5-15万元16-25万元26-40万元40万元以上q1轿车价位q2学历q3家庭月收入初中高中大专本科硕士及以上3000元及以下3001-5000元5001-10000元1万-2万元2万元以上Corr.case3对应分析图2.52.00.0-.5-1.0-1.510-1-2-3-4轿车价位家庭月总收入教育程度5万元以下40万元以上26-40万元16-25万元5-15万元2万元以上1万-2万元5001-10000元3001-5000元3000元及以下硕士及以上本科大专高中、中专、初中Corr.case3典型案例4多元对应分析汽车用户的特征分析案例说明?本案例数据SAS软件自带的一个示例数据,它提供了某次调查得来的轿车特征与一些用户特征的数据,我们要分析的是汽车原产地(origin)、汽车大小(size)、轿车类型(type)、是否租房(home)、有无双分收入(ine)、性别(sex)、婚姻状况(marit)等变量之间的关系。 ?共有7个变量、339个样本。 Cars.sav变量解释 (1)?汽车原产地(origin)1.America2.Japanese3.European?汽车大小(size)1.Small2.Medium3.LargeCars.sav变量解释 (2)?轿车类型(type)1.Family2.Sporty3.Work?是否租房(home)1.Own2.RentCars.sav变量解释 (3)?有无双分收入(ine)1.ine2.ines?性别(sex)1.male2.femaleCars.sav变量解释 (4)1.Single2.Married3.1kids4.2kids5.More3kids?婚姻状况?marit?Cars.sav结果解释 (1)Marginal Frequencies(分类变量频数表)汽车原产地128166450AmericanJapaneseEuropeanMissingMarginalFrequency轿车类型176108541familysportyworkMissingMarginalFrequency汽车大小153142431smallmediumlargeMissingMarginalFrequency婚姻状况111111674181singlemarried1kids2kidsmore3kidsMissingMarginalFrequency是否租房242934ownrentMissingMarginalFrequency有无双份收入1511880ineinesMissingMarginalFrequencyCars.sav结果解释 (2)Iteration History.562359.000006Iteration17aFitDifferencefrom thePreviousIterationTheiteration processstopped becausetheconvergence testvalue wasreached.a.Eigenvalues.324.238Dimension12Eigenvalue?左侧表为迭代记录,显示在第17次迭代后收敛,并且给出了最后一次的步长。 ?右侧表给出了按要求提取的两个维度的特征根。 这里的特征根大小只表示所有变量与维度的关系是否紧密,并无具体解释。 Cars.sav结果解释 (3)?该表输出的是各变量在各个维度上的区分度,区分度大小在0-1之间。 区分度越大表明区分度越高。 ?从表中可以看出,婚姻状况和是否租房等变量在两个维度上的区分度度比较高,而性别在两个维度上的区分度则比较差。 Discrimination Measures.138.363.202.419.275.156.375.025.402.678.363汽车原产地汽车大小轿车类型是否租房有无双份收性别婚姻状况

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论