




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多变量数据分析技术第一页,共五十四页,编辑于2023年,星期五统计分析是正确理解数据的工具首先:要避免犯统计错误明确:统计没有错误,犯错的是人。1.理论和方法的错误2.理解和解释的错误第二页,共五十四页,编辑于2023年,星期五变量:测量尺度名称级----定类变量顺序级----定序变量间隔级----定距变量比例级----定比变量低高转换定性定量非数量型数量型离散型随机变量连续型随机变量统计分析方法的应用有时候按变量的测量等级来划分。第三页,共五十四页,编辑于2023年,星期五μ=0σ=1均值标准差α=0.025α=0.0251-α=0.9595%99%95%68%-1-2-3+1+2+3第四页,共五十四页,编辑于2023年,星期五μσ均值标准差α=0.025α=0.0251-α=0.9595%99%95%68%μ-σμ-2σμ-3σμ+σμ+2σμ+3σ第五页,共五十四页,编辑于2023年,星期五第六页,共五十四页,编辑于2023年,星期五第七页,共五十四页,编辑于2023年,星期五多变量统计分析法——高级数据处理分析技术多元回归分析——MultipleRegressionAnalysis主成份分析——PrincipalComponentAnalysisPCA因子分析——FactorAnalysisFA(EFA&CFA)多元方差分析——ANOVA多维判别分析——MultipleDiscriminationAnalysis多维尺度分析——MultidimensionalScalingMDSMDA多元逻辑斯特回归——MultipleLogisticRegression对应分析——CorrespondenceAnalysisCA多元对应分析——MultipleCorrespondenceAnalysisMCA多维偏好分析——MultidimensionalPreferenceAnalysisMDPREF非线性主成份分析——(OptimalScaling)分类树——AnswerTree—CHAID&CART聚类分析——ClusterAnalysis结合分析——ConjointAnalysis离散选择模型——DiscreteChoiceModel结构方程式模型——StructuralEquationModel预测与决策模型——DecisionTime&Whatif网络分析——NetworkAnalysis第八页,共五十四页,编辑于2023年,星期五多元回归分析MultipleRegressionAnalysis通话质量特服台服务技术支持/咨询装机/修机/移机业务营业厅服务服务宣传项目话费价格话费/查询/准确/缴费投诉/纠纷急需改进区优势保持区次要改进区锦上添花区某省电信各项总体满意度指标的重要性和满意度象限图满意度水平(表现)重要性水平第九页,共五十四页,编辑于2023年,星期五第十页,共五十四页,编辑于2023年,星期五Y=a+bX因变量自变量(预测变量)截距斜率数学上下列方程在图形上是一条直线第十一页,共五十四页,编辑于2023年,星期五XY●X和Y线性回归dYi●●●●●●●●●第十二页,共五十四页,编辑于2023年,星期五回归分析的问题决定系数R2方差分析表回归诊断——残差图共线性问题变量转换异常值处理预测范围因变量是0-1定类变量:logisticregression第十三页,共五十四页,编辑于2023年,星期五ComponentPlotComponent1.7.6.5.4.3Component2.6.4.2-.0-.2-.4-.6接待投诉耐心处理投诉迅速维修专业程度维修服务态度维修及时程度广告吸引力广告投放量入网费打折促销对服务承诺的兑现情况维修服务收费通话费计费透明度通话费计费准确性通话费入网费营业员专业水平营业员服务态度营业厅规模营业厅环境销售网点分布开户手续网络覆盖服务和网络功能公司对各种承诺的兑现公司手机网络的用户量公司的技术力量对该公司将来的信心公司信誉公司实力公司总体形象重要性水平表现主成份分析PrincipalComponentAnalysisPCA急需改进区优势保持区次要改进区锦上添花区某移动通讯服务供应省满意度指标的重要性和满意度象限图第十四页,共五十四页,编辑于2023年,星期五主成份分析PrincipalComponentAnalysisPCA0-1-21230-1-212-3第一主成份第二主成份沃尔沃奔驰BMW切诺基桑塔纳捷达富康红旗奥迪别克现代本田丰田赛欧第十五页,共五十四页,编辑于2023年,星期五主成份分析的基本概念x1x2Y1Y2x1x2X1与x2相关Y1与Y2不相关第十六页,共五十四页,编辑于2023年,星期五主成份分析的基本原理P个变量能够组成p个主成份。每个主成份是p个原始变量的线性组合。第一主成份解释p个变量的最大变差。第二主成份解释p个变量的第二大变差。最后一个主成份解释变差最小。所有主成份彼此之间正交。线性组合后的主成份在几何空间上代表p个变量构成坐标系旋转后的新坐标系,新坐标轴代表了最大变差方向。第十七页,共五十四页,编辑于2023年,星期五主成份分析应用减少变量的个数。用于回归分析用于聚类分析用于偏好分析用于画出偏好图构造综合评价指数——综合排序。第十八页,共五十四页,编辑于2023年,星期五因子分析FactorAnalysis每升行驶里程可靠性能安全性能0-1-21230-1-212-3豪华型运动型经济型第一因子得分第二因子得分第十九页,共五十四页,编辑于2023年,星期五因子分析-factorAnalysis一种简化数据的技术。探索性因子分析。证实性因子分析因子分析就是要找到具有本质意义的少量因子。并用一定的结构/模型,去表达或解释大量可观测的变量。第二十页,共五十四页,编辑于2023年,星期五主要应用简化数据,减维技术。识别数据中潜在的不正直接观测的结构或维度。用产生的不相关的因子作为变量用于其它分析——聚类分析、回归分析、判别分析等。识别变量中重要变量,用于其它分析。作偏好图。(两个因子)问卷设计的信度和效度。第二十一页,共五十四页,编辑于2023年,星期五因子分析的基本步骤确定研究的问题数据准备考察相关矩阵选择抽取因子的方法取定因子的个数旋转因子——最大方差法评价模型的拟合效果解释因子并命名因子得分用于其它分析第二十二页,共五十四页,编辑于2023年,星期五多维偏好分析——MultidimensionalPreferenceAnalysisMDPREF每升行驶里程可靠性能安全性能0-1-21230-1-212-3第一主成份第二主成份豪华型运动型经济型沃尔沃奔驰BMW切诺基桑塔纳捷达富康红旗奥迪别克现代本田丰田赛欧第二因子得分第一因子得分第二十三页,共五十四页,编辑于2023年,星期五理想点模型每升行驶里程可靠性能安全性能0-1-21230-1-212-3第一主成份第二主成份豪华型运动型经济型沃尔沃奔驰BMW切诺基桑塔纳捷达富康红旗奥迪别克现代本田丰田赛欧第二因子得分第一因子得分理想点帕萨特第二十四页,共五十四页,编辑于2023年,星期五Component11.0.50.0-.5-1.0Component21.0.8.6.4.20.0-.2-.4-.6-.8S25S24S23S22S21S20S19S18S17S16S15S14S13S12S11S10S9S8S7S6S5S4S3S2S1主成份分析——PrincipalComponentAnalysisPCA——市场细分第二十五页,共五十四页,编辑于2023年,星期五REGRfactorscore1foranalysis12.52.01.51.0.50.0-.5-1.0-1.5REGRfactorscore2foranalysis13210-1-2奥迪A6宝来别克富康波罗POLO夏利2000风神蓝鸟捷达广州本田帕萨特奥托羚羊红旗铭仕奇瑞赛欧吉利桑塔纳因子分析——FactorAnalysisFA(EFA&CFA)——市场细分第二十六页,共五十四页,编辑于2023年,星期五奥迪A6宝来别克富康波罗POLO夏利2000风神蓝鸟捷达广州本田帕萨特奥托羚羊红旗铭仕奇瑞赛欧吉利桑塔纳Component11.0.50.0-.5-1.0Component21.0.8.6.4.20.0-.2-.4-.6-.8S25S24S23S22S21S20S19S18S17S16S15S14S13S12S11S10S9S8S7S6S5S4S3S2S1产品定位图第二十七页,共五十四页,编辑于2023年,星期五聚类分析ClusterAnalysis第二十八页,共五十四页,编辑于2023年,星期五DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+---------+---------+---------+---------+---------+
桑塔纳1-+-----------------+红旗铭仕10-++-------------+捷达14-------------------+I
吉利2---------+---------++---------------+奥托7---------+III
奇瑞4-------+---++-------------+I
富康11-------++---+II
夏利200012-----+-+IIII
羚羊13-----++---++---+I
赛欧3-----+-+II
波罗POLO5-----+II
宝来6---------------+I
别克15-------+-------+I
风神蓝鸟16-------++---+I
帕萨特8---------+-----++-----------------------------+广州本田9---------+I
奥迪A617-------------------+谱系聚类分析和快速聚类——Hierarchical
&K-Mean
ClusterAnalysis第二十九页,共五十四页,编辑于2023年,星期五聚类分析的基本概念聚类分析(clusteranalysis)顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals,objectsorsubjects)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具有尽可能高的异质性(heterogeneity)。也可以对变量分类,但是更常见的还是对个体分类。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样品或变量,常用的是样品)之间的联系的紧密程度。常用的指标为“距离”和“相似系数”。假定研究对象均用所谓的“点”来表示。在聚类分析中,一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类。第三十页,共五十四页,编辑于2023年,星期五需要一组表示个体性质或特征的变量,称之为分类变量。根据个体或样本之间联系的紧密程度进行分类。一般来说分类变量的组合都是由研究者规定的,不是像其它多元分析方法那样估计推导出来的。聚类分析前所有个体或样品所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它统计方法。聚类分析的基本概念第三十一页,共五十四页,编辑于2023年,星期五第三十二页,共五十四页,编辑于2023年,星期五EuclideandistancemodelDimension1210-1-2-3Dimension21.51.0.50.0-.5-1.0-1.5-2.0北京申办2008年奥运会两岸关系中国能否加入世贸组织国营和集体企业改组、依法治国教育体制改革打假澳门回归行业不正之风土地承包政策不变乱收费农村脱贫致富水灾后重建农村村务公开、民主选举减轻农民负担反腐败环境保护亚洲金融危机会否波及人民币是否贬值养老保险社会治安下岗再就业物价涨跌医疗改革住房货币化改革多维尺度分析MDS个人利益国家利益农民利益社会利益第三十三页,共五十四页,编辑于2023年,星期五对维尺度分析-MultidimensionalScaling在市场研究领域主要研究消费者的态度,衡量消费者的知觉及偏好。涉及的研究对象非常广泛,例如:汽车、洗头水、饮料、快餐食品、香烟和国家、企业品牌、政党候选人等。通过MDS分析能够为市场研究提供有关消费者的知觉和偏好信息。主要借助计算机统计分析软件,输入有关消费者对事物的知觉或偏好数据,转换为一组对象或对象特征构成的多维空间知觉或偏好图——感知图。第三十四页,共五十四页,编辑于2023年,星期五应用MDS,收集的数据值大小必须能够反应两个研究对象的相似性或差异性程度。这种数据叫做邻近。所有研究对象的邻近数据可以用一个邻近矩阵表示。反映邻近的测量方式:相似性-数值越大对应着研究对象越相似。差异性-数值越大对应着研究对象越不相似。两个地点(位置)之间的实际距离。(测量差异性)两个产品之间相似性或差异性的消费者心理测量。两个变量的相关性测量。(相关系数测量相似性)从一个对象过渡到另一个对象的转换概率。例如概率反应了消费者对品牌或产品偏好的变化。(测量相似性)反映两种事物在一起的程度。例如:用早餐人们经常将两种食品搭配在一起。(测量相似性)第三十五页,共五十四页,编辑于2023年,星期五多维判别分析MultipleDiscriminationAnalysisMDA判别函数2判别函数1-1-21230-1-212-3价格水平交货速度产品质量销售力度价格弹性总体服务制造商形象新用户犹豫/转移用户重复购买用户第三十六页,共五十四页,编辑于2023年,星期五判别分析是一种进行统计判别和分类的统计技术手段。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数。利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。市场细分研究中,常涉及判别个体所属类型的问题。也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。因变量(dependentvariable):分组变量——定性数据(个体、产品/品牌、特征)。自变量(independentvariable):判别变量——定量数据(属性的评价得分)。判别分析第三十七页,共五十四页,编辑于2023年,星期五确定分组变量与判别变量间的关系建立判别函数,找到自变量的最佳区分因变量的各个类别的线性组和。也可以确定后验概率,计算每个个体落入各个类别的概率。确定哪些判别变量x1、x2、x3…、xk对区分类别差异的影响最大。考察各个类别在判别变量方面是否存在显著差异。确定判别变量是以什么形式影响因变量的,即D是x1x2x3…xk什么形式的函数。根据判别变量的值对个体进行分类。对分析的准确程度进行评价。第三十八页,共五十四页,编辑于2023年,星期五-1.0-0.50.00.51.0Dimension1-1.5-1.0-0.50.00.51.0Dimension
2POISONGASHANGDROWNGUNJUMPM15M30M45M60M80F15F30F45F60F80第三十九页,共五十四页,编辑于2023年,星期五主要应用——判别和细分市场用户和非用户经常购买者和非经常购买者新用户、流失用户和忠实用户忠诚用户和非忠诚用户新产品早期使用者和后期使用者消费者心目中喜欢的品牌和不喜欢的品牌消费者对我们的品牌和竞争品牌的不同属性偏好偏好图市场细分新产品开发第四十页,共五十四页,编辑于2023年,星期五ABCDEFG价格合理性易于服用药效持久有效性对儿童有益药性温和感冒药品概念图/品牌图第四十一页,共五十四页,编辑于2023年,星期五Logistic回归模型第四十二页,共五十四页,编辑于2023年,星期五逻辑斯特回归
Logistic回归是一种进行统计判别和分类的统计技术手段。它可以就一定数量的个体的一个二分变量(因变量)和相应的其它多个自变量(预测变量)的已知信息,确定二分变量与其它预测变量之间的数量关系,建立Logistic非线性回归方程。利用回归方程进行预测和解释,在其他已知多元变量的信息、但未知分组的个体进行判别分组。
因变量(dependentvariable):0-1变量——二分变量(个体、产品/品牌、特征)。自变量(independentvariable):预测变量——定量数据或定性(属性的评价得分)。市场细分研究中,常涉及判别个体所属类别是两个分类的问题。例如:是否该给某个人发信用卡,是否是用户,成功和失败,疾病的诊断等,Logistic回归可以很好地对这种差异进行鉴别。第四十三页,共五十四页,编辑于2023年,星期五.6.4.2.0-.2-.4-.6-.8-1.01.51.0.50.0-.5-1.0新疆宁夏青海甘肃陕西西藏云南贵州四川海南广西广东湖南湖北河南山东江西福建安徽浙江江苏上海黑龙江吉林辽宁内蒙山西河北天津北京200元以上101-200元51-100元50元以下南方区域北方区域话费高省话费低省固定电话话费不同省分布情况对应分析CorrespondenceAnalysis第四十四页,共五十四页,编辑于2023年,星期五对应分析的基本概念对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。是强有力的探索数据技术,主要适用于有多个类别的定类变量。可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。第四十五页,共五十四页,编辑于2023年,星期五2.01.51.0.50.0-.5-1.0-1.5-2.02.01.51.0.50.0-.5-1.046岁以上36-45岁26-35岁25岁以下无回答/无收入高收入中高收入中等收入中低收入低收入女性男性200元以上101-200元51-100元50元以下大学本科及以上大专高中/中专/技校初中小学及以下不使用小灵通价格敏感性特征无消费欲望者特征固定用户特征使用移动通讯服务消费者特征SIM卡充值卡特殊需求者特征多元对应分析MultipleCorrespondenceAnalysis第四十六页,共五十四页,编辑于2023年,星期五对应分析CorrespondenceAnalysisCA-1.5-1-0.500.511.52-1.5-1-0.500.511.5雪糕雪源清爽甘甜雪浪花洗衣机兴奋波澜欢快个性空调碳酸饮料期望毛毯保健食品天山绿中美纯纯水纯净玉泉果汁饮料春溪安闲高档新产品名称(品牌)测试第四十七页,共五十四页,编辑于2023年,星期五第四十八页,共五十四页,编辑于2023年,星期五对应分析可以回答以下问题谁是我的用户?还有谁是我的用户?谁是我竞争对手的用户?相对于我的竞争对手的产品,我的产品的定位如何?与竞争对手有何差异?我还应该开发哪些新产品?对于我的新产品,我应该将目标指向哪些消费者?第四十九页,共五十四页,编辑于2023年,星期五Dimension11.0.8.6.4.2-.0-.2-.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 怎么签署转让合同协议书
- 康复医学科设备分类体系
- 网红饮品品牌授权与知识产权保护合同
- 高管股权激励计划绩效评估及合作协议
- 生态草原牧场养殖与资源保护合作协议
- 公共设施建筑给排水系统安装与水质压力检测合同
- 动画电影制作与全球发行外包服务合同
- 海外集装箱实时追踪租赁服务合同
- 国际诉讼文件安全快递及全额赔偿附加协议
- 澳新市场股权合作开发与文化产业投资协议
- 自动喷水灭火系统质量验收项目缺陷判定记录
- 人教版一年级起点小学二年级英语下册全套教案
- T-CCIAT 0043-2022 建筑工程渗漏治理技术规程
- 供货、安装、调试、验收方案
- 电气设备-开篇绪论汇编
- 婚无远虑必有财忧法商思维营销之婚姻篇74张幻灯片
- 红外图像处理技术课件
- 小学一年级人民币学具图片最新整理直接打印
- 运动负荷参考曲线
- 电梯快车调试方法
- 医院病种分析系统操作手册
评论
0/150
提交评论