市场调研:第11章.ppt_第1页
市场调研:第11章.ppt_第2页
市场调研:第11章.ppt_第3页
市场调研:第11章.ppt_第4页
市场调研:第11章.ppt_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第11章数据分析方法 11 1统计分析方法 描述统计 11 2统计分析方法 推断统计 11 3统计分析方法 多元统计分析 11 1统计分析方法 描述统计 一 频数分布表和统计图法 三 多变量描述统计 二 单变量描述统计 一 频数分布和统计图表 1 频数分布 指把总体按某一标志分组 并按一定顺序列出每个组的单位数 所形成的总体单位在各组间的分布 也称为次数分布或分布数列 2 频数分布表 把总体中各个类别及其相应的频数 频率及累计频率等指标用汇总表格的形式展示出来所形成表格 3 编制频数分布表的一般步骤 找出数据的变动范围 确定组数和组距 确定组限 上限 下限 和组中值 计算调查数据落入各组的频数和频率 4 统计图 是一种以点 线条 面积等方法描述和显示数据的形式 具有直观 醒目 易于理解等特点 一般由坐标系 图形和图例三部分组成 5 常用的统计图有 条形图 直方图 饼图 折线图 趋势图 态度对比图 轮廓形象图等 一 频数分布和统计图表 已知大连市某街道634栋居民楼 或连排平房 建筑年份的调查数据 见所附数据集E11 1SPSS格式 EXCEL格式 试编制该街道现有房屋建筑年份的组距式频数分布表 应用实例11 1 分析思路 将该街道全部房屋按建筑年份的不同分成 1979年及以前 1980 1989年 1990 1999年 和 2000年及以后 4组 汇总各组的频数 频率及累计频率等指标 将频数分布结果绘制成直方图 利用SPSS软件中的Frequencies和Bar菜单实现 操作步骤 打开数据集E11 1 其中 变量jiedao和shequ分别表示街道名称和社区名称 变量jznf和jznf2分别表示房屋建筑年份和分组后的房屋建筑年份 依次选择Analyze DescriptiveStatistics Frequencies 展开Frequencies对话框 将变量jznf2送入Variable s 框 单击OK按钮 得到频数分布表输出结果 再依次选择Graphs Bar 展开Bar对话框 选中Simple和Summariesforgroupsofcases复选框 单击Define按钮 展开DefineSimpleBar对话框 将变量jznf2送入 CategoryAxis 栏 并在BarsRepresent框中选中Nofcases复选项 单击OK按钮 得到直方图输出结果 输出结果 编制频数分布表及绘制统计图时应注意的问题 编制频数分布表和绘制统计图只是对调查数据进行处理的初级阶段 编制频数分布表时 需要注意组数 组距及组限的确定问题 不同的统计图一般都有其特定的适用范围 在实际应用时 应根据数据性质及所反映问题的需要选择适宜的统计图 1 集中趋势 二 单变量描述统计 指调查数据的频数分布从两边向中间集中的趋势 也称作趋中性 2 离散趋势 指调查数据远离其分布中心值的程度 集中趋势指标反映调查数据的共性和集中性 离散趋势指标反映调查数据的个性和分散性 调查数据的离散程度越高 用于描述数据集中趋势指标的代表性越差 使用这些代表性指标进行统计分析的效果越差 简单算术平均数 根据原始数据计算 3 集中趋势的常用测度指标 平均数又称均值 主要有算术平均数 调和平均数和几何平均数等计算方法 其中以算术平均数最为常用 加权算术平均数 根据分组数据计算 二 单变量描述统计 3 集中趋势的常用测度指标 中位数指把一组数据按照从小到大的顺序排列后 位置居中的变量值 记为 计算原始数据的中位数 计算分组数据的众数 众数指数据中出现次数最多的变量值 记为 为众数所在组的下限 为众数所在组组距 和分别为众数所在组变量值的次数与下一组和上一组变量值的次数之差 二 单变量描述统计 标准差指调查数据中各变量值与其算术平均数离差平方的算术平均数的平方根 记为 4 离散趋势的常用测度指标 方差指标准差的平方 记为 对方差进行开方 即可得到标准差 二 单变量描述统计 4 离散趋势的常用测度指标 四分位差把调查数据按照从小到大的顺序排列后 用三个四分位数点 将其分为四个相等部分 高四分位数点与低四分位数点之间的距离即为四分位差 变异系数指调查数据的标准差与其算术平均数的比值 也称为离散系数 主要用于比较不同类别数据的离散程度 二 单变量描述统计 已知333名卷烟消费者最近三个月购买卷烟的消费支出数据 见所附数据集E11 2SPSS格式 EXCEL格式 试分别对城镇和农村卷烟消费者的卷烟消费支出情况进行描述性分析 应用实例11 2 分析思路 按户籍变量分组 分别计算各组卷烟消费者最近三个月卷烟消费支出的平均数 中位数 众数 标准差 方差等统计指标 利用SPSS软件中的Explore菜单实现 操作步骤 打开数据集E11 2 其中 变量hjlx和jyxf分别表示户籍类型和最近三个月卷烟消费的支出额 依次选择Analyze DescriptiveStatistics Explore 展开Explore对话框 将变量jyxf作为分析变量送入 Dependentlist 框 将变量hjlx送入 FactorList 框 用以指定按不同户籍类型进行分组分析 单击OK按钮 得到不同户籍类型卷烟消费者卷烟消费支出的描述统计结果 输出结果 卷烟消费者卷烟消费支出的描述统计结果 对数据的集中趋势进行描述 应结合统计数据的实际分布状况 选用恰当的指标形式 以克服不同形式的测度指标在使用范围上的局限性 比较不同类别数据的离散程度时 应使用变异系数指标 而不宜使用标准差 方差等反映数据离散程度的绝对量指标 应用单变量描述统计方法时应注意的问题 1 列联表 三 多变量描述统计 是对两个或两个以上的分类变量进行交叉分类所形成的复合频数分布表 2 二维列联表的一般形式 在数据集E11 1 SPSS格式 EXCEL格式 中 同时还给出了大连市该街道现有房屋总楼层数的调查数据 试进一步分析该街道现有房屋的总楼层数与建筑年份之间的交叉频数分布情况 应用实例11 3 分析思路 按总楼层数的多少把房屋分为平房 1层 多层 2 8层 小高层 9 12层 和高层 13层及以上 4种类型 按建筑年份的不同把房屋划分成 1979年及以前 1980 1989年 1990 1999年 和 2000年及以后 4组 对分组后的两个变量进行交叉分组形成列联表 并利用统计量对变量的独立性进行检验 利用SPSS软件中的Crosstabs菜单实现 操作步骤 打开数据集E11 1 其中 变量jznf2和zcs2分别表示分组后的建筑年份和总楼层数 依次选择Analyze DescriptiveStatistics Crosstabs 展开编制列联表对话框 将变量jznf2作为行变量送入Row s 框中 将变量zcs2作为列变量送入Column s 框中 单击Cells项 打开Crosstabs CellDisplay对话框 在Percentages框中选择Row Column Total复选框 单击Continue按钮返回到主对话框 单击Statistics项 打开Crosstabs Statistics对话框 选择Chi Square复选框 单击Continue按钮返回 单击OK按钮 得到列联表输出结果 房屋总楼层数与建筑年份的列联表及检验结果 输出结果 编制列联表时应注意的问题 编制列联表时 如果两个变量之间不存在因果关系 行变量和列变量可以随意指定 在对三个及以上变量进行列联分析时 一般来说 每个单元格至少要有5个观测值才能有说服力 列联表只是检验变量之间是否有关系 而并非检验变量之间是否具有因果关系 进行列联分析的变量必须是取值个数有限的离散变量 使用分布进行独立性检验时 一般要求样本量必须足够大 n 50 每个单元格中的期望频次也不能过少 3 相关分析 是研究变量之间相关关系密切程度的统计方法 按表现形式不同 可以分为线性相关和非线性相关 按相关的方向不同 可以分为正相关和负相关 散点图以直角坐标系的横轴代表自变量x 以纵轴代表因变量y 将两个变量间相对应的变量值用坐标点的形式描绘在坐标平面上所形成的图形 相关系数在直线相关的条件下 衡量两变量之间线性相关程度的统计指标 三 多变量描述统计 4 回归分析 是研究因变量对自变量依赖关系的一种统计分析方法 目的是通过自变量的给定值来估计或预测因变量的均值 一元线性回归 多元线性回归 非线性回归 三 多变量描述统计 应用实例11 4 分析思路 绘制散点图 对两个变量之间相关关系的形式 方向做出大致判断 计算相关系数 若二者之间存在显著性线性相关 则建立回归方程 利用SPSS软件中的Scatter Correlate及Regression菜单实现 已知某市10家百货商店职工的人均月销售额和利润率的数据 见所附数据集E11 4SPSS格式 EXCEL格式 试分析人均月销售额和利润率之间的关系 并建立利润率对人均月销售额的回归方程 操作步骤 打开数据集E11 4 依次选择Graphs Scatter Dot 展开对话框 选中SimpleScatter选项 单击Define按钮 进入SimpleScatterplot对话框 将变量rjxse送入 XAxis 框中 将变量lrl送入YAxis框中 单击OK按钮 得到人均月销售额与利润率的散点图 依次选择Analyze Correlate Bivariate 展开对话框 将变量rjxse和lrl同时送入Variables框中 单击OK按钮 得到人均月销售额与利润率的相关系数 依次选择Analyze Regression Linear 展开对话框 将变量rjxse送入Independent s 框中 将变量lrl送入Dependent s 框 单击OK按钮 得到回归过程运行结果 输出结果 回归方程 输出结果 应用相关与回归分析方法时应注意的问题 相关分析的目的是测定变量之间相关关系的方向和程度 回归分析的目的是利用回归模型进行预测和控制 进行相关分析时 不能仅凭相关系数的大小来解释变量之间的相关程度 否则有可能会得出不切实际的结论 在实际操作中 建立回归模型的过程非常复杂 应用时必须结合具体情况进行探讨和分析 三 多变量描述统计 11 2统计分析方法 推断统计 一 参数估计 三 方差分析 二 假设检验 一 参数估计 参数估计指在满足一定精度和把握程度的条件下 利用样本信息来估计总体特征的统计分析方法 1 基本原理 2 基本形式 3 常用的置信区间的形式 1 对于正态总体 当总体方差已知时 总体均值的置信度为的置信区间为 2 对于正态总体 当总体方差未知时 总体均值的置信度为的置信区间为 一 参数估计 3 常用的置信区间的形式 3 对于两个正态总体 方差未知但相等时 两个总体均值之差的置信度为的置信区间为 式中 一 参数估计 某公司为了解其职工某月的通讯费用支出情况 从1000名职工中随机抽取32名进行调查 调查结果见所附数据集E11 5SPSS格式 EXCEL格式 试在90 的置信度下 推断该公司职工在该月的人均通讯费用支出及通讯费用总支出 应用实例11 5 分析思路 本例是在总体方差未知的情况下 求总体均值的区间估计问题 具体计算过程利用SPSS软件中的DescriptiveStatistics菜单实现 操作步骤 打开数据集E11 5 变量X表示职工的通讯费用 依次选择Analyze DescriptiveStatistics Explore 展开Explore对话框 将变量X作为分析变量送入 Dependentlist 框 单击Statistics按钮 在展开的 ExploreStatistics 对话框中 选中Descriptives项 并将 Confidenceintervalformean 框中的数字改成90 再单击Continue按钮 返回到主对话框 单击OK按钮 即得到区间估计结果 人均通讯费用支出区间估计结果 输出结果 应用参数估计方法时应注意的问题 进行参数估计时 应根据所研究对象的变异程度及分析任务的要求 确定一个合理的误差范围 估计误差不能超过一定的限度 但也不是越小越好 进行参数估计时 应根据所研究问题的性质和工作需要 确定一个可以接受的估计置信度 估计的可信度不能太低 也不宜过高 二 假设估计 1 基本原理 假设检验是利用样本信息判断对总体参数的假设是否成立的统计推断方法 有参数假设检验和非参数假设检验两种形式 其基本理论依据是 小概率事件原理 2 总体参数假设检验的基本步骤 根据待检验的问题 提出原假设和备择假设 选取适当的显著性水平 确定检验用的统计量和拒绝域的形式 求出拒绝域 根据样本观测值 判断接受或是拒绝原假设 续应用实例11 2 试分析大连市城镇卷烟消费者与农村卷烟消费者的平均卷烟消费支出是否存在显著性差异 见所附数据集E11 2SPSS格式 EXCEL格式 应用实例11 6 分析思路 城镇卷烟消费者总体和农村卷烟消费者总体相互独立 可以利用独立样本检验过程来检验二者的平均卷烟消费支出是否存在显著性差异 待检验的原假设是 城镇卷烟消费者和农村卷烟消费者的平均卷烟消费支出不存在显著性差异 计算过程利用SPSS软件中的Independent SamplesTtest菜单实现 操作步骤 打开数据集E11 2 变量hjlx和变量jyxf分别表示户籍类型和最近三个月的卷烟消费支出 依次选择Analyze CompareMeans Independent SamplesTtest 展开独立样本检验过程的对话框 将变量jyxf作为待检验变量 送入TestVariable s 框中 将变量hjlx作为分组变量 送入Groupingvariable框中 并单击Definegroups按钮 展开definegroups对话框 分别在Group1和Group2框中填入 城镇 和 农村 继续单击Continue按钮 返回到主对话框 单击OK按钮 即可得到检验结果 输出结果 独立样本检验过程的输出结果 应用假设检验方法时应注意的问题 应根据研究目的和数据资料的性质选用恰当的检验方法 资料性质不同 样本大小不同 所适用的检验统计量及假设检验方法也会有所不同 结论不能绝对化 是否拒绝 要根据值与水平的关系来判断 而值又往往需要根据所研究问题的特点来灵活确定 三 方差分析 1 基本原理 方差分析是一种比较若干个总体均值之差的统计推断方法 它通过分析数据中不同来源的变异对总变异的贡献大小 来确定可控因素对研究结果影响力的大小 有单因素方差分析和多因素方差分析两种形式 2 单因素方差分析的一般步骤 明确因变量和自变量 建立原假设 分别计算总方差 SST 组间方差 SSA 组内方差 SSE 及统计量 建立方差分析表 并查临界值 分析结果 某大型连锁超市为了解不同促销手段对商品销售额的影响 在其下属五个分店中 对同一类日常生活用品分别采用不同促销方式进行了为期四个月的销售对比试验 销售对比试验结果见所附数据集E11 7SPSS格式 EXCEL格式 试利用方差分析方法 检验不同促销方式下的商品销售量是否存在显著性差异 试验前该类商品在五个分店内的月销售额基本处于同一水平 应用实例11 7 分析思路 这是单一因素影响下的方差分析问题 可以以月销售额为因变量 以促销方式为影响因素变量进行分析 分析过程利用SPSS软件中的One WayANOVA菜单实现 操作步骤 打开数据集E11 7 变量SALE和A分别表示月销售额和促销方式 依次选择Analyze CompareMeans One WayANOVA 展开单因素方差分析对话框 将变量SALE送入Dependentlist框 将影响因素变量A送入Factor框 单击PostHoc项 在打开的对话框中 选中LSD复选框 以进行各组均值间的两两比较 继续单击Continue按钮 返回到主对话框 单击OK按钮 即得出单因素方差分析的运行结果 单因素方差分析的输出结果 输出结果 应用方差分析方法时应注意的问题 在实际应用时 由于观测次数有限 影响因素可能只有有限的几个状态水平 这时就只能考察影响因素有限集中各状态的不同搭配对所观测变量的影响 在实际应用两因子方差分析方法时 影响因素之间是否存在交互作用 除了可以依据有关专业理论及实践经验作出初步判断外 最终还应在对试验数据进行方差分析后才能得到可靠的结论 11 3统计分析方法 多元统计分析 一 因子分析 三 判别分析 二 聚类分析 四 对应分析 一 因子分析 1 基本原理 因子分析是一种数据简化技术 它研究如何将具有错综复杂关系的变量综合为数量较少的几个因子 以再现原始变量与因子之间的相互关系 2 因子分析的数学模型 已知上海宝钢集团对其汽车行业直供用户所实现的产品销售数据 见所附数据集E11 8SPSS格式 EXCEL格式 试利用因子分析方法比较各直供用户对于宝钢集团的重要程度 应用实例11 8 利用因子分析方法提取各评价指标的公共因子 并计算出每个用户在各个公共因子上的得分 以公共因子的方差贡献率为权数 以因子得分为变量值 计算出每个用户的综合得分 依据综合得分对用户的重要性进行排序 计算过程利用SPSS软件中的Factor Compute及Rank菜单实现 分析思路 操作步骤 打开数据集E11 8 依次选择Analyze DataReduction Factor 展开因子分析对话框 将变量Rate Return Profit及Custearn均送入variables框中 单击Extraction项 在展开的子对话框中 选择Numberoffactors 并填入数字 2 指定提取2个因子 其他选项均采用系统默认 单击Continue按钮返回 单击Rotation项 展开Rotation子对话框 在Method框中选择Varimax 用以指定因子载荷矩阵的旋转方法 单击Continue按钮返回 操作步骤 单击Scores项 展开子对话框 选中SaveasVariables复选框 用以指定计算因子得分 并将因子得分作为新变量保存 单击Continue按钮返回 单击OK按钮 得出因子分析过程运行结果 同时在数据集中生成两个新的因子得分变量FAC1 1和FAC2 1 利用Compute菜单 以旋转后的公共因子的方差贡献率为权数 以因子得分为变量值 计算出各用户的综合得分 然后再利用RankCases菜单依据综合得分对各用户的重要程度进行排序 以评价各直供用户的重要程度 因子分析过程的输出结果 输出结果 各用户的因子得分及排序结果 输出结果 应用因子分析方法时应注意的问题 由于因子分析对变量之间的相关程度很敏感 为保证分析质量 需要事先进行稳健性比较 由于小样本相关系数的可靠性较差 因子分析要求观测数至少应是变量数的5倍 最好是10倍以上 参与因子分析的变量必须是数值型变量 即要求数据是由定距或者定比测量尺度得到的 二 聚类分析 聚类分析是依据某种准则对个体 样本或变量 进行分类的分析方法 它能够将一批样本数据 或变量 在没有先验知识的情况下 按照它们在性质上的亲疏程度自动进行分类 1 基本原理 动态聚类先选定凝聚点 然后再分步聚类 系统聚类先对数据进行变换 再选取聚类方法 2 聚类分析的类型 3 聚类分析的实现方法 R型聚类对变量进行聚类 Q型聚类对样本进行聚类 试依据例11 8中所得到的规模因子和效益因子得分变量 对宝钢集团的17家汽车行业直供用户进行分类 见所附数据集E11 9SPSS格式 EXCEL格式 应用实例11 9 分析思路 本例是样本聚类问题 由于事先无法确定可以划分的类别 因此考虑采用系统聚类方法中的样本聚类进行分析 计算过程利用SPSS软件中的HierarchicalCluster菜单实现 操作步骤 打开数据集E11 9 变量FAC1 1和FAC2 1分别是规模因子和效益因子得分变量 依次选择Analyze Classify HierarchicalCluster 展开系统聚类对话框 将两个因子得分变量均送入variables框中 将num 编号 变量送入LabelCasesby框 并在cluster复选框下选中Cases 点击Plots项 在展开的对话框中 选择Dendrogram项 用于指定输出树形图 单击Continue按钮返回 单击OK按钮 即得出聚类分析的运行结果 凝聚状态表 输出结果 聚类树状图 输出结果 应用聚类分析方法时应注意的问题 如果聚类变量的计量单位不同 应事先利用Descriptives菜单对其标准化后再进行聚类分析 否则可能会得出错误的结论 选择不同的变量组合 聚类方法 测度方法及标准化方法 所得出的聚类过程及结果可能会有所不同 对大样本进行聚类分析 当要聚成的类数确定时 可使用快速聚类方法 如果聚类变量是离散变量 或采用其他距离测度方法进行聚类 则需要使HierarchicalCluster过程进行聚类分析 三 判别分析 判别分析是根据表明事物特点的变量值及其分类 求出判别函数 再根据判别函数 对所属类别未知的事物进行分类的一种统计判别和分组技术 2 判别分析的一般步骤 选择对判别分析有显著影响的独立变量 利用被选定的独立变量的变量值 拟合判别函数 计算判别函数的误判率 分析判别函数模型的选择是否正确 利用已建立的判别函数 判别新样本 变量值 的归属类别 1 基本原理 银行在放贷过程中 为降低坏账风险 往往需要判定贷款人的信用情况 现已知某银行700名客户贷款的历史记录 根据以前有无违约历史将客户分为两组 第一组为 有过违约历史 第二组为 没有违约历史 客户信息主要包括年龄等8项指标 见所附数据集E11 10SPSS格式 EXCEL格式 试据此建立判别函数 并判定另外150名未知信用信息的准客户的信用状况 应用实例11 10 分析思路 根据700名客户的已知类别信息建立判别函数 通过预测变量 对未知信用情况的150名准客户进行判别 计算过程利用SPSS软件中的Discriminant菜单实现 操作步骤 打开数据集E11 10 依次选择Analyze Classify Discriminant 展开对话框 将Default变量送入 GroupingVariable 框中 单击 DefineRange 项后 在弹出对话框的Minimum项中输入 0 在Maximum项中输入 1 再单击Continue按钮返回 将Employ Address Income Debtinc Creddebt Othdebt6个变量均送入Independents对话框 并选中 UseStepwiseMethod 复选框 单击Statistics项后 在 FunctionCoefficients 栏中选择Fisher

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论