数值型数据平均数.ppt_第1页
数值型数据平均数.ppt_第2页
数值型数据平均数.ppt_第3页
数值型数据平均数.ppt_第4页
数值型数据平均数.ppt_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数值型数据:平均数,平均数 (mean),集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 主要用于数值型数据,平均数的分类,1)、简单算术平均数 2)、加权算术平均数 3)、几何平均数,1)、简单算术平均数,定义:它是用总体或样本变量的总和除以总体或样本数据的个数所计算平均数 计算公式:,例:某车间20个工人某日产量 的平均数,数据:32 41 28 41 32 45 32 61 32 28 32 41 61 32 32 61 41 28 32 28 工人平均日产量:,2)、加权算术平均数,简单算术平均数的大小与变量值大小有关,而加权平均数的大小不仅受到各组变量值大小影响,而且受各组变量值出现的频率也就是权数大小影响。,加权平均数 (权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ):1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ):8 1 1,平均数 (数学性质),1. 各变量值与平均数的离差之和等于零,2. 各变量值与平均数的离差平方和最小,几何平均数 (geometric mean),n 个变量值乘积的 n 次方根 适用于比率数据的平均 主要用于计算平均增长率 计算公式为,5. 可看作是平均数的一种变形,几何平均数 (例题分析),【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。,年平均增长率114.91%-1=14.91%,众数、中位数和平均数的比较,众数、中位数和算术平均数,(1)众数、中位数和算术平均数的分布关系 (2)众数、中位数和算术平均数的特点 (3)众数、中位数和算术平均数的应用场合,众数、中位数和算术平均数的分布关系,从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于组数据中间位置上的值,而算术平均数则是全部数据的算术平均。,众数、中位数和算术平均数的特点,众数是一组数据分布的峰值,是位置代表值。其特点是不受极端值的影响,具有不唯一性,对于一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。 中位数是一组数据中间位置上的代表值,与中位数类似的还有四分位数,它们也都是位置代表值,其特点是不受极端值的影响。 算术平均数是就全部数据的计算,它具有优良的数学性质,是实际中应用最广泛的集中趋势测度值。其主要特点是易受数据极端值的影响,,众数、中位数和算术平均数的应用场合,从当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这时应选择算术平均数作为集中趋势的代表值,因为算术平均数包含了全部数据的信息,而且易被大多数人所理解和接受; 当数据为偏态分布,特别是当偏斜的程度较大时,我们应选择众数和中位数的位置代表值,这时它们的代表性要比算术平均数好。 此外,算术平均数只适用于定量数据,而对于定性数据则无法计算算术平均数,但可以计算众数和中位数的定性数据。而调和平均数和几何平均数则不一定适合定量数据,因为当一组数据中出现0或负数时,无法计算调和平均数或几何平均数。,4.2 离散程度的度量,4.2.1 分类数据:异众比率 4.2.3 数值型数据:方差和标准差 4.2.4 相对位置的度量:标准分数 4.2.5 相对离散程度:离散系数,离散趋势,数据分布的另一个重要特征 反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,分类数据:异众比率,异众比率 (variation ratio),1. 对分类数据离散程度的测度 2. 非众数组的频数占总频数的比例 3. 计算公式为,4. 用于衡量众数的代表性,异众比率 (例题分析),解: 在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好,数值型数据:方差和标准差,极差 (range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布,R = max(xi) - min(xi),计算公式为,平均差 (mean deviation),各变量值与其平均数离差绝对值的平均数 能全面反映一组数据的离散程度,计算公式为,未分组数据,例 已知A、B两组学生的成绩如表所示,试分别计算其平均差。,解 A、B两组学生的算术平均数采用简单算术平均数公式,易算得=75分。 则AD(A)= (分) AD(B)= (分) 由以上计算可知,虽然A、B两组学生的平均成绩相同,但B组计算得到的平均差大,则表明其平均成绩的代表性要较A组差。,方差和标准差 (variance and standard deviation),数据离散程度的最常用测度值 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,样本方差和标准差 (simple variance and standard deviation),未分组数据:,未分组数据:,方差的计算公式,标准差的计算公式,样本方差 自由度(degree of freedom),一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值,例 某车间抽取10个工人的工资如表所示,试计算标准差。,解:根据表所示的资料,应采用标准差公式来计算。,10名工人的算术平均数和标准差为:,=1239(元),95.15(元),结论,在平均水平相等的情况下,通过计算标准差,可以用来比较两个同类社会经济现象平均数的代表性:标准差越大,表明标志变动程度越大,平均数的代表性越弱;标准差越小,表明标志变动程度越小,平均数的代表性越强。,离散系数 (coefficient of variation),1. 标准差与其相应的均值之比 2. 对数据相对离散程度的测度 3. 消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为,变异系数实例,经过甲乙两家电器公司工人的工资信息进行搜索整理后了解到:甲公司工人的平均工资为1600元,标准差为230元;乙公司工人的平均工资为1500元,标准差为220元。 解答:,从标准差来看,似乎甲公司的标志变异程度高于乙公司,但从标志变异系数来看,乙公司的标志变异程度高于甲公司,说明甲公司工人平均工资的代表性要更强。,4.3 偏态与峰态的度量,4.3.1 偏态及其测度 4.3.2 峰态及其测度,偏态与峰态分布的形状,偏态,峰态,偏 态,偏态 (skewness),统计学家Pearson于1895年首次提出 数据分布偏斜程度的测度 2. 偏态系数=0为对称分布 3. 偏态系数 0为右偏分布 4. 偏态系数 0为左偏分布,偏态的关系,偏度公式,对偏倚的量度,可以用上面的式子来计算。上式中, 称为偏倚度,S称为标准差, 为均值,Xi为数据值。,偏度的总结,偏倚度可以用来描述分布形态的偏倚程度。 当无偏倚时, 0; 当右偏时, 0,故又称正偏; 当左偏时, 0,故又称负偏。 注意:无论右偏或左偏,一般地说,中位数都在平均数与众数之间。右偏时,在众数的右边;左偏时,在众数的左边。,峰 态,峰态 (kurtosis),统计学家Pearson于1905年首次提出 分布的形状还有平坦与高陡之分,描述它的特征值叫作峰度。 通常,若分布形状陡峭,则较大,若分布形态平坦,则较小。 当 =3,因此常以正态分布的峰度为标准峰; 当 3时,称为高峰度; 当 3时,称为低峰度。,偏态与峰态分布的形状,偏态,峰态,峰度的公式,偏度与峰度的实例,某公司8个销售点一年的销售额(万元)分别为331,333,347,351,341,358,345和362,合计2768,求这组数据的峰度和偏度。且已知方差为105,平均值为346。,偏态与峰态 (从直方图上观察),按销售量分组(台),结论:1. 为右偏分布 2. 峰态适中,某电脑公司销售量分布的直方图,第五节 调查设计,5.1 调查方案的结构 5.2 调查问卷设计,调查方案的结构,调查方案的结构 (survey plan),调查方案的内容,调查目的 (objective of survey),1.调查要达到的具体目标 回答“为什么调查?” 调查之前必须明确,调查对象和调查单位 (Respondent and Survey unit),调查对象:调查研究的总体或调查范围 调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查) 回答“向谁调查?”,调查项目 (Survey items),调查的具体内容 通常表现为表格或问卷 回答“调查什么?”,方案设计中的其他问题,1. 明确调查所采用的方法 2. 确定调查资料的所属时间和调查工作的期限 3. 调查的组织与实施细则,调查问卷设计,什么是问卷? (questionnaires),用来搜集调查数据的一种工具 调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式 不同的调查问卷在具体结构、题型、措词、版式等设计上会有所不同,但在结构上一般都由开头部分、甄别部分、主体部分和背景部分组成,问卷的基本结构,问卷的基本结构,开头,甄别,主体,背景,问候语,填写说明,问卷编号,开头部分 (问候语),女士/小姐/先生 您好!我是市场调查公司访问员,我们正在进行一项有关公众医疗保险意识方面的调查,目的是想了解人们对医疗保险的看法和意见,以便更好地促进医疗保险事业的发展。您的回答无所谓对错,只要真实地反映了您的情况和看法,就达到了这次调查的目的。希望您能积极参与,我们对您的回答完全是保密的。调查要耽搁您一些时间,请您谅解。谢谢您的支持与合作!,开头部分 (填写说明),填写要求: 请您在所选择答案的题号上画圈 对只许选择一个答案的问题只能画一个圈;对可选多个答案的问题,请在你认为合适的答案上画圈 需填写数字的题目在留出的横线上填写 对于表格中选择答案的题目,在所选的栏目内画勾 对注明要求您自己填写的内容,请在规定的地方填上您的意见,开头部分 (问卷的编号),用于识别问卷、调查者、被调查者姓名和地址等 便于校对检查、更正错误,问卷编号 001,甄别部分,甄别也称为过滤,它是先对被调查者进行过滤,筛选掉不需要的部分,然后针对特定的被调查者进行调查 通过甄别,可以筛选掉与调查事项有直接关系的人,以达到避嫌的目的 可以确定哪些人是合格的被调查者,哪些人不是 甄别的目的是确保被调查者合格,能够作为该市场调查项目的代表,从而符合调查研究的需要,甄别部分,S1请问您或您的家庭有没有在下列行业工作的呢? 1广告、公关机构 2市场研究、咨询、调查机构 3电视,广播,报纸等媒介机构 终止访问 4轿车制造 5轿车批发、零售 6以上皆无继续访问 S2请问您的年龄是: 120岁以下终止访问 220岁30岁 330岁40岁 440岁50岁 550岁以上终止访问,主体部分,是调查问卷的核心内容 包括所要调查的全部问题,主要由问题和答案所组成,Q1.您在购买汽 车时主要考虑 哪些因素? Q2.您认为这款 汽车的加速性 能怎么样?,背景部分,通常放在问卷的最后,主要是有关被调查者的一些背景资料 该部分所包含的各项问题,可使研究者根据背景资料对被调查者进行分类比较分析,1.您具体做 什么工作? 2.您的受教 育程度?,背景部分,A出 示 卡 片请 问 您 的 教 育 程 度? (901) 没 受 过 正 式 教 育 1 小 学, 初 中 2 高 中, 职 高, 中 专, 技 校 3 大 专, 大 学 或 以 上 4 B出 示 卡 片请 问 您 的 职 业 和 职 位 是 什 么?(902) 普 通 职 员, 工 人1 部 门 经 理 负 责 人/ 高 级 管 理 人 员 2 公 司 老 板, 厂 长,总 经 理 3 专 业 人 员 4 个 体 户,自 营 职 业 5 失 业, 待 业 6 学 生7 离 退 休 人 员 8 其 他(请注明) 9,提问项目的设计,提问项目的设计,提问的内容尽可能短 用词要确切、通俗 可按6W准则加以推敲。6W即Who(谁),Where(何处),When(何时),Why(为什么),What(什么事),How(如何) 一项提问只包含一项内容 避免诱导性提问 避免否定形式的提问 避免敏感性问题,用词要确切、通俗,请问您使用什么牌子的洗发水?,请问您最近三个月使用什么牌子的洗发水?,您最近一段时间使用什么品牌的化妆品?,您最近一个月使用什么品牌的化妆品?,您觉得这种电视机的画面质量怎么样?,您认为这种电视机的画面是否清晰?,一项提问只包含一项内容,您觉得这种新款轿车的加速性能和制动性能怎么样?,您觉得这种新款轿车的加速性能怎么样? 您觉得这种新款轿车的制动性能怎么样?,避免诱导性提问,人们认为长虹牌彩电质量不错,你觉得怎么样?,您觉得长虹牌彩电的质量怎么样?,避免否定形式的提问,您觉得这种产品的新包装不美观吗?,您觉得这种产品的新包装美观吗?,回答项目(答案)的设计,回答的类型与方法,回 答 的 类 型 与 方 法,开放性问题 (自由回答型),封闭性问题 (选择回答型),两项选择法,多项选择法,顺序选择法,评定尺度法,双向列联法,限制选择型,多项选择型,单项选择型,开放性问题,对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由作出回答 属于自由回答型 优点:比较灵活,适合于搜集更深层次的信息,特别适合于那些尚未弄清各种可能答案或潜在答案类型较多的问题。而且可以使被调查者充分表达自己的意见和想法,有利于被调查者发挥自己的创造 缺点:由于会出现各种各样的答案,给调查后的资料整理带来一定困难,开放性问题,您认为我国目前的广告宣传中,存在的 主要问题是什么? 您对这种捷达新款车有何更具体的看法?,封闭性问题,对问题事先设计出了各种可能的答案,由被调查者从中选择 问题的答案是标准化的,有利于被调查者对问题的理解和回答,也有利于调查后的资料整理 对答案的要求较高,对一些比较复杂的问题,有时很难把答案设计周全 问题的答案是选择回答型,所以设计出的答案一定要穷尽和互斥 回答方法有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法五种,封闭性问题 (两项选择法),答案只有两项,要求被调查者选择其中之一来回答 优点:被调查者只需在二者之中选择一项,回答比较容易;调查后的数据处理也很方便 缺点:得到的信息量较少;当被调查者对两项答案均不满意时,很难作出回答,您有手机吗? 1. 有 2没有,封闭性问题 (多项选择法),在设计问卷时,对一个问题给出三个或三个以上的答案,让被调查者从中选择进行回答 根据要求选择的答案多少不同,有以下类型 单项选择型:要求被调查者对所给出的问题答案选择其中的一项 多项选择型:要求被调查者对所给出的问题答案中,选出自己认为合适的答案,数量不受限制 限制选择型:要求被调

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论