版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第1章绪 论,学习目标Learning Objectives,1.什么是统计学 2.统计学在管理中的应用 3.统计学方法的分类 4.统计学基本概念 5.统计学的发展,什么是统计学?,1. 研究对象 随机性、群体性、数量型 例:顾客在某服务系统接 受服务的等待时间 2. 收集数据 例:问卷调查 3.表示数据 图表 4. 描述数据 例:平均数、标准差,4. 数据分析 例:估计、假设检验、回归分析、时间序列分析、独立性分析 5. 作出决策,统计学在管理中的应用,1. 财务领域应用 财务会计 审计查帐 成本核算 2.工业管理领域 生产控制 库存确定 风险投资,3. 人力资源管理 业绩考核 了解员工 提
2、高质量 4.市场营销管理 市场分析 消费者偏好 营销策略,统计学方法的分类,统计学方法,统计描述,统计推断,统计学方法的分类,统计学是从一组数据中抽象出有用信息以支持决策的原理和方法的集合。 统计学的研究领域可以分为两部分: 描述统计学 Descriptive Statistics 推断统计学 Inferential Statistics,统计学方法的分类,描述统计:整理、概括并提供数据的方法以便看出数据间的有用的关系 例如:使用曲线图、饼图、条形图、表格等 推断统计:利用从总体的一个样本中获得的信息来推断总体的特征时使用的方法 例如:估计、检验、预测,统计学方法的分类描述统计,1.描述统计的
3、范围 收集数据 表示数据 把握数据特性 2.描述统计目标 描述数据,1.推断统计的范围 估计 假设检验 2.推断统计的目标 确定总体的特征,统计学方法的分类推断统计,统计学的基本概念,1.总体 (全体) Population 所有感兴趣的对象 2.样本Sample 总体的一部分 3.总体参数Parameter 关于总体的概括性度量 4.统计量Statistic 关于样本的概括性度量,注意: 参数描述总体 统计量描述样本,统计学的基本概念总体与样本,总体:一个统计问题涉及的所有对象 -可能数量巨大 -不一定仅限于人口 例如:北京的汽车、某家公司的全体员工等。 样本:从总体中获得的一组数据 例如:
4、在大学中调查的100个学生 注意:样本不同于普查。普查需对于总体中的每一个成员都进行调查,统计学的基本概念样本与统计量,参数:描述总体的量度 例如:中央电视台春节晚会收视率 例如:人力资源经理的平均工资 统计量:样本的描述指标 位置统计量平均值和中位数; 离散程度统计量标准差、方差和极差; 分布形状统计量偏度和峰度。 例如:对500人作调查得到春节联欢晚会的收视率,统计学的发展,古典统计学时代 政治算术派 国势学派 近代统计学时代 数理统计学派 社会统计学派 现代统计学时代 区间估计理论 假设检验理论,1. 统计新领域 多元统计分析 现代时间序列分析 贝叶斯统计 非参数统计 线形统计模型 数据
5、挖掘 2. 常用软件 SPSS MINITAB Excel,统计学的发展,第章 数据收集方法,学习目标,1.统计数据收集的意义 2.统计数据的计量与类型 3.统计数据的来源 4.统计数据的误差 5.描述企业数据收集过程,思考题 Thinking Challenge,在你读书的大学里,一般会有几个餐厅,在研究餐厅的经济效益时,需要了解学生对餐厅的评价,请思考:用什么办法可以知道学生对学校餐厅食物的评价?,统计数据收集的意义,1.为研究提供素材 2.对表现进行衡量 3. 检验各标准的一致性 3.帮助阐明决策路线 4.满足好奇心 5. 进行知识积累,统计数据的计量与类型,定序尺度 定类数据 定序尺度
6、 定序数据 定距尺度 定距数据 定比尺度 定比数据,计量类型 数据类型,范畴 例:性别:男-女,范畴 由排序导出 例:满意度:高-低,等距区间,能加减 0有含义 例:摄氏度:0oC,成绩:80,等距区间,能加减乘除 0无含义,如0收入=没收入 有意义的比值 例:收入:100,统计数据的计量与类型,定类数据 定序数据 定距数据 定比数据,定类变量 定序变量 数字变量(离散、连续),定性数据,定量数据,例:性别、经济类型,例:教育程度、产品等级,例:成绩、年龄、产量,数据的来源,直接来源 统计调查方式 统计调查方法 间接来源,数据的来源直接来源,直接来源,普查,统计调查方式,统计报表,重点调查,典
7、型调查,抽样调查,选择适合调查方式的方法,数据来源间接来源,国家统计机构 咨询公司、行业分析公司 权威报刊杂志 广播电视传媒 英特网,统计数据的误差,抽样误差 由抽样随机性造成,只存在于概率抽样中。 非抽样误差 覆盖误差被调查总体范围被人为减小 无反馈误差调查回收率太低 道德误差调查人员缺乏业务培训或职业道德 被调查者误差理解有误,有意欺瞒 测量误差测量工具不准确,总体,(学生),样本框架,(电话簿里 的学生),计划选取样本,(选定的学生),实际的,样本,覆盖面误差,抽样误差,不回答和,度量误差,统计数据的误差,企业数据收集过程,明确收集目的 探测性调研 描述性调研 因果性调研 制定数据收集计
8、划 确定数据来源,选择调查方式 制定具体的调查方法 实施数据收集计划,企业数据收集过程,探测性调研(揭示现象) 夏士莲绿茶洗发水受消费者青睐吗? 适合的数据来源:相关领域研究机构的公开数据库、他人的定性研究结果、对顾客进行抽样调查 描述性调研(定量描述) 某家电商场在周日的人流量是多少? 适合的调查方式:大部分的统计调查方式 因果性调研(测试因果关系) 假如在非典期间将某一款产品降价10,会不会有大量消费者购买?消费者的数量能增加多少? 适合的调查方法:观察和实验法,第章描述数据的图表方法,学习目标,1. 定量数据的图表描述 数据整理 单变量描述 双变量描述 2. 定性数据的图表描述 数据整理
9、 单变量描述 双变量描述,单变量定量数据的图表描述,单变量定量数据的图表描述数据整理,统计分组 根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组。 例,收集到某班所有同学的英语考试成绩,为了研究需要划分高、中、低三个成绩段,每个成绩段的范围分别是85-100,70-85,0-70,将每个成绩归入到相应的组中。,单变量定量数据的图表描述数据整理,频数分布表 对定量数据进行分组时,需要建立频数分布表,以便更有效地显示数据的特征和分布。 构成: 频数,各组的单位的次数 频率,各组次数与总次数之比 频数分布,由分组标志序列和各组相对应的分布次数这两
10、个要素构成。 频率分布,由分组标志序列和各组相应的频率构成频率分布。,频数分布表,原始数据: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38,组别,频数, 15 且 25,3, 25 且 35,5, 35 且 45,2,编制频数分布表,1. 选择组数 可参考Sturges的经验公式 3. 计算各组的宽度 宽度 4. 确定组界(上下限) 5. 计算组中值 某组的组中值 6. 根据分组整理成频数分布表 计算每个组的频数、相对频数(即频率),频数分布表实例,原始数据: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38,组界,(上界+下界)/
11、2,组距,组别,组中值,频数, 15 且 25,20,3, 25 且 35,30,5, 35 且 45,40,2,频率,30.0,50.0,20.0,(可参考书上实例),累积频数分布表,为了统计分析的需要,有时要观察某一数值以上或某一数值以下频数或频率之和,这就需要在频数分布表基本分组的基础上绘出累积频数或累计频率。 “向下累积” 由表的上方向表的下方的频数或频率相加 “向上累积” 由表的上方向表的下方的频数或频率相加,小于组别下限的百分数,原始数据: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38,组别下界,30% + 50%,80% + 20%,组别,累计,百
12、分比,15 25,0.0,25 35,30.0,35 45,80.0,45 55,100.0,累积频数分布表实例,(可参考书上实例),单变量定量数据的图表描述数据图形描述(分组后数据),数据分组整理后的图形描述 直方图 用矩形的高度和宽度来表示频数分布 折线图 作用与直方图相似 累积频数分布图 描述累积频数或频率信息,0,1,2,3,4,5,直 方 图,频数 或 频率,01525354555,下界,柱条接触,计数,(可参考书上实例),0,1,2,3,4,5,折线图,中点,虚拟的外推组,0102030405060,组别,频数,15 25,3,25 35,5,35 45,2,计数,(可参考书上实例
13、),频数 或 频率,0%,25%,50%,75%,100%,累积折线图,下界,虚拟的外推组,01525354555,组别,累计 %,15 25,0%,25 35,30%,35 45,80%, 45 100%,累计 %,(可参考书上实例),单变量定量数据的图表描述数据图形描述(未分组数据),数据未分组整理后的图形描述 茎叶图 用于直接描述未分组原始数据的探索性分析 描述数据分布形状,如数据是否集中,是否有极端值等 由茎、叶、每个茎对应叶的个数、茎的宽度这四元素组成 箱线图 用于直接描述未分组原始数据的探索性分析 描述数据的分布形状,如数据是否集中,是否有极端值等 可以比较多组数据分布特征 图中包
14、含五个点组成:样本数据的最小值、下四分位数、中位数、上四分位数、最大值,茎叶图,把每一项观察分解为茎值和叶值 茎值确定组别 叶值确定频数 (计数),Xi,奇异值,箱线图,最大值,最小值,中位数,大于1.5 倍四分位数间距,四分位数 间距范围,箱线图,(可参考书上实例),中间的黑粗线为中位数 方框为四分位间距的范围 离方框上/下界的距离超过四分位数间距1.5倍的为离群值,以 “O” 表示;超过3倍的则为极值,用“*”表示。,多变量定量数据的图表描述,1. 散点图 同时研究两个数字变量的取值 在图上标出所有数对 (Xi, Yi) 2. 时间序列图 表示一列定量数据如何随时间变化 3. 组箱线图 比
15、较多个总体的分布特征 4. 雷达图 用于要同时分析的变量个数较多的情况,多变量定量数据的图表描述,散点图,标出所有数对 (Xi, Yi),(可参考书上实例),时间序列图,年份,(可参考书上实例),组箱线图,单变量定性数据的图表描述,单变量定性数据的图表描述数据整理,频数分布表(又叫总结表) 类似于整理定量数据的频数分布表 包含: 分类的频数或频率,即指落在某一特定类中的观察值数 分类的相对频数,指某个特定类的频数除以观察值总数所得的商 累积频数分布表 类似于整理定量数据的累积频数分布表,频数分布表,(可参考书上实例),单变量定性数据的图表描述数据图形描述,条形图 类似直方图,条形图的横轴表示的
16、是各个分类,直方图的横轴表示所分的组 饼图 通常用来描述落在各个分类中的观察值数分别在总数中所占的比率 累积频数分布图 类似于描述定量数据中的累积频率分布图 帕雷托图 变量的分类数目较多时,用帕雷托图要比条形图和饼图更能直观地显示信息。 广泛应用于过程分析和质量分析中,0,50,100,150,会计,经济,管理,条 形 图,水平条表示类型变量,条长表示频数或者 %,条宽的1/2 到 1 倍,相同的条宽,零点,频数,专业,也可使用百分比,(可参考书上实例),经济,10%,管理,25%,会计,65%,饼 图,1. 表示出总量的分类 2. 是表示相对差异的有效办法 3. 角度大小 360(百分数),
17、专业,36010% = 36,36,(可参考书上实例),0%,33%,67%,100%,会计,管理,经济,帕雷托图,百分数,专业,递减顺序,累积频数分布图,相同的条宽,竖直条形,条的中点,(可参考书上实例),多变量定性数据的图表描述,环 形 图,交 叉 图,多 重 条 形 图,多定性数据的图表描述,1. 环形图 显示具有相同分类且问题可比的多个样本或总体中各类别所占的相应比例,对各总体进行比较研究 在类别值为定序数据时这种比较才有意义 2. 交叉表 可检测两个定性变量的关系 同样可用来描述两个变量都是数字变量,或者一个变量是定类或定序变量,另一个是数字变量之间的关系 3. 多重条形图 描述两个
18、定类或定序变量间关系,多变量定性数据的图表描述,交叉表,住处: CCOOCCOOC O 性别:MFFMMMFMMF (C=校内, O=校外; M=男, F=女),4 1 2 3,性别,住处,男,女,合计,校内,5,校外,5,合计,6,4,10,多重条形图,频数,住处,0 1,2 3,4 5,6,校内 男 女,校外 男 女,第4章 描述统计中的测度,数据的特征和度量,数据的特征和度量,对于描述统计中的测度,主要可以分为三个方面来描述: 一是数据的集中趋势,反映各数据向其中心值靠拢或聚焦的程度; 二是分布的离散程度,反映各数据远离其中心值的趋势; 三是数据分布的形状,即数据分布的偏态和峰度。,4.
19、1 数据分布的集中趋势测度,集中趋势(General tendency)是指分布的定位,它是指一组数据向某一中心值靠拢的倾向,或是表明一组统计数据所具有的一般水平。 对集中趋势进行测度也就是寻找数据一般水平的代表值或中心值。 对集中趋势的度量有数值平均数和位置平均数之分。,4.1 数据分布的集中趋势测度,一、数值平均数,数值平均数又称均值(Mean),是根据统计资料的数值计算而得到,在统计学中具有重要的作用和地位,是度量集中趋势的最主要的指标之一。 平均的对象可理解为变量 ,平均数可记为 。,(一)算术平均数,1简单算术平均数 简单算术平均数是根据原始数据直接计算均值。一般地,设一组数据为,其
20、简单算术平均数计算的一般公式可表达为 :,(一)算术平均数,例如:为了研究目前大学中班级学生人数的情况,从北京某大学抽样五个班级,其学生人数分别为:46,54,42,46,32。我们使用, 分别表示该五个数据,计算其均值,可以写成:,(一)算术平均数,2加权算术平均数 加权算术平均数计算的所依靠的数据是经过一定整理的,即是根据一定规则分组的。可分为 (1)由数列计算加权算术平均数 (2)根据组距计算加权算术平均数,(一)算术平均数,(1)由数列计算加权算术平均数 由单项变量数列计算加权算术平均数的基础是要先将数据进行分组,即将n个数据按变量值(xi)进行分组,并统计在各个变量取值出现的次数,或
21、称为频数( fi )。其加权算术平均数的计算公式如下:,(一)算术平均数,设某班级10名同学的年龄分别为:18,19,17,18,17,18,19,18,18,19。则根据简单平均数的公式,我们可计算得到该班10名同学的平均年龄:,(一)算术平均数,年龄(岁),人数,人数比重,(一)算术平均数,(2)根据组距计算加权算术平均数 选择适当的组距来对数据进行分组,再求加权平均数往往就简单、容易许多。根据组距计算加权平均数的方法与上面所述的数列加权平均数方法基本相同,只需以各组的组中值来代替相应的x值即可,(一)算术平均数,简单算术平均数适用于数据量较少的未分组数据;加权算术平均数则只适用于分组数据
22、,且在进行数据分组时,可以根据每个变量的取值来分组,亦或根据一定的区间来分组,这应该根据所针对问题的具体数据来来选取。 简单算术平均数其数值的大小只与变量值的大小有关;对最终加权平均数大小的影响因素有两个:一是各组变量值的影响;另一个是各组变量值的频数的影响。,(一)算术平均数,加权算术平均数计算公式中频数的大小起着重要作用,当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。 在加权算术平均数计算中当各组变量的权重相等时,则权重的权衡轻重的作用也就消失了,此时
23、加权算术平均数转化为简单算术平均数的计算形式。,(二)调和平均数,调和平均数(Harmonic mean)是均值的另一种重要表示形式,由于它是根据变量值倒数计算的,也叫倒数平均数,一般用字母表示 Hm。 根据所给资料情况的不同,调和平均数可分为:简单调和平均数和加权调和平均数两种。,(二)调和平均数,1简单调和平均数,事实上简单调和平均数是权数均相等条件下的加权调和平均数的特例。当权数相等时,就产生了通常所说的加权调和平均数。,(二)调和平均数,2加权调和平均数 用公式表示为:,由此可以看出,当权重mi相等时,则加权调和平均数则转换为简单调和平均数。,(二)调和平均数,3调和平均数是算术平均数
24、的变形 在一定的条件下,加权调和平均数和加权算术平均数只是计算形式不同,在经济内容上没有实质性的区别,调和平均数是算术平均数的变形,是在缺少总体单位的资料时才被迫使用的计算平均数的一种方法。即:,(三)几何平均数,几何平均数(Geometric mean)是个变量值连乘积的次方根,常用字母表示。它是平均指标的另一种计算形式。 几何平均数是计算平均比率和平均速度最适用的一种方法。 根据掌握的数据资料不同,几何平均数可分为简单几何平均数和加权几何平均数两种。,(三)几何平均数,1简单几何平均数 假定有n个变量值x1,x2,xn,则简单几何平均数的基本计算公式为:,(三)几何平均数,2加权几何平均数
25、 当掌握的数据资料为分组资料,且各个变量值出现的次数不相同时,应用加权方法计算几何平均数。 加权几何平均数的公式为:,二、位置平均数,数值平均数是根据所提供资料的具体数值计算而得到,和我们通常观念中的平均含义比较接近,但结果受极端值的影响而不能真是地反应改组资料的整体集中趋势, 在这种情况下,一般可以考虑用位置中位数取代算术中位数来对数据的集中趋势进行描述。 常用的位置平均数有:平均数、众数、分位数。,(一)中位数,中位数(Median)是度量数据集中趋势的另一重要测度,它是一组数据按数值的大小从小到大排序后,处于中点位置上的变量值。通常用表示Me。 定义表明,中位数就是将某变量的全部数据均等
26、地分为两半的那个变量值。其中,一半数值小于中位数,另一半数值大于中位数。 中位数是一个位置代表值,因此它不受极端变量值影响。,(一)中位数,1根据未分组数据确定中位数 对于未分组的数据,确定其中位数的具体步骤为: (1)将变量按变量值大小从小到大进行排列。 (2)确定中位数的位置,即中点位置。一般的,设一组数据的个数为,则中点的位置为(n1)/2 。 (3)确定中位数。,(一)中位数,如果观测值的数目n为奇数,则(n1)/2为整数,该位置上所对应的变量即为所求的中位数 如果观测值的数目n为偶数,则 (n1)/2为非整数,则取位于中间位置的两个变量值的算术平均数作为中位数。,(一)中位数,2根据
27、单项数列确定中位数 根据单项数列资料确定中位数与根据未分组资料确定中位数方法基本一致。具体步骤为: (1)计算各组的累计次数(或频数) (2)确定中位数的位置, 。 (3)确定中位数。中位数所在组的变量值即为中位数。,(一)中位数,3根据组距数列确定中位数 如果我们掌握的资料是分组后得到的组距数列,则确定中位数的步骤为: (1)确定中位数的位置 。 (2)计算累计次数,据以找出中位数所在的组。 (3)利用以下公式,确定中位数的近似值,(一)中位数,(二)众数,众数(Mode)是一组数据中出现次数最多的那个变量值,通常用MO表示。 如果在一个总体当中,各变量值皆不相同,或各个变量值出现的次数皆相
28、同,则没有众数。 如果在一个总体中,有两个标志值出现的次数都最多,称为双众数。 只有在总体单位比较多、变量值又有明显集中趋势的条件下确定的众数,才能代表总体的一般水平; 在总体单位较少,或虽多但无明显集中趋势的条件下,众数的确定是没有意义的。 众数的确定方法要根据给定资料的具体情况而定。,(二)众数,1未分组资料或单项数列资料众数 观察给定的数据,某个变量出现次数最多,则该变量即为所求众数。这样的方法确定比较容易,不需要计算。,(二)众数,2根据组距变量数量确定众数 具体步骤为:,(三)分位数,中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、八分位数、十分位数和百分位数等。
29、它们分别是用3个点、7个点、9个点和99个点将数据四等分、八等分、十等分和100等分后各分位点上的值。这里只介绍四分位数的计算,其他分位数与之类似。,(三)分位数,1百分位数 百分位数(Percentile)是用99个点将排列好的数据100等分后各能给出从最小值到最大值区间内数据的信息分位点上的值。其中每个部分包含了1%的数据。 百分位数的计算方法与中位数的类似,(三)分位数,升序或降序)进行排列。 (2)确定所求百分位数的位置。 假设求第p百分位数,则该第p百分位数位置为:i=pn/100 (3)确定百分位数。如果计算i的为整数,则直接在排列的数据列中找到第个变量即为所求。若i不为整数,则取
30、位于两侧的变量的平均数作为所要求的百分位数。,(三)分位数,2四分位数 一组数据排序后处于25和75位置上的值,称为四分位数(quartile),也称四分位点。四分位数是通过三个点即将全部数据等分为四部分,其中每部分包含25的数据。 中间的分位数就是中位数。 因此通常所说的四分位数是指处在25位置上的数值(下四分位数)和处在75位置上的数值(上四分位数)。,(三)分位数,设下四分位数为Q1,中间的四分位数为Q2,上四分位数为Q3,则这分三个四位数所在位置: Q1的位置为( n+1)/4 Q2的位置为( n+1)/2,即中位数点的位置。 Q3的位置为3 ( n+1)/4。,(三)分位数,三、众数
31、、中位数与均值的比较,(一)正态分布时三者的关系 正态分布是以算术平均数为对称轴,两边频数相等。其中频数最大的标志值就是数列居中位置的标志值,也就是权数最大、最具有代表性的那个变量值。因此,正态分布时,算术平均数、中位数和众数三者相等,即,三、众数、中位数与均值的比较,三、众数、中位数与均值的比较,(二)偏态分布时三者的关系 频数分布呈偏态时,算术平均数、中位数和众数的计算结果不同。当右偏时,算术平均数大于中位数,而中位数又大于众数,左偏时众数大于中位数,中位数大于算术平均数。 在偏态分布情况下,算术平均数、中位数和众数的上述关系是容易理解的,由于算术平均数受极端值影响,在发生右偏出现较大极端
32、值时,算术平均数将增加得更快,而中位数总是居于中间位置,。 左偏同样可作类似的解释,从而有,4.2 数据分布的离散趋势测度,变量的变异程度的度量则是将变量值的差异揭示出来,反映总体各变量值对其平均数这个中心的离中趋势。变异指标与平均指标分别从不同的侧面反映总体的数量特征。,4.2 数据分布的离散趋势测度,一、极差,极差(Range)也叫全距,常用R表示,它是一组数据的最大值与最小值之差,即:,极差表明数列中各变量值变动的范围。 R越大,表明数列中变量值变动的范围越大,即数列中各变量值差异大;反之, R越小,表明数列中变量值的变动范围越小,即数列中各变量值差异小。,二、四分位距,四分位距(qua
33、rtile deviation)是度量变异数的另一种方法,也称为内距或四分位差,是第一四分位数(下四分位数Q1)与第三四分位数(上四分位数Q3)的差,也就是75%百分位数与25%百分位数间的距离。它代表分布中间50%的距离。常用表示IQR,其计算公式为:,三、平均差,平均差(mean deviation)是变量数列中各个变量值与算术平均数的绝对离差的平均数,常用MD表示。各变量值与平均数的离差的绝对值越大,平均差也越大,则说明变量值变动大,数列离散趋势越大;反之亦然。 根据所给资料的形式不同,对平均差的计算可以划分为简单和加权式平均差两种形式。,(一)简单平均差,对未经分组的数据资料,采用简单
34、平均差,公式如下:,(二)加权式,根据分组整理的数据计算平均差,应采用加权式,公式如下:,四、方差与标准差,方差(variance)是变量数列中各变量值与其算术平均数差的平方。 标准差(standard deviation)是方差的平方根,故又称均方差或均方差根,其计量单位与平均数的计量单位相同。 根据给定资料的不同,对方差和标准差的求解也可以分为两种形式。,(一)简单式,对未经分组的数据资料,采用简单式,公式如下: 方差的计算公式: 标准差的计算公式:,(二)加权式,根据分组整理的数据计算标准差,应采用加权式,公式如下: 方差: 标准差:,五、相对位置和相对离散程度的度量,前面介绍的极差、四
35、分位差、平均差和标准差都是反映数据分散程度的绝对值,其数据的大小一方面取决于原变量值本身水平高低的影响,也就是与变量的平均数大小有关。 因此,在对比分析中,不宜直接用上述各种标志变异指标来比较不同水平数列之间的离散程度,必须剔除数列水平的影响,必须用反映标志变异程度的相对指标来比较,用相对位置和离散系数来反映数列的离散趋势。,(一)标准分数,标准分(standard score)也称标准化值或分数,它是变量值与其平均数的离差除以标准差后的值,是对每个数据在该组数据中相对位置的测量。常用字母z表示,有,(一)标准分数,实际上,分数是将原始数据进行了线性变换,它并没有改变一个数据在该数据组中的位置
36、,也没有改变该组数据的分布形状,而只是将该组数据变为均值为0,标准差为1。 经验表明,不管分布状态如何,按照著名的“切贝舍夫定理”,至少有 75% 的数据位于 ,89的数据位于 ;当一组数据对称分布时,大约有68的数据在范围内 ;大约有95的数据在的范围内 ;而在的范围内大约有98的数据 。,(二)离散系数,离散系数(Coefficient of variation)通常是就标准差来计算的,因此,也称为标准差系数,它反映数列离散趋势的相对程度,是一组数据的标准差与其对应的平均数之比,是测度数据离散程度的相对指标,其计算公式如下:,离散系数的作用主要用于比较不同总体或样本数据的离散程度。离散系数
37、大的说明数据的离散程度也就大,离散系数小的说明数据的离散程度也就小。,4.3 数据分布的形状测度,一、分布偏态测度,偏态(Skewness)是对分布偏斜方向和程度的测度,是次数分配的非对称程度。它与平均数和标准差一样,是反映次数分布特征的又一重要指标。,一、分布偏态测度,偏态通常分为两种:右偏(或正偏)与左偏(或负偏)。它们是与对称分配为标准相比较而言的。,一、分布偏态测度,统计分析中测定偏态系数的方法很多,一般采用动差概念计算,其计算公式为三阶中心动差与标准差的三次方之比。具体公式如下:,一、分布偏态测度,从上式可以看到,它是离差三次方的平均数再除以标准差的三次方。当分布对称时,离差三次方后
38、正负离差可以相互抵消,因而的分子等于0,则=0;当分布不对称时,正负离差不能抵消,就形成了正与负的偏态系数。当为正值时,表示正偏离差值较大,可以判断为正偏或右偏;反之,为负值时,表示负偏离差值较大,可以判断为负偏或左偏。 偏态系数的数值一般在0与3之间,越接近0,分布的偏斜度越小;越接近3,分布的偏斜度越大。,二、分布峰态测度,峰度(Kurtosis)是分布集中趋势高峰的形状,指次数分配曲线顶端的尖峭程度。在变量数列的分布特征中,常常将数分配曲线与正态曲线相比较,判断是尖顶还是平顶及其尖顶或平顶的程度。 峰度通常分为三种:正态峰度、尖顶峰度与平顶峰度。当分配数列的次数比较集中于众数的位置,使次
39、数分配曲线较正态分配曲线更为隆起的,属于尖顶峰度。当分配数列的次数,对众数来说比较分散,使次数分配曲线较正态分配曲线更为平滑的,属于平顶峰度。,二、分布峰态测度,测度峰度的方法一般运用统计动差法,即运用四阶中心动差与标准差的四次方对比,以此来判断各分布曲线峰度的尖平程度。公式如下:,二、分布峰态测度,峰度系数是统计中描述次数分布状态的又一个重要特征值,用以测定邻近数值周围变量值分布的集中或分散程度。它以四阶中心动差为测量标准,除以好是为了消除单位量纲的影响,而得到以无名数表示的相对数形式,以便在不同的分布曲线之间进行比较。由于正态分布的峰度系数为3,当3时为尖峰分布,当3时为平顶分布。,二、分
40、布峰态测度,正态,4.4 用Excel计算描述统计量,在本章的前三个小节中,我们介绍了描述数据集中趋势、离中趋势以及数据分布的常用统计量。但若都用人工手动计算,无疑操作性不强,比较费时且计算的准确率不高。在科技高速发展的今天,计算机成为我们生活中的有力助手。本节将展示如何利用Excel来计算这些统计量。,4.4 用Excel计算描述统计量,在Excel中配备了许多统计函数,为了方便说明,我们以某班50名学生的年龄数据作为示例来进行说明如何应用excel来描述数据的集中趋势、离中趋势及数据的分布状况。,4.4 用Excel计算描述统计量,将这些数据输入到 Excel表的 A1 至 A50 中,然
41、后进行以下操作: 在菜单栏中选择“工具”下拉菜单,并选择“数据分析”选项。,4.4 用Excel计算描述统计量,在“数据分析”对话框中选择分析工具“描述统计”,4.4 用Excel计算描述统计量,点击确定按钮后,出现对话框,在“输入区域”方框内框选取刚才输入的数据区域或者键入A1:A50; 选择“汇总统计”单选框(表明需要输出全部的描述统计量);,4.4 用Excel计算描述统计量,点击“确定”按钮,即得所需结果,如下所示,4.4 用Excel计算描述统计量,在本章介绍的有些统计量如:调和平均数、几何平均数、四分位数、极差等在本表中没有出现,但可以运用Excel的函数工具进行计算,或通过在Ex
42、cel中编写公式来实现。,第5章 概率与概率分布,内容提要,概率及其运算 全概率公式、贝叶斯公式和事件的独立性 离散型随机变量的概率分布 连续型随机变量的概率分布,概率及其运算,事件 /确定性事件 /随机事件 运算: “并” “与” “差” “包含 ”“等价 ” 样本空间 /必然事件 /逆事件 “频率代替概率原则” 事件的概率必须满足两个条件 : 必然事件的概率为1 可列个互不相容事件与并集的概率等于每个事件概率的可列和,概率基本运算,全概率公式,条件概率 事件 是互不相容, 结论5.1 结论5.2 结论5.3,全概率公式和贝叶斯公式 思维路线: 条件概率概念的引进,使得事件的概率运算更加丰富
43、多彩,寻求一些事件的概率,可经过对所求概率的事件进行条件分解,然后再分别进行概率计算,最后进行综合。,全概率公式,定理5. 1 如果事件 是互不相容的事件,且其每个事件发生的概率均大于零,同时事件 的并集构成整个样本空间,即 , 则对于任何事件 有 。,贝叶斯公式,定理5. 2 如果事件 是互不相容的事件,且其每个事件发生的概率均大于零,同时事件 的并集构成整个样本空间,即 ,且 ,则有,两个事件相互独立,例子5. 3 在一个包装箱中有三类产品,其中产品甲、乙和丙分别占40%、50%和10%。产品处于合格和不合格两种状态之一。现已知产品甲、乙和丙的合格率分别为90%、80%和95%。问(1)如
44、果随机地从包装箱抽取一个产品,其是合格的概率为多少?(2)如果抽取的是一个合格品,则这个产品是产品甲的概率为多少?,例子5.4 某商店在某天的顾客中有20%的人购买商品,30%顾客购买商品,25%的顾客购买商品;10%的顾客购买了商品和,15%的顾客购买了商品和,8%的顾客购买了商品和;5%的顾客购买了商品、和。问至少购买一种商品的顾客的比例为多少?,离散型随机变量的概率分布,随机变量(一维随机变量) 二维随机变量 随机变量:离散型和连续型 随机变量的密度函数/随机变量的累计分布函数 /随机变量的特征值,常用的离散型随机变量及其概率分布,伯努利(Bernoulli)分布 二项分布,几何分布 超
45、几何分布,泊松分布(Poisson) 多项分布,连续型随机变量的概率分布,分布函数 密度函数 密度函数的性质,正态分布,指数分布,均匀分布,Gamma分布,贝塔(Beta)分布,分布,分布,分布,概念应用,使用EXCEL绘制正态分布图形 指数分布密度函数曲线的绘制 用EXCEL进行概率密度查表,小 结,本章主要介绍概率与概率分布的基础知识。首先引入了概率的基本概念,什么是随机事件,某随机事件出现的概率怎样计算,以及概率运算的基本法则。其次按照随机变量的特性,把随机变量分为了两类,即离散型随机变量和连续型随机变量。为了能够全面表达随机变量的概率性质,及其在经济管理中的实际意义,引入了随机变量的重
46、要的数字特征:期望值和标准差。离散型随机变量和连续型随机变量都有许多重要的概率分布,本章仅介绍了几种常用的概率分布:01分布,二项分布,泊松分布,正态分布,指数分布等。这对今后理解概率在各种统计推断方法中的作用相当有益。,第6章 抽样分布和参数点估计,内容提要,的抽样分布与中心极限定理 其他抽样分布 参数点估计 点估计的评价准则,为何进行抽样?,总体容量太大 时间 成本 从抽取的样本中获得信息并加以分析,从而认识总体的未知参数,样本均值的抽样分布,一个总体10,5,8,7,10 ,,有放回(with replacement)抽样,一个样本统计量的概率分布被称为该统计量的抽样分布,中心极限定理:
47、 令 是独立同分布的随机变量且具有有限均值 和方差 ,若 则有 成立, 即对应于 的标准化后的随机变量 渐近于正态分布。,中心极限定理的作用,建立起 值与样本均值之间的数值关系 不论该总体服从何种分布,只要当样本容量足够大( ),样本均值的分布都大致服从正态分布。,例:某高校在研究生入学体检后对所有结果进行统计分析,得出其中某一项指标的均值是7,标准差2.2。从这个总体中随机选取一个容量为31的样本。 (1)计算样本均值大于7.5的概率, (2)计算样本均值小于7.2的概率, (3)计算样本均值在7.2和7.5之间的概率。,例:在北京一居室的房租平均为每月1500元,房租的分布并不服从正态分布
48、,随机抽取容量为50的样本,样本的标准差是200元,请问样本均值至少为1600元的概率是多少?,当n 30, 无论总体分布形态如何,中心极限定理均适用; 当n 15, 对于分布较为对称的总体,中心极限定理适用; 当总体是正态分布时,无论样本大小,中心极限定理均适用。,其他抽样分布,样本比例 样本方差 两个样本均值差的抽样分布 两个样本比例差的抽样分布 两个样本方差比的抽样分布,,,,,,,例:已知某高校女生比例为46%,现对全体学生做两次随机抽样,和,求这两次抽样中女生的比例在50%以上的概率。,矩估计法,借助样本矩去估计总体的矩 用样本的一阶原点矩来估计总体的均值 用样本的二阶中心矩来估计总
49、体的方差,例:设某批产品的寿命在上服从均匀分布,但是参数未知,随机地抽取五个产品,测得寿命分别是1265小时,1257小时,1276小时,1269小时和1266小时,试求的矩估计值。,极大似然估计法,由总体概率密度写出样本的似然函数 建立似然方程 求解似然方程 得到,点估计的评价准则,无偏性 有效性 则称 是较 有效的估计量 一致性 ( 为任意小的正数),概念应用,使用Excel,可产生服从二项分布、普阿松分布、均匀分布、正态分布等的随机数。,第7章 参数的区间估计,内容摘要,1. 区间估计的概念和原理 2. 对总体均值的区间估计 3. 对总体比例的区间估计 4. 对总体方差的区间估计 5.
50、计算样本容量,引例,为了估计目前北京市场二手房交易的平均价格,制定相应的营销策略,某房地产中介公司在2005年第四季度的二手房交易中,随机抽取40个交易作为样本,得到二手房交易价格如下表所示(单位:万元)。,根据上述数据如何估计总体的平均价格?如果需要进一步推断房屋款项在43万元以上的交易占全部交易的比例,应当如何分析呢?,统计方法,统计方法,统计描述,统计推断,参数估计,假设检验,点估计,区间估计,区间估计过程,均值是未知的,总体,随机样本,我有 95% 的把握认为 在40和50之间.,均值 = 45,区间估计初步,置信区间,样本统计量,置信下界,置信上界,总体参数落在某区间内的概率,1.未
51、知总体参数落在区间内的概率 2.表示为 (1 置信水平 是参数不落在区间内的概率 3.通常取值 99%, 95%, 90% 即=0.01, =0.05, =0.10,置信水平,置信区间,90% 样本,95% 样本,99% 样本,影响区间宽度的因素,区间的宽度 影响因素: 1. 数据离散度 2. 样本容量 n 3. 置信水平 (1),区间估计的步骤,以总体均值的区间估计为例: 1. 确定置信水平 ; 2. 根据置信水平,查标准正态分布表确定其 值; 3. 实际抽样,并计算样本的均值 和抽样误差 ; 4. 确定置信区间:,区间估计的内容,区间估计,总体均值的 区间估计,总体比例的 区间估计,总体方
52、差的 区间估计,两个总体 均值之差,单一总体,单一总体均值的区间估计(X已知或大样本),1.假设 已知总体标准差 总体正态分布 如果不是正态, 可被正态分布逼近 (样本n 30) 2.置信区间,举例1,沿用引例,假定房地产中介公司从上季度的二手房交易记录中得到以下信息:交易价格的标准差为15万元,于是我们假定总体标准差 =15。试在95%的置信水平下估计二手房平均价格的置信区间。,解答,已知n=40, =15; 计算得到样本均值 ; 由1-=0.95,查标准正态分布概率表得: 于是在95%的置信水平下的置信区间为: 即(40.83,50.13)。结果表明:在95%的置信水平下,二手房交易价格的
53、置信区间为40.83万元50.13万元。,单一总体均值的区间估计(X未知且小样本),1.假设 总体标准差未知 总体服从正态分布 2.用 t 分布 3.置信区间,Z,t,t 分布 (Students t Distribution),0,t (df = 5),标准正态分布,t (自由度df = 11),自由度 (Degree of freedom ),1. 当样本统计量被计算出以后可以自由改变的观测值数目 2. 举例 3 个数之和是 6X1 = 1 (或其他数)X2 = 2 (或其他数)X3 = 3 (不能改变)Sum = 6 自由度df=n1=2,举例2,沿用引例,假定该房地产公司在某日随机抽取
54、16位二手房购买者,得到二手房交易价格如下表所示(万元)。 根据以往交易情况得知:二手房交易价格服从正态分布,但总体方差未知。试在95%的置信水平下估计二手房交易平均价格的置信区间。,解答,已知n=16;计算得到样本均值 ; 样本标准差s=14.175; 由1=0.95,查表得: 于是在95%的置信水平下的置信区间为: 即(35.923,51.027)。 结果表明:在95%的置信水平下,二手房价格的置信区间为35.923万元51.027万元;即该公司可以有95%的把握认为,二手房交易价格介于35.923万元到51.027万元之间。,单一总体均值的区间估计总结,区间估计的内容,区间估计,总体均值
55、的 区间估计,总体比例的 区间估计,总体方差的 区间估计,两个总体 均值之差,单一总体,两个总体均值之差的区间估计 (总体方差为已知),独立样本(Independent sample):两个样本是从两个总体中独立地抽取的,即一个样本中的元素与另一个样本中的元素相互独立。 1.大样本条件下 (1)在两个总体的方差12和22均已知的情况下, 两个总体均值之差的置信区间为:,总体方差未知,1.大样本条件下 (2)在两个总体的方差12和22均未知的情况下,可用两个样本的方差s12和s22代替。 这时,两个总体均值之差的置信区间为:,举例3,沿用引例。从2006年初开始,北京二手房交易价格急剧攀升。为对
56、比2006年第一季度与2005年第四季度二手房平均价格的差异,该房地产中介公司从2006年第一季度的交易中随机抽取36个,得到二手房交易价格如下表所示(单位:万元) 。,举例3,将以上数据和引例中2005年第四季度二手房交易价格进行整理,得到 根据以上数据,试以95%置信水平估计2006年第一季度与2005年第四季度的二手房交易平均价格差值的置信区间。,解答,由于两个样本相互独立,且均为大样本,因此两个样本的均值之差服从正态分布。 在95%置信水平下做出区间估计如下: 即(16.45,0.35)。 结果表明:有95%的把握认为,总体平均价格的差异介于16.45万元0.35万元之间,即2006年第一季度比2005年第四季度的二手房平均交易价格显著上升。,小样本条件下区间估计,2.小样本条件下 (1)当两个总体的方差均已知时,可用式(6-4)建立两个总体均值之差的置信区间 。 (2)当两个总体的方差12和22均未知,且12=22时,可用两个样本的方差s12和s22计算总体方差的合并估计量sp2 。,这时,两个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026黑龙江双鸭山市宝山区人民医院招聘考试备考题库及答案解析
- 2026广东广瀚投资集团有限公司招聘2人笔试备考试题及答案解析
- 2026广东惠州博罗县罗阳街道义和社区卫生服务中心招聘编外工作人员1人考试备考题库及答案解析
- 2026贵州黔西南州政协办公室公益性岗位招聘4人笔试参考题库及答案解析
- 2026江苏南京大学YJ20260131天文与空间科学学院博士后招聘笔试备考试题及答案解析
- 2026上半年广东深圳未来双语学校(龙岗)赴武汉面向应届毕业生招聘教师15人笔试参考题库及答案解析
- 2026舟山市普陀区面向大学毕业生退役士兵招聘事业单位工作人员2人-统考笔试参考题库及答案解析
- 2026广东深圳市罗湖区启智幼教集团招聘1人备考题库附参考答案详解(能力提升)
- 2026年广东轻工职业技术学院单招职业适应性测试题库有答案详细解析
- 2026浙江大学医学院附属第四医院临床岗位招聘3人(3月)笔试备考题库及答案解析
- 2026浙江温州市公安局招聘警务辅助人员42人笔试参考题库及答案解析
- 2026广东茂名市公安局招聘警务辅助人员67人考试参考题库及答案解析
- 2026年希望杯IHC全国赛二年级数学竞赛试卷(S卷)(含答案)
- 中国抗真菌药物临床应用指南(2025年版)
- 2025-2026 学年下学期八年级英语下册教学计划
- 幼儿园春季育儿知识分享:守护成长健康同行
- 2026年六安职业技术学院单招职业适应性考试题库附答案详解(预热题)
- 2025年安徽审计职业学院单招职业适应性测试试题及答案解析
- 2026年春节后复工复产“开工第一课”安全生产培训课件
- 2025年西南计算机有限责任公司招聘笔试真题
- 2026常德烟草机械有限责任公司招聘35人笔试参考题库及答案解析
评论
0/150
提交评论