版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
长沙民政职业技术学院教案长沙民政职业技术学院教案数学应用基础课题描述性统计分析授课课时2课型新授课教案编号3-1教学目标(知识、技能、素质):1、知识目标:掌握统计的基本概念及用图描述数据;掌握基本统计量的含义及用EXCEL求解统计量2、技能目标:分析解决问题的能力和严谨的逻辑思维能力3、素质目标:培养学生理性的思维方式和数学应用意识教学重点:用图描述数据;掌握基本统计量的含义及用EXCEL求解统计量教学难点:随机变量的分布形状;用EXCEL求常用统计量主要教学方法:启发引导式、讲授法教学环节与内容一、问题引入统计在日常生活和各类职业中有着广泛的应用,例如,在社会学领域,需要调查青年对婚姻家庭、经济收入、相貌等因素的态度以便进行正确引导;在康复医疗领域,需要对患有抑郁症的病人,按照测量得到的指标,进行恰当地归类以便进行有针对性的治疗;在经济活动中,需要考虑商品的市场反应与价格、消费者收入和广告等因素之间的相互关系,以及建立数学模型进行预测等问题。二、新课讲授(1)重要统计概念在一个描述性统计问题中,往往涉及到三个主要概念:总体、样本以及描述性统计。定义1:总体是指研究对象的某一个指标(或多个)全体,组成总体的每一个单元称为个体,总体中所包含个体的总数称为总体容量。定义2:在总体中随机地抽取n个个体,记其指标值为X1,X2,…,Xn,则X1,X2,…,Xn称为总体的一个样本,n称为样本容量,样本中的个体称为样品。注意:从总体中抽取样本可以有不同的方法,为了能由样本对总体做出比较可靠的推断,我们希望样本能很好地代表总体,这就需要对抽样方法提出一些要求,最常用的“简单随机抽样”有如下两个要求:=1\*GB2⑴样本具有随机性,即要求总体中每一个个体都有同等机会被选入样本,这便意味着每一个样品xi与总体X有相同的分布。=2\*GB2⑵样本要有独立性,即要求样本中每一个样品的取值不影响其他样品的取值,这意味着X1,X2,…,Xn相互独立。定义3:用简单随机抽样方法得到的样本称为简单随机样本。定义4:描述性统计分析是通过图表或者数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。(2)用图描述数据在统计中,对数据的描述往往可通过把样本数据转化为对应的统计图,通过统计图直观地描述数据的分布。统计图的类型很多,这里仅介绍用直方图描述区间数据、用条形图和饼图描述名目数据、用散点图描述两变量的关系和用折线图描述时间序列数据等四种形式的统计图。=1\*GB3①用直方图描述区间数据所谓区间数据,是指数据对象是实数的数据,如身高、体重、收入、距离和时间等。直方图是用于区间数据描述的最常用的图示法,又可以分为频数分布直方图和频率分布直方图两种。用直方图描述区间数据的目的主要有:=1\*GB2⑴可以把握总体分布形状、分布的中心位置和总体分布的离散程度;=2\*GB2⑵可以调查分布的中心和规格中心位置的偏差程度,了解工程能力,调查不良品来源等,便于和规格或标准值进行比较。案例1某车间加工装配一种金属制品,产品在装配线上的一道关键工序所需要的时间是该装配线工作效率的一个重要指标,为了了解具体情况,从中抽取了100个样品,其测量数据(单位:秒)见表3-1。试绘制频数分布直方图和频率分布直方图,并描述该直方图。表3-1关键工序所需时间表51.756.954.553.953.753.953.153.154.553.950.651.955.353.553.153.152.953.354.355.757.952.154.953.354.553.353.155.155.555.956.955.154.353.953.955.354.354.755.753.756.754.953.753.556.755.753.154.955.553.556.754.753.553.554.556.152.754.354.953.155.355.353.752.554.354.753.153.955.352.356.155.353.153.355.153.153.353.755.552.753.754.554.553.554.153.353.153.953.752.954.554.953.153.354.552.753.353.554.153.3解绘制频数分布和频率分布直方图一般分为以下四个步骤。第一步计算极差,即样本数据最大值与最小值的差在表3-1的数据中,最小值是50.6秒,最大值为57.9秒,极差为7.3秒,说明关键工序的装配时间变化范围是7.3秒。第二步决定组距和组数把所有的数据分成若干组,每一组的两个端点之间的距离称为组距。根据问题的需要,各组的组距可以相同或不同。本问题中我们作等距分组,即令各组的组距相等。本问题从最小值开始每隔1.5秒作为一组,因为.所以将数据分成5组:,,,,。即组数和组距分别为5和1.5。第三步列频数分布和频率分布表对落在各小组内的数据进行统计,得到各小组内数据的频数和频率,如表3-2所示。表3-2频数分布和频率分布表时间分组频数频率40.04350.35400.40150.1560.06第四步绘制频数分布直方图和频率分布直方图根据表3-2,画出频数分布直方图(如图3-1)和频率分布直方图(如图3-2)。图3-1频数分布直方图图3-2频率分布直方图基于下列特征来描述直方图的轮廓:对称性当我们由直方图的中心画一条垂直于横轴的直线,两边的形状和大小相同时,则其直方图被称为是对称的。如图3-3(1)所示。偏态一个偏态的直方图是指具有一延伸向右或向左的长尾。前者称为正偏态,后者称为负偏态。图3-3(2)为正偏态,图3-3(3)为负偏态图3-3(1)图3-3(2)图3-3(3)众数组个数众数是指发生最多次数的观测值,而众数组则为一具有最多观测值个数的小组。具有单一高峰者(众数组只有1个)称为单峰直方图。如图3-4(1)所示。钟形对称单峰直方图称为钟形。第3章的知识告诉我们,钟形直方图对应的数据一般服从正态分布,而正态分布是概率与统计中最重要的一种分布。如图3-4(2)所示。图3-4(1)图3-4(2)案例2某电缆厂有两台生产设备(A、B),最近,经常有不符合规格值(135~210g)的异常产品发生,现就A、B两台设备分别测量了50个产品,数据如表3-3所示。试分别画出它们的频数分布直方图并分析由直方图所得的结论。表3-3两台设备生产的产品规格值A设备B设备120179168165183156148165152161168188184170172167150150136123169182177186150161162170139162179160185180163132119157157163187169194178176157158165164173173177167166179150166144157162176183163175161172170137169153167174172184188177155160152156154173171162167160151163158146165169176155170153142169148155解分别就A、B两台设备绘制出它们的产品规格值频数分布直方图,如图3-5所示。图3-5(1)A设备图3-5(2)B设备比较这两个直方图,不难得到以下信息:(1)A设备的产品规格值直方图的中心高于B设备的产品规格值直方图的中心;(2)两个直方图都呈现稍微的负偏态。若产品规格值低于135g为不合格产品,则B设备产品异常的可能性更大;如果产品规格值越高,产品质量越好,则A设备的产品的质量会高于B设备。=2\*GB3②用条形图和饼图描述名目数据对名目数据唯一被允许的计算是统计随机变量的每一个可能值出现的次数,进一步借助条形图或者饼图来描述统计结果。案例3一所大学的学生就业指导中心对去年商学院的毕业生进行一项调查以了解其找到的工作的一般领域。就业的领域有会计、财务、一般管理、销售和其他,资料被分别以数字1、2、3、4和5来表示,已整理好的数据如表3-4所示。试绘制相应的条形图和饼图以描述这一组名目数据。表3-4学生就业领域统计表领域毕业生数毕业生比例会计7328.9%财务5220.6%一般管理3614.2%销售6425.3%其他2811.1%合计253100%解条形图由绘制出代表每一个类别的长方形构成,长方形的高代表次数,底则为任意决定的。图3-6为表3-4对应的条形图。图3-6毕业生就业领域条形图图3-7毕业生就业领域饼图如果我们想强调相对次数而不要条形图,我们可以绘制饼图。一个饼图仅仅是一个被分割成若干切片的圆圈,每一块切片代表一种类别的名目数据,它被绘制成能使得每块切片的面积等比例于该类别对应的百分比。例如,一个包含25%观测值的类别由包含360o的25%的一块切片表示,其圆心角等于90o。图3-7为表3-4对应的饼图。=3\*GB3③用散点图描述两变数的关系一种描述两个随机变量间关系的方法称为散点图。案例4某大型牙膏制造企业为了更好地拓展产品市场,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与广告投人之间的关系,从而预测出不同广告费用下的销售量。为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量和投人的广告费用,见表3-5。试根据这些数据,用统计图的方法描述牙膏销售量与广告投入之间的关系。表3-5牙膏销售量与广告费用数据销售周期广告费用(百万元)销售量(百万支)销售周期广告费用(百万元)销售量(百万支)销售周期广告费用(百万元)销售量(百万支)15.57.38116.57.89216.257.6526.758.51126.258.152267.2737.259.521379.1236.5845.57.5146.98.862478.5579.33156.88.9256.88.7566.58.28166.88.87266.89.2176.758.75177.19.26276.58.2785.257.871879286.757.6795.257.1196.88.75295.87.931068206.57.95306.89.26解设纵坐标Y表示牙膏的销售量,横坐标X表示广告费用,绘制散点图如图3-8所示。图3-8销售量相对于广告费用散点图散点图显示,一般而言,广告费用越高,其销售量也就越高,并且销售量可近似地看成随着广告费用的增加而成线性增加趋势。=4\*GB3④用折线图描述时间序列数据时间序列数据常用折线图来描述,即以横轴为时间轴,纵轴为对应时间点随机变量的观测值,将统计数据用对应于平面内的点表示,相邻两点用一条线段连接,形成点划线。案例5已知某商场1978~1998年的年销售额如表3-6所示,试绘制这些数据的折线图并描述其所包含的信息。表3-6某商场1978-1998销售额年份销售额(万元)年份销售额(万元)年份销售额(万元)19783219856419928419794119866919938619804819876719948719815319886919959219825119897619969519835819907319971011984571991791998107解1978~1998年销售额对着年份的变化折线图如图3-10所示。图3-10商场销售额时间序列图结合图3-9,不难发现,该商场的销售额保持基本一致的增长趋势,统计的前四年保持一个较快的增长速度,然后出现10年的小幅波动中增长,90年以后保持一个平稳的增长趋势。这可能跟公司的发展与经营政策的改变有密切联系。(3)常用统计量定义5统计量是统计理论中用来对数据进行分析、检验的变量。=1\*romani)中心趋势中心趋势又称为定位度量或者平均数,是一组数据典型的或者有代表意义的值。由于这些典型值趋向于落在根据数值大小排列的数据的中心,因此被称为中心趋势度量。可以定义中心趋势的统计量包括:算数平均数、几何平均数、中位数和众数等。算数平均数(简称为样本均值):设一个样本的观测值为,样本算数平均数记为,则有.其中,符号“”表示将记作的意思,读成“记作”。几何平均数:度量平均值的另一种方法,特别是在计算平均增长率、平均收益率时被经常使用。中位数:把所有观测值依序排列(递增或递减),位于最中间的观测值就是中位数。当观测值个数为偶数时,则中位数是位于中间的两个观测值的平均数。众数:样本观测值中发生次数最多的观测值。使用众数作为中心趋势统计量,会有两个问题:第一,在一个小样本内,它可能不是一个很好的观测值;第二,它可能不唯一。=2\*romanii)离散趋势除了知道中心趋势外,对数据进行统计描述还需要知道数据围绕中心点是如何分散的,称之为离散趋势。常用的统计量有:极差、样本方差、样本标准差和方差系数等。极差:样本最大观测值和最小观测值之间的差。样本方差:一个样本的观测值为,样本算数平均数记为,样本方差记为,则有.需要注意的是,样本方差的计算公式中,是使用偏差平方和除以,而不是除以,这是因为我们在用样本估计总体时,除以所建立起的统计量是对总体方差更好的估计。样本标准差:样本方差的算术平方根,即。样本方差在比较两组或者更多组数据的离散程度时,是一个很好的统计量。通常,样本方差越大,代表数据本身的离散程度越大。而样本标准差则可以帮助我们了解数据大致集中在哪个区域。方差系数:样本观测值的标准差除以样本均值的结果,即.案例6表3-7给出了东风汽车和上海机场两种股票在12个交易日的价格,试比较两种股票价格在这12个交易日内的活跃程度。表3-7两只股票12个交易日的价格表日期东风汽车上海机场日期东风汽车上海机场200503103.1716.06200503182.9716.52200503113.1616.55200503212.9416.65200503143.1017.27200503222.71171016.82200503232.7416.90200503163.0916.60200503242.7616.86200503173.0216.65200503252.7516.79解分别计算两组样本均值,样本标准差和方差系数,得东风汽车:均值为2.96,标准差为0.176,方差系数为0.059;上海机场:均值为16.74,标准差为0.316,方差系数为0.019。如果从标准差来看,上海机场的股票活跃程度要大于东风汽车,但从方差系数来看,上海机场的方差系数仅为0.019,远小于东风汽车的0.059。两者存在矛盾是因为上海机场的股价要高于东风汽车,因此含有量纲的标准差就会偏高,而采用方差系数考虑了股价的均值,因此能更好地反映股价的活跃程度,因此可以从方差系数做出判断,东风汽车股价的活跃度高于上海机场。=3\*romaniii)分布形状随机变量的分布形状主要包括偏度和峰度。偏度:反映以平均值为中心的分布的不对称程度的量,其计算公式为.其中,为样本均值,为样本标准差,为样本容量。若sk<0,则分布具有负偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;若sk>0,则分布具有正偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而sk接近0则可认为分布是对称的。如图3-11所示。图3-11三种偏态示意图如果偏度表示的是数据分布的对称程度,则峰度用来表述分布的尖锐度或者平坦度,用与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粽子迷宫活动方案策划(3篇)
- 装修签单活动策划方案(3篇)
- 陪伴服务活动方案策划(3篇)
- 妊娠合并衣原体感染:抗生素治疗中的药物相互作用
- 东风车营销方案(3篇)
- 叮咚的营销方案(3篇)
- 摆摊包子营销方案(3篇)
- 椰汁包装营销方案(3篇)
- 网络拔草营销方案(3篇)
- 项目对接营销方案(3篇)
- 室外综合管网施工方案(含给水、热力、排水)
- 2026届陕西省宝鸡市高三下学期二模历史试题(含答案)
- 2026广东广州市海珠区南石头街招聘雇员3人备考题库附答案详解ab卷
- 肾移植患者透析过渡期护理
- XX企业促进科技成果转化管理办法
- 寺院厨房卫生制度
- (2025年)(新版)矿井通风操作工职业技能竞赛考试题(附答案)
- (新教材)2026年人教版一年级下册数学 五 100以内的笔算加、减法 第1课时 笔算减法 课件
- 2025年中职装配式建筑工程技术(构件安装工艺)试题及答案
- 在线绘画课程细分策略
- 洗牙口腔健康知识宣教
评论
0/150
提交评论