版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章统计数据的搜集与整理 31.1 总体与样本Population / Universe and Sample 总体选择(往往永远难以真正理解) 样本(总体的代表,数量小,易于理解) 统计分析 推断处理1.1 总体与样本例 1 统计全国人均收入方法1:挨家挨户调查-impossible 方法 2:电话随机访问? 方法 3:网络调查?1.1 总体与样本例 2 调查人工鱼礁区生物资源量方法1:全部捕捞上来测量?-Impossible 方法 2:流刺网采样?方法 3:地笼网采样? 方法 4:摄像?方法 5:?41.1 总体与样本例 3 调查海草的生物量方法1:全部采集上来测量?-impossibl
2、e 方法 2:定点采样?方法 3:随机采样?51.1 总体与样本-几个基本概念总体 (Population or Universe) ,又叫母体: 所有研究对象。样本(Sample):总体的一个部分。抽样(Sampling ): 获得样本的过程重复抽样 (Sampling with replacement)非重复抽样(Sampling without replacement )11问卷调查 1. 班上同学对学校的满意度(百分制) 总体班上所有同学(有限总体) 样本随机抽取15个同学打分(有限总体中的部分) 2. 调查海洋大学 总体所有海洋大学的学生(有限总体) 样本咱们班的同学的问卷能否代替?
3、 如何抽样才是正确的? 选择合适的抽样调查方法 调查:大学生毕业的期望年收入? 方法1:海大1000个同学给答案 方法2:北大1000个同学给答案 方法3:港大抽取1000人给答案抽样过程POPULATIONSAMPLE推断关于样本POPULATION (N)SAMPLE (n)样本是否具有代表性?关于推断推断是否具有可推广性?POPULATION (N)SAMPLE (n)推断颜色个数比例红 430.22黄 250.13蓝 350.18黑 450.23白 450.231.2 频数分布-频数图/表比例0.250.20.150.10.050数量(个)5040302010012March 8, 2
4、017167175636481709952879894625565598057757486938782927188785989685376869498628771646464921.2 频数分布-频数图/表频数分布直方图? 1.2 频数分布-频数图/表11.651321.701431.68154165176187891011121.2 频数分布-直方图/表制作步骤(当数据为整数时) 设定组数(Number of classes):一般520 求组间距-最好是奇数,保证中值是整数 Class width=(Max-Min)/ Number of classes 有小数时向上入( Round up
5、) ;整除时加1单位 Excel 中的函数 Ceiling(x, n),即x向上入到n的倍数(Ceiling(2.3,1)=3) 选定起始点:等于或小于最小值 原则:起始点+组间距*组数 最大值231.2 频数分布-直方图/表制作步骤 确定每组的上限和下限 起始点为第一组下限,依次加组间距得到其他各组下限 第二组的下限-1单位=第一组上限; 第一组上限+组间距=第二组上限,以此类推 组界 下限-0.5单位上限+0.5单位 处理数据 计算频数(率)单程通勤距离(Miles)13471031620174042725821191531714612451841611182312621413715461
6、291834134128361724272991426102437318161216 Example 1. 决定组数通常是个人选择:本例共60个数据,可分为6组2. 决定组距单程通勤距离(Miles)13471031620174042725821191531714612451841611182312621413715461291834134128361724272991426102437318161216Max Min组数1. 计 算 怎样计算组距:有小数时向上入( Round up) ;整除时加1单位单程通勤距离(Miles)134710316201740427258211915317146
7、12451841611182312621413715461291834134128361724272991426102437318161216 8 (稍大点的整数) 组距=47 16 7.7组数 单程通勤距离(Miles)13471031620174042725821191531714612451841611182312621413715461291834134128361724272991426102437318161216组距= 8 相邻两组下限的间隔 组限(下限/上限) 1 8 9 16 17 24 25 32 33 40 41 48 确定组界 (整数) 上组界:上组限+0.5 . 下组
8、界:下组限-0.5. 单程通勤距离(Miles)13471031620174042725821191531714612451841611182312621413715461291834134128361724272991426102437318161216 1 0.5 8 组限1 8 组界0.5 8.5 0.5 8.5 9 16 8.5 16.5 17 24 16.5 24.5 25 32 33 40 41 48 24.5 32.5 32.5 40.5 40.5 48.5 + 0.5 25单程通勤距离(Miles)1347103162017404272582119153171461245184
9、1611182312621413715461291834134128361724272991426102437318161216 组限组界 计数1 8 9 16 33 4041 4825 32 17 240.5 8.5 8.5 16.5 16.5 24.524.5 32.532.5 40.540.5 48.5单程通勤距离(Miles)13471031620174042725821191531714612451841611182312621413715461291834134128361724272991426102437318161216一组的频数是指属于该组的数据的个数14 21 11 6
10、4 4 组限组界 计数1 8 0.5 8.5 频数 8.5 16.5 16.5 24.524.5 32.532.5 40.540.5 48.5 9 16 33 4041 4825 32 17 24 26 定义相对频数=n f =总频数组的频数27 作相对频数表首先,作频数表然后计算每组的相对频数f/n, 其中 f 是组频数,n 是样本容量. 28符号 就是Excel 中的 sum n = f = 60组 14 60 0.23 界 组限频数相对频数1 8 0.5 8.5 14 0.23 9 16 8.5 16.5 21 0.35 17 24 16.5 24.5 11 0.18 25 32 24.
11、5 32.5 6 0.10 33 40 32.5 40.5 4 0.07 41 48 40.5 48.5 4 0.07 2914 21 11 6 0.5 8.5 8.5 16.5 16.5 24.5 24.5 32.5 单程通勤距离(in Miles) Frequency (number of people) 20 15 10 5 Miles0.58.516.524.532.540.548.5 组限 组界 频数1 8 9 16 17 24 25 32 440.5 48.533 40 41 4832.5 40.5 4 300.0740.5 48.533 40 41 4832.5 40.5 0.0
12、7 310.40 Relative Frequency 0.30 0.20 0.10 Miles 组限0.58.516.5 组界单程通勤距离(in Miles) 24.532.540.548.5 相对频数0.23 0.35 0.18 0.10 0.5 8.5 8.5 16.5 16.5 24.5 24.5 32.5 1 8 9 16 17 24 25 32 1.2 频数分布-直方图制作步骤之PPT法 在excel中将数据排成一列 点击PPT里的“插入”+“图表” +“直方图” 选项 将排成一列的数据粘贴入PPT图表的excel数据列中,如数据少于PPT自带数据个数,则删除多余数据 右键点击图,
13、编辑数据,即可进行该操作 选择组数,在PPT/excel中叫“箱数”。也可以改“箱宽度”,结果是否一样? 依据前述原则,设定组数(箱数)5-20 更改图表标题 Done341.2 频数分布-直方图制作步骤之 excel 法 在excel中将数据排成一列 选中数据 插入直方图- 产生默认的直方图 右键点击图表区域,点击“选择数据系列格式”,图右侧会出现选择项 再右键点击图表区域,拉下右上角的下拉菜单,选择“水平分类轴” 填写“箱数”(组数)。(或填写“箱宽度”-组间距:一样吗?) 依据前述原则,设定组数(箱数)5-20 更改图表标题 Done图法1.2 频数分布-直方图制作步骤之 excel 在
14、excel中将数据排成一列,设置第一个为表头 插入 表-选择一个表区域:即数据+表头 选择放置数据 表的位置:现有工作表,点一个cell;或新表 在右侧“数据 表字段”栏,将有表头名字的勾选,拉到“计数项*” 右键点击“行标签”,选择“创建组” 选择起始点,终点,和步长 点击该区域,然后插入图表 Done举例:北京空气质量数据统计 2016年北京空气质量达标198天 其中39天为空气重污染天 发布时间:2017-01-03 14:34:29 来源:中国天气网 北京市环保局3日通报,2016年北京空气质量持续改善,PM2.5年均浓度73微克/立方米,同比下降9.9%,但是这一数值依旧超出国 家标
15、准109%。 2016年,北京空气质量达标天数198天,较2015年增加12天,2016年北京有39天重污染天。 PM2.5年均浓度值有国家标准,根据2012年3月环保部新修订发布 的环境空气质量标准,PM2.5的年均限值为35微克/立方米。 从近几年的情况来看,北京: 2013年PM2.5年均浓度为89.5微克/立方米, 2014年PM2.5年均浓度为85.9微克/立方米 2015年PM2.5年均浓度为80.6微克/立方米。351.2 频数分布-频数图类型 直方图(Histogram) 多边形图(Polygon) 累积频数图(Cumulative frequency graph)39各自特点
16、 1利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图(frequency histogram),简称频率直方图。 2. 频率直方图比频率分布表更直观、形象地反映了样本的分布规律。 3如果将频率分布直方图中相邻的矩形的上底边的中点顺次连结起来,就得到一条折线,我们称这条折线为本组数据的频率折线图(frequency polygon) 4频率分布折线图的的首、尾两端如何处理: 取值区间两端点须分别向外延 伸半个组距,并取此组距上的x轴上的点与折线的首、尾分别相连 5如果将样本容量取得足够大,分组的组距取得足够小,则这条折线趋于 一条曲线,这一曲线称为总体分布的密度曲线。 6. 频率
17、分布表的优点在于数据明显,利于对总体相应数据的计算或说明;频率分布折线图的优点在于数据的变化趋势直观,易于观察数据分布特征,且与总体分布的密度曲线关系密切;频率分布直方图则两者兼顾但两者皆不 足所以三种分布方法各有优劣,应需要而运用1.3 数据的集中趋势 算术平均数 中位数 众数 1.3.1 算数平均数(和) 总体的算术平均数 样本的算术平均数算术平均数 () 运算法则 加权平均数 如求全国的平均工资,不能用各省的平均工资的平均数代替 特点 和每个值大小有关 简单易懂;计算容易 容易受值的影响 例1: 115, 110, 119, 117, 121,126。 例2: 75, 75, 80, 8
18、0,280。401.3.2 中位数-Median 有序数列中点上的数 如果数据个数n为奇数,则为第(n+1)/2 个数 n =11时,. 如果数据个数n为偶数,则为第(n/2) 和( n/2+1)个的平均值n n =12时,. 特点: 和样本数的个数n有关43中位数特点 和样本数的个数有关 容易计算 不受值的影响 例: 23, 28, 28, 31, 32, 34, 37, 42, 50, 61.n=10, Median=? 13, 28, 28, 31, 32, 34, 37, 42, 50, 81.n=10, Median=?1.3.3 众数 出现频率最高的数 有时没有众数:值各不相同 有
19、时一个以上的众数 双众数(Bimodal) 多众数(Multimodal) 例:23, 28, 28, 31, 32, 34, 37, 42, 50, 61.平均数、中位数和众数*7 6 5 频数4 3 2 1 0 42465054586266707478828690 其他443210-1-2-300.10.20.30.4Mean Median Mode F(5,4)00.511.522.533.544.55Mean Mode Median 平均数、中位数和众数对称分布(t)非对称分布(Gamma) 48频率30 25 20 15 10 5 0 平均数、中位数和众数?例:不同颜色gummy b
20、ears数量 # of red Teddy Bears? # of green Teddy Bears? # of yellow Teddy Bears? # of orange Teddy Bears? # of white Teddy Bears? 2 4 5 7 7 平均值 (Mean)?2 red, 4 green, 5 yellow, 7 orange, 7 white2 + 4 + 5 + 7 + 7 = 25 Teddy Bears25/5 = 5The mean of the Teddy Bears is 5.49中位数(Median)?2 red, 4 green, 5 ye
21、llow, 7 orange, 7 white2, 4, 5, 7, 7中位数 为 5.2 red, 4 green, 5 yellow, 7 orange, 7 white2, 4, 5, 7, 7众数 为7.1.4 数据的离散程度 极差Range 方差Variance 标准差Standard deviation 标准误差Standard error 变异系数Coefficient of Variation501.4.1 极差/全距 Range Range = xMax - xMin 极差的单位:与原始值同 能否用于次序变量(Ordinal)? Or 名义变量 (Nominal)? 优点:计
22、算简单,易于理解 缺点: 仅以两个数为基础,不能说明全貌 易受离群值(Outlier)的影响 例2: 75, 75, 80, 80,28052 例1: 115, 110, 119, 117, 121,126。1.4.2 方差 Variance= =() 总体方差(Population variance)()= 样本方差(Sample variance)541.4.3 标准差SD 公式 总体标准差 样本标准差1.4.3 样本标准差SD(N=5) X510152025Total:X-(X-)215-1010015-5251500155251510100750250Variance50SD Sqrt
23、()7.07 计算步骤1.4.3 标准差SD7 7 7 7 7 7 7 8 7 7 7 63 2 7 8 13 Mean = ? SD=?Mean = ? SD=?9 Mean = ? SD=?551.4.3 标准差SD7 7 7 7 7 7 7 8 7 7 7 63 2 7 8 13 Mean = 7 SD=0 Mean = 7 SD=0.63 9 Mean = 7 SD=4.04 561.4.3 标准差SD(Excel) STDEV.S-using the nonbiased or n-1 method. 估算样本的标准偏差 STDEV.P-using the biased or “N m
24、ethod 估算总体的标准偏差621.4.4 Standard error of mean SEA measure of variability among means of samples selected from certain population snSE(Mean) =23456var.s = ? stdev.s = ?SE = ? 1.4.5 变异系数(Coefficient of variation)变异系数又称“标准差率”,是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。公式:CV = SD / 100%作用:反映单位均值上的离散程度,常用在两个总体均值不等的离散程度的比较上。1.5 数据的分布形态n 偏斜度n 峭度1.5 数据的分布形态 统计分析的一个任务就是要分析数据的位置(集中趋势)和变异(离散程度) 表示集中趋势的量 算术平均数 中位数 众数 表示离散程度的量 极差 方差 标准差 标准误差 变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026上半年北京事业单位统考石景山区招聘28人笔试备考试题及答案解析
- 2026广西南宁市青秀区经济部门招聘2人笔试备考题库及答案解析
- 2026新疆水利投资控股有限公司招聘1人笔试参考题库及答案解析
- 2026届云南省文山壮族苗族自治州达标名校初三英语试题3月诊断性测试一模试题含解析
- 天津市部分区五区县2026届初三下学期第一次半月考语文试题含解析
- 河北省邯郸市大名县2026年初三下学期第四次段考英语试题试卷含解析
- 浙江省湖州市名校2026届初三下学期第一次摸拟试生物试题含解析
- 企业文档归档及管理制度化流程
- 职业生涯规划承诺函(3篇)
- 客户回款情况说明函(3篇)
- 【初中 语文】第15课《青春之光》课件-2024-2025学年统编版语文七年级下册
- 2024年海南省烟草专卖局招聘考试真题
- GenAI教育在不同场景下的应用案例分析与演进路径
- 大连重工:中企华评报字(2024)第5436号资产评估报告
- 档案馆数字档案馆建设方案
- GB/T 44815-2024激光器和激光相关设备激光束偏振特性测量方法
- 《房颤抗凝新进展》课件
- 口腔颌面部肿瘤-血管瘤与脉管畸形的诊疗
- 康复质控中心建设思路和工作计划
- 和父亲断绝联系协议书范本
- TB-10414-2018-铁路路基工程施工质量验收标准
评论
0/150
提交评论