




已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学 从数据到结论 第二章数据的收集 2 1数据是怎样得到的 可从报纸 电视 互联网 年鉴等方面看到各种数据并且从这些数据可以提取对自己有用的信息 这些间接得到的 并非自己收集的 数据都是二手数据 2 1数据是怎样得到的 获得第一手数据要困难得多某方便面企业每年至少花三四千万元来收集和分析数据调查其产品及竞争者在市场中的状况 各种类型消费者对其产品的态度 收集各地方的经济交通等信息等等 2 1数据是怎样得到的 他们如同间谍 收集各种情报他们很舍得在这方面花钱 因为市场信息数据是企业生存所必需的 绝不是可有可无的 2 1数据是怎样得到的 在自然的未被控制的条件下观测到的数据 称为观测数据 observationaldata 在人工干预和操作情况下收集的数据就称为试验数据 experimentaldata 同学们自己可以举出大量的观测数据和试验数据的例子 2 2个体 总体和样本 需要调查北京市民对交通规则的观点 对象是所有市民 目的是希望知道市民中对该问题的不同看法各自占有的比例显然 不可能去问所有的北京市民 而只能够问一部分 并且根据这一部分的观点来理解整个北京市民的总体观点 2 2个体 总体和样本 在这个例子中 单个北京市民的观点称为个体 element 所有北京市民对这个问题的观点为一个总体 population 总体是包含所有要研究的个体的集合 2 2个体 总体和样本 而调查时问到的那部分市民的观点 也就是部分个体 称为该总体的一个样本 sample 是总体的一部分 也有可能试图调查所有的人 比如人口普查 那叫做普查 census 2 2个体 总体和样本 在抽取样本时 如果总体中的每一个体都有同等机会被选到样本中 这种抽样称为简单随机抽样 simplerandomsampling 而这样得到的样本则称为随机样本 randomsample 2 2个体 总体和样本 如果总体是一锅八宝粥 随机样本则是充分搅拌后的八宝粥中的任意一勺该勺中的八宝粥的成分比例应该和整个一锅粥类似搅拌越充分 样本的代表性也越好 2 3收集数据时的误差 一勺八宝粥中的成分比例和整锅不尽相同 可能稍微多些或稍微少些 这是很正常的 因为样本的特征不一定和总体完全一样这种差异不是错误 而是必然会出现的抽样误差 samplingerror 2 3收集数据时的误差 抽样调查中 人们因为种种原因没有对调查做出反映 这种误差称为未响应误差 nonresponseerror 一些人因为各种原因回答时并没有真实反映他们的观点 这称为响应误差 responseerror 2 3收集数据时的误差 和抽样误差不一样 未响应误差和响应误差都会影响对真实世界的了解应该在设计调查方案时和进行调查过程中尽量避免 2 4抽样调查时获得数据的一些常用方法 在抽样调查时 最理想的样本是随机样本 但是实践起来不方便在大规模调查时一般不用全部随机抽样的方式 而只是在局部采用随机抽样的方法 2 4抽样调查时获得数据的一些常用方法 下面介绍的几种抽样方法没有深奥的理论 读者完全可以根据常识判断在什么情况下获取简单的随机样本不方便以及每个方法有什么好处和缺陷 实际上 一般仅有少数人有机会来确定抽样方案 读者仅需把这些方法当成常识来了解就可以了 或者跳过这部分 2 4抽样调查时获得数据的一些常用方法 分层抽样 stratifiedsampling 这是先把要研究的总体按照某些性质分类 stratum 再在各类中分别抽取样本 比如 按教育程度把感兴趣的人群分成几类 再在每一类中调查和该类成比例数目的人 以确保每一类都有相应比例的代表 2 4抽样调查时获得数据的一些常用方法 整群抽样 clustersampling 先把总体划分成若干群 cluster 再 通常是随机地 从这些群中抽取几群 然后再在这些抽取的群中对个体进行简单随机抽样 比如 在某县进行调查 首先在所有村中选取若干村子 然后只对这些选中的村子的人进行调查 如果各村情况差异不大 这种抽样还是方便的 2 4抽样调查时获得数据的一些常用方法 多级抽样 multistagesampling 在群体很大时 往往在抽取若干群之后 再在其中抽取若干子群 甚至再在子群中抽取子群 等等 最后只对最后选定的最下面一级进行调查 比如在全国调查时 先抽取省 再抽取市地 再抽取县区 再抽取乡 村直到户 每一级都可能采取各种抽样方法 也称为多级混和型抽样 2 4抽样调查时获得数据的一些常用方法 系统抽样 systematicsampling 这是先把总体中的每个单元编号 然后随机选取其中之一作为抽样的开始点进行抽样 在选取开始点之后 通常从开始点开始按照编号进行所谓等距抽样 也就是说 如果开始点为5号 距离 为10 则下面的调查对象为15号 25号等等 不难想象 如果编号是随机选取的 则这和简单随机抽样是等价的 附 随机数的产生 大小为N的总体中产生样本量为n的随机样本的一个常用的方法是利用随机数 randomnumber 利用随机数步骤为 1 把总体的所有个体编号 2 产生n个在0到N之间的随机数 3 与如此产生的随机数中的数目相同的个体则形成了样本量为n的简单随机样本 附 随机数的产生 最原始的办法是掷一种正20面体的均匀材料制成的骰子 标有两套0到9的数字 每次产生一个0到9的数字 另一种是查阅随机数表 在一些传统的统计教科书后可以找到随机数表 也有专门的随机数表的册子今天 多用计算机产生的伪随机数 pseudo randomnumber 来代替真正的随机数 统计学 从数据到结论 第三章数据的描述 在对数据进行深入加工之前 总应该对数据有所印象 可以借助于图形和简单的运算 来了解数据的一些特征 由于数据是从总体中产生的 其特征也反映了总体的特征 对数据的描述也是对其总体的一个近似的描述 3 1如何用图来表示数据 3 1 1定量变量的图表示 1 直方图 对于一个定量变量 比如某个地区 地区1 测量了163个高三男生的身高 S3height1 txt 用图形来表示这个数据 使人们能够看出这个数据的大体分布或 形状 的一个办法是画直方图 histogram 图3 1就是利用这个数据由SPSS软件所画的直方图 该图的横坐标是身高区间 这里每一格代表5cm的身高范围 格子宽度因不同的数据性质或要求而定 这里的格子宽度为5cm 而纵坐标为各种身高区间的身高的频数 直方图 3 1 1定量变量的图表示 2 盒型图 简单一些的是盒形图 boxplot 又称箱图 箱线图 盒子图 图3 2的左边一个是根据地区1高三男生的身高数据所绘的盒形图 其右边的图代表另一个地区 地区2 的高三学生的身高 height txt height sav 第三章例 xls 盒型图 盒子的中间横线是数据的中位数 median 封闭盒子的上下两横线 边 为上下四分位数 点 按照SPSS的默认选项 如果所有样本中的数目都在离四分位点1 5倍盒子长度之内 则线的端点为最大和最小值 否则线长就是1 5倍的盒子长度 盒子长度称为四分位间距 在其外面的度量单独点出 3 1 1定量变量的图表示 3 茎叶图 在直方图和盒形图中 很难恢复数据的原貌 而另一种图 茎叶图 stem and leafplots 可以恢复数据以地区1高三男生身高为例 图3 3 茎叶图既展示了分布形状又有原始数据 它象一片带有茎的叶子 茎为较大位数的数字 叶为较小位数的数字 茎叶图 其中茎叶图中茎的单位为10cm 而叶子单位为1cm 比如 由于第一行茎为150cm 因此叶子中的九个数字001223344代表九个数目150 150 151 152 152 153 153 154 154cm等 每行左边有一个频数 比如第一行有9个数目 第二行有17个等等 可以看出最长的一行为从165cm到169cm的一段 有35个数 3 1 1定量变量的图表示 4 散点图 数据会有两个变量 如美国男士和女士初婚年限数据 marriage txt 该数据描述了自1900年到1998年男女第一次婚姻延续的时间 这里年份是一个变量 婚姻延续时间是第二个变量 由于不可能将所有人的婚姻年限都给出来 所以每年就取了一个中间的值 中位数 作为代表 散点图 3 1 2定性变量的图表示 饼图 定性变量 或属性变量 分类变量 不能点出直方图 散点图或茎叶图 但可以描绘出它们各类的比例 下面用SPSS绘的图3 5 饼图 piechart 表示了说世界各种主要语言人数的比例 language txt 饼图 3 1 2定性变量的图表示 条形图 而用同样数据画的图3 6称为条形图 barchart 从每一条可以看出讲各种语言的实际人数 而且分别给出了每个语种中母语和日常使用的人数 在图中并排放置 条形图显示比例不如饼图直观 条形图 3 2如何用少量数字来概括数据 大量的数字既繁琐又不直观 需要对数据做人们时间和耐心所允许的简化我们可以用 平均 差距 或百分比等来概括大量数字 由于定性变量主要是计数 比较简单 常用的概括就是比例或百分比 下面主要介绍关于定量变量的数字描述 3 2如何用少量数字来概括数据 可用少量所谓汇总统计量或概括统计量 summarystatistic 来描述定量变量的数据 这些数字是从样本数据得来的 因而也是样本的函数 任何样本的函数 只要不包含总体的未知参数 都称为统计量 statistic 样本的随机性决定统计量的随机性 统计量也是随机变量 3 2如何用少量数字来概括数据 概括统计量经常对应于总体的无法观测到的某些参数 这时 统计量可作为这些参数的估计 一些统计量还可以用来检验样本和假设的总体是否一致 3 2如何用少量数字来概括数据 注 一些统计量前面有时加上 样本 二字 以区别于总体的同名参数 如 样本均值 和 样本标准差 以区别于总体均值和总体标准差 但在不会混淆时可以只说 均值 和 标准差 3 2 1数据的 位置 数据有位置吗 这里三个数据的位置一样吗 3 2 1数据的 位置 位置 一般是关于数据中某变量观测值的 中心位置 或者数据分布的中心 center或centertendency 和这种 位置 有关的统计量就称为位置统计量 locationstatistic 位置统计量当然不一定都是描述 中心 了 比如后面要讲的k百分位数 或k 分位数 3 2 1数据的 位置 最常用的位置统计量就是小学时所学到的算术平均数 它在统计中叫做均值 mean 严格地说叫做样本均值 samplemean 以区别于总体均值 如果记样本中的观测值为x1 xn 则样本均值定义为 样本 中位数 median 是数据按照大小排列之后位于中间的那个数 如果样本量为奇数 或者中间两个数目的平均 如果样本量为偶数 由于中位数不易被极端值影响 所以中位数比均值稳健 robust 3 2 1数据的 位置 上下四分位数 或分别称为第一四分位数和第三四分位数 firstquantile thirdquantile 则分别位于 按大小排列的 数据的上下四分之一的地方 3 2 1数据的 位置 3 2 1数据的 位置 一般地还称上四分位数为75百分位数 75pecentile 有75 的观测值小于它 下四分位数为25百分位数 有25 的观测值小于它 一般地 k百分位数 k pecentile 意味着有k 的观测值小于它 如果令a k 则k百分位数也称为a分位数 a quantile 样本中出现最多的数目 称为众数 mode 3 2 2数据的 尺度 这两个数据 胖瘦 一样吗 3 2 2数据的 尺度 数据中数目的分散程度由尺度统计量 scalestatistic 来描述 尺度统计量是描述数据散布 即描述集中与分散程度或变化 spread或variability 的度量 3 2 2数据的 尺度 从前面两个高三男生身高数据的盒形图 左边的数据平均要高些 但右边的数据散布范围要小得多 统计中有许多尺度统计量 一般来说 数据越分散 尺度统计量的值越大 3 2 2数据的 尺度 极差 range 就是极大值和极小值之间的差 前面两个高三男生身高数据的极差分别为50cm和32cm 盒形图盒子的长度为两个四分位数之差 称为四分位数极差或四分位间距 interquantilerange 它描述了中间半数观测值的散布情况 极差和四分位极差实际上各自只依赖于两个值 信息量太少 3 2 2数据的 尺度 另一个常用的尺度统计量为 样本 标准差 standarddeviation 度量样本中各数值到均值距离的一种平均 标准差实际上是方差 variance 的平方根 如果记样本中的观测值为x1 xn 则样本方差为 3 2 2数据的 尺度 两个均值一样 但右边的要 胖 些 方差为左边的一倍 3 2 3数据的标准得分 假定两个水平类似的班级 一班和二班 上同一门课 但是由于两个任课老师的评分标准不同 使得两个班成绩的均值和标准差都不一样 数据 grade txt 3 2 3数据的标准得分 一班分数的均值和标准差分别为78 53和9 43 而二班的均值和标准差分别为70 19和7 00 那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢 怎么比较才能合理呢 3 2 3数据的标准得分 虽然这种均值和标准差不同的数据不能够直接比较 但是可以把它们进行标准化 再比较标准化后的数据 一个标准化的方法是把某样本原始观测值 亦称得分 score 和该样本均值之差除以该样本的标准差 得到的度量称为标准得分 s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45676-2025增材制造金属粉末含水量的测定卡尔费休库伦法
- 苯胺产业实施方案
- 不育症的遗传学机制
- 脑梗塞护理指南
- 湖北省孝感市孝昌县2024-2025学年八年级下学期6月期末数学试题(含部分答案)
- 2025年天津市南大附中高一期中-政治试卷
- 小班便当活动方案
- 岐山宣传活动方案
- 巴士广告策划活动方案
- 小航空公司团购活动方案
- 2025年春人教版英语七年级下册 Unit 7 A Day to Remember(教学设计)
- 小学信息技术五年级上册第3课《流程图描述算法》教学设计
- 市政工程计量表格样表
- 职业院校教师人工智能素养:内涵流变、框架构建与生成路径
- 封装车间预防错漏混报告
- 2024年教师招聘考试教育综合理论知识复习题库及答案(共600题)
- GB/T 12412-2024牦牛绒
- 专项10:现代文阅读 媒体文阅读(练习)-【中职专用】2025年对口升学语文二轮专项突破(解析版)
- 互联网企业产品经理聘用合同
- 产品检验知识培训课件
- 课程委托协议合同范例
评论
0/150
提交评论