最新电大社会统计学期末备考资料小抄_第1页
最新电大社会统计学期末备考资料小抄_第2页
最新电大社会统计学期末备考资料小抄_第3页
最新电大社会统计学期末备考资料小抄_第4页
最新电大社会统计学期末备考资料小抄_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、什么是统计学? 对与随机现象有关的数据资料进行收集、整理、计算和分析的过程。统计的内容l 统计描述:描述数据,包括资料的整理、分类和简化或特征研究。l 统计推论:使用数据从部分到整体进行推论,包括参数估计、假设检验、回归、列联、方差分析、等级相关等等。统计数据的分类(按计量尺度分) 分类数据(categorical data)n 对事物进行分类的结果n 数据表现为类别,用文字来表述例如,人口按性别分为男、女两类 顺序数据(rank data) n 对事物类别顺序的测度n 数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 数值型数据(metric data) n 对事物的

2、精确测度n 结果表现为具体的数值例如:身高为175cm、168cm、183cm4种测量层次(一)定类尺度定类尺度也称类别尺度或列名尺度,是最粗略、计量层次最低的计量尺度。这种计量尺度只能按照事物的某种属性对其进行平行的分类或分组。它具有和的数学特性。所获得的数据只表示属性或类别。如,性别、态度(赞同、反对)(二)定序尺度定序尺度又称顺序尺度,是对事物之间等级差或顺序差别的一种测度。该尺度不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。该尺度具有和的数学特性,但不能进行加、减、乘、除等数学运算。所获得的数据可以按多少或大小排序。如,名次、能力、喜好度(三)定距尺度定距尺度也称间

3、隔尺度,它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。其结果可以进行加、减运算。所获得的数据有量的大小,还有相等的单位。如,温度0100(四)定比尺度定比尺度也称为比率尺度,它除了具有上述三种计量尺度的全部特性以外,还具有一个特性,那就是可以计算两个测度值之间的比值。这就要求定比尺度中必须有一个绝对固定的“零点”,这也是它与定距尺度的惟一差别。定比尺度可以进行加、减、乘、除运算。所获得的数据有量的大小、相等单位和绝对零点,可以以“倍数”的方式解释。如,身高、体重、时间、绝对温度区分测量的层次和数据的类型十分重要,因为对不同类型的数据将采用不同的统计方法来处理。

4、l 高层次的数据可以采用低层次数据的分析方法,但丢失资料的信息,反之不可。总体和样本 总体(population)n 所研究的全部元素的集合,其中的每一个元素称为个体n 分为有限总体和无限总体n 有限总体的范围能够明确确定,且元素的数目是有限的n 无限总体所包括的元素是无限的,不可数的 样本(sample)n 从总体中抽取的一部分元素的集合n 构成样本的元素的数目称为样本容量参数和统计量 参数(parameter)n 研究者想要了解的总体的某种特征值n 所关心的参数主要有总体均值(m)、标准差(s)、总体比例(P)等n 总体参数通常用希腊字母表示 统计量(statistic)n 根据样本数据计

5、算出来的一个量n 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等n 样本统计量通常用小写英文字母来表示变量(Variable) 说明现象某种特征的概念n 如商品销售额、受教育程度、产品的质量等级等n 变量的具体表现称为变量值,即数据 变量可以分为n 分类变量(categorical variable):说明事物类别的一个名称n 顺序变量(rank variable ):说明事物有序类别的一个名称n 数值型变量(metric variable ):说明事物数字特征的一个名称l 离散变量:取有限个值l 连续变量:可以取无穷多个值随机变量与随机事件l 随机现象:事先无法确定会

6、出现哪种结果的现象。l 随机变量:用一些数字来表示,称这些数字为随机变量。(x1,x2,xi)若xi为每个个体的值,则它也是随机变量;l 随机事件是随机变量的取值;l 随机事件,由一个或几个基本随机事件组成,如点大(四五六)点小(一二三)l 基本随机事件不可再分次数、频率、概率l 次数,又叫频数,用(f)表示l 频率,又叫相对次数,f/n,n为样本量,反映样本特征l 概率,无数次观测后得到的,频率的极限,用(P)表示,P=f/n,n趋近无穷,反映总体特征l 统计概率和古典概率的区别:总体无限与有限统计调查方式抽样调查(Sample survey)1.从总体中随机抽取一部分单位(样本)进行调查2

7、.目的是推断总体的未知数字特征3.最常用的调查方式4.具有经济性、时效性强、适应面广、准确性高等特点普查(census)1.为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄重点调查和典型调查l 重点调查(Key-point investigation)从调查对象的全部单位中选择少数重点单位进行调查调查结果不能用于推断总体 典型调查(Model survey)n 从调查对象的全部单位中选择少数典型单位进行调查n 目的是描述和揭示事物的本质特征和规律n 调查结果不能用于推断总体第二章数据的整理与显示整理与图

8、示分类数据的整理(基本过程)1.列出各类别2. 计算各项指标3. 制作频数分布表4. 用图形显示数据分类数据的整理(可计算的指标) 频数(frequency) :落在各类别中的数据个数 比例(proportion) :某一类别数据占全部数据的比值 百分比(percentage) :将对比的基数作为100而计算的比值 比率(ratio) :不同类别数值的比值分类数据整理频数分布表分类数据的图示条形图(bar Chart) 用宽度相同的条形的高度或长短来表示各类别数据次数或百分比的图形 有单式条形图、复式条形图等形式 主要用于反映分类数据的频数分布 绘制时,各类别可以放在纵轴,称为条形图,也可以放

9、在横轴,称为柱形图分类数据的图示饼图(pie Chart) 也称圆形图,是用圆形及园内扇形的面积来表示数值大小的图形 主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用 绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的顺序数据的整理与图示顺序数据的整理(可计算的指标)l 1.累积频数(cumulative frequencies):各类别频数的逐级累加l 2.累积频率(cumulative percentages):各类别频率(百分比)的逐级累加分组方法单变量值分组(要点)1.将一个变量值作

10、为一组2.适合于离散变量3.适合于变量值较少的情况组距分组(要点) 将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组组距分组(步骤) 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges 提出的经验公式来确定组数K组距分组(几个概念)1. 下限(low limit) :一个组的最小值2. 上限(upper limit) :一个组的最大值3. 组距(class width) :上限与下限之差下限值+上限值2组中值 =4. 组中值(class midpoint) :下限与上限

11、之间的中点值频数分布表的编制(步骤)确定组数:根据Sturges 提出的经验公式得组数K为:确定各组的组距:等距变量在分组中需要注意的问题l 1.组数一般调查总数N与分组K的经验性关系2.组距分组与不等距分组等距分组n 各组频数的分布不受组距大小的影响n 可直接根据绝对频数来观察频数分布的特征不等距分组n 各组频数的分布受组距大小不同的影响n 各组绝对频数的多少不能反映频数分布的实际状况n 需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况。分组数据直方图(histogram) 用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 在直角坐标中,用横轴表示

12、数据分组,纵轴表示各组的频次密度或频率密度,各组与相应的频数就形成了一个矩形,即直方图 直方图下的总面积等于1直方图(直方图与条形图的区别) 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频次密度或频率密度,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,条形图则是分开排列 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据统计表的设计 合理安排统计表的结构 总标题内容应满足3W 要求 数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明 表

13、中的上下两条横线一般用粗线,其他线用细线 通常情况下,统计表的左右两边不封口 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 对于没有数字的表格单元,一般用“”表示 必要时可在表的下方加上注释简化一个变项之分布集中趋势测量法分类数据:众数l 一组数据中出现次数最多的变量值,称为众数。用Mo表示。众数(mode) 一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据顺序数据:中位数l 一组数据排序后,处于中间位置上的变量值,称为中位数,用Md表示。中位数(位置的确定)1

14、.根据原始资料求中位数2.根据频次分布求中位数3.根据分组数据求中位数中位数(median) 排序后处于中间位置上的值 不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据数值型数据:均值l 一组数据相加后除以数据的个数而得到的结果,称为均值,也成为平均数。均值(Simple mean)设一组数据为:x1 ,x2 , ,xn(xN) 均值分组数据求均值(Weighted mean)设各组的组中值为:M1 ,M2 , ,Mk相应的频数为: f1 , f2 , ,fk均值均值: 集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数

15、据,不能用于分类数据和顺序数据众数、中位数和平均数的比较l 1.三值设计的目的是共同的,都是希望通过一个数值来描述整体特征,以便简化资料。众值:适用于定类、定序和定距变量中位值:适用于定序和定距变量均值:适用于定距变量l 2.从对资料的利用程度来区分:众值最低、中位值居中、均值最高。l 3.虽然均值对资料的信息利用最充分,但对严重偏态的分布,会失去它应有的代表性。众数、中位数和平均数的关系对称分布 均值= 中位数= 众数左偏分布均值 中位数 众数右偏分布 中位数均值众数分类数据:异众比率异众比率(variation ratio)1.对分类数据离散程度的测度2.非众数组的频数占总频数的比率3.计

16、算公式为4. 用于衡量众数的代表性顺序数据:四分位差四分位差(quartile)排序后处于25%和75%位置上的值Q1Q2Q325%25%25%25%Md四分位数(位置的确定)未分组数据:分组数据:四分位差(quartile deviation) 对顺序数据离散程度的测度 也称为内距或四分间距 上四分位数与下四分位数之差Q= Q3 Q1 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性极差(range) 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 计算公式为R= max(xi) - min(xi)相对离散程度:离散系数离散系数

17、1. 标准差与其相应的均值之比2. 对数据相对离散程度的测度3. 消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5. 计算公式为 数据类型和所适用的离散程度测度值数据类型分类数据顺序数据数值型数据适用的测度值异众比率四分位差方差或标准差异众比率离散系数(比较时用)平均差极差四分位差异众比率相对位置的测量:标准分数标准分数1. 标准分数,是变量值与其平均数的差除以标准差后的值,也称为标准化值或z分数。5.计算公式为 第三章抽样与统计推论抽样的意义l 社会学研究关注的是总体的情况,不是样本的情况。l 从样本中计算出来的数值,通常成为统计值,在总体中的数值,称为参数值。抽样

18、方法l 一般分为随机抽样和非随机抽样法。l 非随机抽样包括:立意抽样法偶遇抽样法定额抽样法非随机抽样l 立意抽样法l 依据研究员的主观见解和判断,选取他认为是典型的个案。l 偶遇抽样法l 选取一些偶然遇见的个案作为样本,又称为方便抽样法。l 定额抽样法l 根据某些标准将总体分组,然后用立意或偶遇抽样法由每组中选取样本个案。随机抽样l 简单随机抽样l 系统随机抽样l 分层随机抽样简单随机抽样从总体N个单位中随机地抽取n个单位作为样本,每个单位被抽入样本的机会是相等的特点n 简单、直观,在抽样框完整时,可直接从中抽取样本n 用样本统计量对目标量进行估计比较方便局限性n 当N很大时,不易构造抽样框n

19、 抽出的单位很分散,给实施调查增加了困难n 没有利用其它辅助信息以提高估计的效率系统随机抽样首先将全部个案排列起来,按抽样比例分成间隔,并在每个间隔区内按同样的距离选取一个个案。分层随机抽样将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。分层随机抽样 优点n 保证样本的结构与总体的结构比较相近,从而提高估计的精度n 组织实施调查方便n 既可以对总体参数进行估计,也可以对各层的目标量进行估计抽样分布l 抽样分布即显示由同一总体中反复不断抽取不同样本时,各个可能出现的样本统计值的分布情况。l 抽样分布有均值抽样分布、方差的抽样分布、比例的抽样分布等。样本均值的抽

20、样分布(数学期望与方差) 样本均值的数学期望 样本均值的方差比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n第四章参数估计评价估计量的标准无偏性n 无偏性:估计量抽样分布的数学期望等于被估计的总体参数有效性有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效 一致性n 一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数点估计的缺陷1. 没有给出估计值接近总体参数程度的信息。点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围区间估计。区间估计:点估计的基础上,估计总体参数的区间范围

21、,并给出区间估计成立的概率值。其中,称作置信区间 称作置信度,可信度,或置信水平 称作显著性水平。n 置信水平的一般取值:置信水平与的对应关系总体均值的区间估计(正态总体、s已知,或非正态总体、大样本)s已知1.假定条件n 总体服从正态分布,且方差(s) 已知n 如果不是正态分布,可由正态分布来近似(n 30) 总体均值m在1-a置信水平下的置信区间为s未知1.假定条件n 总体服从正态分布,大样本n 如果不是正态分布,可由正态分布来近似(n 30) 总体均值m在1-a置信水平下的置信区间为总体均值的区间估计(大样本)1.假定条件n 总体服从正态分布,方差已知或未知n 如果不是正态分布,可由正态

22、分布来近似(n 30),方差已知或未知 总体均值m在1-a置信水平下的置信区间为总体均值的区间估计(小样本)1.假定条件n 总体服从正态分布,且方差(s) 未知n 小样本(n 30)n 使用t分布统计量总体均值 m在1-a置信水平下的置信区间为第5章假设检验假设检验的基本原理逻辑上运用反证法统计上依据小概率原理1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设大样本的检验方法总体均值的检验(大样本)n 1.假定条件n 正态总体或非正态总体大样本(n30) 使用z检验统计量n s 2已知:n s 2未知:显著水平与临界值:总体均值的检验

23、二总体假设检验n 涉及到两个变量,研究两个变量间的关系二总体假设检验n 基本问题n 大样本二总体检验n 小样本二总体检验n 配对检验基本问题n 二分变量vs多分变量习惯上说的定类变量没有包括二分变量独立配对大样本小样本:已知/未知n 独立样本vs配对样本n 二总体检验的划分z 检验(单尾和双尾) t 检验(单尾和双尾)z 检验(单尾和双尾) c2 检验(单尾和双尾)均值一个总体比例方差一个总体参数的检验第七章等级相关(定序变量-定序变量)第一节等级相关概述n 相关:事物之间存在联系但又不能直接作出因果关系的解释时,称事物间的这种联系为相关n 相关散点图:曲线(非线性)相关、线性相关正相关、负相

24、关零相关、完全相关、不完全相关n 相关系数:两变量间相关程度的数量化指标,用、r表示n 等级相关:研究两个定序变量之间关系第二节等级相关的测量系数n 又称秩相关或名次相关,考虑单个个案在两个变量上的等级差异,测量两变量的相关关系。n 适用于只有两个变量,而且均属于等级变量,具有线性关系的资料;或是等距或等比变量,但其分布不是正态的资料。n 常用符号表示n 适用于两组配对的顺序数据。斯皮尔曼等级相关系数的基本公式基本逻辑:求出在最大可能的等级差异总值中,实际的等级差异所占的比例是多少。斯皮尔曼等级相关系数 的特点1、不仅区别变量之间高低的差异,还计算两者之间的确切数值。2、斯皮尔曼等级相关系数r

25、s是对称测量法,且要求同等级的情况不多。3、斯皮尔曼等级相关系数的取值范围为-1到+1之间,在x与y完全正等级相关时,在x与y完全负等级相关时4、斯皮尔曼等级相关系数具有消减误差比例(PRE)的性质。可见:n 等距或等比性质的变量,若按其取值大小,赋以等级顺序,亦可计算等级相关。n 有些虽是等距或等比变量,但其分布不是正态的资料,计算等级相关。n 缺点:与积差相关比,精度稍差第八章回归与相关回归直线方程的建立与最小二乘法相关的定义设有两个变量x和y。当x变化时引起y相应的变化,但它们之间的变化关系是不确定的。如果当x取得任一可能值xi时,y相应的服从一定的概率分布,则称随机变量y和x之间存在着

26、相关。相关关系的两点特征:1.变量间存在着关系;2.这种关系又是非确定的,或者只存在统计规律性。线性回归模型的基本假定1、自变量x值的测量被认为是没有误差的2、对于x的每一个取值,yi是随机变量,所有yi的方差相等(同方差的假定)3、对于所有的yi,其均值E(y1)、E(y2)E(yn)都在一条直线上(总体线性假定)4、要求随机变量yi是统计独立的,各y值之间没有关系(独立的假定)回归方程有效性的检验 n 线性回归的平方和分解n 线性方程的检验第四节相关相关与回归的比较n 1.而相关系数r正是表现了真实数据与回归直线靠拢的程度。因此如果r系数值愈大,就表示线性回归方程式的预测能力越强。n 2.回归是研究变量间的因果关系的,b值表示自变项对因变项的影响的大小和方向。它是一个分析不对称关系的统计法;相关关系则不一定具有因果关系,r系数假定x与y的关系是对称的,而且r系数的取值范围是-1到+1,而b系数的大小不限于-1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论