沈浩课堂笔记_第1页
沈浩课堂笔记_第2页
沈浩课堂笔记_第3页
沈浩课堂笔记_第4页
沈浩课堂笔记_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 调查统计中的统计分析方法考点整理第一章 绪言1、 Pascal 和Fermat 提出了“概率”这一概念,用来描述某一事件发生的可能性。2、 Pearson提出了“频度分布”、“频度分布函数”、“回归”、“相关”“拟合度”等概念。3、 Gorsset苦心钻研统计理论,终于想出了一种小样本的检验方法T检验,由此诞生了小样本检验理论。他的伟大功绩在于从统计的意义上明确了推断、检验的含义及其与数学的关系,创立了估计理论和检验理论等统计的理论体系,开拓了统计学的新领域,也就是创立了与过去的描述性统计学所不同的推断性统计学。4、 所谓社会调查,曾被认为是要对全部对象(总体)进行全面调查,从而为将来制定计

2、划和决策准备基础资料。但是,全面调查从时间和经济上都是十分困难的,可以进行部分调查及抽样调查,这样在从时间上和经济上都是合算的。根据抽样调查的结果,可以对总体的状况进行估计和推断。实际上各国在经济统计、国势调查、社会调查、收视率调查、民意测验上等,采用的几乎都是抽样统计。5、 现代统计学有以下几个特点:(1)随着实际应用的需要,对数理统计理论和方法提出了越来越高的要求,从线性到非线性、从低维到高维、从显在到潜在、从连续到离散等;(2)计算机及其相应的统计软件已经成为统计工作者不可缺少的工具,如SPSS、SAS、DATA-TEST、STATA等(3)现代统计学正逐步成为一门通用的研究、如何合理的

3、有效的获取、整理和分析数据的交叉性学科。第一部分 基础统计学第一章 统计学的性质1、 统计学是一门方法论的学科,是如何从不确定性中做出明智决定的一门(使人聪明的)技术。统计学是关于通过取自某总体的样本来描述和推断该总体的方法,为了避免偏差,样本必须是随机抽取的。于是必须构造一个置信区间,它包括一个表示抽样不确定性的误差范围。、在大样本中,用样本比例P来估计总体比例就可靠得多。对于简单随机抽样,置信度为95%的置信区间是=P±1.96 其中和P分别表示总体和样本的比例,n为样本量(大样本公式)。对于的估计并不是确确实实给出的,只有95%正确,有5%的可能性会抽到一个很偏的样本;但随着样

4、本量的增大,误差范围缩小了。总之,通过随机抽样,我们可以对未知的总体做一个“无偏的”估计,这是一个包含有不确定性的置信空间。3、双盲试验,随机的将试验对象分为两个组,即试验组和对照组,但试验者和试验对象都不知道分组情况。4、 确定一个处理是否有效的试验中,怎样避免误差?必须采用随机抽样的方法来决定让谁来接受处理以及让谁留下作为对照着。而且对于任何有可能对结果产生偏见的人,都应该避免使他了解是谁接受了处理而谁没有。第二章 描述性统计1、 描述性统计是对调查样本中所包含的大量数据资料进行整理、概括和计算,它是推断性统计的基础。2、 测量可以分为四个等级:名称级、顺序级、间隔级和比例级。名称级用于测

5、量“定类变量”的“值”,这是最低级别的测量等级;顺序级用于测量“定序变量”的值;间隔级用于测量“定距变量”的值;比例级用于测量“定比率变量”,这是最高的测量级别。如果测量的零点有确定的实际意义,那么测量就达到了比例级。3、 以上四类中,名称级的级别最低,比例级的最高。不同级别的变量在进行统计分析时要注意使用相应的统计方法。一般情况下,测量级别高的变量可以当作测量级别低的变量来分析,但反过来一般是不可以的。不过在社会科学的研究中,由于定序变量可以赋予一定的得分值,习惯上也常常把它当作定距变量来处理。因此定类变量是属于定性型的(或非数值型的);定距和定比变量是属于定量型的(或数值型的),而定序变量

6、则根据具体情况,既可以看成定性型的也可以看成是定量型的。4、 统计量是一个不包含任何未知参数的样本函数。5、 频数表和直方图是最常用的定量而直观的整理和描述数据的手段之一,它们在表示相对频率上是很有用的。6、 众数(mode)表示流行、时兴之意,有众多的意思。因此一个分布的众数就定义为出现次数最多的变量值。它特别适用于定类和定序变量。7、 中位数(median)就是第50百分位数点上的值。将样本的n个观测值重新由小到大排序,中间位置上的那个值就叫中位数。由于中位数的定义依赖于数据的大小顺序,因此它不适合于定类变量。对于定序和定距变量,特别是对于分布很不规则的情况,中位数是比较理想的统计量之一。

7、8、 均值、中位数和众数的比较:如果x的分布是单峰的对称分布时三者是一致的;对于一个偏斜的分布,相对于众数,中位数朝长尾巴方向偏离了一些,而均值则偏离得更远。当分布比较有规则即不存在极端值时,用均值代表分布的中心比较好;而在有极端值时,则用中位数更合适。众数虽然稳定性最差,但在有些情况下却十分方便。 均值中位数众数适用于定距或定比变量主要适用于定序变量主要适用于定类变量最稳定较均值的稳定性差最不稳定计算时要用到全部数据只需中间的数据可最快速求出受极值的影响对极端值不敏感有时对个别值的变动也很敏感分组变化时影响不大分组变化时有些影响分组变化时影响最大9、 描述分布形状的五种最常用的:极差、四分位

8、数间距、均方差、方差和标准差。(1)极差(也叫全距)就是最大值与最小值之间的距离:极差R=最大观测值最小观测值(2)四分位数间距也叫四分位数偏差或四分位差。通常将数据按从小到大的顺序排列后,用三个四分位数点Q1、Q2、Q3 将其分为四部分。Q1是第25百分位数点或叫低四分位数点;Q2是第50百分位数点即中位数;Q3是第75百分位数点或叫高四分位数点。四分位数间距IQR规定为Q1和Q3之间的距离。若IQR比较小,则说明数据比较集中在中位数附近;反之则比较分散。IQR经常和中位数一起用来描述一个定距特别是定序测量数据的分布。四分位差IQR= Q3Q1(3)均方差又叫平均平方偏差,它是对分布的变化性

9、较全面的一个度量。均方差(4)方差和标准差 方差方差和均方差的差别仅在于除数是,而不是,但当无穷大时,两者相同。标准差 通过取平方根,标准差的单位和原始数据的单位就一致了。(5)四者的比较标准差四分位数差级差适用于定距或定比变量主要适用于定序变量适用于定距或定比变量最稳定较标准差的稳定性弱最不稳定计算时要用到全部数据只需要其中两段的数据只需要两个值,可快速估算受极端值的影响较大对极端值不敏感只对极端值的变化敏感一般说来,样本均值是对分布中心最普遍的度量,而样本标准差是对分布形状最常用的度量。有时我们称和为样本的一阶矩和二阶矩。10、 习惯上,称信息的个数为自由度。一个自由度被均值使用,余下的(

10、n-1)个自由度留给了方差,这就是为什么方差的除数为(n-1)。11、 利用相对频率进行计算:也就是说,是所有组中值X的加权之和,加权系数就是对应组的相对频率。类似地可以得到利用相对频率计算均方差的公式12、 描述分布形状的另外两个统计量为斜度和峰度。斜度(Skewness)和峰度(Kurtosis)用于描述数据的分布于正态分布之间的差异程度。正态分布可以用一条呈铃状的对称曲线来表示。斜度表示分布与正态曲线相比的不对称程度和方向。如果分布是对称的,则斜度为零;如果偏向左边,斜度为正;如果偏向右边,则斜度为负;不对称的程度越厉害则斜度的绝对值也就越大。峰度表示分布于正态曲线相比的冒尖程度或扁平程

11、度。如果分布与正态曲线的形状相当,则峰度为零;如果比正态曲线瘦高则为正,反之为负。冒尖或扁平的程度越厉害,峰度的绝对值也就越大。13、 原始数据可以用频数分析表的形式来整理概括,并用直方图来表示。均值和标准差也可以用相对频率分布来计算。14、 分布中心最常用的统计量是均值。描述分布形状最常用的统计量为标准差。第三章 概率分布 补:随机变量可以定义为是一个随机试验或观察的数量结果,习惯上是用一个大写字母来表示。1、 推断性统计即通过样本的信息对未知总体进行推断。2、 概率=相对频率(在统计意义下)的极限。(概率是随着样本量n越来越大时相对频率在统计意义下的极限)。相对频率之和必须等于1,同样,所

12、有概率之和也应等于1。3、 我们称P(X)为X的概率分布;我们称为“概率分布的均值”或“总体均值”,也叫做“随机变量X的均值”,因为它是基于整个总体的。X的均值也叫“平均数”或“期望值”。在任何一种单个的试验中,均值并不是可以得到的值,而是重复多次试验后所能期望得到的平均意义上的值。在数学上,均值的意义也是很明确的,它等于X的值乘以它们的概率P(X)的加权和,即定义。我们称为样本均值。和分别表示总体方差和样本方差。补:极限情况下的标准差称之为“概率分布的标准差”或“总体的标准差”,用希腊字母表示。总体的均值与方差也叫做总体的“一阶矩”和“二阶矩”。4、 二项变量:我们将问题叙述如下:每次试验的

13、结果只会是两种可能之一,我们一般称之为“成功”和“失败”。而且每次成功和失败的概率不变,我们分别用和(1-)来表示每次试验成功和失败的概率。那么在n次重复试验中成功的总次数X就称为二项变量。X的概率分布就叫做二项分布。成功的总次数等于的概率可以用如下的简单公式表示:(k=0,1,2,n),其中n=重复试验的次数,k=成功的总次数,=成功的概率,=二项系数。这个公式成立有一个重要的假设:n次试验是彼此相互独立的(或称为统计意义上相互独立的)。我们称n个试验是相互独立的,其含义是:每一个试验的概率并不会因为其他试验的结果而受到影响,即每次试验出现某种结果的概率是彼此不受影响的。当试验由具有同样成功

14、机会的相互独立的试验所构成时,成功的总次数X叫做二项分布变量。5、 随着样本的增大,随机因素的影响减少,相对频率趋向于概率。同时,样本量的增大也使更精细的分组有了可能。在面积固定为1同时,相对频率密度近似的变成一条曲线,我们称之为概率密度函数,简称概率分布。对于连续型随机变量,其概率由一条连续的分布曲线(概率密度曲线)下面的面积给出。6、 对于许多连续型随机变量来说,其概率分布是一种呈钟形的对称曲线,叫做正态曲线或高斯曲线。7、 正态分布中最简单的是标准正态分布,也简称Z分布。它是均值的正态分布。8、 例3-10,P689、 任何正态变量都可以转化成标准正态变量。10、 在任何正态分布中,68

15、-95-99.7的规则都近似成立。即大约有68%的数据,落在距平均值一个标准差的范围内;大约有95%的数据,落在距平均值两个标准差的范围内;大约有99.7的数据落在距平均值三个标准差的范围内。第四章 抽样1、 所谓简单随机抽样,是当我们每抽取一个观察时,总体中所有个体被抽取的可能性都是相同的。通常的方法有如下两种:用抽签的方法和随机数字。2、 如果我们进行的是有放回的抽样,那么样本中的n个观察将是相互独立的。对于很大的总体,即使进行的是无回放的抽样,在实践中也和有放回没什么差别,仍然具有独立性。我们称这种样本为“非常简单的随机样本”(VSRS).补:对于一个非常简单的随机样本,总体中的所有个体

16、都是同等可能地被观察的,而且n个观察也是相互独立地被抽取的。3、 从总体中模拟的抽取一个随机样本,比较适用的方法是利用随机数字表和随机正态数表(X=+Z)。4、 只要我们一次又一次地重复做模拟抽样,每次都计算一个新的样本均值,就有可能推断出总体的均值,这种重复抽样的方法就叫做蒙特卡罗方法。5、 为了区分的标准差和标准差,的标准差通常称为的标准误差,或简称为SE。即SE=的标准误差=的标准差。我们称为的无偏估计量,即的期望值不是太高也不是太低,而是正好等于其估计目标。6、 的抽样分布是近似铃状的或正态的。样本均值的分布有一个显著的特征:尽管总体的分布很偏斜,但的抽样分布几乎是一条对称的正态曲线。

17、也就是说,不管总体自身是否服从正态分布,其样本均值的分布是渐进正态的。7、 抽样分布的中心就是原总体的中心,在数学上可以证明下式成立:的期望值=8、 抽样分布的标准误差比原总体的标准差小,而且样本量n越大,标准误差就越小。在数学上可以证明下式:的标准误差=。9、 正态近似定理:在容量为n的非常简单随机样本(VSRS)中,样本均值以的标准误差(为总体标准差)围绕着总体均值波动。随着n的增大,的分布也就围绕其目标波动的越来越小,他也就越来越接近于正态(铃状)。10、 例4-5,P8711、 当引入了01变量后,即规定总体中的个体在具有某种特征时赋予1的值,否则则赋予0的值。这时总体中对应1的比例(

18、具有该种特征的个体的比例)就是该变量的均值。同样地,样本中含1的比例也就是该样本的均值。01变量还叫计数变量、指示变量、开关变量、二进制变量,或最常用的叫哑变量。在引入01变量后,总体均值=总体比例;总体标准差=;样本均值=样本比例P;P的期望值=;P的标准误差=。12、 比例的正态近似定理:在容量为n的非常简单随机样本(VSRS)中,样本比例P以的标准误差围绕着总体比例波动。随着n的增加,P的分布围绕其目标波动的越来越小,它也就越来越接近于正态(铃状)。第二部分 常用的统计分析方法第一章 置信区间1、 由一般(总体)去推证特殊(样本)叫演绎法。由特殊(样本)去推证一般(总体)叫归纳法。或叫统

19、计推断。2、 在一个整体中,均值和方差虽然一般都是未知的,但它们却是固定的常数,这些常数叫做总体参数。像这样的随机变量是通过样本中的观测值计算出来的,其专门名称叫样本统计量。3、 一般地说,样本均值是围绕其目标近似地正态分布的,因此对于95%的置信度,我们正好在的正态分布的两侧尾部各留下2.5%的概率。4、 在总体方差已知的情况下,由正态分布表,我们发现在95%的情况下,和的距离都不超过标准误差的1.96倍。这就得到了总体参数的95%的置信区间:。置信度为的置信区间为:5、 在总体标准差未知的情况下,要用样本的标准差S来代替。但利用S又引进一个误差来源,特别是当样本量较小时更容易影响精度。为了

20、保持95%的置信度,我们应该扩大那个置信区间,用一个较大的习惯上表示成来代替。这样我们就得到.对于置信度为的置信区间,其一般形式为 补:在t分布的临界值表中,该表中的值每列都是按自由度df来排列的,df=n-1,因此当样本量n=6时,在表中要查df=5的那一行。6、 最后将有关置信区间的有关问题归纳如下:总体参数是常数,并一直保持不变。变化的是随机区间,其中心为长度为2。随着样本含量n的增加,的标准误差越来越小,因此置信区间也变得更窄更精确。这就是增加样本含量的价值随着置信度的提高,随之增大,因此置信区间变得更宽,即更加含糊不明确。补:置信度与精确度之间是矛盾的。7、 计算两个总体均值之差的置

21、信区间,当总体方差相等但未知时,t的自由度8、 配对样本和独立样本相比,配对数据的样本误差大大地缩小了,其原因是配对后使得许多外部变量保持不变。如果有可能的话,在调查研究或实验设计中使用配对样本是很有好处的。9、 总体比例的置信空间:对于较大的n,总体比例的95%置信空间近似为:要使这一公式成为好的近似式,n应足够大,一般要求样本中至少出现5个成功和5个失败。10、 总体比例之差的置信空间(大样本):对于较大的以及相互独立的样本,总体比例之差的95%置信空间为11、 用已有的置信区间公式可以很容易的处理比例的问题,只需简单的把比例看成是某种01的变量的均值就可以了。12、 为了区分总体参数(目

22、标值)和样本统计量(估计值)之间的差异 ,我们用希腊字母表示前者,用通常的英语字母表示后者。第二章 假设检验1、 可以认为置信区间是可以接受的假设的集合。如果使用的是一个95%的置信区间,那么可以很自然的说“该假设是在一个95%的置信水平下被检验的。”可是为了和传统的说法保持一致,我们通常还是会说“检验在5%的错误水平下进行的”2、 零假设表示没有差异,用H0来表示。如果拒绝H0,这样的结果在传统上称为“在5%的显著性水平下是统计上显著的”,对原假设H0作出是否拒绝的判断,通常也叫做对H0作显著性检验。关于“统计显著性”的意思是:已经收集了足够的数据,可以建立“差异的确存在”这一结论。但它并不

23、意味着这种差异一定是重要的。统计上的显著性即有意义与通常意义下的重要性即有意义是不相同的。为了减少混乱,我们宁愿用“可分辨的”这个词而不是“显著的”或“有意义的”这个词。因此,传统的说法“在5%的显著性水平下,差异是统计上显著的”和较现代的说法“在5%的错误水平下,差异是统计上可分辨的”在意义上是完全一样的。=5%叫做显著性水平,其越低,置信度反而越高。3、 利用置信区间进行假设检验的步骤为:1)陈述原假设H0 2)计算单侧的或双侧的置信度为1-的置信区间 3)如果H0落在这个区间之外,则拒绝H0;如果H0落在此区间之内,则接受H0,更确切的说,不能拒绝H0 4)得出结论:在的错误水平下,差异

24、在统计上是可(或不可以)分辨的;或者在的显著水平下,差异在统计上是显著的(或不显著的)。其中括号内的结果对应于“接受H0”括号外的对应于“拒绝H0”的情形。4、 概率值(简称概值或P值),即用数据对原假设的支持程度来描述H0。5、 6-2节补:概值(如果H0为真,样本统计量大到至少和实际观测值那么大)概值(如果H0为真,样本统计量小到至少与实际观测值那么小) 6、 经典假设检验步骤:1)正式的陈述原假设 2)先暂时假定原假设是真的,然后根据(的)抽样分布以及错误水平,确定拒绝原假设的临界域,也就是确定临界值 3)抽取样本。如果观测值落在了拒绝区域内,那么就有充分的理由判断这是与原假设H0相抵触

25、的,从而拒绝原假设。否则则接受。7、 对于一个经典的检验,如果概值低于规定的错误水平,我们就拒绝原假设,即:如果概值,则拒绝H0。经典检验主要是在理论上比较让人感兴趣,如可以澄清两类可能的错误。在实践中,经典检验不如概值那样能提供较多的信息。经典检验可能会导致错误,特别是在根据一个小样本接受H0的情况下。8、 第一类错误与第二类错误 补:第一类错误:当H0为真的而拒绝H0的错误称之为第一类错误,简称“弃真”的错误或“以真为假”的错误,犯这类错误的概率为,即检验的错误水平。第二类错误:当H0不真时而接受H0的错误为第二类错误,简称为“取伪”的错误或“以假为真”的错误,犯这类错误的概率为9、 检验

26、水平的设置不应该是随意的,一般来说主要应考虑以下两个方面:首先要考虑的是所谓的“事前的信念”。一般来说,对统计假设作判断的决策者,在处理原假设时都是偏于保守的,没有充分证据不会轻易的拒绝原假设。所以一般都设置的比较小,不那么容易拒绝原假设,因此也可以说经典检验是保守的。其次考虑的是“做出错误决策后可能造成的损失”。第一类错误造成的损失越大,就要将设置的越小;第二类错误造成的损失越大,就要使设置的越小。虽然我们不能使和同时都变小,但在设置时,我们显然是要考虑这两种错误的相对代价的。第三章 回归分析1、 回归是用来研究两个或两个以上的变量之间的联系的。2、 用最小二乘法拟和回归直线为了表示响应是如

27、何和因子相联系的,可以用一条回归直线去拟和。1) 最小二乘准则: 为了克服偏差的“正负抵消”的问题,我们先对所有的偏差求平方,使他们全部都变成正的,然后求所有偏差的平方和,再使之变成最小。根据这条准则选择出来的一条最佳拟合直线,叫做最小二乘回归直线。2) 最小二乘公式 回归直线方程为, 其中斜率 截距3) 斜率的意义:斜率=有一个单位变化时伴随着发生的的变化量3、 不管统计学家如何幸运,他所估计的直线也不可能和真实的(总体)直线完全一致,他所希望的就是尽可能的接近目标。4、 通过减少的标准误差SE而得到更精确的估计量的方法为:1)减小(反映Y的固有变化性);2)增加样本量n;3)增加(X的标准

28、差),即加大X值的变化范围,这是可以由实验者来决定的。第四章 方差分析1、 比较几个总体均值是否相同,这就是所谓的方差分析,它是最稳健的分析技术。2、 组间变差和组内变差 详见P1741763、 F比值: 是否拒绝原假设H0,要看组间变差相对于组内变差来说是否足够大,也就是要考察F比值的大小。如果为H0真,F比值将围绕着1波动;如果H0不真则F比值将倾向于比1大得多。因此,F值越大,原假设H0就越不可信。4、 总变差=组间变差+组内变差 第五章 相关分析1、 在社会科学中,相关分析有比较广泛的意义,它泛指对两个变量间的关联(联系)程度的分析。这两个变量可以是任何测量级别的变量。我们重点介绍两个

29、定距变量的相关,也即一般意义下的最常用的(积矩)相关系数。2、 简单积矩相关系数又称为皮尔逊相关系数或简称为相关系数,它告诉我们两个变量联系的紧密程度如何。3、 相关系数的取值范围: =0并不意味着“没有联系”。实际上,它只意味着“没有线形联系”(没有直线联系)。因此只是线形联系的一种度量。4、 利用方差分析的观点来重新看待回归问题:总偏差=可以解释的偏差+不能解释的偏差总变差=可以由对X的回归解释的变差+不能解释的变差方差表中的Y的变差与相关系数之间可以建立以下的关系式 决定系数的值位于01之间,它等于Y变量中可以用X变量回归来解释的变差占Y变量总变差中的比例。5、 共变关系是假相关6、 在

30、各类调查中,样本量一般比较大,常常=0.2左右就是在1%或1的水平下与0有显著差异,即是显著相关的。因此,脱离样本量而言的相关程度或等级是没有意义的。7、 Spearman(斯皮尔曼)的等级(秩)相关系数适用于定序变量X和定序变量Y的相关测量。如果我们对换算成秩后的定序数据计算其皮尔逊积矩相关系数,结果就等于斯皮尔曼的秩相关系数,两者都没有减少误差比例的意义。第六章 卡方检验和交互分析1、 交互分析是传统调查研究中最常用的方法之一,用于研究两个变量之间是相互独立还是存在某种关联性。它适用于分析两个定类变量的关系。交互分析中采用的检验方法叫(卡方)检验,它适用于拟和优度检验和变量间的独立性(是否

31、有联系)检验。2、 数据用列联表或称交互分析表的表格来整理,应用检验总体中的两个特性有无相关性,这种检验也叫做独立性检验。3、 检验的局限性:1)值随分类的不同而改变。2)样本量不能太小也不能太大。样本量太小,采用分布为依据的检验就不成立。一般要求样本量要大于30。也有书中要求50以上。不过在各类调查中,样本量一般都超过50;如果样本量过大,有时候得到的结果会失去意义。因为的值受样本量的大小的影响很大;样本量越大,越容易得到拒绝原假设的结果。为了解决这一问题,必须采用补救的或修正的方法。最常用的就是列联系数。4、 代替检验的一般原则:只要有数量型的变量出现,就应该采用可以揭示数量性质的统计工具

32、(如两样本的检验、方法分析回归等)来分析。检验更适用于定类变量。5、 检验是一种假设检验,它建立在比较观测值与期望值(在原假设下的期望值)的差的基础上。在最简单的情况,可以应用到分类数据上,这些数据按照某个因子如“电视节目”,可以分成几个小组。第三部分 抽样调查原理 第一章 概论1、 为什么多数的研究都采用抽样研究而不采用全面调查?1) 抽样调查花费少2) 抽样调查能迅速地获取所需的信息。3) 许多总体太大,实际上不可能对其进行全面调查。4) 有些实验可能是毁坏性的,不可能进行全面调查。5) 科学设计的抽样,不但其样本具有代表性,而且其误差也是可以控制的。认真仔细的实施部分(抽样)调查往往能获

33、取更可靠的数据和更精确的结果。而全面调查往往容易草率,其结果往往不见得可靠。2、 抽样调查的特点:1)按照随机抽样原则,即按照概率规律,从总体中抽选样本。2) 根据抽样数据对总体的数量特征作出估计。3)抽样误差可以实现计算并加以控制,而且可以通过增加样本量和改变抽样的组织形式来提高抽样估计的准确性。3、 总体指的是研究对象的全体。样本由从总体中抽取的部分个体(或单位)所组成。4、 总体指标就是调查的目标量,也就是有关的总体参数。5、 为了便利的实现随机抽样即概率抽样,常常把总体划分为有限个互不重叠的部分,每个部分都叫做一个抽样单元。6、 在设计抽样方案时,必须有一份关于全部抽样单元的资料,如名

34、单、地图、大小等,称之为抽样框。7、 样本是总体的一部分,虽然具有代表性,但并不等于总体。因此用样本来估计总体肯定会产生误差,这一类误差就叫做抽样误差。抽样误差是可以计算并且加以控制的。8、 非抽样误差指的是在抽样调查中由于人为的差错所造成的误差。9、 抽样方案设计的内容主要包括:1) 先要明确调查目的,确定所要估计的目标量2) 明确总体及抽样单元3) 对主要目标量的精度提出要求4) 选择抽样方案的类型5) 根据抽样方案的类型,对主要目标量的精度要求以及置信度等等,确定样本量,并给出总体目标量的估计式(点估计或区间估计)和抽样误差的估算式。6) 制定实施方案的具体办法和步骤。10、 样方案设计

35、的两个基本原则:1)随机性原则,即总体中所有个体被抽中的机会都是相等的。2)效果最佳原则,即固定费用,抽样误差最小;确定精度下,研究费用最小。第二章 简单随机抽样1、 简单随机抽样实际上是一种无回放的抽样。可以通过下面的方法来实现:从总体中逐个无回放地抽取单元,每次抽取到尚未在样本中(未入样)的任何一个单元的概率都相等,直到抽足n个为止。2、 简单随机抽样与非常简单随机抽样所不同的是,前者是无回放的。它可以通过抽签法或随机数字表法来实施。在应用随机数字表法抽样时,要去掉重复的号码。3、 利用样本数据计算得到的统计量的具体数值,对总体的相应参数进行估计,叫做参数的点估计。用点估计去估计总体参数时

36、,其误差大小及可靠程度如何是不知道的,这是点估计的不足之处。区间估计(即利用置信区间)则给出一个随机区间。区间的宽度在某种意义上代表了精确程度,越窄的区间估计具有越高的精度。4、 简单随机抽样时,总体均值和总体比例的点估计与非常简单随机抽样是相同;但前者的抽样方差较小,相当于后者的抽样方差乘以缩减因子5、 对于某总体参数的点估计,我们希望它是一个好的估计量。衡量好坏的标准最重要的是要求估计量的期望值等于被估计的总体参数,也就是要求估计量是无偏的,例如样本均值的期望值就等于总体均值,因此就是的一个无偏估计量。6、 非常简单随机抽样的所需最小样本量:在95%的置信区间下,最大允许误差为3%1067

37、;4%600;5%384;6%267;7%1967、 当抽样单元大小不一致时,最好采用不等概率抽样。其中最常用的方法是按与单元大小成比例的概率有回放地抽取样本单元,简称PPS法。第三章 抽样调查的组织形式1、 分层抽样是先将总体按某种特性分层,然后再在各层进行随机抽样。它的精度一般高于简单随机抽样,是十分常用的一种技术。分层抽样的原则是层内差异小,层间差异大。2、 如果把群当成抽样单元,整群抽样实际上就是简单随机抽样。它在组织上简单方便。为了取得与简单随机抽样相同的精度,应当按设计效应的大小增加样本量。整群抽样的原则是群内差异大,群间差异小。3、 按照某种顺序给总体中的N个单元排列序号,然后随

38、机地抽取一个编号作为样本的第一个单元,样本的其它单元则按照某种确定的规则抽取,这种抽样方法叫做系统抽样。其中最简单的也是最常用的系统抽样叫做等距抽样。4、 系统抽样,特别是等距抽样比简单随机抽样简单的多,又有近似相同的计算公式,是社会调查等各类调查中最广泛应用的一种方法,往往适用于抽样末端。沈浩老师PPT整理第一讲 引言1, 相关不会告诉你任何因果关系,但它却是一个即使是研究者也易犯的错误。有相关并不一定有因果关系。2, 统计中常犯的错误:(1) 混淆统计关系与因果关系(2) 事后解释(3) 主体层次不清(4) 类比错误(5) 统计检验显著性与实际意义的显著性错误统3, 研究方法:实验控制法随

39、机化实验;调查方法 普查与抽样;内容分析法;实地观察法;个案研究; 4, 常用的统计分析软件: SPSS,大型社会科学统计软件;SAS统计软件包;EXECL电子表格;PCEDIT数据录入软件;ACCESS数据库软件;LISREL线性结构方程式;AMOS结构方程式模型;Clementine数据挖掘软件;HLM分层线性模型;Ucinet网络分析软件5, 你还看过那几本书?调查研究中的统计分析法广播学院出版社柯惠新等编著传播统计学广播学院出版社柯惠新等编著社会统计分析方法人大出版社郭志刚主编民意调查实务中国经济出版社柯惠新等编著大众传播研究方法北京广播学院出版社刘燕南编市场调查与分析中国统计出版社柯

40、惠新等著第二讲 社会调查的基本原则1、 狭义的社会调查更偏重于信息的收集和分析。2、 社会调查强调:理论性、实践性和可操作性,还有经验。3、 社会调查主要解决信息的不对称问题。4、 社会调查的步骤:(1)确定调查问题,提出假设(2)确定调查方案,撰写计划书(3)实施调查,收集数据(4)处理数据和分析数据(5)分析调查结果(6)撰写调查报告(7)解释结果的含义5、 社会调查的特点:(1)在社会调查中,被访者即信息提供者的身份是不透露的。这是社会调查不同于与任何其它形式的信息收集的重要特点之一。(2)社会调查中涉及到研究者 (researcher)、客户(client)和被访者(responden

41、t),这三方之间的关系必须遵循一定的规则。 欧洲民意和市场研究协会(ESOMAR)(European Society for Opinion and Marketing Research)关于市场和社会研究实践的国际准则,准则中详细地规定了被访者的权利、研究者的职责、研究者与客户的相互权利和职责。1.社会研究必须客观地执行,并与已有的科学原则一致。2.社会研究必须遵循研究项目所在国家的国内、国际法规。6、被访者的权利:(1)被访者的合作完全是自愿的,不允许误导被访者。(2)被访者的匿名权要受到严格的保护。(3)研究者必须采取所有合适的预防措施,确保其没有直接受到伤害或者负面影响。(4)被访者必

42、须能够轻易地检查研究者的身份和真实性。(5)访问中使用观察法或录音录像设备,应告知被访者。(6)访问儿童或未成年人,需经过其父母或监护人应允。7、研究者的职责:1.研究者不能作出有损于调查行业的声誉的举动。2.研究者不得对其所在机构的技能、经验作不切实际的表述。3.研究者不得对其它研究者作出不公正的批评。4.研究者必须不懈地努力,在节约费用并保证质量的前提下设计研究方案,并按与客户合同中的规定去实施调查。5.研究者必须确保对调查记录的保密。6. 研究者不得有意地散布没有得到数据的充分支持的调查结果,必须随时准备好说明其发布的调查结果的有效性的必要的技术信息;7.研究者不得在进行社会调查的同时从事非调查活动,例如数据库营销活动等,要明确地将这一类的非研究活动与研究活动区分开来。8、社会调查的局限性:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论