Basic Statistics.doc_第1页
Basic Statistics.doc_第2页
Basic Statistics.doc_第3页
Basic Statistics.doc_第4页
Basic Statistics.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

阳光家教网 英语学习资料Lecture 8 Basic Statistics 统计学入门 (1) 8.1 Types of Measurement 数据的类型l 语言学及应用语言学中常用的有三种 1)Nominal scale名称量表determined by categories which cannot be ordered, e.g., gender and color如:male/female, Nationality (Chinese/American), Chinese/English, rich/poor, young/old, 2)Ordinal scale (rank ordered data)顺序量表Determined by the order of data points如:名次(1st, 2nd, 3rd, 4th, );成绩等级:高 中 低; 难度顺序:难 中 易;李克特5级量表等3)Interval scales (scored data) 等距量表 如:学习成绩,外语学习时间,学习策略,身高,年龄,句子长度,收入情况,l 为什么要了解量表数据的类型?F 不同类型的量表要用不同的统计方法。三种类型的量表比较 (1)量表类型运用统计方法实 例描述统计推断统计名称量表Nominal scale频数frequency百分比 percentage离散相关dispersion卡方分布(c2)Chi square test男/女 本科生/研究生顺序量表Ordinal scale中位数 Median, Mdn百分位数distribution等级相关系数Ordinal correlation 秩次(和)检验方差检验ANOVA里克特5级量表; 好、中、差排名;试题难度顺序:高、中、低等距量表Interval scale平均数mean 标准差Standard Deviation相关系数 correlation coefficientZ检验t检验F检验学习成绩,外语学习时间,学习策略,身高,年龄,句子长度三种类型的量表比较 (2)量表特性功能适用统计方法实例描述统计推断统计名称统一性和区分性断定A=B或A B分类、命名、符号化频数百分比离散相关c2男1女2等级等级性位次性大于或小于断定AB或A=BAB分等级、位次、排列顺序中位数百分位数等级相关系数符号检验秩次检验方差检验外语水平:好3中2差1等距单位相等有人定参照点无绝对零点确定(AB)(B-C)=(A-C)求等距的度数,决定差异平均数标准差相关系数Z检验t检验F检验成绩90与60之差 60与30之差8.2 什么是统计学?l 收集、整理、表述和解释数据的科学 l Descriptive Statistics and Inferential Statistics描述性统计与推断性统计F 描述性统计:通过对数据的整理、分类来描述一组数据的全貌,描述所收集数据的总趋势trend,进而揭示一个事物的总体特征。如:集中趋势central tendency:平均数 mean、中位数median、众数mode。离中趋势dispersion:标准差standard deviation、方差variance、全距rangeF 推断性统计:建立在概率论probability的基础上,通过从样本sample中得到的统计量statistic来推断总体population的情况,目的是得出总体的规律性特征。l 描述性统计与推断性统计两者之间的区别F描述性统计:1. 研究数据收集、整理和描述的统计学分支 搜集数据 整理数据 展示数据 描述性分析2. 目的 描述数据特征 找出数据的基本规律l 推断性统计:1. 研究如何利用样本数据推断总体特征 参数估计 假设检验2. 目的 对总体特征做出推断8.3 描述性统计主要内容1. 频数(频次分布)Frequency Distribution2. 集中趋势Central Tendency3. 离中趋势(离散程度/差异量数)Dispersion (Variability)4. 分布量数(地位量数)Distribution5. 相关量数 Correlation8.3.1 频数分布Frequency Distribution可以有效地归纳和总结数据,是整理数据最简单的方法。如果数据的分布范围小,描述频率分布就比较容易。例如,对100个学生进行了问卷调查,用的是5级制量表,那么问卷的回答不可能超过5个:1、2、3、4、5。我们只要统计一下所有回答,就可以获得频次分布:表一、频次分布选择频次 百分比1 (坚决不同意)30302 (不同意)45453 (不知可否)10104 (同意)555 (完全同意)1010有时数值很大,分布范围很广,比如人们的年龄,几百、几千学生考试的分数等,就需要将原始数据先分组或分类,再统计频次分布。这样频次分布所关注的不是各个分数,而是各个组或类别的频次。下面是一个班30名学生期中考试的成绩:40,65,75,72,92,86,42,50,52,89,52,80,68,54,83,70,58,61,77,85,74,76,66,63,65,71,79,84,78,81。在描述数据频次分布时需要采取以下四个步骤:1) 定组数(determine the number of classes)2) 定全距(determine the range)3) 定组距(determine the class interval)4) 描述频次分布(describing frequency distribution)1)Determine the number of classes (groups)确定组数就是要把整组数据划分为多少个等距的区组。组数的多少要看数据的多少而定。组数不能太多,也不能太少。组数太多,很难概括;组数太少,看不出重要的差异。一般来说,组数以5到10 之间为宜。例如在我们的数据里,我们可取6组。2) Determine the Range确定全距(Range, 或R),是指一组数据中最大的值和最小的值之间的差距。把数据中最大的值减去数据中最小的值,得数就是该组数据的全距。例如上例中的全距(R)是:924052。3) Determine the class interval确定分组的组距。全距与组数的比就是组距的大概取值。如,在我们的数据中,52:6 8.7 1040495059606970798089901004) Describing frequency distribution确定了组数、全距、组距之后,我们就可以描述频次分布了。30名学生期中考试成绩的频次分布分 数划记 (tally)频 次 数百 分 比4049/27%5059/5176069/6207079/9308089/72390100/13总数3030100从表一可以看出,该组数据的组数是6,组距是10。有了这样的频次分布,我们就可以做出合理的解释。比如,我们可以说该班30个学生程度参差不齐,有26的学生考得不错,另有24的学生需要好好努力。8.3.2 集中趋势 Central Tendency用来描述数据分布集中趋势的统计量,它是一组数据的代表值,代表着研究对象的一般水平。常用的集中量数包括平均数、中位数和众数。1.平均数mean (M, )是最常用的描述集中趋势的方法。但有时它会受到少数极端值的影响而大大改变其数值,削弱其代表性。2. 中位数 (Median, Mdn)Median 中位数,是指位于一组数据中间位置上的那个数。首先要把数据按照从大到小的顺序排列。位于中间的那个数就是中位数。例如:1,3,5,7,9,11,13 median 73,6,7,9,20,21 median (79) 2 8何时用中位数表达集中趋势?(1) 当数据比较少时。(2) 当一组数据中出现极端数据时。众位数有较大的抽样误差,不如平均数稳定。3. 众数 (Mode, Mo)是一组数据中出现次数最多的数。通常众数只用来对一组数据的分布情况作粗略的了解。如:58,60,65,70,80,84,84,84,84,90,92。Mode 众数为84。如果在数据中有2个数值出现的次数一样多,就会有2个众数。如:58,60,65,65,65,65,84,84,84,84,90。众数是65和84。众数的缺陷:对偶然的数字非常敏感。l 众数、中位数、平均数的特点和应用1. 众数Mode不受极端值影响具有不唯一性数据分布偏斜程度较大时应用2. 中位数Median不受极端值影响数据分布偏斜程度较大时应用3. 平均数Mean易受极端值影响数学性质优良数据对称分布或接近对称分布时应用8.3.3离中趋势(离散程度)Dispersion (Variability)尽管集中趋势可以较好的描述一组数据的特征,但仅有这些统计量是不够的。我们还需要考虑离散趋势,即每个数据离该组数据平均值的情况。例如,下列2组数据:甲班:79,79,79,80,81,81,81乙班:50,60,70,80,90,100,100两组数据的中位数和平均数都是80,但不能简单的说,2个班学生的水平是一样的。甲班和乙班的数据之间是有区别的。首先,甲班的数据比较集中,每个数据的值与平均数80 相差无几;而乙班的数据比较分散,参差不齐,它反应了数据分布的另一个重要特征:离散程度,或变异性(Variability)。只有同时了解这两班数据的集中趋势和离散程度,才能更科学透彻地解释这两组数据之间的差别。常用来测量离散趋势的方法有:全距 (Range, R)标准差(Standard Deviation, SD, S)1. 全距(Range/R)是说明离散程度的最简单的方法。把一组数据按从达到小的顺序排列,用最高分减去最低分,得数就是全距,最高分和最低分之间的距离。如:上面甲班和乙班的例子中:A班数据的全距是:81792;B班数据的全距为:1005050。2.标准差(Standard Deviation, SD, S)是样本或总体中每一个单位与平均值之间的距离与分布之差的平方和。在定量研究中,人们常用标准差和平均数一起描述一组数据的全貌。 标准差告诉我们什么?(正态分布的概念)正态分布图标出了它各个部分的面积。0是平均数,占的面积刚好是整个正态分布图的一半,即50%。其他部分的面积,以1作为一个单位。因此,比0多1个单位,其面积就是50% + 34% = 84%; 比0多2个单位,其面积是50% + 34% + 14% = 97.7%;比0多3个单位,其面积是50% + 34.1% + 13.6% + 2.2% = 99.9%同样,比0少1个单位,其面积就是50% - 34.1% = 15.9%; 比0少2个单位,其面积就是50% - 34.1% - 13.6% = 2.3%依次类推。这个单位的具体数值就是标准差SD。8.3.4分布量数(地位量数)Distribution在语言学尤其是应用语言学测量后得到的分数,通常以百分制表示,一般称为原始分raw scores。原始分存在两大缺陷:(1)不能反映各分数在总体中的地位或分布。(2)不同学科或不同考次的分数具有不同的价值,不能简单相加求其总和来确定位次。例如,计算机考试得80分,英语考试也得了80分,同样是80分,可能你的英语成绩在全班名列前茅,而计算机成绩却倒数第几名附榜尾。标准分(Standard Score, Z)又称Z分数,是以标准差SD为单位来表示一个分数在团体中所处位置的量数。用公式表示: 其中,X为各原始数值,为各原始数值的平均数,S为标准差。 标准分是将原始分数(测验分数)与平均分数相减,再除以标准差所得的商。 标准分是以标准差为单位的,故称为标准分。它是一种相对地位分。 标准分有正负之分,一般在-3,3中(机率为99.74%) ,平均值为零。标准差或Z分数是可以比较的,因为它以标准差为单位,反映了一个原始分数在团体中所处的位置。用标准分,我们可以通过位置的比较来比较分数。 标准分不大容易为一般人所了解。这是因为它的平均数为0。一般人把0看成是0分,而这里的0表示的是有50%的人取得这个分数。不但如此,标准分还有小数和负分的情况,不合乎人们表示分数的习惯。正态分布图说明标准分的意义。实例分析8.3.5 相关关系correl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论