数据分析概论ppt课件_第1页
数据分析概论ppt课件_第2页
数据分析概论ppt课件_第3页
数据分析概论ppt课件_第4页
数据分析概论ppt课件_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.,1,数据分析概论,第二组: 李 伟 杨晓婷 周志威 吴佩丽 连志康 郭绍威,2016.11.25,.,2,目录,.,3,一.导论,数据分析概论旨在为定量研究数据分析的每一步提供统计学基础。目的是让初出茅庐的研究者具备一定的能力来为手头的问题选择恰当的统计检验工具。 在简述数据搜集之后,讨论一元统计(测量集中趋势和离散),之后讲解相关测量(皮尔逊相关系数、tau和lambda系数)和显著性检验,最后讨论了简单回归和多元回归。,.,4,A 形式化的研究路径 1.设计具体的假设和测量工具 2.谨慎的选择所选择的检验,B 非形式化的研究路径 1.对想法和数据进行自由探索型 2.在寻找“正确”模型过

2、程中使用不同的测算,A、B分析策略,一.导论,面对相同的问题 使用相同的研究工具,判断必须来自对统计结果的恰当解释,尤其当结果来自非实验的社会研究时。,判断?,.,5,二.数据搜集,“如果进去的是垃圾,出来的也会是垃圾” 数据处理步骤: (1)抽样如果样本是一个科学的概率样本,那么它就能代表总体 (2)测量在检验任何假设之前,调查的变量必须被测量 (3)编码某些变量编码值含义显而易见,而有的编码值则是位置标记符 (4)输入 (5)核对,.,6,三、一元统计,任何变量的两个特征都值得特别关注 1.集中趋势(central tendency):关注变量的“典型”分值,把不同的观测统一起来,提供一个

3、概要的含义 2.离散(dispersion):关注分值的散布情况,表明观测相互之间的差别有多大,2016.11.25,.,7,三.一元统计,3.1 集中趋势 集中趋势的主要测度: 均值(算术平均值):值的平均数,可以作为集中趋势的归纳 中位数:中间的值 众数:出现最多的值 对于定性变量而言,集中趋势由于精确度低,能提供的信息很少,通常以下方式来测量: 定序:根据某些特性的“多少”对个案进行排序,而不确切说明到底“多多少”或“少多少”,如“愿意”、“不确定”和“不愿意”。 名义:测量某种特征的出现或不出现,此类特征不能排序或刻度化,如地区、性别或宗教。 back,2016.11.25,.,8,三

4、.一元统计,3.2 离散 初级离散测度: 极差:对定量变量而言,表示最高分和最低分之间的距离 对定性变量而言,表示所记录下来的取值类别 集中度:关注某一分数出现的相对频数 定量变量的其他测度: 标准差:即方差的平方根 注:分母为N-1而非N,提醒要考虑自由度。这对于获得无偏估计是必要的。 因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。),2016.11.25,.,9,三.一元统计,3.3 集中趋势、离散和异常值 异常值:表示那些似乎与其他值不相一致的值 异常值的四种处理方法: (1)删

5、除:在后续分析中简单地删除异常值。但不推荐单独使用,异常值也代表信息,或许代表有关总体的重要信息 (2)数学变换:没有忽略异常数据的信息,包括平方根变换、对数变换 (3)原封不动:简单地标记异常值,但不删除也不对其进行改变 (4)分别报告保留和删除异常值的结果,2016.11.25,.,10,四、相关测量,很多社会科学研究的核心问题是:一个变量与另外一个变量的相关情况如何。 例如: 政治社会领域-“社会阶层与政治参与有什么关系? 如有存在关系,关系是否很强呢?” 变量X与变量Y的相关如何?这种相关关系是否很强? 下边我们来讨论二元相关的不同测度,2016.11.25,.,11,四、相关测量,4

6、.1 相关 两个变量相关时,一个变量的变 化往往随着另一个变量的变化。 右图4.1散点图所示:变量“父母 教育”和“学术能力”之间貌似就 存在着正相关关系。 1.协方差 从图像上,X和Y一起变化(共变,covary),通过一个单独的统计量 协方差来证实,计算公式: 案例中,计算得出:“父母教育”和“学术能力”的协方差为37.82,证实了样本中这两个变量呈正相关。,2016.11.25,.,12,四、相关测量,2.相关系数(皮尔逊相关系数Pearsons r,针对定量变量关系数据) 协方差在确定相关关系为正负还是零这一方面很有用,但它没有告诉我们任何关于关系强度的信息。(没有理论上限。变量的测量

7、单位发生变化,数值就会变大很多) 另外一个统计量-相关系数(correlation coefficient) 相关系数的理论区间为-1,1,表示完全线性相关。如果r=0,表示X和Y线性不相关。 在实例中,“父母教育”和“学术能力”之间的样本相关系数为0.79,表示存在较强关系。 相关系数是最理想的针对定量变量的二元关系系数。如果变量间关系是非线性的,那么相关系数的估测程度就很差。,2016.11.25,.,13,四、相关测量,4.2 定序数据:肯德尔tau相关测量 对于定序数据,其散点图几乎看不出 来数据间的关系,我们使用列联表来 评估数据间的关系。列为列变量(或 自变量X),行是横变量(或因

8、变量Y) 对调查中的受访者进行定序: 所有同序对C减去所有异序对D,然后除以所有可能配对数目。,2016.11.25,.,14,四、相关测量,4.3名义数据:Goodman-Kruskal lambda( )系数 系数是一个预测性的相关测度,其 计算和解释都非常直观。预测误差的减少 比例就被称作lambda 系数,公式: 假设: 仅知道Y,即宗教信仰的频数(21,20,9) 。选择最大频数所在的类别来预测,即21人的天主教,那么预测有29人不是天主教。 假设:又知道X,即城市(15,9,6)农村(6,11,3)。对城市类别来说,误差是15;对农村类别来说,误差是9,总误差是24。因此,知道X使

9、误差减少了5。预测误差减少的比例就被称作lambda系数:本例中 lambda=5/29=0.17。表明社区类型对我们的预测帮助不大。结论:社区类型和宗教信仰最多只是有点关系。,2016.11.25,.,15,四、相关测量,定量测度:皮尔逊相关系数r 定序测度用tau系数 名义测度用lambda系数 就定量测度而言,鲜有其他测度能与皮尔逊相关系数匹敌。,2016.11.25,.,16,五、显著性检验,强度有多大第四部分已经讨论,在社会科学研究中,我们几乎都是通过研究样本来推断总体的情况。以统计推断为目的,在分析两个变量之间的关系时,我们必须牢记两个根本问题:是否存在相关关系?关系强度有多大?

10、对于第一个问题,如果是 -引入“显著性检验” 如果答案是显著,那么就再次肯定了有关两个变量的假设。如果不显著,可以怀疑他们之间没什么关系。 我们将在下一章中结合例子,来说明显著性检验。,2016.11.25,.,17,六.简单回归,以温特格林学院调查中“学术能力”和“父母教育”之间关系为例,r=0.79 表示其相关性较强,但未说明这一关系结构如何,如:两者怎么影响?当一方变化时,另一方具体变化多少?需要我们用回归分析来代替相关性分析。 6.1 Y是关于X的方程 Y=a+bX,该直线由截距a和斜率b决定,X和Y之间存在完全线性关系。 当X值已知时,对于给定的截距a和斜率b,该公式能够毫无偏差的预

11、测相应的Y值。 但是,对于社会科学数据来说并不现实,X和Y不太可能完全相关。误差的存在,使得更准确地公示应该是: Y=a+bX+e,e为误差项 为了使其中一条直线最与实际拟合,我们需要最小二乘法。,2016.11.25,.,18,六.简单回归,6.2一般最小二乘法(OLS) 图6.2来自某社区中父母这一总体,X为 孩子的数量,Y为捐款数额。 SSE为某直线的总预测误差,SSE最小时, 就找出了拟合较好的一条直线。通过微积分可以证明下述公式提供的a和b能使SSE达到最小。 通过上述公式来估计截距a和斜率b,这一过程被称为一般最小二乘法(Ordinary Least Squares,OLS)回归。

12、因为有两个变量,也被称为双变量或简单回归。 用Y对X进行回归,就得到:,2016.11.25,.,19,六.简单回归,6.3预测与拟合优度- R2 和估计标准误 一个简单的回归方程可以用来预测给定X值得Y值。假定我们知道,调查中一个学生父母平均受教育水平是13年,将其代入方程式可以得到预测值: 因此,对于父母平均受过13年教育的学生而言,我们预测其能答对100道题中的67道。但是这个方程预测所有成绩不可能全部恰好在直线上,即存在误差(距离直线有一段距离)。 因此,概括性的测量该预测方程的表现如何就变得非常有用。 下边来讨论主要指标R2,也被称作决定系数。 下面这个方程表示观测值与均值的偏差(对

13、其平方防止正负相互抵消),2016.11.25,.,20,六.简单回归,6.3预测与拟合优度(续) 当回归解释了所有偏差时,R2=1,表示这是完全拟合的。另一方面,R2=0,就表示X和Y之间不存在线性关系。 我们的例子中,R2=0.63,就线性模型而言,这就表示“父母教育”解释了63%的“学术能力”变化情况。进一步推论认为,“父母教育”“解释了”“学术能力”变化的63%,2016.11.25,.,21,六.简单回归,6.3预测与拟合优度(续) 另外一个被使用的拟合优度测量指标是Y的估计标准误 SEE。其计算公式如下: 随着误差的增加,SEE的值始终会不断增加,并没有理论上限。 由于上限问题,当

14、研究者要考虑拟合优度时,一般选用R2而非SEE。,2016.11.25,.,22,六.简单回归,6.4显著性检验 在回归分析中,对样本数据采用最小二乘法,样本方程为:Y=a+bX+e 总体方程中使用希腊字母,以区别于样本方程: 将显著性检验延伸到回归分析中。能否拒绝零假设(即总体中不存在这一系)? 考虑有斜率的竞争性假设: 用到t分布检验,从样本中估计斜率的标准差。计算式如下:,2016.11.25,.,23,六.简单回归,显著性检验(续) Sb 为斜率的估计标准差,即标准误: 由于零假设认为总体斜率等于0,所以这一t检验简化为: 温特格林学院调查的例子中,我们在0.05的统计显著水平上运用该

15、检验,b=5.04。查t分布表。在自由度为48(N-2=48)时,临界t值为2.01,实际t值9.02临界值。 因此,我们拒绝零假设,从而认为学生总体中,父母教育和学术能力相关可能性非常高。,2016.11.25,.,24,六.简单回归,6.5回归结果 温特格林学院调查结果时的格式: Y是“学术能力”测试分数,X是“父母教育”,e 是误差项,括号里的数字是t比率值,*表明在0.05水平(双尾)上统计显著,R2 是决定系数,N是样本规模(学生数量),SEE是Y估计值的标准误。 很容易从上述信息中获得很多信息:变量、测度、系数、显著性检验、拟合优度和样本信息。,2016.11.25,.,25,七.多元回归,考虑到,其一:因变量Y受多个因素的影响.其二:我们希望增强特定的X影响Y这一论断的信心。多元回归模型如下: 通过最小二乘法可以得到系数估计值。通过微积分计算,可以得到一组唯一的系数组合,使得残差平方和最小,从而得到最佳的线性拟合。此时,该拟合就成了一个(k+1)维空间的一个高维度平面(hyperplane)。,2016.11.25,.,26,误差项是否包含了忽略变量?,是否在合适的层次上对 变量进行了测量?,变量是否正确?,是否存在共线性?,设定非线性模型是否更好?,多元回归,七.多元回归,在多元回归分析中,我们在解决问题过程中会遇到诸如下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论