大数据分析中数理统计方法的正确使用PPT课件_第1页
大数据分析中数理统计方法的正确使用PPT课件_第2页
大数据分析中数理统计方法的正确使用PPT课件_第3页
大数据分析中数理统计方法的正确使用PPT课件_第4页
大数据分析中数理统计方法的正确使用PPT课件_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.1,数学统计方法在大数据分析中的正确使用,2,作者处理的数据属于随机变量的特定样本。作者掌握了最基本的数学统计常识,如概率、假设检验、平均值、方差、标准差、正态分布、相关分析、回归分析、方差分析等。重要假设,3,在科学研究中,经常包括对随机变量的大小、离散和分布特性的说明,以及对两个或多个随机变量之间关系的说明问题。地质学、环境科学研究也不例外。定量说明随机变量和随机变量关系的数学工具就是数学统计学。科学研究中能否正确使用各种数学统计方法与结论的客观性和可信性有关。因此,后世使用的数学统计方法是否正确,是学术杂志编辑和作者非常重视的问题。目前国内科学技术期刊对稿件的维修统计方法问题重视程度有所不同。数学统计问题的重要性,4,统计分析通常包含大量数据,需要更多的计算工作量。在进行统计分析的时候,作者可以自己编写计算程序,但在统计软件广泛普及的今天,没有必要这样做。考虑到生产力和算法的共性、可比性,一些学术期刊要求作者使用特殊的数学统计软件进行统计分析。1选择统计软件,5,问题:作者不使用特殊的数学统计软件,而是使用Excel等电子表格软件进行数据统计分析。电子表格软件中的统计分析功能非常有限,只能用于更简单的统计分析,因此作者不主张采用这些软件进行统计分析。1选择统计软件,6,目前开发了很多专用于统计分析的商业软件,这些软件以统计分析(SPSS)和统计分析系统(SAS)闻名。BMDP和STATISTICA。SPSS是专门为社会科学领域的研究者设计的,但该软件在自然科学领域也广泛使用。BMDP是专门为生物学和医学领域的研究人员设计的统计软件。1选择统计软件,7,目前国际学界使用SPSS和SAS软件的统计分析结果,有附言称,在国际学术交流中不必说明特定算法。您可以看到,SPSS和SAS软件得到了各种领域研究者的广泛认可。作者建议在进行统计分析时,充分利用这两个专用统计软件。目前,这两个软件的使用教程可以在书店轻松获得。1统计软件的选择,8,1)平均值(准确的名称应为“样本平均值”)的统计重要性:反映随机变量样本的大小特性。2)平均值对应于随机变量的整体数学期望值。整体数学期望客观地确定样品的平均值,相反,通过计算样品的平均值,可以说明整体数学期望。2.1平均值的计算:理论问题,9,3)处理实验数据或采样数据时,经常出现在同一采样或同一实验条件下统计处理同一随机变量的多个不同值的问题。4)为了查找表示这些观测的总体大小特性的代表性值(根据样本数据计算的统计数据),大多数作者不经思考就直接提供算术平均值和标准偏差。显然,这种方法不严格的并不总是正确的。2.1平均计算:理论问题(续),10,在数学统计中,描述随机变量样本整体大小特性的统计包括算术平均值、几何平均值、中值等。什么时候使用算术平均值?什么时候使用几何平均?还有什么时候用中值?让研究人员根据随机变量的分布特性而不是根据主观意愿随机决定。2.2平均计算:技术问题,11,反映随机变量整体大小特性的统计是数学期望值,如果随机变量的分布遵循正态分布,则可以用样本的算术平均值来说明。此时可用样本的算术平均值描述了随机变量的大小特性。如果正在研究的随机变量不符合正态分布,则算术平均值不能准确反映该变量的大小特性。在这种情况下,通过假设检验,可以确定随机变量是否遵循对数正态分布。遵循对数正态分布时,几何平均是数学上的预期值。现在可以计算变量的几何平均值了。如果随机变量不遵循正态分布或不遵循对数正态分布,则没有基于现有数学统计知识描述该变量大小特性的适当统计。此时,可以使用中心值描述变量的大小要素。2.2平均计算:技术问题(续),12,在相关分析中,作者经常犯的错误是简单地计算Pearson乘积矩相关系数,不提供正态分布测试结果,并没有明确表明计算的相关系数是Pearson乘积矩相关系数。数学统计除了针对数值变量设计的Pearson乘积力矩相关系数(对应于“参数方法”)外,还有针对顺序变量(即“排名变量”)设计的Spearman排名相关系数和Kendall排名相关系数(对应于“非参数方法”)。皮尔逊乘积矩相关系数可用于描述两个随机变量的线性相关度,而Spearman或Kendall秩相关系数用于确定两个随机变量在二维和多维空间中是否具有恒定共变的趋势。3相关分析:选择相关系数,13,相关分析中各种相关系数的计算是前提。在相关分析中,对于排名变量,通常只能计算Spearman或Kendall排名相关系数。对于数值变量,只要条件允许,应尽可能使用最高验证的参数方法,即通过Pearson乘积力矩计算相关系数的方法。只有在没有计算Pearson乘积力矩的相关系数的前提下,才考虑后退并计算专门为排名变量设计的Spearman或Kendall排名相关系数(尽管这可能会降低检查效果)。3相关性分析:选择相关系数,14,对于数值变量,相关系数的选择取决于变量是跟随正态分布还是转换的数据跟随正态分布。对于二进制相关分析,如果两个随机变量遵循二进制正态分布假设,则必须使用Pearson乘积矩相关系数来说明两个随机变量之间的相关性。如果样例数据不符合二进制正态分布,则可以尝试转换数据以确保转换的数据符合正态分布。如果是,则可以为转换的数据计算Pearson乘积力矩相关系数。否则,无法计算Pearson乘积力矩相关系数,而应使用检查效果较低的Spearman或Kendall排名相关系数。此时,如果强制计算Pearson乘积矩相关系数,就可能得出完全错误的结论。3相关分析:选择相关系数,15、相关分析和回归分析是环境科学等科学研究领域广泛使用的两种数学统计方法。但是,这两种数学统计方法在计算上有很多相似之处,一些数学统计教科书没有系统地阐明这两种数学统计方法的本质区别,因此,一些研究者还没有严格区分相关分析和回归分析。4相关分析和回归分析的差异,16,1)最常见的错误是:作为回归分析的结果说明了相关问题。例如,作者将回归线(曲线)图称为“从属关系”或“从属关系”。回归线的R2(拟合度或“可确定性系数”)错误地称为“相关系数”或“相关系数的平方”。根据回归分析的结果,声明两个变量之间存在正相关或负相关。4相关分析和回归分析的差异,17,2)相关分析和回归分析是研究两个或多个变量之间相关性的方法,但两种数学统计方法有用于不同研究目的的本质差异。3)相关分析的目的是测试两个随机变量的共同变化趋势(即共同变化程度),回归分析的目的是为了预测由于自变量引起的变量值。,4相关分析和回归分析的差异,18,4)在相关分析中,两个变量都必须是随机变量,如果其中一个变量不是随机变量,则不能执行相关分析。这由相关分析方法本身决定。4相关分析和回归分析的差异,19,5)对于回归分析,变量绝对是随机变量(由回归分析方法本身确定),参数可以是一般变量或随机变量。4相关分析和回归分析的差异,20,6)参数是一般变量,即模型回归分析使用最常用的最小二乘法方法。7)如果参数是任意变量,即模型回归分析,则使用的回归方法与计算者的目的相关。“最小二乘法”仍用于预测(但是,减小精度-最小二乘法方法是为模型I设计的,而不考虑参数中的随机误差)。为了评估目的(例如计算确定系数、回归系数等),必须使用相对严格的方法,例如主轴方法、递减主轴方法或Bartlett方法。4相关分析和回归分析的差异,21,8)显然,对于回归分析,对于模型回归分析,在考虑两个随机变量的客观“相关性”问题时,不建议提到“相关性”问题,因为回归分析方法本身没有提供自变量和变量之间相关性的准确测试手段。如果以探讨这两者的“共变趋势”为目标,则应改为相关分析。9)如果是模型,那么如果是回归分析,那么在一般变量和随机变量之间就没有“相关”的概念,所以完全不能回答变量的“相关”问题(问题是,大部分回归分析都是模型,回归分析!)。此时,作者如果想通过说明两个变量之间的“协变趋势”来切换到相关分析,也不存在相关分析的前提,分析结果将变得毫无意义。4相关分析和回归分析的差异,22,10)在回归分析中,必须指出,R2在数学上精确地是Pearson乘积矩相关系数r的平方。因此,作者可以错误地理解R2是“相关系数”或“相关系数的平方”的R2的含义。问题是,如果参数是一般变量(即其值是确定性的变量),如果变量是随机变量的模型,那么回归分析,如果两个变量之间的“相关”概念完全不存在,那么如何解释“相关系数”?(11)值得注意的是,一些早期教科书作者使用R2来说明回归效果(适合度、适合度),而不是用Pearson乘积矩相关系数来说明。这更容易误导读者。4相关分析和回归分析的差异,23,5.1假设测试基本思想统计推断:基于样本数据推断整体特性的一种方法。假设检验:执行统计推断的一种方法。另一种方法是参数估计,例如点估计或间隔估计。假设检验的核心问题:1)原始假设成立时,如何计算样本值或极端值的发生概率?2)如何定义小概率事件?5重要的数学统计常识。24、基本思路第一,对整个参数值(原假设)的假设;然后,如果使用样本数据提供的信息,所提出的假设是否合理(统计推断)样本数据提供的信息不能证明上述假设是否合理,则应拒绝假设。如果样本数据提供了不能证明上述假设不成立的信息,则不应拒绝该假设。接受或拒绝原始假设的小概率事件不可能发生。很明显,这样做很危险(小概率事件确实发生了)。5.1家庭检查,25,基本步骤1)原始假设(或“零假设”,h0)建议;2)选择检验统计数据。3)根据样例数据计算检验统计观测的发生概率(伴随概率,p)。4)根据给定的小概率事件定义标准(重要性级别,如0.05、0.01)进行统计推断。,5.1假设检查,26,基本步骤:为什么要设计和计算检验统计?在假设检验中,样品值(或更极端的值)发生的概率不是直接用样品数据计算的,而是通过计算检验统计观测的发生概率间接得到的。设计的检验统计通常遵循或近似已知理论分布(t-分布、F-分布、卡方分布等),从而可以轻松估计其值的概率。每个家庭都有不同的理论和方法对不同的检查和整体进行统计检查。5.1假设检查,27,基本步骤:计算检验统计观测的发生概率假定原始假设存在,使用样例数据计算检验统计观测发生的概率(即p值,“伴随概率”)。这意味着检验统计最初假定的特定极端地区发生的概率。这个概率值间接提供了在原始假设成立的条件下,样本值(或更高)发生的概率。5.1假设检验,28,统计推断根据预定重要性级别(即值)(例如0.01或0.05)确定是否拒绝原始假设。如果p值小于值,则在原始假设成立时,如果认为检验统计观测是由小概率事件引起的,则原始假设将被拒绝。否则,接受原来的假设。5.1假设检验,29,假设检验中显著性水平(用Significantlevel,表示)的确定是假设检验中非常重要的问题。重要性水平是最初假设成立时检查统计量的制度落在特定极端区域的概率值。因此,使用=0.05时,如果计算的p值小于,则可以认为原始假设是不可能发生的小概率事件。当然,如果真的发生了,错误的可能性是5%。显然,重要性水平反映了拒绝某个原始假设时出错的可能性,或者实际上意味着拒绝正确的原始假设的概率。5.2重要性级别:概念和意义,30,值一般在进行假设测试之前,由研究者根据实际需要确定。常用值为0.05或0.01。在前者的情况下,如果原来的假设真的正确,研究人员接受这一假设的可能性为95%。在后一种情况下,研究人员接受事实上正确的原始假设的可能性为99%。显然,降低值会降低拒绝原始假设的可能性。因此,报告统计分析结果时,必须提供alpha值。5.2重要性级别:典型值,31,假设检验时,各种统计软件提供检验统计观测和在设置了原始假设的情况下相应检验统计值的伴随概率(即检验统计值的特定值和可能的更高值的发生概率,用p表示)。p值是否小于预定的值,是接受或拒绝原始假设的基础。如果p值小于预定的值,则不太可能检查统计值,并且不太可能建立原始假设,因此可以拒绝原始假设。相反,如果p值大于预定的值,则不能拒绝原始假设。5.2重要程度:统计推断,32,1)计算机技术很发达,专业统计软件很强大,今天计算检验统计及其伴随的概率是很容易的事情。(2)但在20世纪90年代以前,只有遵循标准正态分布的检验统计,才能直接查看为获得特定计算结果的伴随概率而预先准备的标准正态分布函数表。遵循t分布、F分布、卡方分布或其他特殊理论分布的检查统计(在大多数假设测试中)无法直接计算伴随概率。人们一般为了统计推断,寻找各种假设检验的极限值表。这些表格使用自由度以及伴随的某些概率(通常为0.1、0.05和0.01)作为参数,并将测试统计量的阈值作为函数排列。,5.3统计推断:过去的回忆,33,3)在进行统计推断时,人们使用上述阈值表,根据预定的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论