论文中数据的统计学问题_第1页
论文中数据的统计学问题_第2页
论文中数据的统计学问题_第3页
论文中数据的统计学问题_第4页
论文中数据的统计学问题_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文写作中应注意的统计问题(续)平均值的计算在处理数据时,我们经常会遇到在相同的采样或相同的实验条件下,对同一随机变量的多个不同值进行统计处理的问题。这时,我们经常不假思索地直接给出算术平均值和标准差。显然,这种做法并不严格。这是因为有许多描述随机变量总体大小的统计数据,如算术平均值、几何平均值和中位数。至于采用哪个平均值,不能根据主观意愿随机确定,而要根据随机变量的分布特征来确定。反映随机变量总体大小特征的统计是数学期望,当随机变量的分布服从正态分布时,它们的数学期望是它们的算术平均值。这时,算术平均值可以用来描述随机变量的大小特征。如果研究的随机变量不服从正态分布,算术平均值就不能准确地反映变量的大小特征。在这种情况下,我们可以通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,几何平均值就是数学所期望的值。此时,可以计算变量的几何平均值。如果随机变量不服从正态分布或对数正态分布,那么根据现有的数理统计知识,就没有合适的统计量来描述变量的大小特征。这时,中位数可以用来描述变量的大小特征。因此,我们在处理数据时不能总是使用算术平均值,但我们必须依赖于数据的分布。二、线性相关和回归分析这两种分析表明,问题是不同的,相互关联的。在进行实际分析时,我们首先要做变量的散点图,确定线性趋势,然后进行统计分析。通常,首先进行相关性分析。只有在相关分析具有统计意义的前提下,回归方程才具有实际意义。总的来说,有两个问题值得注意:我们必须清楚地理解回归和相关的概念。进行回归分析时,我们不需要报告相关系数。进行相关分析时,不需要计算回归方程。在相关分析中,只有对相关系数进行统计检验(如t检验)和P0.05,才能用r值的大小来解释两个变量的相关程度。必须指出的是,相关系数的假设检验不能被误认为相关度的大小。例如:当样本数很小时,即使r值很大(例如3对数据,r=0.9),也可以得出没有统计显著性的P0.05结论。然而,当样本量很大时,如500,即使r=0.1,也会有P0.05的结果,但这种相关性没有实际意义。因此,为了显示相关性,除了写出R值外,还应指出假设检验的P值。三、相关分析和回归分析的区别相关分析和回归分析是两种常用的数学统计方法,广泛应用于环境科学和其他研究领域。然而,由于这两种数理统计方法在计算上有许多相似之处,在应用中很容易混淆。最常见的错误是用回归分析的结果来解释相关性问题。例如,“回归线(曲线)图”被称为“相关图”或“相关图”。回归线的R2(拟合度,或“可确定系数”)被错误地称为“相关系数”或“相关系数的平方”;根据回归分析的结果,这两个变量之间存在正相关或负相关。相关分析和回归分析都是研究两个或两个以上变量之间相关性的方法,但两种方法有本质的区别。相关性分析的目的是检验两个随机变量的协变趋势(即协变程度),而回归分析的目的是试图用自变量来预测因变量的值。事实上,在相关性分析中,两个变量都必须是随机变量。如果其中一个变量没有运行显然,当自变量是一个普通变量时,此时你不可能回答相关的问题。当两个变量都是随机变量时,考虑到两个随机变量之间的客观“相关性”问题,仅仅因为回归分析方法本身不能为自变量和因变量之间的相关性提供精确的检验方法,这回到问题2中所说的。如果你想预测,不要提及相关系数。当你打算探索两者的“共同变化趋势”时,不要提及回归方程。回归分析中的R2是数学上皮尔逊积矩相关系数R的平方。因此,我们不能错误地理解R2的意思,认为R2是“相关系数”或“相关系数的平方”。这是因为当自变量是普通变量时,两个变量之间的“相关性”概念根本不存在。你说的“相关系数”是什么?四.相关分析中的问题在相关性分析中,我们很容易犯这样一个错误,即直接用皮尔逊积矩相关系数来描述两个随机变量之间的相关性,而不考虑两个随机变量的分布(此时描述的是线性相关性)。相关系数除皮尔逊积矩相关系数外,还包括斯皮曼秩相关系数和肯德尔秩相关系数。皮尔逊积矩相关系数可以用来描述两个随机变量的线性相关度,斯皮曼或肯德尔秩相关系数用来判断两个随机变量在二维和多维空间中是否有某种协变趋势。因此,我们必须注意选择皮尔逊积矩相关系数的前提,即两个随机变量都服从正态分布的假设。如果数据不服从正态分布,皮尔逊积矩相关系数无法计算。此时,我们应该选择斯皮曼或肯德尔秩相关系数。V.t检验用于比较平均值的T检验可分为三类:第一类是为单一组定量数据设计的;第二种类型是为配对设计定量数据。第三种类型旨在分组设计定量数据。后两种设计类型的区别在于两组研究对象是否根据一个或几个相似的特征预先配对。不管是哪种类型的T检验,只有在一定的前提条件下才使用它是合理的。对于一组测试,必须给出标准值或总体平均值。同时,必须提供一套定量观察结果。应用T检验的前提是数据集必须服从正态分布。如果设计成对,每对数据的差异必须服从正态分布。如果设计是成组的,个体是相互独立的,两组数据取自正态分布的总体,满足方差的同质性。之所以需要这些前提条件,是因为在这些前提条件下计算出来的t统计数据服从t分布。t检验是目前科学研究中最常用的假设检验方法。测试方法简单,结果易于解释。简单、熟悉和外部要求促成了测试的流行。但是,由于我们对该方法的理解不全面,在应用过程中存在许多问题,有的甚至出现非常严重的错误,这直接影响了结论的可靠性。常见错误:无论T检验的应用前提如何,T检验都是用于两组之间的比较。各种实验设计类型均被视为多单因素两水平设计,并使用t检验对平均值进行多次比较。上述两种情况不同程度地增加了得出错误结论的风险。此外,当实验因素的数量大于或等于2时,不可能研究实验因素之间的相互作用的大小。正确方法:比较两个样本的平均值时,如果不满足正态分布和方差齐性,应采用非参数检验方法(如秩检验);对于两组以上平均值的比较,t检验不能用于平均值的比较。因此,我们必须注意研究的前提和目的世界上有许多专门为统计分析开发的商业软件,如SPSS(社会科学统计软件包)、SAS(统计分析系统)、BMDP和Statistica。其中,SPSS是专门为社会科学领域的研究人员设计的(然而,该软件也广泛应用于自然科学领域);BMDP是一个专门为生物学和医学研究者编写的统计软件。当然,excel也可以用于统计分析。单击工具菜单上的数据分析,浏览现有的分析工具。如果“工具”菜单上没有“数据分析”命令,请运行“工具”菜单上的“加载项”命令,并在“加载项”对话框中选择“分析工具库”。特别推荐使用国产软件DPS。其界面如图所示。它的功能相对较强。除了具有参数分析和非参数分析等统计分析功能外,还专门为一些专业编写了专业统计分析模块,包括随机前沿模型、数据包络分析(DEA)、顾客满意度指数模型(结构方程模型)、数学生态学、生物统计学、地理统计学、遗传育种、生存分析、水文频率分析、尺度分析、质量控制图、ROC曲线分析等。有些不是统计分析的函数,如模糊数学方法、灰色系统方法、各种类型的线性规划、非线性规划、层次分析法、BP神经网络、径向基函数等。这也可以在DPS中找到。皮尔逊积矩相关系数和斯皮尔曼秩相关积矩相关系数编辑(相关系数)相关表和相关图可以反映两个变量之间的相关性和它们的相关方向,但是它们不能准确地表示两个变量变量之间的相关程度。著名统计学家卡尔皮尔逊设计了统计指数的相关系数。根据相关现象的不同具有相同特征的统计指标名称不同。如将反映两个变量之间线性相关性的统计指标表示出来是相关系数(相关系数的平方称为判断系数),并将反映两个变量之间曲线相关性的统计量。该指标称为非线性相关系数和非线性判断系数。将反映多重线性相关性的统计指数称为对于复相关系数、复决策系数等。相关系数值在1和1之间,即1r1。其性质如下:*当r0时,两个变量正相关,当r0时,两个变量负相关。*当|r|=1时,意味着两个变量完全线性相关,这是函数关系。*当r=0时,表示两个变量之间的无线相关性。*当0|r|1时,两个变量之间存在一定程度的线性相关性。|r|越接近1,两个变量之间的线性关系为关系越密切;|r|越接近0,两个变量之间的线性相关性就越弱。*一般来说,它可以分为三个级别:|r|0.4是一个低线性相关性;0.4|r|0.7为显著相关;0.7|r|1为高度线性相关。在统计学中,根据变量值是否连续,变量可以分为连续变量和离散变量。在一定的时间间隔内,变量可以是具有任意值的变量称为连续变量,它的值是连续的。两个相邻的值可以无限分割。取无穷多个值。例如,生产部件的规格和尺寸、人体测量的高度、重量和胸围都是连续的变量。它的值只能通过测量来获得。另一方面,那些其值只能通过自然数或整数单位计算的是离散变量。例如,企业数量,员工数量,设备的数量等。只能用计量单位的数量来计数,而这个变量的值一般是通过计数获得的。2自然编辑符号X是一个变量,如果它能表示对象集中的任何元素。如果变量的字段(即对象的集合s)是离散的,并且这个变量是离散变量;如果它的字段是连续的,它就是一个连续变量。由于连续变量不能一一列出它们的变量值,因此区分连续变量和离散变量的一个简单方法是:当连续变量总是叠加时,增长量可以被分割对于固定单位,即:1,2,3.例如,一个人的身高,他先长到1.51,然后才能长高到1.52,1.53.在百度贴吧中,用户必须先有一个粉丝,然后才能有2,3个粉丝.粉丝们。粉丝们。而离散变量是通过计数获得的,即对要计数的对象进行计数,并且增量不是固定的。例如,一个地区的企业数量今年只能有一家,明年只能有十家。企业今年只有10名员工,第二年就有20人被录用。分类变量可以分为无序变量和有序变量。意译无序类别变量指的是类别或属性之间不存在的程度以及顺序的不同。它可以分为两类,如性别(男性、女性)、药物反应(阴性和阳性性)等。(2)多种分类,如血型(O、A、B、AB)、职业(工业、农业、商

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论