版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一节 统计描述SigmaPlot与统计分析常用统计软件SAS :世界上最权威的统计软件,国际上的标准软件系统。STATA :软件小巧,统计分析能力极强, 命令行方式操作。SPSS :界面友好,菜单操作简单方便。为各领域的广大科研工作者所钟爱。三大权威统计软件SigmaPlot第一节:散点图绘制与分析1.1 SigmaPlot安装与熟悉Commercial Edition:$799.00Government Edition:$699.00Academic Edition:$549.00Electrophysiology Module:$99.00安装功能支持一百多种 2D、3D 科学图形。2D
2、 图表: 散点图、线性图、面积图、极坐标图、柱状图表、水平图表、等高线图等;3D 图形:散点图、线性图、网眼图、柱状图等。功能众多的国外顶级期刊如Science、Nature等的发表论文中的精致细腻的统计图形60%出自Sigmaplot之手。亮点SigmaPlot是一款专业的科学绘图软件,可用于绘制准确、高质量的图形和曲线-此外,它还具有强大的数据统计分析功能(SigmaStat)工具栏图表选择区数据区界面Sigmaplot 12.5统计分析数据制图绘图步骤数据准备例如:ExcelSPSSSAS1确定图例2参数选择3调整导出4例如:线形图柱状图散点图饼图例如:Single X Single Y
3、One XX Y Pairs例如:GraphAxisPlot300dpi MYK tif绘图1.2 描述性统计二、统计描述均值(Mean)和均值标准误差(S.E.mean)中位数(Median)众数(Mode)全距(Range)方差(Variance)和标准差(Standard Deviation)四分位数(Quartiles)、十分位数(Deciles) 和百分位数(Percentiles)频数(Frequency)峰度(Kurtosis)偏度(Sk标准化Z分数及其线性转换 ewness)探 索 分 析1 均值(Mean)和均值标准误差(S.E.mean) 均值(Mean)平均值、平均数:表
4、示的是某变量所有取值的集中趋势或平均水平。 例如,学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。均值标准误差(Standard Error of Mean,S.E. mean):描述这些样本均值与总体均值之间平均差异程度的统计量。 总体平均数:若一组数据X1,X2,XN,代表一个大小为N的有限总体,则其总体平均数为 样本平均数:若一组数据x1,x2,xn,代表一个大小为n的有限样本,则其样本平均数为 2 中位数(Median)把一组数据按递增或递减的顺序排列,处于中间位置上的变量值就是中位数。它是一种位置代表值,所以不会受到极端数值的影响,具有较高的稳健性。首先应把该数列
5、按大小顺序排列好,如果为奇数,那么该数列的中位数就是位置 上的数;如果N为偶数,中位数则是该数列中第 与第 +1位置上两个数值的平均数。 3 众数(Mode)众数:指一组数据中,出现次数最多的那个变量值。众数在描述数据集中趋势方面有一定的意义。例如,制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。计算公式:手工计算众数比较麻烦,需要统计数据的次数分布。4 全距(Range)全距:也称极差,是数据的最大值与最小值之间的绝对差。在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。 计算公式:MaxMin。 5 方差(Variance)和标准差(SD)方差:所有变量值与平
6、均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差:方差的平方根,它表示了一组数据关于平均数的平均离散程度。方差和标准差越大,说明变量值之间的差异越大,距离平均数这个“中心”的离散趋势越大。6 四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles)四分位数:将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间的数据越集中;四分位数越大
7、,则意味着中间部分的数据越分散。十分位数:将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为十等份,与9个点位置上相对应的变量称为十分位数,分别记为D1,D2,D9,表示10%的数据落在D1下,20%的数据落在D2下,90%落在D9下。百分位数:将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的变量称为百分位数,分别记为P1,P2,P99,表示1%的数据落在P1下,2%的数据落在P2下,99%落在P99下。7.1 频数(Frequency)频数:指变量值中代表某种特征的数(标志值)出现的次数。如要了解学生某次考试的成绩情况,需要计算出学生所有分数取
8、值,以及每个分数取值有多少个人,这就需要用到频数分析。可由表和图表示。7.2 峰度(peakedness,Kurtosis)峰度:表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。随机变量的四阶中心矩与方差平方的比值。峰度为0 正态分布的陡缓程度相同;峰度0 比正态分布高峰陡峭,为尖顶峰;峰度 0 比正态分布的高峰平坦,为平顶峰。8 偏度(Skewness)偏度:是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。正态分布的偏度为0,两侧尾部长度对称;bs0称分布具有正偏离,也称右偏态.SigmaPlot第二节 相关、回归分析相关分析和回归分析
9、都是研究变量间关系。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。 回归分析:变量y称为因变量,处于被解释的特殊地位; 相关分析:变量y与变量x处于平等的地位。 回归分析:因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量; 相关分析:变量x和变量y都是随机变量。相关分析:测定变量之间的关系密切程度,所使用的工具是相关系数; 回归分析:侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。4.1 相关分析 相关分析:描述变量之间线性相关程度的强弱,并用适当的统计指标表
10、示出来的过程。相关系数的取值范围在1和+1之间,即1r+1。其中: 若0r1,表明变量之间存在正相关关系,即两个变量的相随变动方向相同; 若1r0,表明变量之间存在负相关关系,即两个变量的相随变动方向相反; 为了判断r对的代表性大小,需要对相关系数进行假设检验。 (1)假设总体相关性为零,即H0为两总体无显著的线性相关关系。 (2)计算相应的统计量,并得到对应的相伴概率值。如果概率值(p)小于或等于指定的显著性水平,则拒绝H0,认为两总体存在显著的线性相关关系;比较常用的相关分析:二元定距变量的相关分析二元定序变量的相关分析偏相关分析距离分析二元定距变量的相关分析:通过计算定距变量间两两相关的
11、相关系数,对两个或两个以上定距变量之间两两相关的程度进行分析。二元变量的相关分析过程中比较常用的几个相关系数是Pearson简单相关系数、Spearman和Kendalls tua-b等级相关系数。Pearson简单相关系数计算公式: 对Pearson简单相关系数的统计检验是计算t统计量,t统计量服从n2个自由度的t分布。 4.2 回归分析 一元线性回归分析 2多元线性回归分析3非线性回归分析4曲 线 估 计1在一元回归分析中,一般首先绘制自变量和因变量间的散点图,然后通过数据在散点图中的分布特点选择所要进行回归分析的类型,是使用线性回归分析还是某种非线性的回归分析。1 曲线估计在实际问题中,
12、用户往往不能确定究竟该选择何种函数模型更接近样本数据,这时可以采用曲线估计的方法根据实际问题本身特点,同时选择几种模型;SPSS自动完成模型的参数估计,并显示R2、F检验值、相伴概率值等统计量;最后,选择具有R2统计量值最大的模型作为此问题的回归模型,并作一些预测。练 习试用SPSS对国内生产总值和社会消费品零售总额之间的关系进行曲线回归分析。年 份国内生产总值(亿元)社会消费品零售总额(亿元)19783645.21558.619794062.61800.019804545.62140.019814891.62350.019825323.42570.019835962.72849.419847
13、208.13376.419859016.04305.0198610275.24950.0198712058.65820.0198815042.87440.0198916992.38101.4199018667.88300.1199121781.59415.6199226923.510993.7199335333.912462.1199448197.916264.7199560793.720620.0199671176.624774.1199778973.027298.9199884402.329152.5199989677.131134.7200099214.634152.6200110965
14、5.237595.22002120332.748135.92003135822.852516.32004159878.359501.02005183867.967176.62006210871.076410.02 一元线性回归分析 (1)拟合优度检验(R2) 回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,判断回归方程对样本数据的代表程度。 (2)回归方程的显著性检验(F检验) 回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。(3)回归系数的显著性检验(t检验) 根据样本估计的结果对总体回归系数的有关假设进行检验。用最小二乘法求得的样本
15、回归直线作为对总体回归直线的近似,这种近似是否合理,必须对其作各种统计检验。例 子 1、用一元回归分析来分析某班同学物理和数学成绩之间的关系。3 多元线性回归分析一元线性回归分析只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。对多元线性回归,也需要测定方程的拟合程度、检验回归方程和回归系数的显著性。(1)拟合优度检验 测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用多重判定系数。(2)回归方程的显著性检验(F检验) 多元线性回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。 (3)回归系数的显著性检验(t检验) 回归系数的显著性检验是检验各自变量x1,
16、x2,对因变量y的影响是否显著,从而找出哪些自变量对y的影响是重要的,哪些是不重要的。例 子 1、用多元回归分析来分析某班同学物理和化学成绩与数学成绩之间的关系。4 非线性回归分析变量之间的相关关系往往不是线性的,而是非线性的,因而不能用线性回归方程来描述它们之间的相关关系,而要采用适当的非线性回归分析。非线性回归问题大多数可以化为线性回归问题来求解,也就是通过对非线性回归模型进行适当的变量变换,使其化为线性模型来求解。根据经验或者绘制散点图,选择适当的非线性回归方程;通过变量置换,把非线性回归方程化为线性回归;用线性回归分析中采用的方法来确定各回归系数的值;对各系数进行显著性检验。Sigma
17、Plot第三节 主成分分析5.1主成分分析的几何意义在P维总体中抽取了N个样品,可以得到在P维空间中的N个点,来研究这N个点之间的关系。首先以简单的低维空间说明,以二维空间,即平面的二个变量P=2为例:1 2 3 4 5 6X11 2 3 4 5 6X22 4 6 8 10 12样品指标直线方程X2 = 2*X1X1X21 2 3 4 5 6Y1 样品变量Y1将X1和X2轴同时逆时针旋转X1X2Y1Y2.5.2 主成分分析的基本概念主成分分析(Principle Component Analysis):一种将多个指标化为少数几个综合指标的统计分析方法。基本思想:描述经济现象需要用很多指标(也称
18、变量)来刻划,但是指标之间往往有一定的相关性,因而所得的统计数据在一定程度上反映的信息有重叠。主成分分析可将相关的指标化成一些不相关的指标,避免了信息重叠带来的虚假性,而且这些主成分可以尽可能地反映原来变量的绝大部分信息。1、主成分分析的一般数学模型并且满足:其中eij 由下列原则决定:1.任一两个主成分之间都不相关:i与Y j(i j;i,j=1,2,p)2.Y1是X1、X2、X p的一切线性组合中方差最大的;Y2是与Y1不相关的X1、X2、X p的一切线性组合中方差最大的;( Y2的方差小于Y1的方差);Y p是与Y1、Y2、Yp-1都不相关的X1、X2、X p的一切线性组合中方差最大的(
19、 Y p的方差小于Y1 、Y2 、 、 Yp-1的方差)。这样确定的综合指标就称为原变量的第一主成分,第二主成分,第p主成分。2、主成分的求解关键是求系数 ,而其正是观测变量相关矩阵的单位特征向量.因此通过求解观测变量相关矩阵的特征方程,得到P个特征根和P个单位特征向量,把P个特征根按从大到小的顺序排列,记作 它们分别代表P个主成分所解释的观测变量的方差 .相应的P个单位特征向量就是主成分的系数 主成分模型中的各统计量的意义(1)主成分Yi的方差贡献率 主成分分析是把P个原始变量X1、X2、X p总方差 分解成P个不相关变量Y1、Y2、Y p的方差 之和 ,而 因此 描述了第i 个主成分反映的
20、信息占 总信息的份额,我们称它为第i主成分Yi的方差贡献率。第一主成分的方差贡献率最大,表明Y1综合原始变量X1、X2、X p所含信息的能力最强,而Y2、Y p的综合能力依次减弱。(2)前k个主成分Y k ( i=1,2,k)的对原变量的贡献率,称为Y1、Y2、Y k的累计方差贡献率。它表明前K个主成分Y1、Y2、Y k综合提供X1、X2、X p中信息的能力。实际应用中,通常选取KP,使前K个主成分的方差贡献率达到较高的比例(85%以上)。这样用前K个主成分Y1、Y2、Y k,代替原始变量X1、X2、X p,不仅减少了变量的个数,便于对实际问题的研究,而且对于原始变量中的信息损失减少。(3)因
21、子载荷量前K个主成分Yk与原变量Xi的相关系数主成分分析的步骤()对原个变量的数据标准化()求观测变量的相关矩阵()求相关矩阵的特征根和单位特征向量()确定主成分,结合专业知识给各主成分所蕴藏的信息给予恰当的解释,并利用它们来判断样品的特性主成分个数的确定 主成分分析的目的是为了减少变量的个数,以便对实际问题的研究,而且对于原始变量中的信息损失很少,故一般不用p个主成分,而用Kp个主成分。K的选取要看前K个主成分累计方差贡献率达到85%以上。5.3主成分分析与因子分析的区别主成分是原观测变量的线性组合每个主成分相应的系数是唯一确定的特征向量因子分析模型是原观测变量表现为各新因子的线性组合每个因
22、子相应系数不唯一.即因子载荷矩阵不唯一. 主成分个数m=P 因子个数mP(为经济起见,总是越小越好),当m=P就不能考虑特殊因子。主成分分析是因子分析的一个特例主成分分析是一种变量的变换不能作为一个模型一表述,因子分析需要构造因子模型,且其中的因子满足特定的条件,当这些条件不满足时因子分析就可能是虚假的.两种方法的侧重点有所不同: 主成分分析观测变量到主成分的变换 因子分析公共因子和特殊因子到观测量的变换两者的实际应用范围有所不同: 主成分分析综合评价和指标筛选 因子分析除这两个作用外,还可对样本或变量的分类主成分分析与因子分析的联系因子分析数学模型的特殊因子的影响微不足道可以忽略时,数学模型
23、就变成:X=AF。如果F中的各分量均为正交,就形成特殊形式的因子分析,即主成分分析,它的数学系模型为Y=UX,这两个数学系模型的含义是不同的,但从因子分析求解主因子过程可以看到,当特殊因子变差贡献为零时,主因子分析和主成分分析完全是等价的。SigmaPlot第四节:散点图绘制与分析散点图线图点线图面积图极图三元图柱状图箱体图饼图轮廓图散点图线图网状图柱状图二维三维界面绘图步骤数据准备例如:ExcelSPSSSAS1确定图例2参数选择3调整导出4例如:线形图柱状图散点图饼图例如:Single X Single YOne XX Y Pairs例如:GraphAxisPlot300dpi MYK t
24、if绘图1.2 散点图绘制例、绘制新春小麦品种穗长和穗粒数的散点图新春品系穗长(cm)穗粒数(粒)千粒重(g)宁春04号8.6854.433.31宁春04号9.1241.439.52宁春04号9.8840.432.36新春02号9.331.831.53新春02号9.14535.23新春02号9.4438.838.29新春05号9.338.631.18新春05号8.4243.430.41新春05号9.824234.4新春15号9.8647.829.87新春15号1136.242.25新春15号9.1243.633.17新春25号9.849.832.58新春25号9.5844.836.92新春25
25、号10.1436.837.43新春40号9.1442.837.83新春40号8.940.640.71新春40号10.444439.39例、绘制小麦品种穗长和穗粒数的散点图品种穗长(cm)穗粒数千粒重(g)新春27号9.08 37.00 38.45 新春30号9.54 43.60 45.34 新春32号9.16 43.00 42.44 新春37号10.30 53.60 43.73 新春38号11.06 49.00 48.40 新春39号9.46 47.20 43.64 杨06G-1389.70 36.50 43.40 杨1-91519.90 38.00 38.00 中国农科院17.20 27.9
26、0 32.30 中国农科院27.00 30.70 33.00 农大2117.80 31.20 34.10 农大2127.60 28.60 34.00 郑州76987.10 36.70 43.90 郑州9023-18878.70 30.10 44.90 练 习1、绘制不同小麦品种间穗长和穗粒数散点图2、绘制新春品系小麦穗长和穗粒数散点图(误差线和显著性检验标注)3、不同小麦品种间穗长和穗粒数散点图,并绘制小麦穗长和穗粒数回归曲线图形修改要点1、Plot: Symbol: Size(5-7) and Color Line: Type, Color, Thinkness Error bars:2、Axis: X and Y Line: th (0.5-0.7mm) Scaling: start and stop Major ticks: length(1.8mm), th(0.5mm),dr(left, inward) Minor ticks: length(1.6mm), th(0.4mm),dr(left, inward)3、Graph: Legends 作 业1、绘制不同宿舍数学和英语散点图(误差线和显著性检
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 一年级(下)数学第六单元拔尖测试卷《人教版》
- 2026 学龄前自闭症捏泥训练实操课件
- 学院奖学金申请书
- 婚礼领导致辞(14篇)
- 2026年隧道施工安全操作规程及注意事项
- 石材干挂工程监理合理化建议
- 浙江2025年一级建造师《建设工程项目管理》入门测试卷
- 街道办事处第一个《安全生产法》宣传周活动方案
- 2026年物业应急演练方案及组织注意事项
- 钢结构施工质量保证措施
- 快递服务礼仪培训
- 2026年安徽合肥市高三第二次教学质量检测二模语文试题及答案解析
- 湖南马栏山集团有限公司2026年春季校园招聘5人笔试参考题库及答案解析
- 2026 SCCM、ESICM 拯救脓毒症运动指南:脓毒症和脓毒性休克管理课件
- 中核集团校招面试题及答案(2026版)
- 新能源汽车结构原理与检修 第2版 课件 驱动电机概述
- 2026年春人美版(新教材)初中美术八年级下册(全册)教案(附教材目录)
- 培训专员课件
- 变配电运行与维护课件
- 浅析援外成套项目设计各阶段投资控制
- 2025年国家电网招聘考试(管理类)全真模拟试题及答案
评论
0/150
提交评论