




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会计学1试验试验(shyn)设计与统计分析设计与统计分析第一页,共112页。第2页/共112页第二页,共112页。第3页/共112页第三页,共112页。第4页/共112页第四页,共112页。221()1niixXSn221()niixXnS100%VX第5页/共112页第五页,共112页。(总体(zngt))方差的计算第6页/共112页第六页,共112页。第7页/共112页第七页,共112页。平均数置信区间估计(gj)iiLMSE rtX平均数差数(ch sh)的标准误12XXs2MSE r平均数差数(ch sh)置信区间估计1212L2MSE rtXX两平均数差异的t检验12XXt2MSE
2、r标准误,XSMSESeSrr或标准误用于统计检验。第8页/共112页第八页,共112页。第9页/共112页第九页,共112页。第10页/共112页第十页,共112页。算统计量算统计量d. d. 根据根据p p值进行统计推断值进行统计推断2 2、统计、统计(tngj)(tngj)检验基本原理及检检验基本原理及检验验第11页/共112页第十一页,共112页。第12页/共112页第十二页,共112页。01:500:500HH 由于该品种标准对照是500kg/亩,因此原假设为总体均值等于500kg/亩(标准对照总放在零假设);由于样本均值大于500kg/亩,目的是推断施肥是否有效,故把备选(bi x
3、un)假设定为施肥后产量大于500kg/亩(这种备选(bi xun)假设为单向不等式的检验称为单尾检验(另一种是备选(bi xun)假设为不等号“”的,称为双尾检验)。即:第13页/共112页第十三页,共112页。05155002.3717/20/ 10 xtsn第14页/共112页第十四页,共112页。 目前几乎所有的统计软件,在给出统计量的同时,还给出了精确的p值。用P与检验水准比较, 通常(tngchng)取0.05, 0.01 在P时出现小概率事件,拒绝H0,接受H1,统计结论“有统计学意义”,专业结论根据实际和统计量写出 在P 时没有出现小概率事件,不能拒绝H0,统计结论“无统计学意
4、义”第15页/共112页第十五页,共112页。简言之,p值就是传统所说的(显著水平)。p值可精确地告诉我们统计检验结果的显著水平,而不用再重复(chngf)采用不同的水平。根据p值进行统计推断常用标准是:如果0.01p0.05,则结果显著;如果0.001p0.01,则结果极显著;如果p0.05,则结果被认为没有统计显著性(有时记为NS);但是,如果0.05p“随机区组设计(shj)”下面的“单因素实验统计分析”。第48页/共112页第四十八页,共112页。数据转换(zhunhun):如数值相差几个数量级,可用对数转换(zhunhun);如许多小区值为0,则可用平方根转换(zhunhun);如指
5、标是百分数,且大部分数值大于70或小于30,可用反正弦平方根转换(zhunhun)。 一般用Tukey法和LSD法。但注意:目前国内目前的农药实验(shyn)要求Duncan 法。第49页/共112页第四十九页,共112页。 结果描述及数据分析与完全(wnqun)随机实验设计相同,就当是区组间那一行不存在第50页/共112页第五十页,共112页。51第51页/共112页第五十一页,共112页。变量平均值标准差x1总糖x2总氮X3烟碱X4蛋白质 X5糖/碱比x1总糖16.096 3.785 1.000 -0.720 -0.526 -0.772 0.581 x2总氮1.873 0.422 -0.7
6、20 1.000 0.896 0.954 -0.840 X3烟碱1.846 1.030 -0.526 0.896 1.000 0.726 -0.921 X4蛋白质9.694 1.736 -0.772 0.954 0.726 1.000 -0.686 X5糖/碱比11.581 5.802 0.581 -0.840 -0.921 -0.686 1.000 相关系数临界值,a=0.05时, r=0.3809a=0.01时,r=0.4869第52页/共112页第五十二页,共112页。95% 95% 置信区间置信区间x1x1总糖总糖x2x2总氮总氮X3X3烟碱烟碱X4X4蛋白质蛋白质x2x2总氮总氮0.
7、4674 0.86350.4674 0.8635X3X3烟碱烟碱0.1825 0.75510.1825 0.75510.7824 0.95190.7824 0.9519X4X4蛋白质蛋白质0.5550 0.89080.5550 0.89080.9015 0.97930.9015 0.97930.4770 0.86660.4770 0.8666X5X5糖糖/ /碱比碱比0.2573 0.78700.2573 0.78700.6756 0.92480.6756 0.92480.8327 0.96380.8327 0.96380.4145 0.84580.4145 0.8458偏相关偏相关x1x1总
8、糖总糖x2x2总氮总氮X3X3烟碱烟碱X4X4蛋白质蛋白质X5X5糖糖/ /碱比碱比x1x1总糖总糖0.3697 0.3697 0.6239 0.6239 0.2112 0.2112 0.0827 0.0827 x2x2总氮总氮0.1916 0.1916 0.0000 0.0000 0.0000 0.0000 0.2377 0.2377 X3X3烟碱烟碱-0.1054 -0.1054 0.9674 0.9674 0.0000 0.0000 0.8854 0.8854 X4X4蛋白质蛋白质-0.2648 -0.2648 0.9938 0.9938 -0.9487 -0.9487 0.2053 0
9、.2053 X5X5糖糖/ /碱比碱比0.3614 0.3614 -0.2505 -0.2505 0.0311 0.0311 0.2681 0.2681 左下角是相关系数左下角是相关系数r r,右上角是,右上角是p p值值偏相关偏相关, , a=0.05, r=0.4044a=0.05, r=0.4044 a=0.01a=0.01时时, ,r=0.5151r=0.5151第53页/共112页第五十三页,共112页。第54页/共112页第五十四页,共112页。第55页/共112页第五十五页,共112页。4.2 4.2 回归分析回归分析 如产量肥料反应如产量肥料反应(fnyng)(fnyng)函数
10、函数第56页/共112页第五十六页,共112页。57第57页/共112页第五十七页,共112页。施肥量与产量的关系,一般有:线性: y=a+bx二次曲线: y=a+bx+cx2Mitscherlich方程(fngchng): y=a(1-10-bx)幂函数/Cobb-Douglas方程(fngchng): y=axb指数曲线 y=aebx施肥量与产量施肥量与产量(chnling)(chnling)的关系(多为非线性)的关系(多为非线性)第58页/共112页第五十八页,共112页。20111i jmmi iii iij xjiiiybbxb xb x x多元多元(du yun)(du yun)线
11、性回归线性回归01 12 2m mybb xb xb xL第59页/共112页第五十九页,共112页。60第60页/共112页第六十页,共112页。61第61页/共112页第六十一页,共112页。第62页/共112页第六十二页,共112页。63第63页/共112页第六十三页,共112页。64第64页/共112页第六十四页,共112页。第65页/共112页第六十五页,共112页。66第66页/共112页第六十六页,共112页。67统出现如下界面。第67页/共112页第六十七页,共112页。68第68页/共112页第六十八页,共112页。69第69页/共112页第六十九页,共112页。70变异来源
12、平方和自由度均方F值p值回归468.291433.44931.26880.3026残差553.642126.3636 失拟420.371042.03673.46970.0264 误差133.271112.1154总变异1021.9335第70页/共112页第七十页,共112页。71第71页/共112页第七十一页,共112页。72y/x和目标函数y,根据这些数据,可以进行边际分析;第72页/共112页第七十二页,共112页。73第73页/共112页第七十三页,共112页。74第74页/共112页第七十四页,共112页。75第75页/共112页第七十五页,共112页。76第76页/共112页第七十
13、六页,共112页。77第77页/共112页第七十七页,共112页。78第78页/共112页第七十八页,共112页。79第79页/共112页第七十九页,共112页。80第80页/共112页第八十页,共112页。81方差分析表变异来源平方和自由度均方F值p值回归630.31 7.00 90.04 6.44 0.00 区组211.25 2.00 105.63 7.55 0.00 残差391.61 28.00 13.99 误差83.21 11.00 7.56 总变异1021.93 35.00 第81页/共112页第八十一页,共112页。82第82页/共112页第八十二页,共112页。n随机森林第83页
14、/共112页第八十三页,共112页。支持向量机、投影寻踪支持向量机、投影寻踪神经网络神经网络较稳健较稳健较差允许少量缺失值不允许有模型系数有模型系数没有各因子重要值没有各因子重要值不能识别样本点异常不能识别样本点异常拟合精度高拟合精度高拟合精度高拟合精度高第84页/共112页第八十四页,共112页。第85页/共112页第八十五页,共112页。来解释各个样本的特征(数据降维、综合平价)。5.1 主成分(chng fn)分析第86页/共112页第八十六页,共112页。市区农业总产值工业总产值建筑业总产值固定资产投资交通运输邮电业产值批零贸易餐饮业产值金融保险业总产值Y(i,1)Y(i,2)南 昌
15、市 59.40 306.08 97.98 42.74 82.43 46.71 338.32 6.77 -1.03 景德镇市 15.90 64.95 22.22 8.45 16.33 13.98 88.03 -1.09 -1.21 萍 乡 市 19.62 92.38 9.00 10.26 10.48 4.14 94.20 -1.48 -0.90 九 江 市 55.42 124.52 52.20 27.14 34.27 11.89 143.45 1.19 0.07 新 余 市 18.10 61.90 11.84 8.54 8.03 5.71 57.40 -1.87 -0.91 鹰 潭 市 15.5
16、5 41.66 3.04 11.71 4.91 3.01 41.34 -2.27 -0.76 赣 州 市 112.60 94.65 35.02 32.53 24.83 10.69 145.08 1.00 2.05 吉 安 市 74.28 49.40 29.46 13.14 15.82 10.79 102.92 -0.64 0.68 宜 春 市 88.56 95.34 16.16 18.96 19.96 11.54 102.73 -0.20 1.10 抚 州 市 63.01 61.93 24.04 8.95 5.96 4.09 88.88 -1.36 0.41 上 饶 市 70.82 96.75
17、 21.95 15.98 29.28 7.43 137.93 -0.06 0.52 第87页/共112页第八十七页,共112页。主成份分析(fnx)起源第88页/共112页第八十八页,共112页。第89页/共112页第八十九页,共112页。 F1F1F2F2F3F3i ii it tF1F11 1 F2F20 01 1 F3F30 00 01 1 i i0.9950.995-0.041-0.0410.0570.057l l i i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l l t t-0.369-0.369-0.282-0.282-0.836
18、-0.836-0.414-0.414-0.112-0.1121 1第90页/共112页第九十页,共112页。所研究的对象的特征,但在某种程度上存在信息的重叠,具有(jyu)一定的相关性。第91页/共112页第九十一页,共112页。 在力求数据信息丢失最少的原则下,对高维变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些(zhxi)综合指标就称为主成分。第92页/共112页第九十二页,共112页。保留的信息。n(3) 如何解释主成分所包含的专业意义。第93页/共112页第九十三页,共112页。ppppppppppXuXu
19、XuFXuXuXuFXuXuXuF22112222112212211111 主成分分析数学模型 多个指标(zhbio)降为少数几个综合指标(zhbio)的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标(zhbio)的线性组合Fi。第94页/共112页第九十四页,共112页。2x1x1F2F主成分分析(fnx)的几何解释平移(pn y)、旋转坐标轴第95页/共112页第九十五页,共112页。x1x1x2x2PCA1PCA1PCA2PCA2-1.6676-1.6676-1.673-1.673-2.4774-2.4774-0.004-0.004-1.4149-1.4149-1.864-1
20、.864-2.4317-2.4317-0.3331-0.3331-0.9601-0.9601-0.2084-0.2084-0.8666-0.86660.55750.5575-0.3032-0.30320.17370.1737-0.0961-0.09610.35370.3537-0.0505-0.0505-0.081-0.081-0.0976-0.0976-0.0226-0.02260 00.110.110.08160.08160.08160.08160.40430.4043-0.0174-0.01740.28690.2869-0.3127-0.31270.80850.80850.93780.9
21、3781.29511.29510.09590.09591.01071.01070.81040.81041.35061.3506-0.1485-0.14851.06121.06120.42840.42841.10471.1047-0.4693-0.46931.11171.11171.38351.38351.85051.85050.20160.2016均值均值0 00 00 00 0方差方差1 11 11.91421.91420.08580.0858第96页/共112页第九十六页,共112页。第97页/共112页第九十七页,共112页。 主成分主成分(chng fn)(chng fn)分析综合能力
22、分析综合能力 1)贡献率:第i个主成分的方差在全部(qunb)方差中所占比重 ,称为贡献率 ,反映了原来P个指标多大的信息,有多大的综合能力 。piii1 2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重(bzhng)来描述,称为累积贡献率。piikii11第98页/共112页第九十八页,共112页。 我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据(yj),即当累积贡献率80%时的主成分的个数就足够了。
23、最常见的情况是主成分为2到3个。第99页/共112页第九十九页,共112页。100系统聚类分析: 直观,易懂。快速聚类: 快速,动态。有序聚类: 保序(时间顺序(shnx)或大小顺序(shnx)。第100页/共112页第一百页,共112页。101变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。第101页/共112页第一百零一页,共112页。102第102页/共112页第一百零二页,共112页。2()iiixy欧氏距离欧氏距离(jl):Euclidean平方平方(pngfng)欧氏欧氏距离距离:Squared Euclidean2()iiixy夹角余弦夹角余弦(相似系数相似系
24、数1) :cosine22(1)cosiiixyxyiiiix yCxyPearson correlation(相似系数相似系数2):Chebychev: Maxi|xi-yi|Block(绝对距离绝对距离): S Si|xi-yi|Minkowski:1()qqiiixy当变量的测量值相差悬殊时当变量的测量值相差悬殊时,要先进行标准化要先进行标准化. 如如R为极差为极差, s 为为标准差标准差, 则标准化的数据为每个观测值减去均值后再除以则标准化的数据为每个观测值减去均值后再除以R或或s. 当当观测值大于观测值大于0时时, 有人采用有人采用Lance和和Williams的距离的距离|1iiiiixypxy22()()(2)()()iiixyxyiiiixxyyCrxxyy第103页/共112页第一百零三页,共112页。min ( ,)pqijDd x x最短距离法最短距离法:最长距离法最长距离法:重心重心(zhngxn)法法:离差平方和离差平方和:(Wald)类平均法类平均法:(中间距离中间距离, 可变平均法可变平均法,可变法可变法(bin f)等可参等可参考各书考各书).在用欧氏距离时在用欧氏距离时, 有统一的递推公式有统一的递推公式121 21 212()(),()(),()()ipjqkpqipipjqjqxGxGkipq
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论