基于多元回归的炉龄问题的实现 2.0_第1页
基于多元回归的炉龄问题的实现 2.0_第2页
基于多元回归的炉龄问题的实现 2.0_第3页
基于多元回归的炉龄问题的实现 2.0_第4页
基于多元回归的炉龄问题的实现 2.0_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选文档题目:基于多元回归的炉龄问题的实现成员信息:姓名班级学号张队长队员&答辩人日期:2019年12月30日摘要工业生产在生产出产品的同时,也生产出大量关于生产过程的信息。应充分利用这些信息并在此基础上寻求如何才能使生产得到进一步改善的方法。因为钢铁生产过程特别复杂,出现的因素特别多,各因素间又相互牵连1。因此找出某一时期影响某一实际问题的最主要原因,提供优化决策,不仅对生产技术管理有很 大的参考价值,而且也有助于积累经验,还对机理性问题的研究具有启发和促进作用。现有某钢铁公司炼钢转炉的炉龄按30天炉/天炼钢规模,大约一个月就需等炉一次进行检修。为了减少消耗,厂家通过实际测定,得到3

2、3组数据。要求对炉龄进行预测和分析。 本文针对此问题,进行分析并建立合适的数学模型,为解决炉龄问题提供方案。针对问题一,分析各个因素横向之间以及各个因素纵向内部数据之间的关系,采用灰度预测模型,将缺失的数据进行补全。针对问题二,通过主成分分析法找出与影响炉龄的主要因素,剔除对炉龄影响较小的因素。建立以多个影响因素为自变量和以炉龄为因变量的多元线性回归模型,并且建立了支持向量机的回归模型。针对问题三,对于多元线性回归模型,主要考虑其预测的残差来分析模型的可靠性,模型预测残差的分布越没有趋势,表示回归的结果越是可靠,所以多元线性回归模型对本问题有一定的适用性。对于支持向量机回归模型,将其与BP神经

3、网络进行对比,发现其性能明显优于BP神经网络。针对问题四,分析找出对转炉寿命影响较大的因素为喷补料量、炼钢时间和渣中含铁量,并将设计延长炉龄方案时重点放在这三个因素。关键词:转炉炉龄 灰度预测 多元线性型回归 支持向量机目录一、问题重述41.1问题背景41.2问题的提出4二、问题的分析4三、基本假设5四、符号说明5五、问题一的模型建立与求解55.1问题的分析55.2 模型的建立与求解6六、问题二的模型建立与求解96.1问题的分析96.2 模型的建立与求解9七、问题三的求解197.1问题的分析197.2 问题的求解19八、问题四的求解218.1问题的分析218.2 问题的求解21九、参考文献22

4、一、问题重述1.1问题背景自1952和1953年氧气顶吹转炉炼钢在奥地利的钢铁股份公司林茨钢厂与砂冶公司多纳维茨钢厂先后建成投产。转炉炼钢以其生产率高、品种多、质量好、热效率高、原材料适应性好、消耗低、成本低、基建投资少、建设速度快等优点,被国内外钢铁冶炼行业广泛采用,成为现代炼钢的主要方法之一。转炉炉龄是炼钢车间的一项综合性技术经济指标。炉龄的离低直接影响转炉钢产及耐火材料消耗和成本等指标。因此,炉龄的提高对于技经指标的改善和炼钢成本的降低具有十分重要的意义2。1.2问题的提出某钢铁公司炼钢转炉的炉龄按30天炉/天炼钢规模,大约一个月就需等炉一次进行检修。为了减少消耗,厂家通过实际测定,得到

5、下表所示的数据,其中x1为喷补料量、x2为吹炉时间、x3为炼钢时间、x4为钢水中含锰量、x5为渣中含铁量、x6为作业率、目标变量 y 为炉龄(炼钢炉次/炉)。要求完成如下四问:问题1:由于某种原因,造成个别数据缺失,试对这些缺失数据(表中用表示)进行补全。问题2:试根据附表数据建立炉龄的预测模型。问题3:采用适当的指标和方法对第2问建立的模型,和第1问修正数据之后的改进模型进行可靠性分析,说明模型对实际问题的适用性。问题4:为钢铁公司提出延长炉龄的方案。二、问题的分析此问题属于多元回归问题。回归问题是建立因变量 Y 与自变量 X 之间关系的模型。我们需要利用数据统计原理,对大量统计数据进行数学

6、处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化。根据因变量和自变量的个数分为:一元回归分析和多元回归分析。此问题属于多元回归。三、基本假设1. 所得数据可靠准确,不包含人为误差。2. 炉龄的影响因素只有喷补料量、吹炉时间、炼钢时间、钢水中含锰量、渣中含铁量、作业率六个因素。四、符号说明符号说明单位x1喷补料量x2吹炉时间x3炼钢时间x4钢水中含锰量x5渣中含铁量x6作业率y炉龄炼钢炉次/炉(k)序列的级比bj信息贡献率Q残差平方和K(xi,xj)= (xi) (xj) 核函数表1:符号说明五、问题一的模型建立与求解5

7、.1问题的分析问题一首先要求我们根据一项已知的数据,对个别数据缺失,试这些缺失数据(表中用表示)进行补全。由附表可以看出,给出的数据是一些离散的,规律性不强的数据,此时我们采用灰色预测的方法对其进行补全。灰色系统理论认为,尽管客观表象复杂,但总是有整体功能的,因此必然蕴含某种内在规律。关键在于如何选择适当的方式去挖掘和利用它。灰色系统是通过对原始数据的整理来寻求其变化规律的,这是一种就数据寻求数据的现实规律的途径,即为灰色序列的生成。一切灰色序列都能通过某种生成弱化其随机性,显现其规律性。灰色预测的主要特点是模型使用的不是原始数据序列,而是生成的数据序列。其核心体系是灰色模型(Grey Mod

8、el,简称GM),即对原始数据作累加生成(或其它方法生成)得到近似的指数规律再进行建模的方法。5.2 模型的建立与求解5.2.1数据的检验与处理首先,为了保证建模方法的可行性,需要对已知数据列作必要的检验处理。设参考数据为x(0)=(x(0)(1),x(0)(2),x(0)(n),计算序列的级比:k=x0k-1x0k k=2,3,n (5.1)如果所有的级比(k)都落在可容覆盖=(e-2n+1,e2n+2)内,则序列x(0)可以作为模型GM(1,1)的数据进行灰色预测。如果所有的级比(k)都落在可容覆盖=(e-2n+1,e2n+2)内,则序列x(0)可以作为模型GM(1,1)的数据进行灰色预测

9、。否则,需要对序列x(0)做必要的变换处理,使其落入可容覆盖内。即取适当的常数c,作平移变换:y(0)(k)=x(0)(k)+c,k=1,2,n (5.2)使序列y(0)=(y(0)(1),y(0)(2),y(0)(n)的级比:yk=y0k-1y0k k=2,3,n (5.3)5.2.2建立模型1.已知参考数据列x(0)=(x(0)(1),x(0)(2),x(0)(n) (5.4)进行1次累加生成序列:x(1)=(x(1)(1),x(1)(2),x(1)(n)=(x(0)(1),x(0)(1)+x(0)(2),x(0)(1)+x(0)(n)(5.5)其中x(1)(k)=i=1kx(0)(i)(

10、k=1,2,n)。x(1)的均值生成序列:z(1)=(z(1)(2),z(1)(3),z(1)(n)(5.6)其中z(1)(k)=0.5x(1)(k)+0.5x(1)(k-1),k=2,3,n。2.建立灰微分方程x0k+az1k=b k=2,3,n(5.7)相应的白化微分方程为:dx(1)dt+ax(1)(t)=b (5.8)记u=a,bT,Y=x(0)(2),x(0)(3),x(0)(n)T,B=-z(1)(2)1-z(1)(3)1-z(1)(n)1,则由最小二乘法,求得使J(u)=(Y-Bu)T(Y-Bu)达到最小值的u的估计值u=a,bT=(BTB)-1BTY于是求解方程(5-8)得:x

11、1k+1=x01-bae-ak+ba k=0,1,n-1, (5.9)5.2.3 模型求解1.对于x4(钢水中含锰量),先选取前19个数据对第20个数据进行的级比图1:残差(k),发现不满足级比要求。多次测试后,选择:x(0)=(50,44,46,46,48,45,42,40)此时级比满足要求。由此补全所缺失的值:502.对于x6(作业率),先选取前19个数据对第27个数据进行的级比(k),发现不满足级比要求。多次测试后,选择: x(0)=(35,33.3,37.9,42.9)图2:残差此时级比、残差满足要求。由此补全所缺失的值:37.777.3.对于 y(炉龄),先选取前25各数据对第27个

12、数据进行的级比(k),发现不满足级比要求。多次测试后,选择x(0)=(832,1076,1376,914 )此时级比满足要求。由此补全所缺失的值:1366.5。图3:残差补全后的数据如下:序号x1x2x3x4x5x6y200.215520.240.25016.841.71098280.243617.737.24516.237.771105300.19717.335.94613.857.41366.5表2:应补全的数据六、问题二的模型建立与求解6.1问题的分析问题二要求根据附表数据建立炉龄的预测模型。由表中数据可以看出,我们需要找出多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变

13、量。对此我们采用回归分析的方法。回归分析(Regression Analysis)是一种统计学上分析数据的方法,回归分析是建立因变量Y(或称依变量,反因变量)与自变量X(或称独变量,解释变量)之间关系的模型。在建立模型前,由于自变量过多,可先对自变量进行主成分分析。然后可先建立多元线性回归模型来观察。6.2 模型的建立与求解6.2.1数据的处理主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成

14、分分析实际上是一种降维方法。1.主成分分析法的步骤如下(1)对原始数据进行标准化处理假设进行主成分分析的指标变量有m个,分别为x1,x2,xm,共有n个评价对象,第i个评价对象的第j个指标的取值为aij。将各指标值aij转换成标准化指标值aij,aij=aij-jsj (i=1,2,n;j=1,2,m)(6.1)其中j=1ni=1naij,sj=1n-1i=1n(aij-j)2,(j=1,2,m),即j,sj为第j个指标的样本均值和样本标准差。对应地有,xj=xj-jsj (j=1,2,m) (6.2)(2)计算相关系数矩阵R相关系数矩阵R=(rij)m×mrij=k=1nakiak

15、jn-1 ,(i,j=1,2,m),(6.3)式中rii=1,rij=rji,rij是第i个指标与第j个指标的相关系数。(3)计算特征值和特征向量计算相关系数矩阵R的特征值12m0,及对应的特征向量u1,u2, ,um,其中uj=u1j,u2j,umjT,由特征向量组成m个新的指标变量y1=u11x1+u21x2+um1xmy2=u12x1+u22x2+um2xmym=u1mx1+u2mx2+ummxm式中y1是第1主成分,y2是第2主成分,ym是第m主成分。(4)选择p(pm)个主成分,计算综合评价值)计算特征值j(j=1,2,m)的信息贡献率和累积贡献率。称bj=jk=1mk (j=1,2

16、,m)(6.4)为主成分yj的信息贡献率,p=k=1pkk=1mk (6.5)为主成分y1,y2,yp的累积贡献率,当p接近于1(一般取p=0.85,0.90,0.95)时,则选择前p个指标变量y1,y2,yp作为p个主成分,代替原来m个指标变量,从而可对p个主成分进行综合分析。)计算综合得分Z=j=1pbjyj (6.6)其中bj为第j个主成分的信息贡献率,根据综合得分值就可进行评价。2.主成分分析法的结果分析如下:图4:各成分贡献率由结果可知,x1(喷补料量)、x2(吹炉时间)、x3(炼钢时间)、x4(钢水中含锰量)、x5(渣中含铁量)和x6(作业率)的贡献率分别为30.3143,25.7

17、442,19.7510,14.1698,7.6058, 2.4148。因此前五个主成分的贡献率已达97.5852%,实际应用中可只取前五个成分。6.2.2建立模型1.多元线性回归预测模型(1)建立的模型为&y=0+1x1+mxm+,&N(0,2), (6.1)式中0,1,m,2都是与x1,x2,xm无关的未知参数,其中0,1,m称为回归系数。现得到n个独立观测数据bi,ai1,aim,其中bi为y的观察值,ai1,aim分别为的观察值,i=1,n,n>m,由(7.1)得&bi=0+1ai1+maim+i,&iN(0,2),i=1,n. (6.2)记:X=1

18、a11a1m1an1anmY=b1bn (6.3)=1,nT=0,1,mT(6.1)即可表示为&Y=X+,&N(0,2En), (6.4)其中En为n阶单位矩阵。(2)参数估计模型(6.1)中的参数0,1,m用最小二乘法估计,即应选取估计值j,使当j=j,j=0,1,m时,误差平方和Q=i=1ni2=i=1n(bi-bi)2=i=1n(bi-0-1ai1-maim)2 (6.5)达到最小。为此,令:Qj=0,j=0,1,2,n,&Q0=-2i=1n(bi-0-1ai1-maim)=0,&Qj=-2i=1n(bi-0-1ai1-maim)aij=0,j=1,2,m

19、. (6.6)经整理化为以下正规方程组:&0n+1i=1nai1+2i=1nai2+mi=1naim=i=1nbi,&0i=1nai1+1i=1nai12+2i=1nai1ai2+mi=1nai1aim=i=1nai1bi,& &0i=1naim+1i=1naimai1+2i=1naimai2+mi=1naim2=i=1naimbi, (6.7)正规方程组的矩阵形式为XTX=XTY (6.8)当矩阵X列满秩时,XTX为可逆方阵,式(7.8)的解为=(XTX)-1XTY. (6.9)将代回原模型得到y的估计值y=0+1x1+mxm (6.10)而这组数据的拟合值为

20、bi=0+1ai1+maim(i=1,n),记Y=X=b1,bnT,拟合误差e=Y-Y称为残差,可作为随机误差的估计, Q=i=1nei2=i=1n(bi-bi)2 (6.11)称Q为残差平方和。(3)模型求解通过计算(MATLAB程序参考了文献7),得到:y =3527.1+1005.8*x1-24.335*x2-58.476x3-0.081657x4-6.7537x5+0.5902x6。得到真实值和拟合值的结果如图:图5:真实值和拟合值结果残差的置信区间如下图所示:图6:残差的置信区间复相关系数R为0.6相关关系不成立。同时,系数95置信区间bint包含零点,可认为在95置信度下,相应变量

21、对y影响不显著,寻找异常点,考虑改进模型。图7:去除异常点发现3个异常点: 10、12、29。从原始数据中将其剔除后,重新做多元线性回归,拟合结果如图:图8:去除异常点,真实值和拟合值结果此时计算得:R = 0.803,相关关系成立。同时F值有了较大的提升。此时,得到y=0+1x1+6x6+,中的值为:2387.0891,1508.4431,11.9415,-42.6046,1.9757,-25.5838,0.4669。同时6为0.4,验证了主成分分析的结果。除此之外,我们还建立了支持向量机的回归预测模型,下面介绍如下。2.支持向量机的回归预测模型3,4,8,9支持向量机(support ve

22、ctor machines,SVM)是一种基于结构风险最小化原理 的机器学习技术,能较好地解决小样本、非线性、高维数和局部极小点等问题5。(1)模型建立设含有i 个数据的集合为 (xi,xj)| i=1,2l ,其中xi Rd 是第i个训练样本的输入列向量,xi=x1x2, xi T, yiR为对应的输出值。 设在高维特征空间中建立的线性回归函数为 f(x)= xi+b。其中,(x)为非线性映射函数,表示权重,b表示偏差。 引入松弛因子 i , *i ,原问题转化为:引入松弛因子 i , *i ,原问题转化为:min122+Ci=1l(i+*i)s.t.&yi-w(xi)-b+i,&a

23、mp;(xi)-yi+i, i=1,2li0,i*0 (6.12)式中: 表示不敏感损失系数;C为惩罚因子,C越大表 示对训练误差大于的样本惩罚越大, 规定了回归函数的误差要求,越小表示回归函数的误差越小。 上述模型对应的对偶形式:max -12i=1lj=1l(i-*i)(j-*i)K(xi,xj)-j=1l(i+*i)+i=1l(i+*i)yis.t.& j=1li-*i=0,& 0iC0iiC (6.13)其中: K(xi,xj)= (xi) (xj) 为核函数,本文选取应用广泛、 精度较高的RBF核函数,其表达式为K(xi,xj)=exp(-|xi-xj|22) (6.

24、14)通过(3)得最优解=12l,*=*1*2*l,并根据此求出权重*和b*,最后得出支持向量机得回归函数f(x)=w*(x)+b*=i=1l(-*)(xi)(x)+b*=i=1l(-*)K(xi,x)+b*(6.15)(2)模型求解先将附表中的数据去除缺失行,利用余下的数据建立回归模型。通过多次计算及参数选择(MATLAB程序参考了文献5-6),得出计算过程中的的最优训练集和测试集样本的预测仿真效果见下图。图9:训练集预测结果对比图10:测试集预测结果对比从两图可以看出,训练集和测试集的均方误差分别为0.00010183和 0.00063372,决 定 系 数 分 别 达 到 0.99981

25、 和 0.92449。这表明利用六个自变量和一个因变量所建立的SVR 回归模型具有非常好的泛化能力。此时选择的训练集为27个,测试集为3个。七、问题三的求解7.1问题的分析问题三有以下两个要求:a. 采用适当的指标和方法对第2问建立的模型进行评价和分析;b. 对利用第1问修正数据之后的改进模型进行可靠性分析,说明模型对实际问题的适用性。7.2 问题的求解7.2.1 多元线性回归预测模型根据问题1,补全后的数据见附表,利用补全后的数据进行回归分析,步骤同6.2.2。此时,得到y=0+1x1+6x6+,中的值为:2458.792,1647.034,40.609,-56.875,2.282,-31.

26、774,1.086。图11:真实值和拟合值结果回归模型的可靠性分析主要考虑其预测的残差,由其原理可知,模型预测残差的分布越没有趋势,就表示回归的结果越是可靠。图12:残差分布图由残差的分布图可知,每个点代表一个残差,在途中可以看到残差点的分布是非常分散的。所以该模型的可靠性具有一定的显著性,对本问题有一定的适用性。7.2.2 支持向量机的回归预测模型为了对比SVR 回归模型的性能,这里将之与BP神经网络对比。与图1和图2对应的训练集和测试集相同,建立的BP神经网络6对测试集的预测结果如图所示:图13:BP神经网络测试集预测结果对比不难发现,SVR 回归模型的性能要明显优于BP神经网络。八、问题

27、四的求解8.1问题的分析问题四要求为钢铁公司提出延长炉龄的方案。对于此问题我们需要分析六个自变量中哪个对因变量的影响更大。8.2 问题的求解根据问题作以下考虑:自变量变动一个单位,因变量变动多少个单位。单从此方面来说,如果系数很小,比如0.00001这种,我们说虽然具有统计上的显著性,但是没有经济的显著性。由本文“六、问题二的模型建立与求解”知,x1,x2,x3,x4,x5,x6的系数分别为1508.4431,11.9415,-42.6046,1.9757,-25.5838,0.4669。可知x1,x3,x5对炉龄影响较大。据此建议钢铁公司设计延长炉龄方案时应该把重点放在关注喷补料量、炼钢时间

28、和渣中含铁量三方面提出改进措施。九、参考文献1刘苏杭.提高卧式转炉炉龄的方法和措施探究J.湖北农机化,2018(05):52.2文灏,区勇铭.转炉炉龄影响因素的探讨J.南方钢铁,1996(04):13-15.3薛磊, 吴炜.一种基于支持向量回归的多层原油分层产能贡献预测模型J.石油化工高等学校学报, 2006, 19 (4) :88-92. 4徐飞, 徐卫亚.基于支持向量机-马尔可夫链的位移时序预测J.岩土力学, 2010, 31 (3) :944-948.5 蔡煜东.遗传程序设计用于工业调优炼钢转炉炉龄预测J.自动 化学报,1997,23(1):51-546 7司守奎, 孙玺菁. 数学建模算

29、法与应用M. 2011.8陈剑勇, 苏浩益.结合支持向量机和马尔可夫链算法的中长期电力负荷预测模型J.南方电网技术, 2012, 6 (1) :54-58. 9李丹玲,陈平雁,周凤麒.基于线性-支持向量回归机的异常数据检测J.数理统计与管理,2011,30(01):59-63.附录: 1、附表:序号x1x2x3x4x5x6y10.292218.541.4581883.3103020.267218.441511891.7100630.268517.738.65217.378.9100040.183518.941.81812.847.270250.23481839.45117.457.410876

30、0.138618.940.53912.822.590070.208318.339.86417.152.670880.41818.8416416.426.7122390.10318.439.22012.335803100.489319.341.44919.131.3715110.205819404018.841.2784120.092517.938.75014.366.7535130.18541940.8442128.6949140.196318.137.24615.3631012150.100818.2374616.833.9716160.270218.939.54820.231.385817

31、0.146519.138.64517.828.1826180.13531938.64216.739.71015190.224418.837.74017.449861200.215520.240.24616.841.71098210.031620.941.24817.452.6580220.049120.340.65619.735573230.148719.439.54218.333.3832240.244518.236.64115.237.91076250.222218.4374013.742.91376260.129818.437.24517.244.3914270.2318.437.147

32、22.921.6861280.243617.737.24516.237.7771105290.280418.337.54617.320.31013300.19717.335.94613.857.41366.5310.18416.235.34316.644.81039320.167917.134.64320.337.31502330.152417.6365114.236.711282、源码(1)灰度预测1. clc,clear  2. x0=load('mydatax.txt'); %注意这里为列向量  3. n=length(x

33、0);  4. lamda=x0(1:n-1)./x0(2:n)  %计算级比  5. range=minmax(lamda')  %计算级比的范围  6. x1=cumsum(x0);  %累加运算  7. B=-0.5*(x1(1:n-1)+x1(2:n),ones(n-1,1);  8. Y=x0(2:n);  9. u=BY  %拟合参数u(1)=a,u(2)=b 

34、60;10. x=dsolve('Dx+a*x=b','x(0)=x0'); %求微分方程的符号解  11. x=subs(x,'a','b','x0',u(1),u(2),x0(1); %代入估计参数值和初始值  12. yuce1=subs(x,'t',0:n-1); %求已知数据的预测值  13. y=vpa(x,6)   %其中的6表示显示6位数字  1

35、4. yuce=x0(1),diff(yuce1)  %差分运算,还原数据  15. epsilon=x0'-yuce    %计算残差  16. delta=abs(epsilon./x0')  %计算相对误差  17. rho=1-(1-0.5*u(1)/(1+0.5*u(1)*lamda'  %计算级比偏差值,u(1)=a  (2)主成分分析1. clc,clear  

36、;2. gj=load('mydatax.txt');   %把原始数据保存在纯文本文件  3. gj=zscore(gj); %数据标准化  4. r=corrcoef(gj);  %计算相关系数矩阵  5. %下面利用相关系数矩阵进行主成分分析,x的列为r的特征向量,即主成分的系数  6. x,y,z=pcacov(r) %y为r的特征值,z为各个主成分的贡献率  7. f=repmat(sign(sum(

37、x),size(x,1),1); %构造与x同维数的元素为±1的矩阵  8. x=x.*f %修改特征向量的正负号,每个特征向量乘以所有分量和的符号函数值  9. num=6;  %num为选取的主成分的个数  10. df=gj*x(:,1:num);  %计算各个主成分的得分  11. tf=df*z(1:num)/100; %计算综合得分  12. stf,ind=sort(tf,'descend

38、9;);  %把得分按照从高到低的次序排列  13. stf=stf', ind=ind'  14. bar(z)  15. title('各个主成分的贡献率')  16. xlabel('各个主成分')  17. ylabel('贡献率');  (3)多元线性回归1. clc, clear  2. x = load('rea

39、llx.txt');%提取x的观察值  3. y = load('really.txt');%提取因变量y的观察值  4. Y=nonzeros(y); %去掉y后面的0,并变成列向量  5. n=length(Y); %样本点的个数  6. N = 1:n;%标记样本点  7. X=ones(n,1),x; %构造多元线性回归分析的数据矩阵X  8. beta,betaint,r,

40、rint,st=regress(Y,X)  %计算回归系数和统计量等,st的第2个分量就是F统计量,下面根据统计量的表达式重新计算的结果和这里是一样的。  9. q=sum(r.2)   %计算残差平方和  10. ybar=mean(Y)  %计算y的观察值的平均值  11. yhat=X*beta  %计算y的估计值  12. u=sum(yhat-ybar).2);   %计算回归平方和&#

41、160; 13. MM  = size(x);  14. m=MM(2);    %变量的个数,拟合参数的个数为m+1  15. F=u/m/(q/(n-m-1);  %计算F统计量的值,自由度为样本点的个数减拟合参数的个数  16. fw1=finv(0.025,m,n-m-1); %计算上alpha/2分位数  17. fw2=finv(0.975,m,n-m-1); %计算上1-alpha/

42、2分位数  18. c=diag(inv(X'*X)   %计算c(j,j)的值  19. t=beta./sqrt(c)/sqrt(q/(n-m-1);  %计算t统计量的值  20. tfw=tinv(0.975,n-m-1)   %计算t分布的上alpha/2分位数  21. save xydata Y x  %把Y和x123保存到mat文件xydata中,供问题(3)的二

43、次模型使用  22. PY = beta(1)+beta(2)*x(:,1)+beta(3)*x(:,2)+beta(4)*x(:,3)+beta(5)*x(:,4)+beta(6)*x(:,5)+beta(7)*x(:,6); %计算拟合值  23. % 二次模型  24. % load xydata  25. % rstool(x,Y)  26. % 模型相关数据  27. R =&

44、#160;sqrt(u/(u+q);%复相关系数  28. figure(1)  29. plot(N,rint(:,1),N,rint(:,2);  30. xlabel('残差的置信区间')  31. figure(2)  32. % rcoplot(r,rint);  33. plot(r,'o')  34. legend('残差值')  35. xlabel('样

45、本编号')  36. % 拟合值真实值对比  37. figure(3)  38. plot(N,y,'r-*',N,PY,'b:o')  39. legend('真实值','拟合值')  40. xlabel('样本编号')  41. ylabel('炉龄')  (4)支持向量机的回归1. % I. 清空环境变量 

46、; 2. clc  3. clear all  4. % II. 导入数据  5. %load concrete_data.mat  6. attributes = load('attributes2.txt');  7. strength = load('strength2.txt');  8. %  9. % 1.

47、0;随机产生训练集和测试集  10. n = randperm(size(attributes,2);  11. %  12. % 2. 训练集  13. xl = input('输入训练集的个数(小于30)');  14. p_train = attributes(:,n(1:xl)'  15. t_train = strength(:,n(1:xl)

48、'  16. %  17. % 3. 测试集  18. cs = xl+1;  19. p_test = attributes(:,n(cs:end)'  20. t_test = strength(:,n(cs:end)'  21. % III. 数据归一化  22. %  23. % 1. 

49、训练集  24. pn_train,inputps = mapminmax(p_train');%归一化(mapminmax)  25. pn_train = pn_train'  26. pn_test = mapminmax('apply',p_test',inputps);  27. pn_test = pn_test'  28. %  29.

50、 % 2. 测试集  30. tn_train,outputps = mapminmax(t_train');  31. tn_train = tn_train'  32. tn_test = mapminmax('apply',t_test',outputps);  33. tn_test = tn_test'  34. % IV.

51、60;SVM模型创建/训练  35. %  36. %1. 寻找最佳c参数/g参数  37. %c,g = meshgrid(0:3:120,500:3:620);(-10:0.5:10,-10:0.5:10)  38. c,g = meshgrid(0:4:120,500:4:620);  39. m,n = size(c);  40. cg = zeros(m,n); &#

52、160;41. eps = 10(-4);  42. v = 5;  43. bestc = 0;  44. bestg = 0;  45. % bestc = 96.568;  46. % bestg = 557.80999;  47. error = Inf;  48. for i&#

53、160;= 1:m  49.     for j = 1:n  50.         cmd = '-v ',num2str(v),' -t 2',' -c ',num2str(2c(i,j),' -g ',num2str(2g(i,j)

54、60;),' -s 3 -p 0.1'  51.         cg(i,j) = svmtrain(tn_train,pn_train,cmd);  52.         if cg(i,j) < error  53.    

55、60;        error = cg(i,j);  54.             bestc = 2c(i,j);  55.             bestg = 2g(

56、i,j);  56.         end  57.         if abs(cg(i,j) - error) <= eps && bestc > 2c(i,j)  58.       

57、0;     error = cg(i,j);  59.             bestc = 2c(i,j);  60.             bestg = 2g(i,j);  61

58、.         end  62.     end  63. end  64. % bestc = 96  65. % bestg = 557  66. %  67. % 2. 创建/训练SVM    68. cmd = ' -t 2',' -c ',num2str(bestc),

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论