毕业设计(论文)文献翻译:在机器学习中使用线性回归进行排名_第1页
毕业设计(论文)文献翻译:在机器学习中使用线性回归进行排名_第2页
毕业设计(论文)文献翻译:在机器学习中使用线性回归进行排名_第3页
毕业设计(论文)文献翻译:在机器学习中使用线性回归进行排名_第4页
毕业设计(论文)文献翻译:在机器学习中使用线性回归进行排名_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕业设计(论文)--文献翻译原文题目UseofLinearRegressioninMachineLearningforRanking译文题目在机器学习中使用线性回归进行排名专业信息与计算科学姓名学号指导教师摘要机器学习今天是AI的增长领域。我们讨论在本文中使用被称为回归学习的监督学习算法进行排名。回归学习被用作预测模型。因变量的值通过基于独立变量值的回归模型预测。通过回归学习如果经验E后,程序提高其绩效P,那么程序据说正在进行回归学习。我们选择使用线性回归进行排名,并通过从知识中选择最佳排名参数来进一步讨论秩回归模型构建的方法,并通过在模型构建期间执行回归分析来进一步确认其选择。举例说明。结果分析,我们讨论了综合回归和排名方法,如何更好地利用线性回归进行排名目的。我们总结并提出未来工作排名和回归。关键词:回归学习;排名;模型第一章引言本文介绍了机器学习中的回归学习在排名中的应用。机器学习是一个日益增长的领域,AI提供回归学习作为监督学习。回归模型可以是单个和多个变量单变量回归Y=a+b*X(1)Y=DependentVariableX=IndependentVariableMultipleVariablesRegressionY=a+b1*X1+b2*X2+…bn*Xn(2)使用那里排名模型我们讨论Rank模型建立的各种方法。让我们首先了解如何用最佳参数和系数构建回归模型。如何找到回归系数?1.特征小于10000时的正态方程。W=(XT*X)-1*XT*Y2.所有情况下的渐进下降。梯度下降算法重复直到收敛[5]{Forj=1ton{Tempj:=Mj+α*1/N∑Ni=1(Y(i)-H(M,X,i))*Xj}CorrectSimultaneousUpdateForj=1ton{Mj=Tempj}}[5]第二章LITERATURE调查A.所有可能的子集回归选择包含在考虑所有可能的独立变量组合的回归模型中的变量的方法。例如。4个变量。该技术将用1,2,3,4个变量估计所有可能的回归模型。然后,该技术将以最佳预测精度识别模型。B.向后消除选择包含在模型中的变量的方法,通过在模型中包含所有变量,然后消除那些对预测没有显着贡献的变量。C.没有独立变量的预测因变量值的平均值给出了无独立变量的预测值。D.由于更多的功能,适合图1:过度拟合,因为生长的特点E.正规化,避免过度拟合L2Regularization:E(w)=1/2*∑n-0m-1(Yn-H(Xn,w))2+lambda/2*||w||2L1Regularization:E(w)=1/2*∑n-0m-1(Yn-H(Xn,w))2+lambda*|w|1L0Regularization:E(w)=1/2*∑n-0m-1(Yn-H(Xn,w))2+lambda∑n-0m-1del(w≠0)L0-regularizationisfeatureselectionforlinearmodels.L1-andL2-regularizationsapproximatefeatureselectionandregularizethefunction.L2RegularizedNormalEquation:W=(XT*X+lambda*I)-1XT*Y–[11]F.相关系数的作用1)决定系数R2测量变量的方差的比例,其平均值,这是解释的指标或预测变量,系数可以在0和1之间变化。回归模型是适当的估计和应用更高的R2值,回归方程的解释力就越大,从而更好地预测因变量平方和回归平方和2)调整后的测定系数(调整后R2)修正系数的测量,考虑到自变量包括在回归方程和样本大小的数目。虽然独立的加入单独的变量都会使测定上升系数,调整后的决定系数可能如果添加的独立变量没有解释力或者不落自由度变得太小。这个统计是相当有用的方程之间的比较与不同数量的独立变量,不同的样本量。G自由度(DF)从观测值总数减去估计参数数计算出的值。这些参数的解释数据的限制,一旦做出决定,他们决定从这人口h数据被假定已绘制。如果自由度小,所得到的预测可能是不太广义的,因为所有的,但一些意见纳入预测。反之,大自由度值i指出预测是相当稳健,作为受访者的总体样本的代表性。H. P-value单独使用P值1)通常研究者在不使用临界值的情况下确定意义。下面的图表是用来确定一个给定的P-统计意义的标准的一个例子是E.小于反对零假设的有力证据,0.01很显著0.01to0.05对零假设的一些证据大于证据不足0.05假设表1:给定p值的统计意义赞成这种方法的统计学家认为,由于没有明确的意义水平,研究人员的负担决定意义。I.通用回归模型建立过程对于建立任何回归模型,我们遵循的程序选择最佳的参数模型。要建立回归模型,需要对模型进行回归参数的选择,需要通过选择自变量和自变量来建立模型。这个过程如下:我们选择输出参数是适合我们的目的的知识1.我们将选择输入参数的知识。我们通过知道输出参数与输入参数之间的关系来选择输入参数。2.回归分析确定模型最佳参数3.我们从每个选定的参数建立单变量回归模型。利用X、Y数据进行模型训练。我们注意到他们的P和R平方,调整后的平方。2.我们可以直接向后淘汰或所有可能的子集回归得到最佳的模型,或我们建立多元变量回归模型,从选定的变量在步骤3a。做培训检查模型中的所有变量的值。我们也注意到过,即相关系数调整过。在这里,我们选择从其P值<意义否则删除变量模型的P值>意义模型的变量。如果某些变量下降然后我们做我们的模型的训练和看过的就是太多或少。如果过不降多少我们的最终模型的声明。否则我们可能会瘦K的一些其他参数,并考虑包括他们后,他们的评价讨论1,2和3。如果我们有很好的变量在我们的模型为我们的模型所需的足够的解释力。然后,我们宣布它作为我们的最终回归模型。注:1.如果P值=显著-变量将产生显著的回归估计,否则估计将是错误的。2.如果相关说明因变量变化的模型为独立变量目前的变化。.CorrelationSuggested%ChangeindependentCoefficientvariablebychangeinindependentR2variable/spresentinModelbyR20.0to0.2Veryweak0.2to0.4Weak0.4to0.7Medium0.7to0.9Strong0.9to1.0Verystrong表2:相关系数R2意义J.回归建模线性回归学习时使用的排名,我们需要考虑哪些参数排名是依赖。排名可能取决于单一或多个参数称为排名参数。S哦,最初我们有两个回归模型如下:秩依单变量秩=A+B*RP模型-我RP=排名参数等级取决于多个变量等级=A+B1*RP1+B2×RP2+BN×RPN模式二RP1、RP2,RPN是排名参数模型这两个模型将回归模型来训练数据—等级取决于单变量训练<排名,RP>模型–我等级取决于多个变量梯度下降是用来减少错误,而训练得到最佳回归系数。如果数据中我们使用批处理梯度如果数据量非常大,我们使用随机梯度耳鼻喉科下降。排序模型的参数选择最佳排名的直觉或知识进一步的模型可以评估使用回归分析,根据回归了训练回归模型可选择最终最佳回归参数。这种训练将有助于获得最佳的回归系数模型的均方误差最小化使用梯度下降算法。因此,我们的模型是完整的排名与培训。回归模型可以是完美的回归模型,如果平均平方误差为零。因此,用完美回归模型对秩的预测是完美的。但是,这并不总是正确的,因为通常均方误差不会为零。该模型可以是近乎完美的模型或错误。这是线性回归的缺点时,用于排名。回归中的误差将导致在等级产生误差。虽然误差最小化,这样的模型并不总是预测正确的行列。现在还有一件事,即当我们需要预测排名,我们有模型,但没有直接的排名参数的价值是我们。在这种情况下,我们需要构建另一个回归预测排名参数选择最佳的独立变量的具体排名参数取决于模型。因此,我们可以得到排名参数的预测值从t他的模型和提交的结果在我们的排名模型I或II。因此,排名将预测模型I或II。第三章相关的工作A.回归参数选择的探讨让我们讨论任何回归模型的最佳回归参数选择过程。建立回归模型的参数选择是直观的,知识渊博的任务,其次是培训和回归分析,以确定最佳的参数回归。因此,参数选择最初进行直观和独立变量依赖变量的依赖知识。和变量被选择为回归我们认为将有助于决定因变量的价值。第一步-我们建立单一回归模型与选定的变量。我们做这些模型的训练和观察值和调整过的。如果我们的选择信心是说90%我们的意义将以100-90=10%。所以,我们选择其P值小于10%,因为我们估计将满足90%置信度准则的变量。我们将如果选择特定的变量进行回归,则90%确定结果。否则,如果变量的值大于10%的估计是错误的,所以我们拒绝变E.第二步,我们建立多元回归模型,如果选择的变量,从步骤I是一个以上。我们观察到的p值和调整变量R平方值。首先我们拒绝变异变量的值远远大于所需的意义。我们重新回归训练和观察值的变化和调整过的。我们拒绝该变量的值s大于所要求的意义。我们重新回归,我们观察到的p值和调整过的。现在我们需要看到调整过的很严重因为如果调整过的是倒下了太多的干扰去除略大于所需的意义,我们可以认为加入他们的回归提高调整过提供ST后的变量标准误差不起增加变量太多,P不要走远比要求的意义。因此,我们完成我们选择的最佳变量回归。B.关于排序参数选择的讨论我们需要通过直觉和知识来选择最佳的排名参数,并进行回归训练和回归结果分析上面解释,以保持最佳的排名参数,我们的排名通过回归模型。此外,我们可以建立回归模型预测的排名参数的回归。我们需要选择最佳的独立变量的直觉和知识的排名表看。我们做了回归训练和结果分析上面解释,并选择最佳的回归参数,其中特定的排名参数取决于。我们建立回归模型每个排序参数。我们现在将装备使用线性回归的任何东西,所以排名。我们应该记住,我们需要使用的方法来解释任何排名在现实生活中的例子。我们将现在用回归法讨论排序的例子,并做结果分析。第四章使用回归排名A.排名取决于单变量排名取决于单变量秩=A+B*RP模型-我例子:等级=a+b*CGPA(1)在这里,分数排名仅参数即RP现在我们也需要选择最佳的回归参数预测分数为分数建立预测模型。直观或知识我们可以认为分数取决于这些参数分数=A+B1*GateScore*健康++B2B3B4*+*出勤率avgu1+*+*avgendsemavgu2B6,B5(2)得分、卫生、考勤、avgu1,avgu2,AvgENDSEM凡此种种,不一而足。我们建立了单回归模型与每个单独的参数选择,并选择这些参数其P值小于0.05即信心>=95%正确估计和记R2的所有参数。然后,我们建立多元回归模型的所有选定的变量产生显着的估计,并遵循落后淘汰方法。我们也可以直接使用淘汰落后没有建筑每个参数的NG的单变量模型是可取的如果参数较少建立单变量模型和了解每个参数R2和P值的贡献。这将有助于决定多元回归模型中变量的包含。我们也可以使用所有可能的子集的方法来获得最佳的模型,但当功能更落后淘汰是首选。后面的任何一个落后的消除或所有子集的方法,我们建立M模型预测分数。应用模型建立过程中,我们得到以下model…分数=A+*+*avgendsemavgu2B1B2(3)B.排名取决于多个变量等级=A+B1*RP1+B2×RP2++BN×RPN模型–II的例子:通过排序选择部门的候选人。排名取决于许多排名参数,如教育学校的水平1-iit2-nit三态政府4-privatea5-privateb度%>>=1=90–,80-30,型号:>=,>=60-4,<60-5课外国际国家状态12345区联校校际IIT/nit-2得分从100门分了100选择排序参数的最终模型,等级=α+B1*eduschoollv+B2*度%+运动+B3B4*GateScore(1)图1:加权排序模型排名取决于多个变量Rank=a+b1*w1*反相1+b2*2*2w反相!..。+BN×WN*RPN模型–三例:候选人的排名在部门分配权重排名参数.排名取决于许多排名参数,如教育学校的水平1-IIT2-NIT3-StateGOV4-PrivateA5-PrivateBDegree%>=90–1,>=80-2,>=75-3,>=60-4,<60-5ExtracurricularInternational-1National-2State-3District-4Interschool-5InterschoolIIT/NIT-2GateScore-outof100GatePercentile-outof100Finalmodelofselectedrankingparameters,Rank=alpha+b1*w1*EduSchoolLv+b2*w2*Degree%+b3*w3*sports+b4*w4*GateScore(1)C.回归误差影响排名回归误差影响排名,所以结合排名和回归的方法来找到排名产生更好的结果。D.监督回归:这个总损失L(W,D)是由:L(Q,D)=/-D*∑((x,y,q)∈D)l(y,f(w,x))在这里,L(Y,y)是一个损失函数在一个单一的例子,定义在真正的目标值y和预测值y,和F(W,x)返回的预测值y使用W表示的模型。也就是说,我们寻求一个线性模型表示的权重向量W,既最大限度地减少W的训练数据D的损失,也具有低模型的复杂性,所表示的权重的平方范数矢量.参数lambda控制正则化的量,调整这个参数交易(可能冲突)的目标,找到一个模型,很简单,找到一个模型T帽子符合数据很少损失。E.监督排序:有监督的排序方法的目标是学习一个模型,即在一组前所未见的数据损失小,采用预测函数f(w,x)为每一个以前看不到的特征向量R在集合中,相对于基于秩的损失函数。学习排名的一个简单的和成功的方法是成对的方法,采用RankSVM。在这种成对的方法,训练样本d的原始分布扩展到一组P候选对,和一组成对示例向量的学习所得。正式候选人对P暗示的固定数据集D组实例对的集合(一个,哎,QA),(B,Yb,QB)从D在亚6=Yb和QA=QB所有例子。当亚镱,然后优于B(或等价地,排名优于B)。一般固定D,|P|是O(|D|2),但分片查询标识符可以导致|P|€|D|2。与P定义,我们发现W优化成对目标函数:在这里,损失函数L(W,P)被定义成对差向量P:L(W,P)=1/|P|∑((A,哎,QA),(B,Yb,QB))∈P)L(T(雅−Yb),F(W,一个−B))的变换函数T(Y)变换的差异的标签,并实例化不同的不同的损失函数。标准损失函数L(···)适用于这些成对差分向量,给出适当的变换T(·)。平方损失:平方损失为一个单一的预测值Y′与真正的标签相比是由L(Y,Y′)=(Y−Y′)2。这个损失函数是凸的。关联变换函数是恒等函数t(y)=y物流损失:Y€[0物流损失函数,1]和Y′€[0,1]是L(Y,Y′)=yy′+(1−Y)日志(1−Y′)。这个损失函数是凸的。相关的预测函数是f(x)=w,一/(1+e−<w,x>).F.结合秩回归CRR模型创建一个优化问题的回归损失L(W,D)和成对排名损失升(钨,磷)。综合CRR优化问题:Minw€Rmα*L(Q,D)+(1α−)L(Q,P)+lambda/2*||W||22(3)在这里,参数α-欧元[0,1]权衡之间优化回归损失和优化成对损失。请注意,设置α=1恢复标准的回归问题,并设置α=0恢复t两两排序问题。设置α的中间值迫使优化考虑回归和排名损失条款..我们发现,CRR不特定的过度敏感值Alpha.算法1结合回归和排名给出:权衡参数α,正则化参数λ,训练数据d,迭代t。w0←anyinitialvaluesfori=1totdopickzuniformlyatrandomfrom[0,1]ifz<αthen(x,y,q)←RandomExample(D)else((a,ya,q),(b,yb,q))←RandomCandidatePair(P)x←(a−b)y←t(ya−yb)endifni←1/lambdawi←StochasticG

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论