前人机器学习简介

上传人：洞*** IP属地：北京上传时间：2023-05-16 格式：DOCX 页数：29 大小：263.13KB 积分：12 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

，更人性化的技术，机器学习。”——（谷歌首席执行官◆◆习算法的少走些路。我会在文章中举例一些机器学习的问题，也可以在思RPython的执行代码。读完这篇文章，读者们至少可以行动起属于监督式学习的算法有：回归模型，决策树，随机森林，K邻近算法，逻辑回归录不动的结果并试着找出最好的一次尝试来做决定。LinearLogistic(Decision朴素(Naive随机森林(Random降低维度算法（DimensionalityReductionAlgorithms）10.GradientBoostAdaboost算法(Linear条最佳直线。这条最佳直线就是回归线。这个回归关系可以用Y=aX+b表示。在Y=aX+b这个里Y-a-X-b-归（PolynomialRegression）或曲线回归(CurvilinearRegression)。Python#Import#Importothernecessarylibrarieslikepandas,fromsklearnimport#LoadTrainandTest#Identifyfeatureandresponsevariable(s)andvaluesmustbenumericandnumpyarrays#Createlinearregressionlinear=#Trainthemodelusingthetrainingsetsandchecklinear.fit(x_train,linear.score(x_train,#Equationcoefficientandprint('Coefficient:\n',print('Intercept:\n',#Predictpredicted=R#LoadTrainandTest#Identifyfeatureandresponsevariable(s)andvaluesmustbenumericandnumpyarraysx_train<-y_train<-x_test<-x<-#Trainthemodelusingthetrainingsetsandchecklinear<-lm(y_train~.,data=#Predictpredicted=所以它预测的是一个概率值，自然，它的输出值应该在0到1之间。odds=p/1-p)probabilityofeventoccurrenceprobabilityofnoteventln(odds)=ln(p/(1-logit(p)=ln(p/(1-p))=b0+b1X1+b2X2+b3X3.在这里，p是我们感的出现的概率。它通过筛选出特定参数值使得观察到Python#Importfromsklearn.linear_modelimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Createlogisticregressionmodel=#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Equationcoefficientandprint('Coefficient:\n',print('Intercept:\n',#Predictpredicted=Rx<-#Trainthemodelusingthetrainingsetsandchecklogistic<-glm(y_train~.,data=#Predictpredicted=正则化人惊讶的是，它既可以运用于类别变量（categoricalvariables）也可以作用于连续用来分组的具体指标有很多，比如Gini，informationGain,Chi-square,entropy。Python#Import#Importothernecessarylibrarieslikepandas,fromsklearnimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Createtreehereyoucanchangethealgorithmasginiorentropy(informationgain)bydefaultitisgini#model=tree.DecisionTreeRegressor()for#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Predictpredicted=Rx<-#growfit<-rpart(y_train~.,data=#Predictpredicted=这是一个分类算法。在这个算法中每一个数据作为一个点在一个n上作图（n是特征数），每一个特征值就代表对应坐标值的大小。比如说我们有两个特征：一个人的身高和发长。我们可以将这两个变量在一个二上作图，图上我们可以把这个算法想成n里的JezzBall游戏，不过有一些变动Python#Importfromsklearnimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateSVMclassificationmodel=svm.svc()#thereisvariousoptionassociatedwithit,thisissimpleforclassification.Youcanreferlink,formo#redetail.#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Predictpredicted=Rx<-#Fittingfit<-svm(y_train~.,data=#Predictpredicted=朴素简言之，朴素假定某一特征的出现与其它特征无关。比如说，如果一个水果之间存在一定关系，在朴素算法中我们都认为红色，圆状和直径在判断一个此时玩的概率为0.64.:我们可以用上述方法回答这个问题。P(Yes|Sunny)=P(Sunny|Yes)*P(Yes)这里，P(Sunny|Yes)3/90.33P(Sunny)5/140.36P(Yes)=9/140.64。那么，P(Yes|Sunny)=0.33*0.64/0.36=0.60>0.5,说明这个概率值更大。Python#Importfromsklearn.naive_bayesimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateSVMclassificationobjectmodel=GaussianNB()#thereisother#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=Rx<-#Fittingfit<-naiveBayes(y_train~.,data=#Predictpredicted=KNN先记录所有已知数据，再利用一个距离函数，找出已知数据中距离未知最近的K组数据，最后按照这K组数据里最常见的类别预测该。距离函数可以是欧式距离，曼哈顿距离，闵氏距离(MinkowskiDistance),和汉明Python#Importfromsklearn.neighborsimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateKNeighborsclassifierobjectKNeighborsClassifier(n_neighbors=6)#defaultvalueforn_neighborsis#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=Rx<-#Fittingfit<-knn(y_train~.,data=#Predictpredicted=K均值算法（K-还记得你是怎样从墨水渍中辨认形状的么？K均值算法的过程类似，你也要通过观将每一个数据点与距离自己最近的质心划分在同一集群，即生成KPython#Importfromsklearn.clusterimport#Assumedyouhave,X(attributes)fortrainingdatasetandx_test(attributes)oftest_dataset#CreateKNeighborsclassifierobjectk_means=KMeans(n_clusters=3,#Trainthemodelusingthetrainingsetsandcheck#Predictpredicted=Rfit<-kmeans(X,3)#5cluster随机森林是对决集合的特有名称。随机森林里我们有多个决（所以叫“森如果有M个特征变量，那么选取数mMmIntroductionto –ComparingaCARTmodelto (PartComparinga toaCARTmodel(PartTuningtheparametersofyour Python#Importfromsklearn.ensembleimport #Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Create model= #Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=R x<-#Fittingfit<- (Species~.,#Predictpredicted=降维算法（DimensionalityReduction仅有了的数据来源，也获得了维度的数据信息。例如：电子商务公司有了顾客的细节信息，像个人信息，网络浏览历史，个人喜恶，记录，反馈信息等，他们关注你的私人特征，比你天天去的超市里的店更强大精准的模型，但它们有时候反倒也是建模中的一题。怎样才能从10002000个变量里找到最重要的变量呢？这种情况下降维算法及其他算法，如决策进一步的了解可以阅读BeginnersGuideToLearnDimensionReductionPython#Importfromsklearn #Assumedyouhavetrainingandtestdatasetastrainand#CreatePCAobejectpca= ofk=min(n_sample,n_features)#ForFactor #Reducedthedimensionoftrainingdatasetusingtrain_reduced=#Reducedthedimensionoftesttest_reduced=Rpca p(train,cor= <- <-GradientBoosing预测准确度。这些boostingKaggle，AVHackthon,Crowdytix等数据KnowaboutGradientandAdaBoostinPython#Importfromsklearn.ensembleimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateGradientBoosting

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

前人机器学习简介

文档简介

温馨提示

最新文档

评论

前人机器学习简介

文档简介

温馨提示

最新文档

评论

相关文档