版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
使用pyspark.ml模块的评估器和模型评价目录使用pyspark构建并评估分类模型1使用pyspark构建并评估回归模型2使用pyspark构建并评估聚类模型3使用pyspark构建并评估智能推荐模型4分类模型是通过在已有历史数据(带标签)的基础上进行学习和训练,构造出一个分类模型(即通常所说的分类器(Classifier)),从而可以运用函数或模型对未知数据进行分类。构造分类模型一般需要如下几个步骤。选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。使用训练样本来构造分类模型。在测试样本上执行分类模型,生成预测结果。分类模型的评估指标,如准确率、均方误差等,评估分类模型的性能。分类模型分类问题与分类方法关系分类模型分类问题支持的分类问题的模型二分类逻辑回归,决策树,随机森林,朴素贝叶斯,支持向量机多分类逻辑回归,决策树,随机森林,朴素贝叶斯,支持向量机回归分类逻辑回归,决策树,随机森林,朴素贝叶斯使用随机森林模型在HR人力资源数据集上训练得到分类模型,然后进行预测并评估该分类模型的性能。数据为候选人参加公司培训后寻找新工作记录,含1个分类标签,13个属性,共19158条记录(有缺失数据)。随机森林模型是一种集成学习模型,将若干“弱”模型整合为“强”模型,充分体现了“团结就是力量”的团队精神,采用少数服从多数的原理对多个学习模型结果进行投票,获得更加准确最终预测结果。HR人力资源数据集HR人力资源数据集HR人力资源数据集字段名称说明enrollee_id候选人的唯一IDcity城市代码city_development_index城市发展指数(按比例)gender候选人性别relevent_experience候选人的相关经验enrolled_university已注册的大学课程类education_level候选人的教育水平major_discipline候选人的教育专业experience多年候选总经验company_size当前雇主公司中的雇员人数company_type当前雇主公司的类型lastnewjob上一份工作与当前工作之间的年差training_hours培训时间target0表示培训后不去找工作;1表示培训后去找工作从文件读取数据验证数据集的规模及数据类型获取数据集记录数。获取数据集字段数。查看数据集字段的数据类型。检查与处理缺失数据检查数据集中是否存在缺失值。缺失值处理(drop方法)。HR人力资源数据分析-获取数据数据特征enrollee_id、city_development_index、training_hours特征为数值类型。其他特征均为字符型。特征转换字符型型转换为数字型。特征装配将所有特征组合成特征向量。数据集划分按照8:2的比例划分训练数据和测试数据。HR人力资源数据分析-转换和处理数据随机森林是一种集成学习方法,采用自助抽样集成。决策树作为基础模型,使用bootstrap(自助法)将训练集分成m个新的训练集。在训练集的特征中随机抽取一部分特征,构造一颗决策树,需要构建多个决策树。将m个模型的结果进行整合,整合方式:分类问题用多数投票法(majorityvoting),回归用均值。在MLlib库中可以使用pyspark.ml.classification包中RandomForestClassifier类构建随机森林模型。featureCol:特征向量,由VectorAssembler组合得到的向量。labelCol:用于描述分类标签列。impurity='gini':对信息增益进行度量的方法,有entropy(信息熵)和gini(基尼系数)。maxDepth:树的最大深度。numTrees:构建决策树的个数。HR人力资源数据分析-训练分类模型在pyspark.ml.evaluation模块中定义了各种函数用于模型的评估。召回率(R=TP/(TP+FN))准确率(ACC=(TP+TN)/ALL)精准率(P=TP/(TP+FP))F值(F=(a2+1)P*R/a2(P+R))F1:(a=1,F1=2*P*R/(P+R))对人力资源数据集采用多分类评价方法MulticlassClassificationEvaluator对进行模型进行评价。评价指标为准确率(accuracy)结果:0.739412HR人力资源数据分析-评价分类模型真实情况预测情况正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)目录使用pyspark构建并评估分类模型1使用pyspark构建并评估回归模型2使用pyspark构建并评估聚类模型3使用pyspark构建并评估智能推荐模型4回归模型研究的是因变量(目标)和自变量(预测器)之间的关系,寻找变量之间的因果关系。回归模型与分类模型一样,需要在已有数据的基础上进行学习和训练,构造出一个回归模型。pyspark.ml模块模块中提供的6种回归模型回归模型回归模型模型说明线性回归线性回归使用最佳拟合直线(回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系逻辑回归逻辑回归用来计算事件成功(Success)或失败(Failure)的概率多项式回归在因变量(Y)和一个或多个自变量(X)之间建立一种关系中,如果自变量的指数大于1,该回归称之为多项式回归(多项式回归的最佳拟合线是曲线)岭回归以损失部分信息、降低精度为代价获得回归系数的回归方法L2正则化套索回归与岭回归类似,其惩罚函数回归系数的绝对值(L1正则化)弹性网络弹性回归是岭回归和套索回归的混合技术,它同时使用L2和L1正则化使用逻辑回归模型构建预测模型,对竞赛网站用户数据类别进行预测。数据集记录了用户对网站中各个标签的访问次数。1个用户ID1个用户分类标签30个被访问标签共76833条数据记录某竞赛网站用户数据集字段名称说明id用户idstatus用户类别,0或130个被访问标签字段竞赛,泰迪杯,学习,书籍,案例,优秀作品,项目,python,竞赛通知,项目悬赏,R,数据挖掘,新闻,网络爬虫、数据预处理,干货,培训,数据采集、大数据挖掘,数据服务,招聘,Matlab,工具,教师,赛题征集,英雄榜,招投标,竞赛相关单位,数睿思,教练员培训,旅游业,农业从文件读取数据。数据预处理,增加特征sumFeature。某竞赛网站用户数据分析-数据预处理特征装配将所有特征组合成特征向量。数据集划分按照8:2的比例划分训练数据和测试数据。某竞赛网站用户数据分析-特征处理逻辑回归模型(LogisticRegression)是一种用于解决二分类(0or1)问题的机器学习方法。在线性回归基础上,增加逻辑函数,将预测值限定在[0,1]间,用于估计某种事物的可能性。逻辑回归的结果并非数学定义中的概率值,不可以直接当作概率值来用。决策树作为基础模型,使用bootstrap(自助法)将训练集分成m个新的训练集。使用LogisticRegression类构建逻辑回归模型。构建逻辑回归模型需要的参数说明如下。featureCol:VectorAssembler组合得到特征向量。labelCol:用于描述分类标签列。maxIter:最大迭代次数。某竞赛网站用户数据分析-训练分类模型使用训练得到的逻辑回归模型对测试数据进行预测,评价指标准确率,ROC曲线(接受者操作曲线)。TPR=TP/(TP+FN),即召回率。FPR=FP/(FP+TN)描述的是所有负例中预测错误的比例。ROC曲线距离左上角越近,证明分类器效果越好。AUC值为ROC曲线所覆盖的区域面积,AUC越大,分类器分类效果越好。模型评价结果accuracy值为98.9%AUC值为99.8%模型性能较好某竞赛网站用户数据分析-评价回归模型目录使用pyspark构建并评估分类模型1使用pyspark构建并评估回归模型2使用pyspark构建并评估聚类模型3使用pyspark构建并评估智能推荐模型4聚类分析是将一组数据对象的集合,按照对象相似原则,将数据对象划分到不同的簇中,在所形成的簇中,对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类是“近朱者赤,近墨者黑”这一思想的应用,青年人应和“正能量”的人在一起,不断向其学习,乐观向上,不断进步,让自己成为一个充满“正能量”的人。聚类模型聚类分析属于无监督学习,无须先验知识,将会自动寻找数据里面的结构特征。聚类模型聚类模型模型说明划分方法给定一个包含N个对象的合集,划分方法构建数据的K个分区,其中每个分区代表一个簇。代表算法有:K-means聚类算法层次方法给定一个包含N个对象的合集,从下而上地将对象合并聚集,得到K个簇(凝聚层次聚类);或,从上而下地将N个对象进行分割,划分得到K个簇(分裂层次聚类)基于密度的方法根据数据对象在数据空间中的稠密程度划分对象集合的方法。代表算法有:DBSCAN算法基于网格的方法将数据空间划分成为有限个单元(cell)的网格结构,以单个的单元为对象进行聚类。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法使用K-Mean模型构建聚类模型,对鸢尾花数据进行聚类。数据集描述记录了3类鸢尾花数据,共150条数据,每类鸢尾花50条数据。鸢尾花分类:Setosa,Versicolor,Verginica。记录信息:1个ID字段,4个特征字段,1个分类标签字段。鸢尾花数据字段名称说明Species_No分类编号,取值:1,2,3Petal_width花瓣宽度Petal_length花瓣长度Sepal_width萼片宽度Sepal_length萼片长度Species_name分类名称:setosa,versicolour,virginica无需预处理没有缺失数据,特征数据规范,数据类型识别。3个类别,每个类别50条记录。鸢尾花数据分析-加载数据鸢尾花数据集包含4个特征,需要将4个特征组合成特征向量。训练聚类模型,寻找最优K划分(采用肘部方法确定)。选择聚类个数
K=3。鸢尾花数据分析-数据转换和处理评价聚类模型(取K值为3)结果显示setosa类鸢尾花在一个类中,少部分Versicolor类和Verginica类被划分到两个类中。聚类结果较好。鸢尾花数据分析-评价模型目录使用pyspark构建并评估分类模型1使用pyspark构建并评估回归模型2使用pyspark构建并评估聚类模型3使用pyspark构建并评估智能推荐模型4智能推荐是信息过滤和信息系统中常用的技术,利用兴趣相投、拥有共同经验的群体的喜好来产生目标用户的推荐列表。协同过滤技术是目前智能推荐系统中最成功和应用最广泛的技术。基于用户的协同过滤算法(User-basedCF),根据用户的历史选择信息评测用户间的相似性,并基于用户之间的相似性进行推荐。基于物品的协同过滤算法(Item-basedCF),通过用户对不同物品的评分来评估物品间的相似性,并基于物品间的相似性进行推荐。协同过滤技术需要建立用户对物品的评分矩阵,并通过矩阵计算相似性。ALS(AlternatingLeastSquares)交替最小二乘法,采用最小化误差的平方和方法进行矩阵分解,获取评分矩阵。智能推荐模型电影评论数据集,收集的互联网电影数据库中的大量电影评论数据。数据集包含2个文件movies.csv文件记录了电影基本信息,包含3个数据字段,共9742条数据记录。ratings.csv文件记录了用户对电影的评分,包含4个数据字段,共100836条数据记录。电影评论数据集文件名字段名称说明movies.csv文件movieId电影IDtitle电影名称genres电影的分类ratings.csv文件userId用户IDmovieId电影IDrating
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家长进课堂防疫知识课件
- 2026年农村土地租赁服务合同协议
- 2026年合同违约汽车租赁合同协议
- 2026年荒山承包治理合同
- 空运代理合同2026年付款方式协议
- 2026年电子产品租赁典当合同
- 2026年投资合作框架合同协议书
- 智能手术机器人使用合同协议2026
- 2026年应急供电维修合同协议
- 车辆保险合同2026年保险变更协议
- 2025年国资委主任年终述职报告
- 日本所有番号分类
- 2024年江苏省普通高中学业水平测试小高考生物、地理、历史、政治试卷及答案(综合版)
- GB/T 43327.6-2023石油天然气工业海洋结构物特殊要求第6部分:海上作业
- 土力学与地基基础(课件)
- 精神分裂症等精神病性障碍临床路径表单
- 自考《社区规划00291》复习必备题库(含答案)
- 传感器技术与应用教案
- 管道安全检查表
- 电缆井砌筑工序报验单检验批
- GA/T 850-2009城市道路路内停车泊位设置规范
评论
0/150
提交评论