版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据BIG DATA.第五章R言语5.1R言语简介5.2R与数据发掘5.3SparkR习题of442.5.1 R言语简介配套PPT课件用于统计计算和作图的言语计量经济学实证金融学统计遗传学等免费、开源及统计模块齐全R言语数据发掘机器学习自然言语处置等十大抢手编程言语第七位of443.5.1 R言语简介配套PPT课件基于S言语的一个GNU工程,语法来自Scheme言语,R言语的源代码正式发布到自在软件协会的FTP上中心开发团队到达20人,来自牛津大学、AT&T实验室等等。不单是一门言语,更是一个数据计算与分析的环境,内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然言语
2、处置,从各种数据库各种言语接口到高性能计算模型S言语1995年2021年of4445.1.1R言语产生与开展历程.5.1 R言语简介配套PPT课件5.1.2 R言语根本功能引见数据存储和处置系统数组运算工具,其向量、矩阵运算方面功能尤其强大完好衔接的统计分析工具优秀的统计制图功能R言语是一套完好的数据处置、计算和制图软件系统,主要包括以下功能of445.5.1 R言语简介配套PPT课件丰富的数据读取和存储才干可以保管和加载R言语的数据,与R.data的交互是经过R言语的save( )函数和load()函数实现的可以加载和导出.csv文件write.csv()函数和read.csv()函数可以导
3、入SPSS/SAS/Matlab等数据集可以经过RODBC接口,从数据库中导入数据可以经过odbcConnectExcel接口从Excel表格中导入数据R言语读取存储of446.5.1 R言语简介配套PPT课件丰富的数据处置功能数据发掘中,需求花70%以上的时间在数据处置上,R言语提供丰富的数据处置功能挑选filter() 按给定的逻辑判别挑选出符合要求的子数据集陈列arrange() 按给定的列名依次对行进展排序选择select() 用列名作参数来选择子数据集变形mutate()或transformation()用来进展列变形汇总summarise()进展汇总操作,前往一维结果分组分组动作
4、group_by()of447.5.1 R言语简介配套PPT课件丰富的数据处置才干向量因子数组矩阵列表R言语处置数据的最根本单位是向量,而不是原子数据R言语定义了一类非常特殊的数据类型:因子数组是向量和矩阵的直接推行,是由三维或三维以上的数据构成的较复杂的承继关系,和数组的关系既是父亲又是儿子,还是孙子列表由向量直接派生而来数据框可以将几个不同类型但长度一样的向量合并到一个数据框特殊值数据定义了如NULL、NA、NaN、inf等特殊数据有用函数提供了获取数据类型信息的一些有用函数of448.5.1 R言语简介配套PPT课件统计分析运用数学计量经济金融分析财经分析生物信息学数据可视化数据发掘人工
5、智能R言语运用领域of4495.1.3 R言语常见的运用领域.第五章R言语5.1R言语简介5.2R与数据发掘5.3SparkR习题of4410.5.2 R与数据发掘配套PPT课件数据挖掘数据挖掘(Data Mining)是从大量的数据中发现有趣知识的过程,涉及统计学、机器学习、模式识别等多个交叉;主要技术包括分类与预测、聚类、离群点检测、关联规则、序列分析和文本挖掘以及社交网络分析和情感分析等。R语言与数据挖掘有关的任务视图MachineLearning:主要涉及机器学习和统计学习功能Cluster:主要涉及聚类分析和有限混合模型TimeSeries:主要涉及时间序列分析Multivariat
6、e:主要用于多元统计分析及其算法Spatial:主要用于空间数据分析R语言主要用于统计计算和统计制图,提供了大量的统计和制图工具of4411.5.2 R与数据发掘配套PPT课件K-近邻算法决策树支持向量机分类与预测算法分类与预测算法of44125.2.1 R软件包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件分类与预测算法K-近邻算法of4413假设一个样本与特征空间中的K个最类似特征空间中最临近的样本中的大多数属于某一个类别,那么该样本也属于这个类别 library(kknn) data(iris) m val +prob=rep(1/m,m) iris.learn iris.
7、valid iris.kknn +kernel=triangular) summary(iris.kknn) fit table(iris.valid$Species,fit)fit setosa versicolor virginicasetosa 12 0 0versicolor 0 21 0virginica 0 0 17kknn函数的运用5.2.1 R软件包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件分类与预测算法决策树of4414iris数据集的决策树决策树Decision Tree是一种依托于分类、训练上的预测树,根据知预测、归类未来生成树阶段决策树修剪阶段5.2.
8、1 R软件包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件分类与预测算法支持向量机of4415支持向量机Support Vector Machine,SVM是一个二分类的方法,即将数据集中的数据分为两类SVM中的超平面对比利用超平面分割数据集5.2.1 R软件包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件聚类算法及其R包“聚类是根据“物以类聚的原理,将本身没有类别的样本聚集成不同的组或称为簇,并对每个簇进展描画的过程常用的聚类算法主要包括K-means聚类、层次聚类和基于密度的聚类K-means聚类层次聚类基于密度的聚类of44165.2.1 R软件包与常见的数据
9、发掘算法引见.5.2 R与数据发掘配套PPT课件聚类算法及其R包K-means聚类of4417同一聚类中的对象类似度较高;而不同聚类中的对象类似度较小部分鸢尾花数据的3-means聚类结果5.2.1 R软件包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件聚类算法及其R包层次聚类of4418一层一层地进展聚类,可以从下而上地把小的cluster合并聚集,也可以从上而下地将大的cluster进展分割iris数据集中20个样本的层次聚类结果5.2.1 R软件包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件聚类算法及其R包基于密度的聚类of4419DBSCAN算法的数据集D
10、BSCAN算法的密度聚类结果关键参数可到间隔,用于定义邻域的大小eps最小数目的对象点MinPts5.2.1 R软件包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件离群点检测与R包离群点检测与R包单变量的离群点检测前往的统计信息用于绘制箱体图实现多变量离群点的检测多变量离群点检测部分离群点因子检测用聚类方法进展离散点检测基于密度的部分离群点检测将不属于义务一类的数据作为异常值检测of44205.2.1 R软件包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件关联规那么与R包Groceries数据集关联度的散点图top-10关联规那么关系图of44215.2.1 R软件
11、包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件时间序列分类与R包人口出生率时间序列图出生率时间序列解构图of44225.2.1 R软件包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件文本发掘提取文本中的词语,并统计频率of44235.2.1 R软件包与常见的数据发掘算法引见.5.2 R与数据发掘配套PPT课件背景河流中海藻的集中迸发不仅会对河流的生态环境呵斥破坏,还会影响河流的水质需求基于以往的观测数据,对河流中海藻的迸发情况进展预测并采取必要防备措施以提高河流的水质量方法以海藻样本数据为数据集,经过数据发掘的方式分析影响海藻迸发的主要要素,并经过构建预测模型,对
12、海藻的迸发情况进展事先预测of44245.2.2 R在数据发掘中的运用举例.5.2 R与数据发掘配套PPT课件数据集加载数据集中的数据分析预测模型的构建模型的评价与选择海藻迸发频率预测完成对海藻迸发情况的实现预测无效数据处置of44255.2.2 R在数据发掘中的运用举例.5.2 R与数据发掘配套PPT课件of4426 lm.predictions.a1 rt.predictions.a1 mae.a1.lm mae.a1.rt mae.a1.lm #显示线性回归模型预测值的平均误差1 13.10681 mae.a1.rt #显示回归树模型预测值的平均误差1 8.480619部分代码线性回归和
13、回归树模型的预测回归树的MAE值为8.48线性回归模型的MAE值 13.11回归树模型的预测值的平均误差要优于线性回归模型预测值的平均误差5.2.2 R在数据发掘中的运用举例.第五章R言语5.1R言语简介5.2R与数据发掘5.3SparkR习题of4427.5.3 SparkR配套PPT课件taFrames的数据来源非常广泛高扩展性DataFrames的优化SparkR就是用R言语编写Spark程序,它允许数据科学家分析大规模的数据集,并经过R Shell交互式地在SparkR上运转作业上123SparkR的中心是SparkR DataFrame,数据组织成一个带有列名的分布式数据集对RDD
14、API的支持4of44285.3.1 SparkR 简介.5.3 SparkR配套PPT课件1. Linux下安装R2. rJava包安装3. SparkR的安装首先在官网下载R的软件包,官网网址为httpcran.rstudio/SparkR包对rJava包有依赖关系,因此,在安装SparkR之前,需求先完成rJava包的安装为了防止Spark版本的兼容问题,采用源码编译的方式来安装SparkRof44295.3.2 SparkR 环境搭建.5.3 SparkR配套PPT课件创建SparkSession创建SparkDataFrmesSparkSession即Spark会话是SparkR的切
15、入点,它使得R程序和Spark集群相互通讯根据需求从本地R数据框R data frame,Hive表Hive table或者从其他数据源创建SparkDataFrmesof44305.3.3 SparkR 运用.5.3 SparkR配套PPT课件HQL是一种类SQL的言语,这种言语最终被转化为Map/Reduce,经过Hive可以运用HQL言语查询存放在HDFS上的数据SparkR利用Hive表来创建DataFrame;将DataFrame转化为Spark SQL;SparkR提供了对HQL的支持和API,但是Hive适宜用来对一段时间内的数据进展分析查询of44315.3.4 SparkR
16、与HQL.5.3 SparkR配套PPT课件广义线性模型简单最小二乘回归OLS的扩展,呼应变量可以是正整数或分类数据,为某指数分布族,期望值函数与预测变量之间为线性关系,需求指定分布类型和衔接函数加速失效时间生存回归模型AFT模型将经典线性回归模型的建模方法直接拓展到了生存分析领域,即具有截尾生存时间的情形朴素贝叶斯模型经过某对象的先验概率,利用贝叶斯公式计算出其后验概率,选择具有最大后验概率的类作为该对象所属的类K-means模型SparkR提供了对K-means算法的支持,K-means算法是很典型的基于间隔的聚类算法,采用间隔作为类似性的评价目的模型的保管与加载模型训练好了以后,需求将训
17、练好的模型保管起来,以便下一次再用of44325.3.5 SparkR实现的主要机器学习算法概述.5.3 SparkR配套PPT课件利用SparkR提供的接口函数,在Hadoop集群环境中对“德国信誉数据集进展处置,并利用训练得到的信誉梯度损失模型对贷款人的信誉度进展预测加载Spark解析文件矩阵方式从HDFS中读取德国信誉数据文件预测模型模型评价分割为训练数据集和测试数据集完成模型训练和数据预测梯度下降算法优化损失函数和逻辑回归算法对借款人的信誉进展评级of44335.3.6 SparkR在数据分析中的运用举例.5.3 SparkR配套PPT课件of4434部分代码利用梯度下降算法优化损失函
18、数和逻辑回归算法,计算信誉等级预测模型 # 初始化向量theta theta hypot gCost - function(t,X,y) + 1/nrow(X)*(t(X)%*%(hypot(X%*%t)-y)# 定义训练函数+ train - function(theta, rdd) # 计算梯度+ gradient_rdd - lapplyPartition(rdd, function(part) + X - part,1:25+ y - part,26+ p_gradient - gCost(theta,X,y)+ list(list(1, p_gradient)+ )+ agg_gradient_rdd alpha tol step while(T) + cat(step: ,step,n)+ p_gradient - train(theta, matrix_train_rdd)+ theta - theta-alpha*p_gradient+ gradient - train(theta, matrix_train_rdd) #根据梯度下降算法进展模型训练+ if(abs(norm(gradient,type=F)-norm(p_gradient
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025股权转让合同范本与税收方式
- 2025面料采购合同书范本
- 2025年短视频脚本制作合同
- 2025年短视频灯光效果制作合同协议
- 2025合同转让协议主体变更
- 2025中介服务劳动合同
- 2025标准商业租赁合同模板
- 装修项目合作协议书
- 2025个人借款合同(参考文本)
- 2025标准茶叶买卖合同
- 老年痴呆症病人护理
- 船员机工面试题库及答案
- “双减”背景下信息技术赋能初中数学教学的实践与成效探究
- 团队律师日常管理制度
- 柠檬烯胶囊安全性评价-洞察阐释
- 卖车库合同协议书
- 《性别平等》课件
- 英语四级单词表4500
- T-JSERS 5-2024 T-JSERA 4002-2024 工商业电化学液冷储能柜技术要求
- 合作投资共赢框架协议书
- 2025年湖北省级大学科技园绩效评价评分表、总结报告编写提纲
评论
0/150
提交评论