R语言安装、关联规则、决策树_第1页
R语言安装、关联规则、决策树_第2页
R语言安装、关联规则、决策树_第3页
R语言安装、关联规则、决策树_第4页
R语言安装、关联规则、决策树_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

R语言学习与应用010203目录R语言开发环境及RStudio安装关联规那么实验分析决策树算法实验分析01R语言开发环境及RStudio安装ONER是用于统计分析、绘图的语言和操作环境。R是免费的、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。RStudio是一个用于R的集成环境开发工具,它包括控制台、语法高亮编辑器、绘图、工作区管理工具等。是一款R的辅助UI软件。登陆官网:登陆官网:1.R语言介绍3.R编辑工具RStudio2.R语言开发环境安装4.Rstudio安装R语言开发环境及RStudio安装RGUI〔自带〕R语言开发环境及RStudio安装R是用于统计分析、绘图的语言和操作环境。R是免费的、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。RStudio(集成多窗口、多功能)R语言开发环境及RStudio安装02关联规那么实验分析TWO关联规那么反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。典型的关联规那么发现问题是对超市中的购物篮数据进行分析。通过发现顾客放入购物篮中的不同商品之间的关系来分析顾客的购置习惯。关联规那么例如:这是一条关联规那么:{A,B}->{D}{A,B}和{D}都是项集其中{A,B}为LHS,D为RHS,并且LHS和RHS不能有交集k项集:项集中包含k个工程。项集的支持度:项集在事务数据库中出现的次数占D中总事务的百分比。频繁项集:项集的支持度超过用户给定的最小支持度阈值

如何挖掘关联规那么呢?置信度Confidence:分析:规那么X->Y很容易从X和XUY的支持度计数推出,并且可以很直白的验证它们是否符合强规那么,所以挖掘关联规那么的问题可以归结为挖掘频繁项集。关联规那么的挖掘可以分为两个过程〔1〕找出所有频繁项集〔2〕由频繁项集产生强关联规那么Apriori算法〔使用逐层迭代方法基于候选产生找出频繁项集〕10例子-支持计数=211例子由频繁项集产生关联规那么12根据公式产生关联规那么对于每个频繁项集l,产生所有的非空子集对于l的每个非空子集s,如果 那么输出规那么”s(l-s)”关联规那么结果数据准备一个1万条购置记录的数据集,一行代表一个用户,列分别是:用户id、商品名称pname〔P1-P20〕、付费金额amount、购置时间time〔unix标准〕读取后数据样式:1.读取实验数据集:2.处理并获取数据集:读取处理后数据集:3.处理并获取数据集:将购置记录转换为0-1矩阵数据准备将0-1矩阵转换成“transcations”形式使用Apriori算法得到关联规那么使用R语言apriori函数Lift:提升度当右项集〔consequent〕的支持度已经很显著时,即时规那么的Confidence较高,这条规那么也是无效的。例如:在所分析的10000个事务中,6000个事务包含商品A,7500个包含商品B,4000个事务同时包含两者。关联规那么〔A->B〕支持度为0.4,看似很高,但其实这个关联规那么是一个误导。在用户购置了商品A后有〔4000÷6000〕0.667的概率的去购置商品B,而在没有任何前提条件时,用户反而有〔7500÷10000〕0.75的概率去购置商品B,也就是说设置了购置商品A这样的条件反而会降低用户去购置商品B的概率,所以商品A和商品B是相斥的。规那么的提升度的意义在于度量项集{X}和项集{Y}的独立性如果lift=1,说明两个条件没有任何关联,如果lift<1,说明A条件(或者说A事件的发生)与B事件是相斥的使用Apriori算法得到关联规那么删除冗余规那么冗余规那么的定义是:如果rules2的lhs和rhs是包含于rules1的,而且rules2的lift小于或者等于rules1,那么称rules2是rules1的冗余规那么。#生成一个所有规那么的子集矩阵,行和列分别是每条rules,其中的值是TRUE和FALSE,当rules2是rules1的子集时,rules2在rules1的值为TRUEsubset.matrix<-is.subset(rules,rules)subset.matrixlower.tri(subset.matrix,diag=T)#将矩阵对角线以下的元素置为空,只保存上三角subset.matrix[lower.tri(subset.matrix,diag=T)]<-NA#R会将矩阵中的TRUE当做1,统计每列的和〔忽略缺失值〕,如果该列的和大于等于1,也就是表示该列〔规那么〕是别的规那么的子集,应该删除。redundant<-colSums(subset.matrix,na.rm=T)>=1#去掉冗余的规那么rules.pruned<-rules[!redundant]关联规那么可视化03决策树算法实验分析Three决策树决策树?决策树是附加概率结果的一个树状的决策图,是直观的运用统计概率分析的图法。机器学习中决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果。如何构造决策树?一般来说,决策树的构造主要由两个阶段组成:第一阶段〔生成树阶段〕选取局部受训数据建立决策树,决策树是按广度优先建立直到每个叶节点包括相同的类标记为止。第二阶段〔决策树修剪阶段〕用剩余数据检验决策树,如果所建立的决策树不能正确答复所研究的问题,我们要对决策树进行修剪直到建立一棵正确的决策树。这样在决策树每个内部节点处进行属性值的比较,在叶节点得到结论。从根节点到叶节点的一条路径就对应着一条规那么,整棵决策树就对应着一组表达式规那么。

问题:我们如何确定起决定作用的划分变量〔属性选择度量〕。决策树算法ID3算法思想描述:1.对当前例子集合,计算属性的信息增益;2.选择信息增益最大的属性Ai3.把在Ai处取值相同的例子归于同于子集,Ai取几个值就得几个子集4.对依次对每种取值情况下的子集,递归调用建树算法,即返回1,5.假设子集只含有单个属性,那么分支为叶子节点,判断其属性值并标上相应的符号,然后返回调用处。C4.5算法用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的缺乏;在树构造过程中进行剪枝;能够完成对连续属性的离散化处理;能够对不完整数据进行处理。

熵:

设X是一个取有限个值〔n〕的离散随机变量,其概率分布为P(X=xi)=Pi,i=1,2,...,nP(X=xi)=Pi,i=1,2,...,n

那么随机变量X的熵定义为

使用包party里面的函数ctree()为数据集iris建立一个决策树。属性Sepal.Length〔萼片长度〕、Sepal.Width〔萼片宽度〕、Petal.Length〔花瓣长度〕以及Petal.Width〔花

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论