【最新】R语言关联分析模型报告案例附代码数据_第1页
【最新】R语言关联分析模型报告案例附代码数据_第2页
【最新】R语言关联分析模型报告案例附代码数据_第3页
【最新】R语言关联分析模型报告案例附代码数据_第4页
【最新】R语言关联分析模型报告案例附代码数据_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载【最新】R语言关联分析模型报告案例附代码数据【原创】附代码数据有问题到淘宝找 大数据部落”就可以了关联分析目录一、概括.1 二、 数 据 清洗1公 立 学费 1毕 业 率 1贷 款 率 2偿 还 2毕 业 薪精选公文范文,管理类,工作总结类,工作计划类文档,感谢阅读下载 1 =精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载=水。 3私 立 学 费3 入学 率4三、Apriori 算法4相关概念5算法流程6优缺点7四、 模型建立及结果8公立模 11I【原创】附代码数据 有问题到淘宝找大数据部落”就可以了 一、概括对77

2、03条样本数据,分别根据公立学费和私立学费差异,建立 公立模型和私立模型,进行关联分析。 二、数据清洗公立学费 此字 段,存在4个负值,与实际情况不符, 故将此四个值重新定义为 NULL。重新定义后,NULL值的占比为75%,占比 很大,不能直接将NULL值删除或者进 行插补,故将NULL单独作为一个取值 分组。 对非NULL的值按照等比原则进行分组,分组结果如下:A: 0,5896B: (5896,7754 C: (7754, 9975 D: (9975, 13819 E: (13819, +分组后取值分布 382 NULL 5796 毕业率为:A 382B 381 C 381 D 381

3、EPrivacySuppressedt1重新定义为 NULL)精选公文范文,管理类,工作总结类,工作计划类文档,感谢阅读下载 重新定义后,NULL值的占比为20%, 占比较大,不适合直接删除或进行插补,故将NULL单独作为一个取值分 组。 对非NULL值根据等比原则进 行分组,分组结果如下:5【原创】附代码数据 有问题到淘宝找大数据部落”就可以了 A: 0, B: (, C: (, D : (, E : (, + 分组 后取值分布为: A 1255 B 1237 C 1190 D 1286 E 1219 NULL 1516 贷款率 将 PrivacySuppressed值重新定义为NULL,重

4、新定义后,NULL值的占比为 20%,占比较大,不适合直接删除或进行插补,故将NULL单独作为一个 取值分组。对非NULL的值按照等比原则进行分组,分组结果如下:A: 0,9500 B : (9500,12000 C: (12000,19197D: (19197, 25537 E: (25537, +分组后取值分布为:A 1702 B 847 C 1127 D1225 E 1225 NULL 1577 偿还率 将 PrivacySuppressed重新定义为 NULL , 重新定义后,NULL值的占比为20%, 精选公文范文,管理类,工作总结类,工作计划类文档,感谢阅读下载 4 占比较大,不适

5、合直接删除或进行插补,故将NULL单独作为一个取值分 组。 对非NULL的值按照等比原则进行分组,分组结果如下:5【原创】附代码数据 有问题到淘宝 找大数据部落”就可以了A: 0,9500 B : (9500,12000 C: (12000,19197D: (19197, 25537 E: (25537, +分组后取值分布为:A 1702 B 847 C 1127 D1225 E 1225 NULL 1577 毕业薪水。将 PrivacySuppressed值重新定义为NULL ,重新定义后,NULL值的占比为 19%,占比较大,不适合直接删除或进行插补,故将NULL单独作为一个 取值分组。

6、对非NULL的值按照等比原则进行分组,分组结果如下:A:0, B: (, C: (, D: (, E: (, + 分组后取值分布为:A 1255 B 1278 C1240 D 1207 E 1248 NULL 1475 私立 学费 此字段,存在1个负值,与实 际情况不符,故将此值重新定义为NULL。重新定义后,NULL值的占比为精选公文范文,管理类,工作总结类,工作计划类文档,感谢阅读下载 5 40%,占比很大,不能宜接将 NULL值 删除或者进行插补,故将 NULL单独作 为一个取值分组。5【原创】附代码数据 有问题到淘宝找 大数据部落”就可以了 对非NULL的值按照等比原则进行分 组,分组

7、结果如下:A : 0,12111 B: (12111,16409 C: (16409, 19805 D:(19805, 23780 E: (23780, +分组后取值分布为:A 93B 937 C 937 D 937E 93NULL 3016入学率数据中,NULL值的占比为69%,占比很大, 不能宜接将 NULL值删除或者进行插补,故将NULL单独作为一个取值分组 对非NULL的值按照等比原则进行分组,分组结果如下:A: 0, B: (, C:(,D: (, E: (, +为:A 466分组后取值分布B 507 C 484 D 325 E620 NULL 5301 三、 Apriori 算 法

8、 Apriori algorithm是关联规则里一项基本 算法。其核心思想是通过候选集生5精选公文范文,管理类,工作总结类,工作计划类文档,感谢阅读下载 6 精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载【原创】附代码数据 有问题到淘宝 找 大数据部落”就可以了 成和情 节的向下封闭检测两个阶段来挖掘频繁 项集,是 Rakesh Agrawal和 Ramakrishnan Srikant两位博士在1994年提出的关联规 则挖掘算法。关联规则的目的就是在一 个数据集中找出项与项之间的关系,也 被称为购物蓝分析(Market Basket analysis),购物蓝分析”很贴切的表

9、达了 适用该算法情景中的一个子集。关于这 个算法有一个非常有名的故事:尿布和啤酒。故事是这样的:美国的妇女们经 常会嘱咐她们的丈夫下班后为孩子买尿 布,而丈夫在买完尿布后又要顺 手买回 自己爱喝的啤酒,因此啤酒和尿布在一 起被购买的机会很多。这个举措使尿布 和啤酒的销量双双增加,并一直为众商 家所津津乐道。相关概念用R语言进行关联分析,涉及到的相关概念 如下: 资料库:存储着二维结构的 记录集。定义为:Do所有项集:所有 项目的集合。定义为:I。 记录: 精选公文范文,管理类,工作总结类,工作计划类文档,感谢阅读下载 7 在资料库里的一笔记录。定义为:T,T W Do项集:同时出现的项的集合。

10、定义 为:k-itemset, k均表示项数。支持度:定义为 supp(X) = occur(X) / count(D) = P(X)。P(A n 碟示既有 A 又 有B的概率。支持度是指在所有项集中 X, Y出现的可能性,即项集中同时含 有X和Y的概率。该指标作为建立强关 联规则的第一个门槛,衡量了所考察关 联规则在量”上的多少。例如购物篮分 析:牛奶?面包,支持度3%:意味着3% 顾客同时购买牛奶和面包。置信度:定义为 conf(X-Y) = supp(X U Y) / supp(X) = P(Y|X) o P(B|A),在 A 发生 的事件中同时发生 B 的概率 p(AB)/P(A)。置

11、信度表示在先决条件X发生的条件下,关联结果Y发生的概率。 这是生成强关联规则的第二个门槛,衡 量了所考察的关联规则在质”上的可靠 性。例如购物篮分析:牛奶?面包,置信 度40%:意味着购买牛奶的顾客40%也 购买面包。候选集:通过向下合并得出的项集。定义为Cko频繁k项集: 如果事件A中包含k个元素,那么称这 个事件A为k项集事件 5【原创】附代码数据 有问题到淘宝 找 大数据部落”就可以了 A满足 最小支持度阈值的事件称为频繁k项集。 即支持度大于等于特定的最小支持度的 项集,表示为Lk。注意,频繁集的子 集一定是频繁集。强规则:同时满足最小支持度阈值和最小置信度阈值的 规则称为强规则。即l

12、ift(X - Y) = lift(Y - X) = conf(X - Y)/supp(Y) = conf(Y - X)/supp(X) = P(X andY)/(P(X)P(Y)。 提升度:提升度表示在含有X的条件下 同时含有Y的可能性与没有X这个条件 下项集中含有Y的可能性之比。该指标 与置信度同样衡量规则的可靠性,可以 看作是置信度的一种互补指标。有用的 规则的提升度大于 1。 算法流程 为了提高频繁项目的挖掘效率, Apriori 算法利用了两个重要的性质,用于压缩 搜索的空间: 1,若X为频繁项目 精选公文范文,管理类,工作总结类,工作计划类文档,感谢阅读下载 9 集,则X的所有子集

13、都是频繁项目集。 2,若X为非频繁项目集,则X的所有 超集均为非频繁项目集。Apriori算法的处理流程为:宽度优先搜索整个 项集空间,从k=0开始,迭代产生长度 为k+1的候选项集的集合Ck+1。候选项 集是其所有子集都是频繁项集的项集。C1I0中所有的项构成,在第k层产生所 有长度为k+1的项集。这两步完成:第 一步,Fk自连接。将Fk中具有相同(k-1)- 前缀的项集连接成长度为k的候选项集。 第二步是剪枝,如果项集的所有长度为k 的子集都在Fk中,该项集才能作为候选 项集被加入Ck+1中。为了计算所有长度 为k的候选项集的支持度,在数据库水 平表示方式下,需要扫描数据库一遍。 在每次扫

14、描中,对数据库中的每条交易 记录,为其中所包含的所有候选k-项集的支持度计数加1。所有频繁的k-项集 被加入Fk中。此过程直至Ck+1等于空 集时结束。简单的讲,1过程为:扫描;计数;比较; 51原精选公文范文,管理类,工作总结类,工作计划类文档,欢迎阅读下载创】附代码数据有问题到淘宝找大数据部落”就可以了 产生频繁 项集; 连接、剪枝,产生候选项集; 重复步骤直到不能发现更大的频集。图为举例图示。图Apriori举例图示 优缺点 Apriori算法的 优点:Apriori的关联规则是在频繁项集 基础上产生的,进而这可以保证这些规 则的支持度达到指定的水平,具有普遍 性和令人信服的水平。 Apriori算法 的缺点:需要多次扫描数据库;生成大 量备选项集;计数工作量太大。5【原创】附代码数据有问题到淘宝找 大数据部落”就可以了四、模型建立及结果公立模型此模型使用字段为:公立学费、毕业率、贷 款率、偿还率、毕业薪水,入学率。因为NULL对实际情况无意义,因此除 去取值中有NULL的样本,剩余样本数 为589。对剩余样本进行关联分析,模型性能参数如下:提升度越高,说明规则两边同时出现比只

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论