数据挖掘-r语言应用_第1页
数据挖掘-r语言应用_第2页
数据挖掘-r语言应用_第3页
数据挖掘-r语言应用_第4页
数据挖掘-r语言应用_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

R语言应用梁妙玲2014年1月15日目录应用领域介绍优势和劣势如何应用R语言简介介绍图形R是一门用于统计计算和作图的语言,它不单是一门语言,更是一个数据计算与分析的环境。统计计算领域有三大工具:SAS、SPSS、S,R正是受S语言和Scheme语言影响发展而来。最主要的特点:免费、开源、各种各样的模块十分齐全,在R的综合档案网络CRAN中,提供了大量的第三方功能包,其内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型。名称优点缺点是否开源典型用户R代码库支持,可视化深入的学习曲线是金融,统计Matlab优秀的矩阵计算,可视化费用贵,不完全支持统计否工程SciPyPython不成熟是工程Excel容易,可视化操作大数据集否商业SAS大数据集贵,过时的编程语言否商业,政府Stata简单的统计分析否科学SPSS和Stata很像,但是更加贵,而且差表上可以看出主要是两大阵营:更加面向编程的解决方案,R,matlab和python;面向分析的解决方案,Excel,SAS,Stata和SPSS。python“不成熟”:matplotlib,numpy和scipy都是独立的代码包,它们往往不在一起。matlab语言是很弱的语言matlab是最好的开发新的数学算法的工具,在机器学习方面非常流行。SPSS和Stata是一个类型的SPSS和Stata主要适合科学计算SAS主要是一些比较早的从事数据相关工作的群体使用R的内存限制可以通过mysql来处理,或者运用机器集群来运算处理SAS在处理图形方面的能力有限R具有很强的可视化能力Excel拥有庞大的用户群数据分析包的比较:R,Matlab,SciPy,Excel,SAS,SPSS,Stata如何导入数据如何找到合适的函数R有上千个PACKAGE,数函数

以LASSO为例获取R的帮助什么是LASSO?1.LASSO是最小二乘法的一种推广2.LASSO是一种具有稳健性的方法

对各种干扰因素的抵抗能力,也叫鲁棒性3.LASSO可以做变量选择如何找到合适的函数

如何找到合适的函数如何找到合适的函数如何找到合适的函数如何找到合适的函数如何找到合适的函数如何找到合适的函数如何找到合适的函数程序包菜单从本地zip安装程序包;

加载程序包R资源1.R主页:2.RGraphGallery:3.R的接口函数库:4.Emacs+ESS:5.GOOGLEVISUALIZATIONAPI:

online/6.GooglereaderR资源-RGraphGalleryR资源-R接口函数

1.R+Googletrend2.R+MATLAB3.R+NYTimeR资源-EMACS+ESSR资源-googlevisualizationapi其他RandHadoop

大数据资讯R语言为Hadoop集群数据统计分析带来革命性变化

()

R+Hadoop=DataAnalyticsHeavenusing

()

UsingRevolutionRenterprisewithapacheHadoopfor'BigAnalytics'

()

UsingRWithHadoop

()

RandStreamingfromHadoopinPractice

()贝叶斯贝叶斯推理开飞高能化学计量学和计算物理临床试验设计,监测和分析聚类的聚类分析和有限混合模型微分方程微分方程分布概率分布计量经济学计量经济学计算生态和环境数据的分析实验设计实验数据(DOE)及分析金融实证金融遗传学统计遗传学图形图形显示和动态图形与图形设备和可视化高性能和并行计算与R机器学习和统计学习医学图像分析元数据分析多因素多元统计自然语言处理数值计算办公统计与调查方法优化优化和数学规划药代动力学数据的药代动力学分析系统发育系统发育,尤其是比较方法心理测试心理模型与方法重复性研究强大的稳健统计方法统计社会科学空间数据的空间分析时空处理和分析时空数据生存生存分析时间序列时间序列分析Web技术和服务GR图形模型R中应用领域京东案例R语言还应用在•集群数据的调度清洗•建模过程中的数据预处理•统计分析和建模•数据可视化•算法的原型实现京东案例一般工作流程1.通过Hive集群获取目标数据2.在R环境下进行数据预处理3.R环境下分析建模(FeatrueSelection,Benchmark)4.评估(离线评估和分流量测试)5.线上集成(R,HiveQL,Java,C++,Python...)京东案例数据的流动

京东案例涉及数据挖掘技术和相关的R包•数据传递及服务(RHive、RServe、rJava、RJDBC)•清洗及预处理(sqldf、stringr、XML)•抽样、预测、分类、关联规则、特征选择、稀疏矩阵运算、矩阵分解、社交网络、分词等•高性能计算(rhdfs、rmr2、Rcpp)•其他京东案例挖掘模型服务对象•在线广告优化•在线商品推荐•搜索词优化•邮件营销•移动客户端•活动及促销推送•开放平台的PoP商户项目中的应用参考资料

(应用介绍)(中文社区)(中文社区)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论