R与SAS的集成在统计学教学中的应用研究_第1页
R与SAS的集成在统计学教学中的应用研究_第2页
R与SAS的集成在统计学教学中的应用研究_第3页
R与SAS的集成在统计学教学中的应用研究_第4页
R与SAS的集成在统计学教学中的应用研究_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、R 与 SAS 的集成在统计学教学中的应用研究Integration of R and SAS Statistical Teaching in Applied ResearchJIN Zhezhi , LIU Guanghua(Department of Mathematics , College of Science , Yanbian University , Yanji , Jilin 133002 )Current can be used for statistical analysis software , more and more, and one of the most wid

2、ely used of the two is R and SAS. From the user point of view, this paper combined with the usage of these two kinds of software in the university , respectively from students , teachers , and school three aspects of the two kinds of software use question feedback are analyzed, and put forward theco

3、untermeasures to solve these problems , the integration. According to the characteristics of both SASand R software for integration between the two , can greatly solve the two problems in using statistical analysis software. This article lists the four feasible integration solutions ,and illustrates

4、 the advantages and disadvantages, and forfurther statistical analysis software integration research provides some theory reference.0 引言随着电子计算机技术的发展, 统计分析理论与实践已离不开 计算机, 使统计分析在精度和效率上得到了惊人的提高。 因此专 门用来进行数据统计分析分析的统计分析软件也越来越多, 比如 SAS R SPSS EXCEL等,而SAS与 R是其中最为主流的两种。 大学校园里普遍使用的统计分析软件便是SAS与 R,这两种软件给学生、老师和学

5、校带来极大方便的同时, 也暴露了各自的不足。 针对于SAS软件,学校认为,购买正版 SAS软件的价格太高了, 给学校经费造成巨大压力, 再者软件更新很快, 意味着这种巨大 的经费投入是长期的。因此,很多学校迫于经费的压力,根本没 有使用正版软件, 而是使用所谓破解版等盗版软件。 同时学生和 老师认为,因为盗版软件会缺失正版软件中一些重要的应用模 块,这就会影响学生以及老师们的学习和研究, 同时盗版软件大 多数含有病毒,这也将给学校硬件和软件设备均带来很大的威 胁,导致学校中的设备总是会出现不能正常使用的情况, 这也间 接地影响着老师和学生的研究学习。 针对R软件,它并非专门的 统计分析软件,因

6、此在运用于统计分析时, 并没有SAS那么详细 的结果,以及准确的验证工具。面对学生、老师和学校反馈的这 些问题的影响愈来愈深, 不得不让我们去思考这些问题产生的原 因及采取的对策。 本文从使用者的角度出发, 结合大学中这两种 软件的使用情况, 分别从学生、 老师和学校三个方面对这两种软 件使用问题的一些反馈进行了分析, 并提出了解决这些问题的对 策一一集成。根据SAS与 R两者各自的优缺点,对两者软件进行 集成,便可很大程度解决这两种统计分析软件使用中的问题。 本 文列举了 4 种可行的集成方案, 并说明了优缺点, 为以后的统计 分析软件的集成研究提供了一些理论依据。1 软件特点分析SAS与

7、R都是应用很广泛的统计分析软件,因此这两种软件 的种种弊端很早就已经暴露出来了, 但是为什么仍迟迟得不到解 决呢?因为它们的那些问题均是源自软件本身的特点, 只要软件 本身不改变,那些问题也就无法消除。本文从学生、教师、学校 等三个方面对这两种统计分析软件使用问题的反馈出发对这两 种统计分析软件的特点进行研究与分析。1.1 SAS 软件的特点(1)需要购买正版软件,成本高。 SAS是非开源软件,是 商业软件,所以是需要付费的,并且价格十分昂贵。同时作为一 种软件,它的更新速度是很快的,因此版本换的很快,每一次版 本的更换又需要支付费用,这就造成使用正版SAS的成本是很高 的。(2)灵活方便、功

8、能齐全。SAS的宗旨是为所有需要进行 数据处理、 数据分析的非计算机人员提供一种易学易用, 完整可 靠的软件系统。操用方便:用户把要解决的问题用 SAS语言表 达出来,组成SAS程序,提交SAS系统即可。执行的情况和输出 结果都在屏幕上显示出来。灵活:SAS系统提供很多语句及选项供用户灵活地使用某种统计方法。功能齐全:SAS系统提供的二十多个模块可供用户根据实际需要灵活地选择使用。(3)编程能力强、简洁易学。SAS语言是SAS系统的基础,是 用户与系统对话的工具。该语言的特点是用户不必告诉SAS “怎样做”,只需告诉它你要“做什么”就行了。(4)处理与分析任意组合。SAS程序的结构由两个基本步

9、 骤任意组合而成。DATA步用于对数据的加工处理; PRO(步用于 分析数据和编写报告。1.2 R 软件的特点( 1) R 是自由软件。也就是说,它不会向你收取任何费用, 但是它的能力不会比任何同类型投入成千上万美元价值不菲的 商业软件差。从功能相似的角度来说,R和MATLAB最像的。(2)R是一个全面的统计研究平台,提供了各式各样的数 据分析技术。几乎任何类型的数据分析工作皆可在 R中完成。并 且通过 R 你可以和全球一流的统计计算方面的专家合作讨论, 它是全世界统计学家思维的最大集中。当你加入了 R 的邮件列 表,每天都会收到五六十份关于 R 的资讯邮件。(3)R是一个可进行交互数据分析和

10、探索的强大平台。因为R是可进行交互数据的强大平台, 因此在R软件中任意的一个 分析步骤的结果均可以被轻松保存、 操作, 并作为进一步分析的 输入,这使得R语言的操作性极强。(4)R和其他编程语言/数据库之间有很好的接口。 R可以 轻松地从各种类型的数据源导入数据, 包括本文文件、 数据库管 理系统、统计软件,乃至专门的数据仓库。它同时可以输出并写 入到这些系统中。代码整合的时候感觉 R 为你提供了一系列对 象,你用其他语言只要调用这些对象就可以了。 这对数据整合工 作非常有用。(5) R 拥有顶尖水准的制图功能。无论多么复杂的数据,R都可以将它们可视化, R 拥有最全面且最强大的可视化这一系列

11、 可用功能。(6) R可运行与多种平台上,包括 Windows Unix、Linux 等。因为自由开源软件具有零成本或低廉的成本的特点, 十分有 利于优质资源的开发与共享, 因此自由开源软件在各个领域的应 用已成为主流趋势。因此在操作系统上也将会是百花齐放,像 Linux 这种开源操作系统普及率将会越来越高,这时候具备多平 台运行能力的R将具备极大的优势。1.3为什么R与SAS要集成很多人在比较 R、 SAS、 SPSS 等统计软件时,总是偏向某一 种软件而对其他软件一味地指责。 笔者认为, 竞争可以带来技术 的创新与进步,但是任何一款软件都不可能集所有优点于一身, 能够包治百病, 满足所有用

12、户各种各样的需求, 所以软件之间的 合作对使用者而言更有意义,也是势在必行。对于R与SAS这两种统计分析软件来说,它们有各自的优势, 也有各自的问题,竞争促进创新,合作才能带来双赢,因此两者 的集成能融合各自的优势解决各自的问题, 从而更能满足使用者 的各种需求。1.4可行的R与SAS集成方案及其优缺点(1)通过SAS/IML在SAS里面提交 R代码。SAS/IML 9.22 推出了一个新功能:用户可以在 IML 里面执行 R 代码, R 和 SAS的数据也可以相互交换。该种集成方案的优点有:因为 R 代码本质上是在R里运行,所以全面支持 R的各种模型和函数; 这种集成方案支持 32 位或 6

13、4 位的 Windows、Linux 操作系统; 这种集成方案在数据交换、 错误捕获等方面表现不错, 并且支 持SASFormat。同时该种集成方案的缺点有: 需要购买SAS/IML( 9.22 版本或更高版本),成本高。(2)通过SAS Model Manager将R模型导出生成的 PMML文件翻译成 SAS代码。Predictive Model Markup Language(PMM) 是由数据挖掘小组(Data Mining Group, DMG牵头,众软件厂 商共同研究制定的一套用于表示模型的标记语言, 目的是为了在 不同软件产品之间实现模型的共享。 这种集成方案的优点有: 可以将生成

14、的SAS代码快速集成到各种基于 SAS开发的应用系统 中;可以将R模型和SAS模型进行预测性能方面的比较;可以对R模型和SAS模型进行性能监测。同时这种集成方案的缺点 有:需要购买 SAS Model Manager ( 12.1版本),成本高;SAS Model Manager目前也仅支持几种常用的 PMM摸型。(3)通过宏Proc_R实现在SAS里面提交R代码。PROC_R于2012 年发表在 Journal of Statistical Software上,是一位华人 Wei Xin 在美国罗氏制药公司工作期间发表的,是使用了 管道技术以批处理的方式执行 R代码。这种集成方案的优点有:

15、因为R代码本质上是在R里运行,所以全面支持R的各种模型 和函数;不需要购买SAS/IML,成本低。这种集成方案的缺点 有:只支持 Windows系统,但是使用者如果有一定编程功底, 可以将源代码改造成Linux可用的版本;数据交换通过 csv 文件实现,可能不支持 SAS FORMA;T 这种集成方案在错误捕 获等方面略弱。(4)将R生成的神经网络和决策树模型翻译成SAS代码。用 R 建神经网络模型, 然后将模型翻译成 SAS 语言格式的评分 代码,并在 SAS 里对新数据进行预测。这种集成方案的优点有: 可以将生成的SAS代码快速集成到各种基于 SAS开发的应用系 统中;这种集成方案在 Windows和Linux操作系统上都是可行 的;不需要购买SAS/IML或者SAS/EM成本低。这种集成方 案的缺点有:这种集成方案目前只支持神经网络和决策树模 型,应用范围相对较窄; 这种集成方案是无法处理自变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论