R的应用领域包介绍.doc_第1页
R的应用领域包介绍.doc_第2页
R的应用领域包介绍.doc_第3页
R的应用领域包介绍.doc_第4页
R的应用领域包介绍.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

R的应用领域包介绍ByR-FoxAnalysis of Pharmacokinetic Data 药物(代谢)动力学数据分析网址:/web/views/Pharmacokinetics.html维护人员:Suzette Blanchard版本:2008-02-15翻译:R-fox, 2008-04-12药物(代谢)动力学数据分析的主要目的是用非线性浓度时间曲线(concentration time curve)或相关的总结(如曲线下面积)确定给药方案(dosing regimen)和身体对药物反应间的关系。R基本包里的nls()函数用非线性最小二乘估计法估计非线性模型的参数,返回nls类的对象,有 coef(),formula(), resid(),print(), summary(),AIC(),fitted() and vcov()等方法。在主要目的实现后,兴趣就转移到研究属性(如:年龄、体重、伴随用药、肾功能)不同的人群是否需要改变药物剂量。在药物(代谢)动力学领域,分析多个个体的组合数据估计人群参数被称作群体药动学(population PK)。非线性混合模型为分析群体药动学数据提供了自然的工具,包括概率或贝叶斯估计方法。nlme包用Lindstrom和Bates提出的概率方法拟合非线性混合效应模型(1990, Biometrics 46, 673-87),允许nested随机效应(nested random effects),组内误差允许相关的或不等的方差。返回一个nlme类的对象表示拟合结果,结果可用print(),plot()和summary() 方法输出。nlme对象给出了细节的结果信息和提取方法。nlmeODE包组合odesolve包和nlme包做混合效应建模,包括多个药动学/药效学(PK/PD)模型。面版数据(panel data)的贝叶斯估计方法在CRAN的Bayesian Inference任务列表里有所描述(/web/views/Bayesian.html)。PKtools包为nlme,NONMEM 和WinBUGS包提供单剂量群体药动学数据的接口,分别返回PKNLME,NONMEM和WinBUGS类的对象;促进了混合似然和贝叶斯方法的使用。PKtools包的其它函数有:AICcomp()函数从NONMEM和nlme计算模型的AIC, AICc (small sample AIC)和对数似然值。paramEst()和indEst()分别返回群体和个体参数,对NONMEM类使用最大似然法,对nlme类使用广义最小二乘法,对WinBUGS类使用MCMC贝叶斯估计法。HTMLtools()和tex()函数分别输出群体和个体参数的HTML和LaTeX报道文件,和诊断图(diagnostic plot)便于用户选择估计方法。还能分别产生HTMLtools和tex文件里的诊断图。其它的分析药物(代谢)动力学数据的包还有:PK,PKfit和drc。VR包束的MASS包包括一些基本的方法,如:计算Logit或Probit模型的半数致死计量LD50。分析药物(代谢)动力学数据的图形展示也非常重要,lattice包的trellis图用来可视化面板数据。计算计量经济学(Computational Econometrics)网址:/web/views/Econometrics.html维护人员:Achim Zeileis版本:2008-04-02翻译:R-fox, 2008-04-15R的很多基本函数都可用于计量经济学,尤其是stats包。CRAN的许多包也有可以分析计量经济学,下面做个简要的综述。这里介绍的工具可能与 CRAN的计量金融(empirical finance)任务列表(/web/views/Finance.html)有许多的重合。此外,从邮件列表finance SIG(https:/www.stat.math.ethz.ch/mailman/listinfo/R-SIG-Finance/)可获得计量经济和计量金融相关的帮助和讨论问题。CRAN的SocialSciences任务列表(/web /views/SocialSciences.html)覆盖了许多社会科学的工具,因此也与这里的工具有所重合,如:政治科学。这里综述的包大致可分为如下的几个话题:1)线形回归模型(Linear regression models)线形模型可由lm()函数拟合,也有各种检验方法用来比较模型, 如:summary() 和anova()。类似的函数也支持。类似的功能也适合于渐近检验(如:z检验而不是检验,卡方检验而不是F检验),此外还有lmtest包里的 coeftest()和waldtest()函数。car包里的linear.hypothesis()可检验更广义的线形假设。HC和HAC协方差矩阵的这些功能可在sandwich包里实现。car和lmtest包还提供了许多线形回归模型的诊断方法。2)微观计量经济学(Microeconometrics):许 多微观计量经济学模型属于广义线形模型,可由stats包的glm()函数拟合。包括用于选择类数据(choice data)的Logit和probit模型,用于计数类数据(count data)的poisson模型。负二项广义线形模型可由MASS包的glm.nb()实现。边缘(zeroinflated)和hurdle计数模型可由pscl包提供,zicounts包里也实现了边缘模型。双变量Poisson回归模型可在bivpois包里实现。基本的删失回归模型 (censored regression model),如:tobit模型,可由survival包里的survreg()函数拟合。micEcon包里提供了微观计量经济学的更好的工具。 bayesm包执行微观计量济学和营销学(marketing)中的贝叶斯方法。reldist包提供了相对分布(relative distributions)相关的方法。3)其它的回归模型(Further regression models):R和 CRNA包里有各种延伸的线形回归模型和其它模型拟合方法。非线性最小二乘回归建模可用stats包里的nls()实现。相关的包还有:quantreg(分位数回归Quantile Regression),crq(截取分位点回归censored quantile regression),plm(面板数据的线形回归),sem(线性结构方程模型,包括二阶段最小平方),systemfit(联立方程估计),np(非参核方法),betareg(beta回归),nlme(非线性混合效应模型),VR(nnet 包的多项Logit模型),MNP(贝叶斯多项Probit模型)。Design和Hmisc包提供广义线形回归模型的工具。4)基本的时间序列架构(Basic time series infrastructure):tats包的ts 类是R的规则间隔时间序列的标准类。Zoo包提供了规则和不规则间隔时间序列的架构。建立在POSIXt时间-日期类上的its, tseries和fCalendar包也提供不规则间隔时间序列的架构,特别用于金融分析。5)时间序列建模(Time series modelling):stats 包里有经典的时间序列建模工具,arima()函数做ARIMA建模和Box-Jenkins-type分析。stats包还提供StructTS()函数拟合结构时间序列,decompose()过滤时间序列,HoltWinters()分解时间序列。forecasting包束提供了一些延伸的方法,尤其是预测和模型选择。多种时间序列的过滤器可在mFilter包里找到。为了估计VAR模型,stats包的ar()拟合简单的模型,vars包、 dse包的estVARXls()提供了更精巧的模型,MSBVAR包提供了贝叶斯方法。Dynlm包提供了经由OLS过滤动态回归模型的方便接口;dyn包里则提供了不同的方法。更高级的动态系统方程可由dse包拟合。高斯线形状态空间模型可由dlm包拟合(用最大斯然,kalman滤波/平滑,和贝叶斯方法)。Unit root(单位根)和cointegration technique(协整技术)可在urca,uroot和tseries包里找到。tsfa包可做时间序列因子分析。sde包提供随机微分方程的模拟和推论。6)矩阵处理(Matrix manipulations):作为一个向量和矩阵语言,R有许多基本函数处理矩阵,与Matrix和SparseM包互补。7)放回再抽样(Bootstrap):除了推荐的boot包,bootstrap或simpleboot包里有一些其它的常规bootstrapping技术;还有些函数专门为时间序列数据而设计,如:meboot包里的最大熵bootstrap,tseries包里的tsbootstrap()函数。8)不平等(Inequality):为了测量不平等(inequality),集中(concentration)和贫穷(poverty),ineq包提供了一些基本的工具,如:劳伦茨曲线(Lorenz curves),Pens parade,基尼系数(Gini coefficient)。9)结构变化(Structural change):R有很强的处理参数模型的结构变化和变化点的能力,可参考strucchange和segmented包。10)数据集(Data sets):这里介绍的许多包里都有来自计量经济学文献里的数据集,Ecdat包包括许多来自计量经济学教科书和杂志(应用计量经济学,商业/经济统计)的数据集。 FinTS包针对书Analysis of Financial Time Series (2nd ed., 2005, Wiley),包括数据集,函数,列子的脚本文件。CDNmoney包提供加拿大货币流通额,pwt包提供佩恩世界表(Penn World Table)。R 空间分析很高兴看到R在生态学里的众多应用,我是生态学的外行,但也想来凑下热闹。希望越来越多的人喜欢R(http:/www.r- /),喜欢R语言中文论坛(/Rbbs/forums/list.page)。下面根据CRAN的介绍资料综述一下R分析空间数据的功能(/web/views /Spatial.html;/; /csiss/Rgeo/),仅仅是翻译总结资料,有不对的地方请批评指正。R分析空间数据(Spatial Data)的包主要包括两部分:1)导入导出空间数据2)分析空间数据功能及函数包:1)分类空间数据(Classes for spatial data):包 sp(/web/packages/sp/index.html)为不同类型的空间数据设计了不同的类,如:点(points),栅格(grids),线(lines),环(rings),多边形(polygons)。另外sp提供总结数据,获取坐标等功能;提供画图函数,并且允许在图上添加空间元素(spatial elements)和参考元素(reference elements),如:比例尺(scale bar),指北针(north arrows)等。现在很多包都利用了sp包中的类,如:rgdal,maptools。2)处理空间数据(Handling spatial data):spsurvey 包提供做概率抽样的函数(/web/packages/spsurvey /index.html);trip包扩展sp包的类,针对动物跟踪数据(/web /packages/trip/index.html);hdeco包用等级分解熵比较类型地图(categorical map)(/web/packages/hdeco/index.html);GeoXp包允许交互式的分析空间数据(/web/packages/GeoXp/index.html)。3)读写空间数据(Reading and writing spatial data):图像有向量式绘图和光栅式两种。Rgdal可以读入和导出GDAL支持的光栅式格式(/)和OGR(http: //ogr/)支持的向量格式(/web/packages/rgdal /index.html)。ncdf包用来处理NetCDF文件(/web/packages /ncdf/index.html);maps包可连接一些地理学数据库并展示地理图(/web /packages/maps/index.html);RArcInfo 包可读取ArcInfo v.7二进制文件和*.e00文件(/web/packages/RArcInfo/index.html);maptools 包管理和读入地理数据,也为PBSmapping包、spatsta包和sp类提供接口函数( /web/packages/maptools/index.html),还可以通到GSHHS 数据库;classInt包为专题地图制图选择单变量的类间距(/web/packages /classInt/index.html);gmt包提供R和GMT 绘图软件的接口(/web/packages/gmt/index.html)。4)点格局分析(Point pattern analysis):spatstat 包做空间点分布型态(Spatial Point Patterns)分析,长处在于模型拟合和仿真(/web/packages/spatstat /index.html);spatgraphs包提供点格局的可视化图形(/web /packages/spatgraphs/index.html);splancs包允许分析多边形区域,包括很多种方法,如: 2维核密度(/web/packages/splancs/index.html);ecespa包提供书Introduccion al Analisis Espacial de Datos en Ecologia y Ciencias Ambientales: Metodos y Aplicaciones里用的点格局分析函数和数据(/web/packages/ecespa /index.html);aspace包计算空间中心统计(centrographic satistics)和最小凸多边形(/web/packages/aspace /index.html);spatialkernel包做多元数据的非参核密度估计和核回归估计( /web/packages/spatialkernel/index.html)。5)地质统计学(Geostatistics) :gstat 包做单变量和多变量地质统计,适合于大的数据集(/web/packages/gstat /index.html);geoR包(用贝叶斯模型,/web/packages/geoR /index.html) 和geoRglm 包(用线性模型,/web/packages/geoRglm/index.html)做基于模型的地质统计;fields包也提供许多类似的函数(/web/packages/fields /index.html);spBayes包用蒙特卡洛一马尔科夫链方法(MCMC)做单变量和多变量的高斯模型(http:/cran.r- /web/packages/spBayes/index.html)。RandomFields包模拟和分析随机场(/web/packages/RandomFields/index.html);tripack 包用于不规则数据的三角测量法(/web/packages/tripack /index.html);akima包用于不规则数据的线性或三次样条插值(/web /packages/akima/index.html);spatialCovariance包计算矩形数据的空间协方差矩阵(http: //web/packages/spatialCovariance/index.html)。6)疾病制图和地区数据分析(Disease mapping and areal data analysis):DCluster 包用计数数据探测疾病的空间聚类,计算空间权重,测试空间自相关,建立空间回归模型等(/web /packages/DCluster/index.html);spgwr包做地理加权回归模型,检测平稳性(http:/cran.r- /web/packages/spgwr/index.html);spatclus包(http:/cran.r- /web/packages/spatclus/index.html)。spatclus包探测2维或3维空间点分布的任意形状的聚类(/web/packages/spatclus/index.html)。7)生态学分析(Ecological analysis):R 有很多分析生态和环境数据的包。如:grasp包用GAM模型 (灰色代数曲线型模型)做环境预报(/web/packages/grasp /index.html);ade4包用做环境科学里的探索和欧几里德方法(/web /packages/ade4/index.html);adehabitat包分析动物的栖息地选择(http:/cran.r- /web/packages/adehabitat/index.html);pastecs包做时空序列的分解和分析(/web/packages/pastecs/index.html);vegan包做群落和植被生态学中的排序方法(/web/packages/vegan /index.html);WeedMap包做空间预测(/web/packages /WeedMap/index.html);clustTool包做聚类分析(/web /packages/clustTool/index.html)。更多资料见:/web /views/Environmetrics.html。Multivariate Statistics (多元统计)网址:/web/views/Multivariate.html维护人员:Paul Hewson版本:2008-02-08翻译:R-fox, 2008-04-04基本的R包已经实现了传统多元统计的很多功能,然而CRNA的许多其它包提供了更深入的多元统计方法,下面做个简要的综述。多元统计的特殊应用在 CRNA的其它任务列表(task view)里也会提及,如:排序(ordination)会在Environmetrics( /web/views/Environmetrics.html)里说到;有监督的分类方法能在MachineLearning(http: //web/views/MachineLearning.html)里找到;无监督的分类在 Cluster(/web/views/Cluster.html)里。这里要综述的包主要分为以下几个部分:1) 多元数据可视化(Visualising multivariate data):绘图方法:基本画图函数(如:pairs()、coplot())和lattice包里的画图函数(xyplot()、splom())可以画成对列表的二维散点图,3维密度图。car包里的scatterplot.matrix()函数提供更强大的二维散点图的画法。cwhmisc包集合里的cwhplot包的 pltSplomT()函数类似pair()画散点图矩阵,而且可以在对角位置画柱状图或密度估计图。除此之外,scatterplot3d包可画3维的散点图,aplpack包里bagplot()可画二变量的boxplot,spin3R()可画可旋转的三维点图。misc3d包有可视化密度的函数。 YaleToolkit包提供许多多元数据可视化技术,agsemisc也是这样。更特殊的多元图包括:aplpack包里的faces()可画 Chernoffs face;MASS包里的parcoord()可画平行坐标图(矩阵的每一行画一条线,横轴表示矩阵的每列);graphics包里的stars()可画多元数据的星状图(矩阵的每一行用一个星状图表示)。ade4包里的mstree()和vegan包里的spantree()可画最小生成树。 calibrate包支持双变量图和散点图,chplot包可画convex hull图。geometry包提供了和qhull库的接口,由convexhulln()可给出相应点的索引。ellipse包可画椭圆,也可以用 plotcorr()可视化相关矩阵。denpro包为多元可视化提供水平集树形结构(level set trees)。graphics包里的mosaicplot()和vcd包里的mosaic()函数画马赛克图(mosaic plot)。gclus包提供了针对聚类的散点图和平行坐标图。rggobi包和DescribeDisplay包是GGobi的接口,DescribeDisplay的图可达到出版质量的要求;xgobi包是XGobi和XGvis的接口,可实现动态交互的图。最后,iplots包提供强大的动态交互图,尤其是平行坐标图和马赛克图。seriation包提供seriation方法,能重新排列矩阵和系统树。数据预处理:AIS 包提供多元数据的初步描述函数。Hmisc包里的summarize()和summary.formula()辅助描述数据,varclus()函数可做聚类,而dataRep()和find.matches()找给定数据集的典型数据和匹配数据。KnnFinder包里的nn()函数用kd-tree找相似变量的个数。dprep包为分类提供数据预处理和可视化函数,如:检查变量冗余性、标准化。base包里的dist()和cluster包里的 daisy()函数提供距离计算函数;proxy包提供更多的距离测度,包括矩阵间的距离。simba包处理已有数据和缺失数据,包括相似性矩阵和重整形。2) 假设检验(Hypothesis testing):ICSNP包提供霍特林(Hotellings)T2检验和许多非参检验方 法,包括基于marginal ranks的位置检验(location test),计算空间中值和符号,形状估计。cramer包做两样本的非参检验,SpatialNP可做空间符号和秩检验。3) 多元分布(Multivariate distributions):描述统计(Descriptive measures):stats 包里的cov()和and cor()分别估计协方差和相关系数。ICSNP包提供几种数据描述方法,如:spatial.median()估计空间中值,其它的函数估计 scatter。MASS包里的cov.rob()提供更健壮的方差/协方差矩阵估计。covRobust包用最近邻方差估计法估计协方差。 robustbase包的covMCD()估计协方差和covOGK()做Orthogonalized Gnanadesikan-Kettenring。rrcov包提供可扩展和稳健的估计函数covMcd()、covMest()。corpcor包可计算大规模的协方差和偏相关矩阵。密度估计和模拟(Densities (estimation and simulation)):MASS 包的mvrnorm()产生多元正态分布的随机数。Mvtnorm包有多元t分布和多元正态分布的概率和分位数函数,还可计算多元正态分布的密度函数。 mvtnormpcs包提供基于Dunnett的函数。mnormt包提供元t分布和多元正态分布的密度和分布函数,并可产生随机数。sn包提供多元偏t 分布和偏正态分布的密度、分布、随机数函数。delt包提供了许多估计多元密度的函数方法,如:CART和贪婪方法。CRAN的Cluster任务列表(/web/views/Cluster.html)有更全面的信息,ks包里的 rmvnorm.mixt()和dmvnorm.mixt()函数产生随机数和估计密度,bayesm包里有多种拟合方法。很多地方都提供了模拟 Wishart分布的函数,如:bayesm包里的rwishart(),MCMCpack包里的rwish(),而且MCMCpack包还有密度函数 dwish()。KernSmooth 包里的bkde2D()和MASS包的kde2d()做分箱(binned)或不分箱二维核密度估计。ks包也像ash和GenKern包样可做核平滑(kernel smoothing)。prim包用法找高维多元数据的高密度区域,feature包可计算多元数据的显著特征。正态检验(Assessing normality):mvnormtest 包提供Shapiro-Wilks检验的多元数据延伸方法,mvoutlier包检测多元离群点(outlier),ICS包可检验多元正态分布。 energy 包里的mvnorm.etest()基于E统计量做正态检验,k.sample()检验多个数据是否来自同一分布。dprep 包里的mardia()用Mardia检验正态性。stats包里的mauchly.test()可检验Wishart分布的协方差矩阵。连接函数(Copulas):copula 包提供常规的copula函数的程序,包括:normal, t, Clayton, Frank, Gumbel。fgac包提供generalised archimedian copula,mlCopulaSelection包可做二变量的copula。4) 线形模型(Linear models):stats包里的lm()可做多元线形模型,anova.mlm()比较多个多元线形模型,manova()做多元方差分析(MANOVA)。sn包的msn.mle()和 and mst.mle()可拟合多元偏正态和偏t分布模型。pls包提供偏最小二乘回归(PLSR)和主成分回归;ppls包可做惩罚偏最小二乘回归;dr包提供降维回归方法,如.:片逆回归法(Sliced Inverse Regression)、片平均方差估计(sliced average variance estimation)。plsgenomics包做基于偏最小二乘回归的基因组分析。relaimpo包可评估回归参数的相对重要性。5) 投影方法(Projection methods):主成分(Principal components):stats 包的prcomp()(基于svd())和princomp()(基于eigen())能计算主成分。sca包做单分量分析。nFactors可评价碎石图(Scree plot),paran包可评估主成分分析得到的主成分和因子分析得到的因子。pcurve包做主曲线(Principal Curve)分析和可视化。gmodels包提供适合大矩阵的fast.prcomp()和fast.svd()。kernlab包里的kpca()用核方法做非线性的主成分分析。pcaPP包用投影寻踪(projection pursuit)法计算稳健/鲁棒(robust)主成分。amap包的acpgen()和acprob()函数分别针对广义(generalized)和稳健(robust)主成分分析。主成分在很多方面也有相应的应用,如:涉及生态的ade4包,感官的SensoMinR包。psy包里有用于心理学的各种程序,与主成分相关的有:sphpca()用球形直观表示相关矩阵,类似于3D的PCA;fpca()图形展示主成分分析的结果,而且允许某些变量间有相关性;scree.plot()图形展示相关或协方差矩阵的特征值。PTAk包做主张量分析(Principal Tensor Analysis)。smatr包提供关于异速生长(allometry)的函数。典型相关(Canonical Correlation):stats包里的cancor()是做典型相关的函数。kernlab包提供更稳健的核方法kcca()。concor包提供了许多concordance methods。冗余度分析(Redundancy Analysis):calibrate包里的rda()函数可做冗余度分析和典型相关。fso包提供了模糊集排序(Ordination)方法。独立成分(Independent Components):fastICA 包用fastICA算法做独立成分分析(ICA)和投影寻踪分析(Projection Pursuit),mlica包提供独立成分分析的最大似然拟合,PearsonICA包用基于互信息的打分函数分离独立信号。ICS包能执行不变坐标系(invariant coordinate system)和独立成分分析(independent components)。JADE包提供就JADE算法的接口,而且可做一些 ICA。普鲁克分析(Procrustes analysis):vegan包里的procrustes()可做普鲁克分析,也提供排序(ordination)函数。更一般的普鲁克分析可由FactoMineR包里的GPA()实现。6) 主坐标/尺度方法(Principal coordinates / scaling methods):stats包的 cmdscale()函数执行传统的多维尺度分析(multidimensional scaling,MDS)(主坐标分析Principal Coordinates Analysis),MASS包的sammon()和isoMDS()函数分别执行Sammon和Kruskal非度量多维尺度分析。vegan包提供非度量多维尺度分析的包装(wrappers)和后处理程序。7) 无监督分类(Unsupervised classification):聚类分析:CRAN的Cluster任务列表全面的综述了R实现的聚类方法。stats里提供等级聚类hclust()和k-均值聚类kmeans()。cluster包里有大量的聚类和可视化技术,clv包里则有一些聚类确认程序,e1071包的classAgreement()可计算Rand index比较两种分类结果。Trimmed k-means聚类分析可由trimcluster包实现,聚类融合方法(Cluster Ensembles)由clue包实现,clusterSim包能帮助选择最佳的聚类,hybridHclust包提供一些混合聚类方法。energy包里有基于E统计量的距离测度函数edist()和等级聚类方法hclust.energy()。LLAhclust包提供基于似然(likelihood linkage)方法的聚类,也有评定聚类结果的指标。fpc包里有基于Mahalanobis距离的聚类。clustvarsel包有多种基于模型的聚类。模糊聚类(fuzzy clustering)可在cluster包和hopach包里实现。Kohonen包提供用于高维谱(spectra)或模式(pattern)的有监督和无监督的SOM算法。clusterGeneration包帮助模拟聚类。CRAN的Environmetrics任务列表里也有相关的聚类算法的综述。mclust包实现了基于模型的聚类,MFDA包实现了功能数据的基于模型的聚类。树方法:CRAN的 MachineLearning任务列表有对树方法的细节描述。分类树也常常是重要的多元方法,rpart包正是这样的包,rpart.permutation包还可以做rpart()模型的置换(permutation)检验。TWIX包的树可以外部剪枝。 hier.part包分割多元数据集的方差。mvpart包可做多元回归树,party包实现了递归分割(recursive partitioning),rrp包实现了随机递归分割。caret包可做分类和回归训练,进而caretLSF包实现了并行处理。kknn包的k-近邻法可用于回归,也可用于分类。8) 有监督分类和判别分析(Supervised classification and discriminant analysis):MASS 包里的lda()和qda()分别针对线性和二次判别分析。mda包的mda() and fda()允许混合和更灵活的判别分析,mars()做多元自适应样条回归(multivariate adaptive regression splines),bruto()做自适应样条后退拟合(adaptive spline backfitting)。earth包里也有多元自适应样条回归的函数。rda包可用质心收缩法(shrunken centroids regularized discriminant analysis)实现高维数据的分类。VR的class包的knn()函数执行k-最近邻算法,knncat包里有针对分类变量的k-最近邻算法。 SensoMineR包的FDA()用于因子判别分析。许多包结合了降维(dimension reduction)和分类。klaR包可以做变量选择,可处理多重共线性,还有可视化函数。superpc包利用主成分做有监督的分类,classPP 包则可为其做投影寻踪(projection pursuit),gpls包用广义偏最小二乘做分类。hddplot包用交叉验证的线性判别分析决定最优的特征个数。supclust包可以根据芯片数据做基因的监督聚类。ROCR提供许多评估分类执行效果的方法。predbayescor包可做朴素贝叶斯(nave Bayes)分类。关于监督分类的更多信息可以看MachineLearning任务列表。9) 对应分析(Correspondence analysis):MASS包的corresp()和mca()可以做简单和多重对应分析。ca包提供单一、多重和联合(joint)对应分析。ade4包的ca()和mca()分别做一般的和多重对应分析。vegan包里也有类似的函数。cocorresp可实现两个矩阵间的co-correspondence分析。FactoMineR 包的CA()和MCA()函数也能做类似的简单和多重对应分析,还有画图函数。homals执行同质分析(homogeneity)。10) 前向查找(Forward search):Rfwdmv包执行多元数据的前向查找。11) 缺失数据(Missing data):mitools包里有缺失数据的多重估算(multiple imputation)的函数, mice包用chained equations实现了多重估算,mvnmle包可以为多元正态数据的缺失值做最大似然估计(ML Estimation),norm包提供了适合多元正态数据的估计缺失值的期望最大化算法(EM algorithm),cat包允许分类数据的缺失值的多重估算,mix包适用于分类和连续数据的混合数据。pan包可为面版数据(panel data)的缺失值做多重估算。VIM包做缺失数据的可视化和估算。Hmisc包的aregImpute()和transcan()提供了其它的估算缺失值方法。EMV包提供了knn方法估计缺失数据。monomvn包估计单调多元正态数据的缺失值。12) 隐变量方法(Latent variable approaches):stats包的factanal()执行最大似然因子分析,MCMCpack包可做贝叶斯因子分析。GPArotation包提供投影梯度(Gradient Projection)旋转因子法。FAiR包用遗传算法作因子分析。ifa包可用于非正态的变量。sem包拟合线形结构方程模型。ltm包可做隐含式语义分析 (Latent semantic analysis),eRm包则可拟合Rasch模型(Rasch models)。FactoMineR包里有很多因子分析的方法,包括:MFA()多元因子分析,HMFA()等级多元因子分析,ADFM()定量和定性数据的多元因子分析。tsfa包执行时间序列的因子分析。poLCA包针对多分类变量(polytomous variable)做潜类别分析(Latent Class Analysis)。13) 非高斯数据建模(Modelling non-Gaussian data):bivpois包建模Poisson分布的二变量。mprobit包提供了适合二元和顺序响应变量的多元概率模型。MNP包实现了Bayesian多元概率模型。polycor包可计算多组相关(olychoric correlation)和四分相关(tetrachoric correlation)矩阵。bayesm包里有多种模型,如:表面非相关回归(Seemingly unrelated Regression),多元logit/probit模型, 工具变量法(Instrumental Variables)。VGAM包里有:广义线形和可加模型(Vector Generalised Linear and Additive Models),减秩回归(Reduced Rank regression)。14) 矩阵处理(Matrix manipulations):R作为一种基于向量和矩阵的语言,有许多处理矩阵的强有力的工具,由包Matrix和,SparseM实现。matrixcalc包增加了矩阵微积分的功能。spam包提供了更深入的针对稀疏矩阵的方法。15) 其它(Miscellaneous utitlies):DEA包执行数据包络分析(data envelopment analysis,DEA)。abind包组合多维array。Hmisc包的mApply()扩充了apply()的功能。除了前面描述的功能,sn包还未偏正态和偏t分布提供边缘化(marginalisation)、仿射变换(affine transformations)等。SharedHT2包执行芯片数据的Hotellings T2检验。panel包里有面版数据(panel data)的建模方法。mAr包可做向量自回归模型(vector auto-regression),MSBVAR包里有贝叶斯向量自回归模型。Hmisc包的rm.boot()函数bootstrap重复测量试验(Repeated Measures Models)。compositions包提供复合数据分析(compositional data analysis)。cramer包为两样本数据做多元非参Cramer检验。psy里有许多心理学的常用方法。cwhmisc包集合的 cwhmath包里有许多有趣的功能,如各种旋转函数。desirability包提供了基于密度函数的多变量最优化方法。geozoo包可以画 geozoo包里定义的几何对象。Machine Learning & Statistical Learning (机器学习 & 统计学习)网址:/web/views/MachineLearning.html维护人员:Torsten Hothorn版本:2008-02-18 18:19:21翻译:R-fox, 2008-03-18机器学习是计算机科学和统计学的边缘交叉领域,R关于机器学习的包主要包括以下几个方面:1)神经网络(Neural Netwo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论