基于R的统计分析与数据挖掘ppt课件.ppt

上传人：儿*** IP属地：广东上传时间：2020-02-29 格式：PPT 页数：330 大小：5.80MB 积分：30 举报 版权申诉

已阅读5页，还剩325页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第1R 基于R的统计分析与数据挖掘为什么选择R和如何学习R R语言是一种面向统计分析的计算机高级语言属于数据分析软件范畴根据由浅入深的数据分析需求依据数据分析过程分阶段分步骤地学习R 是一种快速有效掌握R的基本方法 R入门必备 R是一个关于包的集合包是关于函数数据集编译器等的集合编写R程序的过程就是通过创建R对象组织数据通过调用系统函数或者创建并调用自定义函数以逐步完成数据分析任务的过程包是R的核心可划分为基础包 Base 和共享包 Contrib 两大类 R的下载可从R的网站上免费下载并安装R软件启动R 成功启动R之后显示的窗口 R的书写是严格区分英文大小写的利用键盘上的上下箭头键可重复显示以往或后续的书写内容当前已经加载了哪些包成功启动R意味着基础base包中的默认加载包已成功加载到R的工作空间用户可以直接调用其中的函数窗口菜单 Mics Listsearchpath 当前可以做的事情成功启动R意味着用户可在R工作空间中创建和管理R对象调用已被加载包中的函数实现对对象的管理和相关的数据分析等R对象是R程序处理的基本单元用于待分析数据的组织以及分析结果的组织等每个R对象均有一个对象名作为唯一的标识一般可直接通过对象名访问对象中的数据或其他内容当前可以做的事情函数是实现某计算或分析的程序段可视为一种特殊的对象每个函数均有一个函数名用户可通过两种形式调用函数函数名函数名形式参数列表如何获得的R帮助文档 help start 函数和包的拓展使用若要调用尚未加载的包中的函数需按照先加载后浏览再调用的步骤实现先加载首先将未加载的包加载到R的工作空间调用的函数为 library 包名称后浏览然后浏览包中提供的函数调用的函数为 library help 包名称再调用最后以无形式参数或带形式参数的方式调用相应函数 R的运行方式命令行方式是指在R控制台的提示符后输入一条命令并回车即可立即得到运行结果适合于较为简单步骤较少的数据处理和分析 R的运行方式程序运行方式也称脚本运行方式是指首先编写R程序然后一次性提交运行该程序适合于较为复杂步骤较多的数据处理和分析退出R 当结束R工作退出R的时候可调用函数 q 或鼠标单击R主窗口右上角的窗口关闭按钮工作空间 workspace 是R的工作环境或工作内存其中临时保存了本次运行中生成的R对象和已输入的命令清单等退出R时用户可指定将工作空间中的内容保存到当前工作目录下的环境文件中环境文件名为 Rdata和 Rhistory 第2章R的数据组织基于R的统计分析与数据挖掘从存储角度划分R对象数据对象是R组织数据的基本方式由于不同类型的数据在计算机中所需的存储字节不同所以可将R数据对象划分为数值型 123 5 1 235E2字符型 ZhangSan BeiJing 逻辑型只有真是假否两个取值从结构角度划分R对象数据对象是R组织数据的基本方式由于数据分析实践中有不同的数据组织结构所以R数据对象可划分为向量矩阵数组数据框列表等多种结构类型创建和访问R的数据对象创建对象是通过赋值语句实现的基本书写格式为对象名 R常量或R函数访问对象即浏览对象的具体取值也称对象值基本书写格式为对象名或 print 对象名查看对象的结构即对象的存储类型以及与结构相关的信息基本书写格式为 str 对象名创建和访问R的数据对象管理对象即浏览当前工作空间中包含哪些对象删除不再有用的对象等基本书写格式为 ls rm 对象名或对象名列表或 remove 对象名向量的创建和访问示例访问向量中的元素示例矩阵的创建和访问示例矩阵的创建和访问示例访问矩阵中的元素示例访问矩阵中的元素示例访问矩阵中的元素以编辑窗口形式访问数据框的创建和访问示例访问数据框示例数据对象的相互转换可利用as函数将数据对象的存储类型转换为指定的类型基本书写格式为 as 存储类型名数据对象名向量转换为因子因子是一种特殊形式的向量由于一个向量可视为一个变量如果该变量的计量类型为分类型则将对应的向量转换为因子这样更利于后续的数据分析基本书写格式为 as factor 向量名从文本文件读数据可利用scan函数将文本数据读入到向量中基本书写格式为 scan file 文件名 skip 行数 what 存储类型转换函数可利用read table函数将文本数据读入到数据框中基本书写格式为 read table file 文件名 header TRUE FALSE sep 数据分隔符第3章R的数据管理基于R的统计分析与数据挖掘数据合并数据合并是指将存储在两个R数据框中的两份数据以关键字为依据以行为单位做列向合并通常这些数据是关于观测对象不同侧面的描述信息合并后将利用数据多角度的综合分析和研究实现数据合并的函数是merge函数基本书写格式为 merge 数据框名1 数据框名2 by 关键字数据合并示例数据排序数据排序不仅便于数据浏览更有助于快速找到数据中可能存在的错误数据异常数据等可按单个变量取值的升序或降序排序数据称为单变量排序也可依据多个变量进行多重排序实现数据排序的函数是order函数基本书写格式为 order 向量名列表 na last TRUE FALSE NA decreasing TRUE FALSE 数据排序示例缺失数据报告导致缺失数据的主要原因有两类第一数据无法或很难获得如家庭储蓄总额等对此 R用符号NA NotAvailable 表示 NA即为缺失值第二由于各种原因数据取了明显不合理的值如年龄是230岁等对此 R用符合NaN NotaNumber 表示 NaN也是一种缺失值判断缺失值和完整观测判断变量是否取缺失值的函数是is函数基本书写格式为 is na 向量名 is nan 向量名为逐个判断每个观测样本是否有取缺失值的变量域则需利用complete cases函数基本书写格式为 complete cases 矩阵名或数据框名判断缺失值和完整观测示例生成缺失数据报告为进一步得到关于数据缺失状况的全面报告可利用mice包提供的相关函数生成缺失数据报告的函数是md pattern 基本书写格式为 md pattern 矩阵名或数据框名示例变量计算变量计算是在原有数据基础上派生出信息更加丰富的新变量或者对原有变量进行变换处理以满足后续建模的需要变量计算可借助赋值语句通过恰当的表达式实现对象名 R的算术表达式或关系表达式变量计算函数 R表达式中的函数种类很多从计算目的上大致分为数学函数统计函数概率函数字符串函数等示例用户自定义函数尽管系统函数能够满足绝大部分的变量计算需求但有时也可能无法完成较为繁琐的需经多个步骤才能完成的具有用户个性需求的计算任务如果这个计算具有一定的功能完整性且应用场合较多就有必要将其编写成或称定义成一个独立程序段即函数与系统函数不同的是这些函数是用户自行编写的因而称为用户自定义函数用户自定义函数的定义定义函数即明确给出函数说明和函数体定义的基本书写格式为用户自定义函数名 function 参数列表计算步骤1计算步骤2 return 函数值用户自定义函数的定义示例变量值的重编码分组分组是按一定方式将数值型变量的变量值分成若干个区间每个区间即是一个分组例如可将学生各科成绩的平均分为A B C D E5个组分别对应优良中及格不及格成绩分组后的变量为分类型变量一般在R中以因子方式组织变量值的重编码分组示例变量值的重编码重定义类别值重定义类别值是对分类型变量的类别值重新进行编码例如学生成绩数据中的性别原本用1和2依次指代男女若希望修改为M和F 即为重新定义性别的类别值示例数据筛选数据筛选顾名思义是将现有数据按照某种方式筛选出部分观测样本以服务于后续的数据建模数据筛选方式包括按条件筛选随机筛选数据筛选按条件筛选实现条件筛选的函数为subset函数基本书写格式为 subset 数据框名关系表达式示例数据筛选随机筛选随机筛选是对现有数据按照指定的随机方式筛选观测样本可利用sample函数实现基本书写格式为 sample 向量名 size 样本量 prob c 各元素抽取概率表 replace TRUE FALSE 示例数据保存保持数据到文本文件的函数是write table函数基本书写格式为 write table 数据对象名 file 文本文件名 sep 分隔符 quote TRUE FALSE append TRUE FALSE na NA row names TRUE FALSE col names TRUE FALSE 数据管理中控制流程简单的数据管理任务均可通过顺序调用函数来实现但较为复杂的数据管理还需更为灵活的流程控制手段如果将顺序调用函数视为以一种顺序结构的流程控制即R程序的执行过程完全取决于程序语句的先后顺序那么更为灵活的流程控制则包括分支结构的流程控制循环结构的流程控制分支结构的流程控制分支结构的流程控制是指R程序在某处的执行取决于某个条件当条件满足时执行一段程序当条件不满足时执行另外一段程序因程序的执行在该点出现了分支因而得名分支结构的流程控制分支结构的流程控制 if结构 if else结构循环结构的流程控制循环结构的流程控制是指R程序在某处开始根据条件判断结果决定是否反复执行某个程序段循环结构的流程控制 for结构示例循环结构的流程控制 while结构示例循环结构的流程控制 repeat结构示例利用流程控制还原汇总数据示例第4章R的基本数据分析描述和相关基于R的统计分析与数据挖掘数值型单变量的描述数值型单变量描述的目标是选用恰当的描述统计量测度和刻画变量分布的集中水平离中趋势分布形态的对称性及陡峭程度常用的描述统计量包括反映集中水平特征的均值众位数等反映离中趋势特征的四分位差方差标准差等反映分布形态对称性的偏态系数反映分布形态陡峭程度的峰度系数计算基本描述统计量可利用summary函数基本书写格式为 summary 数据对象名示例计算多个变量的某个描述统计量可利用sapply函数实现简化基本书写格式为 sapply 数据框列号范围 FUN 函数名 na rm TRUE FALSE 示例分类型单变量的描述分类型单变量描述的目标是编制频数分布表频数分布表一般包括频数和百分比用于展示单个分类型变量的分布特征编制频数分布表的函数是table函数基本书写格式为 table 向量名分类型单变量的描述示例两数值型变量相关性的分析两个数值型变量的相关性这里主要指线性相关性一方面可通过简单相关系数刻画样本所体现的相关性相关系数大于零表示有正的线性相关性小于零表示有负的线性相关性等于零表示没有线性相关性相关系数的绝对值越大线性相关性越强另一方面可通过相关系数检验对样本来自总体的相关性进行检验计算简单相关系数简单相关系数计算两数值型变量相关系数的R函数是cov 基本书写格式为 cor 矩阵或数据框列号 use 缺失值处理方式 method pearson 计算简单相关系数示例简单相关系数的检验由于抽样的随机性以及样本量的影响简单相关系数仅能体现样本所表现的相关性样本来自的总体是否相关或无关还需要进行相关系数检验简单相关系数检验的检验统计量简单相关系数的检验相关系数检验的R函数是cor test 基本书写格式为 cor test 数值型向量1 数值型向量2 alternative 检验方向 method pearson 示例计算偏相关系数偏相关系数是在控制了其他数值型变量这些变量称为控制变量的条件下计算两数值型变量间的相关系数从而消除其他变量对相关系数值的影响偏相关系数计算的函数在corpcor包中基本书写格式为 cor2pcor 相关系数矩阵名计算偏相关系数示例两分类型变量相关性的分析两分类型变量相关性的分析主要包括两个方面第一相关性的描述第二相关性的检验两分类型变量相关性的描述两分类型变量相关性描述的工具是编制列联表列联表中一般包括两分类型变量类别值交叉分组下的观测频数表各行列的频数合计边际频数各频数占所在行列合计的百分比边际百分比以及占总合计的百分比总百分比等编制列联表的函数基本书写格式为 table 矩阵或数据框的列号 xtabs R公式 data 数据框名两分类型变量相关性的描述示例两分类型变量相关性的描述进一步计算两分类型变量相关性的检验两分类型变量相关性的检验是在列联表的基础上利用列联表数据分析表中两分类型变量的总体相关性采用的方法是卡方检验卡方检验的原假设是列联表中两分类型变量独立常用的检验统计量为pearson卡方统计量定义为卡方检验的R函数和示例卡方检验的R函数是chisq test 基本书写形式为 chisq test 列联表对象 correct TRUE FALSE 示例第5章R的基本数据分析可视化基于R的统计分析与数据挖掘 R的基本数据分析可视化数据特征可视化的基本工具是统计图形一方面图形是直观展示变量分布特征以及变量在不同样本组分布特征差异性的重要工具另一方面 R的图形绘制功能强大图形种类丰富在数据可视化方面优势突出R的绘图函数分布在基础base包和共享contrib包中其中基础base包中的绘图函数一般用于绘制基本统计图形而大量绘制各类复杂图形的函数多包含在共享contrib包中绘图基础图形设备和图形文件 R的图形并不显示在R的控制台中而是默认输出到一个专用的图形窗口中这个图形窗口被称为R的图形设备 R允许多个图形窗口同时被打开图形可分别显示在不同的图形窗口中也即允许同时打开多个图形设备用以显示多组图形绘图基础图形组成和图形参数 R的图形是由多个部分组合的主要包括主体坐标轴坐标标题图标题四个必备部分绘制图形时一方面应提供用于绘图的数据另一方面还需对图形各部分的特征加以说明绘图基础图形布局图形布局是指对于多张有内在联系的图形若希望将它们共同放置在一张图上时应按怎样的布局组织它们具体讲就是将整个图形设备划分成几行几列按怎样的顺序摆放各个图形各个图形上下左右的边界是多少等设置图形布局的函数为par 基本书写形式为 par mfrow c 行数列数 mar c n1 n2 n3 n4 par nfcol c 行数列数 mar c n1 n2 n3 n4 数值型单变量分布的可视化为直观展示数值型单变量的分布特征以及在不同样本组上的分布差异性常用的统计图形有茎叶图箱线图直方图核密度图小提琴图克利夫兰点图时序折线图等茎叶图绘制茎叶图的函数是stem 基本书写格式为 stem 数值型向量名或域名示例箱线图绘制单个变量箱线图的函数是boxplot 基本书写格式为 boxplot 数值型向量名或域名 horizontal TRUE FALSE axes TRUE FALSE ylim 纵坐标范围绘制变量在不同样本组的箱线图的函数仍为boxplot 基本书写格式为 boxplot R公式 data 数据框名 horizontal TRUE FALSE axes TRUE FALSE ylim 纵坐标范围 names 分组标题箱线图示例直方图与核密度图直方图的函数为hist 基本书写格式为 hist 数值型向量名或域名 freq TRUE FALSE 核密度估计函数为density 基本书写格式为 density 数值型向量名或域名直方图与核密度图示例小提琴图小提琴图是箱线图和核密度图的结合因形状酷似小提琴而得名绘制小提琴图的函数vioplot在violpot包中首次应用时需要下载安装并加装到R的工作空间中 vioplot函数的基本书写格式为 vioplot 数值型向量名或域名或vioplot 数值型向量名或域名列表 names 横坐标轴标题向量小提琴图示例克利夫兰点图克利夫兰点图可用于直观展示数据中可能的异常点克利夫兰点图的横坐标为变量值纵坐标为各观测编号观测编号越小纵坐标值越大绘制克利夫兰点图的函数是dotchart 基本书写格式为 dotchar 数值型向量名或域名克利夫兰点图示例时序折线图如果数值型变量是一个时间序列数据那么关于它的图形展示目的是刻画时间序列如何随时间的推移而变化理想的图形工具是时序折线图图中的横坐标为时间纵坐标为变量值 plot函数可用于绘制折线图基本书写格式为 plot 数值型向量或域名 type 线的类型名时序折线图示例分类型变量分布和相关性的可视化为直观展示分类型单变量的分布特征变量在不同样本组上的分布差异也即两分类型变量的相关性常用的统计图形有柱形图或条形图饼图马赛克图等简单柱形图简单柱形图是展示分类型变量分布特征的最常见图形其横坐标为类别值纵坐标默认频数或频率简单绘制柱形图的函数是barplot 基本书写格式为 barplot 数值型向量名 horiz TRUE FALSE names arg 条形标签向量简单柱形图示例簇式柱形图为对比分类型变量的分布在不同样本组上的差异需绘制簇式柱形图仍利用barplot函数基本书写格式为 barplot 数值型矩阵名 col 颜色向量 beside TRUE FALSE horiz TRUE FALSE legend 图例标签向量簇式柱形图示例饼图和扇形图饼图用于展示分类型变量各类别的分布比例状况扇形图更利于比较绘制饼图的函数是pie 基本书写格式为 pie 数值型向量名 labels 切片标签向量 clockwise TRUT FALSE 绘制扇形图的函数是fan plot 包含在plotrix包中基本书写格式为 fan plot 数值型向量名 labels 切片标签向量饼图和扇形图示例马赛克图马赛克图用于展示两或三个分类型变量相关性因图中格子的排列形似马赛克而得名绘制马赛克图的R函数是vcd包中的mosaic函数基本书写格式为 mosaic 分类型域名1 分类型域名2 data 数据框名 shade TRUE FALSE legend TRUE FALSE 马赛克图示例两数值型变量相关性的可视化散点图是展示两个或多个数值型变量相关性特征的最常用工具包括简单散点图三维散点图汽包图矩阵散点图等进一步由于散点图对变量间相关性大小的展示略显粗略所以还可以绘制以相关系数矩阵为绘图对象的相关系数图以更精准展示数值型变量间线性相关性的强弱简单散点图简单散点图将观测数据点绘制在一个二维平面中通过数据点分布的形状可粗略展示两数值型变量间的相关性特点利用plot绘制散点图时函数的基本书写格式为 plot x 数值型向量名1 y 数值型向量名2 或plot 域名2 域名1 data 数据框名在简单散点图上添加回归线第一步求解回归线有两种求解方法一元线性回归法函数基本书写格式为 lm 被解释变量名解释变量名 data 数据框名局部加权散点平滑法函数基本书写格式为 loess 被解释变量名解释变量名 data 数据框名在简单散点图上添加回归线第二步将回归线添加到已有的散点图上可采用abline函数基本书写格式是 abline 数值型向量或 abline h 纵坐标值或 abline v 横坐标值在简单散点图上添加回归线示例高密度散点图的处理当观测样本量较大时所绘制的散点图可能会出现数据点非常集中有很多数据点重叠在一起的现象这样的散点图称为高密度散点图由于高密度散点图中的点大量重合叠加不利于直观展示变量间的相关性特征需对其做进一步的处理高密度散点图的处理主要有以下两种方式第一增加数据噪声减少数据点的重叠增加噪声的函数是jitter 基本书写格式为 jitter 数值型向量 factor n 第二利用色差突出散点图中的数据密集区域可使用smoothScatter函数绘制散点图基本书写格式为 smoothScatter x 横坐标向量 y 纵坐标向量高密度散点图的处理示例三维散点图和气泡图三维散点图在展示两数值型变量相关性的同时还希望体现第三个变量的取值状况绘制三维散点图的函数是scatterplot3d包中的scatterplot3d函数基本书写格式为 scatterplot3d 向量名1 向量名2 向量名3 三维散点图和气泡图汽包图即在绘制两个变量的散点图时各个数据点的大小取决于第三个变量的取值第三个变量取值不同数据点的大小也就不同形如大小不一的一组气泡绘制汽包图的函数是symbols 基本书写格式为 symbols 向量名1 向量名2circle 向量名3 inches 计量单位 fg 绘图颜色 bg 填充色三维散点图和气泡图示例矩阵散点图矩阵散点图用于在一副图上同时展示多对数值型变量的相关性绘制矩阵散点图的函数是pairs 基本书写格式为 pairs 域名1 域名2 域名n data 数据框名若希望在散点图上添加回归曲线应采用car包中的scatterplotMatrix函数函数的基本书写格式为 scatterplotMatrix 域名1 域名2 域名n data 数据框名 lty smooth 2 spread FALSE 矩阵散点图示例相关系数图相关系数矩阵虽然可以准确反映两两变量的线性相关性的强弱但当这个矩阵较大时分析起来就不很直观为此可基于相关系数矩阵绘制相关系数图相关系数图由下三角区域上三角区域对角区域三个部分组成区域在这里称为面板三个区域也分别称为下面板上面板和对角面板除对角面板外上下面板以不同形式直观展示相应变量对的相关性强弱相关系数图绘制相关系数图的函数是corrgram包中的corrgram函数基本书写格式为 corrgram 矩阵或数据框列 lower panel 面板样式 upper panel 面板样式 text panel 面板样式 diag panel 面板样式相关系数图示例分组散点图若要展示两个数值型变量之间的相关性在不同样本组上的差异需要绘制分组散点图也称协同图可采用coplot函数绘图基本书写格式为 coplot 域名1 域名2 分组域名 number 分组数 data 数据框名分组散点图示例第6章R的两均值比较检验基于R的统计分析与数据挖掘 R的两均值比较检验统计学有一系列方法检验两个样本上的均值差是否在统计上显著主要包括两独立样本的均值检验两配对样本的均值检验等参数检验方法此外还可以利用非参数检验方法解决类似问题 R的两均值比较检验假设检验的基本步骤是提出原假设和备则假设构造检验统计量在原假设成立条件下服从某个已知的理论分布抽样分布依据样本数据计算在原假设成立条件下检验统计量的观测值和概率 P值检验统计量的观测值反映了样本数据与原假设之间的差距概率 P值反映了在原假设成立条件下检验统计量取当前观测值或更极端值的可能性 R的两均值比较检验假设检验的基本步骤是指定显著性水平通常为0 05 显著性水平是原假设为真但却被拒绝的概率也即弃真概率以抽样分布为基础判断能否推翻原假设两独立样本的均值检验适用的数据观测样本是来自两个总体的两个独立样本即在两个总体中分别独立抽样所得的两个样本在抽样过程中互不影响检验目标是检验两独立样本的样本均值差是否具有统计显著性不具统计显著性表明两样本均值差是抽样误差所致两独立样本来自的两个总体均值没有显著差异也即两总体的均值差与零无显著差异具有统计显著性表明两样本均值差并非抽样误差所致两总体的均值存在显著差异也即两总体的均值差与零有显著差异两独立样本的均值检验检验的理论依据两样本均值差的抽样分布模拟两独立样本的均值检验原假设为两总体均值之差为零即两总体均值无显著差异依据样本均值差的抽样分布检验统计量为 R函数为t test 基本书写格式为 t test 数值域名因子 data 数据框名 paired FALSE var equal TRUE FALSE mu 检验值 alternative 检验方向示例两独立样本均值检验的进一步研究两总体方差是否相等齐性可采用通常的F检验也可采用更为稳健且不依赖总体分布具体形式的levene s方差同质性检验levene s方差同质性检验的原假设是两总体方差无显著差异两独立样本均值检验的进一步研究 levene s方差同质性检验的主要思路是对来自两个不同总体的两个样本分别计算样本均值计算各观测与本组样本均值差的绝对值得到两个绝对离差样本利用单因素方差分析方法依据F统计量的观测值和概率 P值判断两组绝对离差的均值是否存在显著差异即判断两组的平均绝对离差是否存在显著差异若无显著差异表明两总体方差齐性反之两独立样本均值检验的进一步研究 R实现levene s方差同质性检验的函数是car包中的leveneTest函数基本书写格式为 leveneTest 数值型向量因子 center mean 两独立样本均值检验的进一步研究示例两配对样本的均值检验适用的数据观测样本是来自两个总体的两个配对样本表现为两个样本的样本量相等且两样本的观测具有一一对应关系可视为观测样本前后或多侧面的数据检验目标检验两配对样本的样本均值差是否具有统计显著性不具统计显著性表明样本均值差是抽样误差所致两配对样本来自的两个总体均值没有显著差异也即两总体的均值差与零无显著差异具有统计显著性表明样本均值差并非抽样误差所致两总体的分布参数均值存在显著差异也即两总体的均值差与零有显著差异两配对样本的均值检验检验的理论依据样本均值的抽样分布模拟两配对样本的均值检验原假设为两总体均值之差为零差值样本来自的差值总体均值为零也即两总体均值无显著差异依据样本均值的抽样分布检验统计量为 R函数为t test 基本书写格式为 t test 数值型向量名1 数值向量名2 paired TRUE alternative 检验方向两配对样本的均值检验示例样本均值检验的功效分析在假设检验中可能犯两种类型的错误一类为原假设为真但却错误地拒绝了这类错称为弃真错犯错的概率定义为显著性水平由此可知若原假设为真并且接受了做出这一正确决策的概率为1 另一类为原假设为假但却错误地接受了这类错称为取伪错犯类错的概率定义为由此可知若原假设为假并且拒绝了做出这一正确决策的概率为1 且称1 为统计功效样本均值检验的功效分析显著性水平样本量效应量统计功效这四者之间存在必然联系给其中的三个项值一定可计算出剩余的一项值R采用Cohen提出的效应量定义两独立样本均值检验的效应量定义为配对样本均值检验中的效应量定义为样本均值检验的功效分析 R实现功效分析的函数在pwr包中当两样本有相同的样本量时功效分析的R函数为pwr t test 基本书写格式为 pwr t test d 效应量 n 样本量 sig level 显著性水平 power 统计功效 type 检验类型 alternative 检验方向当两样本的样本量不同时功效分析的R函数为pwr t2n test 基本书写格式为 pwr t2n test d 效应量 n1 样本量1 n2 样本量2 sig level 显著性水平 power 统计功效 type two sample alternative 检验类型样本均值检验的功效分析示例两总体分布差异的非参数检验两独立样本分布差异的非参数检验是利用两个独立样本对样本来自的两个总体的分布是否存在显著差异进行检验应用最广的方法是 Wilcoxon秩和检验柯尔莫哥和斯米诺夫 Kolmogorov Smirnov 检验 Wilcoxon秩和检验 Wilcoxon秩和检验也称曼惠特尼U Mann WhitneyU 检验用于两总体分布差异的显著性检验评估两个独立样本是否来自相同分布的总体其原假设是两独立样本来自的两个总体分布无显著差异Wilcoxon秩和检验的R函数为wilcox test 基本书写格式为 wilcox test 数值型域名因子 data 数据框名 Wilcoxon秩和检验示例柯尔莫哥和斯米诺夫柯尔莫哥和斯米诺夫检验简称K S检验可通过两个独立样本检验两个连续型随机变量总体分布的差异是否显著其原假设是两个独立样本来自的两总体的分布无显著差异 K S检验的核心对象仍然是秩K S检验的R函数为ks test 基本书写格式为 ks test 数值型向量1 数值型向量2 柯尔莫哥和斯米诺夫示例两配对样本分布差异的非参数检验两配对样本分布差异的非参数检验是利用两个配对样本对样本来自的两个总体的分布是否存在显著差异进行检验应用最广的方法是Wilcoxon符号秩检验 Wilcoxon符号秩检验 Wilcoxon符号秩检验的原假设是两配对样本来自的两总体的分布无显著差异两配对样本Wilcoxon符号秩检验的R函数为wilcox test 基本书写格式为 wilcox test 数值型向量1 数值型向量2 paired TRUE Wilcoxon符号秩检验示例两样本均值差的置换检验置换检验 PermutaionTest 是基于Fisher的随机化原则的一种统计检验方法相对于传统的统计检验方法有明显的优点它无需分布的前提假设完全基于观测样本所包含的信息进行检验两样本均值差的置换检验需要解决的核心问题是如何得到检验统计量在原假设成立条件下的概率分布的估计两样本均值差的置换检验两样本均值差的置换检验R函数是coin包中的oneway test函数基本书写格式为 oneway test 数值型域名因子 data 数据框名 distribution 分布形式示例两样本均值差的自举法检验自举检验是基于自举样本的首先在两个总体中分别进行有放回的随机抽样得到样本量分别为n1和n2的两个独立的自举样本X1和X2然后计算两自举样本的均值差上述过程重复M次可得到M个样本均值差记为Di 两样本均值差的自举法检验自举检验是基于自举样本的最后将M个Di按升序排序找到位于2 5 和97 5 处的次序统计量取值分位值组成的区间即为置信度为95 的样本均值差的置信区间如果零未落入该区间内则应以5 的显著性水平拒绝原假设认为两总体的均值存在显著差异否则不能拒绝原假设两样本均值差的自举法检验利用用户自定义函数实现示例两样本均值差的自举法检验调用boot函数实现自举法R函数是boot 基本书写格式为 boot data 数据集 statistics 用户自定义函数名 R 自举重复次数M 示例两样本均值差的自举法检验自举法的计算结果存放在一个指定的自举对象中自举对象为列表其中较为重要的两个成分名为t0和t还需调用boot ci函数获得指定置信度的置信区间基本书写格式 boot ci 自举对象名 conf 置信度 type 置信区间类型第7章R的方差分析基于R的统计分析与数据挖掘方差分析方差分析用于分析一个数值型变量和一个或多个分类型变量是否相关数值型变量称为观测变量分类型变量称为控制变量或因素分类型变量的类别值称为控制变量的水平方差分析的研究对象是来自控制变量不同水平下各观测变量总体的两组或多组独立的随机样本方差分析方差分析有两个重要的前提假设第一控制变量不同水平下观测变量的总体分布为正态分布第二控制变量不同水平下观测变量的总体具有相同的方差基于这个假设方差分析最终的研究即为分析控制变量不同水平下观测变量的总体均值是否存在显著差异可用于多个独立样本的均值检验方差分析只有一个控制变量时的方差分析称为单因素方差分析有多个控制变量时的方差分析称为多因素方差分析单因素方差分析单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响这里由于仅研究单个因素对观测变量的影响因此称为单因素方差分析单因素方差分析的原假设为单因素方差分析单因素方差分析认为观测变量值的变动受到控制变量和随机变量两方面的影响可将观测变量总的离差平方和分解为组间离差平方和 BetweenGroups 与组内离差平方和两部分 SST SSA SSESST SumSquareofTotal 为观测变量的离差平方和 SSA SumSquareoffactorA 为组间差离差平方和是控制变量的不同水平造成的变差 SSE SumSquareofError 为组内离差平方和是抽样误差引起的变差单因素方差分析单因素方差的检验统计量是F统计量R函数的基本书写格式为 aov 观测变量域名控制变量域名 data 数据框名 anova 方差分析结果对象名示例各总体均值的可视化直观展示控制变量不同水平下观测变量总体均值的取值状况可绘制各总体均值变化的折线图以及各总体均值的置信区间图gplots包中plotmeans函数的基本书写形式为 plotmeans 观测变量域名控制变量域名 data 数据框名 p 置信水平 use t TRUE maxbar 上限最大值 minbar 下限最小值各总体均值的可视化示例检验单因素方差分析的前提假设单因素方差分析有两个前提假设第一控制变量不同水平下观测变量总体服从正态分布第二控制变量不同水平下观测变量总体方差齐性需对是否满足前提假设进行检验总体正态性检验可通过以下两种方式判断控制变量不同水平下观测变量总体是否服从正态分布第一绘制Q Q图R绘制关于正态分布的Q Q图的函数为qqnorm 基本书写格式为 qqnorm 数值型向量名进一步若希望在Q Q图上添加基准线需调用qqline函数基本书写格式为 qqline 数值型向量名 distribution qnorm 总体正态性检验绘制Q Q图示例总体正态性检验可通过以下两种方式判断控制变量不同水平下观测变量总体是否服从正态分布第二柯尔莫哥和斯米诺夫 Kolmogorov Smirnov 检验简称K S检验可通过样本数据推断样本来自的总体是否服从某一理论分布K S检验是一种拟合优度的检验方法也适用于探索单个连续型随机变量的分布单样本K S检验属于非参数统计的范畴总体正态性检验单个样本来自的总体是否服从正态分布的K S检验的R函数是ks test 基本书写格式为 ks test 数值型向量名 pnorm 示例各总体方差齐性检验各总体方差齐性检验仍采用两独立样本t检验中的levene s方差同质性检验方法对各总体方差是否齐性进行检验示例多重比较检验单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响如果控制变量确实对观测变量产生了显著影响进一步还应确定控制变量的不同水平对观测变量的影响程度如何其中哪个水平的作用明显区别于其他水平哪个水平的作用不显著等等对此可通过多重比较检验多重比较检验的LSD检验 LSD LeastSignificantDifference 检验称为最小显著性差异法检验特点水平间观测变量的均值存在较小程度的差异就可能被检验出来原假设为第i个总体和第j个总体的均值无显著差异检验统计量为t统计量第i个总体和第j个总体均值对比检验的t统计量定义为 LSD LeastSignificantDifference 检验的R函数 aovaov函数仅给出了控制变量第二个水平及后续水平下的观测变量均值与控制变量第一个水平下的观测变量均值的差即t统计量的分子部分结果组织在名为coefficients的成分中示例单因素协方差分析协方差分析将那些数值型影响因素作为协变量并在排除协变量对观测变量影响的条件下分析可控的分类型控制变量对观测变量的作用协方差认为观测变量的变动既受到控制变量的作用也受到协变量以及其他随机因素的影响同时除需满足方差分析的两个前提假设正态性和等方差外还要求控制变量各水平下协变量与观测变量的线性关系一致且无明显差异单因素协方差分析单因素协方差分析的R函数基本书写格式为 aov 观测变量域名协变量域名控制变量域名 data 数据框名示例多因素方差分析多因素方差分析用于研究多个控制变量的不同水平是否对观测变量产生了显著影响在多因素方差分析中观测变量的取值变动受到三个方面的影响第一控制变量独立作用的影响第二控制变量交互效应的影响第三随机因素的影响基于这个原则两因素方差分析将观测变量的总变差分解为以两因素为例 SST SSA SSB SSAB SSE 多因素方差分析两因素方差分析的三个检验统计量多因素方差分析多因素方差分析的R函数为aov 基本书写格式为 aov R公式 data 数据框名常见的R公式有如下示例 y A By A B A By A B Cy A B C 2y 多因素方差分析示例交互效应的可视化交互效应的可视化可通过interaction plot函数实现基本书写格式为 interaction plot 因子1 因子2 数值型向量 type 线型示例第8章R的回归分析一般线性模型基于R的统计分析与数据挖掘回归分析概述回归分析是一种应用极为广泛的数量分析方法用于分析事物之间的相关性侧重考察变量之间的数量变化规律并通过回归方程的形式描述和反映这种关系帮助人们准确把握变量受其他一个或多个变量影响的程度回归分析的一般步骤第一步确定解释变量和被解释变量第二步确定回归模型第三步建立回归方程第四步对回归方程进行各种检验第五步利用回归方程进行预测回归分析涉及的主要内容第一选择回归模型和回归方程一般线性模型 GeneralLinearModel 广义线性模型 GeneralizedLinearModel 第二回归方程的参数估计和检验普通最小二乘法和极大似然估计法等进行诸如回归方程的显著性回归系数的显著性等检验回归分析涉及的主要内容第三回归诊断对数据是否满足前提假设进行验证异常点诊断多重共线性的诊断第四模型验证建立回归方程的主要目的之一是预测如何准确测度方程的预测精度或误差是模型验证的重要目的建立线性回归模型线性回归分析中的线性回归模型为当p为1时该模型为一元线性回归模型否则为多元线性回归模型线性回归模型表明被解释变量的变化可由两个部分解释由p个解释变量变化引起的的线性变化部分即由其他随机因素引起的的变化部分即建立线性回归模型建立线性回归模型的重要目的是研究给定x x1 x2 xp 条件下 y有怎样的平均取值水平线性回归方程线性回归经验方程线性回归方程的参数估计依据样本数据估计方程中的未知参数在线性回归分析中最常用的统计准则是普通最小二乘法 R函数基本书写格式为 lm R公式 data 数据框名 coefficients 回归分析结果对象名线性回归方程的参数估计示例线性回归方程的检验回归方程的显著性检验是要检验被解释变量与解释变量全体之间的线性关系是否显著用线性模型来描述它们之间的关系是否恰当原假设各回归系数同时与零无显著差异回归系数的显著性检验逐个判断解释变量是否与被解释变量间存在显著的线性关系它们是否应保留在回归方程中原假设线性回归方程的检验回归方程参数检验的结果均保存在回归分析的结果对象中可通过以下函数访问summary 回归分析结果对象名显示线性回归分析结果的摘要confint 回归分析结果对象名显示回归系数默认95 的置信区间示例利用线性回归方程做预测预测R函数是predict 基本书写格式为 predict 回归分析结果对象名新数据框名 type response 示例回归诊断误差项是否满足高斯马尔科夫假定第一建模是否在默认满足高斯马尔科夫假定下进行第二从普通最小二乘估计的出发点来看线性回归经验方程会受到数据中可能存在的异常观测点的影响利用各种方法诊断出具有不同特点的异常观测点是非常必要的第三多重共线性问题误差项和残差项线性回归模型中的误差项是那些与被解释线性相关但又尚未观测到的方面理论上它们应与线性回归模型中的解释变量无关由于误差项无法观测往往借助残差项进行研究残差定义为实际值减去拟合值误差项和残差项在R中回归分析的拟合值存储在线性回归分析结果对象列表的名为fitted的成分中通过结果对象名 fitted的方式可直接访问到拟合值也可调用函数 fitted 回归分析结果对象名访问拟合值残差项存储名为residuals的成分中通过结果对象名 residuals的方式可直接访问到残差项也可调用函数 residuals 回归分析结果对象名访问残差项误差项满足高斯马尔科夫假定利用残差图判断示例误差项满足高斯马尔科夫假定利用残差图判断考察残差项的正态性假定考察残差项的等方差性假定对示例的改进建立对数水平模型探测高杠杆值点高杠杆 Leverage 值点指那些在解释变量方向上取值异常在被解释变量方向上取值正常的观测点所谓在解释变量方向上取值异常是指该观测点在x上的取值远远偏离绝大部分观测的平均水平杠杆值就是这个远离程度的测度量以仅包含一个解释变量x的一元线性回归方程为例第i个观测的杠杆值hi定义探测高杠杆值点 R中计算杠杆值的函数是hatvalues 基本书写格式为 hatvalues 回归分析结果对象名示例探测离群点离群点指那些在被解释变量方向上取值异常的观测点离群点在y上的取值远远偏离绝大部分观测的取值范围通常表现为第一离群点的被解释变量取值非常大或非常小第二离群点的残差的绝对值非常大探测离群点探测离群点的图形方法绘制被解释变量或残差的Q Q图探测离群点的统计检验方法以学生化残差为检验统计量进行检验R中访问学生化残差的函数是rstudent 基本书写格式为 rstudent 回归分析结果对象名从统计角度探测离群点的R函数是car包中的outlierTest 基本书写格式为 outlierTest 回归分析结果对象名探测离群点示例探测强影响点强影响点是这样的观测点包含或剔除该观测点会导致回归经验方程的截距或斜率发生较大变化强影响点不一定在被解释变量方向上取值异常也不一定在解释变量方向上取值异常而是在两者的比值上出现异常库克距离是一种探测强影响点的度量方法探测强影

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于R的统计分析与数据挖掘ppt课件.ppt

文档简介

温馨提示

最新文档

评论

基于R的统计分析与数据挖掘ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档