




已阅读5页,还剩325页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1R 基于R的统计分析与数据挖掘 为什么选择R和如何学习R R语言是一种面向统计分析的计算机高级语言 属于数据分析软件范畴根据由浅入深的数据分析需求 依据数据分析过程分阶段 分步骤地学习R 是一种快速有效掌握R的基本方法 R入门必备 R是一个关于包的集合包是关于函数 数据集 编译器等的集合编写R程序的过程就是通过创建R对象组织数据 通过调用系统函数 或者创建并调用自定义函数 以逐步完成数据分析任务的过程包是R的核心 可划分为基础包 Base 和共享包 Contrib 两大类 R的下载 可从R的网站上免费下载并安装R软件 启动R 成功启动R之后显示的窗口 R的书写是严格区分英文大小写的 利用键盘上的上下箭头键 可重复显示以往或后续的书写内容 当前已经加载了哪些包 成功启动R意味着基础base包中的默认加载包已成功加载到R的工作空间 用户可以直接调用其中的函数窗口菜单 Mics Listsearchpath 当前可以做的事情 成功启动R意味着用户可在R工作空间中创建和管理R对象 调用已被加载包中的函数 实现对对象的管理和相关的数据分析等R对象是R程序处理的基本单元 用于待分析数据的组织 以及分析结果的组织等 每个R对象均有一个对象名作为唯一的标识 一般可直接通过对象名访问对象中的数据或其他内容 当前可以做的事情 函数是实现某计算或分析的程序段 可视为一种特殊的对象 每个函数均有一个函数名 用户可通过两种形式调用函数 函数名 函数名 形式参数列表 如何获得的R帮助文档 help start 函数和包的拓展使用 若要调用尚未加载的包中的函数 需按照 先加载 后浏览 再调用 的步骤实现先加载 首先 将未加载的包加载到R的工作空间 调用的函数为 library 包名称 后浏览 然后 浏览包中提供的函数 调用的函数为 library help 包名称 再调用 最后 以无形式参数或带形式参数的方式调用相应函数 R的运行方式 命令行方式是指在R控制台的提示符 后 输入一条命令并回车即可立即得到运行结果 适合于较为简单步骤较少的数据处理和分析 R的运行方式 程序运行方式也称脚本运行方式 是指首先编写R程序 然后一次性提交运行该程序 适合于较为复杂步骤较多的数据处理和分析 退出R 当结束R工作退出R的时候 可调用函数 q 或鼠标单击R主窗口右上角的窗口关闭按钮工作空间 workspace 是R的工作环境 或工作内存 其中临时保存了本次运行中生成的R对象和已输入的命令清单等退出R时 用户可指定将工作空间中的内容保存到当前工作目录下的环境文件中 环境文件名为 Rdata和 Rhistory 第2章R的数据组织 基于R的统计分析与数据挖掘 从存储角度划分R对象 数据对象是R组织数据的基本方式 由于不同类型的数据在计算机中所需的存储字节不同 所以可将R数据对象划分为数值型 123 5 1 235E2字符型 ZhangSan BeiJing 逻辑型 只有真 是 假 否 两个取值 从结构角度划分R对象 数据对象是R组织数据的基本方式 由于数据分析实践中有不同的数据组织结构 所以R数据对象可划分为向量 矩阵 数组 数据框 列表等多种结构类型 创建和访问R的数据对象 创建对象是通过赋值语句实现的 基本书写格式为 对象名 R常量或R函数访问对象 即浏览对象的具体取值 也称对象值 基本书写格式为 对象名 或 print 对象名 查看对象的结构 即对象的存储类型以及与结构相关的信息 基本书写格式为 str 对象名 创建和访问R的数据对象 管理对象 即浏览当前工作空间中包含哪些对象 删除不再有用的对象等 基本书写格式为 ls rm 对象名或对象名列表 或 remove 对象名 向量的创建和访问 示例 访问向量中的元素 示例 矩阵的创建和访问 示例 矩阵的创建和访问 示例 访问矩阵中的元素 示例 访问矩阵中的元素 示例 访问矩阵中的元素 以编辑窗口形式访问 数据框的创建和访问 示例 访问数据框 示例 数据对象的相互转换 可利用as函数将数据对象的存储类型转换为指定的类型 基本书写格式为 as 存储类型名 数据对象名 向量转换为因子 因子是一种特殊形式的向量 由于一个向量可视为一个变量 如果该变量的计量类型为分类型 则将对应的向量转换为因子 这样更利于后续的数据分析 基本书写格式为 as factor 向量名 从文本文件读数据 可利用scan函数将文本数据读入到向量中 基本书写格式为 scan file 文件名 skip 行数 what 存储类型转换函数 可利用read table函数将文本数据读入到数据框中 基本书写格式为 read table file 文件名 header TRUE FALSE sep 数据分隔符 第3章R的数据管理 基于R的统计分析与数据挖掘 数据合并 数据合并是指将存储在两个R数据框中的两份数据 以关键字为依据 以行为单位做列向合并 通常 这些数据是关于观测对象不同侧面的描述信息 合并后将利用数据多角度的综合分析和研究实现数据合并的函数是merge函数 基本书写格式为 merge 数据框名1 数据框名2 by 关键字 数据合并 示例 数据排序 数据排序不仅便于数据浏览 更有助于快速找到数据中可能存在的错误数据 异常数据等 可按单个变量取值的升序或降序排序数据 称为单变量排序 也可依据多个变量进行多重排序 实现数据排序的函数是order函数 基本书写格式为 order 向量名列表 na last TRUE FALSE NA decreasing TRUE FALSE 数据排序 示例 缺失数据报告 导致缺失数据的主要原因有两类 第一 数据无法或很难获得 如家庭储蓄总额等 对此 R用符号NA NotAvailable 表示 NA即为缺失值第二 由于各种原因数据取了明显不合理的值 如年龄是230岁等 对此 R用符合NaN NotaNumber 表示 NaN也是一种缺失值 判断缺失值和完整观测 判断变量是否取缺失值的函数是is函数 基本书写格式为 is na 向量名 is nan 向量名 为逐个判断每个观测样本是否有取缺失值的变量 域 则需利用complete cases函数 基本书写格式为 complete cases 矩阵名或数据框名 判断缺失值和完整观测 示例 生成缺失数据报告 为进一步得到关于数据缺失状况的全面报告 可利用mice包提供的相关函数生成缺失数据报告的函数是md pattern 基本书写格式为 md pattern 矩阵名或数据框名 示例 变量计算 变量计算是在原有数据基础上派生出信息更加丰富的新变量 或者对原有变量进行变换处理以满足后续建模的需要变量计算可借助赋值语句 通过恰当的表达式实现 对象名 R的算术表达式或关系表达式 变量计算函数 R表达式中的函数种类很多 从计算目的上大致分为数学函数 统计函数 概率函数 字符串函数等示例 用户自定义函数 尽管系统函数能够满足绝大部分的变量计算需求 但有时也可能无法完成较为繁琐的 需经多个步骤才能完成的 具有用户个性需求的计算任务 如果这个计算具有一定的功能完整性且应用场合较多 就有必要将其编写成 或称定义成一个独立程序段 即函数 与系统函数不同的是 这些函数是用户自行编写的 因而称为用户自定义函数 用户自定义函数的定义 定义函数 即明确给出函数说明和函数体 定义的基本书写格式为 用户自定义函数名 function 参数列表 计算步骤1计算步骤2 return 函数值 用户自定义函数的定义 示例 变量值的重编码 分组 分组是按一定方式将数值型变量的变量值分成若干个区间 每个区间即是一个分组 例如 可将学生各科成绩的平均分为A B C D E5个组 分别对应优 良 中 及格 不及格成绩 分组后的变量为分类型变量 一般在R中以因子方式组织 变量值的重编码 分组 示例 变量值的重编码 重定义类别值 重定义类别值是对分类型变量的类别值重新进行编码 例如 学生成绩数据中的性别 原本用1和2依次指代男女 若希望修改为M和F 即为重新定义性别的类别值示例 数据筛选 数据筛选 顾名思义是将现有数据 按照某种方式筛选出部分观测样本 以服务于后续的数据建模 数据筛选方式包括按条件筛选随机筛选 数据筛选 按条件筛选 实现条件筛选的函数为subset函数 基本书写格式为 subset 数据框名 关系表达式 示例 数据筛选 随机筛选 随机筛选是对现有数据按照指定的随机方式筛选观测样本 可利用sample函数实现 基本书写格式为 sample 向量名 size 样本量 prob c 各元素抽取概率表 replace TRUE FALSE 示例 数据保存 保持数据到文本文件的函数是write table函数 基本书写格式为 write table 数据对象名 file 文本文件名 sep 分隔符 quote TRUE FALSE append TRUE FALSE na NA row names TRUE FALSE col names TRUE FALSE 数据管理中控制流程 简单的数据管理任务均可通过顺序调用函数来实现 但较为复杂的数据管理还需更为灵活的流程控制手段 如果将顺序调用函数视为以一种顺序结构的流程控制 即R程序的执行过程完全取决于程序语句的先后顺序 那么 更为灵活的流程控制则包括 分支结构的流程控制循环结构的流程控制 分支结构的流程控制 分支结构的流程控制是指R程序在某处的执行取决于某个条件 当条件满足时执行一段程序 当条件不满足时执行另外一段程序 因程序的执行在该点出现了 分支 因而得名分支结构的流程控制 分支结构的流程控制 if结构 if else结构 循环结构的流程控制 循环结构的流程控制是指R程序在某处开始 根据条件判断结果决定是否反复执行某个程序段 循环结构的流程控制 for结构 示例 循环结构的流程控制 while结构示例 循环结构的流程控制 repeat结构 示例 利用流程控制还原汇总数据 示例 第4章R的基本数据分析 描述和相关 基于R的统计分析与数据挖掘 数值型单变量的描述 数值型单变量描述的目标是选用恰当的描述统计量 测度和刻画变量分布的集中水平 离中趋势 分布形态的对称性及陡峭程度 常用的描述统计量包括 反映集中水平特征的均值 众位数等 反映离中趋势特征的四分位差 方差 标准差等 反映分布形态对称性的偏态系数 反映分布形态陡峭程度的峰度系数 计算基本描述统计量 可利用summary函数 基本书写格式为 summary 数据对象名 示例 计算多个变量的某个描述统计量 可利用sapply函数实现简化 基本书写格式为 sapply 数据框列号范围 FUN 函数名 na rm TRUE FALSE 示例 分类型单变量的描述 分类型单变量描述的目标是编制频数分布表 频数分布表一般包括频数和百分比 用于展示单个分类型变量的分布特征编制频数分布表的函数是table函数 基本书写格式为 table 向量名 分类型单变量的描述 示例 两数值型变量相关性的分析 两个数值型变量的相关性 这里主要指线性相关性 一方面 可通过简单相关系数刻画样本所体现的相关性 相关系数大于零表示有正的线性相关性 小于零表示有负的线性相关性 等于零表示没有线性相关性 相关系数的绝对值越大 线性相关性越强 另一方面 可通过相关系数检验对样本来自总体的相关性进行检验 计算简单相关系数 简单相关系数 计算两数值型变量相关系数的R函数是cov 基本书写格式为 cor 矩阵或数据框列号 use 缺失值处理方式 method pearson 计算简单相关系数 示例 简单相关系数的检验 由于抽样的随机性以及样本量的影响 简单相关系数仅能体现样本所表现的相关性 样本来自的总体是否相关或无关 还需要进行相关系数检验简单相关系数检验的检验统计量 简单相关系数的检验 相关系数检验的R函数是cor test 基本书写格式为 cor test 数值型向量1 数值型向量2 alternative 检验方向 method pearson 示例 计算偏相关系数 偏相关系数是在控制了其他数值型变量 这些变量称为控制变量 的条件下 计算两数值型变量间的相关系数 从而消除其他变量对相关系数值的影响偏相关系数计算的函数在corpcor包中基本书写格式为 cor2pcor 相关系数矩阵名 计算偏相关系数 示例 两分类型变量相关性的分析 两分类型变量相关性的分析主要包括两个方面 第一 相关性的描述第二 相关性的检验 两分类型变量相关性的描述 两分类型变量相关性描述的工具是编制列联表 列联表中一般包括两分类型变量类别值交叉分组下的观测频数 表各行列的频数合计 边际频数 各频数占所在行列合计的百分比 边际百分比 以及占总合计的百分比 总百分比 等编制列联表的函数基本书写格式为 table 矩阵或数据框的列号 xtabs R公式 data 数据框名 两分类型变量相关性的描述 示例 两分类型变量相关性的描述 进一步计算 两分类型变量相关性的检验 两分类型变量相关性的检验是在列联表的基础上 利用列联表数据 分析表中两分类型变量的总体相关性 采用的方法是卡方检验卡方检验的原假设是 列联表中两分类型变量独立 常用的检验统计量为pearson卡方统计量 定义为 卡方检验的R函数和示例 卡方检验的R函数是chisq test 基本书写形式为 chisq test 列联表对象 correct TRUE FALSE 示例 第5章R的基本数据分析 可视化 基于R的统计分析与数据挖掘 R的基本数据分析 可视化 数据特征可视化的基本工具是统计图形 一方面 图形是直观展示变量分布特征以及变量在不同样本组分布特征差异性的重要工具 另一方面 R的图形绘制功能强大 图形种类丰富 在数据可视化方面优势突出R的绘图函数分布在基础base包和共享contrib包中 其中基础base包中的绘图函数一般用于绘制基本统计图形 而大量绘制各类复杂图形的函数 多包含在共享contrib包中 绘图基础 图形设备和图形文件 R的图形并不显示在R的控制台中 而是默认输出到一个专用的图形窗口中 这个图形窗口被称为R的图形设备 R允许多个图形窗口同时被打开 图形可分别显示在不同的图形窗口中 也即允许同时打开多个图形设备用以显示多组图形 绘图基础 图形组成和图形参数 R的图形是由多个部分组合的 主要包括 主体 坐标轴 坐标标题 图标题四个必备部分绘制图形时 一方面应提供用于绘图的数据 另一方面还需对图形各部分的特征加以说明 绘图基础 图形布局 图形布局是指 对于多张有内在联系的图形 若希望将它们共同放置在一张图上时 应按怎样的布局组织它们具体讲 就是将整个图形设备划分成几行几列 按怎样的顺序摆放各个图形 各个图形上下左右的边界是多少等 设置图形布局的函数为par 基本书写形式为 par mfrow c 行数 列数 mar c n1 n2 n3 n4 par nfcol c 行数 列数 mar c n1 n2 n3 n4 数值型单变量分布的可视化 为直观展示数值型单变量的分布特征以及在不同样本组上的分布差异性 常用的统计图形有 茎叶图箱线图直方图核密度图小提琴图克利夫兰点图时序折线图 等 茎叶图 绘制茎叶图的函数是stem 基本书写格式为 stem 数值型向量名或域名 示例 箱线图 绘制单个变量箱线图的函数是boxplot 基本书写格式为 boxplot 数值型向量名或域名 horizontal TRUE FALSE axes TRUE FALSE ylim 纵坐标范围 绘制变量在不同样本组的箱线图的函数仍为boxplot 基本书写格式为 boxplot R公式 data 数据框名 horizontal TRUE FALSE axes TRUE FALSE ylim 纵坐标范围 names 分组标题 箱线图 示例 直方图与核密度图 直方图的函数为hist 基本书写格式为 hist 数值型向量名或域名 freq TRUE FALSE 核密度估计函数为density 基本书写格式为 density 数值型向量名或域名 直方图与核密度图 示例 小提琴图 小提琴图是箱线图和核密度图的结合 因形状酷似小提琴而得名 绘制小提琴图的函数vioplot在violpot包中 首次应用时需要下载安装 并加装到R的工作空间中 vioplot函数的基本书写格式为 vioplot 数值型向量名或域名 或vioplot 数值型向量名或域名列表 names 横坐标轴标题向量 小提琴图 示例 克利夫兰点图 克利夫兰点图可用于直观展示数据中可能的异常点 克利夫兰点图的横坐标为变量值 纵坐标为各观测编号 观测编号越小纵坐标值越大 绘制克利夫兰点图的函数是dotchart 基本书写格式为 dotchar 数值型向量名或域名 克利夫兰点图 示例 时序折线图 如果数值型变量是一个时间序列数据 那么关于它的图形展示目的是刻画时间序列如何随时间的推移而变化 理想的图形工具是时序折线图 图中的横坐标为时间 纵坐标为变量值 plot函数可用于绘制折线图 基本书写格式为 plot 数值型向量或域名 type 线的类型名 时序折线图 示例 分类型变量分布和相关性的可视化 为直观展示分类型单变量的分布特征 变量在不同样本组上的分布差异 也即两分类型变量的相关性 常用的统计图形有柱形图或条形图饼图马赛克图 等 简单柱形图 简单柱形图是展示分类型变量分布特征的最常见图形 其横坐标为类别值 纵坐标默认频数或频率简单绘制柱形图的函数是barplot 基本书写格式为 barplot 数值型向量名 horiz TRUE FALSE names arg 条形标签向量 简单柱形图 示例 簇式柱形图 为对比分类型变量的分布在不同样本组上的差异 需绘制簇式柱形图 仍利用barplot函数 基本书写格式为 barplot 数值型矩阵名 col 颜色向量 beside TRUE FALSE horiz TRUE FALSE legend 图例标签向量 簇式柱形图 示例 饼图和扇形图 饼图用于展示分类型变量各类别的分布比例状况 扇形图更利于比较绘制饼图的函数是pie 基本书写格式为 pie 数值型向量名 labels 切片标签向量 clockwise TRUT FALSE 绘制扇形图的函数是fan plot 包含在plotrix包中 基本书写格式为 fan plot 数值型向量名 labels 切片标签向量 饼图和扇形图 示例 马赛克图 马赛克图用于展示两或三个分类型变量相关性 因图中格子的排列形似马赛克而得名绘制马赛克图的R函数是vcd包中的mosaic函数 基本书写格式为 mosaic 分类型域名1 分类型域名2 data 数据框名 shade TRUE FALSE legend TRUE FALSE 马赛克图 示例 两数值型变量相关性的可视化 散点图是展示两个或多个数值型变量相关性特征的最常用工具 包括 简单散点图三维散点图汽包图矩阵散点图 等进一步 由于散点图对变量间相关性大小的展示略显粗略 所以还可以绘制以相关系数矩阵为绘图对象的相关系数图 以更精准展示数值型变量间线性相关性的强弱 简单散点图 简单散点图将观测数据点绘制在一个二维平面中 通过数据点分布的形状可粗略展示两数值型变量间的相关性特点利用plot绘制散点图时 函数的基本书写格式为 plot x 数值型向量名1 y 数值型向量名2 或plot 域名2 域名1 data 数据框名 在简单散点图上添加回归线 第一步 求解回归线 有两种求解方法 一元线性回归法 函数基本书写格式为 lm 被解释变量名 解释变量名 data 数据框名 局部加权散点平滑法 函数基本书写格式为 loess 被解释变量名 解释变量名 data 数据框名 在简单散点图上添加回归线 第二步 将回归线添加到已有的散点图上 可采用abline函数 基本书写格式是 abline 数值型向量 或 abline h 纵坐标值 或 abline v 横坐标值 在简单散点图上添加回归线 示例 高密度散点图的处理 当观测样本量较大时 所绘制的散点图可能会出现数据点非常集中 有很多数据点重叠在一起的现象 这样的散点图称为高密度散点图 由于高密度散点图中的点大量重合叠加 不利于直观展示变量间的相关性特征 需对其做进一步的处理 高密度散点图的处理 主要有以下两种方式 第一 增加数据 噪声 减少数据点的重叠增加噪声的函数是jitter 基本书写格式为 jitter 数值型向量 factor n 第二 利用色差突出散点图中的数据密集区域可使用smoothScatter函数绘制散点图 基本书写格式为 smoothScatter x 横坐标向量 y 纵坐标向量 高密度散点图的处理 示例 三维散点图和气泡图 三维散点图在展示两数值型变量相关性的同时 还希望体现第三个变量的取值状况绘制三维散点图的函数是scatterplot3d包中的scatterplot3d函数 基本书写格式为 scatterplot3d 向量名1 向量名2 向量名3 三维散点图和气泡图 汽包图即在绘制两个变量的散点图时 各个数据点的大小取决于第三个变量的取值 第三个变量取值不同 数据点的大小也就不同 形如大小不一的一组气泡绘制汽包图的函数是symbols 基本书写格式为 symbols 向量名1 向量名2circle 向量名3 inches 计量单位 fg 绘图颜色 bg 填充色 三维散点图和气泡图 示例 矩阵散点图 矩阵散点图用于在一副图上同时展示多对数值型变量的相关性绘制矩阵散点图的函数是pairs 基本书写格式为 pairs 域名1 域名2 域名n data 数据框名 若希望在散点图上添加回归曲线 应采用car包中的scatterplotMatrix函数 函数的基本书写格式为 scatterplotMatrix 域名1 域名2 域名n data 数据框名 lty smooth 2 spread FALSE 矩阵散点图 示例 相关系数图 相关系数矩阵虽然可以准确反映两两变量的线性相关性的强弱 但当这个矩阵较大时 分析起来就不很直观 为此 可基于相关系数矩阵绘制相关系数图相关系数图由下三角区域 上三角区域 对角区域三个部分组成 区域在这里称为面板 三个区域也分别称为下面板 上面板和对角面板 除对角面板外 上下面板以不同形式直观展示相应变量对的相关性强弱 相关系数图 绘制相关系数图的函数是corrgram包中的corrgram函数 基本书写格式为 corrgram 矩阵或数据框列 lower panel 面板样式 upper panel 面板样式 text panel 面板样式 diag panel 面板样式 相关系数图 示例 分组散点图 若要展示两个数值型变量之间的相关性在不同样本组上的差异 需要绘制分组散点图 也称协同图 可采用coplot函数绘图 基本书写格式为 coplot 域名1 域名2 分组域名 number 分组数 data 数据框名 分组散点图 示例 第6章R的两均值比较检验 基于R的统计分析与数据挖掘 R的两均值比较检验 统计学有一系列方法检验两个样本上的均值差是否在统计上显著 主要包括 两独立样本的均值检验两配对样本的均值检验 等参数检验方法此外 还可以利用非参数检验方法解决类似问题 R的两均值比较检验 假设检验的基本步骤是 提出原假设和备则假设构造检验统计量 在原假设成立条件下 服从某个已知的理论分布 抽样分布 依据样本数据计算在原假设成立条件下 检验统计量的观测值和概率 P值 检验统计量的观测值反映了样本数据与原假设之间的差距 概率 P值反映了在原假设成立条件下 检验统计量取当前观测值或更极端值的可能性 R的两均值比较检验 假设检验的基本步骤是 指定显著性水平 通常为0 05 显著性水平是原假设为真但却被拒绝的概率 也即弃真概率 以抽样分布为基础判断能否推翻原假设 两独立样本的均值检验 适用的数据 观测样本是来自两个总体的两个独立样本 即在两个总体中分别独立抽样 所得的两个样本在抽样过程中互不影响检验目标是 检验两独立样本的样本均值差是否具有统计显著性不具统计显著性表明 两样本均值差是抽样误差所致 两独立样本来自的两个总体均值没有显著差异 也即两总体的均值差与零无显著差异 具有统计显著性表明 两样本均值差并非抽样误差所致 两总体的均值存在显著差异 也即两总体的均值差与零有显著差异 两独立样本的均值检验 检验的理论依据 两样本均值差的抽样分布模拟 两独立样本的均值检验 原假设为 两总体均值之差为零 即两总体均值无显著差异依据样本均值差的抽样分布 检验统计量为 R函数为t test 基本书写格式为 t test 数值域名 因子 data 数据框名 paired FALSE var equal TRUE FALSE mu 检验值 alternative 检验方向 示例 两独立样本均值检验的进一步研究 两总体方差是否相等 齐性 可采用通常的F检验 也可采用更为稳健且不依赖总体分布具体形式的levene s方差同质性检验levene s方差同质性检验的原假设是 两总体方差无显著差异 两独立样本均值检验的进一步研究 levene s方差同质性检验的主要思路是 对来自两个不同总体的两个样本分别计算样本均值计算各观测与本组样本均值差的绝对值 得到两个绝对离差样本利用单因素方差分析方法 依据F统计量的观测值和概率 P值判断两组绝对离差的均值是否存在显著差异 即 判断两组的平均绝对离差是否存在显著差异 若无显著差异表明两总体方差齐性 反之 两独立样本均值检验的进一步研究 R实现levene s方差同质性检验的函数是car包中的leveneTest函数 基本书写格式为 leveneTest 数值型向量 因子 center mean 两独立样本均值检验的进一步研究 示例 两配对样本的均值检验 适用的数据 观测样本是来自两个总体的两个配对样本 表现为两个样本的样本量相等 且两样本的观测具有一一对应关系 可视为观测样本 前后 或多 侧面 的数据检验目标 检验两配对样本的样本均值差是否具有统计显著性 不具统计显著性表明 样本均值差是抽样误差所致 两配对样本来自的两个总体均值没有显著差异 也即两总体的均值差与零无显著差异 具有统计显著性表明 样本均值差并非抽样误差所致 两总体的分布参数 均值 存在显著差异 也即两总体的均值差与零有显著差异 两配对样本的均值检验 检验的理论依据 样本均值的抽样分布模拟 两配对样本的均值检验 原假设为 两总体均值之差为零 差值样本来自的差值总体均值为零 也即两总体均值无显著差异依据样本均值的抽样分布 检验统计量为 R函数为t test 基本书写格式为 t test 数值型向量名1 数值向量名2 paired TRUE alternative 检验方向 两配对样本的均值检验 示例 样本均值检验的功效分析 在假设检验中 可能犯两种类型的错误 一类为原假设为真但却错误地拒绝了 这类错称为弃真错 犯错的概率定义为显著性水平 由此可知 若原假设为真并且接受了 做出这一正确决策的概率为1 另一类为原假设为假但却错误地接受了 这类错称为取伪错 犯类错的概率定义为 由此可知 若原假设为假并且拒绝了 做出这一正确决策的概率为1 且称1 为统计功效 样本均值检验的功效分析 显著性水平 样本量 效应量 统计功效这四者之间存在必然联系 给其中的三个项值 一定可计算出剩余的一项值R采用Cohen提出的效应量定义两独立样本均值检验的效应量定义为 配对样本均值检验中的效应量定义为 样本均值检验的功效分析 R实现功效分析的函数在pwr包中当两样本有相同的样本量时 功效分析的R函数为pwr t test 基本书写格式为 pwr t test d 效应量 n 样本量 sig level 显著性水平 power 统计功效 type 检验类型 alternative 检验方向 当两样本的样本量不同时 功效分析的R函数为pwr t2n test 基本书写格式为 pwr t2n test d 效应量 n1 样本量1 n2 样本量2 sig level 显著性水平 power 统计功效 type two sample alternative 检验类型 样本均值检验的功效分析 示例 两总体分布差异的非参数检验 两独立样本分布差异的非参数检验是利用两个独立样本 对样本来自的两个总体的分布是否存在显著差异进行检验 应用最广的方法是 Wilcoxon秩和检验柯尔莫哥和斯米诺夫 Kolmogorov Smirnov 检验 Wilcoxon秩和检验 Wilcoxon秩和检验 也称曼 惠特尼U Mann WhitneyU 检验 用于两总体分布差异的显著性检验 评估两个独立样本是否来自相同分布的总体 其原假设是 两独立样本来自的两个总体分布无显著差异Wilcoxon秩和检验的R函数为wilcox test 基本书写格式为 wilcox test 数值型域名 因子 data 数据框名 Wilcoxon秩和检验 示例 柯尔莫哥和斯米诺夫 柯尔莫哥和斯米诺夫检验 简称K S检验 可通过两个独立样本检验两个连续型随机变量总体分布的差异是否显著 其原假设是 两个独立样本来自的两总体的分布无显著差异 K S检验的核心对象仍然是秩K S检验的R函数为ks test 基本书写格式为 ks test 数值型向量1 数值型向量2 柯尔莫哥和斯米诺夫 示例 两配对样本分布差异的非参数检验 两配对样本分布差异的非参数检验是利用两个配对样本 对样本来自的两个总体的分布是否存在显著差异进行检验 应用最广的方法是Wilcoxon符号秩检验 Wilcoxon符号秩检验 Wilcoxon符号秩检验的原假设是 两配对样本来自的两总体的分布无显著差异两配对样本Wilcoxon符号秩检验的R函数为wilcox test 基本书写格式为 wilcox test 数值型向量1 数值型向量2 paired TRUE Wilcoxon符号秩检验 示例 两样本均值差的置换检验 置换检验 PermutaionTest 是基于Fisher的 随机化原则 的一种统计检验方法 相对于传统的统计检验方法有明显的优点 它无需分布的前提假设 完全基于观测样本所包含的信息进行检验两样本均值差的置换检验需要解决的核心问题是 如何得到检验统计量在原假设成立条件下的概率分布的估计 两样本均值差的置换检验 两样本均值差的置换检验R函数是coin包中的oneway test函数 基本书写格式为 oneway test 数值型域名 因子 data 数据框名 distribution 分布形式 示例 两样本均值差的自举法检验 自举检验是基于自举样本的首先 在两个总体中分别进行有放回的随机抽样 得到样本量分别为n1和n2的两个独立的自举样本X1和X2然后 计算两自举样本的均值差 上述过程重复M次 可得到M个样本均值差 记为Di 两样本均值差的自举法检验 自举检验是基于自举样本的最后 将M个Di按升序排序 找到位于2 5 和97 5 处的次序统计量取值 分位值 组成的区间即为置信度为95 的样本均值差的置信区间 如果零未落入该区间内 则应以5 的显著性水平拒绝原假设 认为两总体的均值存在显著差异 否则不能拒绝原假设 两样本均值差的自举法检验 利用用户自定义函数实现示例 两样本均值差的自举法检验 调用boot函数实现自举法R函数是boot 基本书写格式为 boot data 数据集 statistics 用户自定义函数名 R 自举重复次数M 示例 两样本均值差的自举法检验 自举法的计算结果存放在一个指定的自举对象中 自举对象为列表 其中较为重要的两个成分名为t0和t还需调用boot ci函数 获得指定置信度的置信区间 基本书写格式 boot ci 自举对象名 conf 置信度 type 置信区间类型 第7章R的方差分析 基于R的统计分析与数据挖掘 方差分析 方差分析用于分析一个数值型变量和一个或多个分类型变量是否相关数值型变量称为观测变量 分类型变量称为控制变量 或因素 分类型变量的类别值称为控制变量的水平方差分析的研究对象是来自控制变量不同水平下各观测变量总体的两组或多组独立的随机样本 方差分析 方差分析有两个重要的前提假设 第一 控制变量不同水平下观测变量的总体分布为正态分布第二 控制变量不同水平下观测变量的总体具有相同的方差基于这个假设 方差分析最终的研究即为分析控制变量不同水平下观测变量的总体均值是否存在显著差异 可用于多个独立样本的均值检验 方差分析 只有一个控制变量时的方差分析称为单因素方差分析有多个控制变量时的方差分析称为多因素方差分析 单因素方差分析 单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响 这里 由于仅研究单个因素对观测变量的影响 因此称为单因素方差分析单因素方差分析的原假设为 单因素方差分析 单因素方差分析认为 观测变量值的变动受到控制变量和随机变量两方面的影响 可将观测变量总的离差平方和分解为组间离差平方和 BetweenGroups 与组内离差平方和两部分 SST SSA SSESST SumSquareofTotal 为观测变量的离差平方和 SSA SumSquareoffactorA 为组间差离差平方和 是控制变量的不同水平造成的变差 SSE SumSquareofError 为组内离差平方和 是抽样误差引起的变差 单因素方差分析 单因素方差的检验统计量是F统计量R函数的基本书写格式为 aov 观测变量域名 控制变量域名 data 数据框名 anova 方差分析结果对象名 示例 各总体均值的可视化 直观展示控制变量不同水平下观测变量总体均值的取值状况 可绘制各总体均值变化的折线图以及各总体均值的置信区间图gplots包中plotmeans函数 的基本书写形式为 plotmeans 观测变量域名 控制变量域名 data 数据框名 p 置信水平 use t TRUE maxbar 上限最大值 minbar 下限最小值 各总体均值的可视化 示例 检验单因素方差分析的前提假设 单因素方差分析有两个前提假设 第一 控制变量不同水平下观测变量总体服从正态分布第二 控制变量不同水平下观测变量总体方差齐性需对是否满足前提假设进行检验 总体正态性检验 可通过以下两种方式判断控制变量不同水平下观测变量总体是否服从正态分布第一 绘制Q Q图R绘制关于正态分布的Q Q图的函数为qqnorm 基本书写格式为 qqnorm 数值型向量名 进一步 若希望在Q Q图上添加基准线 需调用qqline函数 基本书写格式为 qqline 数值型向量名 distribution qnorm 总体正态性检验 绘制Q Q图示例 总体正态性检验 可通过以下两种方式判断控制变量不同水平下观测变量总体是否服从正态分布第二 柯尔莫哥和斯米诺夫 Kolmogorov Smirnov 检验简称K S检验 可通过样本数据推断样本来自的总体是否服从某一理论分布K S检验是一种拟合优度的检验方法 也适用于探索单个连续型随机变量的分布 单样本K S检验 属于非参数统计的范畴 总体正态性检验 单个样本来自的总体是否服从正态分布的K S检验的R函数是ks test 基本书写格式为 ks test 数值型向量名 pnorm 示例 各总体方差齐性检验 各总体方差齐性检验 仍采用两独立样本t检验中的levene s方差同质性检验方法 对各总体方差是否齐性进行检验示例 多重比较检验 单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响 如果控制变量确实对观测变量产生了显著影响 进一步还应确定 控制变量的不同水平对观测变量的影响程度如何 其中哪个水平的作用明显区别于其他水平 哪个水平的作用不显著 等等 对此可通过多重比较检验 多重比较检验的LSD检验 LSD LeastSignificantDifference 检验 称为最小显著性差异法检验 特点 水平间观测变量的均值存在较小程度的差异就可能被检验出来原假设为 第i个总体和第j个总体的均值无显著差异检验统计量为t统计量 第i个总体和第j个总体均值对比检验的t统计量定义为 LSD LeastSignificantDifference 检验的R函数 aovaov函数仅给出了控制变量第二个水平及后续水平下的观测变量均值 与控制变量第一个水平下的观测变量均值的差 即t统计量的分子部分 结果组织在名为coefficients的成分中示例 单因素协方差分析 协方差分析将那些数值型影响因素作为协变量 并在排除协变量对观测变量影响的条件下 分析可控的分类型控制变量对观测变量的作用协方差认为观测变量的变动既受到控制变量的作用 也受到协变量以及其他随机因素的影响 同时 除需满足方差分析的两个前提假设 正态性和等方差 外 还要求控制变量各水平下 协变量与观测变量的线性关系一致且无明显差异 单因素协方差分析 单因素协方差分析的R函数基本书写格式为 aov 观测变量域名 协变量域名 控制变量域名 data 数据框名 示例 多因素方差分析 多因素方差分析用于研究多个控制变量的不同水平是否对观测变量产生了显著影响在多因素方差分析中 观测变量的取值变动受到三个方面的影响 第一 控制变量独立作用的影响 第二 控制变量交互效应的影响 第三 随机因素的影响 基于这个原则 两因素方差分析将观测变量的总变差分解为 以两因素为例 SST SSA SSB SSAB SSE 多因素方差分析 两因素方差分析的三个检验统计量 多因素方差分析 多因素方差分析的R函数为aov 基本书写格式为 aov R公式 data 数据框名 常见的R公式有如下示例 y A By A B A By A B Cy A B C 2y 多因素方差分析 示例 交互效应的可视化 交互效应的可视化可通过interaction plot函数实现 基本书写格式为 interaction plot 因子1 因子2 数值型向量 type 线型 示例 第8章R的回归分析 一般线性模型 基于R的统计分析与数据挖掘 回归分析概述 回归分析是一种应用极为广泛的数量分析方法 用于分析事物之间的相关性 侧重考察变量之间的数量变化规律 并通过回归方程的形式描述和反映这种关系 帮助人们准确把握变量受其他一个或多个变量影响的程度 回归分析的一般步骤 第一步 确定解释变量和被解释变量第二步 确定回归模型第三步 建立回归方程第四步 对回归方程进行各种检验第五步 利用回归方程进行预测 回归分析涉及的主要内容 第一 选择回归模型和回归方程一般线性模型 GeneralLinearModel 广义线性模型 GeneralizedLinearModel 第二 回归方程的参数估计和检验普通最小二乘法和极大似然估计法等进行诸如回归方程的显著性 回归系数的显著性等检验 回归分析涉及的主要内容 第三 回归诊断对数据是否满足前提假设进行验证异常点诊断多重共线性的诊断第四 模型验证建立回归方程的主要目的之一是预测 如何准确测度方程的预测精度或误差 是模型验证的重要目的 建立线性回归模型 线性回归分析中的线性回归模型为 当p为1时 该模型为一元线性回归模型 否则为多元线性回归模型线性回归模型表明 被解释变量的变化可由两个部分解释由p个解释变量变化引起的的线性变化部分 即由其他随机因素引起的的变化部分 即 建立线性回归模型 建立线性回归模型的重要目的是 研究给定x x1 x2 xp 条件下 y有怎样的平均取值水平线性回归方程线性回归经验方程 线性回归方程的参数估计 依据样本数据估计方程中的未知参数在线性回归分析中 最常用的统计准则是普通最小二乘法 R函数基本书写格式为 lm R公式 data 数据框名 coefficients 回归分析结果对象名 线性回归方程的参数估计 示例 线性回归方程的检验 回归方程的显著性检验是要检验被解释变量与解释变量全体之间的线性关系是否显著 用线性模型来描述它们之间的关系是否恰当原假设 各回归系数同时与零无显著差异回归系数的显著性检验 逐个判断解释变量是否与被解释变量间存在显著的线性关系 它们是否应保留在回归方程中原假设 线性回归方程的检验 回归方程参数检验的结果均保存在回归分析的结果对象中 可通过以下函数访问summary 回归分析结果对象名 显示线性回归分析结果的摘要confint 回归分析结果对象名 显示回归系数默认95 的置信区间 示例 利用线性回归方程做预测 预测R函数是predict 基本书写格式为 predict 回归分析结果对象名 新数据框名 type response 示例 回归诊断 误差项是否满足高斯 马尔科夫假定 第一 建模是否在默认满足高斯 马尔科夫假定下进行第二 从普通最小二乘估计的出发点来看 线性回归经验方程会受到数据中可能存在的异常观测点的影响 利用各种方法诊断出具有不同特点的异常观测点 是非常必要的第三 多重共线性问题 误差项和残差项 线性回归模型中的误差项是那些与被解释线性相关但又尚未观测到的方面 理论上它们应与线性回归模型中的解释变量无关 由于误差项无法观测 往往借助残差项进行研究残差定义为 实际值减去拟合值 误差项和残差项 在R中 回归分析的拟合值存储在线性回归分析结果对象 列表 的名为fitted的成分中 通过 结果对象名 fitted的方式 可直接访问到拟合值 也可调用函数 fitted 回归分析结果对象名 访问拟合值残差项存储名为residuals的成分中 通过 结果对象名 residuals的方式 可直接访问到残差项 也可调用函数 residuals 回归分析结果对象名 访问残差项 误差项满足高斯 马尔科夫假定 利用残差图判断示例 误差项满足高斯 马尔科夫假定 利用残差图判断考察残差项的正态性假定考察残差项的等方差性假定对示例的改进 建立对数 水平模型 探测高杠杆值点 高杠杆 Leverage 值点指那些在解释变量方向上取值异常 在被解释变量方向上取值正常的观测点 所谓在解释变量方向上取值异常 是指该观测点在x上的取值远远偏离绝大部分观测的平均水平 杠杆值就是这个远离程度的测度量以仅包含一个解释变量x的一元线性回归方程为例 第i个观测的杠杆值hi定义 探测高杠杆值点 R中计算杠杆值的函数是hatvalues 基本书写格式为 hatvalues 回归分析结果对象名 示例 探测离群点 离群点指那些在被解释变量方向上取值异常的观测点 离群点在y上的取值远远偏离绝大部分观测的取值范围 通常表现为 第一 离群点的被解释变量取值非常大或非常小第二 离群点的残差的绝对值非常大 探测离群点 探测离群点的图形方法绘制被解释变量或残差的Q Q图探测离群点的统计检验方法以学生化残差为检验统计量进行检验R中访问学生化残差的函数是rstudent 基本书写格式为 rstudent 回归分析结果对象名 从统计角度探测离群点的R函数是car包中的outlierTest 基本书写格式为 outlierTest 回归分析结果对象名 探测离群点 示例 探测强影响点 强影响点是这样的观测点 包含或剔除该观测点 会导致回归经验方程的截距或斜率发生较大变化强影响点不一定在被解释变量方向上取值异常 也不一定在解释变量方向上取值异常 而是在两者的比值上出现异常库克距离是一种探测强影响点的度量方法 探测强影
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基坑支护施工方案
- 水下打捞团队施工方案
- 校园安全教育组图
- 消防安全教育入校园
- 社区民警对校园安全教育
- 智算中心网络架构搭建技术方案
- 预分支电缆施工方案
- 土建工程路灯安装施工方案
- 校园安全教育平台直播
- 热能回收技术应用方案
- 2025文具用品采购合同范本格式
- 电气检修生产安全培训课件
- 2025天津津南国有资本投资运营集团有限公司及实控子公司招聘工作人员招聘5人考试模拟试题及答案解析
- 营造清朗空间+课件-2025-2026学年(统编版2024)道德与法治八年级上册
- 2025年遴选财务岗考试题及答案
- 《2025新版检验检测机构管理评审报告》
- 移动与酒店合作合同协议
- excel操作考试题及答案
- 项目安全管理实施细则
- 车间偷盗行为管理办法
- 部编初一初中语文阅读理解答题公式大全(绝对有用)+专项训练练习题
评论
0/150
提交评论