




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 数据分析方法体系 2 数据分析方法体系 0 1三种数据分析方法论0 2统计软件中的数据存储格式0 3数据的统计描述与参数估计0 4常用假设检验方法0 5多变量模型0 6多元统计分析0 7智能统计分析 数据挖掘方法 3 0 1三种数据分析方法论 严格设计支持下的统计方法论半试验研究支持下的统计方法论偏智能化 自动化的数据挖掘应用方法论 4 严格设计支持下的统计方法论 严格设计支持的统计方法论也称为经典统计方法论 之所以经典 不仅因为其发展较早 而且可使研究者在整个研究体系中尽量掌控一切 具体特征如下 具有非常严密的研究设计 遵循七大步骤 试验设计 数据收集 数据获取 数据准备 数据分析 结果报告 模型发布 其中试验设计作为关键 直接影响整个研究的成败 在此类研究项目中 试验设计中会充分考虑需要控制的影响因素 并采用多种设计方案来对非研究因素的作用加以控制 比如完全随机抽样 随机分组等 数据在设计完毕后开始采集 整个试验过程会在尽量理想的情况下进行 从而在试验及数据获取过程中对无关因素加以严格控制 原始数据往往需要从头开始采集 数据质量完全取决于试验过程是否严格依从设计要求 以及试验设计本身是否合理等 每个原始数据的成本都非常高 在分析方法上 最终采用的统计模型应当基于相应的试验设计所定制的模型 由于在试验设计和试验实施过程中已经对非研究因素的影响做了充分的考虑和控制 因而在很多情况下往往可以只利用非常简单的统计方法 各种复杂高深的统计模型不是没有用武之地 但它们不是至关重要的工具 此类统计方法论的应用在实验室研究 临床试验等领域最为常见 所使用的方法常常是单因素分析法 或者针对一些复杂设计使用一般线性模型 方差分析模型 的定制框架 5 半试验研究支持下的统计方法论 经典统计分析方法论对整个流程的控制和干预非常严格 但是在很多情况下无法满足 形成了所谓半试验研究支持下的统计分析方法论 其具体特征如下 研究设计具有明显的向实际情况妥协的特征 所谓七大步骤可能不被严格遵循 从数据准备开始的后三步的重要性比经典分析方法论高 研究设计可能无法做到理想化 例如抽样与分组的完全随机性 试验组与对照组干预措施的严格控制无法严格满足 整个数据采集过程难以做到理想化 部分数据可能先于研究设计而存在 整个研究需要在这些数据的基础上补充所需的其他部分信息 另一方面 这些数据可能不完全满足分析需求 但这种缺陷却无法得到修正 在分析方法上 由于实验设计难以做到完美 因此各种潜在因素的作用可能并不明确 需要从各种可能的影响因素中进行筛选和探索 可能用到的分析方法颇为复杂 事实上 很多复杂的多因素分析方法模型就是在这类研究的实际分析需求的刺激下产生并蓬勃发展的 这类统计分析方法的应用范围目前最广泛 在经济学 社会学研究中最为常见 6 偏智能化 自动化的数据挖掘应用方法论 和前两种较为传统方法论相比 数据挖掘方法论的特点为 完全以商业应用需求为导向 分析流程出现了很大的变化 不再是线性的七大步骤 而是周而复始的循环结构 且非常强调前期的商业理解 后期的模型发布与应用 在常见的数据挖掘方法论中 以CRISP DM最具代表性 由于业务数据往往来源于业务系统 如电信公司的业务数据库 因此数据采集过程是全自动的 完全先于整个研究项目而存在 不是为数据分析而做准备的 因为难以做到理想化 由于业务系统的数据会动态增加 因此几乎不可能考虑另行加以人工收集希望补足的数据 而只能看菜吃饭 否则整个项目将永无止境 失去实用价值 在分析方法上 由于极端强调商业应用 因此分析方法的选择并不重要 往往采取多种方法并行 从中择优的分析思路 能否满足商业需求 或者说模型是否能够在业务系统中得到真正的发布和应用 则是判断整个数据挖掘项目是否成功的唯一标准 7 0 2统计软件中的数据存储格式 二维数据表变量的存储类型数值型字符型变量的测量尺度定类尺度定序尺度定距尺度和定比尺度 8 0 3数据的统计描述与参数估计 连续变量的统计描述集中趋势的描述指标 算术平均 中位数 几何平均 结尾平均 众数 调和平均离散趋势的描述指标 全距 方差 百分位数 四分位数 四分位间距 变异系数分布特征的描述指标 偏度 峰度其他 单峰 双峰 极端值连续变量的参数估计 参数的点估计参数的区间估计分类变量的统计描述和参数估计频数分布相对数指标 比 Ratio 构成比 Proportion 率 Rate 统计图形体系单变量图 连续变量 直方图 箱图 茎叶图单变量图 分类变量 饼图 Pareto双变量图 连续因变量 条图 散点图双变量图 分类因变量 条图 马赛克图 9 0 4常用假设检验方法 完成了统计描述和参数估计工作之后 研究者往往会进一步基于专业知识和数据特征而提出假设 并期望验证其是否成立 这就涉及假设检验的工作 单变量假设检验方法 在检验中只涉及一个变量的数值特征 根据变量的类型和分析目的的不同 相应希望考察的总体假设可能是均值等于某个数值 标准差等于某个数值 分布符合某种指定分布 也可以是某个类别的比例不高于某个指定值 或者大于某个数值的样本比例等于某个指定值这类奇怪的设定 双变量假设检验方法 在涉及两个变量的检验方法中 大多数情况下这两个变量可以分出主次 相应地在统计模型中它们会被设定为自变量和因变量 当无法进行区分时 则使用相关分析方法 10 单变量假设检验方法 针对数据独立性或随机性的检验 考察样本的随机性 如果样本不是从总体整随机抽取的 所做的任何推断将变得没有价值 对于这类问题 最简单的方法是进行游程检验 针对分布类型的检验 常见的情况是检验某个连续变量所在总体的分布是否服从正态分布 因为正态分布是很多后续统计分析的前提 假定分布类型后针对某个分布参数的检验 考察中位数是否等于某个假定值 采用秩和检验对于连续型变量 研究者最关心的往往是其均数是否等于某个假定数值 单样本图t检验是常用的方法 11 双变量假设检验方法 无序分类因变量的检验方法当自变量为两分类或无序分类变量时 两个变量相互交叉构成了典型的交叉表 此时以卡方检验最为常用 当自变量为有序多分类变量时 几乎没有恰当的方法可以充分利用数据信息 比较常见的方法是暂时忽略其有序特征 先参照无序变量的方式进行卡方检验 然后再结果解释时考虑序列信息 当自变量为连续变量时 简单的统计方法已经无能为力 可以考虑两分类或者多分类的Logistic回归模型 有序分类因变量的检验方法当自变量为两分类或无序多分类变量时 研究目的往往是考察这些类别组的因变量中位数是否相同 此时应当使用两样本秩和检验或者多样本秩和检验进行分析 当自变量为有序多分类变量时 如果希望利用序列特征 则可以按照两有序变量的相关分析指标体系来分析 当自变量为连续变量时 简单的统计分析对此无能为力 可以考虑使用因变量为有序分类的Logistic回归模型来分析 12 双变量假设检验方法 续 连续性因变量的检验方法自变量为两分类变量时 研究目的是考察两组间的因变量均值是否相等 应当使用两样本t检验进行分析 自变量为无序分类变量时 研究目的是考察多组间的因变量均值是否相等 此时应当使用单因素方差分析 在方差分析结果有统计学意义时进行后续两两比较 自变量为有序多分类变量时 没有恰当的方法充分利用数据信息 参照无序变量的方式进行分析 结果解释时考虑序列信息当自变量为连续变量时 相应分析方法的基本框架是考虑线性关联 需要确认两变量间的数量关联是线性还是曲线的 然后利用线性回归方程考察自变量对因变量的数量影响 相关分析的指标体系 在提及相关分析时往往考察的是连续变量的相关关系 实际上对任何类型的变量 都可以用相应的指标进行相关关系的考察 名义变量的相关指标有序变量的相关指标连续变量的相关指标 13 0 5多变量模型 这里所说的多变量模型指的是在模型中可以区分出因变量和自变量 并且模型中可以有多个自变量或因变量 建模的目的是考察各自变量对因变量的作用强弱 最终对因变量取值进行预测的统计模型 方差分析 一般线性模型 典型的方差分析对应的是因变量为连续变量 自变量为分类变量 由于其框架模型为线性相加结构 因此也称为一般线性模型 单因变量的方差分析模型 多因变量的方差分析模型广义线性模型和混合线性模型广义线性模型 传统的线性模型 Logistic回归模型 Poisson回归 Probit回归等都可以看作是广义线性模型的特例 广义估计方程 在广义线性模型的基础上发展起来的处理纵向数据的统计模型 混合线性模型 传统的线性模型没有考虑数据资料的层次结构 假定不同个体数据完全独立 传统的统计分析方法中 对集中趋势 均值 的分析方法完善 对离散趋势的分析还处于起步阶段 回归模型线性回归模型线性回归模型的衍生模型路径分析和结构方程模型非线性回归模型Logistic回归模型其它常见模型生存分析模型对数线性模型时间序列模型 14 0 6多元统计分析 这里的多元统计模型是指在模型中难以区分出自变量 因变量 这些模型的分析重点放在探讨各变量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化工厂安全知识培训记录课件
- 跨部门协作项目管理流程标准化指南
- 初中英语语法学习:therebe句型的用法讲解
- 化工厂外操安全培训总结课件
- 化工厂临时安全员培训课件
- 2025合同样本:电子产品生产商业绩奖金协议范本
- 2025建筑公司合同信息管理
- 2025合同范本:票务代理合作协议学生版
- 2025个性化礼品花卉购销合同
- 大连生产安全培训公司课件
- 《数字经济背景下企业财务管理的数字化转型》论文
- 2025年汽车吊考试题及答案
- 药物罐疗法及临床应用
- 检验检测机构资质认定评审准则试题及答案
- DB31 SW-Z 009-2021 上海市水利工程设计概(估)算编制规定
- 安全生产重要论述课件
- 2025天津市安全员《C证》考试题库
- 海运订舱流程图
- 开学纪律班会
- 家长参与度对小学生阅读习惯的影响研究
- 中学生宿舍日常与管理
评论
0/150
提交评论