




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学建模培训 统计模型 第1讲 统计学与R语言简介 梁银双 2018 08 1 1 1 1 统计是什么 统计是什么 统计统计是人类思维的一个归纳过程是人类思维的一个归纳过程 例子例子 站站在一个路口 看到每过去在一个路口 看到每过去2020辆辆 小轿车时小轿车时 也有 也有100100辆自行车通过 而且辆自行车通过 而且 平均每平均每1010个轿车载有个轿车载有1212个人 于是个人 于是 你 你 认为小汽车和自行车在这个路口的运载认为小汽车和自行车在这个路口的运载 能力为能力为24 10024 100 这这是一个典型的统计思维过程是一个典型的统计思维过程 统计和数学的区别统计和数学的区别 数学的美大部分源于其公理结构数学的美大部分源于其公理结构 和逻辑发展 数学思维以和逻辑发展 数学思维以演绎为演绎为 主主 统计思维是以归纳为主统计思维是以归纳为主 兼有演绎兼有演绎 统计各领域利用几乎所有存在的统计各领域利用几乎所有存在的 数学内容数学内容 但统计本身的数学是为具体目标但统计本身的数学是为具体目标 服务的服务的 自己一般不形成数学自己一般不形成数学体系体系 数学即 数学即音乐音乐 统计即 统计即文学文学 统计的定义统计的定义 统计学统计学 StatisticsStatistics 是 收集 处理 展示和是 收集 处理 展示和 解释数据的科学 解释数据的科学 统计学是一门关于统计学是一门关于数据数据的科学 数据 的科学 数据 datadata 是 是 统计分析的基础 大数据 人工智能 统计分析的基础 大数据 人工智能 变量变量 VariableVariable 是描述观察对象某种特征的概 是描述观察对象某种特征的概 念 变量的观测结果就是数据 念 变量的观测结果就是数据 根据根据观测结果的特征 变量可分为观测结果的特征 变量可分为类别变量类别变量和和数数 值变量值变量两种 两种 5 6 没有预测任务时 数 据分析的目的仅是确定变 量间的关系 就不需要确 定因变量 自变量 统计的发展方式统计的发展方式 传统 模型驱动的统计分析 计算能力约束 独立同分布假设 置信区间 假设检验 无偏 性等 基于中心极限定理 大数定律的统计推断等 问题 数据导向的统计分析 要有明确的研究问题 基于数据类型的统计方法选择 应用 探索性数据分析 数据挖掘 大数据分析 人 工智能 7 数据类型数据类型 横截面数据 cross sectional data 随机抽样 通常忽略数据收集中的细小的时间 差别 研究某时点上的某种现象 突出空间 对象 差 异 E g Data0901 孕妇吸烟与胎儿健康CHDS原 始数据 8 9 横截面数据 横截面数据 因变量为实数轴上的数量数据 误差项 独立同分布线性假设 线性回归分析 否 则 加权回归 稳健回归 偏最小二乘回归 Lasso回 归 岭回归 主成分回归 Box Cox变换 多项式回归 分位数回归等 相应的各种检验 最优子集 逐步回 归 回归诊断等 线性或其他假设不被满足 非线性回归 随机效应混 合模型 神经网络 决策树的回归树 最近邻方法 支持向量机等被广泛应用于回归中 10 横截面数据 横截面数据 因变量为分类 定性 变量或频数 因变量为分类变量 一般回归方法不能使用 列联表 分析 判别分析等 广义线性模型中的Probit模型 Logit模型等 但仍存在 分布假设的要求 决策树的分类树 神经网络 最近邻方法 支持向量 机等能很好第处理分类问题 不需要什么假设 11 数据类型数据类型 时间序列数据 time series data 时间维度 相互依赖性 等时间间隔观测 寻找空间 对象 历时发展的规律性 E g 9 4节 某地区投资额与生产总值和物价指数 的数据 12 时间序列数据分析方法时间序列数据分析方法 差分方程 平稳性 波动性 协整与误差修正 状态空间建模等方法 1 自回归模型 简称AR模型 2 滑动平均模型 简称MA模型 3 自回归滑动平均混合模型 简称ARMA模型 4 自自回归条件异方差回归条件异方差 ARCH 模型 GARCH 模型 13 longitudinal datalongitudinal data 纵向数据 纵向数据 统计学家视角 每个对象有多次重复观测 得到的数据即是纵向数 据 不同的观测是在不同的时间记录的 各对象的观测次数不一定相同 观测间隔不一定一 样 panel datapanel data 面板数据 面板数据 计量经济学家视角 是纵向数据的特例 从横截面上看 是由若干个体在某一时刻构成的截 面观测值 从纵剖面上看 是一个时间序列 14 其它数据类型其它数据类型 Functional dataFunctional data 函数型函数型数据 数据 将带有某 种函数性质的数据 看成 一个整体 而不是当作个体观测值的一个序列 优势 函型数据分析可以对来自无限维空间的曲 线数据 进行统计分析 解决高维稠密数据的分析 难题 分析需要较少的假设条件 因此具有更强的 适用性 15 其它数据类型其它数据类型 1122 ii iiiiinin tytyty 1 2 R1 2 R简介简介 R R语言语言 是一款在统计分析是一款在统计分析 数据挖掘数据挖掘 可视化可视化 绘图绘图 网络爬虫网络爬虫 人工智能等前沿领域表现出人工智能等前沿领域表现出 色的语言和操作环境以及工具色的语言和操作环境以及工具 选择选择R R的四个理由 的四个理由 1 1 R R语言语言事半功倍事半功倍 可重复性很强 可重复性很强 2 2 R R语言语言随心所欲随心所欲 可拓展性很强 可拓展性很强 3 3 R R语言语言惟妙惟肖惟妙惟肖 具有强大的可视化功能 具有强大的可视化功能 4 4 R R语言语言无所不能无所不能 开源免费开源免费 源源不断的新增源源不断的新增R R 语言包完全可以实现人类目前所有的技术能力语言包完全可以实现人类目前所有的技术能力 1 2 1 R1 2 1 R的初步使用 1 1 R R RstudioRstudio的安装的安装 在CRAN网站http www r project org 可以下载R的各 种版本 在 Windows下 启动R 的开始界面如右图 RStudio界面比R自身内容丰富很多 整个界 面切成多个模块进行同步操作显示 脚本 区 控制台区 文件区非常清晰易用 2 2 为对象赋值并运行 R运行的是一个对象 在运行前需要给对象赋值 标准的赋符号 3 3 查看R R函数的帮助文件 R软件中的每个函数都有相应的帮助说明 使用中 遇到疑问时 可以随时查看帮助文件 必须在连 网状态下 命令为 1 2 2 1 2 2 数据的读入与保存 1 1 读取 读取R R数据和保存数据和保存 如果是已有的数据 在运行程序时 首先需要将数如果是已有的数据 在运行程序时 首先需要将数 据读入据读入R R 建议先将 建议先将ExcelExcel或或SPSSSPSS格式数据存为 格式数据存为 csvcsv 格式 在格式 在R R中读取和保存数据的命令中读取和保存数据的命令 2 在R中查看数据 R在运行数据文件时 并不显示其数据 查看数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 口腔健康宣导课件
- 文化创意产业园区品牌塑造策略研究-2025年产业集聚背景下的创新实践
- 小学生知识讲座课件
- 优抚资金使用管理办法
- 企业生产人员管理办法
- 保险新人出勤管理办法
- 中铁隧道安全管理办法
- 乙醇燃料流通管理办法
- 企业调取印模管理办法
- 工业互联网平台数据备份与恢复策略:工业4.0数据安全防护指南
- 深静脉血栓形成的诊断和治疗指南第三
- 2026年中考英语复习:338条核心短语背诵卡+默写卡
- 2025年合肥高新创业投资管理合伙企业招聘考试笔试试题(含答案)
- 2025-2030中国新能源汽车充电桩行业供需状况及投资战略规划分析报告
- 肿瘤患者血象解读与临床意义
- 药物过敏性休克的急救护理讲课件
- 2025年福建省中考语文试卷真题(含标准答案)
- 2024江西现代职业技术学院招聘笔试真题带答案详解
- 车辆运输包月合同
- 茶百道加盟合同协议
- 模具合同三方附加协议
评论
0/150
提交评论