数据分析概述.ppt_第1页
数据分析概述.ppt_第2页
数据分析概述.ppt_第3页
数据分析概述.ppt_第4页
数据分析概述.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析 山东交通学院李晓燕 先导课 大数据处理技术 并行课 数据挖掘技术 Matlab及应用 数学模型与实验 课程地位 专业任选课 第4学期 56学时 3 5学分 2020 2 9 内容及学时安排 数据描述性分析10 2 3 4 5 6 报告2 2 7 聚类分析8 判别分析8 主成分与典型相关分析8 回归分析12 MABLAB基础8 1 参考资料 2020 2 9 MATLAB软件实现 SAS R SPSS 2020 2 9 商业数据分析初学三部曲 CDA数据分析师I级培训教材 经管之家http bbs pinggu org forum php gid 1统计之都http cos name 在线课程资源 2020 2 9 中国大学慕课在线开放课程http www icourse163 org course JSETI 1001754246腾讯课堂 2020 2 9 考核方式 考核 平时50 期末50 期末成绩 闭卷笔试 上机考试平时成绩 作业40 课堂表现20 课程报告40 课程作业实验报告 纸质作业课堂表现考勤 课堂提问 随堂测验 上机演示 知识分享 2020 2 9 课程报告 1 组队2 3人 调研 选题 2 收集数据 数据处理 3 数据建模 4 提交论文占60分 5 答辩占40分 10 20分钟 2 3个问题 6 评分 老师70 学生30 2020 2 9 应知应会 掌握各种方法的原理和应用范围 会建立模型 用Matlab等软件进行统计分析 熟悉输出结果 进行解释 建议 师傅领进门 修行在个人 理论应用并重 理论重点是思路 应用重点是实践重视练习 做练习加深理解 勤操作熟悉软件不缺课 内容前后呼应 缺课不利学习 2020 2 9 数据分析概述 2课程体系及应用 1数据分析的概念 3统计学产生及发展 5数据的分布 4常用软件及应用 2020 2 9 你想过下面的问题吗 如何对成绩进行评价 比较成绩差异 找出特长生 各科成绩间关联性 某年级抽6名学生5门课期末成绩序号政治语文外语数学物理19994931001002998896999731009881961004938888999651009172967867573889789 数据分析是以各变量n次观测组成的数据矩阵为依据 依实际问题需要进行分析 数据矩阵 数据 数据 数据 我不能做无米之炊 Sherlock 福尔摩斯 2020 2 9 1 数据分析的概念以数据为依据 以统计方法为理论 计算机及统计软件为工具 挖掘数据统计规律 2020 2 9 数据分析研究的过程 确定目标 通过收集 整理 分析数据 提取有用信息并形成结论 发挥数据资料功能和作用 2020 2 9 1 2数据的来源与分类 搜集渠道一手数据专门调查或试验直接得到二手数据媒体 机构发布间接得到 收集方式观测数据不可控制条件下被动收集试验数据可控条件下主动收集 数据维度时间序列数据 按时间顺序收集的数据 时间维度横截面数据 同一时间点不同对象的数据 个体维度 2020 2 9 2课程体系及应用 大部分学科都涉及数据分析工作 因此数据分析几乎可与任一学科结合起来 如生物统计 biostatistics 经济计量学 econometrics 生物信息 bioinformation 和数据挖掘 DataMining 的方法主体都是统计 数据分析方法 SPSS 数理统计分析 2020 2 9 概率统计描述性分析 参数估计假设检验方差分析 回归分析典型相关分析 主成分分析典型相关分析 聚类分析判别分析 多元统计的理论基础 多元数据的统计推断 变量间的相互关系 简化数据结构 降维问题 分类与判别 归类问题 本课程体系 2020 2 9 基因鉴定种群分类 成绩预测分类排名 诊断病例药物研究 天气预报灾情预防 环境监测污染治理 矿产预测考古断代 服装设计型号确定 灌区分类品种筛选 信用评价经济决策 青少年犯罪研究 虚词频数鉴定作品 交通体育军事心理学 3 气象学 天气预报雷达图 2020 2 9 4 环境科学 分析污染气体浓度 布局监测点 污染治理 2020 2 9 雾霾地图 2020 2 9 5 处理地质观测数据 进行矿产预测 构造解释 工程勘探等 8 网上购物 网站评价 2020 2 9 10 社会科学 美国总统大选 1936年大选 AlfLondonF D R LiteraryDigest 文摘 送出一千万份问卷 返回240万份 预测London赢 Gallop 盖洛普 只问了5000人说Roosevelt 罗斯福 会赢 最后罗斯福和盖洛普都赢了 文摘倒闭了 2016年大选 希拉里特朗普2016 10 14 20日民调显示 希拉里44 40 2016 11 9日 特获276票 逆袭成功当任第45任总统 特朗普当选是对大数据技术的严峻考验 2020 2 9 大数据巫师 NateSilver内特 希尔瓦 预测特朗普失败获党内提名可能性2 希拉里获胜在67 3 情况下 原因沉默的大多数胜利特观点代表中和下层人民利益 没有话语权 被网络忽视的人群人心难测大数据预测不到人心 看到的是表面现象而已 成功预测2008年和2012年美国大选依靠的技术叫 贝叶斯理论 P A B 用t 分布对波动建模 2020 2 9 主成分分析大学排名 敏感问题 如何理解不同机构不同结果呢 学生成绩综合评价公司信用评价 如何根据财务和商业资料来判断一个公司的信用等级呢 聚类分析与判别分析东部和西部概念比较笼统 如何选择指标来把各省 市 县进行分类 DNA鉴定 蝴蝶的分类确定红楼梦前四十和后四十回是否曹雪芹一人写 其他应用举例 2020 2 9 相关分析高中成绩和大学成绩是否密切相关 地震与油价上涨有关 水质污染和那些因素有关 如何确定重金属污染源 回归分析电影票房影响因素有哪些 客户流失分析如何设计调查问卷 收集数据 调查大学生喜欢的手机品牌 2课程体系及应用 2020 2 9 社会经济统计 数理统计 政治算术 国势学派 最早流派之一 创始人德国康令 H Conring1606 81 和阿享瓦尔 G Achenwall1719 72 采用文字记述形式 把重要事项系统整理罗列 报表 创始人格朗特 J Graunt1620 74 和威廉 配第 W Petty1623 87 主张以数字 重量和尺度来说话 用图表形式概括数字资料 创始人比利时凯特勒 L A J Quetelet1796 74 产生19世纪中 把概率论引进统计学 为统计数量分析奠定数理基础 数学统计学院 代表人恩格尔 1821 96 和梅尔 1841 1925 19世纪后兴起德国 融会国势和政治算术学派观点 把政府统计和社会调查融合起来 形成社会经济统计学 影响较大 经济管理学院 3统计学的发展与其他学科关系 统计学的产生 17世纪中叶 英国威廉配第 政治算术 问世 2020 2 9 3统计学的发展 历史上著名的统计学家JacobBernoulli 伯努利 1654 1705 EdmondHalley 哈雷 1656 1742 DeMoivre 棣莫弗 1667 1754 ThomasBayes 贝叶斯 1702 1761 LeonhardEuler 欧拉 1707 1783 PierreSimonLaplace 拉普拉斯 1749 1827 AdrienMarieLegendre 勒让德 1752 1833 ThomasRobertMalthus 马尔萨斯 1766 1834 FriedrichGauss 高斯 1777 1855 JohannGregorMendel 孟德尔 1822 1884 KarlPearson 皮尔逊 1857 1936 RonaldAylmerFisher 费希尔 1890 1962 JerzyNeyman 奈曼 1894 1981 EgonSharpePearson 皮尔逊 1895 1980 WilliamFeller 费勒 1906 1970 C R 劳教授 1920 ThomasRobertMalthus 马尔萨斯 PierreSimonLaplace 拉普拉斯 LeonhardEuler 欧拉 FriedrichGauss 高斯 JohannGregorMendel 孟德尔 2020 2 9 统计学与数学的关系 数学思维以演绎为主每个人都要死的苏格拉底是人所以苏格拉底要死的 数学的思维过程统计各领域利用几乎所有数学 但统计本身的数学为具体目标服务 一般不形成数学体系 统计以归纳为主 兼有演绎路口每过去20辆小轿车 有100辆自行车通过平均每10个轿车载12于是你认为小轿车和自行车在路口运载能力为24 100 典型的统计思维过程 2020 2 9 统计学与计算机的关系 最初计算机仅仅是为科学计算而设计和建造的 统计是大型计算机最早用户 由于统计和数据打交道 没有计算机的发展统计就没有前途 计算机和统计的发展相辅相成 2020 2 9 统计学与数据挖掘的关系 统计学内容上假设检验和参数估计时间上统计学是经典学科 研究优势统计学科的数据挖掘侧重于算法理论和技术应用 数据挖掘内容上分析数据中的结构 模式并产生特定形式的信息 是统计学的补充和扩展 时间上计算机和大数据催生的新学科研究优势计算机学科的数据挖掘侧重算法开发和软件实现 都是数据分析处理技术 依托学科背景 从各自优势角度做同一件事 2020 2 9 Excel SPSS R MATLAB SAS 数据分析功能强大 统计分析领域巨无霸 全球100强91家用SAS 需一定编程技术 价高 科学计算以编程为主软件 应用广泛 有统计包 免费开源 编程方便 可从网上下载软件包和程序 学统计用的多 主要问题没有 傻瓜化 易操作 功能全 价格低 非统计工作者的选择 数据表格软件 画图和简单统计分析功能 需装数据分析功能 4常用统计软件介绍 python 免费开源 编程方便 代码易读 易维护 丰富的扩展库 可以轻易完成各种高级任务 2020 2 9 FORTRAN GAUSS Eviews S PLUS ArcGis 地理信息处理软件 空间统计分析 Minitab Statistica 功能强大齐全 傻瓜化 不普遍 处理回归和时间序列的软件 应用广 历史长 速度快 功能强 有统计包 需编程 操作不易 4常用统计软件介绍 搞经济的喜欢 编程强 中国用的不多 33 2020 2 9 5常见参数分布及数字特征 一维总体分布 常用的参数分布类型 需要认真复习 34 2020 2 9 分布函数 5 1一维总体分布 35 2020 2 9 总体p分位数 数字特征 5 1一维总体分布 2020 2 9 置信区间 置信区间 37 2020 2 9 1 正态分布 密度 5 2常用的参数分布类型 38 2020 2 9 2 对数正态分布 背景 如一变量可看成许多独立因子之积 近似正态分布 如股票投资长益可看成每天收益率的乘积 3 指数分布 背景 产品失效是偶然失效时 寿命服从指数分布 失效率与时间无关 从任一时刻算寿命服从相同指数分布 39 2020 2 9 4 Gamma分布 背景 表示早期 偶发 耗损失效等不同寿命分布 比指数 正态分布更具普遍性 适用于各种形式的分布 5 Weibull分布 背景 瑞典物理学家WallodiWeibull于1939年引进 是可靠性分析及寿命检验的理论基础 40 2020 2 9 6 Beta分布 背景 取值在一有限区间的分布 可当作取值在区间总体的概率模式 41 2020 2 9 抽样分布 二项分布 泊松分布 均匀分布 分布 分布 分布 42 2020 2 9 样本分布举例 分布 分布 分布 样本 方差 2020 2 9 复习概率论与数理统计知识1 分布函数 概率密度2 常见分布F t 正态分布密度3 数字特征期望 方差4 置信区间 5分钟课堂 布尔家族 布尔1815 GeorgeBoole 妻子 MaryEverest 叔叔乔治 艾佛斯特曾任印度大地测量局总测量师 英国殖民者用艾佛斯特 Everest 命名珠穆拉玛峰 小女艾捷尔 丽莲 伏尼 EthelLilianVoynich 牛虻作者 长女玛丽 爱伦 MaryEllen 和数学家CharlesHowardHinton结婚 长子GeorgeHinton采矿工程师 儿子WilliamHowardHinton中文名韩丁 农学家 记者 马克思主义者 著名作品 翻身 儿子HowardEverestHinton 昆虫学家 英国皇家学会会士 次女长子是数学家 四子Sebastian 二子Eric 三子William 女儿JoanChaseHinton中文名寒春 杨振宁同学 曼哈顿计划女科学家 1948年来延安 从事奶牛养殖工作 北京第一位中国绿卡获得者 儿子1947 杰佛瑞 艾佛斯特 辛顿 GeoffreyEverestHinton 人工智能复兴标志性人物 深度学习教父 2020 2 9 1 1 2多元统计分析研究内容和方法 1 多元统计的理论基础多维随机向量及多维正态随机向量及由此定义的各种多元统计量 推导其分布并研究性质 抽样分布理论 概率论与数理统计 数据描述性分析 2 多元数据的统计推断参数估计和假设检验问题 特别是多元正态分布的均值向量及协方差阵的估计和假设检验等问题 数据描述性分析等 3 变量间的相互关系1 相互依赖关系 分析一或多个变量是否依赖于另一些变量的变化 建立变量间定量关系式 用于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论