EDAL12016PPT课件_第1页
EDAL12016PPT课件_第2页
EDAL12016PPT课件_第3页
EDAL12016PPT课件_第4页
EDAL12016PPT课件_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据分析 是什么?+举个例子:小费To Insure Promptitude(为保证及时)Tip dataset tip total bill gender smoking status time of day day of the week size of the partyfind out the variables which best predict the tip that a dining party will give to the waiter.统计建模Modeling tip rate = 0.18 - 0.01size我们得到了什么?解释 预测除此之外,我们还能做些什么?n

2、以1美元为间隔n现象:集中在2-3美元,明显右偏n结论:n大多数顾客给的小费在2-3美元(集中趋势)n有少数顾客会付出很高的小费(明显右偏)直方图n以10美分为间隔n更有意思的现象:n峰值出现在整数、半数美元之处n结论:n顾客倾向于“四舍五入”直方图nTotal bill vs. Tipsn你的预期:非常强的正相关n实际情况:较强的正相关,变异也不小n变异部分:右下角的样本点多于左上角的样本点n结论:more customers are cheap rather than generous.散点图nTotal bill vs. Tips nby Gender nby Smoking Party

3、n现象和结论:n烟民付出的小费金额差异较大n男性付出的小费金额高于女性n不抽烟的女性给小费的行为习惯是比较一致的。散点图矩阵我们得到了什么?对数据的直观认识More insights!Better stories!数据分析的策略 “假定模拟检验”:要求数据在总体上服从某种分布,若不满足,采用稳健的或非参数方法来解决验证性数据分析(Confirmatory Data Analysis,简称CDA) 面对高维数据时 计算量迅速增大,而且不可能将其画出可视的分布图或其他图形 即使数据的样本点很多,散在高维空间中仍显得非常稀疏 低维时稳健性很好的统计方法,到了高维,其稳健性就变差了数据分析的策略 探索

4、性数据分析(EDA):不对客观数据进行假定或只做极少的假定 The objectives of EDA are to: Suggest hypotheses about the causes of observed phenomena Assess assumptions on which statistical inference will be based Support the selection of appropriate statistical tools and techniques Provide a basis for further data collection thro

5、ugh surveys or experiments拿到数据后,你打算做些什么?数据分析的流程是什么?新的例子二手房房价现实数据数据EDAEDA数据建模建模报告报告产品?总结 Exploratory Data Analysis (EDA) is an approach to analyzing data sets to summarize their main characteristics, often with visual methods.Typical techniques used in EDA Box plot Histogram Multi-vari chart Run char

6、t Pareto chart Scatter plot Stem-and-leaf plot Parallel coordinates Odds ratio Multidimensional scaling Targeted projection pursuit Principal component analysis Multilinear PCA Projection methods such as grand tour, guided tour and manual tour Interactive versions of these plots课程纲要 主成分分析、因子分析 对应分析、

7、多维尺度 独立成分分析学习资料 课件 经典教材 网络资源: MOOC 狗熊会 其他优质资源大数据统计分析基础主成分分析与因子分析48名应聘者的打分表应聘者编号简历格式外观学术能力兴趣爱好自信心 洞察力 诚信度销售能力工作经验工作魄力志向抱负理解能力潜能求职渴望度适应力1672587883897571029105810991059988810378369897499868104568565928458765568884495855887767776871059658666799888888108108981089998998810910999109997888859898881010471021

8、01071031010109310一头雾水40号(4.45) 39号(4.23)23号(3.73) 8号(3.72)22号(3.55) 2号(3.50)24号(3.33) 7号(3.17)9号(2.61) 10号(2.43) 主成分分析:提取第一主成分、构造综合指数主成分分析 What? Why? How? 主成分分析:Principal Component Analysis (PCA) 用少数几个不相关的主成分来代表原来的多个彼此相关的变量,以简化数据分析的复杂程度降维npnmmp什么是主成分? 标准公式:不同的主成分之间相互无关多个变量的线性组合1122iiipipFa Xa Xa X F

9、=0.162简历格式+0.213外观+0.040学术能力+0.225兴趣爱好+0.290自信心+0.315洞察力+0.158诚信度+0.324销售能力+0.134工作经验+0.315工作魄力+0.318志向抱负+0.332理解能力+0.333潜能+0.259求职渴望度+0.236适应力什么是主成分?应满足三个条件:122212 ,1,2, ; 1 ijpiipiFFi jp ijFFaaa(1) 与 不相关(2) 到 的方差依次递减 (3)不重复抓大放小不“浮夸”怎么获得主成分? 以一个两变量的数据为例 基本思想:省略数据变异不大的方向OX1X2F1F2g怎么获得主成分? 第一步:计算X的相关

10、系数矩阵R简历格式外观学术能力兴趣爱好自信心洞察力诚信度销售能力工作经验工作魄力志向抱负理解能力潜能求职渴望度适应力简历格式1.00 外观0.24 1.00 学术能力0.04 0.12 1.00 兴趣爱好0.31 0.38 0.00 1.00 自信心0.09 0.43 0.00 0.30 1.00 洞察力0.23 0.37 0.08 0.48 0.81 1.00 诚信度-0.11 0.35 -0.03 0.65 0.41 0.36 1.00 销售能力0.27 0.49 0.05 0.36 0.80 0.82 0.24 1.00 工作经验0.55 0.14 0.27 0.14 0.02 0.15

11、 -0.16 0.26 1.00 工作魄力0.35 0.34 0.09 0.39 0.70 0.70 0.28 0.81 0.34 1.00 志向抱负0.28 0.55 0.04 0.35 0.84 0.76 0.21 0.86 0.20 0.78 1.00 理解能力0.34 0.51 0.20 0.50 0.72 0.88 0.39 0.78 0.30 0.71 0.78 1.00 潜能0.37 0.51 0.29 0.61 0.67 0.78 0.42 0.75 0.35 0.79 0.77 0.88 1.00 求职渴望度0.47 0.28 -0.32 0.69 0.48 0.53 0.4

12、5 0.56 0.21 0.61 0.55 0.55 0.54 1.00 适应力0.59 0.38 0.14 0.33 0.25 0.42 0.00 0.56 0.69 0.62 0.43 0.53 0.57 0.40 1.00 相关图:相关系数矩阵的可视化方法怎么获得主成分?第二步:对相关系数矩阵R进行特征分解,得到特征值 ,及对应的特征向量到底怎么算?12p1122iiipipFa Xa Xa X 特征值 = 主成分的方差 方差贡献率 前m个主成分的累计贡献率:前m个主成分的信息含量 Qkkii1p特征值方差贡献率 累计贡献率保留几个主成分?方法一:累计贡献率80%方法二:特征值大于1方法

13、三:看碎石图,找到拐点 biji原始变量F1F2F3F4简历格式0.162 0.429 0.316 -0.094 外观0.213 -0.036 -0.023 0.262 学术能力0.040 0.237 -0.430 0.636 兴趣爱好0.225 -0.130 0.466 0.345 自信心0.290 -0.249 -0.241 -0.173 洞察力0.315 -0.131 -0.150 -0.071 诚信度0.158 -0.405 0.284 0.417 销售能力0.324 -0.029 -0.186 -0.198 工作经验0.134 0.553 0.083 0.068 工作魄力0.315

14、0.046 -0.080 -0.156 志向抱负0.318 -0.068 -0.209 -0.199 理解能力0.332 -0.023 -0.117 0.075 潜能0.333 0.022 -0.073 0.188 求职渴望度0.259 -0.082 0.467 -0.201 适应力0.236 0.421 0.090 -0.020 特征向量:主成分系数 aij结果解读主成分系数主成分表达式计算主成分得分:先标准化、再计算F1=0.162简历格式+0.213外观+0.040学术能力+0.225兴趣爱好+0.290自信心+0.315洞察力+0.158诚信度+0.324销售能力+0.134工作经验+

15、0.315工作魄力+0.318志向抱负+0.332理解能力+0.333潜能+0.259求职渴望度+0.236适应力ijjjxxs结果解读主成分的含义:结合线性组合中系数绝对值较大的几个指标的综合意义来确定 F1:影响工作业绩的客观因素(能力) F2:影响工作业绩的经验因素(经验) F3:影响工作业绩的主观指标(态度) F4:学习能力原始变量F1F2F3F4简历格式0.162 0.429 0.316 -0.094 外观0.213 -0.036 -0.023 0.262 学术能力0.040 0.237 -0.430 0.636 兴趣爱好0.225 -0.130 0.466 0.345 自信心0.2

16、90 -0.249 -0.241 -0.173 洞察力0.315 -0.131 -0.150 -0.071 诚信度0.158 -0.405 0.284 0.417 销售能力0.324 -0.029 -0.186 -0.198 工作经验0.134 0.553 0.083 0.068 工作魄力0.315 0.046 -0.080 -0.156 志向抱负0.318 -0.068 -0.209 -0.199 理解能力0.332 -0.023 -0.117 0.075 潜能0.333 0.022 -0.073 0.188 求职渴望度0.259 -0.082 0.467 -0.201 适应力0.236 0

17、.421 0.090 -0.020 小结:主成分分析的基本步骤 描述分析(散点图矩阵、相关系数矩阵R),检查原始数据是否具有较强的相关性 对相关系数矩阵R进行特征分解,得到从大到小排序的特征值、对应的特征向量(主成分系数) 确定要保留的主成分个数,报告累计贡献率 写出保留的主成分表达式,根据系数绝对值解释主成分的含义(绝对值越大、影响越大) 计算主成分得分(先标准化、再计算)主成分有啥用?用处一:综合评价 利用单个主成分构造综合指数,实现排序 重要前提:原始变量全为正向指标主成分系数全为正 经验:第一主成分最有可能成为综合指数F1=0.162简历格式+0.213外观+0.040学术能力+0.2

18、25兴趣爱好+0.290自信心+0.315洞察力+0.158诚信度+0.324销售能力+0.134工作经验+0.315工作魄力+0.318志向抱负+0.332理解能力+0.333潜能+0.259求职渴望度+0.236适应力主成分有啥用?用处一:综合评价 主成分投影图 诀窍1:选择两个感兴趣的主成分(常选第一和第二) 诀窍2:分而治之A区:能力强经验足B区:能力弱经验足C区:能力弱经验少D区:能力强经验少 主成分投影图主成分有啥用?用处二:主成分回归 自变量X1,X2,.,Xp:高度相关 主成分分析 F1,F2,.,Fp,挑选其子集对Y做回归,避免回归受到多重共线性的影响 反推出X1,X2,.,Xp对Y的“回归系数”案例分析:PCA与“国王的运动”背景介绍 板球 攻方:击球手(batsman) 守方:投球手(bowler)+外野手(fielder)数据说明 Indian Premier League (IPL) 2012赛季 样本点:90名击球手 变量:6个连续型变量变量说明描述击球手得分能力的6个指标 Runs Batting Average (Ave) Batting Strike Rate (SR) Fours Sixes HF = (2 Number of Centuries) + Number of Fifti

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论