



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
探索性数据分析(EDA)及其应用所谓探究性数据分析(ExploratoryDataAnalysis,以下简称EDA),是指对已有的数据(特殊是调查或观看得来的原始数据)在尽量少的先验假定下进行探究,通过作图、制表、方程拟合、计算特征量等手段探究数据的结构和规律的一种数据分析方法。特殊是当我们对这些数据中的信息没有足够的阅历,不知道该用何种传统统计方法进行分析时,探究性数据分析就会特别有效。探究性数据分析在上世纪六十年月被提出,其方法由美国闻名统计学家约翰·图基(JohnTukey)命名。
EDA的消失主要是在对数据进行初步分析时,往往还无法进行常规的统计分析。这时候,假如分析者先对数据进行探究性分析,辨析数据的模式与特点,并把它们有序地发掘出来,就能够敏捷地选择和调整合适的分析模型,并揭示数据相对于常见模型的种种偏离。在此基础上再采纳以显著性检验和置信区间估量为主的统计分析技术,就可以科学地评估所观看到的模式或效应的详细状况。
所以概括起来说,分析数据可以分为探究和验证两个阶段。探究阶段强调敏捷探求线索和证据,发觉数据中隐蔽的有价值的信息,而验证阶段则着重评估这些证据,相对精确地讨论一些详细状况。在验证阶段,常用的主要方法是传统的统计学方法,在探究阶段,主要的方法就是EDA,下面我们重点对EDA做进一步的说明。
EDA的特点有三个:一是在分析思路上让数据说话,不强调对数据的整理。传统统计方法通常是先假定一个模型,例如数据听从某个分布(特殊常见的是正态分布),然后使用适合此模型的方法进行拟合、分析及猜测。但实际上,多数数据(尤其是试验数据)并不能保证满意假定的理论分布。因此,传统方法的统计结果经常并不令人满足,使用上受到很大的局限。EDA则可以从原始数据动身,深化探究数据的内在规律,而不是从某种假定动身,套用理论结论,拘泥于模型的假设。
二是EDA分析方法敏捷,而不是拘泥于传统的统计方法。传统的统计方法以概率论为基础,使用有严格理论依据的假设检验、置信区间等处理工具。EDA处理数据的方式则敏捷多样,分析方法的选择完全从数据动身,敏捷对待,敏捷处理,什么方法可以达到探究和发觉的目的就使用什么方法。这里特殊强调的是EDA更看重的是方法的稳健性、耐抗性,而不刻意追求概率意义上的精确性。
三是EDA分析工具简洁直观,更易于普及。传统的统计方法都比较抽象和浅显,一般人难于把握,EDA则更强调直观及数据可视化,更强调方法的多样性及敏捷性,使分析者能一目了然地看出数据中隐含的有价值的信息,显示出其遵循的普遍规律及与众不同的突出特点,促进发觉规律,得到启迪,满意分析者的多方面要求,这也是EDA对于数据分析的的主要贡献。
值得一提的是,正由于EDA更强调直观及图形显示,所以它采纳了许多创新的可视化技术,目前这些可视化技术已经有了很好的实现载体,目前最为主流的探究性数据分析软件是以图形效果好、交互性强、易学易用著称的统计发觉软件JMP。即使不具备统计学基础的分析者也能在JMP的关心下,轻松地发觉数据、拟合以及残差的规律,获得意想不到的发觉,为后续的分析启发思路、指明方向。
下面,用一个典型的小案例来说明EDA的实际应用。
我们为了对全球经济的进展趋势和世界顶级公司的经营状况做一些讨论,可以从公共网站上下载数据(如/lists中的福布斯2000强名单),用JMP略作整理之后可以得到如表一所示的数据表,其中包含了上榜公司的名称、所属行业、所属国家、上榜年份、上榜排名、市场价值、资产额、销售额、利润额等9个变量,总计14000条记录(每年2000条,从2022年至2022年共7个年度)。现在的问题是:数据有了,其中究竟隐蔽着怎样的有价值的信息呢?我们又如何发觉这些信息呢?
有人说:既然是连续型数据,又包含时间变量,应当用时间序列方法进行分析!的确,时间序列可以告知我们变量随时间的变化,然而实际中我们所盼望和可以得到的有价值的信息,往往远不止“随时间变化”这么简洁,更何况,需要分析这些商业数据的用户经常并不清晰什么是“时间序列分析”方法。
还有人说:用一些传统的图形工具,比如折线图、柱状图、饼图等等来分析,不就可以进行数据探究了吗?这种方法好像是可行的,但这些数据中有不少类别变量,他们的分类水平许多(例如年份跨越7年,行业分为30个,国家有75个之多,公司名称更是多达3505个),这样一来,光作图可能就让我们筋疲力尽了,“数据探究”又从何谈起?
什么方法才能很好地探究这些数据,从中发觉我们所期望的、甚至意想不到的重要信息呢?我们应当从哪里着手分析才能找到这些信息呢?我们来尝试运用现代EDA中的可视化技术“泡泡图”来边看边想。在JMP软件的关心下,我们可以很快得到类似图一的图形,其中的横轴代表公司的市值,纵轴代表公司的销售额,泡泡的大小代表公司的利润额,泡泡的颜色代表公司所属的行业。最有意义的是,全部的泡泡并不是静止不动的,它们的位置、大小等都会随着年度的变化而动态变化。
这样一来,我们就可以直观地发觉一些明显的数据特征。就拿这两家知名公司来说。我们会发觉通用电气GeneralElectric的经营业绩比较稳定,而埃克森美孚ExxonMobil就相对显得大起大落一些。虽然两者有明显不同,但自2022年起,市场价值均有显著的回落,这应当与当时席卷全球的经济危机有关。
有人在发觉这些特征后会迸出一些新的想法:通用电气、埃克森美孚都是美国的企业,中国企业的表现又如何的呢?我们可以在使用“泡泡图”的同时,在JMP中调用“数据筛选”功能就可以得到类似图三的界面。
从中可以清楚地观看到,自2022年以来的7年间,共有392个次的中国企业登上了福布斯排行榜。虽然在数量上、市值、销售额等经营指标上与世界顶级企业有肯定差距,但以中石油PetroChina、中石化SinopecChinaPetroleum等位代表的一批国有大型企业进展速度很快,令世界瞩目。
实际上,探究性数据分析还远远不止这些。分析人士完全可以在数据分析的初期不受太多理论条件的束缚,充分绽开想象的翅膀,多角度、多层面地对现有数据的规律进行可视化的探究,新的线索往往就会自然而然地消失了,为下一步的统计建模与猜测等精细化分析奠定良好的基础。
总之,探究性数据分析强调敏捷地探求线索和证据,重在发觉数据中可能隐蔽着的有价值的信息,比如数据的分布模式、变化趋势,可能的交互影响,特别变化等等,而传统的统计方法则侧重于评估已经发觉的证
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- “双碳”目标下我国碳税立法模式研究
- 医院治安治理管理制度
- 云上家长进课堂活动方案
- 云岩区拓展活动方案
- 互换信件活动方案
- 五一劳动节酒水活动方案
- 五一母亲活动策划方案
- 五一活动食肆活动方案
- 交友之道活动方案
- 产后修复宣传活动方案
- 2025年高考英语仿真模拟试卷(含答案解析)
- 《道路桥梁养护技术》课件
- 进一步财会监督复习试题附答案
- 《新能源材料概论》 课件 第3章 化学-电能转换新能源材料
- 2025年中考生物考前必背全册知识点梳理(全国)
- 护理文件书写导致的纠纷
- 基于机器学习的糖尿病早期诊断模型及可解释分析
- 路面硬化施工方案
- 学前教育安全标志课件
- 环境污染和生态破坏事故应急预案样本(2篇)
- 中北大学炸药理论复习
评论
0/150
提交评论