数学建模培训ppt_第1页
数学建模培训ppt_第2页
数学建模培训ppt_第3页
数学建模培训ppt_第4页
数学建模培训ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、About 统计建模统计建模与数据分析与数据分析阮敬阮敬首 都 经 济 贸 易 大 学 统 计 学 院首 都 经 济 贸 易 大 学 统 计 学 院Statistics Dept., Capital University of Economics & Business什么是统计什么是统计收集、分析、解释、展示数据。它提供方法来基于数据做预测它应用于自然科学和社会科学中的各种领域,以及人文科学、政府及商务统计方法能用来概括或描述各种数据,称为描述统计(descriptive statistics)对于数据中的模式可能会以某种方式根据观测值中的随机性和不确定性来建模,然后根据所建立的模型来对被研究

2、的过程或总体做出推断,称为推断统计(Inferential statistics),也称为预测统计(predictive statistics)Copyright by RUAN Jing首都经济贸易大学 No. 1统计的对象统计的对象数据如果不会处理微观数据,那么你无法了解各个上报数据单位的运作你不可能了解经济的具体运行情况你不可能知道看到/得到的数据的真伪你根本无法做领导希望知道,但又不知道如何得到的信息你在市场上找不到满意的工作说明你不是真正学统计的吴喜之Copyright by RUAN Jing首都经济贸易大学 No. 2什么是统计建模什么是统计建模统计建模是以计算机统计分析软件为工

3、具,利用各种统计分析方法对批量数据建立统计模型和探索处理的过程,用于揭示数据背后的因素,诠释社会经济现象,或对经济和社会发展作出预测或判断。题目一般来源于社会、经济和管理科学等方面经过适当简化加工的实际问题,不要求参赛者预先掌握深入的专门知识,只需要学过统计专业的基本内容,较为熟练地掌握统计分析方法,并且具备一定的统计工作经验。题目有较大的灵活性供参赛者发挥其创造能力。Copyright by RUAN Jing首都经济贸易大学 No. 3统计建模要求统计建模要求参赛者应根据题目要求,完成一篇包括模型的假设、建立和求解、计算方法的设计及计算机实现、结果的分析和检验、模型的改进等方面的论文(即答

4、卷)。大赛评奖以假设的合理性、建模的创造性、结果的正确性和文字表述的清晰程度为主要标准。统计建模实际上是一个从数据到结论的过程。Copyright by RUAN Jing首都经济贸易大学 No. 4统计建模例子统计建模例子Copyright by RUAN Jing首都经济贸易大学 No. 5统计建模的特点统计建模的特点从分析实际问题入手;具有较强的理论背景;往往附带一定的假设;多种统计方法的结合;从数据到结论的思路;统计结论的不确定性。Copyright by RUAN Jing首都经济贸易大学 No. 6统计建模统计建模的的数据数据分析思分析思路路Copyright by RUAN Ji

5、ng首都经济贸易大学 No. 72. 数据采集数据采集1. 规划规划3. 数据访问数据访问数据分析数据分析 5. 5. 报告报告 6. 6. 部署部署 7. 7. 4. 数据管理数据管理和数据准备和数据准备数据处理数据处理的的一般流程一般流程Copyright by RUAN Jing首都经济贸易大学 No. 8数据编码数据录入数据导入数据整理单项多值开放数据分析图表、报表结果判断清洗调整变量定义缺失值处理统计建模统计建模与数据分析与数据分析的具体步骤的具体步骤明确问题:明确问题:统计建模强调问题导向,因此,首先要明确需要求解的问题。收集信息:收集信息:在明确问题的基础上,根据题目的要求,从可

6、用的数据库中收集和整理出各种必要的信息。模型假设:模型假设:利用统计分析方法,对问题做出必要的、合理的假设,使问题的主要特征凸现出来,忽略问题的次要方面。模型构建:模型构建:根据所做的假设以及事物之间的联系,构造各种量之间的关系,把问题转化为统计分析问题,注意要尽量采用适当的统计分析模型及方法。模型求解:模型求解:利用构建的模型进行计算,并得到与问题有关的一些信息。如果必要,可对问题作出进一步的简化或提出进一步的假设。模型分析:模型分析:对所得到的信息进行分析,形成判断,特别要注意当数据变化时所得结果是否稳定。结果检验:结果检验:分析所得结果的实际意义,与实际情况进行比较,看是否符合实际,如果

7、不够理想,应该修改、补充假设,或重新建模。撰写论文:撰写论文:在上述基础上形成论文,论文应包括问题的阐述、假设的叙述、模型构建的过程、模型求解结果、主要结论以及对结论的评价。 Copyright by RUAN Jing首都经济贸易大学 No. 9论文(报告)的构成论文(报告)的构成(一)标题、摘要部分(一)标题、摘要部分 题目写出较确切的题目 摘要200-300字,包括模型的主要特点、建模方法和主要结果。(二)主体部分(二)主体部分 1问题提出,问题分析。 2模型建立: (1)提出假设条件,明确概念,引进参数; (2)模型构建; (3)模型求解。 3计算方法设计和计算机实现。 4主要的结论或

8、发现。 5结果分析与检验。 6讨论模型的优缺点,结果的意义。 7参考文献。(三)附录部分(三)附录部分 计算程序,框图。 各种求解演算过程,计算中间结果。 各种图形、表格。 Copyright by RUAN Jing首都经济贸易大学 No. 10统计建模的常见分析方法及其应用工具统计建模的常见分析方法及其应用工具数据的类型与整理;模型的假定;常见数据类型及其分析方法。Copyright by RUAN Jing首都经济贸易大学 No. 11数据的类型数据的类型规范形式:列为变量(字段):如单位名、ID、类别、净资产、投入、债务、利润行为观测值(记录):某个单位的变量值不规范的形式:需要进一步

9、数据预处理抽样或普查表、图像、档案文字、网络数据等必须变成规范形式储藏于计算机中Copyright by RUAN Jing首都经济贸易大学 No. 12数据的类型数据的类型定量变量(数量变量, 区间变量,指标)产值, 利润, 收入, 年龄, 资产等等定性变量(名义变量, 分类变量,维度)性别, 种族, 区域, 公司类型, 型号定序变量分数A,B, 级别, 疾病(早期)Copyright by RUAN Jing首都经济贸易大学 No. 13数据的角色数据的角色用于回归和分类: (区分自变量和因变量)自变量(预测变量, 协变量,解释变量)因变量(响应变量,被解释变量)互为自变量和因变量(如路径

10、模型)用于其它目的(不区分自变量和因变量)聚类, 因子分析等等Copyright by RUAN Jing首都经济贸易大学 No. 14数据的整理数据的整理无效数据点:缺失或异常值无效记录(即无效观测) :冗余记录所有有效字段均为缺失值或异常值重要字段缺失或异常质量差的记录:各字段的取值呈现矛盾无效字段(即无效变量):所有记录取值均相同:如“限额以上标志”质量差的字段:缺失比例较大,如有效率小于50%Copyright by RUAN Jing首都经济贸易大学 No. 15数据的整理数据的整理数据不一定都是原始的(最好不用)某些变量是其它变量的计算结果某些变量是百分比或人均XXX某些变量是另外

11、变量的部分要看数据之间的逻辑关系是否正确数据是否胡编、造假或关系有矛盾Copyright by RUAN Jing首都经济贸易大学 No. 16数据整理的依据数据整理的依据根据需要你绝对不是为整理数据而整理, 一定有目的, 知道哪些有意义利用探索性数据分析的方法决定需要的变量画图、相关分析、列联表分析等等Copyright by RUAN Jing首都经济贸易大学 No. 17数据的作用数据的作用描述数据各个变量本身的关系预测未来这都需要建立模型经典的用数学公式表达的模型现代的用算法/程序表达的模型都需要用计算机统计软件处理不会用软件, 就不要搞统计用什么软件所有用得上的都用(实际上很容易)在

12、用中学软件最快Copyright by RUAN Jing首都经济贸易大学 No. 18模型的假定模型的假定Copyright by RUAN Jing首都经济贸易大学 No. 19我们想要知道的是我们想要知道的是数据数据结论结论数据所满足的真实模型数据所满足的真实模型假定的模型假定的模型由假定的由假定的模型和数据模型和数据得到的结论得到的结论假定模型和假定模型和满足假定模型满足假定模型的相关数据的相关数据但实际上可能知道的是模型的假定模型的假定为什么对经典模型需要各种假定在验证模型的时候拟合时, 需要通过概率论(p值)确定拟合好坏, 必须假定分布这些假定无法证明正确, 但可以通过各种方法找问

13、题, 找不着就实行发射火箭只能够说没有发现问题, 无人敢说没有问题 Copyright by RUAN Jing首都经济贸易大学 No. 20模型的假定模型的假定现代算法模型不用假定不用概率的p值用训练数据集建模用测试数据集检验得到的百分比较p值更能说服(无论是懂统计的还是不懂统计的)人Copyright by RUAN Jing首都经济贸易大学 No. 21数据与建模方法数据与建模方法横截面数据(大体上同时的,每个对象只观测一次)时间序列(经典的只有一个变量)面板数据(多层模型,多水平模型)满意度,量表数据(PLS, 结构方程模型)离散、计数(列联表、微观计量模型)Copyright by

14、RUAN Jing首都经济贸易大学 No. 22横截面数据及常用模型横截面数据及常用模型因变量为数量 (自变量可以是分类或数量的): 各种回归(线性,非线性),注意对变量的变换以克服非正态性所造成的问题;F,t检验等;用p值判断拟合(R,SPSS,SAS)数据挖掘分位数回归(R)注意回归模型的经典假定Copyright by RUAN Jing首都经济贸易大学 No. 23横截面数据及常用模型横截面数据及常用模型如果是二分类(自变量可以是定性或定量): 离散因变量模型,如Logistic回归, probit回归(R,SPSS,SAS)判别分析(自变量必需是定量的) (R,SPSS,SAS)神经

15、网络, 决策树(R,SAS, Climentine), adaboost, bagging, Random Forests, SVM等等如果因变量有多个水平判别分析(自变量必需是定量的)(R,SPSS,SAS)神经网络, 决策树(R,SAS, Climentine), adaboost, bagging, Random Forests, SVM等等Copyright by RUAN Jing首都经济贸易大学 No. 24横截面数据及常用模型横截面数据及常用模型因变量为计数/频数(列联表)多项分布对数线性模型Poisson对数线性模型(事故,疾病等)(R,SAS, SPSS)作为调查得到的各种定

16、性变量,欲了解它们之间的关系: l关联规则分析(数据挖掘软件) (R,SAS, Climentine)Copyright by RUAN Jing首都经济贸易大学 No. 25面板数据与混合模型面板数据与混合模型一般用R, SAS, SPSS,Eviews,STATA要把固定部分和随机部分标出来每个对象(一定要有ID)有多个观测也可有生存分析的内容也有GLM(generalized linear model)Copyright by RUAN Jing首都经济贸易大学 No. 26时间序列建模时间序列建模三个(四个)部分趋势周期随机误差循环(没有周期)描述: 分解(把三个部分分解),利用各种方

17、法(指数平滑等)描述和预测: ARIMA模型(条件及优缺点!)注意必需是孤立系统(即没有其它因素影响)Copyright by RUAN Jing首都经济贸易大学 No. 27多变量数据的分析多变量数据的分析经典多元统计方法主成分分析/因子分析(相关的变量中找出代表,即这些变量的一两个线性组合), 目的是降维聚类分析(快速聚类/K-means聚类,分层聚类要求数量变量;两步聚类(SPSS)可以允许分类变量)判别分析(因变量分类,自变量数量)对应分析(描述性的,描述分类变量的)典型相关分析(研究两组变量相关的情况)各种软件均可Copyright by RUAN Jing首都经济贸易大学 No.

18、28常用统计软件介绍常用统计软件介绍SAS系统是由众多模块组成的系统。其中Base SAS模块是SAS系统的核心。其它各模块 均在Base SAS提供的环境中运行。用户可选择需要的模块与Base SAS一起构成一个用户化 的SAS系统。SAS系统既可以采用菜单式操作方式,也可以采用交互式编程操作。Copyright by RUAN Jing首都经济贸易大学 No. 29Copyright by RUAN JingMATLAB是MATrix LABoratory的缩写,早期主要用于现代控制中复杂的矩阵、向量的各种运算。由于 MATLAB提供了强大的矩阵处理和绘图功能,很多专家因此在自己擅长的领域

19、用它编写了许多专门的MATLAB工具包,如控制系统工具包;系统辨识工具包;信号处理工具包;鲁棒控制工具包;最优化工具包等等。由于MATLAB功能的不断扩展,所以现在的MATLAB已不仅仅局限与现代控制系统分析和综合应用,它已是一种包罗众多学科的功能强大的“技术计算语言”Maple是加拿大滑铁卢大学(University of Waterloo)和Waterloo Maple Software公司注册的一套为微积分、线性代数和微分方程等高等数学使用的软件包。它是当今世界上最优秀的几个数学软件之一,它以良好的使用环境、强有力的符号计算、高精度的数值计算、灵活的图形显示和高效的编程功能。Maple软

20、件适用于解决微积分、解析几何、线性代数、微分方程、计算方法、概率统计等数学分支中的常见计算问题。免费的数据管理软件开发者:丹麦欧登塞(Odense, Denmark)的一个非盈利组织,即The EpiData Association程序设计者:Jens M. Lauritsen, Michael Bruus和Mark Myatt记录数最好不要超过20万30万条,整个录入界面不要超过999行LISREL主要用于:标准结构方程建模和多层结构方程建模这些方法适用下列数据类型:基于连续变量的完整的和不完整的复杂调查数据;基于序数和连续变量的完整的和不完整的简单随机样本数据常用统计软件介绍常用统计软件介

21、绍SPSS(Statistical Product and Service Solutions)是一个组合式软件包,它集数据整理、分析功能于一身,由美国斯坦福大学的三位研究生于20世纪60年代末研制。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。SPSS由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应用于经济学、生物学、心理学、医疗卫生、体育、农业、林业、商业、金融等各个领域。Cop

22、yright by RUAN Jing首都经济贸易大学 No. 30EViews软件是在科学数据分析与评价、金融分析、宏观经济预测、销售预测和成本分析等领域应用非常广泛的预测分析计量软件,其前身是时间序列回归软件TSP。TSP软件基于DOS操作系统,EViews软件则在Windows环境下运行,更多地使用菜单和窗口方式,界面友好,使得本来复杂的数据分析过程变得易学易用。 EViews能够处理以时间序列为主的多种类型的数据,进行包括描述统计、回归分析、传统时间序列分析等基本的数据分析以及建立条件异方差、向量自回归等复杂的计量经济模型。Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论