版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
科学史上最有名的数据分析例子开普勒三定律数据来源:第谷·布拉赫(1546-1601,丹麦人),观察力极强的天文学家,一辈子(20年)观察记录了750颗行星资料,位置误差不超过0.67°。观测数据可以视为实验模型。数据处理:开普勒(1571-1630,德国人),身体瘦弱、近视又散光,不适合观天,但有一个非常聪明的数学头脑、坚韧的性格(甚至有些固执)和坚强的信念(宇宙是一个和谐的整体),花了16年(1596-1612)研究第谷的观测数据,得到了开普勒三定律。开普勒三定律则为唯象模型。2.数据分析法2.1思想采用数理统计方法(如回归分析、聚类分析等)或插值方法或曲线拟合方法,对已知离散数据建模。适用范围:系统的结构性质不大清楚,无法从理论分析中得到系统的规律,也不便于类比,但有若干能表征系统规律、描述系统状态的数据可利用。2.2数据分析法2.2.1基础知识(1)数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出;(2)数据分析(dataanalysis)是指分析数据的技术和理论;(3)数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律;(4)作用:在实用中,它可帮助人们作判断,以采取适当行动。(5)实际问题所涉及的数据分为:①受到随机性影响(随机现象)的数据;②不受随机性影响(确定现象)的数据;③难以确定性质的数据(如灰色数据)。(6)数理统计学是一门以收集和分析随机数据为内容的学科,目的是对数据所来自的总体作出判断,总体有一定的概率模型,推断的结论也往往一概率的形式表达(如产品检验合格率)。(7)探索性数据分析是在尽量少的先验假定下处理数据,以表格、摘要、图示等直观的手段,探索数据的结构及检测对于某种指定模型是否有重大偏离。它可以作为进一步分析的基础,也可以对数据作出非正式的解释。实验者常常据此扩充或修改其实验方案(作图法也该法的重要方法,如饼图、直方图、条形图、走势图或插值法、曲线(面)拟合法等)。2.2.2典型的数据分析工作步骤第一步:探索性数据分析目的:通过作图、造表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。第二步:模型选定分析目的:在探索性分析的基础上,提出一类或几类可能的模型(如进一步确定拟合多项式(方程)的次数和各项的系数)。第三步:推断分析目的:通常用数理统计或其它方法对所选定的模型或估计的可靠程度或精确程度作出推断(如统计学中的假设检验、参数估计、统计推断)。3.建模中的概率统计方法现实世界存在确定性现象和随机现象,研究随机现象主要由随机数学来承担,随机数学包括十几个分支,但主要有概率论、数理统计、试验设计、贝叶斯统计、随机过程、时间序列分析、马尔可夫决策、可靠性理论等。3.1概率统计建模基本思想面对实际的随机现象,有两类定量方法:(1)方法一:概率统计方法。其思想是从对随机现象的大量观察中提出相应的数学模型(即概率空间),用随机变量来描述随机现象,然后再研究这一数学模型的性质、特点(如随机变量及其分布、随机变量的数字特征等),由此来阐述随机现象的统计规律性。(2)方法二:数理统计方法。其思想是从对随机现象的观测所得到的资料出发(在概率论的指导下)研究怎样去有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议。(3)概率统计分析方法建模的步骤:【Step1】:模型的选择与建立即确定总体的分布类型(分布函数或密度函数如二项分布、泊松分布、正态分布、、t、F分布等)、回归函数等,其方法为绘制频数直方图。【Step2】:描述性统计数据的收集(全面观测、抽样观测和安排特定的实验(实验设计法、正交实验设计、回归设计、抽样检验))数据的整理(数字特征和统计量,如均值、方差等)【Step3】:统计推断据总体模型和由样本描述分析,作出有关总体分布的某种论断,如残次品率为正态分布,常用参数估计和假设检验,或用统计软件做概率值检验。【Step4】:统计预测预测随机变量在未来某个时刻的值,如预测一种产品在未来三年内市场的销售量,常用回归。【Step5】:统计决策就是依据所做的统计推断或预测,并考虑到行动的后果(一经济损失的形式表示),而指定的一种行动方案。【注意】:Step4和Step5涉及内容包含:非参数统计、多元统计分析(相关、方差、聚类、判别、因子、主成分、多维标度法、多变量的图表示法、对应分析(列联表对应分析))、序贯分析、时间序列分析和随机过程统计等。(4)熟悉几个重要的分布:二项分布、泊松分布、正态分布、分布、t分布、F分布。在数学软件中包含很多概率分布,例如在Matlab的统计工具箱(toolbox\stats)中的概率分布共有20多种,有norm--正态分布、chi2--分布、t--t分布、f—F分布等。工具箱对每一种分布都提供5类函数,其命令字为:pdf-概率密度,cdf-概率分布,inv-逆概率分布,stat-均值与方差,rnd-随机数生成(可以通过helppdf等查询命令格式)3.2建模中的实用概率统计方法简单地讲,统计的任务就是从样本推断总体。样本是统计研究的主要对象,对于一次具体的试验,样本是一组数据,但它的取值是随机的,从概率论的观点可以把样本当作随机变量,而且当每个个体都是从总体中独立抽取(即个体被抽取的结果互不影响)时,样本就是一组相互独立、同分布的随机变量,当然总体也可以被视为随机变量,与样本同分布。例如,学校全体学生的身高为总体,其中100名学生的身高数据为样本,100为样本容量。在实际问题的数学建模中,常用的统计方法有数据的统计描述和分析、统计推断、相关性分析、方差分析、回归分析、因子分析、主成分分析、聚类分析和判别分析等。3.2.1数据的描述性统计针对一组杂乱无章的数据(即样本),描述性统计的步骤为:初步整理和直观描述----作出频数表和直方图进一步加工,提取有用信息----计算统计量统计量:用来进一步反映数据特征,它是加工出来的,反映样本数据特征的函数,它不含任何未知量,大致可以分三类:表示位置的统计量----样本均值、中位数、上下1、4分位点表示变异程度的统计量----标准差、方差、极差表示分布形状的统计量----偏度、峰度3.2.2统计推断统计推断主要有参数估计和假设检验。参数估计:点估计、均值的区间估计和方差的区间估计假设检验:均值检验、方差检验【例】:学校学生的身高构成一个总体,通常认为身高是服从正态分布的(这就是问题的基本假定),从这群人中随机抽出n人,量得身高为(这就是观测数据),它受到随机性的影响。若要估计这群人的平均身高,即上述正态分布的均值(这种估计就是一种推断形式,此处估计的对象是总体分布中的未知参数,故又称为参数估计)。若感兴趣的问题是“平均身高是否超过1.7米”就需要通过样本检验关于总体分布的命题“”是否成立?(这便是假设检验)3.2.3相关性分析在现实问题中,常会遇到没有因果关系的变量x与y(地位对称),比如:(1)一个家庭的月收入x与这个家庭的孩子数量y;(2)一个人的身高x与他的体重y等。这里x与y无因果关系,但它们之间却存在着一定的关系,如(2)中,一般来说个子高的人体重也大一些。因此,人们希望了解这些x、y之间关系究竟密切到了什么程度?这便需要统计意义下的相关。相关分析的步骤:建立样本相关系数,这是衡量x、y之间关系密切程度的指标。主要任务:由x、y的一些观测值如估计及检验有关的假设,如(一般地,当时,x、y不相关;时,x、y有正(负)相关)。【例】:从某大学中随机选择10名男生,的观测值如表3。表3身高与体重观测值身高(x)1.711.631.841.901.581.601.751.781.801.64体重(y)65637075605564696558计算相关系数:;设(x,y)服从正态分布,考虑假设检验问题:H0:x与y线性不相关,取显著水平,查表得所以拒绝H0,即x与y的线性相关性高度显著,即格子高的人一般体重也要大些。3.2.4方差分析在试验和实践中,影响试验或生产的因素往往很多,我们通常需要分析哪种因素对事情有显著影
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建福州市水务文化旅游有限公司招聘4人笔试历年参考题库附带答案详解
- 2025湖南邵阳市邵东市自来水公司招聘人员笔试历年参考题库附带答案详解
- 2025浙江温州市市政工程建设开发公司招聘一般岗位7人笔试历年参考题库附带答案详解
- 2025浙江奉化区象山港湾城镇建设开发有限公司招聘现场及说明笔试历年参考题库附带答案详解
- 2025江西省瑞寻高速公路有限责任公司招聘1人笔试历年参考题库附带答案详解
- 2025新疆红星文化旅游投资有限公司第二次面向社会选聘1人笔试历年参考题库附带答案详解
- 2025广东清远连山壮族瑶族自治县程山农旅发展有限公司招聘2名合同制员工笔试笔试历年参考题库附带答案详解
- 2026年国家能源集团重庆公司校园招聘考试模拟试题及答案解析
- 2026年山东小鸭集团有限责任公司校园招聘笔试备考试题及答案解析
- 2026海南万宁市招聘教师33人(1号)考试参考题库及答案解析
- 2026年及未来5年市场数据中国输入法APP行业市场深度分析及发展趋势预测报告
- 法学概论题库及答案
- 2025-2026学年湖北省宜昌市高三(下)调研英语试卷(3月份)
- DB42∕T 2514-2026 住宅建筑模数化设计标准
- 2026年马鞍山当涂县供电所客户经理招聘10名考试备考题库及答案解析
- 2026步步高高考大二轮复习数学-思维提升 培优点4 概率与统计中的递推关系
- 上海中国极地研究中心(中国极地研究所)2025年招聘20人笔试历年参考题库附带答案详解(5卷)
- (新教材)2026人教版三年级下册数学 第2课时 周长 课件
- 电厂环保管理责任制度
- 2026年及未来5年中国浙江省乡村旅游行业市场调查研究及发展战略研究报告
- 2026年内蒙古自治区高职单招语文试题题库(答案+解析)
评论
0/150
提交评论