版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实用统计分析方法与应用现代统计学的研究对象:统计方法和统计逻辑现代统计学的分类: 从实际应用中的方法来区分可分为现代统计学概述1描述统计以总体全面资料或非随机性局部资料为基础的统计理论与方法体系统计总体论)、统计设计、统计调查、统计整理、统计指数、动态分析理论、数理统计依据随机样本推断总体特征的理论与方法体系概率论、经典统计理论、贝叶斯理论、统计判决理论等R编程可视SAS编程Eviews编程可视Matlab编程可视SPSS可视Stata可视Excel可视。统计软件2常用统计软件一览(3种数据形态)SPSS的特点:1:可视化操作,界面友好美观。2:数据接口多。3:操作简单,用户体验好。4:较之E
2、xcel数据处理能力更强。数理统计的基本框架: 3微积分概率论数理统计基础。计量经济学时间序列数理统计的基本框架:微积分:数学基础,为概率论的运算以及数理统计的统计量提供基础。概率论:数理统计学所考察的数据都带有随机性(偶然性)的误差。这给根据这种数据所作出的结论带来了一种不确定性,其量化要借助于概率论的概念和方法。数理统计基础:对数据的结构分析和条件检验。对以数据为基础的计量经济学提供前端分析。计量经济学:利用建立模型和优化模型解决实际问题的方法。时间序列分析:是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。4数理统
3、计的基本框架: 5总体所研究对象的全体。个体:总体中最小的研究单位。总体容量:总体中所包含的个体个数。总体中每一个个体都具有相同的观察特征。样本从总体中抽出若干个个体组成的集体样本容量:样本中所包含的个体个数。样本的分类取决于取得样本的方法。如简单随机样本等。随机变量对客观事物进行观察试验的结果。随机变量是将试验事件数量化。6随机变量的数学特征7随机变量的数学特征随机变量的分类定性分类随机变量可分为分类变量和有序变量定量分类随机变量按数据集是否能够取有限个或至多可列个值,可分为离散型变量和连续型变量。离散型变量:随机变量X只可能取有限个或至多可列个值连续型变量:变量可以在某个区间内取任一实数,
4、即变量的取值可以是连续的随机变量的数学特征8分布:分布是形容数据的一类集体形态的特征,分布列或分布函数代表了数据出现在不同位置拥有的不同概率。离散型随机变量的分布列:表现出每一个随机变量取值及出现的概率例:价格A1(70万)A2(88万)A3(108万)占比25%50%25%某楼盘当期开盘的户型总价分布列常见的离散型变量分布:0-1分布,泊松分布随机变量的数学特征9随机变量的数学特征10最常用的连续型随机变量分布正态分布 在统计中,许多重要的分布都是连续型分布,其中一种特别重要的连续型随机变量的概率分布就是正态分布(Normal Distribution)。正态分布最初为 De Moivre于
5、 1773 年发现,其后,拉普拉斯(Laplace)和高斯(Gauss)对它作出了很大的贡献,尤其是高斯的贡献最为突出,所以正态分布又称为高斯分布。随机变量的数学特征期望方差协方差与相关系数大数定律与中心极限定理11随机变量的数学特征期望:在概率论和统计学中,一个离散型随机变量的期望值(或数学期望、或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。离散型随机变量:12以频率为权重的加权平均 随机变量X的数学期望,记作E(X),即 13例 某楼盘当期开盘的户型总价的分布列求整个项目的平均价格随机变量的数学特征 E(X)=70*25%+88*50%+108*25%=88.5价格A1(
6、70万)A2(88万)A3(108万)占比25%50%25%随机变量的数学特征14连续型随机变量设连续型随机变量X的概率密度为 f (x), 则正态分布的期望数学期望的意义15 试验次数较大时,X的观测值的算术平均值 在E(X)附近摆动数学期望又可以称为期望值(Expected Value),均值(Mean)E(X)反映了随机变量X取值的“概率平均”,是X的可能值以其相应概率的加权平均。方差的引入16E( X1 )=50 20 30 50 70 801/8 1/8 1/2 1/8 1/8E( X2 )=50 总价(万元)占比 40 50 60 1/4 1/2 1/4设有两个楼盘,其各户型总价取
7、值规律如下: 总价(万元)占比 两种个楼盘的总价均值是相同的,但楼盘2的波动更大方差17均方差(标准差) 设 是一随机变量,如果 存在,则称为 的方差,记作 或 即 方差的计算步骤18Step 1: 计算期望 E(X)Step 2: 计算 E(X2)Step 3: 计算 D(X)离散型 连续型 离散型 连续型 协方差 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 直观上来看,协方差表示的是两个变量总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的
8、期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。19相关系数 前面说到当两个变量互为统计独立时,协方差COV=0 但反之协方差COV=0时,两个变量并不一定统计独立 相关系数是变量之间相关程度的指标。样本相关系数用r表示,总体相关系数用表示,相关系数的取值范围为-1,120定义21样本与总体引 言22 随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。 概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是在这已知是基础上得出来的。 但
9、实际中,情况往往并非如此,一个随机现象所服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。例如: 望今缘在开售之前做市场调查,目标总体内有购房需求客户的当期支付能力或者客户当前对户型面积的需求。所得出的数据集是服从的分布是未知的。 数理统计的任务则是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性做出合理的推断。样本与总体23总体与样本 在数理统计中,把研究对象的全体称为总体(population)或母体,而把组成总体的每个单元称为个体。 例如我们做市场调查,目标客户群体就是总体,每一个客户称为个体。总体:样本: 在抽取过程中,每抽取一个个体,就是对
10、总体X进行一次随机试验,每次抽取的n个个体 ,称为总体X的一个容量为n的样本(sample)或子样;其中样本中所包含的个体数量称为样本容量n。总体是唯一的、确定的,而样本是不确定的、可变的、随机的。 抽样及抽样方法24简单随机抽样类型抽样整群抽样等距抽样阶段抽样常用抽样方法定义 从欲研究的全部样品中抽取一部分样品单位。其基本要求是要保证所抽取的样品单位对全部样品具有充分的代表性。抽样的目的是从被抽取样品单位的分析、研究结果来估计和推断全部样品特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。简单随机样本样本必须具有的性质25代表性即样本( )的每个分量 与总体 具有相
11、同的概率分布。 独立性即每次抽样的结果既不影响其余各次抽样的结果,也不受其它各次抽 样结果的影响。 满足上述两点要求的子样称为简单随机样本.获得简单随机样本的抽样方法叫简单随机抽样. 样本(sample)总体(population)抽样(sampling)总体容量(population size)N=45样本容量(sample size)n=10 为推断总体的某些特征,而从总体中按一定方法抽取若干个体,这一过程称为抽样,所抽取的个体称为样本。抽样方法自有限总体的简单随机抽样简单随机样本有限总体 总体中每一个体以相等的概率被抽出,称简单随机抽样。有放回抽样与无放回抽样之分。自有限总体的简单随机抽
12、样,特指有放回抽样。2725213452326282930313336141312111098762120224243449117371635153832394041241834452383257362323129抽样方法自无限总体的简单随机抽样无限总体自无限总体抽取样本,采用无放回抽样。如果满足以下两个条件,则称简单随机抽样:每个个体来自同一个总体样本中每个个体的抽取是独立的简单随机样本抽样方法统计量计算总 体确定性样 本随机抽样随机性随机性 样本统计量做为随机变量,具有特定的概率分布。 把握住他们的分布规律就找到了推断总体参数的依据。总体参数理论上可计算 确定性抽样分布30统计方法参数估计
13、31 数理统计问题:如何选取样本来对总体的种种统计特征作出判断。 参数估计问题:知道随机变量(总体)的分布类型,但确切的形式不知道,根据样本来估计总体的参数,这类问题称为参数估计。参数估计的类型点估计、区间估计 点估计的方法:构造一个统计量来对总体进行估计主要方法:数字特征法、矩法、极大似然法。 区间估计:点估计总是有误差的,但没有衡量偏差程度的量,区间估计则是按一定的可靠性程度对待估参数给出一个区间范围。显著性水平置信度显著性水平下,在1- 置信水平下的置信区间:置信度置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度.也就是概率是对个人信念合理性的量度.概率的置信度解释表明,
14、事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。是否为大样本n30值是否已知值是否已知总体是否近似正态分布用样本标准差s估计用样本标准差s估计将样本容量增加到n30以便进行区间估计是是是是否否否否总体均值区间估计程序假设检验34引 言 统计假设通过实际观察或理论分析对总体分布形式 或对总体分布形式中的某些参数作出某种 假设。假设检验根据问题的要求提出假设,构造适当的统 计量,按照样本提供的信息,以及一定的 规则,对
15、假设的正确性进行判断。基本原则小概率事件在一次试验中是不可能发生的。假设检验35参数的假设检验:已知总体的分布类型,对分布函数或密度函数中的某些 参数提出假设,并检验。思想 :如果原假设成立,那么某个分布已知的统计量在某个区域内取值的概率应该较小,如果样本的观测数值落在这个小概率区域内,则原假设不正确,所以,拒绝原假设;否则,接受原假设。 拒绝域 检验水平 假设检验36基本步骤 1、提出原假设,确定备择假设; 2、构造分布已知的合适的统计量; 3、由给定的检验水平,求出在H0成立的条件下的 临界值(上侧分位数,或双侧分位数);4、计算统计量的样本观测值,如果落在拒绝域内, 则拒绝原假设,否则,
16、接受原假设。37相关分析 简单相关分析是对两个变量之间的相关程度进行分析。单相关分析所用的指标称为单相关系数,又称为单相关系数、Pearson(皮尔森)相关系数或相关系数。通常以表示总体的相关系数,以表示样本的相关系数38相关系数的检验 在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性,样本容量越小其可信程度就越差。因此也需要进行检验,即对总体相关系数是否等于进行检验。数学上可以证明,在与都服从于正态分布,并且又有的条件下,可以采用检验来确定的显著性。其步骤如下:39关键术语无放回抽样(sampling without replacement)一个元素一旦选
17、入样本,就从总体中剔除,不能再次被选入放回抽抽样(sampling with replacement)一个元素一旦被选入样本,仍被放回总体中。先前被选入的元素可能再次被抽到,并且在本样中可能出现多次抽样分布(sampling distribution)样本统计量所有可能值构成的概率分布点估计(point estimate)用做总体参数估计量的值。它是点估计量的具体的取值点估计量(point estimator)提供总体参数点估计的样本统计量标准误差(standard error)点估计量的标准差中心极限定理(central limit theorem)当样本容量大的时候,用正态分布近似样本均值的分布和样本比率的抽样分布区间估计(interval estimate)总体参数估计值的一个范围,确信该范围包括参数的值在内抽样误差(sample error)无偏估计值(如样本均值)与所估计的总体值(如总体均值)之差的绝对值置信水平(confidence level)与区间估计相联系的置信度边际误差(margin error)置信区间中从点估计值中所加上或减去的值t分布(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年辽宁省医药行业专业技术资格考试(医药工程专业知识(一))综合能力测试题及答案解析
- 2026年广州市第一人民医院护理文员招聘14人备考题库及一套完整答案详解
- 实验仪器介绍
- 2026年湖北省医学会招聘备考题库及完整答案详解一套
- 2026年龙岩学院公开招聘高层次人才80人备考题库及完整答案详解一套
- new共青团中央所属单位2026年度高校毕业生公开招聘66人备考题库及答案详解一套
- 智慧团建考试题目及答案
- 2026年兰溪市消防救援大队面向社会公开招聘劳务派遣工作人员的备考题库及1套完整答案详解
- 幼师招考试题及答案
- 2026年肇庆市怀集县教育局赴广州大学公开招聘高中教师备考题库及答案详解(考点梳理)
- 2025榆林市旅游投资集团有限公司招聘(15人)参考笔试题库及答案解析
- 2025福建三明市总工会三明市工人文化宫招聘工作人1人参考题库带答案解析
- 【人卫课件耳鼻喉9版】鼻科学第一章 鼻的应用解剖学及生理学
- 抵押车过户协议书
- 浅析我国政府雇员制的利弊及发展对策研究
- 2025年全国高校辅导员国赛大赛基础知识测试题(附答案)(三套)
- 2025年亚氨基二乙酸行业分析报告及未来发展趋势预测
- 2025年江苏省普通高中高二上学期学业水平合格性考试调研历史试题(解析版)
- 学堂在线 雨课堂 学堂云 批判性思维-方法和实践 章节测试答案
- (2025)全民反诈知识竞赛题库及答案
- 2025年高素质农民培育项目方案投标文件(技术方案)
评论
0/150
提交评论