数理统计模型.ppt_第1页
数理统计模型.ppt_第2页
数理统计模型.ppt_第3页
数理统计模型.ppt_第4页
数理统计模型.ppt_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六讲数理统计模型、张永安、主要内容、数理统计模型的概要描述性统计推论性统计模型统计模型中常见的错误统计模型编制计程仪程序、第一节数理统计模型的概要、第一、统计分析的概要统计分析是通过计算研究对象特征的样本平均值、方差或所占比例, 研究样本特征值与母体特征值的关系,通过研究变量之间的关系,特别是因果关系,发现被研究对象的发展规律,验证虚拟、结论是否成立,验证关系理论在新时期是否在空中成立。 对于更深的原因,可以引出改变客观世界的战略。 二、统计的两个功能,描述和推论描述性统计概括了所获数据的共享性质。 推论性统计学(inferential statistics )。 推论性统计有助于研究者判断

2、数据。 三、统计分析在管理研究中的功能、统计分析的方法可以为管理研究提供明确准确的形式化语言统计分析是进行科学预测、探索未来的重要方法统计分析技术是处理调查研究资料的必要工具。 第二节描述性统计模型,一、集中倾向分析(一)的含义:集中量数也称为集中倾向量数,是一个数值代表一组数据的一般水平。 常用的集中量的数量是平均、中位数、大众数。 平均值是所有计量资料的算术平均数值,中位数是将计量资料按大小顺序一分为二的变量属性值,即位于排列顺序中间的数值,最频值是计量资料中出现频度最高的数值。 例如,有一组数据显示9个工人本月的产量: 9.6、9.6、9.7、9.9、100、101、102、104、15

3、5,平均1055,中位数100,最多9.6。 (2)集中倾向分析的作用、集中量数说明某种管理现象在一定条件下其数量的一般水平。 集中量的数量能够比较不同空间中的相似现象。 集总量数可以比较一定管理现象在不同时间的变化,说明这些个观现象的发展趋势和规律。 集中量的数量可以用于分析管理现象之间的依赖关系。 二、离散倾向分析、(一)语义离散倾向分析反映了计量资料的离散程度,其常用指标为极差(range )和标准离差(standard deviation )。 极差是计量资料中的最大值和最小值的差,由2个极端值所决定,只能适用于规定距离和定比数据。 标准离差综合地反映所有数据的分散的程度,与平均结合使

4、用,应用于比例数据,其计算式如下。 在标准离差中,x是样本值,x是平均值,n是样本的总数。三、频率和频率分析经常使用频率和频率分析,以视觉感知地反映一组计量资料的分布情况。 次数分布表示测定值中各属性值出现的次数,频度分布以比率表示,是将各属性值除以样本总数得到该属性值的频度。 次数分布也可以转换为视觉感知表示,如柱形图、图像直方图、饼状图等。 在SPSS统计软件中,可以通过在统计菜单中喀呖声摘要、频率,并在频率对话框计程仪中选择所需的格拉夫,来获得这些个的格拉夫。这是第三节推论性统计模型、统计估计的功能。 一、二变量的回归预测和相关性分析、4.4.1回归预测模型、收入x居民储蓄量y、(一)回

5、归模型、x、y、1、回归模型的概念、强正相关、弱正相关、中等正相关、| r |=0.936、| r |=0.560、| r |=0.3390、强负相关、弱负相关、中等负相关、回归预测、相关告诉关系的程度、回归预测找出Y=F(X )的函数关系公式、简单的线性回归、回归预测阶段、数据收集、用散布图确认关系、用最小二乘法推定总体、进行方差分析、画直线、分析残差、 本章的因子是一个因子和输出值(y )的关系是直线关系的单纯的线性回归(Simple Linear Regression ),从样本推定的直线,未知的真直线,Yi= xi i (i=1,n ),I相互独立,n (0,2 )的概率变化简单的线性

6、回归模型,I,ei,(xi,yi ),x,y,这里,iidn (0,2 ),Model定义了对独立变量(x )和从属变量(y )的关系进行方程式化来表示的方法,用于最小化误差平方和的估计方法看到了最小化残差平方和的直线、420410400390380350340320、350400450、独立变量、从属变量、最小二乘法和的简单回归,简单回归直线, 与回归直线的不同(误差),直线是根据最小平方和估计法(least square estimation )的原则描绘的。资料点到直线的距离的平方和最小化。e,b,scatterplotyvs.xwithfittedliney=bx “拟合线”是实际点和

7、直线的平均方差之和被最小化的直线。 实际资料的点和直线的差异称为残差(residuals(e ) ),由拟合线、回归方程结构、1 .回归模型的参数决定,y=a bx可以根据历史数据求出一组x,y值的参数a,b是最小二乘法:例如,某企业的年投资资本y的历史数据如下:例如计算结果,某企业的年投资资本(十万元) x和销货收入(万台) y的历史数据如下: 2、用软件进行回归预测的运算、(1)一维度回归模型的软件运算a .图像分析b .回归运算、二、二次元回归模型的软件运算步骤、1、统计值的各统计值在计算机参数输出中的位置:1、统计值的说明、(1)解释变量、解释变量: y=m1x1 m2x2 b (2)

8、系数m1、m2、mn系数对解释变量的预测值的贡献、解释变量、解释变量、1、统计值的说明、(3)系数的标准误差值se1、se2、sen系数m1、m2、mn 关于真值,系数评价的正负1的标准离差区间概率为2/3 Seb常数项b的标准误差,1,统计值进行说明,(4)判定为系数r2 Y的估计值与实际值的比在01的范围内。 在1的情况中,样本具有良好相关性且在y的估计和实际值之间没有差异。 另一方面,当判定系数为0时,回归公式不能用于预测y值。 关于1、统计值说明和(5)Y估计的标准误差sey真值,可以利用在y估计的正负1的标准离差区间概率为2/3 (6) F统计值或f观测值f统计,来确定在变量和参数之

9、间偶尔观测到的关系的有木有。 (7)使用信任度df来在统计表上查找f阈值。 查找的值与函数LINEST返回的f统计值之比可用于确定模型的可靠性。 1、统计值说明,(8)回归平方和ssreg (9)残差平方和ssresid,作业4,某企业资金投入x和销售收入y如下表:尝试一元回归方法求出回归线,说明两者的相关关系,x=预测5.7万元企业的销货收入。 例2、某市国内总生产率y和固定资产投入X1、劳动力投入X2的历史数据如下表所示,通过线性回归方法确定了其参数值。 例2,-2. 087972.65182248.34758 y=2. 65 x1-2. 09 x 248.35预测: x1=82,X2=3

10、5 y=? Y=192.71,作业,2000年的某企业产品销售量y和企业销售量X1,销售量增加量X2的履历数据如下表所示,试验了回归方法,求出了参数值。 说明两者的相关关系,预测(X1=140,X2=41 )的y值。 作业、三、参数估计、(一)语义参数估计根据样本的统计值估计整体参数值,其逻辑计程仪程序首先具有样本分布,然后估计整体。如果样本估计总参数,则存在点估计和区间估计两种估计方法。 1、点估计点估计是将样本中的某些统计值设为相应总体参数值的单个估计。 想知道某全新产品在各省城市的销售量,我们抽出几个省城市调查其销售量,求其平均值,就是平均销售量的估计。 当然,如果另外抽取几个城市,就会

11、发现它们的平均销售量不完全一致。 这表明点估计本身是一个随机变量。 2、区间估计、区间估计不是测量通常精准性的方法,而是要允许估计值和真值的百分之几的误差,并判断真值有多大程度的可能进入样本统计值分布的某一范围(种子文件区间)。 该范围越宽,估计值的精准性越低。 统计值进入允许偏差范围的概率越大,计数值的可靠性越高。 管理研究通常选择9.5或9.9 (即,O95或099 )的概率并且真实值在偏差范围内并且不超过005或O01的概率超过该范围。 四、假设检验,(一)语义假设检验首先对整体参数建立假设,然后从样本统计值检验是否与假设参数值一致。 (2)假设检查中有2种错误,假设检查中有2种错误:样

12、本是随机抽取的,但也有意外的情况。 例如样品没有反映典型的特征。 如果我们把错误偶然发生的事件视为非偶然,再错误地否定虚无假说,就是犯了第一类错误,本来就认为错误事件是正确的,如果不否定应该否定的虚无假说,就会犯第二类错误。 (3)t检验、(t-test )是检验距离和类变量的相关,即检验距离和等级尺度上,两组间差异有木有。 /有MBA资格的人比企业管理专业的本科毕业生成绩好吗? 男性和女性的积极性的反映是一样的吗? 对于这种问题,通过t检验,检验显著性差异有木有变量中不同组的平均值,即具有两个子范畴的类变量(男性和女性、MBA和本科生),这两组在距离和比率尺度(反映度、表现度等)的平均值,显

13、著性差异能够有木有。 t检验方法、选择分析、平均值比较、独立样本t检验、组变量的选择、信赖水平的选择、信赖水平的选择、输出结果:(4)方差分析,1,意义:方差分析(ANOVA )是检验因素变量为规定距离或定比尺度时,2个以上的组间的平均的显著性差异。如:4组促销人员之间由显著性差异有木有: 1组被送往学校系统学习营销学课程的某一组在实地调查进行在职培训,某一组由经验丰富的销售经管人领导,某一组未接受上述培训。 利用方差分析,可以基于f统计量确定不同组之间的有木有。 2、具体方法、选择分析、平均值比较、单一要素方差分析、选择两个变量,输出结果,2.0位是专业的,即观测频度(4.0、3.0、2.0

14、 ),如果虚无假说(3种饮料的顾客嗜好没有差别)成立,则其希望频度是(3.0、3.0、3.0 ),x检定是观测频度(m )选择、2、方法、分析、记述统计、编写交工程量清单、选择统计、输出2、结果,第四节的统计分析中常见的错误,一、将样本平均值作为母体平均值处理,不进行有效性检验的常见错误之一,例如、 对营销学研究的产品设计了两种邮购广告,分别以随机抽样的方式给居民发送广告,甲广告邮寄200份,4.4居民订购相应的产品,乙广告邮寄400份,1oo居民订购相应的产品。 在这种情况下,很容易算出,甲广告的订单率是2.2,自己广告的订单率是2.5。 我们可以基于这个得出结论吗? 乙广告的设计比甲广告的

15、设计好(乙广告的订购率比甲广告高)。 常见的错误是,根据两组样本的比率值(甲广告的订购率是2.2,乙广告的订购率是2.5 )得出结论,乙广告比甲广告优越。 结论:其实乙方广告不一定比甲方广告好。 因为两个比率值分别基于200个样本和400个样本的化学基。 如果继续扩大样本容量,甲乙两广告的订购率可能会变化。 我们要做的是根据这两组样本数据(甲组200个,乙组400个)来推定甲乙广告设计的优劣。 这是一个显着的检查问题。 显性检查的结果并不认为两者有显著性差异。 二、进行相关性分析时不进行显性检查,进行相关性分析时不进行显性检查,用简单的相关性分析代替偏相关分析,这也是常见的错误。 所谓偏相关,

16、表示除去其他变量的影响后,自变量和要因变量的关联程度。 在分析劳动者的劳动生产率与文化水平的关系时,应受到年龄因素的影响。 偏相关分析首先通过一维度回归分析年龄与文化水平的关系,分析回归方程的残差(多种说明不能在文化水平上说明年龄的偏差)。 然后求出劳动生产率和年龄的回归公式和残差,反映出年龄无法解释劳动生产率偏差的最后三个回归方程,分析了第一个和第二个回归方程的残差关联,表示除去了年龄对其他两个变量的影响的文化水平和劳动生产率的关联,并计算出相关系数。 同样地,偏相关系数的计算公式不一定要存储,很多统计软件能够输出该系数值。 结论:偏相关系数和单纯相关系数语义不同,单纯相关系数以其他因素为剩馀因素,忽略其变化。 偏相关系数在其他变量的关系不变的状态下分析与其他变量的关系。 值得注意的是,偏相关系数可以表示两变量之间的相关强度,但不能反映两变量之间变化的定量关系;三、获得数据后,没有能力用知识和适当的统计方法得出科学结论;(一)得出科学结论的基本方法:(一)对象系统状况的统计,例如平均收入不同态度的百分比、某个特征量的分布等;(2)两组某个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论