版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
整合数据:
数据的图表表达
数据的特征及其表现如何整理、综合及呈现数据主要内容数据特征:特征值与分布特征值:集中趋势与离中趋势分布:正态分布统计思想发展的阶段性相关性描述的图描述的指标回归估计方法相关于回归因果与预测CPI与政府统计CPI政府统计一段文字:无序---有序本字文身构不故成得事作由者把字文句组把子再句成子组故成事。文字本身不构成故事,得由作者把文字组成句子,再把句子组成故事。一堆数据:无头绪---重要内容给定地区编码和数学三的考试成绩:数据表—原始信息规模或观测样本或总体:104数学三的成绩特征:排序后,最大145与最小14;全距或极差(Range):145-14=131算术平均数:108.89中位数:排序后对应50%位置的变量值:115分位数:小到大排序;等分点(4、8、10)对应位置、变量数值在整理及综合的过程中,很容易出现对事实的扭曲,应该避免。误导的统计资料和选择性地呈现数据,都容易制造陷阱。牢记数字不会说谎,说谎的是使用数字的人!好的图与坏的图清晰的数据表变量的分布变量取值的可能范围、取每一个可能值出现的比率饼状图与柱状图清晰的数据表
人数(以千人为单位)百分比(%)高中以下475412.1高中毕业1256831.9曾读大专1122028.5有学士学位836721.3更高学位24446.2总数39534(实际表中数据之和为39353)100.0资料来源:普查局《1998年3月美国教育实况》。表125-34岁人士的受教育程度(1998)变量的取值每一个值出现的比率资料来源舍入误差饼状图的画法:画一个圆,将360度按结构比例分割,对应的
扇形角度就是结构的比重。
饼状图的作用:一个整体由几部分构成;注重结构分布。适
用于类别变量。Piegraph柱状图:通过柱状的高度比较数量的大小,长度比角度容易比较。适用于类别变量。既可以是一个整体的各部分的大小,也可以是不同总体某类指标的大小。Bargraph2009年GDP与人均GDP比较图形与标示柱状图的高度表示数值的大小,宽度则相同;但这类图形单调,很多人喜欢用象形图表示,这样问题就来了。象形图是柱状图的变种,但容易误导。长宽都是比较基准的若干倍数,导致视觉上效应的放大。柱状图:宽一样,长或高度等于变量数值;象形图:A—基准(长a、宽b),面积ab;
B---比较对象,长ma,宽nb,面积mnab象形图1997年美国、德国、日本的出口额分别为5820、5020、4210亿元。用图形如何展示?1001.191.381001.692.64线图---随着时间变动的线图-linegraph线图描述了该变量在不同时间上量出来的结果。线图的特点:横轴为时间刻度;纵轴为变量刻度,并用直线连接各时间点上的变量值,反映变化的趋势。如何观察线图?整体趋势:上升或下降偏离整体形象的情形或时间短或时间点包含有规则的季节变动---常常需要剔出季节变动,以免混淆实际的趋势变化特征。1978-2010中国GDP(现价,亿元)如何读图?要十分注意阅读图的横轴与纵轴的刻度如何画好图?图形直观、简明,效果好于表和数据描述。画一个好图十分重要,一些原则:明确标示图中的变量、单位、刻度、资料来源;让数据很醒目;注意实际上眼睛会捕捉到的信息,如象形图有时排序更清晰、有时过于复杂反倒不清晰。用图形呈现分布直方图--histogram茎叶图—stemplot---stemandleafplot直方图当面临定量数据时,因变量值很多,不能像饼图或柱状图来描述,合适的图就有直方图或茎叶图。将接近的值归为一组,画出分布图。描述数值型变量分布的最常用的图是直方图。直方图的画法---分组数据1.将资料的数值的范围分成同样宽度的组---组限定义必须清晰,不重不漏。2.计算每一组中包含的个体个数;3.画直方图横轴代表需要展示分布的变量的刻度,包含最小值到最大值;纵轴代表计数的刻度;每一个柱体代表一组,底部代表组距,高度代表计数;避免组数太多或太少。经验值5-15组组限频数140以上7130-13918120-12921110-11917100-1091290-99880-89970-79560-69150-59040-49230-39120-29210-19110以下0合计104直方图的解释整体形态:左偏的形态显著偏差:是否存在原理整体形态的异常值异常值(outlier):一般形态以外的值,可以是正常的,也可能是出错造成的。需要解释。分布的形态中心---对称离度---分散的程度对称与偏斜分布:左偏与右偏莎士比亚用字长度的分布---写作风格横轴:字的长度,纵轴:用不同长度字的百分比常见的分布同一种生物的大小---对称分布收入多少-----右偏分布既不对称又不偏斜的分布高分多集中的考试分数分布难度较大的考试分数分布:两个峰茎叶图适用于数据量不多的未分组数据如何画排序:由小到大树茎:任何位数。树叶:个位数;用竖线隔开茎叶图的解释形态与偏斜、异常树茎树叶数据个数141122445713000111255567778899181200112333333344567788821110012234445556788917101122345677881290011368888000015689973466756015041223212142141分类数据统计图表描述频数分布表专业频数(人数)比例百分数(%)合计
1
100图形条形图、对比条形图、饼图、帕累托图-次数排序描述的指标:比例、百分比、比率等顺序数据的统计图表描述所有定类数据的图表描述都适用特有的描述工具:累计频数和频率表按序的类别频数或频率累加得到有两个方向:类别以上或以下向上累计向下累计回答类别人数(人)百分比%人数(人)百分比%人数(人)百分比%非常不满意248248300100不满意108361324427692一般93312257516856满意4515270907525非常满意30103001003010合计300100————顺序数据的描述图形累积频数或频率分布图---洛伦茨曲线环形图数值型数据的统计描述图示分组数据:直方图未分组数据:茎叶图、箱线图时间序列数据:线图多变量数据二维散点图、三维散点图、气泡图、雷达图用数字描述分布---集中趋势指标数值平均数:算术平均、几何平均位置平均:众数、中位数、分位数分类数据:众数顺序数据:中位数和分位数定量数据:平均数(算术平均、几何平均等)描述分布最常用的数值是平均数描述中心平均数的计算:平均数=(变量值之和/变量个数)中位数:中间位置对应的变量值中位数位置的计算:观测样本n(n+1)/2----奇数---对应的观察值;偶数---两个观察值的平均分位数:将数列多等分后得到四分位数(quartile):四等分后得到Q1、Q2、Q3下四分位数Q1:(n+1)/4上四分位数Q3:3(n+1)/4十分位数(decile)第i个十分位数的位置:i×(n+1)/10百分位数(percentile)第i个十分位数的位置:i×(n+1)/100五数综合及箱形图(boxplot)一个分布的五数综合,从小到大依次为最小值、第1四分位数、中位数、第3四分位数、最大值(Mix、Ql、M、Qu、Max)箱形图---用于多个对象的比较MixQlMQuMax股市中的K线图日本古代的米市场计算米价每日涨跌所使用的图示法。是谁发明的?无从考察。为何称为K线?而不是A线或Z线?也无从考察。如何画K线图?(日、周、月)最高价收盘价开盘价最低价最高价开盘价收盘价最低价不同教育程度的人在收入上的差异美国71512各观察值中四种不同教育程度的收入分布。受教育程度高,中位数和中间一半的收入,位置较高;每一组最低5%收入都很低;最高5%收入的点,随着教育程度提高而差距变大。形态:对称(Q3-M=M-Q1)右偏(Q3-M>M-Q1)离散趋势---衡量集中趋势的代表性、描述波动程度等分类数据异众比率:非众数组频数占总频数的比率。其值越大,众数代表性越低。顺序数据四分位差--内距:上四分位数-下四分位数数值型数据方差的计算:方差=∑(变量值-平均数)2/n-1-----无偏量标准差的计算:方差的平方根标准差的性质:描述了以均值为中心的离散程度;标准差一般大于零,标准差越大,说明观察值离均值越远。平均数与标准差的应用投资入门收入如何用来增值----投资怎样的品种---需要选择----不仅观察获利多少,还应关注风险大小---波动幅度(标准差)1950-1999(50)年股票年平均获利率的分布最大值:50%最小值:-26%平均:14.62%标准差:16.32%比较中的变异系数标准差/平均值*100%如何选择数值描述:平均数与中位数?平均数敏感,容易受极端值影响;中位数比较稳健,不受极端值影响;在分布对称及没有异常值时,常使用均值和标准差;如果是偏态分布,中位数比均值更稳健,五数综合也比标准差能反映更多的信息。但当需要计算总量或总值时,常用均值,因为总值=单位个数*均值CASESWhoareThoseSpeedyDrivers?谁是快车手?“What’sthefastestyouhaveeverdrivenacar?”-PennStateUniversity,1994110109901401051501201101109011595145140110105859510011512495100125140851201151051251028512011012011594125808514012092130125110901101109595110105801001101301051051209010010510012010010080100120105601251201001159511010180112120110115125559087Males8075838010010090759585909090120851001207585807085110857510595757090708285100909590110808011011095751309511011080901059011075100901108590808085508010080808095100901009580805088909085709030858587859085759010280100951108095908090102FemalesResponsesto“What’sthefastestyou’veeverdriven?”DotplotMALESFastestspeed(mph)FEMALESFastestspeed(mph)Responsesto“What’sthefastestyou’veeverdriven?”Five-numbersummaryMales(87Students)Females(102Students)Median11089Quartiles951208095Extremes5515030130一条平均水深0.4m河流绝不会比一个平均水深0.6m的游泳池更安全Responsesto“What’sthefastestyou’veeverdriven?”Five-numbersummaryMales(87Students)Females(102Students)Median11089Quartiles951208095Extremes5515030130Definition:Themedianisthevalueinthemiddlewhenthenumbersareputinorder.Thelowerquartileandupperquartileare(roughly)themediansofthelowerandupperhalvesofthedata.Moralofthestory1303015055Extremes958012095Quartiles89110MedianFemales(102Students)Males(87Students)Simplesummariesofdatacantellaninterestingstoryandareeasiertodigestthanlonglists.小结描述一组数据,要先画图---直方图或茎叶图,再谨慎选择反映其数字特征的指标,描述其分布的中心与离度。描述中心与离度有两种常用方式:五数综合---其中心是中位数---适合大部分分布平均数与标准差---适合对称分布统计学思想发展的三个阶段17世纪中叶---19世纪中叶的200年称为古典记录统计学时期;19世纪中叶--20世纪上半叶的100多年称为近代描述统计学时期;20世纪上半叶至今的百年时间称为现代推断统计学时期古典记录统计学时期古典统计学派可以分为两个学派国势学派---后期形成了图表派和比较派政治算术学派—后期形成了人口统计学派和经济统计学派古典统计思想的来源主要是国势调查会计核算赌博数学(前期概率论)国势学派:兴起于17世纪中期的德国,繁荣于18世纪中期。代表人物赫尔曼.康令(HermannConring,1606-1681)是国势学派统计思想体系的奠基人戈特弗里德.阿亨瓦尔(GottfriedAchenwall,1719一1772)是康令统计思想体系的继承者和完成者康令的主要贡献:构建了统计目的、研究对象和统计方法的思想体系目的国势学是为了满足政治活动家的需要,为政治活动家提供必要知识的一门学问,它服务于国家管理。研究对象理论上是当代世界各国,实际上以欧洲主要国家为主研究内容领土、人口、军事、财政、政治和法律制度等方面国势学的研究方法记述和比较阿亨瓦尔及其继承者的观点继承、发扬并构建了统计学的理论体系,被称为国势学派的完成体系在1749年出版的“欧洲最主要各国新国势学概要”中为这门学科首创了一个德文词汇statistik(统计学)以代替康令的国势学(staatenkunti)。其学生斯勒兹(A.L.schlozer,1735一1809)—后期代表区分了统计学与政治学。扩展了国势研究的时间范围:不仅研究现在的状况,也研究过去的状况。国势学派统计思想体系政治算术学派代表人物威廉·配第(WilliamPetty,1623-1687)是英国古典政治经济学创始人,统计学家。一生著作颇丰,主要有《赋税论》(写于1662年,全名《关于税收与捐献的论文》),《献给英明人士》(1664),《政治算术》(1672),《爱尔兰政治剖析》(1674),《货币略论》等。《政治算术》是一部用数量方法(即“算数”)研究社会问题(即“政治”)的著作。在书中,威廉·佩蒂以劳动价值论为基础,对英、法、荷三国进行了国情、国力(主要是经济实力)的数量对比分析,以此为依据,为当时英国社会经济发展出谋划策。代表人物之二约翰.格朗特(JohnGraunt,1620一1674),
英国统计学家。1662年出版《关于死亡率的自然观察和政治观察》(代表作)。他的研究清楚地表明了统计学作为国家管理工具的重要作用。主要观点男婴出生多于女婴(14:13);男性死亡多于女性;总人口中男性多于女性;秋季是瘟疫流行的季节等;运用各种方法对统计资料进行间接计算和相互印证如他在确定伦敦居民人数时,采用几种方法进行推算:根据伦敦地图推算户数、根据婴儿出生数推算怀孕能力的妇女数和户数等,通过各种方法推算和比较,最后确定出伦敦居民大约为384000人。政治算术学派统计思想体系古典统计学后期统计思想的融合与扬弃国势学派统计思想的分流与融合---政府统计18世纪中叶是国势学派发展的极盛时期,也是其衰败的开始。在正统国势学派(以哥廷根大学为中心的学派)的基础上,出现两个支派:丹麦历史学家安彻逊(H.P.Anchersen,1700一1765)、德国地理学家克罗姆(A.F.W.Crome,1753一1833)为代表的图表派德国地理学家布欣(A.F.Busching,1724一1793)为代表的比较派。都主张重视数据,他们在统计方法上的改变在历史上被视为国势学派和政治算术学派的初步融合。政治算术学派统计思想的丰富随着政治算术学派在欧洲的传播,17世纪末,由于对统计研究内容认识的不同,政治算术学派内部出现了两个分支:人口统计派经济统计派。人口统计的发展代表人物一般认为人口统计学派的先驱者是荷兰著名政治家威特(Johan
de
Witt,1625一1672)和德国牧师兼科学家纽曼(Kaspar
Neumann,l641一1715),奠基人是编制出哈利生命表的英国天文学家哈利(EdmundHalley,1656一1742)发展路径一是由于对死亡原因的研究,向卫生统计或者医疗统计发展。比如法国著名医师路易斯(P.A.Louis,1787一1872)提出用统计方法研究卫生和医疗问题。二是由于对年金价值的研究,向保险统计发展。经济统计的发展代表人物金氏、达文特和瓦本发展路径沿着配第-达文特开拓的道路前进;由于研究目的和内容不同,出现了农业统计、工商业统计和物价指数方法的研究等,另外,人口调查、社会调查、道德统计也逐渐发展起来,后期,与概率论结合,走向数理统计。概率论的产生与发展概率论的产生,历史上常以两位法国数学家帕斯卡(B.Pascal,1623一1662)和费马P.Fermat,1601一1665)通信解决一个非常典型的赌博问题—分赌本问题作为标志。分赌本问题:A、B两人赌博,各出注金a元,每局各人获胜概率为1/2,约定:谁先胜S局,即赢得全部注金,现进行到A胜S1局,B胜S2局(S1,S2都小于S)时赌博因故停止,问此时应如何分配注金2a给A和B,才算公平?引出数学期望及其与概率的关系,概率的计算等。惠更斯分赌本问题的理论化是由荷兰物理学家兼数学家惠更斯(C.Huygens,1629一1695)完成.惠更斯于1657年写出《机遇的规律》一书,系统地用数学术语讲述了玩纸牌、掷色子、转铜币等各种赌博输赢机会的计算;《机遇的规律》是全面论述概率计算的最早著作,在欧洲作为概率论的标准教本长达50年,也在很长时间内属于分赌本问题的最好解释。伯努利定理把概率论从赌博机遇的讨论拓展出去的转折点和标志是1713年J.伯努利划时代的著作《推测术》的出版;伯努利对《机遇的规律》作了详细地注解,对排列、组合和若干赌博问题进行了系统地论述和阐释;历史上认为此书最大贡献则是第四部分提出的大数定律的最初形式一伯努利定理。伯努利定理是第一次用数学公式的形式描述必然性和偶然性之间辨证关系的数学定理。德.莫瓦佛尔德.莫瓦佛尔(Abraham
de
Moivre,1667一1754)把古典概率发展到相当复杂的程度.他在1718年出版的著作《机会原理》对于概率论的发展具有开创性的贡献。主要表现在:第一,概率加法与乘法运算的一般法则;第二,二项分布法则;第三,概率母函数;第四,关于赌徒破产持续时间问题新的与一般的解答第五,二项分布的极限形式拉普拉斯法国天文学家、物理学家拉普拉斯(Pierre
Simon
Laplace,1749一1827)则在概率论和统计学的结合上做出了贡献。1812年出版的《概率分析理论》系统地把数学分析方法运用到概率论的研究中,建立了严密的概率数学理论。该书总结了古典概率论的研究成果,集古典概率之大成,初步奠定了数理统计学的基础。德国大数学家高斯(C.F.Gauss,1777一1855)通过对误差理论的研究,创建了最小二乘法;1837年泊松推广大数法则,引入十分重要的泊松分布等。西方近代统计思想凯特勒(A.Quetlet,1796一1874)是统计学史上承前启后的人物,开辟了统计学的新时代。19世纪中后期,政治算术学派的中心从英国转移到欧洲大陆,沿着凯特勒开辟的道路之一---研究社会现象,同时吸收了国势学的研究目的、政治算术学派的研究方法和内容形成社会统计学派,德国成为社会统计学派的中心。政治算术学派的发祥地—英国的统计学家沿着凯特勒开辟的另外一条道路,研究“论数学与大量观察的关系”,从政治算术的数学侧面朝着概率论及在自然科学中的应用方向发展,为旧数理统计学奠定基础。凯特勒的统计思想凯特勒曾任比利时皇家科学院院长、终生秘书、中央统计委员会主席。代表性著作:《论人类》、《概率论简书》、《社会物理学》等他把国势学、政治算术以及古典概率论加以融会贯通成具有近代意义上的统计学,形成统计发展史上的一次新的高潮,为此,后人称当时为“统计时代”,甚至称为“统计万能时代”。主要贡献之一凯特勒对统计学的定性—实质性社会科学统计学不仅仅是国势的记述,还应当把它作为学术问题进行研究;因为统计学是对性质相同的事物进行大量观察,从而探索出社会现象相继不绝的道理的一门学问,其研究内容既包括社会静态事实,也包括社会动态事实,是既研究统计规律也研究统计方法的实质性社会科学。主要贡献之二:“平均人”思想他运用概率论的方法研究了社会道德中的大量统计资料,发现了以下基本原则:在我们对于多数人进行观察的时候,人的意志就平均化起来,并且不留任何显著的痕迹。所有部分意志的作用,和纯粹受偶然原因所制约的各种现象一样,它们即被中和或抵消了。不应当注意个别的人,就能把握住综合的结果社会上所有的人同“平均人”的偏差愈小,社会上的矛盾也就愈缓和,而文化上的正面引导,则可以减少每个人与“平均人”的偏差,从而减少犯罪的发生。主要贡献之三:方法论上拓展了国势学意义下的大量观察法,提高大量观察法的精密性、科学性;把概率论、大数法则、误差法则、正态分布等概念和计算方法引入到统计学中,丰富了统计方法性思想,并且认为这是任何观察科学的通用方法;把自然科学的研究精神和研究方法(实验法、归纳法)带到社会现象的研究中来,并用数理方法研究社会现象,为统计学开辟了广阔的道路。主要贡献之四:对统计学研究内容的拓展统计学研究内容的拓展体现在统计学研究客体的拓展----他把统计目的分为行政目的和社会目的;将统计方法引入到人口、政治、农业、工商业、道德等社会领域,沿着研究社会现象规律前进的学者形成社会统计学;把概率统计思想引入到天文、气象、地理、动物、植物等自然领域,沿着研究统计方法前进的学者形成数理统计学派;他的关于概率统计的方法是应用于任何事物数量研究的最一般方法的思想,对以后统计学的发展具有重大意义。社会统计学派社会统计学派(大陆派)形成和发展于19世纪中后期的德国。代表人物(3人)克尼斯(K.GA.Knies,1821一1898)是德国国势学派的后期代表人物,但发表于1850年的论文“作为独立科学的统计学-关于统计学理论和实际中的争论的解决,兼对阿亨瓦尔以来的统计学的批判”为他获得了社会统计学派开创者的声誉。该文确立了统计学独立于社会科学的学科地位。恩格尔(C.L.Engel,1821一1896)德国统计学家,政府统计家和统计教育家,1851年的著作“关于统计学是独立科学还是方法之我见”一书,发展了克尼斯的统计理论,同时也力图调和统计科学论和统计方法论之间的分歧。主张统计学既是实质性科学,又是传统方法论的社会科学。根据社会调查结果,在1895年“比利时工人家庭的生活费”概括出关于居民消费结构趋势的规律--“恩格尔法则”。鉴于恩格尔对于社会统计学派的贡献,被誉为社会统计学的奠基人。梅尔(G.V.Mayr,1841一1925)德国统计学家和政府统计家,总结了当时统计领域的各个方面的学术成果,建立了社会统计学派理论体系;梅尔提出的理论体系在当时的德国和国际统计学界享有盛名,以至于有人把社会统计学派称为“梅尔学派”。1877年出版的《社会生活中的规律性》一书对统计学定义为:统计学是根据总体现象大量观察的基础上,对人类社会生活实际状态及其所产生的规律性,进行系统地表述和说明;统计学是研究规律性的独立实质性社会科学。社会统计学派统计思想体系统计学所研究的社会规律主要有四种1.状态规律:即处于静止状态社会总体中比较稳定的规律性,如人口分布、性别等;2.频度规律:即不同时间地点发生事件次数的规律性,如出生率等;3.发展规律:即某一社会总体现象在时间上发展变化的规律性,如人口增长等;4.相关规律:即自然现象、社会现象之间相互影响而发生的规律性,如气候不佳则死亡增加等。旧数理统计学派的统计思想:
描述统计学时代18世纪中叶以后,政治算术学派的中心转移到德国,而英国本土则朝着政治算术学派的数学方面发展。统计史学家斯蒂格勒认为,高尔登、埃奇沃斯与K.皮尔逊三人联手在统计学中掀起了一场革命,而这场革命指的就是19世纪中叶以后到20世纪初期形成的旧数理统计学派,又称为描述统计学。代表人物:高尔顿(E.Galton,1822一1911)英国生物学家,所研究的问题和所写的论文涉及面非常广:地理、优生学、生物计量等都是他的研究范围。受达尔文和其父亲的影响,他擅长用统计的方法研究生物进化;在1901年创办“生物计量学”杂志中明确为生物研究中运用的统计方法论命名为“生物统计学”,并提出所谓生物统计学,是应用于生物学科中的现代统计方法。通过生物学中的实验实践建立了若干数理统计新的概念和方法,如百分位数法、百分位秩、四分位数、相关与回归等。两个学生K.皮尔逊对于统计学的贡献主要体现在:第一,认为数理统计学的目的在于如何描述两个以上的变量之间的关系;第二,他成功地把得自于生物学研究中的统计方法从生物统计学专用方法上升到一般方法论的高度,构建了旧数理统计学中的主体内容。埃奇沃斯的贡献提出统计学既是“平均数数学”,他认为这门科学主要是由两个部分构成:一是找出任何一定平均数之间的差异有多大是由法则的偶然性或者象征性造成的;二是指出哪种平均数在应用上是最好的。旧数理统计学派统计思想体系旧数理统计学派统计方法性思想相关与回归思想埃奇沃斯:1892年发表的《相关的平均值》中给了回归一个数学式的与遗传无关的意义,为回归方法应用于广泛的领域打开了大门;在高尔顿对于相关的基本推理结果的基础之上给出了样本相关系数的公式,同时,根据概率原理,把相关理论扩展到三个或者三个以上变量的研究;K皮尔逊的复相关和偏相关的系数是相关和回归的理论发展和普遍化,为大样本理论奠定了基础。频率分布思想--正态到偏态19世纪以前,占据统治地位的一直是正态分布,皮尔逊从生物统计资料的经验分布中发现许多生物上的变量并不具有正态分布,而是常常呈现偏态分布。皮尔逊曲线体系:12种分布曲线-其中包括正态分布、矩形分布、J型分布、U型分布或者铃型分布等拟合优度检验---卡方检验—分布检验K.皮尔逊1900年提出的用于检验以某些假设为基础的观察值与期望值之间差异的卡方分布的求导运算卡方检验基本思想是:把观察到结果的全体范围划分为若干组,然后通过各组实际次数和理论次数相比,看其差异显著程度来判断两者是否选配合适。回归与最小二乘法的结合(因果关系)约尔((C.U.Yule,1871一195)把回归关系与最小二乘法联系起来,填补了皮尔逊理论中的缺口。其发表于1897年的《相关论》除阐述了回归关系与最小二乘法结合,还把应用面拓宽到社会经济领域,此文中还引入了偏相关系数和复相关系数;1920年以后约尔开创了时间序列分析,并把自回归问题作为重要的问题进行研究。西方现代统计思想:推断统计的思想20世纪以前,统计学主要应用领域是人口统计和生物统计。在这些领域中所使用的数据一般是大量的和自然采集的,所使用的方法以拉普拉斯中心极限定理为依据,总是归结到正态。20世纪,受人工控制试验条件下所得数据的统计分析问题,日渐引人注意。试验所得的数据量一般不大,那么,针对只能取得小样本的情况,那种依赖近似正态分布的传统做法还适用吗?如果不适用,那么该如何进行统计描述和分析呢?这是新数理统计学派之所以形成的原因。重要代表人物哥塞特(w.s.Gosset,1876-1937)以自己实验得出的结果为旧数理统计学派向新数理统计学派的转变提供了理论基础;R.A.费雪(R.A.Fisher,1890-1962)继承、发扬和融合了拉普拉斯、凯特勒、杰文斯和瓦尔拉斯等人的思想创建了新数理统计学派。数理统计学实现了从描述统计学向推断统计学划时代的改变。哥塞特1908-1909年期间,在《生物计量学》杂志上发表三篇论文:平均数的误差、相关系数的概率误差、论非随机样本平均数的分布。这三篇论文的贡献第一,比较了平均误差和标准误差的两种计算方法;第二,研究了泊松分布应用中的样本误差问题;第三,建立了相关系数的抽样分布;第四,导入了学生分布,即t分布这些论文的完成,为小样本理论奠定了基础。哥塞特也被称为新数理统计学派的先驱者。R.A.Fisher1912年毕业于剑桥,1919年到罗瑟姆斯特农业试验站工作,1933年任伦敦大学优生学教授;1943年任剑桥大学遗传学教授,1957年移居澳大利亚。1925年出版的《研究人员用研究方法》被看作数理统计学由描述向推断发展的划时代著作。统计学是应用数学的最重要的部分,亦可以认为对观察取来的材料进行加工的数学。统计科学,就它的实质来说,是应用数学的一个分支,并且可以认为是被应用于观察资料的数学。费雪的数理统计方法性思想费雪在1918年首创方差(Variance)和方差分析(Analysis
of
variance)两词。1925年费雪在《供研究人员用的统计方法》中对方差分析以及协方差分析做了进一步完整的叙述;1922年,费雪在《关于理论统计学的数学基础》一文中导出了相关系数的z分布,而且论证了z分布呈现正态和偏态的条件,特别有利于小样本的使用。1924年,费雪对t分布、卡方分布和Z分布加以综合研究,提高了这些分布的运用效果和完善了以这些分布为基础的检验手段,使得哥塞特的t检验、K.皮尔逊的卡方检验不仅适用于小样本,也适用于大样本,从而扩大了t分布和卡方检验的使用;编制了学生t分布概率表(1925)、F分布显著性水准表(1957,与耶茨合作)1925年提出了随机区组和拉丁方两种实验设计方法奈曼与爱根.皮尔逊20世纪30年代,波兰统计学家奈曼(J.S.Neyman,1894一1981)创立了区间估计理论;在同一时期,与爱根.皮尔逊共同对假设检验理论(TheoryofTestingstatisticalHypothesis)做出系统地研究和发展,提出假设检验理论--奈曼一皮尔逊理论。沃尔德美国统计学家沃尔德(A.Wald,1902一1950),1946年出版《统计决策函数》一书,把现代数理统计学原有的估计理论和假设理论结合起来,建立了统计决策函数理论。1947年出版《序贯分析-(sequentialanalysis)》一书,开拓了崭新的研究领域---序贯抽样方案–用于决策。威尔克斯美国统计学家威尔克斯(S.S.Wilks,1906一1964)是继哥塞特、费雪之后继续研究样本分布理论的学者。威尔克斯在推进美国数理统计的发展上做出了很大的贡献,以至于美国统计学会用他的名字成立了s.s.wilks(威尔克斯奖)科克伦、考克斯、弗雷泽1950年美国统计学家科克伦(W.G.Cochran,1909一1950)和考克斯(G.M.Cox,1900一1978)两人合写了一本教科书《实验设计》向读者讲述了方法,还给出了该方法的坚实数学基础。加拿大统计学家弗雷泽(D.A.S.Fraser,1925一)于1966年出版《统计中的非参数方法》一书,首次提出非参数统计方法。推断统计的框架形成新数理统计学派的统计大师们在确立了统计推断理论(估计与假设检验)、抽样分布理论、试验设计、序贯分析、决策理论等后,逐渐确立了统计学的数学框架。这一时期的主要统计思想是以概率分布的形式来描述归纳各种随机现象的数量特征,并在具体的统计工作中将统计问题用抽象的数学模型表达出来,然后推导出统计量,求出统计量的概率分布,对总体进行推断,做假设检验。统计推断的思想正态分布---用曲线来描述的常态分布柱状图----由英国经济学家WilliamPlayfair(1759-1823)提出—呈现数据的特征直方图---分组数据描述的分布特征将直方图中各个长方形的顶连成一条平滑的曲线,这条曲线描述了分布的整体形状。在对数据足够多的分布画曲线,可以用依据数学模型来画一条对称的平滑曲线来近似,这条曲线称为正态分布曲线。分布曲线图从直方图到平滑曲线图---近似直方图中大于0.61的样本比例值为0.195(195/1000)曲线图中大于0.61的样本比例值-大于0.61的曲线下面积为0.208曲线图是直方图的近似描述分布的工具与策略1.用直方图和茎叶图描述数据的分布;2.寻找整体形态(形状、中心及离度)及存在的异常值带来的显著偏差;3.选择用五数综合或平均数和标准差简略描述中心与离度;4.观测值数据多时,可用平滑曲线描述整体形态(分布的规律性)---近似密度曲线(densitycurve):中心与离度把分布的整体形状平滑后并使曲线下方的面积为1,这样理想状态下的曲线称为密度曲线。是描述大量观测值的最有用工具。密度曲线的中心密度曲线下的面积,代表占全体观测值的比例。中位数是左右各有一半观测值的分界点,即等面积点(equal-areaspoint),四分位数是面积四等分的点。对称的密度曲线:平均数等于中位数;偏斜的密度曲线:平均数靠近长尾方向。平均数与中位数的关系----同分布有关正态分布曲线的特点对称、单峰、钟形(bellshaped)、尾部下降得快;中心点:平均数与中位数相等,且落在尖峰点的位置;曲率发生改变的点:平均数±1个标准差曲线形态完全由平均数和标准差决定。平均数决定其分布的中心,平均数的改变会影响其在水平轴上的位置;而标准差决定曲线的形态,标准差的改变影响峰的形态,是陡峭还是平坦。为什么正态分布在统计里很重要?对于一些实际数据的分布描述。正态曲线可以很好地描述分布;最初被称为误差曲线---高斯提出,后由高尔登给出正态曲线的名称。很多统计量的分布是正态的,如样本比例、样本平均数、抽样调查结果的误差界限。在理论上所起的作用。中心极限定理一些分布可以利用正态分布作近似计算;正态分布还可以导出一些其他重要的分布。如卡方分布、t分布、F分布。误差与正态分布丹麦统计史学家哈尔德认为:天文学家是最初的数理统计学家,天文学问题逐渐引导到算术平均,以及参数模型中的估计方法,以最小二乘为顶峰。--《1750年以前概率统计及其应用史》对天文现象的观测形成了大量的统计数据。对于测量误差的认识,最重要的天文学家是伽利略(1564-1642),其主要观点有:所有观测值都有误差,其来源有观测者、观测工具及观测条件;观测误差对称地分布在0的两侧(无系统误差,这里的观测误差是指随机误差);小误差比大误差出现更频繁。伽利略的误差分布用现代术语概括为:随机误差分布是一个关于0的对称分布,其概率密度f(x)随│x│的增加而递减。---这一观点成为日后该问题研究的起点。随后作出贡献的人有辛普逊、拉普拉斯等辛普逊:在误差(独立同分布--independentidenticallydistributed)满足某种特定分布的前提下,计算了平均误差(误差的算术平均)分布,并证明在某种概率意义上平均误差小于个别误差。拉普拉斯给出了一个指数型分布,称为拉普拉斯分布或重指数分布。高斯导出误差正态分布(1809)设真值为,n个独立观测值,高斯把后者的概率取为:他提出了两个创新的想法使上式达到最大的估计作为真值的估计,这就是似然函数和极大似然估计方法的提出;寻找误差概率密度函数,使由上式决定的真值的估计量就是x的算术平均,证明这一密度函数就是正态分布函数,正态随机变量的概率密度函数形式68-95-99.7规则在任何正态分布当中,大约有:68%的观测值,落在距平均数1个标准差范围内;95%的观测值,落在距平均数2个标准差范围内;99.7%的观测值,落在距平均数3个标准差范围内;如何应用这个规则获得相关信息?18-24岁年轻女性的身高:平均数65英寸,标准差2.5英寸的正态分布。(1英寸=2.54cm)任何正态分布有一半观测值超过平均数—有50%高于65英寸(165.1cm);68%的观测值在:65-2.5----65+2.5,34%的身高在65—67.5之间;身高不到67.5的比例为84%,高于67.5的比例为16%;95%的观测值在:60-70之间(65±2*2.5),5%的人身高在60-70之外,最矮的2.5%不到60,最高的2.5%高于70。99.7%的观测值在:几乎所有女性的身高:65±3*2.5。57.5-72.5英寸之间(146.05-184.15)。标准计分---标准化以分布的平均数为中心,把观测值以距离平均数几个标准差的形式表述出来,叫做标准计分。观测值的标准计分计算方法:分布为对称时才可以使用目的:用于比较在不同分布中的值标准计分的应用学生A:参加SAT(ScholasticAssessmentTest,学术能力评估测试)的语言测试中得分为600分,这一测试的成绩分布服从均值为500,标准差为100的正态分布。学生B:参加ACT(AmericanCollegeTesting,美国大学入学考试)的语言测试中得分为21分,这一测试的成绩分布服从均值为18,标准差为6的正态分布。比较哪个学生成绩好?学生A的标准计分:(600-500)/100=1学生A的分数比平均分数高1个标准差结论:学生A的成绩好于学生B。学生B的标准计分:(21-18)/6=0.5学生B的分数比平均分数高0.5个标准差正态分布的百分位数(percentile)一个分布的第c百分位数(thecthpercentile)是一个值,小于第c百分位数的观测值,在全部观测值中所占百分比为c,其余观测值都比第c百分位数大。任何分布在中位数是分布的第50百分位数;四分位数是第25和75百分位数。任何正态分布中不同的标准计分对应着不同的百分位数,标准计分为1,对应着第84百分位数。百分位数比68-95-99.7规则能提供更多细致的信息。很多考试会同时提供成绩与百分位数。找出对应百分位数的观测值如果要使考试成绩进入前20%,需要考多少分才行?查阅数据表:20%即第80百分位数,与之最接近的标准计分为0.8。计算观测值:=平均数+标准计分*标准差=500+0.8*100=580即考试分数高于580分时才能进入前21.19%。本章小结统计发展简史:从描述到推断描述数值变量分布的工具:直方图、茎叶图、箱形图、密度曲线密度曲线:曲线下方面积为1,可描述分布的整体形态;中位数(等面积点)和平均数(平衡点)的位置正态曲线:对称的钟形;由平均数和标准差决定;遵循68-95-99.7规则;标准计分:把观测值表述成距离平均数几个标准差百分位数描述相关关系的方法:散布图和相关系数了解一个变量,需要了解与之相关的其他变量,这就涉及变量之间的关系,特别是相关关系。变量之间的关系销售量增加与广告投入的关系练习时间投入与打字的差错率的关系上课出勤率与学习成绩好坏的关系高校的排名与大学新生入学成绩的关系高校的声望排名与教授的科研水平的关系女性得心脏病的可能性与身高的关系…………….散布图两个及以上变量之间关系是科学研究中的核心问题。描述变量之间关系的直观方法就是散点图(scatterplot)散点图显示同一个个体上的两个数值型变量之间的关系,其中一个变量值在横轴上,另一个变量值在纵轴上标示,一个case对应一个点,点的位置由一个个体的两个变量值决定。如果变量之间影响关系明确,在解释变量在横轴上,被解释变量在纵轴上;如果关系不明确,则变量位置无所谓。健康与财富—预期寿命与人均GDP的关系—2008,162父母身高与子女身高的关系关于父辈身高与子代身高的具体关系是如何的,高尔顿和他的学生K·Pearson通过观察了1078对夫妇,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,结果发现两者近乎一条直线,其回归直线方程为:y^=33.73+0.516x
,这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高也平均增加0.516个单位父母亲平均身高(英寸)儿子身高(英寸)子辈身高向平均身高回归,而不会出现两极分化的局面散点图的诠释描述散点的形式、方向和相关关系的强度关注异常值,即偏离整体形态的散点。正相关与负相关如果有两个变量,当其中一个变量的值高于平均时,另一个变量也倾向于高于平均;而其中一个变量低于平均时,另一个变量也倾向于低于平均,则称这两个变量是正相关关系(positivelyassociated),散点图呈现从左至右向上倾斜;如果两个变量,当其中一个变量的值高于平均时,另一个变量倾向于低于平均;其中一个变量低于平均时,另一个变量倾向于高于平均,则称这两个变量是负相关关系(negativelyassociated),散点图呈现从左至右向下倾斜。························正相关负相关将化石分类—同一总体具有相似性,不同总体则有异质性考古学家发现了6块始祖鸟的化石,而且大小相差很大,有人认为这些标本可能来自不同的种类,而不是同一种类的不同个体?同时保存有股骨和肱骨大小的化石有5块,测量的数据如下:股骨3856596474肱骨4163707284因为不清楚变量之间的关系,可将任意变量作为横轴,画散点图。股骨为X轴的散点图结论:来自同一种类,只是个体之间有差异。相关系数散点图是直观地描述两个变量之间相关的方向、形式和强度的工具,但不精确。相关系数则是一个精确的测量线性相关的统计指标。常用r表示。计算公式如下:股骨肱骨xyx-均值(x-均值)的平方y-均值(y-均值)的平方x的标准计分y的标准计分标准分的乘积3841-20.2408.04-25625-1.530-1.5732.4085663-2.24.84-39-0.167-0.1890.03159700.80.644160.0610.2520.01564725.833.646360.4390.3780.166748415.8249.64183241.1971.1331.356合计2913300696.8010103.976均值58.266方差174.2252.5标准差13.2015.89相关系数0.9941了解相关系数的意义r的正负号,表示相关的方向;相关系数的取值范围:[-1,+1]相关系数不受计量单位的影响;描述两个变量的相关关系,不受变量地位改变的影响;相关关系只描述数值型变量的相关;相关关系描述的是直线或线性相关;相关系数受异常值的影响。下面关于相关系数的叙述是否正确?1.就业者的性别和收入之间有很高的相关系数;2.我们发现在学生对教授的评价和其他同行对教授的评价之间,存在很高的相关系数,r=1.09;年龄和收入之间的相关系数为r=0.533岁。小结散点图---如何展示检视散点图---发现什么信息:相关方向、形式、强度相关系数的计算描述相关关系:回归、预测与因果关系预测股市的方法—是否有用?人工神经网络基因演算法近邻模型其他模型归类技巧混沌碎形小波理论的时间序列转换回归直线如果一个散点图中两个变量之间的关系呈现线性相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年甘肃省庆阳市市本级新开发城镇公益性岗位38个考试备考试题及答案解析
- 2026年残疾人服务及辅助工具使用题库
- 2026年淮安市楚州区卫生健康系统人员招聘笔试备考试题及答案解析
- 2026国家数据局直属事业单位招聘17人考试备考试题及答案解析
- 四川农业大学合同制聘用人员招聘(1人)考试参考题库及答案解析
- 2026年城乡集贸市场建设及农产品进城销售渠道政策知识卷
- 云南昆明盘龙区金康园小学教育集团2027届部属公费师范生招聘1人考试模拟试题及答案解析
- 2026年环境治理与企业绿色发展试题
- 2026中国煤炭地质总局招聘2人(北京)笔试备考题库及答案详解
- 2026浙江丽水市莲都区疾病预防控制中心招聘见习生2人笔试备考试题及答案详解
- 中国建设银行建行研修中心华东研修院2023年招聘12名人才笔试上岸历年典型考题与考点剖析附带答案详解
- 全国专利代理师资格考试专利法律知识专项考试试题
- 湖州南太湖热电有限公司节能减排技改项目环境影响报告
- 《农业推广学》第05章 农业推广沟通
- 妊娠期高血压疾病诊治指南2020完整版
- 【拓展阅读】整本书阅读系列《闪闪的红星》
- 三角形的认识(强震球)
- 骨与关节结核PPT
- 2018年-2022年山东历史高考真题五年合集
- GB/T 24211-2009蒽油
- 专利法教学大纲
评论
0/150
提交评论