统计思想有统计数据的类型.doc_第1页
统计思想有统计数据的类型.doc_第2页
统计思想有统计数据的类型.doc_第3页
统计思想有统计数据的类型.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南丁格尔曾说过“若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。”这里的上帝就是客观世界。理、工、农、医、文,今天很难找到不使用统计的学科了,它在解决现代科学的那些最重要的和最多样化的课题中起着主导作用。现实生活中我科也离不开统计,每天晚上我们都要收听明天的天气预报,尤其注意明天下雨或下雪的概率;投资股票时,你需要了解股票场价格的信息,了解每只股票的财务信息;黄金周时,你打算出门旅行,一定要了解旅游的目的地的价格、服务以及旅游人数等。作为从事统计工作的专业人士,更需要了解和掌握统计学的基本理论和统计方法。一、什么是统计统计学就是用来处理数据的,它是关于数据的一门学问。根据大百科全书对统计学的定义:统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据的方法大体上可分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类。描述统计是研究数据收集、处理和描述的统计学方法。其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理的展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。二、统计的应用(一)统计的应用领域说出哪些领域应用统计,这很困难,因为几乎所有的领域都应用统计;说出哪些领域不使用统计,同样也很困难,因为几乎找不到一个不用统计的领域。因此,统计是适用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。这里我们不想列举统计应用在一般领域如经济、管理、理工、农医的例子,因为大家已经对这些应用耳熟能详,熟视无睹了。我们只想举几个大家可能想不到的例子。统计学应用一:从“女士品茶”中得到的统计实验设计这是在2003年统计出自版社出版的一本名为女士品茶中所讲述的故事,事情是这样的:二十世纪二十年代后期的一个夏日午后,一群风度翩翩的学者偕夫人及漂亮的女友,正在英国剑桥的户外餐桌旁,悠闲地品茶论道。席间,一位美丽的女士惊呼,午茶的调制顺序对味道有很大的影响。把茶加进牛奶里和把牛奶加进茶里,喝起来风味完全不同。出于对女性的尊重,那些学者们面带绅士的微笑,内心却不以为然,甚至是藐视,依据他们的科学头脑分析,茶和牛奶两种物质混合结果的化学成分不会因为调制顺序不同而产生不同,怎么会喝起来不一样呢?文中暗表,这个命题的假设前提是不论调制顺序如何,牛奶和茶的比例是固定的或是基本不变的。正当众学者对美丽女士的说法嗤之以鼻时,有个身材瘦小,嘴上留着灰白胡子的绅士挺身而出,抓住了这个问题。此人便是在统计发展史上地位显赫、大名鼎鼎的费雪(Ronald Aylmer Fisher,1890-1962),伦敦人氏,英国统计学家。费雪当时显得非常兴奋,好像发现了新大陆。“让我们来检定这个命题。”说着,在众位学者的帮助下,他开始进行实验。他们设计并调制也很多杯不同的茶,有些先放茶水再加牛奶,有些先放牛奶再加茶水,然后按照既定的顺序一杯一杯拿给美丽女士品尝分辨,但她并不知道每杯茶的调法。费雪端给她第一杯茶时她品尝了一口,然后说出这杯茶是先放茶水后加的牛奶,还是先放牛奶后加的茶水。费雪记录上她的说法,再送上第二杯,费雪设计了各种可能的实验方法,来测试美丽女士能否分辨出不同的茶。问题是,如果美丽女士只是哗众取宠而没有真本领难分辨出不同的茶,她还是有猜出的可能;如果给她两杯调制方法不同的茶,她可能一次全部猜错或全部猜对。如果美丽女士有真本事,确实能够分辨调制方法不同的茶,但她还是可能弄错,或是茶水和牛奶没有混合好,或茶水温度不够影响了味道,或她喝了很多以后感觉已经不太灵敏。这就是费雪提出来的实验设计思想,1935年,费雪完成了在科学实验理论和方法上具有划时代意义的一本书实验设计。在书的第二章,费雪就提到了剑桥午后的品茶和那位美丽的女士,在书里,费雪讨论了各种可能结果,描述了该准备多少茶,依照什么顺序拿给她,然后她回答的正确与否,计算出各种结果的概率。至于剑桥午后品茶的那位女士,据说她能分辨出每一杯茶,全部答对,看来,这位女士不仅仅是美丽。统计应用二:从红楼梦中给出作者的判断众所周知,红楼梦一书共120回,一般认为前80回是曹雪芹所著,后40回为高鄂所续。长期以来红学界对这个问题一直有争议。1986年复旦大学李贤平教授带领他的学生用统计方法进行了研究,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词作为变量(所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯不同,所用的虚词是不会一样的),让学生数出每一回里虚词出现的次数,作为数据,用统计分析中的聚类分析方法进行分类。聚类结果将120回分成两类:即前80回为一类,后40回为一类,很形象地证实了120回的红楼梦不是出自同一人的手笔。之后又与曹雪芹的其他著作进行类似分析,进一步证实前80回确实为曹雪芹所著,而后40回是否为高鄂写的呢?论证结果推翻了后40回为高鄂一个人所写。这个论证在经学界轰动很大,他们用统计分析方法支持了经学界的观点。使经学界在为赞叹。统计应用三:从“小概率发生”中做出有罪判决被告Wayne Williams被指控在佐治亚州的亚特兰大谋杀了两个黑人男性青年。另外还发生了十起类似的案件的谋杀案。对Williams的不利证据是,在尸体上发现的大量纤维与从他周围取到的很相似,尤其是染英国橄榄色的不常见的三叶形的威尔曼181-b型地毯纤维。原告的一名专家证明这种类型的纤维已经停止生产,根据保守推测,这种纤维制成的地毯在美国10个州的销售量仅够铺820间屋子。假设其销售量在10个州中都相等,所有佐治亚州的地毯都卖给了亚特兰大,而且每家只有一间屋子铺上了地毯,那么有81个亚特兰大人家的屋子铺上了含有这种纤维的地毯。根据专家所说,亚特兰大共有638992座住宅,那么随机选择一个屋子。它铺有这种地毯的概率要小于81/638992或1/7792。Williams的卧室就有这种地毯(虽然被告后来予以否认)。根据这个证据,原告坚持认为,“在亚特兰大有与Williams卧室相同类型地毯的家庭的可能性公为1/8000”。Williams被判有罪。在上诉中,佐治亚上诉法院认为这处州的专家有权讨论小概率,允许用从证据经过推理所得的观点进行辩护,而这种推理就包括小概率。上面介绍了统计方法在各种领域中的应用,这种应用还有很多很多,只要读者稍加留意,就会发现处处存在统计。(二)统计的误用与滥用英国政治家本杰明迪斯雷利(Benjamin Disraeli 1804-1881)曾有一个著名的论断:“谎言有三种:谎言、糟糕的谎言和统计数字。”统计常常被人们有意或无意地滥用。例如,错误的统计定义、错误的图表提示、一个不合理的样本、数据的遗漏或逻辑错误等。这些误用有些是常识性的,有些是技术性的,些则是故意的。作为从数据中寻找事实的统计,却被有人变成了歪曲事实的工具。下面举例说明一个有史以来最糟的社会统计数字。“美国自从1950年开始,孩童遭到枪杀的人数,每年增加一倍。”这是某期刊里1995卷里某一篇文章的句子。这个数字荒唐在啊里?其实只要简单计算一下就知道,这个数字朋多么糟糕了。假设1950年只有一个孩童被枪杀,那么到1951年孩童遭到枪杀的人数增加一倍,就是2人,到1954年就是4人,依此类推,到1960年的数字是1024人,而到1995年,将会有32768人(而1995年,美国联邦调查局查办全美国的刑事杀人案件,含成人与孩童在内的受害者,总共也才只有9960人)。到1970年,总数将超过一百万人;1980年,总数将超过十亿人(相当于当年度美国总人口数的四倍)!我们就不再往下计算了,再往下计算不仅要超出地球上生活的总人数了,恐怕边宇宙中存在的“人”都算上也抵不上这个总数,假如宇宙中存在“人”的话。这篇文章的作者到底是从哪里得到的这个统计数字呢?经过询问作者后了解到,统计数字来自美国儿童保护基金会发布的美国孩童现状年度报告:一九九四(The State of American Yearbook-1994),该报告中写道:“自从1950年以来,每年美国孩童遭到枪杀的数目,至今已增加了一倍。”请注意措辞上的差别:儿童保护基金会所说的是,1994年的死亡人数是1950年的两倍,但这个资料经过期刊文章作者改写后,即平白无故冒出一个完全不同的意义。其实,在该时期内(19501994)美国总人口数同样增加了73%,几乎成长了一倍。因此可以想见,随着人口的增加,各种人口统计数字也会增加,其中当然包括孩童遭到枪杀的人数。不过,假若我们判断,两倍的死亡人数是否代表情势恶化?我们还必须要有其他深入的了解,即这个数字的来源如何?是谁在计算孩童的枪杀死亡人数?又是如何计算的?还有,“孩童”的定义是什么(在统计暴利案件时,儿童保护基金会有时会将“孩童”定义为年龄在25岁以下的人)?“枪杀死亡”指的又是什么(枪杀死亡统计一般包括自杀、意外与他杀)?但是,当民众遇到统计数字时,却绝少产生疑问。第二节 数据类型统计数据是对客观现象特征的反映,而由于客观现象的复杂性,在反映这些现象特征时可从不同的角度进行采集,从而得到不同类型的数据。下面分别从不同的角度对这些数据特征给予介绍。一、变量与数据每天晚上收看天气预报,会发现今天的气温与明天的气温不同,今天是情天明天可能就是多云转阴;观察股票市场上的上证股指天天在变化;每个在职工作的人员从事的职业不同,月收入不相同;观察成年人,每个人所受的教育程度也不同。这里的“天气温度”、“天气形势”、“上证股指”、“职业”、“月收入”以及“教育程度”等就是变量(variable),它们的特点是从一次观察到下一次观察会出现不同结果。把观察到的结果记录下来就是数据(data)。二、数据类型(一)定性变量(数据)与定量变量(数据)“天气温度”、“天气形势”、“上证股指”、“职业”、“月收入”以及“教育程度”这些变量反映现象的特点不同。“天气形势”、“职业”和“教育程度”是从现象的属性来表现现象的特征,如“天气情”和“阴转多云”就是反映两种天气状况;“生产工人”和“公务员”就是两种不同的职业;文化程度“小学”与“大学”就反映了两种不同的教育程度。这样的就是称为定性变量(qualitative variable),定性变量的观察结果称为定性数据(qualitative data)。这类数据的最大特点是它只能反映现象的属性特点,而不能说明具体量的大小和差异,如“天气晴”和“阴转多云”谁大谁小?“生产工人”和“公务员”谁好谁坏?这里没有量的特征,只有分类特征;这种只能反映现象分类特征的变量又称为分类变量(categorical variable),分类变量的观察结果就是分类数据(categorical data)。如果类别具有一定的顺序,如“教育程度”,中学的教育程度比小学高,大学又比中学高,这样的变量称为顺序变量(rank variable),相应的观察结果就是顺序数据(rank data)。与定性变量不同的是,“天气温度”、“上证股指”、“月收入”这些变量可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。这些变量就是定量变量(quantitative variable),也称为数值变量(metric variable),定量变量的观察结果成为定量数据(quantitative data)。分类变量没有数值特征,所以不能对其数据进行数学运算。即使有时人们用若干个数值来代表不同的类别,这些数值本身也不具有数量差异的意义。例如,人们用编号1来代表性别男,用编号2代表性别女,这些编号的主要作用在于使文字性概念成为计算机可识别的代码,但其本身并不具有计算意义上的数量差异,由此可见,分类数据只能用来区分事物,而不能用来表明事物之间的大小、优劣关系。顺序变量比分类变量向前进了一步,它不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系(如产品的质量可以分为优质品、合格品、不合格品等)。显然,顺序数据的功能比分类数据要强一些,对事物的划分也更精细一些。作为统计研究的重要资料,顺序数据最主要的特征在于不论它的数据是用数值表示的还是用文字表示的,都存在一定的客观顺序,一定是可以按大小、高低、优劣进行排序的,也就是数据之间是可以比较大小、高低、优劣的。但是,需要注意的是,顺序数据的数据经常会以数值的形式出现,如,产品质量可以分为1、2、3级品,这里的1、2、3虽然是以数值的形式出现的,但仍然是用来反映产品之间在质量上的性质差异的。我们并不能说,1级品质量比2级品质量小1,或2级品质量是1级品质量的两倍。显然,顺序数据的数据之间虽然可能比较大小,却无法计算相互之间大小、高低或优劣的距离。这时顺序数据的数据仍然是用来表示事物在性质上的差异,而不能用来反映事物在数量上的差异。因此,从本质上说,顺序数据仍然是定性数据中的一种。作为统计研究的主要资料,数值型数据的特征在于它们都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差(绝对距离),而有些数值型数据不仅可以计算数据之间的绝对值,还可以计算数据之间的相对差(相对距离)。显然,数值型数据的计量功能要远大于前面介绍的两种定性数据,其计量精度也远远高于定性数据。因此,在统计研究中,数值型数据在着最广泛的用途。由数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论