统计学的基本概念(doc 24页).doc_第1页
统计学的基本概念(doc 24页).doc_第2页
统计学的基本概念(doc 24页).doc_第3页
统计学的基本概念(doc 24页).doc_第4页
统计学的基本概念(doc 24页).doc_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目 录第一章 统计学及其基本概念2第一节 统计学简介3一、统计的涵义3二、统计学的过去与现在5三、统计学在经济管理中的应用7第二节 数据及其分类8一、认识数据8二、数据类型10三、数据类型11四、数据类型III11五、数据类型IV12第三节 统计总体、个体与样本12一、统计总体和个体12二、总体的特点12三、样本13第四节 标志、指标与指标体系14一、统计标志14二、统计指标14三、统计指标体系16第五节 统计计算工具18一、统计分析软件简介18二、Excel实现数据处理的主要途径20英文摘要与关键词22习 题23第一章 统计学及其基本概念通过本章的学习,我们应该知道:1. 什么是统计学?2. 统计学有什么用?3. 数据的各种类型4. 基本概念:个体与标志5. 基本概念:总体与指标及指标体系6. 常用的统计分析软件统计把数据变为有用信息,让我们获得新知识统计学是收集、整理、分析数据的科学第一节 统计学简介一、统计的涵义在人们的一般认识中,“统计”就是“计数”。小至一个人、家庭,大至一个企业、国家都有计数的任务,一个月的收入、一年的利润都会是我们经常关心盘算的。这些数据就是统计的成果。世界各国都有各自的官方统计,负责对人口、资源、环境和社会经济活动等各方面进行“计数”,并将这些数据资料以公共产品的方式定期公布,往往命名为“统计公报”或“统计年鉴”。现在关心这些数据的不仅仅是政治家、经济学家和各方学者,普通老百姓由于其生活水平和物价相联系,所以他们可能不知道CPI(消费者价格指数)的确切含义,但对物价指数还是很关注的。“统计”一词用在不同的场合,可以替代的涵义往往有三个:统计工作、统计资料和统计学。1. 统计工作(statistical work)统计工作是为了管理或认识的需要,对社会经济现象和自然现象进行数量收集的活动。例如,为了了解国家的家底,我们进行人口、自然资源和财富的统计;为了让我们仍可以拥有蓝天白云,我们进行环境质量的统计。统计工作随人类劳动的开始而开始,“结绳记日”就是最早的统计工作。统计工作的延续与发展使得其范围越来越大、经验积累得越来越多,客观上为统计学的产生和发展奠定了基础。上面第一段中划横线的那句话,严格来说应该是“这些数据就是统计工作的成果”。2. 统计资料(statistics, statistical data)统计资料是统计工作过程中所取得的各项数字资料以及与之相关信息的总称。统计资料是统计工作取得的能够说明所研究对象的数据。例如国内生产总值数据,说明整个国家的生产规模;居民消费支出,说明居民的生活水平,这些数据经常会在报纸、杂志上出现。随着信息技术的发展与网络的普及,统计资料的公布不再仅仅是纸质资料了,大量的电子版的数据可以方便地从各国官方统计网站上获得,大部分都是免费的。在国外的统计局网站中,专家评价最高的是荷兰统计局的网站,“StatLine”是荷兰统计局的电子数据库,通过它可以查找各类统计数据,并且可以免费下载。我国统计资料的发布途径越来越规范,官方的统计数据通过“中国统计年鉴”和各省、市、地区的统计年鉴定期出版,一般都会同时提供纸质和电子两种形式。目前各级统计局都建立了自己的网站,及时提供有关数据,比如,国家统计局就以“进度统计数据”、“年度统计数据”(见图1.1)、“普查数据”、“专题数据”和“部门数据”五个栏目及时公布许多重要指标。图1.1 中国统计资料的获取渠道3. 统计学(statistics)统计学是在统计工作的经验积累到一定程度时自然产生的,它是收集、整理、描述和分析统计数据的方法和技术,为我们的决策提供“量”方面的依据。不列颠百科全书对统计学的定义为:“统计学是关于收集和分析数据的科学和艺术”。这里提到的“艺术”并不是说统计学属于音乐、美术一类的艺术范畴,而是指统计方法的应用具有技巧性、技术性,它展现数据时往往让我们能享受美感和实用。也许你会感叹埃及的金字塔,可你知道人口统计学中也有一个“金字塔”吗?它同样美丽,见图1.2。Developing Countries 发展中国家图1.2 埃及金字塔与“人口金字塔”统计学的定义突出了统计学研究对象的两个方面:第一,收集数据;第二,分析数据。收集数据的目的是为了解决某一应用或理论上的问题。但是单有一堆杂乱无章的数据,什么问题也回答不了,用处不大,需要经过整理,从中发掘有用的信息并用适当的形式表达出来,然后用科学的方法进行分析,以针对所研究的问题做出一定的结论。下面我们举一个最简单的例子。互联网的用户人数及分布、信息流量分布、域名注册等信息以及用户每月的上网费用、用户平均每周上网时间、用户通常在什么时间上网等资料都可以从电讯局或网络公司的业务记录中获得,但众多的信息资料往往会让我们觉得茫然,所以进一步的数据整理与信息展现是必不可少的。如例1.1。【例1.1】 收集到每天某个时间点上在线用户占注册用户的比例。如何确定自己的上网时间?【解】表1.1是根据收集到的资料汇总得到的统计表,反映了用户通常的上网时间。表1.1 用户通常上网时间时间上网比例时间上网比例时间上网比例0点14.5%8点11.8%16点31.2%1点5.6%9点22.5%17点27.7%2点4.2%10点24.6%18点22.1%3点2.6%11点22.6%19点31.3%4点2.5%12点22.6%20点44.0%5点1.6%13点24.3%21点43.9%6点1.7%14点28.6%22点35.0%7点2.7%15点31.4%23点22.2%资料来源:中国互联网络信息中心 中国互联网络发展状况统计报告(2003)统计表固然能清晰地反映数据,但更直观的是统计图。根据上面的统计表利用Excel图表功能绘制出的条形图,如图1.3。图1.3 互联网上各时间段的使用比例从图表中我们清楚地看到这样一个统计规律:晚上的八九点钟是上网的高峰期,而清晨五六点钟上网的人最少。这提示我们:为提高效率改变一下习惯,早点起就可享受到在网上飞驰的感觉。教师:看到了吗?一个轮廓清晰的统计过程:收集数据 整理数据 分析数据 展现结果 作出决策英文单词“Statistics”有两个含义:把它用作单数时,表示“统计学”;把它用作复数时,表示“统计数据”或“统计资料”,统计学与统计数据之间密不可分的关系在这里也可略见一斑。统计学经过300多年的发展,形成了自己的学科体系。统计学从统计分析方法的研究和应用角度,分为理论统计学和应用统计学,前者研究一般的收集、整理和分析数据的方法,后者则以各个不同的领域的具体数量为研究重心。统计学从统计方法的构成角度,分为描述统计学和推断统计学,很多教科书都是按描述统计和推断统计搭建基本框架的。(1)描述统计学(descriptive statistics)研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。上面的例子“互联网上各时间段的使用比例”就是一个典型的描述统计。(2)推断统计学(inferential statistics)研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。教师:好,我们总结一下。统计学是一门应用性很强的学科,它为决策提供依据,它研究的是一系列的方法,即如何有效地收集、整理和分析各种数据,并对我们所关注的问题作出推断、预测和控制。二、统计学的过去与现在统计实践活动催生了统计学,简要回顾统计学的渊源有利于我们把握学科的发展脉络;勾画统计学现在的学科架构有利于我们了解本课程所处的学术地位。(一)统计学中的各大著名学派统计学始创于17世纪中叶至18世纪,著名学派是国势学派和政治算术学派。统计学在18世纪末至19世纪末的一百年中有了巨大的发展,主要学派是数理统计学派和社会统计学派。1. 国势学派该学派的代表人物是德国的康令(H. Conring)和阿亨瓦尔(G. Achenwall),他们在大学中开设了新课程国势学,介绍如何记录国家发展的重要事件。后人把从事这方面研究的德国学者称为国势学派,或记述学派。当时记载关于国家组织、人口、军队、领土、居民职业以及资源财产等事件主要用的是文字叙述的形式,基本上没有量的描述与分析。国势学派对统计学的最大贡献就是它提出了一个世界公认的名词“统计学(statistics)”。另外该学派在研究各国的重要事件时,采用了系统对比的方法来反映各国实力的强弱,统计学分析方法中的“对比”的思想来源于此。有人评价该学派是“有统计之名,无统计之实”的学派。2. 政治算术学派同是研究各国的国情、国力,英国的学者们却采用了数量分析的方法,代表人物是威廉配第(William Petty,1623-1687年,见图1.4)和约翰格朗特(J. Graunt)。配第在其著作政治算术中,对当时的英国、荷兰、法国之间的财富进行数量上的计算和比较,开用数量方法研究社会经济现象之先河。在这个意义上,马克思称配第是“政治经济学之父,在某种程度上也可以说是统计学的创始人”。该批学者也因此获得“政治算术学派”之名。格朗特通过对伦敦市50多年的人口出生和死亡资料的计算,写出了第一本关于人口统计的著作对死亡率公报的自然观察和政治观察,统计的含义也因此从记述转变为专指用数量来说明国家的重要事件。政治算术学派在统计发展的历史上有着重要的地位,它以数量分析为特征,研究客观现象的数量方面,就这点来说,政治算术应该是统计学的起源。有人评价该学派是“有统计之实,无统计之名”的学派。3. 数理统计学派最初把古典概率论引进统计学的是法国数学家、统计学家拉普拉斯(P. S. Laplace),他阐明了统计学的大数法则,进行了大样本推断的尝试。最终完成统计学和概率论结合的则是比利时统计学家、数学家凯特勒(Adolphe Quetelet,1796-1874年,见图1.4),1841年他出任比利时中央统计委员会会长,1851年积极筹备国际统计学会组织,并任第一届国际统计会议主席;他在著作社会物理学中利用大数法则论证了社会生活中的随机偶然现象贯穿着必然的规律性,他运用概率论原理提出了著名的“平均人”的概念,计算人类自身各性质标志的平均值,通过“平均人”来探索社会规律,他认为,社会所有的人与“平均人”的差距越小,则社会矛盾就越缓和。凯特勒被统计学界称为“国际统计会议之父”和“近代统计学之父”,其贡献就是发现了大量现象的统计规律性和开创性地应用了许多统计方法,为数理统计学的发展奠定了基础。该学派人才济济,和本教材后面内容有关的:英国的戈赛特(William Sealy Gosset)用笔名Student发表了关于t 分布的论文,建立了“小样本理论”;英国的费希尔(Ronald Aylmer Fisher)给出了F统计量、极大似然估计、方差分析等;内曼(J. Neyman)和皮尔逊(Egon S. Pearson)提出了置信区间估计和假设检验;沃尔德(A. Wald)发明了序贯抽样和统计决策函数。特别要提出的是英国数理统计学家卡尔皮尔逊(Karl Pearson,1857-1936年,见图1.4),他设计的“直线相关系数”是最常用的相关系数,从其构思过程中,我们可以体会到“对称美”;他构建的“检验”是最常用的检验方法,从其公式形式中,我们可以体会到“简单美”。这再一次验证了“统计学是一门艺术”的说法,也难怪有许多学者把卡尔皮尔逊尊称为“统计学之父”。4. 社会统计学派社会统计学派发源于德国,主要代表人物有:克尼斯(K. G. A. Knies)、恩格尔(C. L. E. Engel)和梅尔(G. V. Mayr),他们认为,统计学的研究对象是社会现象,目的在于明确社会现象的内在联系和相互之间的关系,在研究过程中,要用全面调查,也可以适量的使用抽样调查。恩格尔在1895年发表的比利时工人家庭的生活费一文中,提出了著名的“恩格尔法则”,从中引申的“恩格尔系数”,作为衡量生活水平的标准,至今仍被沿用。图1.4 统计史上的著名人物:配第、凯特勒和皮尔逊(二)统计学的现代格局各个学派的传承与发展,使今天的统计学形成这样的格局:一是以社会经济问题为主要研究对象的社会经济统计;二是以方法和应用研究为主的数理统计。从学科的角度看,前者从属于应用经济学;后者从属于数学。20世纪60年代以后,随着计算机技术和网络技术的不断完善和各种新技术的不断创新,统计学的发展有如下趋势:首先统计学从面对小批量的数据转变为面对海量数据,因此使用计算机统计分析软件对数据进行处理成为必然;在某些领域,甚至约定俗成必须使用著名统计分析软件SAS,否则无法认可分析结果的准确性。其次统计学从有关领域中吸取的养分也越来越多,如卫星技术的发展催生了空间统计学。越来越多的数学方法被引进来,又被越来越多地应用到各个领域,如医学界的新药研制,企业中的过程控制等等。2003年诺贝尔经济学奖授予了著名计量经济学家恩格尔(Robert F. Engle)和格兰杰(Clive Granger), 以表彰两位成功地解决了时间数列中异方差和非平稳性问题,这些成果应用于金融、人口等方面。统计学所研究的方法可以用于各行各业的数据分析,这使得它成为一门“万能”的方法论学科。美国著名期刊“Science”上有一篇文章列出近百年来最有用的科学,统计学位居前10名。三、统计学在经济管理中的应用统计学应用十分广泛,凡是有数据存在的学科和领域都会用到统计学,因而也形成了众多的具有统计学应用性质的学科,如社会统计学、工业统计学,农业统计学,物理统计学、生物统计学,医药统计学,人口统计学、空间统计学,等等。经济学在研究经济现象及其发展变化的规律性时,除了要作规范性的理论分析以外,离不开对现实经济活动的实证研究。经济学家只有从对现实经济活动的运行条件、运行过程和运行结果的数量分析中,才能得出真正符合客观实际的规律性结论。无论是宏观经济学研究还是微观经济学分析,都需要大量的运用统计学方法,通过各种调查去搜集实际的经济统计数据,通过整理与分析,探索出其数量规律性。统计学在经济领域的应用形成了经济统计学。我们举一个金融业的例子,1995年9月,美国斯但福大学经济学教授刘遵义通过实证比较,数量分析和模糊评价等方法,预测出菲律宾、韩国、泰国、印尼和马来西亚有可能发生金融危机,遗憾的是当时并没有对这个预警做出及时的反应,然而事实果然如刘教授所料。亚洲金融危机的惨痛教训从一个侧面提醒我们,没有完整、科学的分析预测工具,就可能在国际金融竞争中必然蒙受重大损失。只有加强对作为金融信息的各种变量的研究,才能提高对金融运行规律的认识、把握发展方向。我们再举一个投资方面的例子,投资顾问使用各种统计数据信息进行投资分析并用来指导他们的投资建议。对于股票投资来说,顾问们审查各种财务数据,包括市盈率、股息率等等。通过把个股信息与股票市场的平均数加以比较,可以得出个股价格是高估还是低估了的结论。例如,2005年3月16日上证平均指数中30支股票的市盈率是21.08。东方电子集团有限公司的市盈率是17.92。这时,市盈率方面的统计信息显示:与上证指数股票的平均收入相比,东方电子集团有限公司的股票价格较低。因此,投资顾问可以得出结论:东方电子集团有限公司的现行价格低估了。这一点以及其他有关东方电子集团有限公司的信息有助于投资顾问做出买入、卖出还是持股的建议。统计在政府管理中应用广泛。要对国民经济这样的庞大系统进行有效的管理和控制,就必须全面掌握社会再生产的条件、过程和结果的数量信息,这就要求对国民经济系统进行全面的统计核算,为此,从联合国到世界各国政府都建立了相当规模的统计机构,并构建了国民经济核算体系作为宏观经济统计的基本框架,其中国内生产总值统计、投入产出统计、资金流量统计、资产负债统计和国际收支统计是最核心的内容,此外,对社会资源、经济增长、经济结构、经济平衡、经济效益的统计分析,对价格指数、通货膨胀的统计分析,对综合国力的国际对比,对国民经济的宏观监测与预警分析都有助于政府的宏观管理。为了满足国民经济各个部门和各个专业管理的需要,还建立了部门的或专业的统计体系,如房地产统计、劳动统计、货币银行统计,等等。统计在企业管理中也应用广泛。要对企业生产经营活动进行策划、组织、营销、激励、调节、控制,以获得最大的经济效益,就必须全面掌握企业的所有资源的状况,这就要求企业建立企业内部的资源管理系统和外部的客户管理、供应链系统,并在此基础上运用统计方法在企业的海量数据中挖掘有价值的信息。对市场进行分析、对生产过程的质量控制以及最终企业效益的核算,都离不开统计方法的应用。例如,会计是一个专业性很强的管理活动,会计师事务所在对其客户进行审计时,常使用统计抽样的方法。例如,假设一家会计师事务所想确定客户的资产负债表中所显示的应收账款的数量是否公正地体现了实际的应收账款的数量。通常,应收账款的账目数量很大,要审查和验证每个账户既费时又费钱。在这种情况下,通常的做法是审计人员选择账款的一个子集,即样本。审查过抽样账款的正确性后,审计人员就可以得出客户的资产负债表中所显示的应收账款的数量是否可以接受的结论。又例如,零售付账柜台使用电子扫描仪收集数据,可供各种营销研究应用。市场调查公司或营销专家需要的各种数据,都可以从零售商店购买销售点的扫描记录中获得,他们经过处理后,会把这些数据的统计汇总信息卖给制造商。产品公司经理们可以检查并评论扫描得到的数据以及促销活动的相关数字,从而更好地理解销售与促销活动之间的关系。凡此种种的分析有利于为各种产品制定未来的营销策略。第二节 数据及其分类一、认识数据现代汉语词典对数据的解释是:进行各种统计、计算、科学研究或技术设计等所依据的数值。下面我们提供四个数据集,让大家对数据有一个直观的了解。1. 中国历年主要宏观经济指标数据集(数据集01)中国历年主要宏观经济指标数据集记载了中国从1952年至2006年各主要宏观经济指标(资料来源:根据历年中国统计年鉴整理)。指标包括:国民总收入、国内生产总值、各个产业的增加值、财政总收支、进出口总额等总量指标,它们都是按人民币计价,单位为:亿元;人均GDP,单位为:元/人;商品零售价格指数、居民消费价格指数都按上年=100计算;外汇储备以亿美元计价。图1.5是该数据集的部分截图。图1.5 中国历年主要宏观经济指标数据集2. 1995年世界各国基本情况数据集(数据集02)1995年世界各国基本情况数据集记载了1995年109个国家主要社会经济指标(资料来源:根据SPSS自带演示数据库整理)。指标包括:国家名称、人口(千人)、人口密度(人/每平方公里)、城市人口比重(%)、宗教信仰、期望寿命(分男、女)、识字率(分男、女)、人口增长率(%)、婴儿死亡率()、人口出生率()、死亡率()、人均GDP(美元/人)、地区类型分六类(1-OECD国家、2-东欧、3-太平洋、亚洲、4-非洲、5-中东、6-拉丁美洲)等等。图1.6是该数据集的部分截图。图1.6 1995年世界各国基本情况数据集3. 公司人力资源部数据集(数据集03)公司人力资源部数据集记载了该公司工作年限在5年以上的470名员工受教育、考评与薪金的相关信息。有关信息说明如下:性别中“m”表示男性员工,“f” 表示女性员工;出生日期中的“*”表示该数据没有收集到;按工作岗位将员工分为“基本生产员工、服务与辅助生产员工、技术与管理员工”分别用“1、2、3”表示;2005-2007年三年的考评按“优、良、中、合格、不合格”五个等级进行;员工中少数民族用“1”表示,非少数民族用“0”表示;初薪是指员工到公司的第一年薪水;教育程度是指员工接受教育的年数;“工作时间”和“工作前的经验”都以月为单位。图1.7是该数据集的部分截图。图1.7 公司人力资源部数据集4. 企业流水线上的抽样数据集(数据集04)工厂流水线上的抽样数据集记载了一个车间2008年一月份每天在9:00、11:00、14:00、16:00四次采样的测量数据(单位:克)以及对产品包装合格情况的检验数据,图1.8是该数据集的部分截图。图1.8 工厂流水线上的抽样数据集二、数据类型我们从下面的例子来看看数据的衡量尺度。南京是著名的“火炉”城市,为避夏季的酷热,金陵旅行社推出了“南京周边一日游”,有许多市民参加了,旅游结束后,他们被要求填下面的一张调查表:一、本次旅游你去了什么地方?1. 溧阳天目湖 2. 溧水天生桥 3. 六合金牛湖 4. 袁巷九寨沟二、本次旅游你对旅行社的服务感到 _。1. 很满意 2. 满意 3. 不满意 4.很不满意三、你所到的地方当天最高气温是:_。四、本次旅游你总的花费是: _。这张调查表中显示了数据类型是:1. 分类数据(categorical data)分类数据是对事物进行分类的结果,数据的主要特征是采用文字、数字的代码和其他符号对事物进行简单的分类和分组。比如,对人口按性别、民族、行政区划和婚姻状况等做归类统计,对企业按照经济性质进行分类。使用分类数据时,各个类别的叫法只表明类别的名称,至于类别之间的关系,不作任何的假定。在实际中,为便于计算机识别和信息传输,对于分类性质的统计数据,人们往往给每一个类别赋予数字代码。例如,男性用1表示,女性用0表示,但这就好像给商品贴上标签一样,仅是示意性的,数字代码不可以直接进行数字的运算。调查表中问题一所提供的数据就属这类。分类数据以定类尺度(nominal scale)来衡量。数据集02中的“国家”、“信仰宗教”和“地区类型”都是这类数据。2. 顺序数据(rank data)顺序数据,也可称为等级数据,也是对事物进行分类的结果,只是这些分类在语义上表现出明显的等级或顺序关系,例如,学生的成绩可以分为优秀、良好、中等、及格和不及格;产品的质量可以分为优等品、合格品和不合格品;用户的满意程度可以分为很满意、满意、不满意和很不满意。顺序数据和分类数据一样都属于定性数据,但顺序数据比分类数据含有的信息量更多,能够进行差别和好坏的比较,但差别和好坏的程度,仍然无法给出一个具体的评价尺度。调查表中问题二所提供的数据就属这类。顺序数据以定序尺度(ordinal scale)来衡量。数据集03中的三年的考评情况就是这类数据。由于分类数据和顺序数据都说明的是事物的品质特征,通常用文字来表述,其结果均表现为类别,因此也把它们统称为定性数据或品质数据。3. 数值型数据(metric data)数值型数据是使用自然或度量衡单位对事物进行测量的结果,其结果表现为具体数值。它说明的是现象的数量特征,通常是用数值来表现,因此也称为定量数据或数量数据,例如考试成绩用百分制来表示;人的年龄用周岁来表示;产品的产量用件、箱和吨等来表示;各个数据之间不仅可以对比大小反映差别,还可以计算各种平均数。调查表中问题三、四所提供的数据就属这类。数值型数据有两种衡量尺度:一是定距尺度(interval scale),这种尺度的每一间隔是相等的,只要给出一个度量单位,就可以准确地指出两个计数之间的差值,如南京的最高温度是40,溧阳天目湖的最高温度是33,二者相差7,这类数据可以进行有意义的加减运算;二是定比尺度(ratio scale),这种尺度可以准确地计量两个数值之间的倍数,如旅客甲这次旅游花费了200元,旅客乙花费了100元,则旅客甲比旅客乙多化了一倍的钱,显然这类数据可以进行有意义的乘除运算。很多经济变量都属于这种类型,如产品产量、销售额、固定资产投资、居民收入、消费支出、银行贷款余额等。区别这两类数据的显著特征是:用定比尺度测定的数值型数据有一个绝对固定的“零点”,“0”表示的是数值,即“没有”如花费是“0”,则表示没有花费;而定距尺度测定的数据的“0”,表示的是一种水平,比如温度为“0”,不是说没有温度,而是温度在“0”这样的一个水平上。数据集01中的所有数据、数据集02中的“人口”、“人口密度”、“男、女期望寿命”等就是这类数据。三、数据类型观察数据集01与数据集02,前者以时间为序列示被描述的对象;后者是按国名顺序列示被描述的对象,而时间都固定在1995年。我们把以时间为序排列的数据称为时间序列数据,而在同一时间层面上显示的数据称为截面数据。这两类数据在计算描述统计量和构建评价模型时都有所区别。1. 时间序列数据(time series data)是在不同时间上收集到的数据,它所描述的是现象随时间而变化的情况,如19522006年我国各年的人口总数、19522006年我国历年国内生产总值数据都属时间序列数据。2. 截面数据(cross-sectional data)是在相同或近似相同的时间点上收集的数据,它所描述的是现象在某一时刻或某一时间段的变化情况,如2003年我国各地区的人口数、2003年我国各地区的国内生产总值数据都属截面数据。3. 面板数据(panel data)是对若干个单位在不同时间进行重复跟踪调查所形成的数。例如,我们连续20年收集得到的企业工人的工资、受教育程度和就业情况的数据。四、数据类型III观察数据集02,人口是一个以“千人”计量的数据,它反映了各个国家的人口规模;人口密度是以“人/每平方公里”计量的数据,它是人口数与土地面积的比值,反映了各个国家的人口的稠密程度。根据数据的表现形式的不同,可以分为三类:1. 绝对数(absolute number)是统计数据的基本表现形式,是其他指标形式形成的基础。现象的总体规模和水平一般都以绝对数形式表现,一个地区的总人口、国内生产总值、货物周转量等都是绝对数,其计量单位有实物单位、价值单位和复合单位三种。绝对数按其所反映的时间状况不同可以分为时期数和时点数。时期数是反映现象在一段时期内的总量。如产品产量、产值、销售额等。时期数的特点是可以连续计数,并可以累积。时点数是反映现象在某一瞬间时刻上的总量,如人口数、商品的库存量、企业的固定资产价值等。由于时点数是反映现象在某一瞬间点上的水平,因而只能间断计数,各时点不能累积。2. 相对数(relative number)是由两个相互联系的绝对数对比得到,反映事物的相对数量。常用的相对数包括:结构相对数、动态相对数、比较相对数、计划完成相对数。结构相对数是在对资料进行分组的基础上,以总体的总量作为比较的标准而得到的相对数,如第三产业增加值占国内生产总值的比重;动态相对数是将不同时期的同类事物的水平加以比较求得的相对数,如国内生产总值的发展速度;比较相对数是将不同单位的同类现象对比得到的相对数,如2006年上海市城镇居民的人均可支配收入为20667.11元,相当于全国平均水平11759.45元的1.76倍;计划完成相对数将实际完成数与计划完成数对比用以反映计划的执行情况,对于产出类指标,如产量,大于100%说明完成了规定的任务,而对于投入类指标,如成本,则小于100%说明完成任务。3. 平均数(average)反映现象总体的一般水平。平均数的计算将在第四章详细介绍。五、数据类型IV变量(variable)是说明现象某个数量特征的概念,其最常见的分类是:离散型变量(discrete variable)和连续型变量(continuous variable)。这两类变量获取的方法不同,离散型变量一般用“点数”的方法取得,数值往往是整数,如职工人数、企业个数、设备台数等。连续型变量用“测量”取得,测量的仪器越精密,变量值就会越精确,如人的身高、体重;产品的长度、重量等。变量按其所受因素的影响不同,还可分为确定性变量和随机变量(random variable)。受确定性因素影响的变量称为确定性变量。这种影响变量值变化的因素是明显的,是可以解释的,是人为的或者受人控制的,其影响变量值的大小、方向都可以确定。如产品总成本的变化,无非是受产品产量和单位成本两个因素的影响,而这两者都是人为可以控制的变量,并且对生产总成本影响的大小和方向也是确定的。受随机性因素影响的变量称为随机变量,所谓随机因素,是指各种不确定的、偶然性的因素,这种因素对变量影响的大小和方向都是不确定的,通常是微小的。如流水线上生产零件,即使在看似完全相同的生产条件下,零件的尺寸也会存在差异,究其原因可能是电压的高低、气温、湿度的变化,甚至是操作者的情绪。统计学研究的变量主要是随机变量。离散型和连续型随机变量往往会服从不同的概率分布。教师:数据对做统计的人来说,怎么强调它的重要性都不过分。如果没有数据,那么就肯定是“巧妇难为无米之炊”了。第三节 统计总体、个体与样本一、统计总体和个体统计总体,简称总体(population),就是统计所要研究的事物或现象的全体,即由客观存在的,具有某种共同特征的许多个别事物构成的整体。例如,如果我们要研究南京财经大学全体学生的英语学习成绩时,各院系的所有学生构成统计总体,各院系每个学生均在校注册这一共同特征成为构成这个总体的前提条件。个体(item unit)是构成统计总体的个别事物,又称为总体单位。在上例中,南京财经大学的每一个学生便是个体。对于不同的研究对象,个体可能是人、物,可能是企业、机构,甚至可能是时间、地域。再举两例:在数据集01中,总体就是所有的年份,而个体就是每个具体的年份;在数据集02中,总体就是所有的国家,而个体就是每个国家。学生:等等,好像这里的定义和数理统计里的不一样呀。数理统计是:如果我们要研究南京财经大学全体学生的英语学习成绩,所有学生的英语成绩是总体,个体是每个学生的英语成绩。而不是:总体是所有学生,个体是每个学生。教师:是的。这里确实和数理统计中的总体定义不同。统计学里的定义强调数据所依附的载体,成绩是考核学生得到的,所以成绩所依附的载体是学生。这样定义有它的好处,因为以社会、经济、自然等数量方面为研究对象的统计学,把处理分析问题作为自己的重心。如果研究学生的状态,则不仅仅是英语成绩一项,需要用一系列的数据来反映学生状态,这时这种总体的定义就显示出了优越性。二、总体的特点1. 大量性统计研究是对事物变化发展的规律性进行分析,规律性寓于大量现象之中,只有对大量总体单位进行观察和分析研究,事物发展的规律性才能得以显现。对一个统计总体而言,要包含多少个体才算是大量呢?这得从两方面来看的:从总体内部分析,取决于个体所体现出来的差异,差异大,则需要的个体就多;从总体外部分析,取决于我们对所研究问题精确度的要求,精度高,则需要的个体就多。在一个统计总体中,当总体包含的单位有限时,我们称之为有限总体。大部分社会经济现象都属于有限总体,要收集这类现象的统计资料既可用全面调查方法,也可用抽样调查方法。有限总体所包含的个体数称为总体容量,通常用大写英文字母N表示,一般来说,N总是一个很大的数。当总体所包括的单位数是无限的,我们称这类现象为无限总体。在客观现象中,无限总体极少,但也存在,如昼夜连续生产的某产品产量便构成无限总体。我们不可能对无限总体进行全面调查,只能用抽样调查方法收集其统计资料。2. 同质性总体中的每一个个体都必须具有某个相同的性质,才能将它们组合成一个总体,否则由个体得到的综合信息也会失去意义,甚至掩盖被研究现象的真相。例如,商业企业作为总体,是因为每个商业企业都是从事商业流通活动的个体,具有相同的经济职能,各个商业企业合计的销售额、利润都是有意义的,反映的是商业企业的经营状态,但如果我们将一些工业企业的销售额、利润也加入其中,那么合计数也就不再能够反映商业企业的经营状态了。3. 差异性个体必须在某方面是同质的,这是构成总体的前提,但在其他某些方面又必须是不相同的,即各个个体之间必须存在差异。如果没有差异,所要研究的内容都完全一样,那就不需要统计、不需要综合分析了,所以从这个意义上说,个体的变异性也是构成总体的必要条件。例如,研究企业员工的收入状态,由于各个员工的收入是不同的,所以我们计算平均收入来反映一般收入水平,计算标准差来反映职工间收入的平均差异。如果每个职工的收入都是一样的,比如每月每人都是收入2000元,那么就不需要做什么统计了,因为显然平均收入就是2000元,职工之间的差异为0。4. 相对性统计总体和个体不是一成不变的,二者随着研究目的和任务不同而变化。对于同一个客观事物在某项研究中属于个体,但在另一研究中可能就成为统计总体。例如:在宁高校这个统计总体中,在南京的每个高校都是个体,比如南京财经大学就是其中的一个个体,但要研究一个典型高校内部的教学科研情况,如果选中了南京财经大学,那么它就成为统计总体了,学校的各院系部或学校的每个教职工就是个体了。三、样本样本(sample)是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。抽取样本的目的是用来推断总体,这就必然要求样本能够代表总体。样本代表总体的程度越高,由样本计算的指标与总体指标的误差就越小。因此总希望样本具有较高的代表性。遵循随机原则的抽样,能够排除主观因素的影响,保证取样的客观性;采用非随机原则的抽样,有时会更快捷、更经济,只是抽出的样本无法计算误差。构成样本的个体数目称为样本容量。通常用小写英文字母n表示,相对于N而言,n一般只是一个很小的数。比如想了解流水线上产品的合格率,我们会随机抽选100个产品进行检验,这100个产品就构成了一个样本,样本容量是100。我们会根据对这100个产品检验的结果,计算出样本对应的合格率,并用它来代表总体的合格率。在实际工作中,总体又称为全及总体,由于样本是从总体抽取出来并代表总体的,总体又称为母体,样本则称为子体。学生:所谓“全及”就是“涉及全部”的意思吧。第四节 标志、指标与指标体系统计学的研究对象是客观现象总体的数量方面,但我们无法一下子直接计量出总体的数量特征,而必须是对取自总体的样本,或更直接地说对构成总体的个体有充分认识,才能对总体进行特征描述。一、统计标志统计标志,简称标志(characteristic),是指每个个体所共同具有的属性或特征,它是说明个体的属性或特征的具体名称,但对应于某个标志,各个个体的具体表现,即标志值,是可以不同的。正是由于各个个体就某些标志而言具有相同的标志值,才构成了统计总体;也正是由于各个个体就某些标志而言具有不相同的标志值,才有了统计的必要。例如,我们要研究南京财经大学女学生的身体素质,显然,南京财经大学所有女学生构成总体,每个女学生是个体。反映个体的标志可以有很多:所在学校、家庭住址、性别、民族、年龄、身高、体重、血压、60米速度、平均每天锻炼的时间,等等。对每个南京财经大学的女学生来说,她们的“所在学校”和“性别”所对应的标志值都是相同的,这是构成总体的条件,即同质性;而其他标志的标志值就不会全同了,这是我们要调查研究的内容,显而易见,有差异才有统计的必要。我们再看看数据集02,它的第一行就是标志,从第二行起就都是标志值了。标志按其性质分为品质标志和数量标志。品质标志是表明个体属性方面的特征,品质标志的标志表现只能用文字说明,不能用数量表示,即得到分类数据和顺序数据,如上例的“家庭住址”、“性别”;数量标志是表明个体数量特征的,其标志表现只能用数字表现,即得到数值型数据,如上例的“身高”、“血压”。在数据集02中,“国家”、“信仰宗教”及“地区类型”都是品质标志,而“人口”、“人口密度”等等都是数量标志。标志按变异情况分为不变标志和可变标志。不变标志是指某一标志对所有个体而言,具体表现都是相同的,如上例的“所在学校”;可变标志,又称变异标志,是指某一标志在各个个体之间的具体表现不尽相同,如上例的“民族”、“年龄”。有时我们会按照某一个品质标志,将总体划分为具有某一特征的个体的集合和不具有某一特征的个体的集合两类。如在全部产品中,分为合格品与不合格品;在全部人口中,分为男性和女性。这种用“是”、“否”或“有”、“无”来表示的标志,叫做是非标志,也叫交替标志或0 1标志。二、统计指标统计标志对应的是个体,统计指标则对应于总体。统计指标,简称指标(indicator),是反映总体数量特征的,由各个个体的标志值汇总综合而成。任何一个统计指标都是经过了从个别到一般、从具体到抽象的过程,它体现总体特征,具有综合性。统计指标包括指标名称和指标数值两部分,例如:某年全国工业增加值为35357亿元,这一统计指标既包括概念“工业增加值”,又包含具体数值“35357亿元”;它还表明了在一定时间和空间条件下现象的量,即统计指标不能离开时间和空间而存在,例如:2003年我国国内生产总值(GDP)为116603.2亿元,这一指标时间和空间界限非常明确。(一)口径一致是统计指标的基本要求1. 统计指标是反映研究对象总体特征的,确定研究对象往往与一定的理论相联系,如大多数西方宏观经济学教科书的开篇就是定义宏观经济所涉及的主要经济指标,如国内生产总值、国民总收入、通货膨胀率和失业率等等。理论定义的范畴应该和实际获得的指标数值的口径统一。2. 统计口径包括两个方面:一是计算口径外延的明确定义,指标所包括的范围模糊,必然导致所收集的资料不准确及对资料的分析结果失真。如,计算劳动生产率指标时必须明确分母是指生产工人还是指全体职工,否则会将生产工人劳动生产率和全员劳动生产率混淆。二是计算口径维度的正确把握,如例1.2。【例1.2】根据大量资料统计结果,汽车的车祸有70%发生于中速行驶时,30%发生于高速行驶时,就此能否认为高速行驶比中速行驶更安全?【解】如果这个调查的前提是高速和中速行驶的车次是相同的话,那么这个结论是对的。问题是现实中,高速行驶的车次数明显地低于中速行驶的车次数(因为大多数人还是知道保命要紧的。)。我们判断行车的安全性应该计算车祸率,而不是高速、中速行驶所发生车祸占总车祸的比重。我们假设有表1.2的数据,结论就正好相反,高速行驶的车祸率高于低速行驶的车祸率。表1.2 汽车行驶车次数与车祸情况调查表车速车次数(百万次)车祸情况车祸率()绝对数(百次)相对数(%)高速30240300.80中速280560700.20合计3108001000.26(二)统计指标按反映问题的数量特征分类1. 数量指标它是反映客观事物的规模或水平的指标,它表现为汇总后直接得到的绝对数或总量,又称之为总量指标或绝对指标。数量指标是最基本的指标,它是计算其他指标的基础。数量指标包括标志总量和总体单位总量,如总产值、工资总额、人口总数、企业个数等。2. 质量指标它是反映客观现象之间的相互联系、比例关系、发展速度、内部结构的指标,一般用相对数或平均数表示。如劳动生产率、成本利润率、人均国民收入等。质量指标是由两个数量指标对比求得的,它是由数量指标派生的。学生:既然指标是由个体对应的标志汇总而来的,那么,是不是数量标志汇总得到数量指标;而品质标志汇总得到质量指标呢?教师:非也。这是你们最容易搞错的概念。其实标志的第一次汇总得到的都是数量指标,比如,每个人的收入是数量标志,加总后就得到数量指标“总收入”;每个人的性别是品质标志,汇总后可以得到“男性总数”和“女性总数”,这两个总数也是数量指标。质量指标是两个数量指标对比得到,如总收入除以总人数得到平均收入;“男性总数”除以“女性总数”得到性别比。(三)统计指标按核算的范围分类1. 总体指标,即总体参数,简称参数(parameter),是我们想要了解的总体的某个特征值。通常所关心的参数有:总体平均数、标准差、总体比例等。在统计中,总体参数通常用希腊字母表示,如,总体平均数用表示。总体标准差用(读作:西格玛)表示,总体比例用表示。总体参数是一个未知的常数,是我们希望知道的,如我们不知道整个国家的收入差异,不知道流水线上的产品合格率,但它们都是我们想要得到的数据,为得到这些数据我们可以采用全面调查,即对这个国家的每个人进行调查、对流水线上的每一个产品进行检验,但如果某个产品质量检验是破坏性的,那么我们会采用抽样,根据从抽取的样本中所获得的资料来推断总体参数。2. 样本指标,即样本统计量,简称统计量(statistic)。统计量是根据样本数据计算出来的一个量。通常我们所关心的样本统计量有样本平均数、样本标准差、样本比例等。样本统计量通常用英文中26个字母来表示,比如,样本平均数用(读作:x-bar)表示,样本标准差用s表示,样本比例用p表示。由于样本是我们从总体中抽取的,所以统计量总是可以计算获得的。抽样的目的就是要用统计量来推算总体参数。彼此之间的关系可见图1.9。图1.9 总体、个体与样本之间的关系三、统计指标体系一个统计指标只能反映特定现象的一个侧面或一个侧面的某一特征,但任何客观现象都具有多个相互联系、彼此制约的方面和特征,如一个企业是由物资流、价值流、信息流等相互联系的多方面构成的整体运动。如果我们要全面、深入地反映客观事物,必须将各种相互联系的指标构成一个整体,用以反映所研究对象各方面的相互依存和制约关系,反映总体的全貌。一系列相互联系、相互制约的多个统计指标就构成统计指标体系。在现实经济生活中,统计指标体系中各个指标之间的联系表现为两种形式:第一,统计指标之间存在的客观联系是通过严密的数学公式表现的,如:农作物收获量=播种面积单位面积产量;国民总收入=国内生产总值来自国外的净要素收入。第二,各统计指标之间存在着相互补充的关系。例如,考核工业企业的八项指标产量、品种、质量、原材料、燃料、动力消耗、成本、利润、流动资金占用,所构成的指标体系就属于这种情况。在设立统计指标体系用以全面、综合反映现象的状态时,应该遵循客观性、科学性、可行性、预见性原则。指标体系的建立不但要遵循指标之间内在的客观联系,还要考虑获取资料是否可能以及指标体系的设置是否可行;不但要考虑指标体系是否能反映实际问题,还要使新设立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论