




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文主要阐述了对统计数据进行校验识别的五种方法,并对他们 在计算机上的实现进行了探讨。文中首先分析了中国当前统计数据失 真的严重性和危害性,并对解决此问题的一般方法进行了介绍,接着 针对统计数据的校验识别从三个不同角度提出了五种不同的校验方 法,并对其原理和实现步骤进行了论述。然后根据这些原理和方法将 它们在计算机上实现。最后给出两个实例予以验证。 统计数据计算机自动校验系统针对统计全面调查、抽样调查都适 用,它利用计算机强大的计算功能、管理功能实现了统计数据的自动 校验,保证了统计数据的真实性。 本系统包含了数据准备、统计数表、数据校验、和结果显示等功 能模块,实现了系统的实用性、可靠性、灵活性和友好性。 关键词:统计数据虚假数据计算机校验数据校验 a b s t r a c t t h i sp a p e rp r i n c i p a l l yd e s c r i b e st h eb a s i ci d e ao f v e r i f i c a t i o ns t a t i s t i c a l d a t ab yc o m p u t e r a tf i r s t ,t h i sp a p e ra n a l y z e st h es e r i o u so u t c o m ea n dh a r mo f t h ef a l s e s t a t i s t i c a ld a t ai nc h i n a ,a n di n t r o d u c e st h eu s u a lw a y st os o l v et h e p r o b l e m s ,t h e nb r i n g sf o r t hf i v ed i f f e r e n tv e r i f i c a t i o nm e t h o d sf o r t h e v e r i f i c a t i o na n dd i s t i n g u i s h i n gf a l s ed a t af r o ms o m es t a t i s t i c a ld a t ab a s e d o i lt h et h e o r i e sa n dr e a l i z a t i o ns t e p s s e c o n d a r y ,t h ep a p e r g i v e st w o e x a m p l e s s t a t i s t i c a ld a t aa u t o m a t i c a l l yc h e c kt h ec o m p u t e rs y s t e mf o rs t a t i s t i c s c o m p r e h e n s i v es u r v e ys a m p l es u r v e y sa p p l i e d ,i tu s e sap o w e r f u l c o m p u t e rc a l e u l a t i o nf u n c t i o n s ,m a n a g e m e n tf u n c t i o n st oa c h i e v et h e s t a t i s t i c a ld a t ao f a u t o m a t i cc h e c k i n g ,g u a r a n t e et h ea u t h e n t i c i t ) ro f t h e s t a t i s t i e s 1 1 1 es y s t e mi n c l u d e sd a t ap r e p a r a t i o n ,s t a t i s t i c a lt a b l e s ,d a t ac h e c k i n g , a n dt h er e s u l t ss h o w e dt h a tt h ef u n c t i o nm o d u l e t h es y s t e mh a s 也e f e a t u r eo f r e a lt i m e ,s a f e t y , t r u s t i n e s s ,崩e n d l ya n df l e x i b l e k e yw o r d s :s t a t i s t i c a ld a t a ,f a l s ed a t a ,c o m p u t e rv e r i f i c a t i o n , d a t av e r i f i c a t i o n 1 1 问题的背景 第一章引言 统计是认识社会的有力武器,是经济管理部门做出科学决策的基 础和依据。统计数据准确与否,直接关系国计民生,关系社会经济的 稳定与发展。因此搞准统计数据,提供可靠的统计信息:是统计工作 f l o , - i :c a 。 。 但是,目前我国的统计信息现状还不容乐观,由于多种原因统计 数据质量还不能完全保证,尤其是统计数据失真现象仍然存在,如虚 报浮夸、弄虚作假、搞形式主义等还时有发生。 1 1 1 统计数据失真的严重性 1 9 9 3 年2 月,某地一家报纸在头版头条位置,登出x 实现“一 年长出个新xx ”的报道。文章称1 9 9 2 年该县工农业总产值达到 1 6 8 8 9 亿元,比上年增长1 4 1 3 ,其中工业产值达1 6 0 6 0 亿元,比上 年增长1 5 3 1 。就这一点而言,可说“一年长出个新xx ”。如此大幅 度产值增长,令人奇怪的是与此相关的诸多经济因素,如电力、钢材、 煤炭、汽油、水泥、原木的消费量比上年的增涨幅度都相当小,在物 资、技术含量没有发生根本性变化的情况下,上述工业发展的前提因 素与工业产值的飞速增长之间出现了很大的矛盾。经有关方面调查核 实,发现这个县的产值中充满了水分。 这种在统计工作中的弄虚作假行为,导致统计数据失真,含有水 分。统计数据里面的水分,不仅县里、省里在挤,中央也在挤。据某 课题组研究【i l ,1 9 9 4 年国家统计局对不变价格工业总产值进行审查, 在地方统计部门挤“水分”的基础上,全国一次挤掉水分高达7 0 0 0 亿元。 1 9 9 4 年全国统计执法大检查暴露的统计违法案件中,虚报、瞒报、伪 造、篡改统计数据的就高达2 o l 万件,占总件数的2 7 3 。1 9 9 7 年查出 的统计违法案件有6 万多,其中虚报、瞒报、伪造、篡改统计数据的是 5 6 7 ,有些地方电力增长为零,但是其工业产值增长可达2 0 - - 4 0 , 令人奇怪和不可思议。 1 1 2 统计数据失真的危害性 统计数据上的严重失真、弄虚作假行为,已不是一般的思想作风 或单纯的统计业务技术问题,其实质是一种严重的腐败行为,危害性 很大。表现在: ( 1 ) 在统计数据上弄虚作假,严重违背了党的实事求是的思想路 线,败坏了党的优良传统和作风,造成了人们思想的混乱,腐蚀了党 员干部的思想,助长了本位主义、拜金主义、个人主义和封建权欲思 想的蔓延。 ( 2 ) 在统计数据上弄虚作假,严重损坏了党和政府的形象,损害 了国家和人民群众的根本利益,使地方保护主义,极端利己主义等歪 风在一些地区和部门中滋长起来。于是,在一些地方和部门,有些人 把弄虚作假作为求得名利官位的捷径,“吹而优则士”,形成了“数字出 官、官出数据”的恶性循环。 ( 3 ) 在统计数据上弄虚作假,严重损害了干部队伍的建设。“以产 值论英雄,以速度评政绩”的片面用人原则,致使领导干部“荣辱升降, 系于一数”、“政绩看数字,数字出于部”。 ( 4 ) 更严重的是虚假的统计数据会严重影响国家宏观经济决策的 科学性和宏观调控的有效性,增加宏观经济决策的风险,甚至会导致 宏观经济决策的失误。 1 1 3 统计数据失真的成因 根据近年来统计执法实践活动看,统计数据失真的原因有以下几 个方面 2 1 : ( 1 ) 统计制度不够完善是造成统计数据失真的内在因素,表现在: 统计部门内部各专业在统计方法、指标涵义、口径上还存在一定程度 上的不统一;专业间统计方法改革还存在不同步;统计范围、口径的 理论值与实际值出入有时还比较大;统计与财会在核算周期上还存在 一些差异等。 ( 2 ) 从事统计工作的专业人员业务水平多少有些参差不齐,表现 在:基层填报单位的统计人员往往业务水平较低,身兼多职,人员更 换频繁,台帐、原始记录不全,历史资料混乱,使统计工作缺乏准确 的依据:目前各级综合统计部门中有的专业人员知识面还比较窄,除 了本专业的业务知识外,对金融、财会、税收、计算机等相关知识还 比较缺乏,因而对报表中有关数据逻辑平衡关系不清,对数据的基本 走势不明,无法进行严格的审查把关;关键的一点是基层统计部门力 量不足。 ( 3 ) 各级统计管理部门在统计执法过程中力度还不够,缺乏过硬 的执法手段,导致人为的统计数据失真。 ( 4 ) 对统计数据缺乏校验与复查的有力措施。 此外,全社会对统计工作地位及重要性认识不够,各级统计部门 人力、物力、财力严重不足,相应地影响了统计工作的顺利开展和统 计数据质量的提高。 1 2 解决问题的方法 统计数据失真的危害性是很大的,其成因是多方面的,统计失真 是一项涉及多方面的系统工程,从统计数据失真的过程出发,从三个 方面提出解决问题的方法。 首先,要加强统计数据失真前的防范。1 、在统计改革的指导思想 上坚持面向市场经济完善统计指标体系。2 、加强统计队伍建设,提高 统计人员的综合素质。3 、加强统计工作的信息化建设,提高统计数据 处理能力。4 、改革现行统计管理体制。 其次,在统计数据失真发生后,加强对弄虚作假行为的处罚力度, 以达到震慑的作用。 最后,要加强对统计数据的校验评估,快速识别出统计数据中的 失真虚假成分,这样可以较快的发现问题、分析问题、解决问题,以 提高统计数据的质量。这一点也是本文的中心所在。 1 3 本文研究的内容 统计数据是统计工作的基础。搞准统计数据是统计机构、统计人 员的中心任务和根本职责p l 。当前我国统计数据质量面临着严峻的形 势,统计数据中还存在着严重的失真现象,影响了宏观决策的科学性 和宏观调控的有效性,给经济建设带来了难以估算的损失。根除统计 数据失真,制止弄虚作假,提高统计数据质量已成为我国当前统计的 中心任务。 当前,最重要的是加强对统计数据的校验评估。这样既可以在统 计数据使用时做到胸中有数又可以通过校验发现问题、分析闯题进而 采取有效措施解决i a - j 题,提高统计数据的质量【4 】。 本文即针对统计数据的校验问题从其原理方法在计算机上实现等 方面进行系统细致地研究探讨。具体地说,有以下几个方面的内容。 1 、统计数据校验研究 从统计数据校验的含义出发,综合利用了数理统计学等方面的知 识,从五个不同的角度提出五种校验方涉,对它们的原理和校验步骤 进行了详细地论述并对应该注意的问解进行了讨论。 2 、统计数据校验的实现 既使有了最好的统计数据校验方法,如果不能在现实中实现并应 用的话,也只能成为“屠龙之技”毫无实际价值。因此,在提出了五 种校验方法之后,本文针对它们在计算机上的实现进行了研究和探讨。 3 、统计数据校验的验证 在这五种校验方法实现的基础上本文提出了几个实例,对它进行 了实际的验证和测试。 4 、总结与展望 在总结文中主要内容的基础上,考虑了文中的一些不足之处和应 改进的地方,并对今后应该进一步努力的方向进行了一些有益的探讨。 4 第二章统计数据校验研究 2 1 校验概述 统计数据校验是指综合利用多种手段和方法,对调查、整理完毕 的统计数据进行验证、分析、评价,对其准确性进行估计。 依据对统计数据进行校验的手段来看,统计数据校验可分为基础 性校验和准确性校验两大类方法【5 l 。 2 1 1 基础性校验 基础性校验主要是从统计工作的规范性、统计基础的可靠性、统 计报表的准确性、统计数据的合法性等方面对统计数据质量进行评估。 1 、统计工作的规范性。 根据统计工作规范要求来检验统计数据的采集和整理等各环节的 实际工作,以便评估统计数据的质量。对全面调查取得的数据,以现 行统计制度规定为依据,从指标的范围、口径、资料来源渠道、计算 方法等方面进行检验;对抽样调查取得的数据,以国家统计制度规定 的有关调查基础工作规范为依据,从抽样方法、抽样误差、抽样调查 技术操作等方面进行检验。 、 在统计工作规范性评价中特别需要注意对资料来源的真实性、规 范性进行评价,主要有两点: ( 1 ) 资料来源渠道是否全面、正常、规范化。资料来源的覆盖面 要全,如果不全,就会加大主观估计程度,从而影响数据质量。资料 来源渠道要正常,渠道不同,同一指标的口径范围,加工方法就不同, 从而数据的大小可能会有很大差异,也势必影响数据质量;资料来源 要规范,指标时多时少,指标含义变化不定,指标的口径范围时大时 小,也势必影响数据质量。 ( 2 ) 资料来源是否具有可靠的质量保证。影响资料来源质量的因 素。包括调查方法、加工汇总方法或样本推算总体的方法是否科学, 各级调查、加工、汇总或推算工作人员的素质,等等。 2 、统计基础的可靠性评估 统计基础的可靠性评估主要是看计量、原始记录和统计台帐是否 健全和规范:计量是统计工作的主要基础。评价计量工作是否规范化 主要看其生产经营单位的每一个计量点上是否有仪器、仪表和计量髹 具,是否能运用科学的计量方法取得准确的量化数据。原始记录是用 数字或文字对生产经营活动所作的最初记录,也是统计的基础,评价 原始记录是否规范化,主要看是否做到:内容完整、指标全面、数字 真实、统一管理,统计台帐是依据原始记录和其他有关文字资料的收 集加工整理而建立起来的数据储存系统,主要看是否做到:专业齐全, 指标科学,口径一致,时间连续,格式统一。 3 、统计报表的准确性、完整性评价。 报表数字的准确性和完整性是衡量基层报表质量高低的重要标 志,也是统计报表的生命。通常可用报表数字差错率指标( 见公式2 1 ) 来评价报表质量。该指标从反面反映报表数字的准确程度,报表数字 差错率越低,可以说明报表数字的准确程度越高。报表数字差错率指 标的子项“差错笔数”,是指上报的统计数据经过报表认真审核后,也 可以包括上级受表机关查询后,认定为错误的统计数的笔数。 报表数字差错率= 骂翥耋豢翥翥i i ;i ;茎x 1 0 0 g m 常用的评价指标还有报表填报一次合格率、报表种数齐全率和报 表指标数字完整率( 参见公式2 2 - 2 4 ) 。报表填报一次合格率对于避 免报表多次重填、提高资料的时效性和质量有重要意义;报表种数齐 全率以报表种数作为计算单位反映上报的报表的完整性:而报表指标 数字完整率则反映了报表资料内容的完整性,用来说明数据的缺报、 漏报情况,从而评价报表质量。 报表填报一侉合格率= 笠二善竺褰警鲁靠鬈:摹;i 笋塑。t z 力 报表种数齐全率= 蔫霪袈甚嘉粪燃。q 固 报表指标数字完整率= 篆鬻黠蒸筹鬻鬈茎笋圳 。 ( 2 4 ) 4 、统计数据的合法性。 主要是看统计数据的产生过程是否符合统计法律、法规的规定, 特别是统计数据的上报过程是否受到非法的干扰,有无人为修改统计 资料的情况。 2 1 - 2 准确性校验 统计数据的准确性校验主要是指利用数理统计学,计量经济学中 的一些理论公式和数学模型,结合统计指标的逻辑关系,对统计数据 6 的准确性、可靠性做出评判。统计数据的准确性校验则主要是通过对 统计数据本身,考察它们之间的关系来估计统计数据的质量,这种估 计不但可以是定性的还可以是定量的。 实践中这两种方法可以结合起来进行。本文以后所指的统计数据 校验均是指准确性校验。 2 2 统计数据校验的方法 对统计数据进行校验识别主要有五个方法:随机误差校验,投入 产出校验,综合平衡校验,统计模型核验,专项调查校验。 我们假定统计报表有确定的格式,按照某一确定的格式有多年的 积累,过去的报表一般已被认可。每一报表的数据可以看作一个矩阵, 历年报表的数据可以看作一个矩阵序列。我们的校验工作主要是围绕 这个矩阵序列来开展。 2 。2 1 随机误差校验 随机误差校验是用数理统计理论对数据进行统计校验和异常点识 别。从纵向看,统计报表数据矩阵的同一位置的元素形成了一个时间 序列。我们对这个时间序列可以做出图像显示,以年度为横轴,元素 数据为纵轴。我们可以对这个时间序列做出异常点识别。 所谓异常点或异常值是指一批数据中的个别者,其数值明显地偏 离该批数据中的其余值。 设需要考察经济指标x 在n 个时点t l t n 的观测值x l x n 的 质量问题。我们知道,随着科技的进步和社会的不断发展,各地区的 经济在迅速地增强,一般来说,正向经济指标( 指其取值越大越好的指 标,如农民人均纯收入、国内生产总值g d p 、工业增加值等:反之, 则为逆向指标) 的取值逐渐增长,而逆向指标取值逐渐减小【6 1 。因此, 在研究动态数据的质量问题时,关键在于如何消除时间因素对变量x 的影响,将x 转化为具有某一特定分布的变量y ,然后利用数理统计方 法对其质量进行评价;为此,我们先对x 作数据变换。 若x ,x 。是根据可比价格计算的,则可利用( 2 1 ) 式将x 转化 为y 见公式( 2 1 ) : y ,= 二l 0 0 ,i = 2 ,3 ,n ( 2 ,1 ) x - 7 如果x 。,x 。不具有可比性,我们可以先利用价格因子将其转 化为可比数据x ,x 。然后利用上式将其转化为y 。 从统计角度来看,造成y 散布的因素可以划分为随机因素和系统 因素。 1 、随机因素。这是一些对y 的散布经常起作用的因素。在一个地 区的经济系统中,影响y 散布的随机因素无处不在、无时不有。但是, 尽管这些因素对y 的散布经常起作用,然而,它们对y 的散布影响很小, 微不足道。 2 、系统因素。这是一些影响y 的散布的异常因素。它包括政府经 济政策的重大调整,体制的重大变革,严重的自然灾害以及对数据的 人为干扰等几个方面,这是产生y 散布异常的原因。系统因素对y 的散 布影响大,而且是不稳定,没有统计规律的1 7 j 。 对于y 来说,如果仅存在随机因素对其散布的影响,则y 服从分布 n ( l ,o2 ) 。此处参数p 和。是未知的:相反,若存在影响y 的系统因 素,则y 或者不服从分布或者虽然仍服从正态分布,但参数p 或。将 发生变化。因此,在经济环境相对稳定的情况下,若y 的散布异常, 那么我们可以据此断定,此时的数据可能存在着人为因素的干扰。于 是我们只要确定该批数据中存在异常值,且其异常原因是由于人为因 素的干扰造成的,则该批数据的准确性存在问题,此时异常点的数据 是不合格数据。 传统的数理统计识别方法都是建立在样本数据为正态分布,以及 小概率事件原理的基础上的。在数理统计中,根据测定值的正态分布 特性,出现大偏差数值的概率是很小的,比如,出现偏差大于两倍标 准差的测定值的概率只有5 ,也就是说平均每测定2 0 次的同类数据可 能出现一次,出现偏差大于三倍标准差的数据的概率为0 3 ,此值更 小,即平均每1 0 0 0 次的重复才可能出现三次,而通常的测定次数是极 其有限的,尤其是对所研究的经济现象,同一历史时期的数据是不可 能重复的【引。以上说明,通常情况下,大于标准差三倍的数据可以作 为异常值处理。在统计中,也是将偏差大于三倍标准差的测定值视为 高度异常的离群值,即异常值。当然,这说明的只是常规的情形。 在统计检验中,一般指定异常的显著性水平a 为检出水平,或禽 弃水平,也】惕4 除水平。剔除水平一般取a - - - - 0 0 5 或,= o 0 1 下面介 绍几种常用的统计剔除方法,在一些比较简单的场合中,这些方法可 以发挥相应的作用。 l 、两倍、三倍标准差( 2 z 或3 a ) 检测法 8 这种方法的原理就是上面讲的小概率事件原理。当标准差o 已知 时,可用本检验法来检验一组测定值中的异常值。根据正态分布,出 现偏差大于两倍标准差( 2 0 ) 和三倍标准差( 3 0 ) 的测定值的概率, 分别小于5 和0 3 ,是一个小概率事件。如果异常值的偏差大于两倍 或三倍标准差,则可以断定该异常点数据失真。 若不知道。时,而样本容量又大于3 0 时,可直接由样本值计算的 差s 代替。来进行判别。这种方法在样本个数较大,数据平滑性较好 时,效果比较明显,但当样本个数少、数据离散度大时,这种常规方 法的作用不大。 2 、t 检验法 t 检验法是统计检验中常用的方法。其思想方法是将可疑测定值x 以外的其余测定值当作一个总体,并假定该总体遵从正态分布。由这些 测定值计算平均值z 和标准差s 。而将可疑值x ,当作一个样本容量为l 的 特殊总体。如果x 。与其余测定值同属于一个总体,则它与其余的测定值 之间不应有显著性差异。若由x 计算的统计量k = 二l 二大于显著性水 s 平a 下的t 检验临界值,则表明x ,的出现是一个小概率事件,可以考虑 为异常值,将其定为不合格数据 对异常值的检验方法还有很多,例如狄克松检验法、a i m 谯模型 法、均值比较检验法等等【9 】,这些检验方法的基本思想和原理都是一 样的。一般的思路都是这样的: 假设被检验的一组数据来自同一正态分布总体,给定一个适当的 显著性水平n ,选取一个适当的统计量,根据n 和数据个数n 确定一 个合理的误差限度,即相应的统计检验临界值,凡是被检验值的计算 统计量值超过此临界值,就有( 1 a ) 的置信度认为它不属于随机误差的 范围,是一个异常值,此时该值可能是个失真的数据。 2 2 2 投入产出校验 , 这主要是用生产函数理论对投入产出关系进行校验识别。按照生 产函数理论,产出的数量与生产各要素投入数量存在一定的函数关系。 我们利用投入产出的历史数据建立生产函数,再利用实际投入势据去 校验现絮产出数据,投入产出不匹配,虚报产出巴可以识别出来的。 生产函数( p r o d u c t i o nf u n c t i o n ) 是指能够生产出来的最大产出量 与生产这一产出所需要的生产要素的投入量之间的关系。生产函数是 经济学的一个重要基础函数。它表示在一定的技术条件下,生产要素 9 的某种纽合同它可能的融人产出路之f - 日j 的数量关系。 如果只有良种投入要索,科一产出,生,“函数可以写b y = f ( 五,x 2 )1 2 | 2 ) 其中,叠是生产要素投入量,y 是对应最大可能产出量,函数r ( ) 一股假设连续,可微,i 面且它的偏导数也连续可微。如果有n 种要豢投 入,生产函数可以写成: y = f ( 工i ,x 2 ,j 一)1 2 3 ) 生产要素包括劳动力、劳动资料和劳动对象等等。通常把4 :尸c 要 素抽象为两种:资金和劳动力,它们在生产过程中的投入比例般也 是可以变动的。在一定程度l - p 以用一种投入要素代替另一种拄:入要 素,例如用机器代替部分人力,丽不致影响总产量。在理论上,达到 同样的产出,可以有不同的投入要素组合方案,但是投入要素舞台比 例在完全竞争的市场条件下总是适循利润最大化原则的方向变动,这 是有企业生产的经济目的所决定醛。 生产函数的基本性质: ( 1 ) ,( n x 2 ) 可( x l ,o ) = o 性质( 1 ) 表明,生产过程要;芎产出,x 和b 都是必不可! 珍能。 ( 2 ) 翌0 笪0 f k l缸2 性质( 2 ) 表明,当一种生产要素固定时,另一种生产要素投入量 增加时,产吕也增加。 警( 0 警( 。 性质( 3 ) 表明,当一种生产要素固定,随着另一种生产要素投入 量增加,产吕增加,但是总的速度率递减。或者说单位投放增量特来 的产出增量越来越少。运就是生产要素边际效率的递减规律的数学表 达。 生产函数可以有多和不同的形式,其中应用最为广泛的是 c o b b d o u g l a s 生产函数( 简称c d :产函数) 8 1 。 x = ark p u o 其中:x = 产 5 : l = 劳动投入; k = 资本投入; u = 随机干扰; a 、g 、口为常数。 c d 生产函数作为确当普遍的生产规律应用在许多制造:【、i k 样本 估计中。 为了适应更一般的问题,提出了更普遍适用的广义c d 生产函数 形式: 、t = k r 2 4 ) 其中一,_ 】:2 ,z ,为n 个生产投入变量;口。,口2 ,“分别 为它们:对生产发展所做的贡献比仍。作为技术1 - 6 9 描述,这种指数形 式的生产函数并不比其他的数学醒数有更一般的真实性。但 邑j 亡:有许 多有趣的性质,使它成为非常方便的选择,而且它对投入产如的数据 拟合得很好。 虽然函数是非线性的,它司以通过所有变量的对数而容易地转换 成一个线性函数。用对数表示的 t 应性函数是: i n x = l n a 一口l n l + 口i n z + l n u( :4 ) 或 x + = 一+ 口十口k 。t “:2 5 ) 用打一撤的变量表示对数,就得到一个线性函数。除了常数彳之 外,基:本测量单位的尺度变换对嚣表达式中的任一项都没有实质的影 响。因此,这个函数便于用来进行国际上或工业部门之日j 的比较。因 为口和口是弹性系数: 口,产出对劳动力投入的弹十 =望堕董垫竺;塑 平均劳动生产力 = 产出对资本力投入的弹性= 荤霭鬻 它们是纯数,所以易于在使用不同测量单位的不同样本中进行比较。 在某种意义上,我们既能够抓住生产过程中的非线性要点,同时 又能够通过对数变换而获得线性( 对参数是线性的) 关系式的计算上 的简单性。 c - d 生产函数的参数除了代表弹性外,还具有经济分析中的其他特 性,指数的和代表生产中“对生产规模的报酬”程度: d + b l递增报酬率 对c - d 生产函数有多种估计方法。常用的有以下几种: ( 1 ) 对数线性形式的o l s 估计 对c - d 生产函数的对数线性形式 i n x = l l l 4 + l l 记+ 口i n k + l i l “ 根据x ,l ,k 三组实际观测数据,可直接进行o l s 估计。问题在 于: 估计中常需要作异方差和多重共线性问题的处理。生产函数的 估计通常利用横截面数据,容易出现异方差。而在同一生产结构的企 业之间,劳动力与资本的比例大致相同,这就容易出现多重共线性。 采集到满足生产函数理论要求的产出和要素投入数据有困难。 ( i ) 产出x 。符合理论要求的产出指标可以是实物量指标,例 如总产量:价值量指标,例如总产量、净产值( 国民收入) 、增加值等 等。指标的选取应具体分析,企业生产品种单一,总产量就是合适的 指标。而在宏观总量模型中,产出指标一般多采用价值量指标。如果 强调当期投入带来的净产出,可以用净产值指标,也可用( 增加值一 折旧) 作为产出指标。如果是时间序列数据,还要利用价格指数,消 除价格变化的影响。 ( i i ) 劳动投入l 。劳动问题指标有职工总人数、年人时数、工 资总额等等。生产函数理论要求劳动投入量应按投入量的实际贡献来 计量。因行业性质、作业方式、计酬方法不同,劳动投入指标也应适 当选择。 一般用“职工人数”作为劳动投入指标,但这个指标比较笼统, 含有缺勤、病休以及其他非生产活动。对于工艺性强、考勤制度完善、 计时工资制的大中型企业,可采用“年人时数”,对于计件工资制企业, 可采用“工资总额”。 ( i i i ) 资本投入k 。资本投入计量更复杂。按生产函数理论要求, 资本投入应按生产过程中资本的“实际贡献”计量。这就要求计算设 备折旧和实际利用率。折旧是难于精确计量的,实际利用率也很难处 理。有很多闲置设备,账面上存在,也进行折旧,但并没有利用或利 用不充分。加之资本项目内容复杂,数据准确性也受很大影响。一般 做法是:工业企业,k = 固定折旧+ 流动资金;农业部门,k = 实际使 用的农业生产费用。 在整个投入产出校验中,可以分为两个部分:生产函数的估计和 统计数据的校验。 2 2 3 综合平衡校验 各项经济活动都是相互联系,相互制约的。反映这些经济活动数 量关系的各种统计指标之间存在着直接或间接的内在联系和制约关 系。当有关的统计数字出现矛盾时,除了由于某些经济活动出现了异 常和特殊情况下,一般是统计数字质量出现了问题。 综合平衡校验就是将各种经过专业审核的有关统计资料集中在一 起,从总体上检验数据的合理性、可靠性,检验数据相互是否平衡和 是否符合逻辑。具体进行综合平衡校验的方法,归纳有以下几种: 1 、差额平衡方法。综合观察各种增减关系的数据,看运算结果是 否相符平衡。 2 、运用伺项相等方法。综合观察同一项指标在不同表种上出现的 数据,是否相等一致。 3 、运用相关平衡方法。在两个或几个有关的同度量指标中,往往 存在一些逻辑关系,如出现反常,数字必定有错。 4 、运用生产和使用的平衡关系进行评估。 5 、运用总量相等的平衡关系进行校验。例如,各县的电力消耗, 汇总后可以与地区的电力供应数据相比较,如果不等,则说明数据有 问题。 7 6 、我们还可以在一个地区的历史报表中发现若干平衡关系,实际 上是一种比较精确的回归关系,然后看新报表是否符合。 综合平衡校验的基本校验步骤: 输入待校验的数据。 据预先预定的平衡关系对其进行审核。 根据审核结果( 满足不满足该平衡关系) 进行相应处理。 2 2 4 统计模型校验 统计模型是对社会经济现象的发展变化、相互联系进行研究的重 要方法,它以数学模型反映、分析研究社会经济现象,加强了定量研 究的手段【9 】。统计模型有很多种,比如相关回归分析模型、投入产出 模型、各种统计预测模型等等。 运用统计模型可以分析客观现象的总量、结构、变动趋势,还可 以反映现象与现象之间的关联程度、关系的密切程度以及现象的来龙 去脉。计算机的普及为统计模型的应用提供了技术手段。 具体应用统计模型校验有三种方式,一是将应该符合某种统计模 型的有关数据代入该模型中,对模型类型进行诊断;二是肯定某种模 型类型,但参数有待检验,将有关数据代入该模型中,对模型参数进 行假设检验:三是模型类型与参数均己知并肯定,将待校验探查的数 据缺省,然后使用模型对缺省数据拟合,看误差如何,从而校验缺省 数据。 2 2 5 专项调查校验 这主要是用调查的局部准确数据对层层汇总的全面数据进行校验 识别。国家已经在县一级建立调查队。调查队的调查数据一般认为是 比较准确的,但是调查队的数据不可能太多。于是我们利用专项调查 的准确数据去校验层层汇总的全面数据,从而对整个报表的可靠度做 出评估。 专项调查校验是着眼于我国现行统计调查体系上的,广泛应用的 抽样调查,经实践证明具有许多的优点l l o 】。 首先,抽样调查理论所具有的可以事先计算与控制抽样误差的特 点决定了它在调控当前统计数据质量问题上的重大现实意义i ,众所 周知,抽样调查是按随机原则抽取样本而据以推断总体的,所以抽样 误差不仅可以事先计算,而且能够采取一定的组织措施加以控制,这 一特点恰恰弥补了现行村及村以下企业调查中全面统计报表无法计算 和控制数据误差的缺陷。 其次,国内、外抽样调查方法的广泛应用一定程度上缘于它的可 经事先计算和控制抽样误差的功能【1 2 1 。纵观各国统计工作实践,不如 实上报统计数据是作为被调查者的企事业、单位和仆人的共性问题之 一。对此,各国家除了在统计法中漫定“提供虚报统计数字”这一违 法行为和承诺为被调查者保密外,还通过广泛采用抽样调查方法,即 中央对统计局直接从部分被调查者中采取信息的方法,藉以减少和控 制各种误差。因此,抽样调查方法在许多国家尤其西方发达国家在各 1 4 种调控数据质量的措施中占有重要的一席。 再次,我国抽样调查的实践一再证明了抽样调查方法在提高统计 数据质量方面具有独到的作用。在我国,抽样调查方法己被应用于农 产量调查、住户调查、价格调查、人口调查、儿童基本情况调查等领 域i l 。调查实践表明,这一方法不但省时省力,而且数据误差较小。 从目前社会各界对统计数据质量的评价看,通过抽样调查取得统计数 据所受的质疑要远小于运用全面报表取得的数据,例如由农业部门、 粮食部门和统计部门提供的三个粮食产量数据中,前二个数据是采用 全面调查取得的,后一个是运用抽样调查取得的。比较结果,大家还 是倾向于抽样调查的数据。为什么? 因为抽样调查方法除了本身具有 严密的科学性外,还由于中间环节少,排除了层层加水分的可能性。 基于这种现实,国家统计局在经过充分酝酿和试点的基础上,制 定了国家统计制度改革的总体方案i l 。提出了我国统计调查方法 改革的长远目标,即“建立以必要的周期性普查为基础,以经常性抽 样调查为主体,同时辅之以重点调查等多种方法综合运用的统计调查 方法体系。”国家确定了十年一次农业普查,五年一次经济普查l l5 】这 两种全面调查,其余的农业用地调查、住户调查、价格调查、人口调 查、儿童基本情况调查、民营企业调查都采用的是抽样调查,这样更 适应了市场经济发展,为各级政府把握和分析国民经济发展态势,制 定宏观政策提供了更好的依据。 具体地执行专项调查校验的方法是: 第一次调查( 即可以是抽样调查,也可以是全面统计报表) 工作 结束后,在其总体单位中重新抽样部分单位调查一次;用第二次抽样 调查的结果来验证第一次调查的结果。若两次调查的结果基本一致, 则表明第一次调查的结果完全可靠;若两次调查的结果相距甚远,那 么表明第一次调查的结果有问题,需要进一步地验证、评估,乃至重 新调查。 2 2 6 统计数表的实现方法 统计数表能节省统计运算的工作量,因此它是统计学中常见的一 种工具书。 统计学中的几种基本统计分布,例如正态分布、f 分布、t 分布、 f 分布、二项分布、泊松分布等都是重要的分布。 统计数表的主要内容是各种统计分布函数及分位数的数值表,设 e 是连续型随机变量,密度函数为f ( x ,口) ,其中x 为变量,口为参数, 参数可有多个,如果参数是自由度,则记为v 。的分布函数记为: p ( 五印:厂o ,d 出 ( 2 6 ) 1 :倒概盔公式为: o ( x ,= 】一| p ( 工秽) = i f 工,9 ) d x( z 7 ) 对应于f 侧概率p 的分位数己:勺x p ( 口) ,它满足方程: r m ,e ) d x 2 p ( 2 8 1 设r 是离散型随机变量,”= x 的糊率记为坟x ,口) ,口的分桕函数为: p ( x ,口p 5 - :f ( x ,口)o - 9 ) 怯j 上侧概蜜为: o ( x ,d 。芝:f ( y ,口) 。l p ( x ,一) + r x ,占) ( 2 1 0 ) v j d 在统计学中,统计量分布的赫值计算是一个重要的研究领域,在 假设检验的计算中,需要使用各种分布的概率积分和分位数均彭:位。 在计算机l ) i i 成假设检验,可匕、1 用两种方法来提供分和幽数j = 1 1 分化 数的数值。第一,把已编好的数表暂入计算机中,需要时调b j 爿:使,h 。 这种方法的存取时间快,但需要内存多;第二,使用计算机程序计算 所需的数值,它比前者花费的旺h 多些,但需要内存少。两种方法各 有优缺点。目前,在各类计算耖蔼遍应用的情况下,使用计l f , l 序 形式所需要的数值是一和较好的力法。 在实际a ,基本的统计分布,如币态分布,x2 分布、t 5 ) 4 i f 分 稚、二项分枷、泊松分布是人们最关心的分布。 关于分布函数的计算,通常都使用展丌式或近似式。高精度的公 式能提供非霄准确的数值,它能浦足某些特殊用户的需要,许多分柿 函数表都是使用高精度的展丌式编制而成的。然而,低精度、简日 的 计算公式既能满足许多实际需要,用起来又方便,因此也是佳得注意 的。 对于连续分布来讲,通过分靠积分法可以构造出同时计算分钿函 数及密度函数的递推公式。例如,x 。分布,见( 2 1 1 ) 式: ip ( 一,v ) = p ( x 3 , v - 2 ) 一2 f ( x z ,v ) 一 l 坟x 2 ,v ) = := f ( x 2 :v 一2 ) , v = 3 ,4 , ( 2 1 1 ) 递推初值为: 1 6 式中( a c x ) 为标准正态分布的分布函数。 使用上面类型的递推式既能把分布函数p ( x 3 ,v ) 和密度函数f 【x 2 ,v ) 同时算出,也能节省计算量。需要注意的是:在求分位数的迭代过程 中,除了需要分布函数以外,还需要密度函数,所以这种递推式对分 位数的计算也有用。 至于连续分布下侧分位数】【p ( 口) 的计算,实际上是求方程( 2 1 3 ) 式: p ( x ,p ) 2 p ( 2 1 3 ) 的解,式中p 为下侧概率。构造x 。( 口) 的近似式以及按照某种迭代 公式求解更高精度的分位数是用计算机编制分位数表所要考虑的两个 问题。有些近似式能准确到2 3 为有效数字,对于精度要求不高的实际 问题来讲,直接使用这种近似式就可以了,可是,对于需要高精度分 位数的特殊用户来讲,应选择较好的分位数初值,并使用迭代公式求 解。 求解方程( 2 1 4 ) 式: f ( x ) = p _ p ( x ,口) ;o( 2 1 4 ) 的根时,通常使用最熟悉的n e w t o n 迭代公式( 2 1 5 ) : 法 x 锄一万f ( 丽x o ) , ( 2 1 5 ) 式中) 【o 为初值,此外,也可以使用基于二阶台劳展开的迭代求根 一,。 2 f ( x o ) x 2 x 。+ - f ( x o ) :i :、r 式中 l b 【f ( ) 】2 - 2 f ( x o ) f 。( ) 1 7 ( 2 1 6 ) ( 2 1 7 ) 去y j l 产 一 2 力 抑 叫 2 1 j l j l l 2 # f h 比 ,j、【 2 3 相关问题讨论 在这一节里面,对与上节所提之校验方法相关的几个问题进行一 下说明和讨论。 2 3 1 应用范围 尽管本文的出发点是针对统计数据失真,所提的五种校验方法也 是对统计数据进行分析的基础上提出来的。但是决不意味着这些校验 方法仅只能针对统计数字使用。事实上,从上节对这些校验方法原理 的叙述可以知道,只要是数据由于某种原因而可能出现异常需要进行 检测的地方,均用得上本文所提的一些方法。像税务部门查处偷税、 漏税,财务部门、银行部门、监察审计部门查处假帐、错帐,证券部 门发现证券交易异常,均能应用这些方法。 2 3 2 应用限制 任何方法都不是万能的。同样,以上提到的这几种对统计数据进 行校验的方法并不是可以无条件滥用的,它们也存在自己的适用范围 和限制条件。我们在对统计数据进行校验的时候,必须对具体的情况 范围选用合适的方法i l6 】。例如,对于统计模型校验中的t o b i t 模型来说, 尽管提出它的人是诺贝尔经济学奖获得者,它也并不是能时时见效的。 它在计算的过程中。使用的是极大似然估计法,而极大似然估计法是 从随机数的假设出发的,一是样本要多,二是误差项的作用要明显。 如果不满足这个条件的话,回归的效果是很差的。此时,用t o b i t 模型 进行校验,其结果的可信度是很差的。 第三章系统的总体设计 3 1 系统的需求分析 计算机自问世以来,就在统计工作中得到了应用。发达工业国家 早在5 0 年代就把计算机用到了统计工作中。1 9 5 1 年,美国普查局就使 用计算机完成了1 9 5 0 年人口与居住普查的相当一部分数据处理工作。 1 9 6 0 年美国人口普查的汇总工作,仅利用计算机输入设备这项,就 节省了5 0 0 万美元,并缩短时间7 个月;1 9 7 0 年的人口普查在这一项上 节省的费用达到了1 0 0 0 万美元。计算机早已成为美国各统计机构工作 人员的必不可少的工具,除了利用计算机进行数据汇总、整理、制表、 打印等简单的数据处理之外,还使用计算机进行统计分析,预测与辅 助决策等工作【1 7 】。 在我国j 计算机在统计上的应用发展速度很快,我们现在研究利 用计算机对统计数据进行校验。 统计数据计算机自动校验系统开发的目的是利用计算机的强大的 计算功能自动对统计数据进行校验评估,发现统计数据中可能存在的 虚假成分。以便及早采取措施,满足对统计数据失真进行快速准确的 识别。为了达到这个目的,我们开发者必须充分理解系统的总体目标 和使用者的工作方式。任何系统的开发首先要做的事就是确定系统需 求,即确定系统的功能。 本系统实现校验的方法主要有五种,即:随机误差校验、投入产 出校验、综合平衡校验,统计模型校验、专项调查校验。 尽管这些校验方法所要求的输入数据在表面上都可以看作一个矩 阵,但实质上是不同的。例如随机误差校验所要输入数据是来自于历 年报表中同一位置数据所形成的一个时间系列,它们是不同时期的。 而投入产出校验即要由过去时期的较为准确的投入产出数据。又需要 当前时期较为准确的投入产出数据。综合平衡校验所需要核查的数据 是同一时期尽管是来自于不同的报表【l s j 。另外,我国统计工作是在各 部门专业统计基础上发展起来的,还缺乏整体规划和统一规范,对统 一调查单位一直未作统一的规定,而是分别由各专业统计部门根据管 理需要自行确定。所以难免会出现调查单位,统计口径范围严重混乱, 统计数字不协调一致。这就给我们的校验带来麻烦。考虑这种数据来 源的复杂性和报表格式,存放方式的多样性,系统除了校验功能外, 有必要提供一个数据准备的功能,以便为各种校验提供合乎规格的数 1 9 据。 另外,在进行校验时,计算机需要一些常用分布的分布函数或分 位数( 统计校验中的临界值) 作为统计判断的依据【1 9 l 。平时这些可以 通过查统计数表来得到。而在计算机上,也必须考虑具有类似的功能, 以便为其它的校验提供必需的l 临界值,当然本功能的实现方法是多样 的。 3 2 系统的总体架构 统计数据计算机自动校验系统的总体功能结构图如下图3 1 : 图3o l统计数据校验系统功能结构图 3 3 系统设计的语言环境 3 3 1 系统开发工具v i s u a lc + + 6 0 本系统的开发工具是m i c r o s o f t 公司的v i s u a lc +
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论