(应用数学专业论文)统计调查中数据质量控制的几点技术改进.pdf_第1页
(应用数学专业论文)统计调查中数据质量控制的几点技术改进.pdf_第2页
(应用数学专业论文)统计调查中数据质量控制的几点技术改进.pdf_第3页
(应用数学专业论文)统计调查中数据质量控制的几点技术改进.pdf_第4页
(应用数学专业论文)统计调查中数据质量控制的几点技术改进.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据质量作为影响决策正确性的基础元素,己经成为当今全球经济一体化火潮下最具竞争力的 r 具之一。可靠的数据是最具价值的资产,在数据质量管理上所投入的资金和时间,将会在现在和 未米得到高额的回报。而低质量的数据则会造成决策失误,导致巨人的损失。因此,面对日前国内 的数据质量现状,有必要加强数据质量控制,提高数据质量。 本文尝试把调整型抽样方案引入到数据质量的控制中,对调整型抽样方案应用到数据质量控制 的适用性和统计特性进行了分析;同时借鉴了审计对经济领域数据的成功的监督检查经验,重新定 义了数据质量标准和误差模型,建立了数据质量控制的新流程,最后通过实例分析,得出了调整型 抽样方案在数据质量控制中的几点优势。 关键词:数据质量控制,质量标准,调整型抽样方案,调查误差 a b s t r a c t d a t aq u a l i t yi st h em o s ti m p o r t a n te l e m e n tf o rm a k i n gt h ep r o p e r p o l i c ye s p e c i a l l yi nt h ef a s t - c h a n g i n g w o r l dd a t aq u a l i t yh a sb e e nt h ev e r yu s e f u lt o o lf o rc o m p e t i n gw i t ho t h e r s t h ed e p e n d a b l ed a t ai st h e v a l u a b l ep r o p e r t yt h a t w i l lb r i n gy o uh i g hr e p a yf o ry o u rc o s ti nd a t aq u a l i t ym a n a g e m e n t t h ed a t ao f t h e l o wq u a l i t y ,h o w e v e r ,w i l ll e a d d e c i s i o nm i s t a k e s ,c a u s i n gh u g eg r e a td a m a g e t h e r e f o r e ,i ti sn e c e s s a r yt o e n h a n c et h ed a t aq u a l i t yc o n t r o li no r d e rt oi m p r o v et h el o c a ld a t aq u a l i t y i nt h ep a p e ra d j u s t m e n ts a m p l i n gp l a ni sa p p l i e di nt h ed a t aq u a l i t yc o n t r 0 1 t h es t a t i s t i c a lc h a r a c t e r i s t i c s o f a d j u s t m e n ts a m p l i n g # a n a r ea n a l y z e d i no r d e r t o v e r i f y t h a t t h ea p p l i c a t i o n i s f e a s i b l e a n d p r o p e r m e a n w h i l e ,t h es u c c e s s f u le x p e r i e n c eo f a u d i t i n gi sa l s or e f e r r e di no r d e rt oe s t a b l i s ht h ee f f e c t i v ed a t a q u a l i t ys t a n d a r da n de r r o rm o d e l i nt h el a s tp a r tn e wp r o c e d u r ef o rd a t aq u a l i t yc o n t r o li sp r o p o s e d ,a n da ne x a m p l ei su s e dt ov e r i 母t h e e f f i c i e n c yo f t h en e wp r o c e d u r e s e v e r a li m p r o v e m e n t sa r ea c q u i r e d k e yw o r d :d a t aq u a l i t yc o n t r o l ,q u a l i t ys t a n d a r d ,a d j u s t m e n ts a m p l i n gp l a n ,s u r v e ye r r o r 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得中国农业大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 薏示了谢意。 研究生签名:仁r 磊彤事幺 时间:) 一年f 月,咱 关于论文使用授权的说明 本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保留送 交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。同意中国农业大学可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名:伏a 移聿瓠 时间: 矿年月,堂目 别槛轹陬 悯:涮刚朋湘 中国农业大学硕士论文 第一章绪论 第一章绪论 1 1 研究目的和意义 统计数据质量是统计工作的生命线。随着经济全球化进程的加快,社会各界对统计数据的需求越 来越广泛,特别是信息网络技术的推广应用,一方面对统计数据质量提出更高的要求,赋与其更新、更 全面的内涵:另一方面也为改进和提高统计数据质量提供了更好的便利条件和手段:还给统计数据质 量带来一系列新问题,新困难。 在前l o 家国际投行的研究报告中,至少有6 家批评了中国经济的数据质量问题,尤其是对g d p 增长率,c p i 和房地产行业等方面的统计数据。这些不合格的数据严重干扰了国际金融市场对中国的 评估,这对中国经济的长远发展非常不利。 为此,近年来,国家统计部门为提高和改进统计数据质量进行了艰辛劳动,做出了不懈努力,但因 我国对统计数据质量的研究比较薄弱,质量管理相对落后,加上人为干扰因素等,数据质量较差仍是 困扰我国当前统计工作的一个重要问题之一,如:统计数据不实,甚至弄虚作假:统计信息滞后:数据 质量标准及管理缺乏明确的要求和目的:与国际标准相差其远等。阏此正确探讨统计数据质量不但是 统计工作的重要任务,而且也是需要统计理论研究和实践探索的重要课题,解决这些问题已迫在眉 睫。 在题为全面落实科学发展观,大力推进统计改革和建设的报告中,国家统计局局长李德水 提出了2 0 0 5 年统计工作的重点:以提高统计数据质量为中心,认真组织实施经济普查,着力推进统 计改革,严格规范地区g d p 核算,加强统计法制、信息化和人才培养等各项基础建设,加大对经济 社会运行的监测力度,为经济社会发展提供优质高效的统计服务。 2 0 0 5 年1 月2 5 日,在国务院新闻办举行的新闻发布会上,李德水再度就此表示,从2 0 0 5 年一 季度起,各省份自己计算出的地区生产总值必须经过国家统计局的认定,”否则是不算数的”。同样 是在2 0 0 5 年1 月。吉林省统计部门宣布,自2 0 0 5 年开始将实行”市州g d p 联审”和”统一发布”制度, 井逐步推行”下管一级”的核算方式,以建立”诚信统计”。2 0 0 5 年北京市政府统计系统的年主题确定 为8 数据质量年”。 ”诚信统计”与”数据质量年”有着异曲同工之意,其所针对的是”统计的真实性为人们所质疑”,所 要取得的效果,是保证数据质量,维护g d p 数据的准确性和权威性。 作为监督措施,李德水同时提出,目前,国家统计局己经成立了一个国民经济核算专家咨询小 组,把最后公布前的g d p 数字再交给这个小组联席审查评估一下。”这个小组级别不低。”李德水强 调,”此小组由国家发改委、财政部、中国人民银行、国务院发展研究中心、社科院、北京大学、人 民大学的专家组成。在每一个季度的核算以后,他们都要对数据做出评估咨洵。” 数据质量作为影响决策正确性的基础元素,已经成为当今全球经济一体化大潮下最具竞争力的 j 具之一。可靠的数据是企业最具价值的资产,在数据质量管理上所投入的资金和时间,将会在现 在和未来得到高额的回报。因此,在整个组织以及其服务商、供应商内部,应建立科学有效的数据 质量管理系统,对组织的数据质量实施全程、全域和全员管理,将数据质量管理以制度化、规范化 的方式落实到数据生成、传递和使用的各个过程、方面和人员之中。 中国农业大学硕士论文 第一章绪论 1 2 国内外研究现状 许多发达国家建立专门的统计数据质量管理机构,定期进行质量检查,美国自1 9 6 1 年开始成立 以麦克波斯金命名的5 人咨询委员会即著名的b o s k i n 委员会,专r j 对消费者物价指数( c p ) 的准 确程度进行评价。英国皇家统计学会成立统计数据质量评估工作组,每年对官方统计数据的质量情 况进行独立评估,并对外公布评估报告。在加拿大,由国家审计总艮负责统计局的数据质量评审 _ = 作,其审计的内容包括:( 1 ) 加拿火统计局质量管理体系是否充分、完整;( 2 ) 加拿大统计局内部 质量管理的自我评价体系是否合理;( 3 ) 加拿大统计局是否以适当的方式向用户通报有关数据质量 情况和所应用的方法。荷兰统计局借鉴加拿大的质量管理办法,建立了数据质量审计制度,成立质 量审计委员会,它下设若干个统计专业审计组,审计人员由统计局内部不同部门的专业人员兼职组 成,每5 年审计一次。此外,瑞典、芬兰、挪威等国家统计局开展“全面质量管理( t o m ) ”项目, 最近英国统计局也号召统计数据应该有质量审计。这些管理机构和机制是加强和改进数据质量的重 要组织保障。 纵观国外目前对统计数据质量的研究,不难发现,其研究内容是极其广泛的,具体集中于: ( 一) 误差的来源、分类以及如何对误差监测的研究;误差分布以及误差模型的研究。 ( 二) 统计调查设计质量与规范的研究( 如问卷设计、调查规模、分组体系、保密问题) ;对统计数据 搜集目的的研究;用户的最初要求,潜在用户及潜在需求的研究:调查实施计划框架充分性的研究; 对调查过程的综合概括以及对统计数据质量环的研究。 ( 三) 统计数据搜集质量的研究( 如回答者误差、调查员误差、调查方式的影响、数据搜集质量的测 量、新技术对统计调查及其数据质量的影响) ;数据搜集系统的问题及处理;普查抽样调查有机结合 的研究。 ( 四) 统计数据处理及操作质量的研究( 如编码、误差手册、自动编码、数据录入质量、数据编辑、 数据处理质最及改进、数据处理过程的控带4 系统) 。 ( 五) 质量评估和控制的研究( 如调查质量的测量、数据质量评估方法、调查误差模型及分析、误差 监测、用户的质量评价、质量管理) ;数据质量的测量与控制方法的研究;统计数据报告内容及结构 的研究。 ( 六) 数据误差对参数估计,统计分析的影响( 分析、评估误差对数据建模的影响及表现方式) 。 调查误差对数据质量的影响及分析;参数估计的准确性及精确性;探索性数据分析和模型识别技术 的应用;奇异值诊断方法和数据编辑技术的应用:不完整数据处理计划和实施。 ( 七) 统计数据质量与调查费用及调查效率的研究。 ( 八) 统计数据质量改进中的问题及对策研究;提高统计数据质是的管理步骤;统计理论与实际工作 者如何提供支持管理者决策的统计数据;统计数据内部一致性、外部一致性的检验;统计数据文件、 统计资料的管理。 ( 九) 目前统计数据质最控制的成功经验:目前统计数据的质量水平;统计数据质量理论研究成果与 统计数据质量改进实践相结合的研究。 显然,从一般的误差理论到统计数据的误著理论:从抽样误差到非抽样误差:从单纯的数据误差 与准确性到数据的综合质量;从民间统计数据质最到政府统计数据质量;从统计数据质量的事后检 2 中国农业大学硕士论文 第一章绪论 验、控制到统计数据质量的事前保证;从统计数据质量的保证与控制技术到政府统计数据质量的管 理;从理论到实践等都有研究。 目前国内在数据质量控制方面的研究还比较少,也不够系统,大多数都还集中在定性的研究上。 这些定性研究主要是从规范统计调查的各个过程,加强统计人员素质等方面入手提高数据质量,缺 乏在定量方面的系统研究。 1 3 研究内容和方法 在国内目前的数据质量状况下,简单学习国外先进的质量管理方法并不可行。目前国外发达国 家在数据质量控制方面已经发展到事前控制,并对产生数据的各个过程规范建立相应的国际标准的 水平。针对我国目前的数据质景状况,加大检查、监督力度,是为时之需,因此,有必要建立一个 适用于统计调查行业的质量检验标准。 本文主要从质量评估和控制( 如调查质量的测量、数据质量评估方法、调查误差模型及分析、误 差监测、用户的质量评价、质量管理) ,统计数据质量与调查费用及调查效率几个研究方面展开探讨, 引入新的质量控制t 具,建立了新的质最控制模型。 统计调查机构进行的统计调查大多都是连续的( 如按时间连续或按服务的客户连续) ,同时在一 段时间内,某一家调查机构的人员素质、调查技术和方法、质量控制水平都是保持相对稳定的,因 此可以认为这家调查机构的产品生产过程( 通过调查获得统计数据的过程) 是处于统计控制状态的。 由于数据产品的特殊性,即我们不仅可以从单个数据的误差情况来判断这个数据的质量,还可 以从整批数据的某些统计量( 如均值、方差、变异系数) 来观察这批数据的集中、离散等趋势,进 而对整批数据的质量有一个更全面的把握,因此在这里我们把适用于连续产品批检验的调整型抽样 方案g b f y 2 8 2 8 1 2 0 0 3 引入到数据质量控制中。 抽样检验是质量管理工作的重要组成部分,它是以“用尽量少的样本量来尽量准确地评判总体 ( 批) ”为主线展开的。g b t 2 8 2 8 卜2 0 0 3 作为一种调整型统计抽样方案,是目前应用最广泛的抽检 标准。考虑到数据产品的特殊性,在存贮和抽取样本时非常方便,不受批量的影响,所以可以利用 g b t 2 8 2 8 卜2 0 0 3 在大批量和多次抽样时的优秀检验特性,有效控制生产方和使用方的风险,并且 检验效率也大大提高。本文把g b t 2 8 2 8 卜2 0 0 3 应用到数据质量控制中,有效控制了检验成本,加 大了数据质最的监督检查力度,促使数据生产者有效提高统计数据质量。 中国农业大学硕士论文 第二二章数据质量标准及质量控制方法 第二章数据质量标准及质量控制方法 2 1 数据质量控制相关理论的发展 2 1 1 统计质量控制理论的发展 质量问题是经济发展的一个战略问题。产品质虽在一定意义上反映一个国家的形象、一个民族 的精神。要发展经济,实现经济增跃方式的转变,提高经济增长的质量和效益,提高产品质量至关 重要。提高产品质量,一要依靠技术进步,二要加强科学管理。有人说:三分技术,七分管理,这 是很有道理的。g b t 1 9 0 0 0 i s 0 9 0 0 0 系列标准的发布为我国企业进行科学的质量管理提供了依据, 它不仅提出了建立质量体系的一系列要求,而且将统计技术也作为要求提了出来。统计技术是科学 质量管理的重要手段,要贯彻质量管理和质量保证标准离不开运用统计技术。统计抽样检验的科学 性是统计准确性的基础。通过检验样本推断总体产品质量是质量监督与质量认证的必要手段。能否 通过检验样本准确地推断总体质最的关键是必须使用科学的抽样方法。否则,即使检验手段再先进, 检验结果再精确,也不可能对总体质量的状况做出准确合理的推断。抽样检验是质量管理工作的重 要组成部分。抽样检验这门科学是以“用尽量少的样本量来尽量准确地评判总体( 批) ”为主线的, 它的理论依据是概率论、数理统计、管理学和经济学,同时也是统计质最控制的一个重要组成部分, 是任一质量保证模式的内容之一。一个“好”的抽样检验系统,应是用尽可能低的检验费用( 经济性) , 有效地控制住产品质量( 科学性) ,且对产品质量检验或( 和) 评估的结论可靠( 可靠性) ,实施简便( 可 用性) 。 抽样检验的研究始于2 0 世纪2 0 年代。它的奠基人美国贝尔电话实验室的道奇( h f do d g e ) 于1 9 2 9 年和罗米( h g r o m ig ) 共同发表了一篇题为一种计数抽样检验方法的 论文;1 9 3 9 年,英国的w j 3 e n n e t t 和b l w e l e n 发表了题为用连续尺度度最的单个质量特性 不合格品率的控制的论文;同年,r o m i n g 发表了题为抽样检验中的容许平均的博士论文:1 9 4 1 年,d o d g e 和r o m i n g 发表了一次和二次抽样检验表,提出了l t p d 和a o q l 保护的抽检方式。这 些论文的发表吸引了一大批统计学家研究这个课题,但当时仅仅是理论上的。抽样检验的应用始于 二次世界大战。二战期间,美国成为世界上最大的军火生产国,但产品质量却不尽人意。为此,美 国国防部委托哥伦比亚大学统计学小组起草了一份对军火产品实施抽样检验验收的规则,用它对军 火产品实施抽样检查验收,大大提高了出厂的军火产品的质量。1 9 5 0 年,国防部把它定为美国国家 军用标准( m i l s t d 1 0 5 a ) ,经1 9 5 8 、1 9 6 1 、1 9 6 3 、1 9 8 9 年的几次修改,1 9 8 9 年发布的第5 个版 本直到现在还在使用。抽样检验标准m i l s t d 一1 0 5 在美国军火行业的有效使用,也带动了其他行业 使用该标准,其他国家也开始使用。1 9 7 4 年,国际标准化组织根据当时美国军标m i l - s t d - 1 0 5 d 的 理论起草并颁布了抽样检验的国际标准i s 0 2 8 5 9 ,其最新版本是i s 0 2 8 5 9 卜1 9 9 9 计数抽样检验程 序第一部分:按接收质量限( a q l ) 检索的逐批计数抽样计划。1 9 5 5 年,l i c b e r m a ng j 和g j r e s n i k o f f 发表了计量抽样检验方案一文奠定了计量抽样检验的理论,而美国军用标准 m i l s t d 一4 1 4 ( 1 9 5 7 ) 当属计量调整型抽样检验标准的先驱。为了便于应用,英国在1 9 7 4 年发布了 国防标准。 4 中国农业大学硕士论文 第二章数据质量标准及质量控制方法 我国抽样检验的发展 我国对抽样检验的研究起步较晚。2 0 世纪6 0 年代以前只有一些零星的研究结果和应用,6 0 年代 中期开始研制抽检标准,f l j l 9 7 8 年,抽样检验研究与应用才得以逢勃发展,同年颁布了我国第一个 抽样检验标准s j l 2 8 8 1 9 7 8 记数抽样检验程序和抽样表。该标准经过一段时间的试用效果很好, 井于1 9 8 1 年上升为国家标准( g b 2 8 2 8 1 9 8 1 ( 试行) ) ,1 9 8 7 年正式成为国家标准( g b 2 8 2 8 1 9 8 7 ) ,其最 新版本为g b t 2 8 2 8 2 0 0 3 。 近年来,我国的抽检理论及应用研究有了飞跃的发展,拥有一支颇有实力的从事抽检理论研究、 应用研究及教学的科研队伍。目前,在我国许多行业的产品技术标准中明确规定了使用抽样检验方 法及其有关标准的要求,使科学的抽样检验方法逐渐推广,并得到了愈来愈广泛的应用,社会效益 和经济效益十分明显。随着质量管理和质量保证标准的深入贯彻,各行各业对产品( 商品) 的科学 抽样检验方法的要求也日益提高。到目前为止,我国已颁布抽样检验方面的国家标准2 2 个,已形成 了一个比较完备的抽样标准体系,并已深入到国民经济的各个领域。尤其在破坏性检验、可靠性及 寿命试验、连续体检验及散料检验中发挥了巨大作用。抽检不但应用于有形产晶的检验中,而且已 应用于操作、过程、管理、数据、计算机程序、记录、账单、服务等产品的检验,用途越来越广泛。 2 1 2 审计理论的发展及其作用 我国的审计监督制度就是通过对各种企事业单位的经济数据( 会计资料等) 的有效检查,以达 到为发展社会主义市场经济,为加强国民经济宏观调控、微观搞活服务。 审计通过揭露和制止、处罚等手段,来制约经济活动中各种消极因素,有助于各种经济责任的 正确履行和社会经济的健康发展。 审计的主要职能有:审核检查会计和有关资料的真实性、正确性、完整性和公允性:审查和评 价财政预算、财务计算以及经营决策方案制订和执行情况;审核检查经济活动的合法性、合理性及 其有效性,揭露打击经济领域中的犯罪活动,充分披露损失浪费和低效( 或无效) 行为;审查 和评价内部控制制度的健全性和有效性,促进经营管理水平的提高;审查和鉴证有关经济效益和 经济活动,为信息需要者提供服务。 因此我们对于数据质量的控制也可考虑借鉴审计监督制度的成功之处,定期对数据进行审核, 以达到提高数据质量的目的。 抽样审计理论的发展 比率抽样估计调整法【1 1 比率是指审计总体项目经审查后,其审计值与被审计单位有关该项目的报告纪录值之比:根据 y1 , 是审查审计总体的全部项目还是审查从审计总体中抽取的样本项目,比率可以表示为二l 或生。若 x 。x , 比率小于1 ,表明被审单位审计总体项目的报告记录值属多报错误,相反,比率大于l ,表明被审单 位审计总体项目的报告记录值属少报错误。 比率估计就是从审计总体中随机抽取一定容量”,的样本,逐一审查后计算样本的比率,并用样 本比率估计审计总体的比率,从而推断审计总体的审计总值。 应用比率估计时,审计总体项目的审计值和报告记录值( y 和x 。,或r , $ n x 。) 属于同一个具体的 中国农业大学硕士论文 第一二章数据质量标准及质量控制方法 样本( 或总体) ,一般来说,这两者的数值会呈同一变化趋势,即如果抽选的样本项目值偏高,则 y 和x ,值都会偏高;反之亦然。因此在计算比率时,可以是抽样误差得到一定程度的抵销,从而使 比率估计方法的抽样误差较小,估计的结果更加准确。 一、比率估计的定义公式 坐 设审计总体总量为n ,样本容量为y ,审计总体平均值为以,审计总体总值x = 工,( 2 - 1 ) t = l 则审计总体的审计值的平均比率估计量和审计总体审计总值的比率估计量分别由下式计算: 碌:兰以 x :兰n = 兰x x工 ( 2 2 ) 若令式中r = 量为样本比率,月= 兰x = 老为审计总体比率,则可以用,来作为r 的估计, 即r = r o 。 ( 2 _ 3 ) 根据上述公式,可以看出,比率估计具有明显的特性即每一审计总体项目的审计值y 和报告记 录值x 的比例如果十分稳定,变异甚小,那么必然呈现如下的近似比例关系: 监。善。三 ( 2 4 ) x 。x弘: 那么如前所述,比率估计就具有十分精确的估计效果 到满意的结论,将上式简单移项,即可明显地看出: f “兰a ,“丝以 xx - 或,。n f 。兰x 。丛x xx 二、比率估计的抽样方差 样本比率标准差为: s 。= 6 只要抽取少量的样本单位审查,就可以得 ( 2 5 ) 中国农业大学硕士论文第二章数据质量标准及质量控制方法 三、比率估计的样本容量n r 的确定 比率估计中,所需调查的样本容量n r 由下式计算确定 一 ( z h + z l 一口) 2 2 节 式中:既考虑了口错误风险又考虑了口错误风险;若仅考虑口错误风险,则上式改为 z o 2 p o 在此定义为总体平均精度,当只定义为总体总额的接受精度时,n 。的计算式变为 ”学 盯。2 为审计总体在比率估计下的方差,若在确定之前为未知数,那么,可以根据以往的经验估 计,或用初始随机样本审查结果计算s 。2 来代替。 四、比率估计应用步骤 比率估计的应用步骤大致与差异估计的应用相似,但是总体方差的估计子。2 不同于差异估计;最 后由样本审查结果计算推断审计总体特征时与差异估计也有所不同,下面给出其应用的基本步骤: 1 计算审计总体项目总数,累计审计总体项目的报告记录值置= x ; i = 1 2 规定置信水平1 一“,不考虑错误风险,一般地1 一岱= 9 0 9 9 ;并将期望的置信水平l 一口 通过转换,得到相麻的置信水平因子z l 一。; 3 确定可接受总体总值精度p _ ; 4 计算放同抽样方式的比率估计抽查所需样本容量n ; = c 等等,2 其中:s ”为以往经验确定的总体方差估计或对随机抽取审查的初始样本成果,确定的总体标准差 估计在比率估计方式下为: 7 中国农业大学硕士论文 第二章数据质量标准及质量控制方法 s 月= 5 将 。调整为不放同抽样方式下的比率估计所需样本容量”r 6 从审计总体中随机抽取个样本项目,如果是由个初始样本审查后确定的,那么只要再抽 查n 月一个样本项目; 7 审查样本项目,计算样本比率,:兰 x 8 计算比率估计的样本比率标准差 s r = 9 计算样本平均比率的标准差 l o 计算“实现精度”p p 2 z 。一。岛n 1 1 如果只只,继续步骤1 3 ,否则继续步骤1 2 ; 1 2 根据下式计算增加的样本容量,然后返回步骤6 飘= ( 气等) 2 1 3 计算比率,:兰 工 1 4 雅断总体比率r 的估计r 1 5 ,推算审计总体的审计总值的估计e v a e v = x r 8 l 翌 上 i i & 万 = 曲 中国农业大学硕十论文 第二章数据质量标准及质量控制方法 1 6 给山审计结论:按所规定得的置信水平l t t t ,相信真实的审计总体总值应在e v a p 之间。 2 1 3 国外在统计数据质量评价和管理方面的方法和经验 1 9 9 9 年国家统计局首次公布了国家局和省局两级对主要统计指标数据质量评估的实施办法,通 过逻辑检查、抽样调查、重点调查、超级汇总等方法对以g d p 为中心的统计指标数据质量进行了评 估。总的来看,目前我国对统计数据质量评估方法还很不完善。 在发达国家中,关于数据质量的评估体系已经比较成熟。国际上,数据质量评价可以分为两类: 一类是数据质量综合评价体系,即在统一的框架r ,对整个统计机构的数据进行全面的质量评价。 如英国、加拿人、瑞典、荷兰等国家统计机构建立了比较健全的数据质量评价和管理机制。另一类 是单项统计数据质量评价机制,即对某一具体统计项目如国民核算、消费价格指数、国际收支等数 据的质量情况进行评价和管理。如美国的b o s k i n 委员会,专门对美国消费物价指数c p i 数据质量 进行评估,美国商务部分析局定期评估国民经济核算数据质是,澳大利亚统计局对国际收支和住户 调查数据质量进行评估,英国统计局则对零售物价指数数据质量进行评估。这些发达国家由于各自 的统计体制不同,质量评价标准也有所差异,概括起来,大体有四种方法:( 1 ) 统计机构内部评价。 如加拿大和荷兰统计局的质量审计制度,由审计员围绕数据质量标准,通过与统计项目负责人面谈、 查阅有关的文件资料等方式形成数据质最审计报告。澳大利亚统计局成立住户调查数据的质量评估 小组,通过各种形式的讨论,广泛地征求数据用户的意见,最终形成评估报告。美国国民经济核算 统计数据主要由经济分析局自身来进行。( 2 ) 邀请统计机构外部专家来评价。这主要有两种方式:邀 请本国政府统计机构以外的部门或专家来评价或邀请外国统计同行来评价。例如在英国,由英国皇 家学会统计工作组来评估政府统计数据质量状况,而瑞士统计局2 0 0 0 年则邀请加拿大统计局局长对 该国数据的总体现状进行广泛的调查研究,分析其存在的问题,并提出相应的改进措施。( 3 ) 引进国 际质量认证标准体系。这主要是从数据调查和编制过程人手,进行质量管理和控制。英国统计局为 了保证零售物价数据的质量,自1 9 9 5 年以来,采用1 s 0 9 0 0 2 国际质量认证标准体系进行零售物价指 数的质量管理t 作,该方法作为数据质量评估的一种先进方法,曾引起国际统计机构的普遍关注。 ( 4 ) 开展数据质量的量化分析工作。近年来,欧洲国家为强化数据质量管理,通过建立数据质量量化 指标评价体系,全面分析和评价数据的质量状况。 发达国家的这些先进管理经验,对我国具有很好的借鉴作用。我们国家应当完善目前的评估办 法,逐步建立起科学的评价标准和机制。同时鉴于与发达国家相比,我国统计体制基础比较薄弱, 因此在我国实施i m f 的数据质量评估框架初期应当有所侧重地选择质量评估对象。当前可以借助 i m f 的各个专项评估框架,建立对我国的国民账户统计、收支平衡统计、消费价格指数等核心数据 的质量评估制度,待将来i m f 的专项评估框架进一步发展和我国数据质量评估工作积累了丰富的经 验之后,再逐步推广到其它统计数据。 2 2 对数据质量标准与误差模型的简化定义 当今质量已成为全世界共同的语言,质量代表一个国家的形象,一个民族的精神,因此应该从质 晟的深刻内涵来认识统计数据质量。何谓质量,美国质量专家朱兰博士把产品定义为适应性,即从用 户角度看质最:另一位专家克劳斯比把产品质量定义为产品符台规定要求的程度,即从生产者的角度 看质量:i s 0 把质量定义为产品体系和过程的一组固有特性满足顾客和其他相关方要求的能力,这 9 中国农业大学硕士论文第二章数据质量标准及质量控制方法 个能力涵盖了产品的“适应性”和符合规定的“规定性”两方面内容。从统计参与国民经济活动和 结果看,统计是经过统计设计、统计调查、统计整理、统计分析,最后变成数据或信息的一个过程。 统计数据或统计信息就是统计i :作的产品,统计数据质量应遵从一般质最的定义,即统计数据满 足顾客和其他相关方要求的能力。在给出的定义中,质景主体是数据,质量的客体是用户、统计者和 被调查者。质量控制的本质就是主体满足客体能力的综合。 正确理解统计数据质量的真正内涵,不仅有助于人们正确理解统计数据质量,澄清一些错误认识, 消除一些社会误解,也有助丁制定其衡最标准,提高统计数据全面质量管理意识,同时有利于完善统 计方法,提高统计组织管理水平,生产合格统计产品。 2 2 1 目前国内外对数据质量涵义的定义 由于统计是对某一事物现象总体的估算而不是精算,这种估算的准确性如何,成为有关人士长 期关注的焦点。在人们的一般观念中,准确性是统计数据质量的同义词,统计误差越小越准确,数 据质量就越高。在2 0 世纪8 0 年代以前,国际统计界基本上是以提高数据准确性为出发点,从数理 统计和抽样技术角度,大量研究如何缩小统计误差、控制数据质量。因此,在这一时期,数理统计 和抽样技术理论方法得到较人的发展,并在统计实际工作中被广泛应用。随着人们质量观念的变化, 质量不仅仅单纯是指产品或服务的使用性能,还包括产品或服务满足用户需求的程度,它是一个包 含丰富内涵、具有多维因素的综合性概念。相应地,对统计数据质量概念的认识也从狭义向广义转 变,要求从统计数据提供者、生产者和用户等多个角度来衡量数据质量。准确性已不再是衡量统计 数据质量的唯一标准。阅为从用户使用的角度来看,即使准确性相当高的统计数据,如果时效性差, 或者不为用户所关心,仍达不到质量的标准。为此,各国统计机构和有关国际组织从满足用户需要 的角度出发,确定了统计数据质最的概念。简单地说,数据质量是指统计信息对用户需求的满足程 度。具体包括如下几个方面: 1 适用性:是指收集的统计信息是否有用,是否符合用户的需求。它要求政府统计机构与社会 各界保持密切的联系,通过各种途径及时了解和掌握社会对统计信息的需求情况,以适应社会经济 管理的需要,减少或弥补统计信息供应与社会需求之间的缺口。在开展某一统计调查之前,首先必 须了解用户的需求,收集有用的统计信息。 2 准确性:是指统计估算值与目标特征值即“真值”之间的差异程度。统计误差越小,准确性 就越高。实际上所谓的“真值”是不可知的,一般通过分析抽样误差、范围误差、计数误差、不回 答率、加工整理差错、模型假设误差等影响数据准确性的各个因素,测算统计估算值的变动系数、 标准差、均方差、曲线配合吻合度、假设检验、偏差等,将统计误差控制在一个可接受的置信区间 内。 3 及时性:是指调查基准期与统计数据发布时间之间的间隔时间。统计数据质量的及时性方面 要求政府统计机构:一是应做到统计工作的手段和方法不断创新,及时将计算机辅助调查系统、计 算机加工处理系统、电子数据交换系统等新的信息技术应用到统计调查、加工整理和数据传输工作 中去,缩短调查基准或与数据结果发布时间之间的间隔时间,提高统计数据的时效性。二是应预先 公布各项统计数据发布日期,并按时间表发布数据,建立和规范统计信息发布制定,便于用户及时 掌握统计信息。 1 0 中国农业大学硕士论文 第二章数据质量标准及质量控制方法 4 可比性:是指同一项目的统计数据在时间上和空间上可比程度。这要求统计的概念和方法在 时间上保持相对稳定,在不同地区使用统一的统计制度方法和标准分类,保证统计数据的口径范围、 计算方法在对问上一致衔接,在地区之间可比。 5 可衔接性:是指不同统计项目之间即同一统计机构内部不同统计调查项目之间、不同机构之 间以及与国际组织之间统计数据的衔接程度。它要求:一是全国范围内所有专业统计项目在统一的 统计框架体系、分类标准下,按统一方法编制统计数据,保证各种不同来源的统计数据之间衔接一 致,在指标概念和口径范围上保持一致,便于用户综合使用。二是在统计调查和数据加工整理中应 用统一方法和程序,例如在各种抽样调查中应用统一抽样框、统一数据加工编辑计算方法,保证各 个项目之间误差最小。三是与国际统计标准保持衔接和可比,采用国际统计标准如联合国9 3 s n a 的 框架体系、国际货币基金组织国际收支用统计手册等,便于国际比较。 6 可取得性:是指用户从统计部门取得统计信息的容易程度,包括列明用户从统计机构可以取 得的统计信息内容以及应用先进便捷的统计信息服务方式。它要求国家统计机构:一是拥有便于用 户检索和查询的统计数据分类目录系统。二是建立方便快捷的统计服务系统,包括统计数据传输系 统、适合用户的格式和发布渠道。三是对外公布的统计数据图文形式耍清晰、明了。 7 可解释性:是指在公布统计数据时,应同时公开关于统计数据的补充信息或称为“源数据”, 即关于统计数据的解释说明。内容包括所使用的统计指标基本概念、计算方法、调查方法、分类以 及数据准确程度即各种误差的测量,便于用户正确使用统计信息,以防止对统计数据的错误解释和 使用。 8 客观性( 或称诚信) :是指统计机构应该遵守统计数据收集、加工整理和公布过程中遵守客 观性原则,具体包括统计政策和统计实际工作的公正透明、专业要求。要求:一是在客观、公正的 基础上收集统计数据。二是从统计的角度选择调查方法和统计方法,统计机构有权对统计数据的错 误解释和错误使用做出评论。三是统计政策和统计:【作过程应公开透明,让用户了解统计数据的编 制和公布所依据的法律、政策,在公布之前政府有关部门获得数据的情况,以及事先向社会公众通 知重大统计方法的变化情况。 9 方法专业性或健全性:是指应用科学的统计方法,一般要求采用国际上通用的标准、统计概 念、方法、范围和分类等。 1 0 有效性:是指应降低统计工作的生产费用,提高效率。要求国家统计机构采取各种有效措施, 提高各个统计项目的工作效率,尽量减少费用投入。 1 1 减轻调查负担:是指统计机构方法应加强与政府各部门的合作,充分利用现有的行政记录资 源,减少重复统计。统计调查表要简单明了,使用先进的电子技术和新的统计方法,最大限度地减 轻社会调查负担。 目前世界各国统计机构和有关国际组织对统计数据质量含义的解释和理解也存在一定的分歧, 但它们都从本国的统计实践以及对数据质量含义的理解,确定了各自不同的数据质量标准。如下表 国际机构和国家政府部门数据质量要求 美国商务部可比性、准确性、适用性 欧盟统计局适用性、准确性、及时性、可获取性、衔接性、可比性、方法 专业性或完全性 国际货币基金组织准确性、适用性、可获取性、方法专业性或完全性 美国国防部准确性、完整性、一致性、适时性、唯一性及有效性 中目农业大学硕士论文 第一二章数据质量标准及质量控制方法 2 2 2 统计调查中的一般误差模型理论介绍。 假设调奇包括四个随机过程:( 1 ) 样本的选取,( 2 ) 为从样本成员那里得到回答所做的努力, ( 3 ) 对那些同意参与调查的样本成员进行计量,( 4 ) 对那些被抽选出来但不愿参加调查的成员进 行替代估算。我们用符号s i r , t 和z 分别代表这四个过程,因此,在推导调查统计量的期望值时,需 要以下的期望; e 。表示对所有可能样本的期望; e ,b e ,旧 表示在给定抽样程序的情况f 特定回答机制的期望 表示在给定样本及调查中的参与情况后,对计量值的期望 e m 表示在给定样本及调查的不参与情况后,对替代估算结果的期望 我们设置为总体的第f 个成员的真实值。 假设调查目的是要估计在一个含有个元素的目标总体中某种测度的总和。我们用符号 u ,表示总体的第f 个成员,对总体元素的真实测度为肖,( f = 1 , 2 ,) 。因此我们希望去估计: z = m 在调查的实际操作中,对j - 的测量不可能没有误差。我们必须使用 i = r ,( 置+ s l f ) + ( 1 一r ,) ( z 。+ 叫) 式中 f l 元素u 回答 足= 4 【0元素u 不回答 占1 表示如果总体元素回答,在测量五时出现的误差:s o f 表示如果总体元素无回答,在 替代估算j i 时出现的误差。 e ( )表示在回答和抽样过程的结果给定的条件下,按照固定方案反复进行计量所得的期 望值。 e m ( )表示在抽样过程的结果给定的条件下,为了得到回答而反复使用一个固定方案时 的期望。 e ,( - )表示按照某特定的抽样设计,所有可能的抽样结果的期望。 利用这些定义,下面给出了一些重要的期望值: e l 。( 占l ,) = b 1 ,基本计量偏著 1 2 中国农业大学硕l 论文 第二章数据质量标准及质量控制方法 e l 。( s l ,一b 1 ) 2 = 盯: e t l 。( 占o ,) = b o , 巨l 。( s o ,一b o 。) 2 = 盯二。 e 【( s i ,一b 】,) ( 占l r b 1 r ) 】= 盯“。 基本计量方差 基本替代估算偏差 基本替代估算方善 基本计量协方差 e 。【( 氏,一反,) ( s 。一b 。) = 仃。, 基本替代估算协方差 e 【( 占,一b ) ( ,一b o r ) 】_ 盯 计量误差与替代估算 e h 。( r ,) = p , e h ,( r h r ) = p e ( ) = r t e 【( 一r 女) 2 】_ 町2 基本回答概率 基本联合回答概率 第k 个抽样框元素进入样本的期望次数 基本抽选方差 e 【( 五一仉) ( 一r 。) 】= 盯。 基本抽选协方差 m s e ( y ) = 厶 量一x 2 = 厶【雪一点( j ) 】2 + 岛瞵( 岔) 一岛( 叠) 】2 ( 2 6 ) + 【f :( 叠) 一毛( j ) 2 + 【六( 雪) 一j ) 】2 其中一般情况f 毛( ) = e t i 。( ) 占2 ( ) = e r i ,e m ( ) 岛( ) = e s e m e m ( ) nm 口 毛( 耍) = j ,+ r , b 。,+ ( 1 一r ,) b 。】 我们有 彘 x 一卣( ) 2 =与兰兰tr,cs-,一局,+c,一r,csmboi=ik = 1,疋鲁t k 2 ,:,、 = 与 【r ,( 毛,一局,) + ( 1 一r ,) ( s 。一,) 疋导 l j,7 、 = b 2 ( 1 + “。) 【p 。盯2 + ( 1 - p 。) 盯二,】+ 只只( 1 + ,) 讧p 盯巾r + ( 1 一p ,一p f - + p ) 盯。o 旷】+ 2 ( p ,一p 。) 盯州o ,j 其中 舻e 善m ( 五嘞) 去】 善m ( 五嘞) 去】 2 2 3 本文对数据质量标准和误差模型的定义 为简化模型,本文只从准确性来衡量数据的质量。实际上,准确性是最本质的属性,其它涵义都 是由准确性延伸出来的,如果一项数据连准确性都无法保证,就没法讨论其他的性质了。而且准确性也 是最难控制,出问题最多的一项属性。在下面盼研究中,我们主要以统计调查机构进行的各种抽样调 查为研究对象,并以调查中的数据误差来定义所获得的数据的质量。 调查误差主要包括抽样误差( s a m p l i n ge r r o r ) 和非抽样误差( n o n s a m p l i n ge r r o r ) ,抽样误差是 由于调查设计时有意识地只研究总体中的一部分,由部分推断总体,从而产生的误差;非抽样误差 包括了除抽样误差以外的其它所有调查误差( j u d i t hz l e s s l e r w i l l i a m d k a l s b e e k ,1 9 9 2 :6 ) 。 调查误差丁抽样误差: l 非抽样误差:抽样框误差、不回答误差、计量误差 由于抽样误差是可以事先计算并加以控制的,园内外对于它的研究己经比较成熟。相对而言, 非抽样误差的研究工作还不够充分,主要是因为它十分复杂并且不易被测量。 定义1数据产品:社会调查机构进行的各种调查活动( 如问卷、电话访阿、库谈会) 所得到 的数据。通常是对所得到的调查问卷进行简单整理后形成的数据表格,每一张表里面有若干条记录, 每条记录里面有若干个变量( 如:年龄、性别、收入等) ,经常是以e x c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论