(计算机应用技术专业论文)基于互联网的统计信息系统构建.pdf_第1页
(计算机应用技术专业论文)基于互联网的统计信息系统构建.pdf_第2页
(计算机应用技术专业论文)基于互联网的统计信息系统构建.pdf_第3页
(计算机应用技术专业论文)基于互联网的统计信息系统构建.pdf_第4页
(计算机应用技术专业论文)基于互联网的统计信息系统构建.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)基于互联网的统计信息系统构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京1 :商大学硕士学位论文 摘要 互联网f 在经历一场新的革命,以x m l 为代表的新一代w e b 技术同趋成熟, 把普通的浏览器变成了商务和信息中心。w e b 应用程序易于部署,固有的分布性 支持大规模协作,使得越来越多的行业和组织把自己的信息系统转向互联网平 台。 随着社会信息化程度的提高,政府统计服务的对象和范围不断扩展,在传统 的发布渠道之外,人们迫切需要更加灵活有效的统计信息获取方式。同时,统计 组织内部也面临着资源整合、增强协作和信息共享能力的压力。互联网成为应对 这些挑战的自然选择。 统计信息系统通常围绕着特定的调查任务独立开发,数据采用专有的二进制 文件或者桌面数据库存储,形成一个个孤立的“烟囱式”桌面应用程序。因此, 建立以互联网为平台的统计信息系统需要解决三方面的问题:1 ) 适应网络环境 的数据存储;2 ) 数据交换格式:3 ) 支持分布式处理的开放式系统框架。 关系数据库拥有坚实的理论基础和成熟的产品,现代r d b m s 都提供了强大的 远程访问支持,已经成为各种软件系统事实上的存储标准。诞生于w e b 世界的可 扩展标记语言( x m l ) 具有简单、表达能力强、适合网络交换的特点,不同的行 业和组织,包括一些国际统计组织,纷纷推出基于x m l 的数据交换标准。 软件体系结构作为一门新兴学科,已经通过实践证明了在大型系统开发中的 价值。特定领域的体系结构( d s s a ) 是软件体系结构理论和实际应用相结合的一 个重要途径,能够抽象一个领域中所有应用程序的公共框架,有效地促进软件复 用。 基于此,本文描述了一种基于互联网的统计信息系统( i s i s ) 的构建,基本 思想为: 数据分级存储。中央、省、市统计机构建立综合数据库,分别保存自己 需要的微观数据和宏观数据,各节点通过互联网连接成一个分布式存储 网络。 x m l 数据交换。存储节点以及系统部件之间使用x m l 格式交换数据。 开放式的系统结构。抽象统计生产服务的公共过程框架,建立可重用的 模块,通过外部调整即可适应不同调查任务的处理需求。 关键字:统计、互联网、x m l 基丁i 互联网的统计信息系统构建 a b s t r a c t i n t e r n e ti se x p e r i e n c i n gan e wr e v o l u t i o n n e ww e bt e c h n 0 1 0 9 i e ss u c h a sx m la r em a t u r in ga n dm a k i n gt h eo r d in a r ye x p l o r e rt ob et h ec e n t e ro f b u s i n e s sa n di n f o r m a t i o n t h ew e ba p p l i c a t i o ni se a s yt od e p l o ya n dt h e i n t r i n s i cd i s t r i b u t i o np r o p e r t yo fi ts u p p o r t st h ec 0 1l a b o r a t i o ni nl a r g e s c a l e s om o r ea n dm o r ei n d u s t r i e s a n do r g a n i z a t i o n st u r nt h e i ro w n i n f o r m a t i o ns y s t e mt oi n t e r n e tp 1 a t f o r m w i t ht h ei m p r o v e m e n to ft h ei n f o r m a t i o n a l i z a t i o no ft h es o c i e t y ,t h e a m o u n to fc l i e n t sa n dd o m a i no ft h es t a t i s t i c si sa l w a y se x t e n d i n g a t t h es a m et i m e ,t h es t a t i s t i c a lo r g a n i z a t i o ni n s i d ea l s of a c e st h es t r e s s i nr e s o u r c ei n t e g r a t i o n ,c o o p e r a t i o ne n h a n e i n ga n d t h ea b i l i t yo f i n f o r m a t i o ns h a r i n g i n t e r n e ti sj u s tt h ea n s w e r f o rh a n d l i n gt h e s e c h a ll e n g e s t r a d i t i o n a l l y ,s i si ss e p a r a t e l yd e v e l o p e df o rs p e c i f i cs u r v e y d a t a i s r e p r e s e n t e di np r i r a t eb i n a r yf o r m a t f i l eo ri ss a v e di n d e s k t o p d a t a b a s e a n dt h e r eisf e win t e r o p e r a bi lit yb e t w e e nt h e s ea p p lic a tio n s t om i g r a t et oi n t e r n e t t h r e ep r o b l e ma s p e c t sh a st ob ea c c o u n t e df o r : 1 ) d a t as t o r a g ei ni n t e r n e te n v i r o n m e n t ,2 ) f o r m a tf o rd a t ae x c h a n g e ,a n d 3 ) a no p e na r c h i t e c t u r et h a ts u r p o r t sd i s t r i b u t e dp r o c e s s i n g r e l a t i o nd a t a b a s eh a ss t a b l et h e o r yb a s i sa n dm a t u r ep r o d u c t s m o d e r n r d b m s sp r o v i d es t r o n gr e m o t ea c c e s ss u p p o r ta n db e c o m et h ed ef a c ts t o r a g e s t a n d a r df o ra l lk i n d so fs o f t w a r es y s t e m t h ee x t e n s i b l em a r k u pl a n g u a g e ( x m l ) w h i c hf e a t u r e ss i m p l e ,f l e x i b l e ,e x p r e s s i v ea n da d a p t i n gt on e t w o r k ist h ep r e f e r a b1ef o r m a tf o rd a t ae x c h a n g e s o f t w a r ea r c hit e c t u r eh a sb e e n p r o v e dt o b ea nu s e f u lm e t h o di nl a r g es y s t e m ,a n dd o m a i n - s p e c i f i c a r c h i t e c t u r ec a na b s t r a c tt h ec o m m o ns t r u c t u r eo fa l la p p l i c a t i o n p r o g r a m si no n ed o m a i na n de f f i c i e n t l yf a e i l i t a r et h er e u s eo fc o m p o n e n t s t h i sa r t i c l ed e s c r i b e sa ni n t e r n e t b a s e ds t a t i s t i c a li n f o r m a t i o n s y s t e m ( i s i s ) w h i c hi s f e a t u r e d : h i b e r a r c h ys t o r a g e t h ei n t e g r a t e dd a t a b a s eo fc e n t e r p r o v i n e ea n d c i t ys t a t i s t i c a lo r g a n i z a t i o no n l ys a v et h ed a t a st h e yn e e d ,a n d a l lt h en o d e sa r ec o n n e c t e di n t oad i s t r i b u t e ds t o r a g en e t w o r kb y i n t e r n e t x m lm e s s a g ee x c h a n g e c 2 一s t y l ea r c h i t e c t u r e i tc a na d a p tt h ep r o c e s s i n gr e q u i r e m e n to f t h ed if f e r e n ts u r v e yt h r o u g he x t e r n a la d j u s t m e n t k e y w o r d s :s t a t is tic s in t e r n e t x m l j 匕京:r 商大学硕士学位论文 图表目录 图1 1 统计信息系统的输入年i l 输出4 图1 2 变量和值7 图1 3 数据集8 图1 4 统计信息系统中的数据流9 图1 5 调查设计的数据流子图1 0 图i 6 数据编辑的子数据流1 3 图1 7 聚合份析中的数据流1 4 图1 8 综合数据库的e r 图18 图1 9 统计信息网络2 0 表2 - 1 数据通知消息3 7 图3 1 农业统计处理程序体系结构4 0 图3 2 农业统计数据处理系统4 l 图3 3 数据录入一4 2 表3 1x m l 文件结构4 2 图3 4 数据集验证4 3 图3 5w e b 数据捕获4 4 v 北京工商大学学位论文原创性声明 本人郑重声明:所呈交的学位论文是本人在导师指导下进行的研究工作所 取得的研究成果。除了文中已经注明引用的内容外,论文中不包含其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。本声明的法律后果完全由本人承担。 学位论文作者签名:丑弛日期:2 , 0 6 年月争日 北京工商大学学位论文授权使用声明 本人完全了解北京工商大学有关保留和使用学位论文的靓定,即:研究生 在校攻读学位期间论文工作的知识产权单位属北京工商大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借 阅:学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或其它复 制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 学位论文电子版同意提交后,可于口当年口一年口二年后在学校图 书馆网站上发布,供校内师生浏览。 学位论文作者签名- 受超导师签名:学位论文作者签名:q 龙聃刍导师签名: 日期:年月日 北京一i 。:商大学硕士学位论文 序言 互联网正在经历一场新的革命,以x m l 为代表的新一代w e b 技术日趋成熟, 把普通的浏览器变成了商务和信息中心。w e b 应用程序易于部署,固有的分布性 支持大规模协作,使得越来越多的行业和组织把自己的信息系统转向互联网平 台。 随着社会信息化程度的提高,政府统计服务的对象和范围不断扩展,在传统 的发布渠道之外,人们迫切需要更加灵活有效的统计信息获取方式。同时,统计 组织内部也面临着资源整合、增强协作和信息共享能力的压力。互联网成为应对 这些挑战的自然选择。 统计信息系统通常围绕着特定的调查任务独立开发,数据采用专有的二进制 文件或者桌面数据库存储,形成一个个孤立的“烟囱式”桌面应用程序。因此, 建立以互联网为平台的统计信息系统需要解决三方面的问题:1 ) 适应网络环境 的数据存储:2 ) 数据交换格式:3 ) 支持分布式处理的开放式系统框架。 关系数据库拥有坚实的理论基础和成熟的产品,现代r d b m s 都提供了强大的 远程访问支持,己经成为各种软件系统事实上的存储标准。诞生于w e b 世界的可 扩展标记语言( x m l ) 具有简单、表达能力强、适合网络交换的特点,不同的行 业和组织,包括一些国际统计组织,纷纷推出基于x m l 的数据交换标准。 软件体系结构作为一门新兴学科,已经通过实践证明了在大型系统开发中的 价值。特定领域的体系结构( d s s a ) 是软件体系结构理论和实际应用相结合的一 个重要途径,能够抽象一个领域中所有应用程序的公共框架,有效地促进软件复 用。 基于此,本文描述了一种基于互联网的统计信息系统( i s i s ) 的构建,基本 思想为: 数据分级存储。中央、省、市统计机构建立综合数掘库,分别保存自己 需要的微观数据和宏观数据,各节点通过互联网连接成一个分布式存储 网络。 x m l 数据交换。存储节点以及系统部件之间使用x m l 格式交换数据。 开放式的系统结构。抽苏统计生产服务的公共过程框架,建立可重用的 模块,通过外部调整即可适应不同调查任务的处理需求。 全文分为四章,组织结构如下: 第一章统计组织和统计信息系统。介绍统计组织的任务和面临的挑战, 统计数据和元数据,统计信息系统要实现的功能分布式环境 中统计信息处理的特点和要求。 第二章基于互联网的统计信息系统的设计。简要介绍软件体系结构、 领域分析方法、两种常见的统计信息系统体系结构类型。描述 系统的总体结构、数据库和x m l 交换格式、系统部署结构、性 能分析。 第三章基于互联网的统计信息系统的实现。介绍农业统计信息系统的 项目背景和特点,论述功能模块的实现,数据文件的设计。 第四章总结。概括i s i s 系统的优点和下一步的展望。 基于互联网的统计信息系统构建 第一章统计组织和统计信息系统 随着经济社会发展,科学技术进步,人类由土地社会进入资本社会,进而迈 向信息社会和知识经济社会统计信息已成为社会、经济、科技信息的主体。各 级统计局和调查队,作为统计生产和统计服务的主要部门,其统计信息、统计咨 询和统计监督职能发挥着越来越大的作用。统计信息系统是信息社会中统计机构 实现其职能的基本工具和手段。 1 1 统计组织 1 1 1 面向生产和面向服务的组织 组织方式反映了机构的目标和任务,对信息系统结构的设计有很大影响。比 方说,如果某项工作采用高度分散的组织方式,那么支持该任务的信息系统显然 不能选择高度集中的控制结构。另一方面,即使在分散的组织中,公共信息系统 基础结构也需要某种形式的通信和协调机制。因此,分析和设计统计信息体系结 构,必须要考虑统计机构的目标和任务,以及统计机构的职能和业务过程。 传统上统计机构是围绕着统计调查组织的。统计调查是按照调查范围和对象 划分的任务块,如城市住户调查、劳动工资调查、农村住户调查等。统计调查一 般由数据集定义,按照固定的周期重复执行( 如月报、季报、年报等) ,生产出 统计数据的某个子集。统计调查通常从一个主要的数据采集过程( 可能补充其他 来源的输入数据,如行政登记) 开始,经过数据审核编辑、聚合生成宏观数据直 到数据发布,全部由一个组织单位完成。即便某些任务或子任务由单独的职能单 位完成,如数据录入、系统丌发和编程、计算机操作、打印和出版等,调查的主 管单位也通常要对其最终产品负全部责任。统计机构按照生产过程的需要划分组 织单位,从这个意义上讲,其组织方式是面向生产的。 但是这种“自然的”组织方式存在着明显的不足。从生产的角度看存在“多 头”调查,比如企业可能需要向工业统计部门提供生产和效益数据、向劳动工资 统计部门提供劳动报酬数据,向投资统计部门提供固定资产数据,增加了调查对 象的负担。从服务的角度看,按调查任务组织的统计数据难以满足用户的需要。 依靠统计数据进行决策的用户通常需要跨调查的综合性信息服务,但是由于按调 查定义的组织单位居于主导地位,很难跨越不同的调查领域进行有效的协调和控 制。统计方法制度和体系改革的目标之一就是加强不同调查专业之间的协调,形 成合力,更好地服务于社会经济发展的需要。 1 1 2 统计组织面临的挑战 统计组织e 面临着来自内部和外部的重大挑战,构建新的信息处理系统成为 迫切的需要。 随着社会经济的不断发展,统计信息在公共管理、企事业组织决策中发挥着 越来越重要的作用,对统计服务提出了更高的要求。比如: 统计领域不断扩展,统计需要反映发展过程中出现的新现象、新事物 用户群体不断扩大,统计服务的对象不再局限于政府机构,企业、研究 团体和社会公众越来越多的关注和使用统计信息 质量要求更高,科学的决策依赖于可靠的统计信息 北京:l :商人学硕十学位论文 速度要求更快,统计信息的时效性决定了统计信息的价值 服务要求多样化,能否以灵活多样的方式提供用户适应用户需要的信息 成为评价统计服务水平的重要标准 另一方面,信息技术,特别是互联网的发展对统计生产和服务产生了深刻的 影响,也对统计信息系统开发提出了新的挑战。比如: 业务流程调整。比如采用计算机辅助调查,原来的访问、数掘录入和数 据编辑三个阶段可以合并在一起完成。 调查合并。使用电子调查问卷可以把多项调查集中在一起完成,比如“一 套表”方法就是将对企业的多项调查合并在一起,从而降低企业的报告 负担。 利用二级数据资源。通过电子数据交换有效地利用行政管理公共登记信 息和部门统计等二级资源,可以降低统计生产成本a 新的发布渠道。在线数据库、电子邮件订阅、光盘等新媒介能够以更灵 活的方式提供适合用户需要的服务。 分布式处理。不一定在同一台机器上完成数据集的整个生产过程,合理 分工可以提高效率。 但是按照调查组织的孤立系统显然不足以应对业务需求和信息技术发展两 方面的挑战,主要体现在以下几个方面: 缺乏互操作性:与按照调查范围和对象分工的组织方式相适应,传统的 统计信息系统围绕着特定调查任务开发和部署,如劳动工资调查系统、 农业生产调查系统、住户调查系统等。这些系统互不兼容,割断了统计 数据的横向联系,形成了一个个的信息孤岛。 重复开发:由于各调查系统是独立丌发的,没有有效地抽象统计业务过 程中的同质性,重复开发造成了不必要的资源浪费。比方说,各类调查 基本上都包括数据审核、汇总、制表等过程,而且加工方式也大同小异, 完全可以封装成可重用的模块。 不支持元数据:孤立的数字是没有统计意义的,用户只有了解数据所描 述的概念和生产方法等信息才能正确使用统计数据。但这类元数据通常 以调查表格、报表制度等形式存在,缺乏有效地采集、存储和使用统计 元数据的机制。 可用性差:缺乏统一的用户界面,软件升级或者专业调整时,统计人员 需要很长时间才能适应新的系统,不能有效地实现技能转移。 数据格式不统一:每个系统都使用自己特有的数据文件格式,难以实现 集中管理和使用。 重生产轻服务:多数系统都是从数据录入开始到汇总生成宏观统计数据 结束,缺乏必要的数据发稚和分析功能,割裂了生产和服务之间的内在 联系。 因此,充分利用技术的发展,以互联网为基础搭建新的统计生产和服务平台 成为统计组织的必然选择。 1 2 统计信息系统 统计信息系统是对统计数据进行统计处理的特定软件系统。统计处理主要包 括数据采集、编辑、聚合、存储、分析和发布等。此外,根据用户需求制定调查 方案和数据处理计划也是统计组织的一项基本任务,从广义上说,调查设计也是 基于互联网的统汁信息系统构建 统计处理的一部分,只不过处理对象主要是元数据。 统计信息系统的基本输入有两个,用户需求和观测。两者不是并列的,用户 需求决定了观测的内容。基本输出为宏观数据,此外可能还包括面向用户的元数 据和统计分析。基本加工方法是统计聚合,即把观测到的微观数据转化成宏观数 据。如图1 1 所示。 图1 1 统计信息系统的输入和输出 1 2 1 统计信息系统的用户 统计信息系统用户包括内部用户和外部用户他们以不同的方式使用系统, 有不同的需求。 内部用户是指机构内部使用系统完成一定统计处理任务的统计人员,他们一 般具有必要的专业知识,更关注系统的易用性和性能。比如: 调查设计人员:制定调查方案,维护变量体系和统计登记,提供主要的 统计元数据。 数据采集处理人员:执行统计调查,采集原始数据,维护调查登记表, 生成目标数据集。数据处理人员有时候还承担一些数据分析任务。 数据维护人员:跨调查合并数据集,维护综合数据库,提供基本的统计 产品。 数据发布人员:为最终用户提供可用的统计产品,如维护统计数据发布 网站,编辑出版物。 外部用户是指机构外部需要( 偶尔) 使用统计信息系统完成特定任务或者满 足特定需求的用户,不一定有必要的统计知识,需要更多的元数据来指导。包括 两类: 数据提供者:代表调查对象提供原始数据的人,只有在特定环境( 如“联 网直报”) 下才需要使用统计信息系统,实际上承担了数据处理人员的 部分职责。 最终用户:即一般所说的统计用户,如政府部门、企业、学校或个人, 是统计服务的对象也是统计信息质量的最终评判者。一股只有在网络 发布环境中和统计信息系统打交道。 为了更好的提供服务,需要了解最终用户使用统计数据的行为模式。一般而 言,用户通常抱着具体的目标来寻找有关的统计数据,比如决策支持或者分析研 究某种社会经济现象。然后用户发现了一些可能有用的统计数据并决定获取,比 如通过出版物或者w e b 。最后用户对取得的数据进行分析和解释。这个过程可能 需要反复多次才能满足用户的需求。因此面向服务的统计信息系统需要提供必要 的设施,帮助最终用户发现、获取和使用统计数据。比如采用用户领域而不是统 计领域的术语和惯例来描述组织数据产品,提供统计产品使用指南。 北京t 商人学硕士学位论文 1 2 2 统计数据 1 2 2 1 微观数据和宏观数据 统计数据是统计信息系统的处理对象,按照作用可以分为宏观数据、微观数 据和元数据1 1 。 微观数掘( m i c r o d a t a ) 描述总体单位( 如某个住户、企业等) 对象特征( 如 家庭常住人口、企业年销售收入) 的观测结果,通常以调查表的形式存在。如果 对象特征用二元组表示: c o = 则微观数据可形式化的表示为: m o 。 o j v ( t ) 2v j 】 其中。是总体对象类型,v 是观测变量:0 是属于总体对象类型o 中的总体单 位;口是一个属性,一般用变量v 中的一个值v j 表示:t 是某个具体的时间( 时点 或时段) ,在这一时刻或时期内对象具有属性p 。 宏观数据( m a c r o d a t a ) 描述目标总体( 如一个地区的所有农村住户或者规 模以上工业企业) 统计特征( 如人均纯收入或工业总产值) 的估计值( e s t i m a t i o n ) 。 估计是在总体单位( 或抽样总体单位) 对象特征观测的基础上进行的。如果统计 特征用三元组表示: c s 2 则宏观数据可形式化的表示为; m s = 【e ( o ( t 1 ) v ( t i ) f ) = a 】 其中e 是一个估算子,即在一个或多个对象特征观测值的基础上对统计特征 c s 的真值进行估算的函数。其中0 ( t ) v ( t ) 是一个对象特征;踺一个统计测量 ( s t a t i s t i c a lm e a s u r e ) ,即一种聚合函数( 计数,求和,平均数,相关性等) , 对o ( t ) 中的对象的v ( t ) 变量的真值进行总括( s u m m a r i z i n g ) 。 宏观数据通常有一定的组织结构,如时问序列和断面数据。由于观察( 测量) 和衍生处理中存在的各种不完整性( 错误和不确定性) ,估计值与真值有偏差。 “微观数据”和“宏观数据”只是在一定意义下的相对概念,比如一个地区 的国民生产总值对该地区而言是宏观数据,而国家统计局则可能将改地区作为一 个总体单位,于是又看作是微观数据。 1 2 2 2 元数据 统计元数据( m e t a d a t a ) 是描述统计数据的数据,从不同的方面况明统计数 据的概念、性质和范围等属性。一般可形式化的表示为: o ( t a ) ( w i t hp a ) ( b yv g ( t g ) ) v b ( t b ) f 其q b o ( t a ) 是时间t 。上的对象总体。p 。是对象的一个性质称为c t 性质,用于选 择o ( t a ) 的子集。v 。( t 。) 是一个变量向量,称为y 变量,对总体o ( t 。) 进行断面分组。 v ( t b ) 是一个变量向量,称为b 变量,代表要估算的概括值。f 是一个聚合函数。 比方说,某地区2 0 0 0 年年末总人口为6 5 万人,则总体为2 0 0 0 年年末全国的所 有居民;d 表示选择居住在该地区的居民,是总体的一个子集;y 表示按不同的地 区对居民分组;b 表示总体特征总人口( 按万人计算) 。 传统上,宏观数据格式如统计表,部以表头、主栏和宾栏或者附加说明的形 式提供元数据。广义的元数据除了描述统计数据的内涵之外,还包括数据准确性 和可用性的信息。 根据信息内容可以将元数据划分成不同的类型; 1 ) 定义元数据( m e t a d a t af o rd e f i n i t i o n ) :定义元数据首先包括统计数据模 基于互联网的统计信息系统构建 型中的所有基本对象,即统计单位、总体、变量、值和数据集。此外还包括与变 量和值有关的分类和词汇表。定义中的另一部分重要内容是统计的法律依据和统 计概念。 2 ) 过程元数据( m e t a d a t a f o r p r o c e d u r e s ) :过程元数据基本上是指从数掘 采集开始到输出表示结束的所有处理活动。这类元数据描述了调查计划、数据捕 获和数据处理的必要过程。 3 ) 加工元数据( m e t a d a t af o rp r o c e s s i n g ) :加工元数掘对于拙述过程在具体 数据集上的应用是必需的,这种类型的元数据包括抽样大小或者报告率这样的处 理参数。 4 ) 管理元数据( m e t a d a t af o ra d m i n i s t r a t i o n ) :为了进行数据处理活动,我 们需要与数据访问、格式规范等等有关的管理元数据。 5 ) 数据集元数据( m e t a d a t a f o r d a t a s e t s ) :描述、访问和更新数据集所需要 的任何信息。 1 2 2 3 变量和值 从本质上说,宏观数据、微观数据、元数掘都是变量的值。对于宏观数据, 变量就是总体的目标统计特征;对于微观数据,变量就是总体单位或调查对象的 对象特征:对于元数据,变量就是所描述的统计数据的特征,如概念属性、质量 属性等。 在形式上,变量是一种映射:v :p - ) r 。其中v 是变量名,p 是v 的定义域, r 是v 的值域。定义变量的主要目的是用可量化的形式描述某种经验现象。 定量变量的取值范围通常隐式给出,默认为整数或实数的一个子集,也可以 通过定义最小值和最大值明确限制。取值范围和选择的计量单位和精度( 有效小 数位数) 有关。 定类变量的值域一般通过枚举所有可能的值命名系统或编码表来 定义。分组是对值集的一种划分,这些划分组成新的值集:新的值集又可以进一 步分组,从而形成嵌套的分组层次结构。这种层次结构称为分类。比如所有的乡 镇名称组成一个编码表,乡镇合并成县,得到县级区划的编码表,等等。 定序变量和定类变量类似,只不过它的值有明确的顺序关系,取值范围使用 有序集定义。没有明确数值意义的定序变量值一般需要编码。 不同变量可能使用同一个值集,比如“出生国”和“定居国”,不同的值集 可能存在交叉。值集可以分组,比如“按5 年划分的年龄组”。值集分组仍然是 一个值集,可以看作原来值集的子集。值集分组可能交叉,也可能不交叉。分类 是一种特殊的值集分组,其中的组称为类别,任何层上的每个分组只属于上一层 的一个分组。 6 北京i :商人学硕十学位论文 图1 2 变量和值 变量之间可能存在复杂的的语义关系,比如某些变量可能派生自其他变量, 或者某些变量只对具有其他某个变量值的调查对象才有意义,违反这些语义关系 往往意味着数据中存在缺陷。这种关系应该包括在变量定义中。 常见的语义关系有三种类型:整体部分、衍生和条件关系。 整体部分关系有两个模型: ( 1 ) v 【0 i 。i = z v 。n 和 ( 2 ) v t o l a i 兰v d a r t 公式1 表示总体等于各部分之和,如粮食总播种面积等于各种粮食作物面积 之和。这种情况下,各分项变量的概念外延不得重叠,并且外延的并集和总体变 量的外延一致。公式2 表示总体大于等于每个部分或者部分之和。如耕地总面积 应大于等于粮食播种面积。 衍生关系的模型为 ( 3 ) v d e n v e d ;v i o i a i v r e f 或者 ( 4 ) v a e r i v c d + v m f = v t 0 即总量变量和参考变量之间存在某种比例关系。比如单产、单价、耕地的复 种指数就是体现这种关系的衍生变量。常见的用法是给定衍生变量的取值范围, 判定总量和参考变量是否协调。 基于互联网的统计信息系统构建 条件关系表示只有当参考变量具有属性p ( 比如大于某个值) 时,衍生变量 才有意义,否则应为空值或者0 : ( 5 ) r o ( v m f ) 专v d e ,i ,。d = 0 1 2 2 4 数据集 统计数据按照一定的规则组成的集合称为数据集,数据集是统计信息系统处 理的基本单位。数据集是统计数据和元数据的结合体。 图1 3 数据集 目标总体:每个数据集都必须建立在由明确定义的总体单位构成的目标 总体上。对于数据采集过程可能还要考虑抽样总体所产生的关于该目标 总体的信息。 变量目录:也称为变量词典列出了数据集的所有变量,说明各个变量 的作用和变量之问的关系。变量词典定义了微观数据的观测记录。出现 在变量词典中的变量一般是凋查变量( 即包含有调查对象信息的变量) 。 生产方法:生产方法说明数掘即是如何获得的。对于微观数据生产方 法可能是关于调查过程( 包括问卷、抽样方案、数据采集方法和数据编 辑) 的描述或者关于如何从管理信息资源编纂得到数据集的说明。对 于宏观数据,最主要的生产方法或者是对某些微观数据的聚合操作,或 者是对其他宏观数据资源的编辑。 数值性信息:除了生产方法之外,常常还需要说明统计数据的其他可量 化信息,如样本大小、报告率等。 描述性信息:一般而言,数据集总是对用一些规则和定义刻画的社会经 济事实的反映。为了正确理解所选择的变量目录、总体和生产方法,这 些描述性信息具有重要的意义。 技术信息:有效访问和管理统计数掘需要的相关信息。 1 2 3 数据流图 从分析用户需求制定调查计划到向用户提供统计产品的整个过程中,统计数 据和元数据在不同的阶段传递,形成数据的流动。图1 4 是在图1 1 基础上进一步 细化的数据流图。 北京:【商大学硕士学位论文 观 a 用户需求反馈意见 g ,b h 电子文档在线数据库 图1 4 统计信息系统中的数掘流 1 2 3 1 数据流 下面简要介绍图1 4 中的数据流,加工部分在后面几节描述。 a 用户需求反馈意见:用户需求决定了统计调查的对象和内容,统计组织 通常围绕着政府的方针政策制定调查计划。在重复调查中,还需要根据用户的反 馈意见不断修t f 三调查计划。用户需求一般以文本形式进入调查设计。 b 元数据:指设计元数据,控制整个统计处理过程的规范。来自调查设计, 保存到综合数据库中,供其他加工引用。包括变量登记、对象登记、总体等,大 型调查项目的元数据量可能达到1 0 0 k 1 0 m 字节。 c 观测:用调查表记录对目标对象的观测结果。来自数据提供者,流向数 据捕获。基本形式为观测变量的值组成的数组。数据量一般为l k i o k 字节。 d 调查表:统计调查的基本工具,包括纸质和电子形式。来自调查设计, 基丁互联网的统计信息系统构建 流向数据采集。通常由标题、主栏、宾栏、表体和脚注组成。根据内容和结构的 不同,数据量一般为1 k l o o k 字节。 e 原始数据:进入统计信息系统的观测结果,后续处理的基本材料。来自数 据捕获,流向数据编辑。编辑加工一般同时处理多个对象的观测结果,数据量通 常为l k l o o k 字节。 f 微观数据:原始数据净化后可进行统计聚台。来自数掘编辑,形成最终观 测登记保存到综合数据库中,作为统计聚合和分析的基础。数据量通常为 1 k 1 0 0 k 。 g 宏观数据:基本的统计产品。来自统计聚合,保存到综合数据库中。数 据量一般不超过1 0 k 字节。 h 电子文档和在线数据库。来自表示,发布,流向系统的终点统计用户。 通常包括宏观数掘和相关元数据。 1 2 3 2 调查设计 调查设计的目标是根据用户需求制定统计调查项目的蓝图,加工的输出是控 制统计生产和服务过程的元数据。图1 5 显示了细化后的调查设计数据流子图。 所有加工的结果都保存到综合数据库中。 a 用户需求反馈意见 图1 5 调查设计的数据流予图 数据流 b 目标总体:根据用户需求确定的所要研究事物的全体。总体通常用登记 表示,最简单的登记形式为:编码+ 调查对象名称。登记一般由专门的人员编 制和维护,比如基本单位名录库、行政区划编码表等。登记还可能包含其他相关 信息,如联系方式和地址等。有时候需要通过专门的调查建立总体。另一种形式 o 北京 :商大学硕士学位论文 是从已有登记选择符合要求的对象,结构为:登记标识符+ 范围+ 报告单位级。比 如设存在登记r 1 ,采用六级编码,即省码( 2 ) + 市码( 2 ) - i - 县码( 2 ) + 乡镇 码( 3 ) + 村码( 3 ) + 单位码( 3 ) ,则r 1 3 7 1 6 4 就表示从登记r 1 种选择山东省 滨卅i 市( 编码为3 7 1 6 ) 中所有的乡镇( 4 级单位) 作为目标总体。 c 变量目录:为了反映用户要认识的客观现象需要观测的对象特征。基本 结构为:变量代码+ 变量名+ 变量定义+ 【取值范围i 值类型 + ( 计量单位) 。 定类变量和定序变量的值域由值类型确定一般没有计量单位。此外,变量之间 的语义约束也通常作为变量目录的一部分定义,数据结构为:关系类型+ 主变 量编码+ f 相关变量编码 + ( 附加信息) 。 d 数据集定义:定义调查处理的基本单位。数掘结构为:标识符+ 调查标 识符+ 【调查周期i 频率】+ 数据项+ 【处理规范】。调查标识符用于引用数据集所 属的调查,数据集定义标识符可能与调查标识符结合在一起,比如a 30 1 ,其中a 表示“农业调查”,3 0 1 表示“农村基本情况”数据集。重复调查通常有固定的 调查周期,比如“年报”、“月报”、“季报”等。数据项包括变量目录中变量 代码的引用列表和语义约束列表。处理规范用于说明该数据集的加工方法,如聚 合、缺值处理方法等。 e 报表定义:确定数据集的表示,可作为调查工具( 调查表) 或者向用户提 供统计信息( 统计表) 。数据结构为:标题+ 数据集定义标识符+ ( 头注) + 主栏结构+ 宾栏结构+ 脚注。数掘集定义标识符表明适合陔表结构的数据集类 型。根据主栏和宾栏结构的不同,通常分为行过录表、列过录表和二维表。 f 抽样总体:为了降低调查成本,在满足数据质量要求的前提下可以从目标 总体中抽取部分作为调查对象。其作用和结构与目标总体相同。 g 调查定义:说明调查的主要目标和意义,调查方法和要求等。数据结构 为:标识符+ 调查名+ 制定机关+ 有效期+ 说明。 其他数据流:图中没有标明的数据流,主要包括主模块从综合数据库中检索 的设计模板以及相关调查的元数据。 加工 主模块( 1 1 ) :主要有两类操作,查询综合数据库和调用下层模块。处理 逻辑如下: p r c e d u r es u r v e y d e s i g n s e l e c t 与用户目标接近的相关调查定义i df r o ms u r v e y s i f 结果不为空t h e n t e m p l a t e l d = s u r v e y l d e l s e t e m p l a t e l d = 0 r e a ds u r v e y ( t e m p l a t e l d ) 读取相应调查,没有则调用空模板, i n p u ts u r v e yi n f o 编辑相关的调查信息 s a v e并保存 c a l lp o p u l a t i o n d e s i g n ( t e m p l a t e i d ),总体设计 c a l lv a r i a b l e d e s i g n ( t e m p l a t e i d ) 变量设计 c a l ld a t a s e t d e s i g n ( t e m p l a t e i d ) ,数据集定义 c a l lr e p o r t d e s i g n ( t e m p l a t e l d l ,报表定义 e n dp r o c e d i r e 总体设计( 1 2 ) :编辑或选择目标总体。以选择法为例,处理逻辑如下 p r o c e d u r ep o p u l a t i o n d e s i g ( t e m p l m e l d ) 基于互联网的统计信息系统构建 r e a dp o p u l a t i o n ( t e m p l a t e l d ) i n p u tp o p u l a t i o ni n f o ,编辑总体范围、调查单位级 s a v e并保存 e n dp r o c e d u r e 变量设计( 1 3 ) 和总体设计类似。 数据集设计( 1 4 ) :定义数据集的结构,包括数据集的基本属性、数据项 和总体。 p r o c e d u r ed a t a s e t d e s i g n ( t e m p l a t e l d ) r e a dd a t a s e t d e f ( t e m p l a t e l d ) e d i td a t e s e t a t t r n 编辑数据集i d 、频率、所属调查i d s e l e c to b j l d sf r o m r e g i s t e rw h e r e 该对象属于指定的目标总体 w r i t eo b j l d st od a t a s e t d e f - p o p u l a t i o n 选择总体 r e a dv a r a i b l e l d sf r o mv a r d i c t i o n a r y w r i t ev a r i b l e l d st od a t a s e t d e s d a m i m m 选择变量 e d i tp r o c e s s m e t h o d 加工方法说明 s a v e e n dp r o c e d u r e 报表设计( 1 5 ) : p r o c e d u r er e p o r t d e s i g n ( t e m p l a t e l d ) r e a dr e p o r t d e f ( t e m p l a t e l d ) c h o o s er e p o r t t y p e ( r t c o l 、r t r o w 、r t 2 d ) 选择表类型 c h o o s ed a t e s e t l d 选择适用的数据集 i n p u tr e p o r t l n f o 输入表信息,如标题、主栏和宾栏文字 e n dp r o c e d u r e 抽样设计( 1 6 ) :通常出独立的抽样程序完成。 1 2 3 3 数据捕获 数据捕获的目标是把观测结果转化成统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论