




已阅读5页,还剩63页未读, 继续免费阅读
(机械设计及理论专业论文)面向电子政务的多维数据挖掘研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着城市信息化进程加快,电子政务和“数字城市”建设了大量业务型和 公共信息平台,其中包含了大量的属性信息和空间信息。但是,到目前为止, 虽然大多数统计信息系统积累了大量数据,但对这些信息的利用大多停留在简 单查询汇总的阶段,缺少有效使用这些数据的方法,因此无法发现数据中存在 的关系和规则,使得政府决策、社会应用的深度和广度受到很大限制,更无法 根据现有的数据预测未来的发展趋势,也无法为政府部门的城市规划、城市管 理提供有效的决策支持,导致了“数据爆炸但知识贫乏”的现象。 因此,从数据挖掘的角度,进而从空间数据挖掘的角度,把与空间位置相 关的人口统计信息与城市基础地理信息以及其他电子政务信息整合起来,进行 空问信息挖掘,并把结果以可视化的方式直观地呈现出来,是既有现实意义也 有理论意义的课题。 本文面向电子政务人口统计信息系统提出了一套数据挖掘模式,并且进行 了初步的实验。数据挖掘模式中数据准备阶段的实验包括数据仓库的逻辑设 计、数据模型的建立以及各种数据切片的设计。论文研究了在此过程中使用的 关键技术一一基于概念层次的分类规则挖掘算法,通过具体实现步骤探讨了它 在倾向电子政务的人口统计信息系统中的应用。该算法改进了传统的泛化算 法,使得得到的规律更加简单明了,便于人们的理解。 人口信息作为与空间位置有关的电子政务信息,仅仅使用上述一般的数据 挖掘算法不能得到完全有用的知识。为此,论文构建了面向电子政务的空间数 据挖掘的框架。这个框架考虑了电子政务中空间数据的特点以及空间数据与属 性数据关联的问题,以及如何集成各种空间数据挖掘方法,便于用户交互控制 和管理知识库。然后通过一种基于密度的空间聚类算法,分析了它在流动人口 密度聚类方面的应用,证明把空间数据挖掘算法用于电子政务领域是可行的。 沦文把各种数据挖掘方法应用到广州市统计信息系统中,在描述了系统工 作环境和系统结构的基础上,提供了一个简单的面向用户的数据挖掘工具包, 并且把各种结果以专题图、地图等图形的形式直观地呈现给用户。 论文把数据库技术、数据仓库、数据挖掘思想和算法、g i s 、空间分析等 先进的信息技术应用于人口学和经济地理等半定量的学科,提出了基于g i s 平台和大型数据库的面向电子政务的数据挖掘模式和原型。论文在这些方面的 探索具有一定的理论意义,也有很大的推广应用价值。 关键词:空间数据挖掘g i s 分类规则空蚓聚类 华南理丁大学工学硕士论文 a bs t r a c t w i t ht h ew a v eo fu r b a ni n f o r m a t i o n ,e - g o v e r n m e n ta n d “d i g i t a lc i t y p r o j e c t b u i l d su pm a n yd a t a b a s ew h i c hu s e di nd a i l yg o v e r n m e n to p e r a t i o na n dp u b l i c i n f o r m a t i o ns e r v i c e t h i sk i n do fd a t a b a s ei n c l u d e sn o n s p a t i a li n f o r m a t i o na n d s p a t i a li n f o r m a t i o n ,b yn o w ,t h eg r e a t e f f e c to nd a t a b a s eu s i n gh a sn o tb e e ns e e n m o s tu t i l i z a t i o no ft h ed a t ai st oq u e r y i n gi n f o r m a t i o no rs u m m i n gr e c o r d s o n l y t h i sw a yt ou s i n gt h ed a t ac a n n o th e l pu st of i n dt h er e l a t i o n s h i p sa n dr u l e si nd a t a , a n dc a n n o th e l pu st o p r e d i c tf u t u r e t r e n d sb yt o d a y sd a t a w ec a n n o tp r o v i d e h e l p f u ld e c i s i o ns u p p o r t i n gf o ru r b a np l a n n i n ga n dc i t ym a n a g e m e n t ,t h u sw eg e t t h ep h e n o m e n aw h i c hc a l l e d i n f o r m a t i o ne x p l o d i n ga n dk n o w l e d g el a c k i n g f r o mt h ev i e w p o i n to fd a t am i n i n ga n ds p a t i a li n f o r m a t i o nd a t am i n i n g ,w e c a nm a k ef u s i o no fc e n s u sd a t aw i t hf o u n d a t i o nu r b a ng e o g r a p h i ci n f o r m a t i o na n d o t h e rt h e m a t i ci n f o r m a t i o no fe g o v e r n m e n t f u r t h e r m o r e w ec a nv i s u a l i z et h e r e s u l to fd a t am i n i n g s o ,t h i sr e s e a r c ha s p e c th a si m p o r t a n ta c a d e m i cv a l u ea n d a p p l i c a t i o nv a l u e , t h i s p a p e rp u tu p ak i n do fs c h e m at o e x e c u t i n g d a t am i n i n gi nc e n s u s s t a t i s t i c a li n f o r m a t i o n s y s t e m b a s e do ne g o v e r n m e n t w eb u i l d u p t h ed a t a w a r e h o u s ea n dd a t am o d e lf o rd a t am i n i n g ,a n dd os o m et e s t sa b o u td a t as l i c e a f t e rt h i s ,w eg i v et h ea l g o r i t h mb a s e do nc l a s s i f i c a t i o nr u l e so fc o n c e p th i e r a r c h y t h et e c h n o l o g yo fi n d u c t i o nb a s e do na t t r i b u t i n gi sd e s c r i b e d a n dt h er e s u l to f a l g o r i t h me x p e r i m e n to nc e n s u ss t a t i s t i c a li n f o r m a t i o ns y s t e ms h o w st h i s m e t h o d c a n e f f i c i e n t l yg e n e r a t e ad e c i s i o nt r e e w i t hb e f o r e h a n d k n o w l e d g e t h i s a l g o r i t h mi m p r o v e st h et r a d i t i o n a lg e n e r a l i z a t i o na l g o r i t h m t h e r u l e sc o m e sf r o m t h i sa l g o r i t h mi sm o r es i m p l ea n db e t t e rf o ru n d e r s t a n d i n g c o n s i d e r i n gt h ec e n s u s d a t ac o r r e l a t i n gw i t ht h es p a t i a lp o s i t i o n ,d a t am i n i n g a l g o r i t h mb a s e do na t t r i b u t e si n f o r m a t i o n c a n n o tg e tt h ep r o p e rk n o w l e d g e s o ,w e a d v a n c eaf r a m e w o r ka b o u ts p a t i a li n f o r m a t i o nd a t am i n i n gi ne - g o v e r n m e n tf i e l d t h i sf r a m e w o r kh a sc o n s i d e r a t i o no fs p a t i a ld a t a sc h a r a c t e r i s t i c a n dt h ed a t a r e l a t i o n s h i po fs p a t i a ld a t aa n da t t r i b u t e s d a t a t h i sf a m e w o r ki n t e g r a t e sm a n y s p a t i a ld a t am i n i n gm e t h o d sa n dp r o v i d e sa u s e rm u t u a li n t e r f a c ea n dk n o w l e d g e c o n t r 0 1 w ep u tad e n s i t yb a s e ds p a t i a lc l u s t e r i n ga l g o r i t h mi na p p l i c a t i o n o f f l o a t i n gp o p u l a t i o nd e n s i t y c l u s t e r i n g i n g u a n g z h o u s t a t i s t i c a li n f o r m a t i o n s y s t e m 1 1 a b s t r a c t at o o l b o xo fd a t am i n i n gw i t h i ng i si sg i v e nb a s e do ng u a n g z h o us t a t i s t i c a l i n f o r m a t i o n s y s t e m a f t e r d e s c r i p t i o n o ft h e w o r k i n ge n v i r o n m e n ta n ds y s t e m s s t r u c t u r ei nt h i sp a p e r t h ee n du s e rw i l lg e tt h em i n i n gr e s u l tf r o mg r a p ho rm a p , t h i sc o u l db em o r ei n t u i t i o n i s t i ct h u st h i sp a p e r se x p l o r i n gw o r kh a st h e o r e t i c s m e a n i n ga n dv a l u e st os p r e a d i n gt h ea p p l i c a t i o n k e y w o r d s :s p a t i a l d a t a m i n i n g g i sc l a s s i f i c a t i o nr u l e s s p a t i a l c l u s t e r i n g i l l 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名:隋静婵日期:2 0 0 4 年4 月2 5 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被套阅和借阅。本人授权华南理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“”) 作者签名:隋静婵 导师签名:刘就女 2 0 0 4 年4 月2 5 日 2 0 0 4 年4 月2 5 日 第一章绪论 1 1 课题背景 第一章绪论 面向电子政务的数据挖掘技术是指从与社会、政务密切相关的属性数据和 空间数据中发现隐含的规律,为政府决策提供辅助支持。由于电子政务涉及的 方面很广,本文从一个具体实例一一广州市统计信息系统出发,结合人口统计 信息相关的具体问题,研究从人f 1 地理信息系统( o l s ) 的海量数据中挖掘信 息的技术方法,总结抽象出数据挖掘在电子政务领域的应用模式。论文特别探 讨属性数据的挖掘方法和空间数据的挖掘方法,并且通过可视化方法展现数据 挖掘结果。目前大多数统计信息系统虽然积累了大量数据,但是缺少使用这些 数据的方法,使得政府决策、社会应用的深度和广度受到很大限制,课题因此 具有现实性和实用性。 1 2 电子政务与人口统计信息应用 电予政务是从政府的角度出发,服务于社会、企业和个人的电子商务应用 之一。电子政府的各项机制要提供更有效率、更易于使用的服务,提供更多取 得政府服务的机会与管道,建立政府与公众互动的新型服务模式。电子政务包 括政府的信息服务、电子贸易、电子化政府、政府部门重构、群众参与政府 五个方面的内容。本文讨论的电子政务数据挖掘并不是在政府部门建立的网站 里进行信息挖掘,从而发现用户的访问模式和行为模式,虽然这也是电子政务 信息利用中很重要的方面,但对于电子政务来说,更重要的是如何使政府建立 的各种数据库资源,更有效地满足业务需求和社会需求。 人l _ j 管理是电子政务的一项基础性工作,涉及国家经济制度、政治制度、 家庭婚姻制度、道德规范,以及劳动就业、升学、服兵役、居住迁徙、出生死 i = 、预防和打击犯罪等很多方面。人口管理的具体对象,是那些为社会活动和 社会管理各方面所必须的、基本的社会关系,具体地说,是以公民身份、亲属 关系、法定住址等为中心的人口基本信息。”。 人口地理信息是城市信息化的基础数据之一,也为各行各业的电子政务应 用提供基础数据,如公安管理业务、房地产估价、旧城改造、城市规划、市政 设施规划与管理、税收业务、车辆管理业务、社会保险和社会福利事业等均需 要人 1 地理信息基本数据,它还与国家统计部门、计划部门以及经济管理部门 的宏观或微观信息发生着这样或那样的必然联系。人口信息是公安户籍管理的 华南理工大学工学硕士论文 重要内容;人口信息能够提供社会经济、人力资源等信息,因此它是直接关系 到经济发展计划制定的重要因素;人口年龄和男女结构等信息将直接决定计划 生育的实施方针;一个地区人口的年龄结构和人口受教育程度的结构决定了各 种教育机构的规划以及教育发展策略的方向;人口各种就业状况和收入状况也 是社会福利保障制度实施的主要依据。人口信息的多用途性反映了它作为社会 基础信息的特征。 含有人口地理信息的电子政务数据不仅可以用于人口分析和人口预测。通 过不同时期、不同区域人口数量和人口特征的空间地理分布状况,可以在地图 上直_ l ! l ! 形象地模拟城市人口的动态增长、人口分布和人口迁移趋势。 含有人口地理信息的电子政务数据还有极为广泛的商业用途,如商业布 点、邮政电信设施选点、银行布点、学校分布、医院分布,市场调查、商业调 查、信息咨询服务等,因此这类电子政务数据具有广阔的市场前景,可形成良 好的经济效益。 另一方面,人口信息具有信息量大而分散、动态更新和维护频繁、共享性 高等特点,因此需要探索新的管理和应用技术。人i :3 地理信息数据不仅为人i :3 普查提供了一个共同的地理基础,使得多次人口普查的数据可以放在一起进行 比较分析:还可以把人口数据和环境、资源、城市专题数据统一起来,提供一 个以共同地理单元为基础的,面向办公决策分析的电子政务系统和面向社会的 信息平台。 人口信息按市、区、街( 镇) 、居( 村) 、调查小区分五级统一存档管理, 并通过互联网与地物空问特征( 如地物影像) 相呼应。通过某地区的人口地理 信息系统,人们可浏览到该地区的人口数量、构成、素质和分布与地形,水系、 土地利用、城镇建设等信息组成的电子地图和说明文字,并获得人口及其居住 空州的包括人口总量、性别比、文化程度、民族、行业、职业、教育、商业、 医疗卫生、公共福利、就业和社会保险等详细信息的相关图表。 形象直观的人口分布图通过颜色深浅、圆扁图大小、柱状图高低等表示人 口数量的多少和人口不同特征的区域分布,为各级领导提供形象直观的决策支 持,为区域规划、城市规划、经济规划、行业规划和管理提供直观的、量化的 决策依据。 电子政务近年发展很快。到2 0 0 2 年,美国大约有2 5 0 0 多个州政府部门建 立了互联网站,其中联邦政府机构和所有的州政府全部上网、几乎所有的县市 建立了自己的站点。2 0 0 0 年3 月3 0 日,英国首相布莱尔在信息时代特别内阁 会议上提出,把英国全面实施电子政务的时间从2 0 0 8 年提前到2 0 0 5 年,将政 府的全部服务都搬到网上去。2 0 0 2 年借助互联网和新的人1 :3 统计计算机系统 的帮助,新加坡政府完成了第四次人口普查,共动用了6 0 0 名统计工作人员, 第“章绪论 花费2 4 0 0 万新元,统计公报在普查结束6 个月后对外发布,如果按照传统的 人工普查办法,至少需要动用6 0 0 0 名统计工作人员,花费7 0 0 0 万新元,统计 公报在普奄结束后1 年才能对外发布。”1 人口电子政务信息已经有几十年的发展历史。t i g e r ( t o p o l o g i c a l l v i n t e g r a t e dg e o g r a p h i ce n c o d i n ga n dr e f e r e n c i n g ,拓扑综合地理编码参考系统) 是美国人口调查局研制的人口工作支撑系统,用于美国1 9 9 0 年人口普查。 t i g e r 系统的使用标志着美国人口调查中的地理支撑工作实现了自动化。2 0 0 0 年,美国人口统计局为配合十年一度的人口普查而再次选择了e s r i 的g i s 产 品和技术,经过美国人口统计局对1 2 亿多家庭的人口统计。”3 随着数据库技术和地理信息系统在电子政务领域的迅速广泛应用,人们积 累的数据越来越多。但对于政府部门的决策和社会的应用来说,往往更希望发 现数据背后隐藏着的许多重要信息。 1 3 数据挖掘方法 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用 数据中,抽取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程。从更广义的角度来讲,数据挖掘就是在一些事实或观察数据的集合 中寻找模式的决策支持过程。数据挖掘是揭示存在于数据旱的模式及数据间的 关系的学科,它强调对大量观测到的数据库的处理。”它是涉及数据库管理, 人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。从数据库 中发现知识( k n o w l e d g ed is c o v e r y i nd a t a b a s e ,k d d ) 是从8 0 年代末丌始 的。1 ”。 1 9 9 5 年,在加拿大召开了第一。届知识发现和数据挖掘( d a t am i n i n g ) 闷 际学术会议。k d d 一词是在1 9 8 9 年8 月于美国底特律市召开的第一届k d d 国 际学术会议e 正式形成的。数据挖掘是k d d 最核心的部分,是采用机器学习、 统计等方法进行知识学习的阶段。”。 从统计的观点看,数据挖掘可以看成是通过计算机对大量的复杂数据集的 自动探索性分析。随着计算机应用的越来越广泛,每年都要积累大量的数据, 运用数据挖掘技术可以在这些数据当中找出“金子”来。数据挖掘技术主要又 分成“关联规则”、“时间序列”、“聚集”、“分类”、“估值”等几类。 很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说 明数据挖掘过程本质上是实验性的。f a y y a d 指出,数据挖掘是一个确定数据 中有效的、新的、可能有用的并且最终能被理解的模式的重要过程。z e k u l i n 说,数据挖掘是一个从大型数据库中提取以前未知的,可理解的t 可执行的信 华南理 := 大学工学硕士论文 息并用它来进行关键的商业决策的过程。”“1 注意到数据挖掘往往不是一次性的实验,而要依据过去的经验形成合理的 解释结构。所以,数据挖掘方面的: 具既要包括特定的挖掘算法也要包括各种 探索性的发现数据规律的小工具,这里可视化方法是非常有用的。可视化数据 分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例如,把数据 库中的多维数据变成多种图形,这对揭示数据的状况、内在本质及规律性起到 了很强的作用。 目前已经出现了许多投入商业应用的数据挖掘系统,包括三种类型: ( 1 ) 通用数据挖掘工具包括: s a se n t e r p r i s em i n e r 、i b mi n t e l l i g e n t m i n e r 、u n i c a p r w 、s p s sc l e m e n t i n e 、s g im i n e s e t 、o r a c l ed a r w i n 和a n g o s s k n o w l e d g es e e k e r ; ( 2 ) 综合数据挖掘工具能提供管理报告、在线分析处理和在普通结构中的 数据挖掘能力。如:c o g n o ss c e n a r i o 和b u s i n e s so b j e c t s ; ( 3 ) 面向特定应用的数据挖掘工具包括k d i ( 零售) 、o p t i o n s & c h o i c e s ( 保 险) 、h n c ( 欺诈行为探查) 和u n i c a m o d e l l ( 市场) 。”。 某个特定领域的问题需要特定领域的数据挖掘工具提供解决方案。在设计 算法的时候,要充分考虑到数据、需求的特殊性,并且要作优化。例如,i b m 公司的a d v a n c e ds c o u t 系统针对n b a 的数据,帮助教练优化战术组合;加州 理j 学院喷气推进实验室与天文科学家合作开发的s k i c a t 系统,帮助天文学 家发现遥远的类星体;芬兰赫尔辛基大学计算机科学系开发的t a s a 系统,帮 助预测网络通信中的警报。 特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针 对性强,往往要采用特殊的算法,使之具有处理特殊的数据、实现特殊目的的 能力,这样,发现的知识可靠度也比较高。本文就是要针对电子政务领域,探 讨使用怎样的数据挖掘方法来处理特定的问题。 1 4 课题的意义与应用前景 综上所述,目前电子政务中人口统计信息的应用虽然广泛采取了g i s 技术, 但是在数据挖掘方面还有许多问题需要研究,主要包括: ( 1 ) 对于人口统计信息的利用,目前以简单的信息查询汇总居多,无法 发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导 致了“数据爆炸但知识贫乏”的现象。需要有专门的研究和工具用于发现电子 政务信息之间隐含的规律。 ( 2 ) 由于人口统计信息是空间相关的,需要将人口统计信息与其他电子 d 第一章绪论 政务信息结合起来,进行空间信息挖掘,并把结果以可视化的方式直观地呈现 出来。 ( 3 ) 国际国内还没有专门用于电子政务领域的数据挖掘工具,这方面的 研究正在开展阶段。 ( 4 ) 人口g i s 缺乏与环境数据、资源数据的综合分析功能,如人口的健 康情况、就业情况、经济收入情况与城开亍交通、城市布局规划的关系与影响等 问题需要多领域数据的叠合分析来回答。 1 5 本文主要的研究内容 论文主要的研究内容包括: ( 1 ) 提交一套针对面向电子政务人口统计信息系统的数据挖掘模式,并 且进行了初步的实验; ( 2 ) 研究了基于概念层次的分类规则挖掘算法的原理、算法和实现步骤 并在面向电子政务的人口统计信息系统中进行应用; ( 3 ) 整理出在人口统计信息系统中使用的空间数据挖掘框架; ( 4 ) 探讨了基于密度的空间聚类算法,并把它应用于流动人口密度聚类; ( 5 ) 把各种数据挖掘方法应用到广州市统计信息系统中,提供了简单的 面向用,、 的数据挖掘工具包,并且把各种结果以图形的形式直观地呈现给用 户。该系统特别把数据挖掘工具与可视化工具集成起来,其结构见图1 1 。 图1 一l 数据挖掘与可视化工具集成 这些工作有利于对于海量人口统计信息的利用,有着广泛的应用前景。 论文的结构和章节安排如图1 2 所示。 华南理工大学工学硕士论文 2 ! = = s i - l e = = ! 自= 自目l i _ l e = ! 。! 一 图1 - 2 论文结构和章节安排 第章概述课题的意义,以及课题相关领域的综述性介绍,从而明确课 题在相关工作中的位置: 第二章提出面向电子政务人口统计信息系统的数据挖掘模式,从一个具 体实例的数据组织入手,设计了数据仓库及其数据模型,并且探讨了数据归纳 和概括的方法; 第三章提出一种经过改进的基于概念层次的分类规则挖掘算法,研究了 它在面向电子政务人口统计信息系统中的具体实现; 第四章针对大量电子政务数据涉及大量与地理坐标相关的特点,构建了 适用于电子政务的空间数据挖掘应用模型: 第五章探讨了空间聚类的算法及其在电子政务辅助决策支持中的应用; 第六章把前面提出的数据挖掘理论和方法应用于广州市统计信息系统, 着眼于广州市统计局与人口、基本单位信息相关的统计业务而设计,试图提高 统计局相关业务的工作效率,提高统计局相关业务的服务能力和服务范围,并 且可以为其它政务决策提供信息支持。 结束语部分总结了论文,并讨论了课题今后继续研究的方向。 6 第二章基于电子政务的定向数据挖掘模式 第二章基于电子政务的定向数据挖掘模式 2 1 定向数据挖掘模式 数据挖掘有着大致的应用流程,它在理论1 - _ 着u 商业软件中都形成了一定的 模式。譬如,s p s s 的5 a 模式一评估( a s s e s s ) ,访问( a c c e s s ) ,分析( a n a l y z e ) , 行动( a c t ) ,自动化( a u t o m a t e ) ,和s a s 的s e m m a 模式一一采样( s a m p l e ) , 探索( e x p l o r e ) ,修正( m o d i f y ) ,建模( m o d e l ) ,评估( a s s e s s ) 。“本节针 对广州统计地理信息系统,给出基于电子政务的定向数据挖掘模式。 2 1 。1 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。本 课题确定需要研究的问题是,二十世纪九十年代末期广州的流动人口有什么样 的特点,为什么要流动,来自何方,做些什么? 这个问题是各级政府管理部门 很感兴趣的问题。 人口作为一个群体,其基本的行为现象可概括为四个方面:出生、死亡、 婚姻、迁移。国外一般口q “人1 3 迁移”,国内由于存在户籍管理制度,迁户口 的移动叫迁移,没迁户1 3 的移动叫流动,才有“人口迁移流动”的提法。人v i 迁移流动定义可由空间和时间来确定,跨越某个边界而居留若干时间叫迁移流 动。第五次人口普查迁移流动的定义以时间标准“半年”、空间标准“本乡、 镇、街道”为尺度。 数据挖掘的目的是找出广州流动人口的规律性因素“”“”: ( 1 ) 在一定时期内,一定空间中流动人口的特征; ( 2 ) 在一定时期内,一定空间中流动人口的人群情况,包括性别分布、 年龄分布、地区分布、就业分布、从事行业分布、来源地分布等情况; ( 3 ) 流动人口的成因分析。 2 1 2 数据准备 ( 1 ) 数据的选择 问题大致确定后,要对已有数据情况有所了解,搜索所有与业务对象有 关的内部和外部数据信息,并从中选择出适用于数据挖掘有用的数据。“五普” 数据中与迁移流动人口相关的数据分布在短表、长表、暂住人口表和机器汇总 数据表中,把可能用到的相关数据提取出来,建构数据仓库。构建数据仓库的 详细过程在下一节给出。 华南理工大学工学硕十论文 ( 2 ) 数据的预处理 研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操作类 型。对输入数据库中的异常数据、不完整数据、不相关字段或互相冲突的字段 ( 比如年龄和生r 不一致) 、数据编码方式差异都要进行一定的处理。 ( 3 ) 数据的转换 给出了对数据特征进行描述的工具,譬如通过计算统计变量( 比如平均值、 均方差等) ,或用图表直观的表示数据,进而可以看出一些变量之间的相关性 ( 比如有一些值经常同时出现) 。通过对数据进行探索性分析,找到哪些是对 一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮助更好 的理解数据,加快知识发现的过程。这个过程使得问题进一步明确,这时可能 需要对数据结构和内容进一步调整。 2 1 3 数据挖掘算法 对所得到的经过转换的数据进行挖掘。除了选择、完善合适的挖掘算法外, 其余一切工作都能自动地完成。关于挖掘算法的具体使用详见第三章。 2 1 4 结果分析 解释并评估结果,考察构建的样本数据是否具有充分的代表性、模型本身 是否完善。因此这个步骤不仅是要把结果表达出来,而且还要对样本数据进行 过滤处理,如果对于结果不满意,前面的步骤还要循环进行。 2 1 5 知识的同化 将分析得到的知识集成到业务信息系统的组织结构中去。 综卜所述,得到基于电子政务的定向数据挖掘模式,图2 一l 给出了这个 流程。 图2 - 1 定向数据挖掘模式流程图 第二章基丁电子政务的定向数据挖掘模式 2 2 建立数据仓库 基于电子政务数据挖掘模式的成功应用实例很少见到报道,主要存在着以 下的技术难点: ( 1 ) 与某个问题相关的数据在现实中往往分散管理,且分布于异构的数 据平台中,数据不易集成。数据仓库的构建是为数据挖掘做准备,把有用的数 据都集成起来,提供给用户一个统一的视图; ( 2 ) 电子政务决策支持涉及大量历史数据和半结构化问题,简单的查询 无法完成,传统数据库技术只能提供数据级支持,难以求解复杂的半结构化决 策问题; ( 3 ) 数据库语言数值计算能力较低,采用数据库管理技术建立的决策支 持系统知识表达和知识综合能力较弱,数据挖掘为数据、模型、知识接口的集 成提供了新的可能。 基于上面提出的面向电子政务的定向数据挖掘模式,进一步要做的工作是 如何创建面向决策支持的电子政务数据仓库,然后从电子政务数据仓库中发现 知识以及如何向用户解释和表达知识。 2 2 1 人口专题数据组织 人几专题数据是以各级人口空间单元为载体来存储的,具有严格的层次 性。人口记录最终是以户为最小单位调查的,个普查区包含若干个调查小区, 一个街道由若干个普查区组成,同一个行政区包含有苦干个街道。 根据第血次人口普查的要求,各级人口调查单元的人口专题数据主要通过 逐级汇总统计方式获得。人 j 统计信息库中数据以调查小区为基本单位保存。 人口调查数据包括下列属性: ( 1 ) 总人口数;男性人口数、女性人口数; ( 2 ) 计划生育相关指标; 已婚和未婚人数,初婚有配偶和再婚有配偶人数,离婚和丧偶人数,1 5 至5 0 周岁的育龄妇女生育予女的生育子女数( 男女) 、其中现在存活数( 男女) , 1 9 9 9 年1 1 月1 日至2 0 0 0 年l o 月3 1 日育龄妇女的生育情况,未生育人数、 有生育人数( 婴儿男女人数) 。 ( 3 ) 人口年龄结构:各个分年龄段人数,例如:1 9 9 9 年1 1 月1 日至2 0 0 0 年1 0 月3 ir 出生人数、死亡人数; ( 4 ) 分民族人数;各个民族人数; ( 5 ) 本地户口和外地户口人数、农业和非农业人口数: ( 6 ) 户籍人口中外出不满半年人数、外出半年以上人数,暂住本地离开 华南理工大学工学硕士沧文 户籍地不满半年人数; ( 7 ) 各种受教育人数( 研究生、本科、专科、中专、高中、初中、小学) , 其中包括是成人教育的人数,在校人数、毕业人数、肆业人数、辍学人数、参 加过扫盲班人数、从未上过学人数; ( 8 ) 2 0 0 0 年1 0 月2 5 3 1 日,1 5 周岁及以上人员有工作的人数和没有工 作的人数,从事各个行业工作的人数,这一时间段内从事有收入的工作时间分 别是一天、= 天、三天、四天、五天、六天、七天的人数;这一时间段内没有 工作的人员中在校学生人数、料理家务人数、离退休人数、丧失工作能力人数、 从未工作l f 在找工作的人数、失去工作正在找工作的人数、未工作者主要生活 来源靠退休金的人数、领取基本生活费的人数、家庭其他成员供养的人数、财 产性收入的人数、领取保险金的人数。 2 2 2 电子政务数据仓库的逻辑设计 构建以人口统计信息为基础的电子政务数据仓库的过程如下: ( 1 ) 确定主题,进行数据仓库结构设计 数据仓库的构建是一个不断循环的过程,在实施的过程中选择合适的主题 域是十分必要的,通过对人口统计信息中流动人口管理的业务分析,确定一个 主题域,流动人口主题域( 包括小区编号、街道编号、街道名、名字、年龄、 性别、流入地、居住年限、受教育程度、就业情况、行业、居住情况等) 。通 过主题域,设计多维数据结构的事实表和维表。 ( 2 ) 星型模型与雪片模型 星型模型将多维结构划分为两类表。类以星型模型的核心一一事实表 ( f a c tt a b l e ) 。它是按维进行查询的中心,存储真实数据( 即事实) 的地方。 事实是数字型的属性,如计算和数量,可以被加、求平均、求最大、求最小, 并且按照各种统计运算进行合计计算。事实属性包含了适度的、关于事实表所 管理的内容的数字型值。另一类是维表,对每一个维来说,至少有一个表用来 保存该维的元数据,即维的描述信息,包括维的层次及成员类别等”。,如图 2 2 所示。 当数据的维有多个维层次时,用一张维表来描述会带来过多的冗余数据。 为了避免冗余,用多张表来描述一个复杂的维。于是在星型的角上又出现了分 支,称其为雪片模型。 1 0 第一二章基于电子政务的定向数据挖掘模式 ( 3 ) 建立事实表。 事实表由两部分组成,其中一部分定义了主键,另一部分包含有关数值型 测量值,这些测量值作为每个衍生键定义和计算,并作为已知的事实或测量 值保存。主键唯一识别一个表的每一记录。主键和衍生键的主要作用是将记录 和存放在其他表中的数据进行关联。 来源地编号 省 县市 农村城市 街道编号 街道名 行政p t 居住年限编号 第次迁入时间 居任年限 就业情况 有无工作 从事有收入的工作时 闻 没有t 作的人员的类 别 是否领退休金 是否领取基本生活费 是否领取保险金 图2 - 2 流动人口数据仓库的星型模型 流动人口事实表记录了每一条流动人口信息,其中可以用于计算的字段主 要是年龄、受教育年限,可以统计从事某一行业流动人口的平均年龄,从事某 一行业流动人口的平均受教育年限。 流动人口事实表的结构如表2 1 所示。 华南理工大学工学硕士论文 表2 1流动人口事实表 字段名数据类型是否可以为空字段中文名 a l c h a r ( 2 0 ) n o 调查小区编号 a 2 c h a r ( 2 0 ) n 0 街道编号 a 3 c h a r ( 2 0 ) n o 街道名 a 4c h a r ( 2 0 )n o行政区 a 5 c h a r ( 2 0 ) n o名字 a 6 i n t e g e r y e s 年龄 a 7b 0 0 1 e a ny e s性别 a 8c h a r ( 2 0 )y e s 来源地所在省 a 9c h a r ( 2 0 )y e s来源地所在县市 a l oc h a r ( 2 0 )y e s来源地农村城市 a 1 l c h a r ( 2 0 ) y e s 来源地所在街道编号 a 1 2 c h a r ( 2 0 ) y e s来源地所在街道名 a 1 3 c h a r ( 2 0 ) y e s 来源地所在行政区 a 1 4d a t ey e s 第一次迁入时问 a 1 5 o o u b l e y e s 居住年限 a 1 6c h a r ( 2 0 )y e s 受教育程度 a 1 7b 0 0 1 e a ny e s 有无工作 a 1 8d o u b l ey e s 从事有收入的工作时间 a 1 9 c h a r ( 2 0 ) y e s 没有工作的人员的类别 a 2 0b o o l e a ng e s 是否领退休金 a 2 1b 0 0 1 e a ny e s 是否领取基本生活费 a 2 2b o o l e a ny e s 是否领取保险金 a 2 3 c h a r ( 2 0 ) y e s 行业 1 2 第二一章基于电子政务的定向数据挖掘模式 ( 4 ) 建立维表。 维表可以被看成是一种窗口,透过它用户可分析数据。维的设计提供了维 的属性定义。结构维表示在层次结构组成中的信息度量,这里有时间维等各种 维。 时间维:表明统计外来人口的时间。这里的时间维是年; 地区维:这个维可提供一个根据外来人口居住地进行归类的层次结构。层 次结构包括区、街道; 年龄维:根据普查小区编号,各年龄段对外来男女数进行归类的层次结构; 就业维:根据外来人口的就业情况进行归类的层次结构: 行业维:根据外来人口从事的行业类别进行归类的层次结构; 来源地维:根据外来人口的来源地进行归类的层次结构; 信息维( c a l c u l a t e dm e m b e r s ) :是计算字段创建的。若想知道某个地区 的流动人口的平均年龄,就需要建立流动人口平均年龄维: 球寄 其中:p 一流动人口的平均年龄维 a 。一一 m e a s u r e s , 总年龄 f ,一 m e a s u r e s 流动人口计数 信息表中的信息包括一个唯一的表示符( i d ) 和通过这个信息表建立的所 有维所需的属性。例如流动人口信息表中包括流动人员的编码、居住地、来源 地、年龄、性别、就业情况、从事行业等字段。 ( 5 ) 模型的设计 通过j l 【i 察星型模型,可以发现星型模型的作用是将多维关系分解为由主码 和外码互相联系起来的二元关系,在关系模型中,数据仓库的每个主题是由多 个表来实现的,这些表之间依靠主题的公共主码联系在一起,形成一个完整的 主题。根据已知的查询的分析需求,本系统往用了星型模型。 s e l e c t ( 地区维 、 天河区 ) ) o nc o l u m n s , ( 时间维 y e a r m e m b e r s ) o nr o w s f r o m c e n s u s 2 0 0 0 m e m b e r s 集合表达式返回这一层的所有值。在这里 时间维 y e a r 的 成员是2 0 0 0 。 ( b ) 创建切片维 创建切片维,切开立方体后,会提供一个数据的可视断面。一般而言,当 华南理工大学1 学硕士论文 切片时,总是保持出一个维之外的所有维恒定不变。在立方体上的一个或多个 度量值要占据断面上的点。立方体上的点都有值,除一个维之外,所有的维都 恒定不变。如果有三个立方体轴,在一个轴上切片,对另外两个维而言,所有 在切片上的点将是恒定的。 切开立方体得到沿一个维变化的值,利用w h e r e 字句创建切片维: s e l e c t ( m e a s u r e s 人口统计 ) ) o nc o l u m i l s , ( 行业维 m e m b e r s ) o l lr o w s f r o m c e n s u s2 0 0 0 w h e r e ( 地区维 天河区维 棠下地区 , 时间维 2 0 0 0 ) 通过这个切片,可以得到棠下地区“五普”时,流动人口从事各行业的分 布情况。 2 3 电子政务数据仓库的部署 物理的人口信息数据仓库构建过程主要分为如下几步: 1 用设计过程中产生的s q l 脚本创建数据库,以此作为数据仓库; 2 生成元数据库; 3 把源数据库的数据抽取、净化及其它方式加工处理后存入数据仓库; 4 定期把源数据库中的变化数据反映到数据仓库中。 在物理模型设计时,要完成: 1 数据的存储结构; 2 索引策略; 3 数据存放位置; 4 存储分配。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2丁香结 +公开课一等奖创新教学设计
- 立项管理案例讲解
- 内河基本安全培训实操课件
- 肝叶部分切除术后护理
- 元音字母的发音音素课件
- 金字塔原理解读
- 勾股定理的验证动态课件
- 元谋公路分局安全培训课件
- 教室求职简历汇报
- 工厂技术提案案例
- 面部桃花灸培训专业知识课件
- 2025年高考政治总复习高中三年必考基础知识复习汇编资料(必背版)
- (2025)汽车驾驶员(技师)考试题库及答案
- 人工智能在威胁情报中的应用-洞察及研究
- 林业安全生产培训教材课件
- 乡级增补叶酸培训课件
- 2024邯郸大名县招聘村(居)党务、村务(居务)工作者354名招聘笔试备考试题及1套参考答案详解
- 人教版 2024 版历史八年级上册第五单元 第 13 课《国共合作与北伐战争》检测卷
- 小学数学教师新课标考试试题(含答案)
- 厂房搬迁管理办法
- 保险学考试题(附答案)
评论
0/150
提交评论