




已阅读5页,还剩100页未读, 继续免费阅读
(地图学与地理信息系统专业论文)基于gis的实有人口数据挖掘与可视化分析研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
d i s s e r t a t i o nf o rt h em a s t e rd e g r e ei n2 010 u d c - 10 2 6 9 s t u d e n tn o :5 1 0 7 0 8 0 1 0 5 5 e a s tc h i n an o r m a lu n i v e r s i r e s e a r c ho fa c t u a lp o p u l a t i o nd a t a m i n i n g v i s u a l i z a t i o n a n a l y s i s b a s e do ng i s c o l l e g e : d e p a r t m e n t :垒丛q g ! 垒p h y 鱼q i s c a n d i d a t e :z h o uy i s h a n g h a i ,c h i n a m a y ,2 0 l o 华东师范大学学位论文原创性声明 郑重声明:本人呈交的学位论文基于g i s 的实有人口数据挖掘与可视化分析研 究,是在华东师范人学攻读硬生卜尊士( 请勾选) 学位期间,在导师的指导卜进行的研 究工作及取得的研究成果。除文中已绛注明引用的内容外,本论文不包含其他个人已经 发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中作了 明确说明并表示谢意。 作者签名:日期:吖移年6 月砂口 华东师范大学学位论文著作权使用声明 基j :g i s 的实有人口数据挖掘与可视化分析研究系本人在华东帅范大学攻读学 位期问在导师指导下完成的题屉博士( 请勾选) 学位论文,本论文的研究成果归华东师 范人学所有。本人同意华东师范人学根据相关规定保留和使用此学位论义,并向丰管部 门和相关机构如困家图书馆、中信所和“知网”送交学位论文的印刷版和电子版;允许 学位论文进入华东师范大学图书馆及数据库被金阅、借阅:同意学校将学位沦文加入全 国博士、硕士学位论义共建单位数据库进行检索,将学位论义的标题和摘要汇编出版, 采用影印、缩印或者其它方式合理复制学位论文。 本学位沦文属于( 请勾选) ( ) 1 经华东师范大学相关部fj 审查核定的“内部”或“涉密”学位论义木, 于年 月 日解密,解密后适用卜述授权。 ( 2 小保密,适用上述授权。 导师签名 本人签名 ! 虱! 垒 为“年月 le l “涉密”学位论义心是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学仲 论文( 需附抉批的华东师范大学研究牛申清学付论文“涉密”审批表斤为台效) ,末经上 述部门审定的学位论义均为公丌学位论义。此声明栏不填写的,默认为公开学位论文,均适用 一l :述授权) 。 匠睑颐士学位论文答辩委员会成员名单 姓名职称单位备注 张超教授华东师范大学主席 徐建华教授华东师范大学 吴健平教授华东师范大学 王远飞副教授华东师范大学 段玉山副教授华东师范大学 益建芳副教授华东师范大学秘书 华东 i l l j 范人学2 0 1 0 “研究生侦上学侮论义 l l l j 【= 摘要 论文摘要 随着我国经济社会的发展,城市中的外来人口、境外人员等非户籍人口的数 量飞速增艮,很大程度上给政府人口管理、城市配套服务建设、公安安保治理等, 带来了巨大的握力和不i _ j 的挑战。人口之问的数据与关系变得复杂而难以预测, 冈此,在切实加强实有人口信息管理_ r 作的基础上,如何通过数据挖掘发现实有 人口之间的关系,进一步推进人口信息的高效管理与应用,是当前政府及相关部 门而临的重要课题。 为了应对政府与社会的实际需求,推进实有人口数据分析与可视化的研究t 作,本论文面向实有人u 数据挖掘及其结果的日,视化模式开展研究:首先分析海 量实有人口数据的特点,构建数据模型;其次探讨实有人口关系发现的评价指标, 构造相应的评分规则:然后设计人口关系和发现结果的可视化表达模式;最后借 助g i s 软件平台,建立实有人u 数据挖掘与可视化系统。围绕这些研究内容, 本文进行了以下工作: ( 1 ) 系统总结和分析了海量实有人口数据的特点,设计了实有人口五要素 数据模型,以此为基础,探讨了用于实有人l j 关系发现的抽象评价指标,并针对 评价指标建立了相应的评分规则; ( 2 ) 基于实有人口数据模型,根据实有人口数据源特点,设计了基于五要 素模型的实有人u 数据库表结构; ( 3 ) 通过研究分析、对比与实践,提出了“关系链”和“立方体”两种基 于g i s 的实有人口数据挖掘可视化模式,并按照各自的信息表达、模式特点, 提出了可行的设计方案: ( 4 ) 在j 2 e e 环境下,采用s t r u t s + s p r i n g + h i b e r n a t e 框架,借用g e o s e r v e r 地图服务,利用存储过程等手段,设计了基于g i s 的实有人口数据挖掘可视化 系统,并开发实现了实有人l j 关系发现及其可视化功能。 关键词:实有人v i ,数据挖掘,关系发现,可视化,g i s a b s t r a c t w i t ht h ed e v e l o p m e n to fo u re c o n o m ya n ds o c i e t y , t h en u m b e ro fa c t u a l p o p u l a t i o nw h od o n t h a v ear e g u l a rs h a n g h a ir e s i d e n t i a li d e n t i f i c a t i o nl i k en o n - s h a n g h a i n e s sa n df o r e i g n e r si sr a p i d l yi n c r e a s i n g u n d e rt h es t i m u l u so ft h en e w m a r k e t e c o n o m y , w h i c hh a sb r o u g h th u g ep r e s s u r ea n d d i f f e r e n tc h a l l e n g e st o p o p u l a t i o nm a n a g e m e n t ,c i t y sc o r r e s p o n d e n ts e r v i c ea n dt h et a s ko f t h ec i t y ss a f e t y a n ds e c u r i t y i tm a k e st h ed a t aa n dr e l a t i o n s h i pb e t w e e na c t u a lp o p u l a t i o nm o r e c o m p l e xa n du n p r e d i c t a b l e t h e r e f o r e ,o nt h eb a s i so fd a t am i n i n ga n dr e l a t i o n s h i p d i s c o v e r y , i th a sb e c o m e a l l u r g e n tt a s k f o r t h eg o v e m m e n ta n dc o r r e s p o n d e n t d e p a r t m e n t st oi n t e n s i f yt h em a n a g e m e n ta n dm a k ef u l lu s eo ft h ea c t u a lp o p u l a t i o n i n f o r m a t i o n i no r d e rt od e a lw i t ht h ep r e s s i n gs o c i a lp r a c t i c a ln e e d sa n dp r o m o t et h ea n a l y s i s o nc u r r e n td e m o g r a p h i cd a t aa n dt h er e s e a r c ho fv i s u a l i z a t i o n f a c i n gt od a t am i n i n g o na c t u a lp o p u l m i o na n dv i s u a l i z a t i o np a t t e r no fi t sr e s u l t ,t h i se s s a yh a sc o n d u c t e dt h e r e s e a r c hb a s e do nt h ep r a c t i c a la p p l i c a t i o no fs h a n g h a ia c t u a lp o p u l a t i o nm a n a g e m e n t s y s t e m f i r s t l y , m a k ea na n a l y s i so nt h ec h a r a c t e r i s t i c so f e n o r m o u sa c t u a lp o p u l a t i o n d a t aa n dc r e a t et h ed a t am o d e l i n g s e c o n d l y ,c o n d u c tad i s c u s s i o no nt h ec r i t e r i ao f a c t u a lp o p u l a t i o nr e l a t i o n s h i pd i s c o v e r ya n dc r e a t et h ec o r r e s p o n d e n te v a l u a t i o n n o r m s t h i r d l y , t r yt od e s i g nav i s u a l i z a t i o nm o d e lt h a tc o u l db ea b l et od e m o n s t r a t e t h ep r o c e d u r ea n dr e s u l to ft h ed i s c o v e r yb a s e do np o p u l a t i o nr e l a t i o n s h i p f i n a l l y , w i t ht h eh e l po ft h eg i ss o f t w a r ep l a t f o r m ,lh a v ec o m p l e t e dt h es y s t e mo fd a t a m i n i n ga n dv i s u a l i z a t i o nb a s e do na c t u a lp o p u l a t i o n g u i d e db yt h eo u t l i n e sa b o v e , t h i sp a p e rh a sc o m p l e t e dt h ew o r ka sf o l l o w : ( 1 ) t h i ss y s t e mh a ss u m m a r i z e da n da n a l y z e dt h ec h a r a c t e r i s t i c so fm a s sa c t u a l p o p u l a t i o nd a t a h a v i n gd e s i g n e dad a t am o d e lo f f i v ee l e m e n t so fa c t u a lp o p u l a t i o n , b a s e do nw h i c h1h a v ep r o b e di n t oa b s t r a c tc r i t e r i ao fa c t u a lp o p u l a t i o nr e l a t i o n s h i p d i s c o v e r y s t i l lf u r t h e rt h ec o r r e s p o n d e n te v a l u a t i o nn o r m sh a v eb e e nc r e a t e d i n a c c o r d a n c ew i t ht h ec r i t e r i a ( 2 ) r e f e r r i n gt oa c t u a lp o p u l a t i o nd a t af r a m e w o r k ih a v ed e s i g n e daf i v e e l e m e n t a c t u a lp o p u l a t i o nd a t a b a s et a b l es t r u c t u r eb a s e do na c t u a lp o p u l a t i o n d a t aa n d r e l a t i o n s hi pm o d e li n g ( 3 ) t w ov i s u a l i z a t i o nm o d e l sw h i c hn a m e da sr e l a t i o n s h i pc h a i na n dc u b e sh a v e b e e nb r o u g h tu pb a s e do na c t u a lp o p u l a t i o nd a t am i n i n go fg i st h r o u g has e r i o u s r e s e a r c h ,a n a l y s i s ,c o n t r a s ta n dp r a c t i c e t h e nih a v ew o r k e do u ta f e a s i b l ed e s i g n i n g p r o g r a ma n dp r o c e d u r e sa c c o r d i n gt ot h e i ro w nr e s p e c t i v ei n f o r m a t i o na n dp a t t e r n c h a r a c t e r i s t i c s ( 4 ) w i t ht h eh e l p o fg e o s e r v e rm a ps e r v i c e ,a d o p t i n g “s t r u t s + s p r i n g + h i b e r n a t e f r a m e sa n ds t o r a g ep r o c e s st e c h n o l o g y , ih a v ed e s i g n e dav i s u a l i z a t i o n s y s t e mo fa c t u a lp o p u l a t i o nd a t am i n i n gb a s e do ng i su n d e rt h ej 2 e ee n v i r o n m e n t b e s i d e s ,i h a v eb r o u g h tt h ea c t u a l p o p u l a t i o nr e l a t i o n s h i pd i s c o v e r y a n di t s v i s u a l i z a t i o nf u n c t i o ni n t oi m p l e m e n t a t i o nt h r o u g hc o m p u t e rp r o g r a m m i n g k e yw o r d :a c t u a l p o p u l a t i o n ,d a t am i n i n g ,r e l a t i o n s h i pd i s c o v e r y , v i s u a l i z a t i o n ,g i s 一 华尔 i l j 范人学2 0 1 0 届研究尘帧上学何论义h 录 目录 第一章绪论l 1 1 研究背景一l 1 2 国内外研究概况2 1 3 选题意义与主要研究内容8 1 4 本论文内容及章节安排9 第二章实有人口数据模型与关系发现1 0 2 1 实有人口及其特点概述l o 2 2 实有人口数据模型l l 2 3 实有人u 关系发现15 第三章基丁五要素模型的数据库设计2 0 3 1 数据需求与数据库构成2 0 3 2 窄问数据库2l 3 3 属性数据库2 l 3 4 数据表之间的逻辑关系2 8 第四章基于g i s 的实有人u 数据挖掘可视化模式3l 4 1 人口关系发现结果的信息可视化3 l 4 2 关系链形式的可视化模式3 2 4 3 立方体形式的可视化模式3 6 4 4 两种模式的比较4 0 第五章基于g i s 的实有人口数据挖掘系统设计与实现4 l 5 1 系统技术路线4 l 5 2 系统功能设计4 3 5 3 系统主要界面4 8 5 4 系统功能实现5 0 第六章总结与展望6 9 6 1 本文研究的主要内容和结论6 9 6 2 存在的不足和未来研究任务7 0 附 录7 1 参考文献一7 8 后 记一8 0 华东m 范人学2 0 1 0 柚研究生帧上学位论文 第。章绪论 1 1 研究背景 第一章绪论 计划经济时代,我国主要依靠户籍制度来管理人口。在计划经济人户合一的 情况下,户籍制度为人1 3 的管理带来了便捷。但在新的市场经济形势下,随着我 国社会经济的发展,城市中出现了大量的流动人口与境外人员,这就造成了人户 分离的现象,即人们实际居住地与户口所在地并非l j 一个地方,给人1 3 管理与公 安案件调查带来了困难。冈此落实当地的实有人口信息,将成为现在乃垒以后 很长一段时问的工作重点。 实有人口,即实际居住丁该地区的人口,包括常住人口和短期流动人口。掌 握实有人口信息,对该地区各个部门的t 作都具有重要作用,这螳作用主要体现 在三个方面:第一,可以真实地了解一定区域内所有人u 数据的集合,给人u 部 门提供基础数据,从而为该区域内的人口管理提供有力保证;第:,为国民发展 各部门提供必需的信息化数据,尤其是为分析地区人口流动、人口密度、就业选 择、城市规划、配套设施建设等领域提供必要的数据基础与分析原型;第二三,就 公安部门而言,当案件发生时,分析实有人l 信息可以帮助公安部r 3 n d , 人口搜 查范闹,挖掘相关嫌疑人的人口关联度等,特别是对大范同人口排查能起到很好 的辅助决策作用。因此,掌握以“人房一致”为核心管理理念的实仃人u 信息【2 1 , 并将其作为研究财象,对政府各部门的实际工作具有重要意义。 实有人门信息作为个庞大的数据框架,具有海量数据、强扩展性等特点。 若仅将所有关系数据堆积成图表进行简单分析与显示,而缺乏较好的方法进行解 释、分析与展现,这些数据将无法卜升为真正有用的“知识”并应用j 二实际。另 一方面,每个人的居住情况、社会情况等各种信息大都与地理位置密切相关,而 且这种相关性i 卜在不断扩人,尤其是人u 系统实休化的今天,“以房找人”、“以 人找房”、“人房一致”等实有人口管理途径的提m ,更能凸显卅g 1 s 的功能与 作用。囚此,将实有人口数据管理与g i s 结合在一起,把具有空问分析和空间可 视化等功能的g i s 工具融入其中,将极人地提升数据操纵能力、范围与可视化 效果。数据的直观展示和空间分析,不仪能进一步提高人口信息管理水平,还开 拓了人口信息应用的新途径,为更好地研究人口规律、制定人口政策以及经济与 华东师范人学2 0 1 0 “研究生硕上学位论文 第章绪论 社会可持续发展战略等服务。 本文以实有人口信息作为研究的基础数据,基于g i s 技术,从实有人口的数 据挖掘与关系发现结果的可视化模式入手进行相关研究与分析,以探求实有人口 信息与g i s 功能结合,为社会发展、政府需要提供服务的可行性。 1 2 国内外研究概况 基于g i s 的人口数据挖掘,是建立在人口地理信息系统的基础上的,它是为 了满足人口地理信息系统发展过程中的实际需要而产生的,所以其在国内外的发 展研究与人口地理信息系统的发展密不可分。 。_ _ _ _ _ _ _ _ _ _ _ _ _ _ 。_ 华h - ;j ) q i 范人学2 0 1 0j d j 研究,j :帧上学f 市论义 第章绪论 s a s p a c 等人口g i s l 6 1 ,以满足人口制图和分析的需要。这些系统不但可以在屏 幕上计算出指定区域的面积、人口数量等统计资料,还可以利用许多地理调查中 的其他数字信息,将邮寄地址文件定位十图形文件卜,作为数据整合以及产生区 域地址名册的工具。同时,普查规划人员可以将区域界限及人口有显著变化的普 查区事先加以调整。 日本十1 9 7 3 乍制定了地域网格标准,以地域网格作为展现小地区普查信息 的基本空问单位,开发了普查绘图系统( c m sc e n s u sm a p p i n gs y s t e m ) 。其空问信 息( 包括基本单位区界限、地形地物位置及人口中心坐标) 配合普查基本单位统 计及人口中心点数目等编制各项地域统计,并绘制统计地图。由于经纬网格在小 区域上准确率不高,所以同本从1 9 9 0 年开始陆续进行普查地图数字化工作,作 为未来普查地理信息系统发展的基础1 4 1 1 7 1 1 8 1 1 9 1 。 许多发达围家和地区都积累了丰富的人口地理信息系统建设经验,拥有大量 的人口数据和与之相关的g i s 数据,数据的扩展与数量的增加又对如何从数据 中提取有用信息提出了要求。 联合国欧洲绎济委员会( u n e c e ,u n i t e dn a t i o n se c o n o m i cc o m m i s s i o nf o r e u r o p e ) 自1 9 9 3 年丌始,就认识到g i s 在人口统计行业的应用前景,专门主持会 议探讨了人口统计中的g i s 软件f :具以及适用于人口统汁的概念问题。以后每 年都要举行一次统计学与g i s 相集成的问题。在2 0 0 3 年的议题中突山强调了朋 空问分析的方法进行数据挖掘、在地理空问中对各种人口数据的有关现象进行建 模等问题,这也为数据挖掘技术引入到人口g i s 中提供了理论基础。 1 2 2 国内人口g i s 现状分析 我国人口地理信息系统的建立始丁1 9 8 2 年。1 9 8 2 年我围第三次人口普杏后, 中国科学院地理研究所使用a r c i n o f 软件输入了我国2 9 个省的分省地图及普 查数据,并首次出版了我圈2 9 个省、直辖市、自治区普查数据的人u 地图集。1 9 9 0 年第四次人口普杏后,中国人口情报研究中心数据用户服务中心在联合同人口基 金的资助下,用联合国组织开发的p o p m a p 软件和自动数字化仪,输入了我国3 0 个省的地图、1 9 9 0 年普查数据及其社会经济数据。系统采用【 l 形界面、操作简 便,能够在地图卜直观显示我国3 0 个省、自治区、直辖市的人口分布、h 生、 死亡以及社会经济水平等信息。 之后,我困政府对人u 地理信息系统的建设直十分重视,第兀次人l j 普杏 华东女范人学2 0 1 0 “研究,上倾上学何论义第盔绪论 时,国务院第五次人口普查办公室要求“有条件、有能力的省市地区可率先建设 人口地理信息系统,在取得建立和应用的经验后,争取在2 0 1 0 年人口普查中全 面建立我国人口地理信息系统”【l o l ,人口地理信息系统的研究已经成为新的研究 热点。 到目前为止,己有上海、青岛、南京、银川、宁波、厦fj 等多个城市先后建 立了人口地理信息系统并投入使用 7 1 1 1 0 1 。这些人口地理信息系统以第五次人口普 查资料为核心、并涵盖改革开放以米有火人口、工业、农业、第i 产业、交通、 科技、教育、旅游、外贸等宏观时序的信息资料,按五级行政区划统存档、分 析和管理,集人口与地理要素复合分析于一体,具有较强预警、预报、预测和评 估功能。 随着我国经济的发展,各个地方特别是发达地区的流动人口大增,人口老龄 化,户籍人口人户分离现象日益严重,造成地区实际拥有人口与户籍人口并不一 致,凶此出现了实有人口的概念。近年米,为了满足实际需要,各地正在探索将 人口地理信息系统发展为“实有人口”地理信息系统,如上海市静安区于2 0 0 5 年建成了实有人口信息系统j ,上海市杨浦区也存2 0 0 8 年基本完成了系统的建 立1 1 2 1 1 1 3 1 。 针对月前实有人口地理信息系统所拥有的海量数据,国内学术界也进行了不 少研究,特别是在运刖数据挖掘技术方面。如李军利,查良松运j h j 数据挖掘技术 对人口信息的时空特征进行研究,以安徽为例,在时问上发现该地未来五年内人 口总量平稳增长、人口压力较大,在空间上,发现人口分布整体上呈聚集状,具 有较强的牢问自相关性l ,1 ;李成名,印沾等人从时间域、窄间域和属性域等方面 对人口地理信息系统进行数据挖掘,归纳了挖掘的方法与相关的应用【3 】;沈阳大 学的研究生李芳,研究了基于g i s 的人口信息挖掘,提出了人口信息数据仓库 的建造方案,并利用数据仓库、数据挖掘技术等开发了基于g i s 的人口信息决 策支持系统1 1 4 1 。 1 2 3 商业软件i 2 的发展与分析 成立于1 9 9 0 年的i 2 公司,作为全球领先的面向警务、情报和调查机构的可 视化及分析调奄软件供应商,针刈目前数据的现状提出全新的可视化分析与调 查。i 2 软件将大量的存在于组织内的各类数据以图形( c h a r t ) 的方式展现出来, 通过图形的方式对数据和数据间的关联进行描述和展现,进步运用众多图形分 4 华尔! j l f j 范人学2 0 1 0 艋研究生倾上学位论文 第章绪论 析的方法( 火联分析、网络分析、路径分析、时间序列分析、空f h j 分析等) 米发 现和揭示数据中隐含的公共要素和关联。简单地说,通过i 2 可视化分析的解决 方案,帮助客户将大晕的、低关联性的、低价值的信息转化为少罩的、易于理解 的、高火联性的、高价值的可操作情报,从而为分析调金工作提供帮助1 1 5 】。 i 2 的丰要产品如农1 1 所示: 表i 1 i 24 - 要产品及功能表 i 2 的主要产品主要功能 i 2 分析员手册 ( i 2 一a n a l y s t s n o t e b o o k ) i 2 基地 ( i 2i b a s e ) i 2 分析工作站 ( i 2 _ a n a l y s t s _ w o r k s t a t i o n ) i 2 架桥( i 2 一i b r i d g e ) 一款l u = 界领先的图像调查分析软件,已运用t2 0 0 0 多个组 织,该软件能用浅显易懂的图表形式来揭示、说明表而卜看 起来毫无关系人员、地点和时间中的复杂关系。 该软件足一个高性能的调奁数据库,帮助客户在面对从各个 渠道收集剑数据时,将这些数据整理成适南:分析的连贯形式 并对其做m 解释。 该软件能够帮助用户尽快了解您的数据的内容和重要件,从 而使用户做出蜒明的决策,在警务领域则表现在制定出先发 制人的减少犯罪率的政策措施。 该软件起到了联络i :具的作用,通过i 2 架桥分析员能够实时 存耿数据j 乍中的最新信息,同时i 2 架桥也能为数据咏和i 2 分 析员手册提供动态连接服务。 将凋台的数掘和分析结果以图表的形式快速有效地绘出来。 由于i 2 软件的强大功能,其在现实中有许多的运用实例,如进行犯罪案件辅 助分析,透过案件的各种摹木要素( 时问、地点、人物、作案工具等) ,将数据 以i 纠形化的方式呈现,并基于这些要素提供侦破案件的线索。犯罪案件辅助分析 的结果如图卜l 所示;如用i 2 软什进行犯罪 j :为时问序列分析,利用住宿、网咖、 民航、暂住等各种轨迹数据,在指定的时间问隔内针对特定人员、人群的轨迹动 向进行分析,结合背景地理图,并透过i 2 内建的强大分析功能,深入挖掘孝h 关隐 性信息和情报等,找出内在深层有意义的关联,描绘出 j :为者在空间和时间三元 交义下的犯罪场域或被害热区,分析效果如图1 2 所示。 华尔! i l j 范人学2 0 1 0 “研究生硕上学位论文 第章绪论 图卜l 案什辅助分析效果图图l - 2 时间序列分析效果图 i 2 公司的完整产品体系,为情报部门、军队、反恐机构、保密部门等对人口 数据进行分析、挖掘数据之间的关联关系,并完成可视化分析,提供了软件的基 础,对数据挖掘技术在人口g i s 中的应用具有很大的借鉴意义 1 6 1 1 1 7 1 。 1 2 4 “人立方”与“搜索华尔兹” 2 0 0 8 年7 月3 1 日,微软以迎接北京奥运会为契机推出了“人立方关系搜索” 测试版【1 8 l ,这个搜索引擎不仪仪对奥运会运动员们的战绩、家谱和历史进行描述, 它实际上是在描述整个网络信息世界中呈现的人与人之间的社会关联或社会关 系。人立方关系搜索从超过十亿的中文网页中自动的抽取出人名、地名、机构名 以及中文短语,并且通过算法自动的计算m 它们之间存在关系的可能性。同时, 它还索引了支持它们之间关系的网页文字。此外,人立方关系搜索还可以自动地 找出人名之间最可能的关系描述词、与人名最可能相关的称呼作品等词条信息, 从这些中文网页中自动辨别出人名所对应的人物简介文字,并根据特定的算法将 这些文字按人物简介的可能性进行排序。“人立方关系搜索”引擎运行的最终结 果,是呈现在用户面前的个个人物关系的图形表达( 女l i 图1 3 所示) 、人物历 程的时段记录、人物活动的情景描述。 “人立方关系搜索”脱胎于微软弧洲研究院2 0 0 4 年着手开发的一个名为 “l i b r a 学术搜索”的专、l 址搜索引擎。这是微软亚洲研究院使用对象级别垂直搜 索技术,深度搜索目标,提高网络信息搜索效率的专业搜索平台。l i b r a 学术搜 索引擎通过在互联网上获取计算机科学领域内的学术信息,为专业工作者提供各 种关于学术论义、专家学者、专、f p 会议、学术期刊和专、i k 领域的热点信息。它和 传统的页面搜索引擎不同的是,其通过智慧的算法,将信息学术价值的逻辑关系 从浩如烟海的网络信息中抽离出米,以帮助需要这类信息的人, 1 1 1 9 l 2 0 l 2 1 l 。“人立 6 华东帅范人学2 0 1 0 “研究生顺上学侮论义 第。章绪论 力火系搜索”是数据挖掘在人1 :3 信息上的一种全新的应用力式网络化,这也 为在g i s 环境卜的实有人口数据挖掘和可视化分析提供了新的思路和模式借鉴。 之后不久,腾讯旗下搜索网站也推m 了类似构想“搜索华尔兹1 2 2 l ,它是一 种基于互联网海量信息下以人物为中心的信息聚合垂直搜索,它能够基于新闻数 据挖掘人物背后的关系,并以最直观的方式图谱展示出人口搜索带来的关联 性体验。搜索华尔兹对支撑关系的相关新闻进行了进一步的挖掘,结合自然语言 处理技术,对人物火系和事什进行准确和丰富的展示,人物之问均用相火的新闻 关键词连接,一目了然。i :t 女i i 以章子怡为中心人物( 如图l _ 4 ) ,幅以她为核心 延伸开的人际网络就展开了,各个人物的关系则依靠最新的新闻关键词连接。单 击连接词,弹出的新窗口提供了该新闻的进一步信息,内容包括新闻、网贝、问 问、搜吧、博客、图片等人个方面,让我们能够更全面地了解新闻背景。与此同 时,“搜索华尔兹”进一步加强了“时间节点”的规则度,提供了在不同时间节 点所对应的关联度信息1 2 3 j 。 妒凌 图1 3 入立方关系搜索 图1 4 搜索华尔兹关系搜索 1 2 5 上海市实有人口系统 作为上海巾实有人口最士要职能管理部门的上海市公安局,在掌握了上海巾 户籍人口信息1 3 5 5 力条和历史信息l1 4 2 万条,人户分离入门信息2 3 0 万条和历 史信息2 2 万条,外省市来沪人员信息5 3 5 万条和历史信息9 2 9 万条,境外来沪 人员信息3 0 万条和历史信息1 1 万条的基础上,十2 0 0 9 午联合各相关职能部门 共同构建j i :推出了上海市实有人i :3 信息管理系统( 一期) ,探索“实有人口全覆 盖”的管理模式【2 。】。该系统在完成公安常住人口信息管理系统改造、居住证信息 管理系统公安分系统升级改造、公安出入境管理信息系统改造和完善的基础上, 鼍 菇 建 华东 | l i 范人学2 0 1 0 心研究生倾上学何论义第。章绪论 整合公安人口信息,建立具有实有人口综合查询、统计分析系统、数据比对、挖 掘和g i s 展现等多功能的公安实有人口综合应用平台,为全市各级公安部l j 实 战服务。它作为实有人口管理的基础平台,为掌握各类人员的动向与历史情况、 家庭社会情况提供了必要的信息资源。实有人口信息管理系统( 二期) 也在展开 之中,丰要内容为公安网与政务网接入平台安全系统及网络系统采购项目。 1 3 选题意义与主要研究内容 1 3 1 选题意义 国内方面对g i s 人u 研究,其应用仍着重于数据扶取、存储、管理和查询检 索的初级阶段,空间分析、预演预报、决策支持功能很低【2 5 1 ;国外商业软件i 2 的先进理念及其方法对人口搜索具有很好的借攀作用,尤其是处理方法、数据分 析模块。人立方与其相类似的网络搜索引擎的提出,更为实有人u 数据挖掘的可 视化方式等提供了新的思路。在人口管理理论化、系统化、网络化的今天,“人 房一致”的实有人口管理概念势必加强了人口与g i s 结合的紧密性与实用性。 本文利用g i s 较强的可视化能力与分析技术,采用一定的数据挖掘模型,借 鉴类似j :人立方的可视化分析与展示平台建立系统原犁,该系统原型的建立给出 一种实现的锥形与数据架构的可能性,对真实人口库中的实有人口数据挖掘、知 识发现与可视化分析等内容具有一定的指导作用,也在一定意义上推进了基于 g i s 的人口数据分析与可视化研究的进程,并对运用该系统原犁为政府各部门提 供服务进行了初步的探索。 1 3 2 主要研究内容 本文存借鉴国内外最新研究成果的基础上,围绕需要探讨并解决的以下几个 内容展丌针对面向实有人口数据挖掘与火系发现的研究工作: ( 1 ) 针对数据源,总结和分析海量实有人口数据的特点,设计实有人口五 要素数据模型,并以此为基础,探讨刖于实有人口关系发现的抽象评价指标以及 对应评分规则的可行性; ( 2 ) 基于实有人口数据模型与评价规则,探索了基于五要素模型的实有人 口数据库表结构的设计方案; 8 华东师范人学2 0 10 “研究生帧l 学何论义第盔绪论 ( 3 ) 对于基于g i s 的实有人口数据挖掘可视化模式进 r 探讨,并按照各模 式的信息表达、模式特点,讨论可行的设计方案; ( 4 ) 在j 2 e e 环境下,采用s t r u t s + s p r i n g + h i b e r n a t e 框架,借用g e o s e r v e r 地图服务,利用存储过程等手段,探索了如何没计基于g i s 的实有人口数据挖 掘可视化系统,并对开发实现实有人口关系发现及其可视化功能进行尝试。 1 4 本论文内容及章节安排 本文将对实有人口数据类型、特点及需求分析进行论证并提取关键要素点, 经过数据清洗与比对,研究要素类型之间的数据必要性与可能性,构建数据模型 与模拟数据库,采用某种算法或适合的数据挖掘方式,提取有关联。忖或比对性数 据以理清“人一关系一人”之问的体系,结合g i s t - 台实现基于b s 的交互体验 与效果展示,将各种模拟数据通过彳、= 同方式分别展示给用广,力求数据的到位、 关系的紧密度、数据展现的多样化等。此外,对所台关联要素进行科学分级,制 定关联度评分标准,通过一定的数据挖掘方法,采用类搜索引擎的方式,获取具 有最大关联度的某些人,并将过程与结果一并显示。 论文匕分五章,各章节安排如下: 第一章绪论。主要提m 本文的研究内容与选题意义,对论文所涉及内容的 研究现状进行阐述与简要说明; 第二章实告人u 数据挖掘与关系发现。本章将针对实有人u 的特点进行分 析与总结,提炼m 数据模型,构建模型中各类关系的评价指标与评分规则等; 第二章基于五要素模型的数据库设计。奉章通过对五要素模型的具体研究 与分析,完成基于该模型的数据库设计: 第四章基y - g i s 的实有人口数据挖掘的可视化模式。本争通过对人口信息 可视化的认识,提出基于g i s 的实有人口数据挖掘可视化模式,并阐述基本设 计思路; 第五亭基。j :g i s 的实有人口数据挖掘与可视化分析系统设计与实现。本亭 提出系统的架构、技术路线、功能设计、数据库设计、页面展示等,打造个可 实现的g i s 实有人u 数据挖掘与关系发现的系统构想,并阐述该系统的主要实 现技术。 第六章总结与展望。本章总结了全文的主要工作与成果,并提出下一步的 计划。 9 华东 | l j 范人学2 0 1 0 艋研究生帧上学位论义第_ 章实古人u 数据模型与父系发现 第二章实有人口数据模型与关系发现 2 1 实有人口及其特点概述 2 1 1 实有人口的概念 “实有人u ”是近两年才开始受到关注的新概念,全国各地对“实有人u ” 定义的范畴基本保持一致。在广东,“实有人口”包括常住人口、流动人口和外 籍人口。上海人口计生委对其下的定义为“当前在上海居住的人口数”,这些非 户籍的流动人u 在城市中或许只是暂住一时,但从整体来看,他们基本保持了城 市人口的动态平衡,不间断地组成巾实有人口的一部分。 由于本论文的研究数据来自上海地区,未米的应用层也将面向上海市。经过 对实有人u 概念的分析与归纳,将上海的实有人u 数总结为常住人u 数与户籍不 在卜海但红卜海短期居住的流动人口数的总和减去户籍红卜海但短期离开卜海 的流出人口数。囚此实有人口管理区别于户籍制度管理,它不仅考虑人在户在、 户在人不在的情况,还要包括人在户不在的人u 集合( 见图2 1 ) ,相对应的人u 管理模式也从户籍制度下的“户籍管人”衍生至实有人口范围下的“以房管人” 模式 2 6 1 。 该巾的人u ( 户籍人口) 厂 户_ i 在 0 ) ; 人一组织关系引发的关系介质集合州h g 表示,s 表示该集合中子关系的个 数: h g = h 9 1 ,h 9 2 ,h 9 3 ,h g 。 ( s 2 0 ) : 人一事关系引发的关系介质集合用h e 表示,z 表示该集合巾子关系的个数: h e = h e i ,h e 2 ,h e 3 ,h e :) ( z 三o ) 。 其中,小写字母表示某一关系介质集合中的子关系,即隶属于该集合中的某 一具体关系介质,m ,n ,p ,s ,z 则只表示关系起始人的每类关系介质集合巾子关系的 可能不档i 司数量。这些集合的汇总 h h ,h a ,h t ,h g ,h e ) 表示为某关系起始人 的所有关系介质集合。当该关系起始人确定以后,该关系介质集合即被确定下来, 它不会因不同关系目标人的变化而发生改变。 2 3 3 人口关系发现的评分规则 在制定关系评分规则前,需要先将2 3 2 中获取到的关系介质集合进 j :适当 的量化处理,以满足评分规则计算的需要。 1 6 华尔! j i l j 范人学2 0 1 0 “研究生硕上学位论文第_ 章实自人u 放槲模型与天系发现 先将火系可成矩阵形式,对于每一种火系介质集合中的了火系元素,每种 集合中的子关系元素,若该关系介质与关系目标人共有,则该介质被定义为数值 l ,若只是关系起始人独有介质,则被定义为数值0 ,即相当于不参加计算。以h h 。 为例,h h l 转化为量化的表达式0 ( h h l ) ,该值域为 0 ,i ) 。 以矩阵r 将关系介质集合转化为量化矩阵。南此可得到以一卜五个值矩阵: r h h2 【0 ( h h l ) ,0 ( h h 2 ) ,0 ( h h 3 ) ,0 ( h h 。) 】( n 0 ) r h a2 【0 ( h a 0 ,0 ( h a 2 ) ,0 ( h a 3 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年成人自考-自考专科(护理学)-自考专科(微生物学与免疫学基础:02864)历年参考题库含答案解析(5套)
- 法律事务面试题目及经验分享
- 2025年副高卫生职称-临床医学类-临床营养(副高)代码:044历年参考题库典型考点含答案解析
- 2025年住院医师规培-黑龙江-黑龙江住院医师规培(胸心外科)历年参考题库含答案解析
- 2025年住院医师规培-青海-青海住院医师规培(核医学科)历年参考题库含答案解析(5套)
- 2025年住院医师规培-青海-青海住院医师规培(临床病理科)历年参考题库典型考点含答案解析
- 2025年住院医师规培-辽宁-辽宁住院医师规培(外科)历年参考题库含答案解析(5套)
- 解析淮安物理面试常见问题及答案
- 2025年住院医师规培-福建-福建住院医师规培(放射科)历年参考题库含答案解析(5套)
- 2025年住院医师规培-甘肃-甘肃住院医师规培(神经内科)历年参考题库含答案解析(5套)
- 三级教育卡、培训记录和花名册
- 拜复乐-产品基础知识
- 生物制品生产工艺过程变更管理技术指导原则
- 建筑施工现场签证单(模板)
- GBZ(卫生) 49-2014职业性噪声聋的诊断
- GB/T 9729-2007化学试剂氯化物测定通用方法
- GB/T 7588.2-2020电梯制造与安装安全规范第2部分:电梯部件的设计原则、计算和检验
- GB/T 13560-2017烧结钕铁硼永磁材料
- 三视图及尺寸标注课件
- 混凝土配合比验证检验委托书模板
- 住房公积金投诉申请书
评论
0/150
提交评论