




已阅读5页,还剩51页未读, 继续免费阅读
(产业经济学专业论文)数据仓库技术在我国住房管理中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
对外经济贸易大学硕士学位论文 摘要 目前,我国政府主要采用管理信息系统对房屋交易、住房档案信息等业务进行管 理。随着业务数据量的增加,系统间缺少横向联系、无法支持决策分析的问题日益突 出。 数据仓库及其相关分析技术是近年来兴起的新的技术热点。它们通过对数据的重 新组织、智能分析,可以快速、准确地从大量数据中提取出有价值的信息,为管理决 策所用。将其引入到住房管理中,无疑对相关信息的开发利用、辅助政府管理决策等 方面,具有藿要的理论价值和现实意义。 本文站在政府房管决策部门的角度,以我国住房市场中的各类信息为研究对象, 提出了将数据仓库技术应用于住房管理的解决方案。首先,提出了面向政府决策的住 房管理数据仓库建设的可行步骤和方法,并给出了具体的分析和设计模型。接下来, 建立了基于住房管理数据仓库的多维数据集,并结合住房管理中的实际问题,给出了 应用多维数集解决问题的思路和方法。最后,提出了使用基于约束的多维关联规则挖 掘算法对购房交易进行分析的方案,建立了相应的挖掘模型,并对关联规则算法在频 集搜索方面进行了改进尝试。 由于我国政府目前在住房管理数据仓库的建设方面仍属于探路阶段,因此希望本 文的研究,能给他们的建设提供一定的参考和借鉴价值。 关键词:住房管理;数据仓库:应用 对外经济贸易大学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ,o u rg o v e r n m e n th a si n t r o d u c e dt h em a n a g e m e n ti n f o r m a t i o ns y s t e mf o r h o u s i n gm a n a g e m e n t ,w h i c ha c h i e v e dg o o dp r a c t i c a lr e s u l t s b u tt h e s es y s t e m sc a l lo n l y m e e tm e i fd a i l yr o u t i n et a s k s s u c ha sq u e r ya n da g g r e g a t i o n i tc a n t p r o v i d eo u r g o v e r m n e n tw i t hs u f f i c i e n ti n f o r m a t i o nf o rd e c i s i o n - m a k i n g t h ep r o b l e mo f k n o w l e d g e p o o r b e c o m e sm o r ea n dm o r es e r i o u sw i 出t h ev o l u m eo f d a t ai n c r e a s e di nt h es y s t e m d a t aw a r e h o u s e ,d a t am i n i n ga n do n l i n ea n a l y s i sp r o c e s s i n ga r eh o tt e c h n o l o g i o s 黜g i n gt h o s ey e a r s t h r o u g hd a t ar e o r g a n i z i n g a n d i n t e l l i g e n ta n a l y s i s , t h e s e t e c h n o l o g i e sc o u l dc a p t u r ev a l u a b l ei n f o r m a t i o nr a p i d l ya n da c c u r a t e l y , w h i c hc a nb ep u t i n t ou s ef o rd e c i s i o n - m a k i n ga n dm a n a g e m e n t s ot h es t u d yo ht h et e c h n o l o g yo fd wa n d r e l a t e da n a l y s i sw i l lb ev e r ys i g n i f i c a n ti nb o t ht h e o r ya n dp l - a c t i t ot h ed e v e l o p m e n ta n d u t i l i z a t i o no fh o u s i n gi n f o r m a t i o n l e s o n t x ) e ,a n dt h em a n a g e m e n ts u p p o r ta n d d e c i s i o n - m a k i n gi nd e v e l o p m e n ta n do p e r a t i o no f h o u s i n gm a n a g e m e n t i nt h i sp a p e r , t a k i n g0 1 1 1 c o u n t r y sh o u s i n gm a r k e ta st h em s c a r c hs u b j e c t , t h ea u t h o rw i l l a n a l y z ea n dd e s i g nf r o mt h eg o v e r n m e n t sv i e w p o i n t , a n dg i v es o m es o l u t i o nf o ro u r c o u n t r y ) sh o u s i n gm o d e r n i z a t i o n i tp u t sf o r w a r dt h ed ws o l u t i o nf o rg o v t x n m e n t s h o u s i n gm a n a g e m e n t ,a n dg i v o st h ei d i o g r a p h i ca n a l y s i sa n dd e s i g n i n gm o d e l i ts e t su pt h e m u l t i d i m e n s i o n a ld a t af o rh o u s i n gd w :a n dg i v e ss u g g e s t i o no nh o wt os o l v et h ep r o b l e m s w i t hi t i tt r i e st om a k es o m ei m p r o v e m e n t so nf r e q u e n c yi t e ms e to fa s s o c i a t i o nr u l e s ,a n d p u t sf o r w a r dt h es o l u t i o no fu s i n gc o n s t r a i n ta n dm u l t i d i m e n s i o n a la s s o c i a t i o nr u l ef o r h o u s i n gd m ,s e tu pt h ed mm o d e l ,a n dg i v et h ea r i t h m e t i cd e s c r i p t i o nf l o wc h a r t k e yw o r d s :h o u s i n gm a n a g e m e n t ;d a t aw a r e h o u s e ;a p p l i c a t i o n 对外经济贸易大学硕士学位论文 第一章绪论 在十五计划当中,我国政府把国民经济信息化专项规划纳入到发展计划中。建设 部为此专门提出和制定了相关计划,要求大力推进住房建设和管理领域信息技术的研 究开发与推广应用。1 本章首先回顾分析了我国住房管理信息化的进程和现状,指出了管理手段和方式 中存在的问题。接下来论述了引入数据仓库技术进行住房管理的意义和必要性所在。 最后,总结了课题领域的国内外研究现状,并简要介绍了本文的主要工作内容。 1 1 课题研究背景 1 1 1 我国住房蕾理信息化现状 从我国住房管理的进程来看,在早期主要采取手工文档化管理。手段落后、资料 丢失损坏严重、查询检索困难;数据资料不准确、不及时、不全面,给城市住房管理 带来了很大的障碍。 随着信息技术的发展,近些年来,许多城市房管局为了提高服务效率和准确率, 都先后使用计算机来辅助办公,不同程度地建立了产权产籍系统、交易系统、租赁系 统、房改系统、产权档案系统等计算机办公系统。这些系统对于提高部门工作效率, 加强信息的收集与整理起到了较好的作用。 但随着系统使用的深入和数据量的增加,系统的缺陷也逐渐显现出来。系统建设 初期缺乏长远的统一规划,各个系统采用不同标准和平台开发,导致系统兼容性差、 数据不能共享;只能满足政府部门日常事务性处理的需求,比如查询、汇总等;系统 缺少对信息多层次、全方位的分析和研究,无法为政府部门进行重要问题决策提供有 效支持。 1 1 2 我国住房警理中存在的问题 与此同时,伴随我国住房货币化改革的进一步深入,加之缺乏科学有效的管理手 段,使得政府在应对住房管理中出现的新问题时,显得更加力不从心。举例来看: ( 1 ) 经济适用房政策落实不到位。国家制定经济适用房政策本意是想给中低收入 家庭予以补贴,以帮助其实现购房意愿。但由于对购房资格的监管、审核缺乏完善的 准则制度,使得大量的经济适用房被富人买走。 江绵恒,共享信息资源,携手迈进数字城市时代,中国国际数字城市建设技术研讨会,2 0 0 1 年9 月 对外经济贸易大学硕士学位论文 ( 2 ) 住宅建设前期预测缺乏科学性。前些年部分地区出现了“房地产热”的现象。 这种情况造成了大量社会资源的浪费,对国民经济的增长产生了较大的负面影响。近 几年,虽然房地产开发投资总体上呈现理性、健康的发展态势,但盲目投资的情况仍 然存在。 ( 3 ) 二手房市场秩序混乱,相关法规和监管手段有待进一步完善。随着国家对二 手房市场的进一步放开,有关交易中的欺诈行为、房屋定价等问题接踵而来。由于信 息严重的不对称,导致欺诈受骗的现象屡屡发生,严重动摇了购买者的消费信心。 这些只是住房管理中存在的诸多问题的掠影。但由此我们却不难得出这样的结 论:那就是政府部门迫切需要采用更加科学和先进的管理手段,来保证和维持其住房 管理市场的各项工作的顺利进行。 1 2 数据仓库技术在我国住房管理中应用的意义和价值 数据仓库( d a t aw a r e h o u s e ,简称d w ) 、数据挖掘( d a t am i n i n g ,简称d m ) 以 及联机在线分析处理( o nl i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) 是近年来继网络 之后兴起的新的技术热点。它们通过对数据的重新组织、智能分析,可以快速、准确 地从大量数据中提取出有价值的信息,为管理决策所用,很好的解决了信息爆炸时代 所引发的数据海量而知识饥渴的矛盾。 将数据仓库及其相关分析技术应用到我国的住房管理领域中,对于政府部门提高 决策水平和能力、改进工作方式、转交职能、提升创新能力都有很好的促进作用,并 且能够为国家带来更加可观的经济效益。 1 2 1 提高决策科学性,节约社会资源 在市场经济条件下,信息的超前预测比以前更加重要。政府决策的正确与否,直 接关系到一个地区发展的快慢。增强决策的科学性和预测性,避免盲目性对于当今政 府的管理部门来说尤为重要。我国曾在九十年代中期出现了部分地区房地产过热的现 象,造成了严重的社会资源浪费,这就与当时政府决策缺乏科学支持有很大关系。 然而,科学合理的决策必须建立在详实准确的数据分析基础之上。而现有的数据 库系统虽然可以高效地实现数据的录入、查询和部分统计等功能,但是无法发现数据 中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。因此无法更好的满 足政府管理者的需要。 作为决策支持系统的核心与基础,数据仓库和数据挖掘技术通过对历史数据进行 综合智能分析,可以发现隐藏在大量数据背后的规律、模式等深层次信息。在这些经 过深度加工处理的信息中,管理者们更容易提取、发现未来需求的走势及变化,进而 更好的辅助领导做出科学的决策。 对外经济贸易大学硕士学位论文 1 2 2 加强监管力度,维护市场稳定 党的十六大报告中指出,政府部门的主要职能之一是进行市场监管,维护其稳定 健康发展2 。市场秩序不规范,或是政府执行过程中的偏颇、疏忽等行为,都将严重影 响居民的消费信心,产生极为恶劣的社会影响,同时也会损害政府在百姓心目中的形 象。然而,政府部门所执行的审查、监管等业务,多是内容繁琐且手续复杂的。如何 保证高效高质量的完成其监管职能,也是政府部门面临的一大难题。 o l a p 是数据仓库技术的主要应用之一,它支持复杂的分析操作,侧重决策支持, 并且提供直观易懂的查询结果。它使管理人员能够从多角度观察数据,并进行快速的 交互式访问。将数据仓库和o l a p 分析技术引入到住房管理决策系统中,无疑能够提 高管理者的工作效率和质量,提高监管审查力度,进而起到维护市场稳定的效果。 1 2 3 为材定法规政策,提供科学依据 随着市场经济的实行,政府的职能将从微观的直接管理转变为宏观的间接管理, 更加强调其统筹规划、政策制定的职能。从这个角度来说,政府需要站在更长远的角 度来考虑问题,熟悉方方面面的情况,总揽全局,知己知彼。具体来说,目前有多少 人的住房还达不到平均水平;未来一个时期还需要建设多少经济适用房、廉租房:住 房补贴、住房公积金发放的标准是什么,是否需要调攘等等。这些都是需要政府部门 进行提前思考和规划的问题。 在提供预测与决策支持方面,数据仓库及其相关分析技术无疑是十分得力的助 手。具体来说,它可以提供给政府管理部门决策所必需的数据。包括:这一时期购房 成交量较大的地区是哪里? 成交的房屋主要来源是什么? 成交的房屋主要是什么类 型? 这些数据的取得是建立在对住房信息从时间、房屋位置、房屋结构、房屋来源、 建筑面积等多个维度同时观察后取得的。在多维分析的基础之上,通过数据挖掘帮助 政府部门预测下一阶段住房的需求走向。具体包括:哪些人可能在近期有购房倾向, 购房热点主要集中在哪个地区、哪类户型上等等。 由此可见,数据仓库技术的引入,可以使得政府在进行住房管理时手段更加合理, 前期预测更加科学准确。在节省人力物力等资源的同时,提高了办事效率和公正性, 有利于在百姓中树立良好形象。 虽然本文是以x 市政府部门的信息服务需求为背景进行研究的,但研究成果对整 个行业都有很好的适应性和扩展性。本文为我国政府部门建设住房管理决策类数据仓 库系统提供了一定的参考借鉴价值。 2 党的十六大报告全面建设小康社会,开创中国特色社会主义事业新局面,2 0 0 2 1 1 对外经济贸易大学硕士学位论文 1 3 课题领域的国内外研究现状 1 3 1 数据仓库研究现状 从数据仓库概念的提出到今天不过十几年,但却已经被业界越来越多的人所关 注。目前国外的数据仓库研究机构主要有:t h ed a t aw a r e h o u s ei n s t i t u t e ( t d w i ) 、 t h ei n t e r n a t i o n a ld a t aw a r e h o u s ea s s o c i a t i o n ( i d w a ) 。主要的数据仓库开发商主 要有:o r a c l e 、s y b a s e 、i n f o r m i x 、m i c r o s o f t 、i b m 等。美国斯坦福大学数据仓库研 究组,被称为是数据仓库研究中学院派的代表,在数据仓库的理论与实践中,该课题 组在国际学术会议和核心刊物上发表了很多有影响的论文。他们正在进行的数据仓库 项目 i h i p s ( w a r e h o u s ei n f o r m a t i o np r o t o t y p ea ts t a n f o r d ) 是目前进行的规模最大 的数据仓库原型研究。 国内对数据仓库的研究起步稍晚,目前主要是一些大学和研究所在进行研究。中 国人民大学信息学院的院长王珊教授是我国从事数据仓库研究较早的学者之一。她发 表了多篇数据仓库方面的著作,其中数据仓库技术与联机分析处理一书是国内开 设该课程的学校的首选经典教材。 纵观国内外对数据仓库的研究,其基本理论研究( 包括概念、特点、及其逻辑体 系结构方面) 已经趋于成熟,在业界基本达成了共识。当前的研究主要集中在对其关 键技术的研究上,比如:数据仓库的体系结构、数据抽取、数据集成等方面。 1 3 2 数据仓库应用现状 数据仓库的发展一直是面向应用的。从概念的提出到今天,数据仓库已经达到了 t b 级的发展规模。它的应用领域遍及银行、电信、航空、铁路、制造、保险等行业。 国外的i b m 、o r a c l e 、s a s 、i n f o r m i x 等公司都相继推出了自己的数据仓库解决方案。 虽然国内的很多研究机构也在从事数据仓库技术的研究,但到目前为止,基本没有形 成自己独特成熟的解决方案。 国外对这一技术的应用已经相当广泛。据有关资料表明,在2 0 0 0 年全球财富杂 志5 0 0 强名单中,有近5 0 的企业已经实施了企业级的数据仓库或部门级的数据集市。 虽然我国的数据仓库技术起步较晚,但也已经在银行、电信、证券、金融等行业取得 了不小的成绩。例如中国民航信息网络公司和上海证券中央登记结算公司已经成功实 施了t b 级的数据仓库系统。 纵观国内数据仓库技术的应用现状,面向政府部门住房管理领域进行应用研究的 实例几乎还没有。从可以查到的相关资料来看,对该领域的理论研究的文献也不足十 篇。因此可以得出,对数据仓库技术在住房管理领域中的应用研究具有十分紧迫和重 对外经济贸易大学硕士学位论文 要的现实意义。 1 4 课题研究的对象、方法和主要工作 1 4 1 课题研究的对象和范围 本文站在政府房管决策部门的角度,以我国住房管理市场中的各类信息为研究对 象。探讨如何利用数据仓库、联机分析处理和数据挖掘技术对住房管理中产生的数据 资源进行规划、整合和深度加工的问题。具体包括住房管理数据仓库的建立和相关分 析工具在管理和决策中的应用研究。 1 4 2 课题研究的方法 本论文的题目是:数据仓库技术在我国住房管理领域中的应用研究。它的重点体 现在数据仓库及其相关分析技术在实际领域中的应用价值,即对我国住房管理部门的 实际应用贡献。本文的研究是一个从原始事务数据通过数据处理最后得到相关模型的 横向课题研究,也是理论与实践结合的所在。 本文首先将通过查阅文献、实戆调查等方法,迸一步了解和捕获了政府房管部门 的切身需求。使得在数据仓库建设主题上,能够更加符合现实要求。在整体结构上采 用演绎的方法进行研究,将数据仓库和数据挖掘模型构建的一般原理应用到住房管理 系统的具体实际之中。在数据仓库的整个设计过程中,还将运用系统分析和设计的方 法,从需求到逻辑设计再到物理设计逐步展开。在具体设计过程中,将使用e _ r 图、 星型模型、v i s i o 等分析和设计工具。 1 4 3 课题研究的塞要工作 本文的具体研究工作将主要包括: ( i ) 研究数据仓库的基础理论知识,熟悉数据仓库的基本概念、体系结构和开发 流程。研究数据仓库应用技术,包括:数据挖掘、o l a p 的理论,以及与数据仓库的关 系。 ( 2 ) 研究面向政府应用的住房臀理数据仓库设计、建立的可行步骤。包括:整体 实施策略、体系结构设计、数据的抽取转换加载,元数据的管理,粒度模型和聚集模 型,三级数据模型设计。 ( 3 ) 研究o l a p 技术在住房管理分析中进行实施和应用的特点。研究o l a p 在住房 管理数据仓库中具体应用的实现过程。将重点结合“申请购买经济适用房者的资格审 批;二手房交易中的房屋合法性检查等应用进行研究分析。 对外经济贸易大学硕士学位论文 ( 4 ) 针对政府的实际需求和住房管理数据仓库中的数据特点,建立基于约束的多 维关联规则挖掘模型,用于购房交易分析。该模型将对a p r i o r i 算法在项集连接的操 作上进行改进尝试。 对外经济贸易大学硕士学位论文 第二章数据仓库及其相关分析技术的理论综述 本章主要对数据仓库及其相关分析技术,包括o l a p 和数据挖掘技术的理论和相 关概念进行研究和探讨,并对三者之间的关系进行讨论。为下一阶段住房管理数据仓 库的建立奠定理论基础。 2 1 数据仓库技术 2 1 1 数据仓库技术发展的由来 数据库系统是近4 0 年来发展起来的学科,属于计算机软件的一个分支。它是用 来满足多种类型终端用户需要的相关数据的共享集合。这种数据的存储不依赖使用它 的程序,添加、修改和查询数据都有很周密的控制机制。这种数据结构为实际应用开 发提供了一个扎实的数据基础。当前,企业所使用的管理信息系统基本都是以数据库 为后台支持的。 然而,随着市场竞争的日益加剧和社会信息化需求的不断发展,从大量的数据中 提取更具价值的决策信息显得越发重要。这种需求既要满足联机服务,又要涉及大量 用于决策的数据,而传统的数据库系统显然已经无法满足这种需求了。具体体现在三 个方面: 系统生成的历史数据量很大; 辅助决策信息涉及许多部门和组织,这些数据可能来自不同系统很难集成; 由于访问数据的能力不足,它对大量数据的访问性能明显下降: 随着c s 技术、b s 技术的成熟以及并行数据库、分布式数据库的发展,信息处 理技术的发展趋势是:从大量事务性数据库中抽取数据,并将其清理、转换为新的存 储格式,即为实现决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完 善,这种支持决策的、特殊的数据存储即被称为d w ( d a t aw a r e h o u s e ,数据仓库) 。3 2 1 2 数据仓库的定义 o e v l i n 和m u r p h y 在1 9 8 8 年发表了关于数据仓库的最早文章。而著名的数据仓库 专家w i l l i a m h i n m o n 在1 9 9 3 年所写的论著 b u i l d i n gt h ed a t aw a r e h o u s e 中, 则第一次全面系统的对数据仓库的思想、理论进行了阐述。 “数据仓库是一个面向主题( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、随时间 变化的( t i m ev a r i a n t ) 、非易失性的( n o n - v o l a t i t e ) 数据集合,用于支持管理决策。 3a l a n b v n a n d d r & b a r b a r ab c n a n d c f & a d a m f a d l a l a & g r c 9 0 r yl a m e sd a t aw a r e h o u s e a d m i n i s t r a t i o na n d m a n a g e x n e n t ( ( i n f o r m a t i o ns y s t e mm a n a g e m e n t ) 对外经济贸易大学硕士学位论文 4 ”这就是被称为数据仓库之父的w i l l i a m h i n i n o n 对数据仓库所下的定义,也是堪称 经典的定义。在这个定义中,w h i n m o n 对数据仓库的特征进行了概括,即:面向主 题、数据集成、反映历史变化的、相对稳定的。 针对数据仓库的概念,我们可以从两个层次进行理解。第一,数据仓库是用于支 持管理决策的,面向分析型数据处理。不同于现有m i s 系统中的操作型数据;第二, 数据仓库是对多个异构数据源的有效集成,然后依据主题进行重新组织,并包含有历 史数据,且般存入的数据不再修改。 具体来说,数据仓库的四方面特点解释如下: 面向主题。面向主题性反映了数据仓库中数据组织的基本原则。从信息管理的角 度看,主题就是在一个较高的层次上,对数据的综合、归类。这些数据组织在一起, 用来共同描述一个对象。从数据组织角度看,主题就是一些数据集合,这些数据集合 对分析对象进行了比较完整、一致的数据描述。这种描述不仅涉及数据本身,还涉及 数据之间的联系。 集成性。数据仓库的集成性,表明在进行使用之前,要对数据源进行加工,包括 抽取、转换、清洗等步骤,以消除异构数据,保证数据的一致性和数据质量,使数据 仓库中的数据具有集成性。 时变性。数据仓库的时变性是指数据应该随着时间的变化而相应变化。一般数据 仓库中都要有对时间进行标识的数据项,按月或周对数据进行更新。 稳定性。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数 据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓 库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 2 1 3 数据仓库与数据库的区别 从发展来看,数据库技术的成熟无疑为数据仓库的发展起到了很好的推动作用, 是数据仓库的理论和实践基础。但由于他们所服务的目标不同,使得二者在很多方面 还是存在区别的。这里,对数据库和数据仓库的区别作一对比。 从存储内容看,数据库中存放当前值,而数据仓库中存放的是历史的、存档 的、归纳的、计算的数据。 数据库的管理目标是支持日常的业务性操作,而数据仓库则是面向主题、用 于管理决策的。 数据库的访问频率高但访问数据的薰少,而数据仓库的访问频率相对较低, 访问数据量却很大。 数据库对响应时间要求很高,一般以秒为单位计量,而数据仓库的响应时间 则可能长达几小时。 4w i l l i a m h i n m o n ,( b u i l d i n g t h e d a t a w 砌o u s e ,1 9 9 3 对外经济贸易大学硕士学位论文 2 1 4 数据仓库中的基本概念 ( 1 ) 数据提取( d a t ae x t r a c t i o n l 。数据仓库是按照主题进行组织的,在业务数据 库中存储的数据并不都是决策所需要的。因此,我们需要从中提取出决策所需要的那 一部分,这一过程被称为数据的提取。 ( 2 ) 数据清洗( d a t a c l e a n i n g ) 。由于数据源可能来自多个不同的业务系统,因此 可能会导致数据不一致现象。为了避免影响决策结果的正确性,需要对数据进行清洗。 即将数据中的错误、不一致等问题在进入数据仓库之前予以更正。 ( 3 ) 数据转化( d a t at r a n s f o r m a t i o n ) 。由于各种类型的数据库提供的数据类型 可能会不同,因此要将不同的格式进行转化,才能进入数据仓库中。 ( 4 ) 元数据( m e t ad a t a ) 。元数据是关于数据的数据。它对数据仓库中的各种数 据进行详细的描述与说明,解释每一个数据的上下文关系,使得每一个数据具有符合 现实的真实含义。按照无数据所承担的任务,可将其分为静态元数据和动态元数据两 大类。静态元数据与数据结构有关,包括名称、描述、格式、数据类型、关系、业务 规则等。动态元数据主要与数据的状态和使用方法有关,包括数据质量、统计信息、 状态和处理等。 2 1 5 数据仓库的建立过程 我们常说:数据仓库系统是一种解决问题的过程,而绝不是一个可以买到的现成 产品。针对业务人员不懂技术,不清楚该如何建立数据仓库发挥其决策作用,而技术 人员又对企业的业务知之甚少的情况,数据仓库的开发过程应该是一个双方不断交 流、反馈和协商的过程。从统一软件开发过程的角度来看,数据仓库系统的设计开发 应该算是一种迭代的、增量式的不断往复、不断丰富和不断前进的过程5 。 按照生命周期法,可以将数据仓库的开发阶段大致分为三个阶段,即规划分析、 设计实施和使用维护,见图2 1 。 数据仓库的规划分析阶段工作主要包括:调查、分析数据环境,确定开发需求; 建立各类实体关系图、星型模型、元数据模型等,并确定数据仓库主题和概念模型, 根据概念模型开发数据仓库的逻辑模型。 数据仓库的设计实施阶段的工作主要包括:根据逻辑模型设计物理模型结构;为 数据仓库的每一个目标列确认数据抽取、转换与加载的规则:进行数据的装载和测试 等。 数据仓库的使用维护阶段的工作主要包括:培训人员,使用数据仓库,并进一步 根据反馈意见调整和完善系统,对数据仓库进行维护。 5g p m mp m n k u m a ri n t c a v e g a n i z a t i o ns y s t v ma n ds u p p l yc h a i nm a n a g e m e n t :a ni n f o m m t l o np r o c e s s i n gp e r s p e c t i v e 对外经济贸易大学颁士学位论文 图2 1 数据仓库开发过程图 资料来源:陈京民,数据仓库原理、设计与应用,中国水利水电出版社,2 0 0 4 2 2 0 l p 技术 数据仓库侧重于存储和管理面向决策主题的数据,它无法直接向管理者提供决策 支持,必须借助于相关的分析和应用工具。o l a p 和数据挖掘是数据仓库的主要应用 技术。它们阻数据仓库提供的数据平台为基础,对数据进行全面的分析和深层次的知 识挖掘。 在接下来的两节中,将主要研究数据仓库的两种应用技术:o l a p 和数据挖掘的 相关理论。 2 2 1 0 l a p 的由来和定义 o l a p 是联机在线分析处理( o nl i n ea n a l y t i c a lp r o c e s s i n g ) 的英文缩写,是 一个得到广泛应用的数据仓库使用技术,最早由关系数据库泰斗之一的e f c o d d 在 1 9 9 3 年提出的。当时,c o d d 认为o l t p ( o nl i n et r a n s a c t i o np r o c e s s i n g ,联机事 务处理) 已不能满足终端用户对数据的查询需要了。用户的分析决策需要对数据进行 对外经济贸易大学硕士学位论文 大量的计算才能得到,而使用s q l ( s t r u c t u r e dq u e r yl a n g u a g e ,结构化查询语言) 所进行的简单查询已经远远不能满足决策者的需求。 对0 l a p 的定义也存在多种,以下列举两个: 定义一:o l a p 是针对特定问题的联机数据访问和分析。通过对信息( 维数据) 的 多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据 进行深入观察。 定义二:o l a p 是使分析人员、管理人员或执行人员能够从多种角度对原始数据中 转化出来的、能够真正为用户所理解的、并真实反映企业维特征的信息进行快速、一 致、交互地存取,从而获得对数据的更深入了解的一类软件技术。( o l a p 委员会的定 义) 综合分析以上两个定义,虽然表达方式不同,但都准确的揭示了o l a p 的特点和 核心所在。o l a p 用于支持复杂的决策分析,根据分析人员的要求,迅速、灵活的对大 量数据进行复杂的查询处理,并且以直观的、容易理解的形式将查询结果提供给决策 人员。 该技术有两个主要特点;一是在线性( o nl i n e ) ,可以对客户的请求做出快速及 时地响应和交互式操作;二是多维分析( m u l t i _ a n a l y s i s ) ,这也是o l a p 技术的核心 所在。这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。因此,利 用o l a p 技术与数据仓库很好的结合,可以跟好的发挥数据仓库系统面向分析决策的 功能所在。 o l a p 的十二条评价准则。关系模型之父c o d d 曾经就选择o l a p 工具提出了十二条 准则6 :多维概念视图准则、透明性准则、存取能力准则、稳定的报表性能、客户服 务器体系结构、维的等同性准则、动态的稀疏矩阵处理准则、多用户支持、非限制性 的跨维操作、直观的数据操纵、灵活的报表生成、维数和层级层次不受限制。这十二 条准则并不是绝对不变的,在不同厂家之间存在差别和争议,但在实际选择中则具有 十分重要的参考价值。 2 2 2 0 l a p 的几个基本概念 ( 1 ) 维:维是人们观察事物的个特定角度。超市的管理人员可以从商品、供货 商、顾客等角度来分析企业的经营状况,这些决策分析的出发点就是数据仓库中的维。 数据仓库中的数据就是按照这些维来组织的,维也就成为了数据仓库中识别数据的索 引。 ( 2 ) 维的层次:数据仓库中的维,一般具有水平层次和垂直层次。水平层次由维 度层次中相同级剐的字段值构成;垂直层次则由维度层次结构中具有不同级别的字段 构成。 6e e c o d d ,s b c o 甜,c t s a l l e y , p r o v i d i n g o l a p ( o n - l i n e a n a l y 6 c a l n 煅i n g ) t o u s e r a n a l y s t s , p c w o r l d1 9 9 3 对外经济贸易大学硕士学位论文 ( 3 )维成员:维的一个取值称为该维的一个维成员,如果维已经分成了若干个维, 那么维成员就是不同维层次取值的组合。例如,我们考虑时间维具有日期、月份、年 这三个层次,分别在日期、月份、年上各取一个值组合起来,就得到了时间维的一个 维成员。当然,维成员不一定在每个维层次上都取值,如“某月某日”也是时间维的 维成员。 ( 4 ) 多维数据集:多维数据集是决策支持的支柱,也是o l a p 的核心,也被称为立 方或超立方( c u b e ) 。它可以用一个多维数组( 维l ,维2 维n ,观察变量) 的方 式来表示。例如,( 时间,地点,位置,销售数据) 就是一个经典的多维数据集。 2 2 3 多维数据分析的基本方法 多维分析是指对多维数据集中的数据使用切片、切块、旋转等方法,来剖析数据, 使最终用户能够从多角度、多侧面地去观察数据仓库中的数据。 ( 1 ) 切片( s l i c e ) :对多维数据集中的某一个维选定一维成员的操作称为切片。 比如,多维数据集( 维1 ,维2 ,维i ,维n ,观察变量) ,在维i 上选定 了某个维成员,那么( 维1 ,维2 ,维i 成员,维n ,观察变量) 就是多维 数据集( 维1 ,维2 ,维i ,维n ,观察变量) 在维i 上的一个切片。 ( 2 ) 切块( d i c e ) :在一个多维数据集上对两个及两个以上的维选定维成员的操 作称为切块。因此,( 维l ,维2 ,维i 成员,维k 成员,维n ,观 察变量) 就是多维数据集( 维l ,维2 ,维i ,维k ,维n ,观察变 量) 在维i ,维k 上的一个切块。当i = k 时,切块操作就等同是切片。 ( 3 ) 旋转:是将多维数据集中的不同维进行交换的操作。它能够方便用户更加 直观的对数据集中的不同维之间的关系进行观察。 ( 4 ) 钻取:钻取操作包括上卷( r o l l _ u p ) 、下钻( d r i l l 一d o w n ) 、钻过 ( d r i l l 一a c r o s s ) 、钻透( d r i l l t h r o u g h ) 等。上卷是沿某一维的概念分层向上归约; 下钻是上卷的逆操,它是沿某一个维的概念分层次向下来实现。 2 3 数据挖掘技术 2 3 1 数据挖掘技术的由来和发展 数据挖掘出现于2 0 世纪8 0 年代末,最早是以从数据库中发现知识( k d d , k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 研究起步的。k d d 一词首先出现在1 9 8 9 年人工 智能国际会议上,以后这一研究逐渐成为热点。由于这项研究对象的扩展,人们将其 更多地称为数据挖据。1 9 9 5 年,在加蒙特利尔市召开了第一届知识发现与数据挖掘国 际会议,以后每年举办一届。我国从事数据挖掘的研究起步较晚大约在9 0 年代中期。 对外经济贸易大学硕士学位论文 近年来许多高校和研究机构都涉足这一领域,并取得了一定成绩。 2 3 2 数据挖掘的定义 对于数据挖掘的定义,存在多种版本,以下列举几个。 根据g r o s s m a n 对数据挖掘的定义,数据挖掘就是从数据中发现肉眼难以发现的 固定模式或异常现象。它遵循基本的归纳过程将数据进行整理分析,并从大量数据中 提取出有意义的信息和知识。 从商业角度来看,数据挖掘可以理解为一种商业信息处理技术,其目的是对大量 商业数据进行抽取、转换、分析和其他模型化处理,从而提取辅助商业决策的关键数 据信息。 数据挖掘也可以当作是从一个海量数据中探索数据间的关系、利用各种分析工具 构建数据分析模型、并发现隐藏于数据之中的知识的过程。 虽然,数据挖掘的定义有多种,表达方式也略有不同,但本质却都是一样的。具 体来说它是指:从大量的数据( 包括结构和半结构化) 中提取有用的信息和知识的过 程。在这个过程中,要求数据源是大量、真实、含有噪音的;所发现的信息和知识是 潜在的并隐藏在大量数据背后的,使用户感兴趣的,可理解、可运用的知识。 2 3 3 数据挖掘的分类 ( 1 ) 从大类来讲,数据挖掘技术可以分为两类7 。一种是以统计分析技术为基础 的传统的数据挖掘技术,另一类是基于现代机器学习技术的知识发现体系。 传统的数据挖掘技术中主要使用的数据分析技术包括:线性分析和非线性分析、 回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最临近算法和 聚类分析等。用户从数据库中筛选出适当的数据,然后利用这些统计分析工具来寻找 数据之间的关系,并通过构造数学模型来解释它们。通过迭代过程找到最合理的模型, 将数据转化为信息。 现代数据挖掘技术是从数据库中知识发现技术( k d d ,k n o w l e d g ed i s c o v e r vi n d a t a b a s e ) 的研究起步的。知识发现是从大量的数据中提取出可靠的、新颖的、有效 的信息的高级处理过程。从规则方法的角度可将其分为关系型规则发现、序列模式发 现、分类发现和群集发现。通过寻找大量数据背后隐含的模式信息,检查趋势并发掘 出潜藏的规律,进行模式和关联性识别,是知识发现中的关键技术。 ( 2 ) 数据挖掘按照功能一般又可以分为描述和预测两类。描述性挖掘信息主要 用来刻画数据集合的一般特征。它包括:概念描述分类、关联分析、聚类等。预测性 挖掘则是根据当前数据进行分析推算,从而达到预测的目的。它包括:分类、回归分 7 陈京民,数据仓库原理、设计与应用,中国水利水电出版社,2 0 0 4 ,p 1 6 8 页 对外经济贸易大学硕士学位论文 析、时序演变分析等等。 ( 3 ) 几种常用数据挖掘方法介绍 分类( c l a s s i f i c a t i o n ) 。分类是找出描述并区分数据类或概念的模型,以便能 够使用模型预测类标记未知的对象类的过程。它的处理步骤是:获得训练集数据;定 义类标识:分析训练集数据;生成分类描述模型;用得到的模型对目标数据进行分类。 常用的数据分类算法包括c 4 5 ,r i p p e r 等。它经常应用于信用评分、医疗诊断等。 聚类( c l u s t e r i n g ) 。聚类通过分析数据对象产生类标记,形成一个个的簇。一 个好的聚类方法要能产生高质量的聚类结果簇。这些簇必须具备如下两个特点: 高的簇内相似性和低的簇问相似性。常用的聚类分析算法如c l a r a n s ,b i r c h 等。它 经常应用于图像处理、模式识别、市场研究等领域。 演变分析。数据演变分析描述行为随时问变化的对象的规律或趋势,并对其建模。 它包括时间序列数据分析、序列或周期模式匹配和机遇类似性的数据分析。常用序列 分析算法有a p r i o r i s o m e ,d y n a m i c s o m e 。 2 4 数据仓库、0 l a p 、数据挖掘之间的关系 2 4 i o l a p 与数据挖掘的区别和联系 o l a p 和数据挖掘都是进行数据分析的有效工具和手段,但他们之间首先是有本质 性的区别的。 数据挖掘是一种挖掘性质的数据分析,它能自动地发现隐藏在数据背后的规则和 关联,并利用这些模式进行预测。o l a p 是一种验证性质的数据分析。用户提出一种假 设,o l a p 按照自上而下、由表及里的方式对相关数据进行分析,帮助用户判断假设的 合理性。 从本质来讲:数据挖掘是一个归纳的过程,通过这个归纳从数据库中找到隐含的 数据模型。而o l a p 是一个演绎推理的过程,推理是首先建立一系列假设,然后通过 o l a p 证实或推翻这些假设得到的结论。 虽然数据挖掘与o l a p 有着本质的区别,但在实际应用时二者却有着很强的互补 性。数据挖掘能够发现o l a p 不能发现的更为隐蔽的问题,而o l a p 能够快速准确的帮 助决策者分析出过去的情况,有助于更好的理解数据,加快知识发现的过程,并迅速 验证数据挖掘的结果的合理性。 2 4 2 数据仓库与数据挖掘的关系 数据仓库与数据挖掘技术是密不可分的。数据挖掘为数据仓库提供了有效地分析 处理手段,数据仓库为数据挖掘准备了良好的数据源。数据挖掘的对象不一定是数据 对外经济贸易大学硕士学位论文 仓库,但基于数据仓库的数据挖掘可以提高挖掘的效率和质量。首先来说,数据挖掘 必须要对数据进行抽取、清洗、转换和装载,这个过程很耗时。而数据仓库已经做好 以上工作,就能避免挖掘时每次对数据进行抽取、清洗等。其次,数据仓库的数据是 按主题组织的,这为数据挖掘选择合适的数据源提供了方便。另外,数据库不能存放 历史数据,因此直接在数据库中挖掘,许多知识无法挖掘出来。 2 4 3 小结 数据仓库与数据挖掘和o l a p 一起构成了决策支持系统解决问题的框架。这里, 我想可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件最后的文案句子
- 历史品德考试题及答案
- 理论考试题型及答案
- 广东工作分析自考试题及答案
- 广东法学专业自考试题及答案
- 考点攻克自考专业(小学教育)试题附完整答案(夺冠系列)
- 课件时间轴链接
- 客服岗前考试题及答案
- 柯坪物业考试题及答案
- 供热管网系统运行工协作考核试卷及答案
- 地砖铺贴分包合同协议书
- 2025年山东省青岛市中考英语真题
- 煤矿智能掘进员内部技能考核试卷及答案
- GB/T 45340-2025金属及其他无机覆盖层镀层厚度的测量斐索多光束干涉法
- 离婚协议书正规打印电子版(2025年版)
- 2025年高中学业水平合格性考试政治模拟试卷试题(含答案解析)
- 《 大学生军事理论教程》全套教学课件
- 合同范本欠款
- 大学生团支书竞选PPT模板
- 建筑防火设计-教学课件作者-主编-李耀庄-徐彧-建筑防火设计课件
- (高职)成本核算与管理完整版教学课件全套电子教案
评论
0/150
提交评论