




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)基于多维数据模型的在线查询系统的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文 摘要 本文以北京市出租车决策支持系统为背景,利用数据仓库及o l a p 多维分析等 相关技术,对出租车营运数据这个主题进行了比较全面、深入地分析与研究,设计 实现了一套以营运数据为主题的基于多维数据模型的在线查询系统。 首先介绍了查询系统的发展历史、相关技术和国内外发展现状。重点完成了多 维数据模型设计中主题范围的确立、度量值的选取及问题分析角度( 维度) 的选取 等方面的工作;采用了m o l a p 模式的存储方式,在充分分析用户需求的基础上, 设计实现了基于多维数据模型的、操作简单、维度结构清晰的查询系统。 关键词:数据仓库,在线分析处理,多维数据模型,多维联机分析处理一 b a s e do nt h ed e c i s i o ns u p p o r ts y s t e mo ft a x i si nb e i j i n g ,t h ep a p e rm a k e sa r e l a t i v e l yc o m p r e h e n s i v ea n dd e e pa n a l y s i sa n ds t u d yo ft h es u b i e f to ft a x i s o p e r a t i o n d a t ab yu s i n gr e l e v a n tt e c h n i q u e so fd a t aw a r e h o u s ea n d0 l a pm u t i d i m e n s i o n a l a n a l y s i s t h ep a p e rd e s i g n sa no n 1 i n eq u e r ys y s t e mb a s e do nt h em u l t i d i m e n s i o n a ld a t a m o d e lw h i c ht a k e so p e r a t i o nd a t aa st h es u b i e c t t h ep a p e rf i r s ti n t r o d u c e st h eh i s t o r yo ft h ed e v e l o p m e n to ft h eq u e r ys y s t e m ,t h e r e l e v a n tt e c h n i q u e s ,a n dt h es t a t u sq u oo ft h ed o m e s t i ca n do v e r s e a sd e v e l o p m e n to ft h e s y s t e m t h e n ,t h ep a p e rg i v e s ad e t a i l e da n a l y s i so ft h er a n g eo ft h es u b j e c t ,s e l e c t i n gt h e m e a s u r ev a l u ea n dt h ep r o b l e ma n a l y s i sa n g l e ( d i m e n s i o n ) o ft h em u l t i d i m e n s i o n a ld a t a m o d e l b a s e do nad e t a i l e da n a l y s i so ft h er e q u i r e m e n t so ft h eu s e r s ,t h ep a p e r , b y a d o p t i n gt h es t o r a g em e t h o do fm o l 心m o d e ,d e s i g n st h eq u e r ys y s t e mt h a ti sb a s e do n m u l t i d i m e n s i o n a ld a t am o d e lw i t hs i m p l eo p e r a t i o na n dc l e a rd i m e n s i o n a ls t r u c t u r e w a n gq i a n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db ya s s o c i a t ep r o f q il i n h a i k e yw o r d s :d a t aw a r e h o u s e ,o l a p ,m u l t i - d i m e n s i o n a ld a t am o d e l ,m o l a p 华北电力大学硕士学位论文 摘要 本文以北京市出租车决策支持系统为背景,利用数据仓库及o l a p 多维分析等 相关技术,对出租车营运数据这个主题进行了比较全面、深入地分析与研究,设计 实现了一套以营运数据为主题的基于多维数据模型的在线查询系统。 首先介绍了查询系统的发展历史、相关技术和国内外发展现状。重点完成了多 维数据模型设计中主题范围的确立、度量值的选取及问题分析角度( 维度) 的选取 等方面的工作;采用了m o l a p 模式的存储方式,在充分分析用户需求的基础上, 设计实现了基于多维数据模型的、操作简单、维度结构清晰的查询系统。 关键词:数据仓库,在线分析处理,多维数据模型,多维联机分析处理一 b a s e do nt h ed e c i s i o ns u p p o r ts y s t e mo ft a x i si nb e i j i n g ,t h ep a p e rm a k e sa r e l a t i v e l yc o m p r e h e n s i v ea n dd e e pa n a l y s i sa n ds t u d yo ft h es u b i e f to ft a x i s o p e r a t i o n d a t ab yu s i n gr e l e v a n tt e c h n i q u e so fd a t aw a r e h o u s ea n d0 l a pm u t i d i m e n s i o n a l a n a l y s i s t h ep a p e rd e s i g n sa no n 1 i n eq u e r ys y s t e mb a s e do nt h em u l t i d i m e n s i o n a ld a t a m o d e lw h i c ht a k e so p e r a t i o nd a t aa st h es u b i e c t t h ep a p e rf i r s ti n t r o d u c e st h eh i s t o r yo ft h ed e v e l o p m e n to ft h eq u e r ys y s t e m ,t h e r e l e v a n tt e c h n i q u e s ,a n dt h es t a t u sq u oo ft h ed o m e s t i ca n do v e r s e a sd e v e l o p m e n to ft h e s y s t e m t h e n ,t h ep a p e rg i v e s ad e t a i l e da n a l y s i so ft h er a n g eo ft h es u b j e c t ,s e l e c t i n gt h e m e a s u r ev a l u ea n dt h ep r o b l e ma n a l y s i sa n g l e ( d i m e n s i o n ) o ft h em u l t i d i m e n s i o n a ld a t a m o d e l b a s e do nad e t a i l e da n a l y s i so ft h er e q u i r e m e n t so ft h eu s e r s ,t h ep a p e r , b y a d o p t i n gt h es t o r a g em e t h o do fm o l 心m o d e ,d e s i g n st h eq u e r ys y s t e mt h a ti sb a s e do n m u l t i d i m e n s i o n a ld a t am o d e lw i t hs i m p l eo p e r a t i o na n dc l e a rd i m e n s i o n a ls t r u c t u r e w a n gq i a n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db ya s s o c i a t ep r o f q il i n h a i k e yw o r d s :d a t aw a r e h o u s e ,o l a p ,m u l t i - d i m e n s i o n a ld a t am o d e l ,m o l a p 士= i明明 本人郑重声明:此处所提交的硕士学位论文基于多维数据模型的在线查询系 统的研究与应用,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行 的研究工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名:丢琵2 日 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校 可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同 媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 日 期:日期:乡2 :至:f2 华北电力大学硕士学位论文 1 1 查询系统的发展过程 第一章引言 今天,计算机在信息管理中的应用正从单项事物处理转向系统应用,从辅助一 般管理转向辅助管理决策,从局部管理转向全局管理,并实现了计算机的集成应用。 信息查询系统是企业信息发布中非常重要的一环。在信息系统的数据库中存储着大 量的技术、经济、生产、人事、设备和市场等信息,要从中快速方便的查到所需要 的信息,是信息查询系统的基础。现在随着i n t e r n e t 的发展,人们已经将查询的范 围扩展得越来越广,也越来越希望及时获得最大范围内的信息【u 。 在计算机时代的早期,查询系统均属于单机上的、零散的、孤立的系统。无论 是用户界面、查询程序还是数据库系统都在同一台机器中。在查询程序的用户界面 中,用户输入要查询的条件,程序在数据库中按顺序进行检索,找出符合条件的结 果,然后将结果返回给用户。这种方法很简单易用,也比手工做同样的工作快得多。 但随着时间的推移,由于人们输入的信息越来越多,电子表格越来越庞大,结果使 得用户的要求开始有所转变了。 在c s 模式的信息查询系统中,查询程序被分成两部分喀户端应用程序和 服务器端应用程序。用户在客户端程序中提出查询请求,接着请求被客户端程序发 送到服务器端;服务器端的程序根据收到的请求信息在数据库中进行查找,并将符 合条件的结果返回给客户端程序,最后客户端程序将结果显示在输出设备上,供用 户查阅。c s 查询模式如图1 - 1 所示。 i 戮 反坯耳咧绡水 。 s e r v e r 返回查询结果 服务器端 图1 - 1 哪查询模式图 通过这种方式,节省了信息资源,多个用户可以共享一台服务器上的数据。但 随着使用的深入,人们发现在使用c s 模式的信息查询系统中,需要在所有使用该 系统的机器上安装并配置客户端程序,这比较复杂并难于维护,而且当需要升级时, 必须对每台客户机进行改变。同时操作系统和安装在客户机上的其他软件的版本变 化,都会频繁地与客户端程序发生冲突。 随着计算机的广泛应用和网络技术的飞速发展,很多企业都组建了企业内部网 i n t r a n c t 。这些内部网一般采用t c p i p 作为通信协议,将客户端、数据库服务器、 华北电力大学硕士学位论文 w e b 服务器分开以b r o w s e r s e r v e r 模式运行,这使得查询系统由传统的模式向网络 应用模式转化。客户端只需安装浏览器,即可访问相关资源,减轻了以往客户端程 序的开发及安装、配置,而作为数据库服务器主要是用来存储各种数据,至于w e b 服务器则用来向客户端提供访问界面,并通过该界面实现对数据的访问。这样各部 分分工明确,维护起来方便简单。当数据库中的数据发生变化时,客户端的环境无 需做任何改动即可实现数据的更新,同时也隔断了客户端与数据库的直接联系,增 强了数据的安全性。具体访问过程如图1 2 所示【2 1 。 图1 - 2b s 查询模式图 但是,随着i n t r a n e t 复杂性的迅速增加和数据库技术的发展,传统的范例查询 模式渐渐满足不了对迅速增长的海量历史数据的自由查询。因此,必须提高i n t r a n e t 用户访闯数据库的灵活性,允许用户像数据库管理员一样,自由地查询数据库。这 可以借助于数据仓库中的多维数据模型来达到这个目的。数据仓库是一个按主题组 织多维结构的大型数据库,它与操作型数据库分别维护。那么用户如何有效地从数 据仓库中获得这些信息呢,这就涉及到数据仓库如何展现的问题。数据仓库存放着 商业主题域的大量信息,展现这些信息的任务就由附属数据仓库的工具来完成。现 有的数据仓库工具主要有综合查询工具、o l a p 分析工具和数据挖掘工具。 1 2 当前国内外查询系统现状 现在的查询系统已经和过去的查询系统完全不同,从某种意义上说它属于商业 智能( b u s i n e s si n t e l l i g e n c e ,b i ) 的一部分,商业智能通常被理解为将企业中现有的 数据转化为知识,帮助企业做出明智的业务经营决策的工具【3 】。这里所谈的数据包 括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处 行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。 国外商业智能的发展较早,技术也比较成熟,很多商业智能厂商比如b o ,i b m , o r a c l e 等都提供了丰富的工具。在国外已有很多公司成功实施商业智能的案例,比 如a t & tu n i v e r s a l 公司通过部署商业智能解决方案,每年减少信用卡欺诈额高达 8 0 0 1 万美元;c a d b u r y 巧克力公司借助商业智能使市场份额很快从2 8 提升到了 3 0 ;美国第二大银行哪旗银行( c i t i b a n k ) 在商业智能系统的帮助下,能够有效 分析其分布于5 7 个国家的客户信息【4 5 j 。 目前国内电信、银行、证券公司等很多大型企业也纷纷建立了自己的b l 解决 2 华北电力大学硕士学位论文 方案。但是出租车行业目前国内外还很少有建立自己b i 系统的先例,上述这些企 业都有一个共同特点:实时产生数据量巨大,同时还存储着海量的历史数据,这些 海量的历史数据不仅分布式存储在异构的数据库中,而且数据字段格式和意义也可 能不统一。要想合理利用这些海量的数据,发掘出有价值的知识,实现整个企业的 商业智能化,光靠传统的联机事物处理系统( o u 限) 已经不能满足要求了,而目前 这些企业的查询系统大都建立在o l t p 基础上,对业务数据的查询也以固定条件的 c s 查询模式为主,不能达到自定义查询条件的在线查询要求。同时这些查询系统 都是针对传统的的关系数据库和o l t p 系统,采取建立各种索引等类似技术进行优 化,这些查询系统能高效地完成固定条件驱动的详单级数据查询,但在进行聚集查 询时( 如在时间上进行聚集以查看历史趋势等操作) 就显得效率很低了,因此需要 借助多维数据库以及o l a p 的一系列技术来解决目前的问题【6 】。 1 3 课题背景及主要研究工作 出租车交通是城市公共交通的一个重要组成部分,由于其快速、便利、舒适、 安全等特点,已经成为一种不可替代的公共交通方式。北京市目前有将近3 0 0 家出 租车公司、近7 0 0 0 0 辆出租车承担着北京市出租车行业的营运任务。为了衡量出租 车对整个北京市交通的影响,维护出租车的正常营运秩序,作为出租车行业的主管 部门必须及时准确掌握全市出租车营运情况,以便对整个行业进行有效的指导,这 就有必要建立一套智能化的、高效率的软件平台实现对出租车公司经营数据、出租 车营运数据进行收集,并对数据信息进行挖掘、分析,为政府决策部门及时准确地 提供决策依据川。 本文在深入研究数据仓库技术及o l a p 技术的基础上,通过对北京市政一卡通 中心出租车运行数据、出租车i c 卡数据、政府出租车信息档案库数据进行整合, 采用o l a p 工具建立一套基于多维数据模型的在线查询系统,辅助管理人员制定各 种决策信息。 主要完成以下工作: 1 选择使用m o l a p 的物理存储方式,将整合后的数据从s q ls e r v e r 数据库中 经过抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、装载( l o a d ) 等操作存储到多维数据库 ( m d d b ) 中。 2 使用m o l a p 工具建立多维数据模型,从出租车车型、价格、营运时间、收 入、工作种类、出租车公司、出租车公司所属区域、出租车的运距等角度对业务数 据进行分析。 3 对于分析的结果主要通过e x c e l 和w e b 两种方式以图表和表格的形式展现 给不同级别的决策者,供其决策使用。 3 华北电力大学硕士学位论文 第二章基于多维数据模型在线查询系统使用到的相关技术 2 1 数据仓库与数据集市 2 1 1 数据仓库 如何有效地管理企业在运营过程中产生的大量数据和信息一直是1 1 人员面临 的重要问题。7 0 年代出现并被广泛应用的关系型数据库技术为解决这一问题提供了 强有力的工具。然而,从8 0 年代中期开始,随着市场竞争的加剧,信息系统用户 已经不满足于用计算机仅仅去管理日复一日的运营数据,他们更需要的是从这些数 据中得到有用的信息,以便于进行决策支持。这种需求使得在8 0 年代中后期出现 了数据仓库思想的萌芽,为数据仓库概念的最终提出和发展打下了基础。1 9 9 2 年, w h i n m o n 在其里程碑式的建立数据仓库中提出了“数据仓库 的概念,从此 数据仓库的研究和应用得到了广泛的关注i s j 。 i n m o n 提出【9 】:“一个数据仓库通常是一个面向主题的、集成的及随时间变化的, 但信息本身又相对稳定的数据集合,它用于对管理决策过程的支持。打所谓主题, 在这里是指用户使用数据仓库进行决策时所关心的重点方面,如银行存款情况、贷 款情况、客户群情况、利润情况等;面向主题是指数据仓库内的信息是按主题进行 组织的,为按主题进行决策的过程提供信息;集成是指数据仓库中的信息不是从各 个业务处理系统中简单抽取出来的,而是经过系统加工、汇总和整理的,保证数据 仓库内的信息是关于整个企业的一致的全局信息;随时间变化则是指数据仓库内的 信息并不只是关于企业当时或某一时刻的信息,而是系统纪录了企业从过去某一时 刻到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做 出定量分析和预测。所谓信息本身相对稳定是指一旦某个数据进入数据仓库后,一 般情况下将被长期保留,也就是数据仓库中一般有大量的插入和查询操作,但修改 和删除操作却很少。 2 1 2 数据集市 对一个企业或者组织建立一个大而全的数据仓库,并不一定能取得满意的结 果。虽然数据仓库的数据组织是面向主题的,并为分析的需要保存了许多综合数据, 但分析要求千变万化,不可能要求一个单一层次的数据仓库能完成符合各种各样分 析的要求。数据仓库的主题要求不断完善,不断高速综合数据的内容和形式也要灵 活多变。另外,随着数据的不断载入,数据仓库将越来越大,分析工作完全基于单 一层次的数据,性能将十分低下,因而要在数据仓库系统中引入数据集市的概念l l 。 4 华北电力大学硕士学位论文 数据集市是按照某一特定部门的决策支持需求而组织起来的,针对一组主题的应用 系统。例如,一个公司的财务部门拥有自己的数据集市,用来进行财务方面的报表 分析。数据集市结构如图2 1 所示。 图2 - 1 数据集市结构图 数据集市是面向部门的,它的应用范围及数据结构与数据仓库不一样。数据仓 库是企业级的,基于整个组织的数据模型建立的,面向整个组织范围内的主题;数 据仓库中的数据是详细的、集成的和历史的,数据集市只有较少的历史数据,且不 够详细,数据选取的基本原则是能满足本部门的需求而已。数据集市中的数据也按 主题组织,但由于部门的主题领域和企业级的主题领域有不同之处,数据集市并不 是从数据仓库中截取片段数据,而是要对数据进行重组。如图2 1 所示,主题有主 题a 1 ,主题a 2 ,主题a 3 ,主题a n :某部门的数据集市的主题有主题b 1 ,主 题b 2 ,主题b 3 ,b m ,箭头表示数据集市如何从数据仓库获取数据,由图2 1 中可以看出,数据集市打破了数据仓库的主题界限重组数据。数据集市可分为从属 数据集市和独立数据集市两种类型,从属数据集市的数据来源于数据仓库。上面谈 到的数据集市都属于这一种,独立数据集市的数据直接源于o l t p 系统。图2 2 描 述了这两种不同的数据集市。从属数据集市因为其数据来源都是数据仓库,所以能 保证各子系统数据的一致;独立数据集市因为省略了数据仓库这一步骤所以见效 快,但不能保证各子系统数据的一致性,从长远来看,这种结构是不稳定的,也是 不可行的。 5 华北电力大学硕士学位论文 图2 - 2 两种数据集市对比 2 2 在线联机分析处理技术( o l a p ) 2 2 1 从联机事务处理( 0 l t p ) 到联机分析处理( 0 l a p ) 数据源 五十年代末,事务处理系统( t p s ) 开始在企业中被广泛使用。这时,计算机 作为信息处理工具,主要是完成信息的收集、存储和加工整理。企业引进计算机的 主要目的是在某些业务( 如:销售、财务统计等) 中提供联机事务处理( o u p ) , 以提高数据处理的效率和减轻人员的工作负担。但是,企业中业务并不是各自独立 的,往往是多个业务构成一个业务流程,而这多个业务彼此之间环环相扣、相互关 联,前一个业务处理的结果通常就是后一个业务处理的数据源,因此这些业务间必 须进行信息交换和数据共享。进入七十年代后,由于市场竞争的日益激烈,企业管 理人员为了迅速掌握外界和企业内部的各种变化信息并做出反应,在决策分析方面 对计算机提出了进一步地要求。于是,以数据分析和建模定量分析为基础的决策支 持系统( d s s ) 应运而生i l 。 决策支持系统以决策性数据为基础,它与事务处理系统中的操作性数据是截然 不同的。二十多年来,决策支持系统的研究、开发和推广应用有了很大的发展,为 企业的各层管理人员进行决策分析提供了有力的支持。九十年代初,建立在决策支 持系统基础上的联机分析处理( o l 廿) 开始兴起,并成为当前信息系统的研究热 点之一。 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e e c o d d 于1 9 9 3 年的一 篇论文中提出的【1 2 l 。当时,c o d d 认为联机事务处理( o u p ) 已不能满足终端用户对 数据库查询分析的需要,s q l 对大数据库进行的简单查询也不能满足用户分析的需 求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果 6 华北电力大学硕士学位论文 并不能满足决策者提出的需求。因此c o d d 提出了o l a p 的概念。根据o l a p 产品 的实际应用情况和用户对o l a p 产品的需求,人们提出了一种对o l a p 更简单明确 的定义,即共享多维信息的快速分析。根据这个定义,描述了o l a p 的五大特征如 下p 3 1 快速性( f a s t ) 用户对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部 分分析要求做出反应。如果终端用户在3 0 秒内没有得到系统响应就会变得不耐烦, 因而可能失去分析主线索,影响分析质量。对于大量的数据分析要达到这个速度并 不容易,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运 算、特别的硬件设计等。 2 可分析性( a n a l y s i s ) o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事 先编程,但并不意味着系统已定义好了所有的应用。用户无需编程就可以定义新的 专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在 o l a p 平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析 工具、成本分配工具、意外报警、数据开采等。 3 共享性( s h a r e d ) o l a p 应在保证系统安全的基础上,提供多用户共享数据与信息的机制。o l a p 系统应规定不同用户的使用权限,对元数据级别进行安全设置,从而更好地加以控 制。例如,当多个用户同时向o l a p 服务器写数据时,系统应能在适当的粒度级别 上加更新锁。 4 多维性( m u l t i d i m e n s i o n a l ) 多维性是o l a p 的关键属性。系统必须提供对数据分析的多维视图和分析,包 括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有效的 方法,是o l a p 的灵魂。 5 信息性( i n f o r m a t i o n ) 不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信息, 并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁 盘空间、o l a p 产品的性能及与数据仓库的结合度等。 2 2 2o l a p 的多维数据结构 1 维 维( d i m e n s i o n ) 是人们观察数据的特定角度,是主题的基础,是对主题的一种 类型划分。例如,本系统中出租车管理处想了解某一时间某一地区某一车型的营运 7 华北电力大学硕士学位论文 情况,这里时间、地区、车型各自为一维。 维的一个取值成为该维的一个维成员( m e m b e r ) ,如本系统中每个区域维中的 昌平区或者海淀区、每段时间中的上午九点至十点区间、每种车型中的夏利或捷达 等都是它们所属维的一个维成员。如果一个维是多层次的,那么该维的维成员是在 不同维层次的取值的组合,例如“2 0 0 4 年第一季度3 月1 3 日7 时至9 时一就是时 间维的一个维成员。 2 维度子集 在本系统的应用中,每个维度中多个子集将被建立。子集只是一个维度中满足 用户定义的检索条件的元素的集合。比如:一个地区的所有出租车公司、属于一个 特定的出租车公司的所有型号的出租车或某个型号出租车中所有的出租车车辆。子 集可以使用户快速分析有关数据集。 3 度量值 度量值( m e a s u r e ) 是一组数据,当多维数据集的各个维都选中一个维成员,这 些维成员的组合就唯一确定了一个或几个值。度量值是所分析的多维数据集的中心 值,是最终用户浏览多维数据集时重点查看的数据,是各维交叉的结合点。如某个 时间段早上9 :0 0 1 0 :0 0 ,夏利出租车的空驶率的数值,这个空驶率的数值就是度 量值。 4 单元 单元是多维数据集的原子元素,即为多维数据集的任意一个子集,单元也是由 度量值、层次以及维度组成,多个单元组成了多维数据集。要想获得特定的单元, 需要指定相应的成员和维度,这些成员和维度的交集就形成了想要获得的单元。 5 超立方结构 超立方结构( h y p e r c u b e ) 指用三维或更多的维数来描述一个对象,每个维彼此 垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。 这种结构简化了终端用户的操作【1 4 j 。 2 2 30 l a p 的多维分析操作 o l a p 的多维分析是指对多维数据集中的数据用切片、切块、旋转、钻取和卷 取等分析方式分析数据,使用户从多个角度、多个侧面去观察数据仓库中的数据。 这样才能深入地了解数据仓库中蕴涵在数据后面的信息,才能使用户深入地挖掘隐 藏在数据背后的商业模式。 1 切片 在多维分析过程中,如果要对多维数据集的某个维选定一个维成员,这种选择 操作,就可以称为切片( s l i c e ) 。也就是说如果有( 维1 ,维2 ,维i ,维 8 华北电力大学硕士学位论文 n ,观察变量) 多维数据集,对维l 选定了某个维成员,那( 维1 ,维2 ,维l 成员,维n ,观察变量) 就是多维数据集( 维l ,维2 ,维i ,维n , 观察变量1 l 在维i 上的一个切片。很显然,这个切片,不一定是想象中的一个二维的 。平面一切片。切片的维数取决于原来多维数据集的维数。只有在多维数据集是三 维的情况下,才能获得一个二维的“平面 切片。通过切片的操作可以降低多维数 据集的维度,使人们能将注意力集中在较少的维度上进行观察1 1 5 1 。 2 切块 与切片类似。如果在一个多维数据集上对两个及其以上的维选定维成员的操作 可以称为切块( d i c e ) 。即在( 维1 ,维2 ,维i ,维k ,维n ,观察变量) 多维数据集上,对维i ,维k ,选定了维成员,那( 维1 ,维2 ,维i 成 员,维k 成员,0 6 do d d ,维n ,观察变量) 就是多维数据集( 维l ,维2 ,维i , 维k ,维n ,观察变量) 在维i ,维k 上的一个切块。很显然,在i = k 时, 切块操作就退化成切片操作。实际上,切块操作也可以看成进行多次切片操作以后, 将每次切片操作所得到的切片重叠在一起而形成的。 3 钻取 钻取是对数据进行更为细节性的观察,分为下钻和上卷,上卷是对数据进行更 为宏观的观察。下钻和上卷的深度与维所划分的层次相对应。如图2 3 所示,在图 的左面存放的是2 0 0 6 年不同车型的收入。如果从时间维的季度层查看时,得到2 0 0 6 年各个季度中各个车型的收入数据,则执行的操作为下钻。反之,则执行的操作就 是上卷。 - i t i 收入下钻平均收入 r :l 二 车型 2 0 0 6 年2 0 0 6 年一季度二季度三季度四季度 夏利 1 3 3 0 0 上卷 夏利1 3 3 0 03 0 0 03 5 0 0 4 0 0 02 8 0 0 富康1 2 6 0 0富康 1 2 6 0 02 8 0 03 0 0 03 3 0 03 5 0 0 捷达 1 3 0 0 0捷达 1 3 0 0 03 8 0 03 1 0 03 2 0 02 9 0 0 图2 - 3 钻取示意图 4 旋转 旋转即是改变一个报告或页面所显示的维的方向。例如,旋转可能包含了交换 行和列,或是把某一个行维移到列维中去,或是把页面中显示的一个维和页面外的 维进行交换( 令其成为新的行或列中的一个) 。 9 华北电力大学硕士学位论文 第三章出租车行业在线查询系统的分析与设计 3 1 需求分析 随着北京市出租车行业几十年的发展,目前已经发展成为有将近3 0 0 家出租车 公司,近7 万辆出租车的局面,为缓解城市居民乘车难的问题,做出了一定贡献, 然而从目前的经营状况和服务水平看仍有大大改进的必要。目前主要存在以下几个 问题急需解决【1 6 】: 1 绝对数量不多,占整体流量过大; 2 空驶现象严重,造成频繁违章; 3 司机劳动强度太大,收入太低。 为解决上述问题,用数据说话,作为出租车行业的管理部门匕京市运输管 理局出租车管理处,必须根据出租车的营运数据对各种指标进行分析,为决策提供 依据。需要分析以下几个方面: 1 根据每辆出租车的基本数据分析载客里程、空驶里程、行驶里程等指标。 2 根据出租车的车型聚合数据分析每个车型的里程利用率、空驶率、公里值、 平均运距等指标。 3 根据每个出租车公司的聚合数据分析每个公司的月平均收入、里程利用率、 空驶率、公里产值等。 4 根据每个出租车公司所属区域的聚合数据分析每个区域的月平均收入、里 程利用率、空驶率、公里产值等。 5 可以对所有出租车公司、所有出租车车型的运距、运距对应的运次、运距 对应的运次百分比、运距对应的收入、运距对应的收入百分比指标进行对比分析。 6 可以对所有出租车公司,所有出租车车型对应不同收入段的车数、车数百 分比进行对比分析。 7 可以对不同出租车公司、不同车型、不同班制的出租车的工作时间进行对 比分析。 出租车在线查询系统的使用主体是市运输管理局相关领导、出租车管理处领导 以及各区县出租车管理站工作人员;管理涉及的对象是各出租车营运公司及所有营 运的出租车;数据的来源和分布主要集中在两个方面:一是市政交通一卡通数据中 心,二是各出租车营运公司上报数据。其中,市政交通一卡通数据中心数据特点是 全市统一集中管理,各出租车公司按照统一格式定时集中上报结算,它的好处是数 据内容相对真实可信、数据接口单一集成方便;另一方面由于不是所有出租车都使 用市政交通一卡通或者不是所有乘客都用市政交通一卡通,所以另外那部分数据存 1 0 华北电力大学硕士学位论文 储在出租车i c 卡中,所以,各出租车公司还要独立采集营运数据,并进行汇总后 上报,它的特点是各公司数据处理软件各不相同,数据结构异化严重,营运数据集 成整合工作量巨大。 3 2 系统体系结构设计 3 2 1 系统总体架构 系统总体架构如图3 - 1 所示,系统通过政府内网、i n t e r n e t 与政府办公网服务器、 市政一卡通服务器、出租车企业服务器通信,抽取数据到数据加载服务器,或直接 导入外部数据文件。对获取的数据在数据加载服务器进行转换、清洗工作,并按照 数据分析模型加载。最终通过客户端或发布到w e b 服务器供管理者浏览。 3 2 2 系统工作流程 市政一卡通服务器 图3 1 系统总体架构图 、 、 出租车企业服务器 器 系统工作流程如图3 2 所示。分如下步骤: 1 采集源数据,包括市政一卡通结算数据,统一从一卡通中心集中采集;出 租车i c 卡数据( 非一卡通部分) ,各出租车公司分别上报或汇总到各区县出租车管 华北电力大学硕士学位论文 理站后上报;出租车本身的属性数据,如车牌号、车型、颜色、生产厂家、年限等, 这部分数据不是营运数据。由于每部出租车都在管理部门登记注册,所以该数据可 以从政府车辆管理档案系统中采集;出租车管理数据主要是司机信息、单双班信息 等,这些数据需要各出租车公司上报。 2 对数据进行整合建立数据分析模型。 3 系统将数据源中的数据经过抽取、转换、清洗、加载数据等步骤存储到多 维数据库中。 4 利用查询分析工具和报表工具进行数据展现,辅助管理人员进行数据分析。 数据模型存储 3 3 多维数据模型设计 3 3 1 数据源的表结构 图3 - 2 系统工作流程图 在3 2 2 节中,本系统共需要采集四个来源的数据库,然后将这些数据整合到 s q ls e r v e r 数据库中。图3 3 即是整合后s q ls c i c r 数据库中主要的表结构。 华北电力大学硕士学位论文 图3 - 3s q ls e r v e r 数据库中的表结构 图3 3 中,t a x i 2 0 0 6 0 12 0 0 6 1 2 为2 0 0 6 年的所有出租车的营运数据主表,其中 u p t i m e 为上车时间,d o w n t i m e 为下车时间,w a i t t i m e 为等候时间( 出租车在等待 红灯的时间或者道路拥挤导致车速低于一定速度比如1 5 公里时的时间,等候时间 也是需要收费的,连同正常的收费一起计入到w o r k m o n e y 中) ,w o r k l e n g t h 为工作 里程,e m p t y l e n g t h 为空驶里程,w o r k m o n e y 为工作收入,t a x l d 为出租车号,c m p l d 为公司代号。c o m p a n y 为出租车公司信息表,其中n a m e 为出租车公司名称。z o n e l d 为出租车公司所属区域代号,z o n e 为区域信息表,其中n a m e 为区域名称。t a x i 为 车型信息表,其中t y p e l d 为车型代号,t y p e n a m e 为车型名称。 3 3 2 多维数据模型的逻辑结构 出租车,最重要的数据是每天的营运数据。事实上,每天出租车一上路,营运 数据就开始产生,不管是空驶,还是载客,从管理角度讲都是分析的对象。每一个 “活”( 载客过程) 的详细信息如上车时间、下车时间、工作里程、等候时间、工 作收入等都会详细记录在出租车的i c 卡中,除了载客时间以外,都是空驶或者停 在某个地方等乘客( 趴活) 的时间。因此逻辑模型在认真分析3 3 1 节中表结构的 基础上并且紧紧围绕营运这个主题进行设计。逻辑结构如图3 4 所示。 华北电力大学硕士学位论文 f 一一一一一一一一一一一一一一一 l 时间维度1 卜 营 1 圭耋壁粤堡璺 ? - - - - - - - - - _ 运 i - 二二二= i 二:二= 区域维度 7 数 1 ir - i h l 日j 雅厦 e 据 i = 。二= := 二二。? f - - - 荟哥聂p主 、 ;出租牛亏维厦 l l 表 ;i 聂 一一 一 f - - - - - - - - _ - - 工作班制维度 3 3 3 维度说明 图3 _ 4 多维数据模型逻辑结构 在3 3 2 节多维数据模型的逻辑结构图中,包含的维度有:时间、区域、公司、 车型、上车时间、下车时间、出租车号、工作班制,除此之外,还有其它一些维度, 下面本文将逐个对这些维度的具体含义加以说明。 1 时间( t i m e ) 时间是指每个出租车每次工作对应的时间,层次为年、季、月、日。层次结构 如图3 5 所示。 年 季月 e l r 一1日 l2 e l 弋 l b 1 日 图3 - 5 时间维度层次结构 1 4 月月月月月月月月月月月月 一 一 一 一 一 1 2 3 4 1 2 3 4 rlt厂illl、lilil 5 6 7 舢 舳 肿 l | 言 | 詈 狮 华北电力大学硕士学位论文 2 区域( z o n e ) 区域是指出租车公司所属的某个区,如西城区、东城区、崇文区、宣武区、朝 阳区、海淀区、丰台区、石景山区等。 3 公司( c m p i d ) 目前全市共有近3 0 0 家出租车公司,分布在1 0 几个区县中,每个公司的出租 车拥有量有几千、几百乃至几十不等。典型的有:北京首汽股份有限公司、北京北 汽九龙出租汽车股份有限公司、北京友联汽车服务有限责任公司、北京新月联合汽 车有限公司、北京银建实业股份有限公司等。 4 车型( t y p e i d ) 目前全市的出租车中,主要有以下出租车车型:普通桑塔纳、索纳塔、富康、 捷达、伊兰特、桑塔纳3 0 0 0 、爱丽舍等。租价均是2 元,起租价均是1 0 元,起步 里程是3 公里。同一个出租车公司中有可能含有不同的出租车车型,不同出租车公 司也可能含有相同的出租车车型。 5 上车时间( u p t i m e ) 、下车时间( d o w n t i m e ) 上车时间和下车时间涉及到一天2 4 小时中的每一分钟,从0 0 :0 0 分开始一直到 2 3 :5 9 分截止。层次为小时,分钟,层次结构如图3 - 6 所示。 小时分钟 6 出租车号( t a x i d ) 每一个出租车都有相应的出租车牌号,例如:京b 0 1 3 8 2 、京b 5 6 8 2 5 。 7 工作班制( w o r k t y p e ) 每一辆出租车在每一段时间内只能有一种工作班制,要么是单班,要么是双班。 所谓单班就是指在这段时间内,这个车只能有一个驾驶员来驾驶,“份钱 按月交, 每天工作多长时间由自己决定。而双班是指在这段时间内有两个驾驶员来驾驶这辆 车,“份钱 两个人平摊。一般情况是一个驾驶员工作2 4 小时之后换给另外一个驾 驶员,这样一个驾驶员工作一个月相当于工作半个月的时间。但是,由于间隔休息 时间也长,所以每天工作时间一般要比单班的时间要长,这样双班驾驶员的月收入 和单班驾驶员的月收入相差就不会很大。 1 5 华北电力大学硕士学位论文 8 收入段( i n c o m e i n t e r v a l ) 为了衡量出租车司机的月收入情况,特设此维度,如图3 7 所示。 9 运距段( l e n g t h i n t e r v a l ) 为了衡量出租车司机的运距情况,特设此维度,如图3 8 所示。 0 - 1 公里 1 - 2 公里 2 - 3 公里 1 9 - 2 0 公里 2 0 - 2 5 公里 5 0 公里一 图3 8 运距段维度 1 0 工作时间段( w o r k t i m e i n t e r v a l ) 为了衡量出租车司机每月
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 食品知识竞赛试题及答案
- 技能一级考试试题及答案
- 保洁知识竞赛试题及答案
- 生活创新测试题及答案
- 教师招聘之《幼儿教师招聘》考试押题卷附答案详解【完整版】
- 史知竞赛试题及答案
- 讲究个人卫生
- 2026届北京市房山区名校化学九上期末质量跟踪监视试题含解析
- 浙江省嘉兴市秀洲区实验中学2026届九年级英语第一学期期末考试模拟试题含解析
- 海员保安安全意识培训课件
- 医学教材 变态反应性疾病的诊疗进展标准版资料
- 生活垃圾发电厂炉渣综合处理及建筑垃圾资源化项目可行性研究报告写作模板-备案审批
- 跖骨骨折护理查房课件
- 癌症患者生活质量量表EORTC-QLQ-C30
- 《全媒体营销与运营》全套教学课件
- 学生心理问题的识别与干预+高中班主任工作培训
- JJF 1292-2024焦度计型式评价大纲
- 电解质溶液电导率
- 一般工商贸(轻工)管理人员安全生产考试题库(含答案)
- 城市轨道交通车辆电气控制 课件2-4任务4车辆电气原理图识读方法
- DB11-T 2082-2023 公路除雪融雪作业技术规程
评论
0/150
提交评论