




免费预览已结束,剩余13页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章绪论1.1研究背景随着中国电信体制改革的逐渐深入以及中国加入wto,中国电信业面临着前所未有的竞争压力。各企业既通过开发新的产品和服务,来提高自身的竞争力,也希望能够发挥自身的竞争优势满足客户需求,提高客户忠诚度、提高决策水平和效率。经过多年的发展,各企业的产品基本完善,能提供的服务也基本相似,电信公司目前主要经营本地电话、无线市话、国内长途和国际长途电话业务,全面提供数据、互联网和网元出租等通信业务。随着各企业产品线的丰富,企业的竞争优势主要体现在对每一个客户提供个性化的服务,只有建立以客户为中心的决策分析系统,通过大量信息的分析,才能真正进行以客户为中心的管理,帮助找出客户消费的行为和规律,筛选优秀的客户群体,进而预测客户的个性化需求,及时响应每一位客户现在和未来的需要,设计出更加符合客户需要的产品和服务,来提高客户的满意度,增强电信在激烈竞争中的实力。1.2数据仓库和数据挖掘在电信行业领域中的应用 在中国的电信运营企业中,中国移动和中国联通都是较早引入了数据仓库应用的电信企业,中国电信和中国网通目前尚在着手建设标准,各项工作还在规划部署中。相比之下,中国移动则取得了非常不错的成绩,中国移动的数据仓库规划于2001年,2002年开始建设数据仓库,并于2005年建成了拥有超过842tb容量的世界最大的数据仓库,并建设性地提出了“分级式数据仓库理论”,为我国移动通信数据仓库的建设与应用积累了不少经验。中国移动可以通过数据仓库系统抽取大量详细数据从而直接产生管理报表,也可以及时发现省公司市场经营的异常情况,提升监管力度以保证市场的正常运作。广东移动通信有限责任公司在1998年采用利用计费系统的帐单、清单历史数据和交换系数仓库电经营决统统原始详细呼叫记录(call data record)及客户资料、缴费情况等业务数据及外部数据等,采用数据仓库技术进行“市场和用户行为系统”的建立,经过探索和开发取得了较好的效果。1.3数据仓库的应用价值 在激烈的电信市场竟争中,信息对于电信企业的生存和发展起着至关重要的作用。表达信息的数据随着时间和业务的发展而不断膨胀,同时数据分布在不同的平台上,具有多种存储形式,作为领导和决策者如何从复杂的数据环境中得到有用的决策数据呢?随着分布式结构的数据库技术的提高和数据处理技术的发展,数据仓库(datawarehouse,dw)和决策支持系统(decision support system,dss)应运而生。对传统数据库的日常事务处理(联机事务处理)(online transaction process,oltp)十分理想,而要让面向操作的传统数据库进行决策分析则显得力不从心了。而数据仓库中的数据是面向主题的、集成的、不可更新的(稳定的)并随时间不断变化的,建立数据仓库的目的正是为了更好的支持决策分析。1.4数据挖掘的发展现状 数据挖掘(data mining,dm)是上世纪八十年代在投资人工智能研究项目失败后,人工智能转入实际应用时提出的。它是一个新兴的、面向商业应用的人工智能研究。知识发现(kdd)和数据挖掘是数据库领域中最重要的课题之一,目前知识发现和数据挖掘已成为研究的热点焦点,一批数据挖掘系统开发出来,在商业、经济、金融、管理领域都取得了应用性成果。为了更好的从数据中有效地提取信息,从信息中发现知识,从大量数据中挖掘出支持人们决策的知识,人们对数据挖掘的理论、技术和应用在以下几个方面都进行着更加深入的研究:1、专门用于知识发现的形式化的数据挖掘语言;2、数据挖掘过程中的便于用户理解的即人机交互的可视化方法;3、网络环境下的数据挖掘技术;4、加强对各种非结构化数据的挖掘,如对文本、图形数据、视频图像数据、声音数据等。1.5本文的组织 本文第一章是绪论,介绍了数据仓库和数据挖掘在通信领域的应用及其现状;第二章介绍电信经营分析决策支持系统的需求分析,并对决策支持系统的相关技术作了简要介绍;第三章介绍电信经营分析与决策支持系统数据仓库的建立过程;第四章介绍使用电信经营分析与决策支持系统进行分析的几个方面及分析结果,验证了电信经营分析与决策支持系统的有效性;第五章是总结与展望。第2章电信经营分析决策系统需求分析及设计框架2.1电信业务系统介绍2.1.1电信业务系统的分类及概况电信网络支撑系统包括业务支撑系统(business support system,bss)、运营支撑系统(operation support system,oss)和管理支撑系统(management support system,mss)三大部分,其中业务支撑系统(bss)包括九七系统、本地网计费账务系统、渠道管理系统、10000号客服系统、省级计费结算系统、智能网计费系统、宽窄带ip后台计费系统等。这些系统是数据仓库系统主要的数据源。表2-1数据仓库系统主要的数据源系统名称所采用数据库软件主要功能模块九七系统oracle7营业、机线、配线配号、定单调度、施工、统计查询、综合管理、接口等功能模块,实现电信业务计算机综合管理的基础性业务本地网计费帐务系统oracle 8i计费数据采集、话单批价、计费、帐务出帐、帐务报表生成、收费toss系统oracle 9i针对小灵通用户的一个受理平台渠道管理系统oracle 9i系统管理、客户管理、经营分析、指标分析、统计报表、自定义报表10000号客服系统oracle 8i电话咨询、电话查询、电话业务受理、电话投诉、障碍申告、号码查询、电话回访电信已有bss系统的名称、版本数量、完成功能等如表2-1所示。2.1.2电信经营决策分析系统数据源 数据仓库系统需要采集的业务基本数据包括如下:1)客户资料;2)计费清单,结算清单;3)明细帐单、综合帐单、销帐记录;4)客户/服务记录,服务时限记录,黑名单/红名单纪录;5)工单、客户服务定单;6)10000号产生的投诉、咨询、走访、建议;7)代销商人员信息资料,代销商考核数据;8)客服人员信息资料;9)卡、设备资源统计数据;10)渠道信息资料;11)银行托收信息;12)各类管理参数、优惠套餐信息等;13)kpi指标数据;14)其他数据。2.1.3电信业务系统数据质量现状及影响 数据仓库本身并不产生数据,其数据来源各个业务系统,只有数据仓库的数据和业务系统保持一致,建立业务用户对数据仓库数据质量的信任,业务用户才能放心地基于数据仓库进行分析应用和针对性的市场营销。对于数据质量,我们可以从以下四个方面来评价:完整性(completeness)所有信息、属性是否按照系统和业务规则完整填写;正确性(correctness)信息是否满足域定义的要求;当前性(currency)数据的及时性,是否能够反应当前业务运营状况;一致性(consistency)不同系统、不同业务之间关联的数据之间是否一致,包括一致的定义、含义、取值及操作等。以上四个方面,我们称之为4c。高质量的数据应该是完整的、正确的、当前的、一致的。对于上述的每一个方面,我们又可以进一步分为具体的细类,在本次信息探索中,我们重点了解了97系统、计费系统和渠道系统数据质量现状。我们从数据的正确性、完整性和一致性三个方面共56个规则对数据质量进行检查。2.1.4电信业务系统数据质量检查数据质量检查工具主要基于数据质量检查的规则库,紧密结合数据仓库的etl过程,使用预先定义的规则,检查数据质量。数据质量检查主要包括文件级检查、记录级检查、及业务指标检查。在数据从源系统到接口文件服务器、到etl服务器、到数据仓库临时区、到中央数据仓库,到从属的数据集市,针对其中的每一步,都会进行基于规则的检查。2.2电信经营决策分析系统需求分析2.2.1电信经营决策分析系统现状 目前电信企业为了能准确把握市场运行规律和客户需求,以便在激烈竞争中做出正确及时的决策,已经建设了许多业务支撑应用系统,但是各个系统相对独立,缺乏统一的企业数据模型,数据交换和共享困难;数据交换存在大量手工接口,导致数据准确性、实时性差;同时数据混乱,导致系统效率低下,系统的可扩展性差;数据不一致,导致适应新业务发展能力差,不能有效支撑市场分析和针对性营销;客户、产品等企业关键数据不一致、不完整的问题也给关键应用系统的省集中带来数据迁移方面的巨大风险无法从整个企业和单一视图的角度对数据进行深入分析和挖掘,无法为高层管理和决策提供强有力的依据,无法满足快速变化的市场的需求。2.2.2电信经营决策分析系统目标电信经营决策分析系统是数据共享的载体,企业数据模型、数据立方、经营分析模板是实现共享的标准,最终目标是实现企业数据共享、业务支撑和价值提升。数据仓库系统不但可以为企业制定和调整经营策略提供重要依据,更可成为企业发展的驱动中心,确保电信企业在日益激烈的市场竞争中确立主导地位。电信经营决策分析系统应实现以下的目标:1、 通过企业统一的数据仓库平台,对数据进行标准化处理和规范化管理,实现企业数据透明和共享。2、 通过省级系统的建设,整合crm、计费、服务开通、服务管理、资源管理等多种数据源,形成统一的客户和业务数据视图;并能根据需要进行主题内部要素的扩充、主题的新增以及跨主题的重构;采用olap分析、预定义报表、即席查询,数据挖掘等多种方式,通过多样的数据访问方式满足面向集团、省、本地网三个层面的决策层、市场部门分析人员,各级决策层的市场部门经营分析工作中最迫切的、共性的、可实现的需求。2.3电信经营分析决策系统的相关技术2.3.1联机分析处理(olap)技术联机分析处理(online analytical processing,olap)的概念最早由关系数据库之父e.f.codd于1993年提出的。当时,codd认为联机事务处理(oltp)已不能满足终端用户对数据库查询分析的要求,sql对大数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,codd提出了多维数据库和多维分析的概念,即olap。olap最终的数据来源与oltp一样,均来自底层的数据库系统,但二者面对的用户群不同,数据内容的特点也不同。两者的区别概述如表2.4。表2-4多维数据库和多维分析的区别oltp数据olap数据原始数据导出数据细节性数据综合性和提炼性数据当前值数据历史数据可更新不可更新,但周期性刷新一次处理的数据量小一次处理的数据量大面向应用,事务驱动面向分析,分析驱动面向操作人员,支持日常操作面向决策人员,支持管理需要olap的特点可以用五个关键字来代表:fast analysis of shared multidimentional2.3.2数据挖掘技术数据库中的知识发现(kdd)用于描述所有从已知数据中发现关系和规则的方法。逐渐的kdd扩展成描述从数据库中推断信息的整个过程,从初始商业目的的确定到决策规则的使用.数据挖掘用于描述kdd中的一个组成部分。1995年在加拿大蒙特利尔召开的第一届知识发现和数据挖掘国际会议上,“数据挖掘”概念第一次由usama fayaad提出,这次会议一直被认为是该领域的主要会议之一。kdd是一种分成若干阶段的集成分析技术,目的在于从大量的已知数据中推断事先未知的、看起来没有任何明显的规则和重要联系的知识.随着数据挖掘概念的建立,逐渐变成整个推断知识过程的同义词。从数据仓库的观点,数据挖掘可以看作是联机分析处理的高级阶段。但是作为更高级的数据分析技术,数据挖掘比数据仓库的汇总型分析处理要详细和深入得多。数据仓库技术的发展和数据挖掘有着密切的关系.数据仓库的发展是促进数据挖掘越来越热的原因之一。但是,数据挖掘并不一定要有数据仓库的支持,即数据仓库并不是数据挖掘的必要条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息。同时,数据挖掘仍然经常被看成是数据仓库的后期市场产品,因为那些努力建立起来的数据仓库有最丰富的数据源可供挖掘。显然,数据仓库被更广泛地接受将使人们对数据挖掘更感兴趣。从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清洗和数据挖掘的数据清洗差不多,如果数据在导入数据仓库时己经清理过,很可能在做数据挖掘时就没有必要再清理一次了,而且所有的数据不一致的问题都己经被解决了。2.3.3客户关系管理crm客户关系管理crm(customer relationship management)指的是企业通过富有意义的交流沟通,理解并影响客户行为,最终实现提高客户获得、客户保留、客户忠诚客户创利的目的。crm的出现体现了两个重要的管理趋势的转变。首先是企业从以产品为中心的模式向以客户为中心的模式的转移。其次,crm的出现说明了企业管理的视角从“内视型”向“外视型”的转换。先进的客户关系管理系统是一套基于大型数据库的客户资料分析系统。客户关系管理系统通过先进的数据仓库和数据挖掘技术,分析现有客户和潜在客户的相关需求、消费模式、发展机会、运行风险和成本,及时准确地制定应对措施,并细分客户。针对不同层次客户实施个性化的营销策略,不断维护和拓展客户群。同时,优化电信内部的资源配置,提高电信企业的动作效率,发现和把握更多的创收机遇,从而获得更大的经济效益。2.3.4 crm与数据仓库所有电信crm解决方案的核心在于保存现有客户信息的数据库。在企业与客户的互动过程中,所有与客户接触的有价值的信息都应被保存下来,它才是crm的基础。正是从这个意义上,crm领域将数据仓库称为crm的灵魂。crm的很多工作都是以数据仓库为基础展开的。利用数据仓库,企业可以制定准确的市场策略与促销活动。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。在数据仓库之上使用联机分析工具分析市场信息、客户资料和业务数据,在多维数据集上进行钻取、切片和切块、旋转等。crm充分利用数据仓库的分析结果制定市场策略,产生市场机会,并通过销售和服务等部门与客户交流,从而提高企业的利润。2.3.5 crm与数据挖掘在crm中,数据仓库存储了作为crm基础的客户数据,而基于客户数据挖掘的分析系统则是crm系统增值过程的核心。可以说,crm是客户数据分析与挖掘和建立在挖掘之上的客户活动的统一。客户数据挖掘能力是crm系统的主要技术要求之一,它可以让企业充分利用客户信息,对其进行分析,使得决策者所掌握的信息更完全,从而能更及时地做出决策。在电信crm中,数据挖掘是从大量的有关客户数据中挖掘出隐含的、先前未知的、对电信企业决策有潜在价值的知识和规则。比如:通过客户行为分析,归类出消费额最高、最为稳定的客户群,确定为“黄金客户”。针对不同的客户档次,确定相应的营销投入。对于“黄金客户”,往往还需要制定个性化营销策略,以求留住高利润客户。2.3.6数据挖掘与olap数据挖掘dm与联机分析处理olap都属于分析型工具,但两者之间有明显的区别。dm是一种挖掘型工具,它能自动地发现隐藏在数据中的模式。数据挖掘dm是一种有效地从大量数据中发现潜在数据模式、做出预测性分析的分析工具,它是现有的一些人工智能、统计学等成熟技术在特定的数据库领域中的应用。olap是一种自上而下、不断深入的分析工具:用户提出问题或假设,olap负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。与dm相比,olap更多地依靠用户输入问题和假设,但用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。因此,作为验证性分析工具,olap更需要对用户需求有全面而深入的了解。按e.f.codd的数据分析模型来区分这两者,olap实现了解释模型和思考模型,dm实现了公式模型。作为数据仓库系统的工具层的组成部分,两者是相辅相成的。随着olap的发展,olap与dm间的界限正在逐渐模糊,在整个决策分析系统中,olap与dm以及其他工具由于内在技术以及适用范围的不同,必须协调使用才能发挥最佳的作用。2.3.7 olam加拿大bimon大学教授han.j.w等在数据立方体的基础上提出多维数据挖掘的概念,olam简称“联机分析挖掘”,是将联机分析处理技术(olap)和数据挖掘技术(dm)有机地结合起来形成的一种新技术。olam兼有olap多维分析的在线性、灵活性和dm对数据处理的深入性等特点,因而可在更高层次上满足对信息的分析和筛选要求。到目前为止,尚未见公开推出的olam产品。一般来说olam产品应该具有以下几点特征:olam应具有极大的挖掘能力;能提供灵活的挖掘算法选择机制,并提供与外部挖掘算法的通用接口;挖掘算法是基于多维数据模型的,可以和olap的操作灵活结合,并具有算法的回溯功能;基于客户/服务器体系结构,具有较高的执行效率和较快的响应速度,并且能够协调执行效率和挖掘结果的准确性;具有直观灵活的可视化工具和良好的扩展性。2.4电信经营分析决策系统设计框架数据仓库的首要任务是将业务源数据集中并保存在一个高可靠的、可扩展的中央数据存储平台中以企业级的数据模型进行组织,并在此基础上,向业务用户提供应用服务。为了能够更好的向用户提供数据服务,必须考虑如何放置、分布数据,其主要的工作就是数据模型的逻辑、物理设计,以及数据访问的方式和对应用系统的支持。对于整个数据仓库的建设与应用过程,其实质主要是数据在不同环节的流动过程。而在这个过程中,需要一定的安全机制来保证数据流的稳定性与私密性。并且数据流在涉及到不同环节的数据交换时,需要定制清晰的接口,以保证数据流的高效性和准确性。在数据仓库中数据流主要分为两个部分:一是数据仓库建设部分的数据流,即etl数据转移,也就是数据从数据源到数据仓库以及数据仓库到olap的过程,这个过程主要是数据仓库的数据获取层来主动获取源数据,或者主动从数据存储层生成olap数据,所以etl数据转移采用的是主动的方式;另一部分是数据仓库应用部分,该部分主要由最终访问用户来触发,数据存储层和olap数据主要为数据访问提供数据支持,因此是一种被动的数据流方式。2.5小结本章着重分析了电信企业现有的业务支撑和数据质量现状,并结合etl过程,通过设计一个数据质量检查的体系有效的解决了数据质量问题。通过对各部门的需求调研,完成了电信经营决策分析系统目标制定,并完成了电信经营分析与决策支持系统项目的体系架构设计。第3章电信经营分析决策系统数据仓库设计3.1数据仓库设计过程数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计;数据抽取;数据管理。3.2数据选取本文针对某电信企业的业务需求进行数据仓库的设计分析与挖掘,该电信企业自1997年推行计算机系统支撑业务运营发展以来,积累了大量的业务数据和客户资料数据,适合并急需建立数据仓库并进行分析、挖掘。数据主要来自97系统的客户资料表及相关属性表和计费系统的帐单表及相关属性表等。3.3数据决策主题的选取电信经营分析决策系统是在电信运营支撑系统的基础上提出的,根据目前某电信企业各部门的日常管理、分析需要,为营销策略的制定、产品的规划、客户的管理和分析、服务支撑的质量保证和提升,提供分析和决策支持的经营运营分析。3.4数据仓库建模为满足决策分析的需要,系统需要将各种数据源来的数据围绕决策主题存储到数据仓库中,以提高数据查询、聚集的效率。数据仓库建模采用自上而下的三级建模方式,即概念建模、逻辑建模、物理建模。概念建模可采用信息打包法,逻辑建模以星型建模方法和雪花建模方法为主,物理建模以3nf和星型建模方式主。 数据仓库建模工作完成之后,就可以使用数据仓库建模工作将各维表及事实表,生成到数据仓库中了。3.5数据清洗、抽取、转换、加载数据抽取、转换和加载处理(extract transformation loading,etl)过程是任何数据仓库工程的一个组成部分。该部分工作负责将电信经营分析决策系统数据仓库所需要的内部数据以及外部数据转换成系统所需要的数据格式与数据内容,并加载到数据仓库中。整个etl主要分为etl设计模块、etl调度模块、etl关系数据库抽取/转换模块、etl加载模块、etl中间层管理模块。etl主要过程:1、使用etl设计模块定义etl转换加载过程,同时生成数据源访问元数据文件、脚本元数据文件、日志元数据文件、数据库模式文件;2、使用调度器打开数据源访问元数据文件、脚本元数据文件、日志元数据文件,然后开启调度服务,自动将任务分配到连接到调度器的各个执行模块上进行执行;3、为etl关系数据库抽取/转换模块配置etl调度模块的地址,然后打开模块,接受调度器分配过来的抽取、转换任务,完成异构数据库之间的数据抽取转换处理;4、为etl加载模块配置etl调度模块的地址,然后打开模块,接受调度器分配过来的数据仓库数据加载任务,完成数据从关系数据库到数据仓库中的加载;5、为etl中间层管理模块配置etl调度模块的地址,然后打开模块,接受调度器分配过来的中间临时数据表的清理任务,完成中间数据库中临时数据表中数据的删除。 根据etl的工作流程,定义了电信经营分析决策支持系统的etl逻辑体系结构。在使用etl工具进行清洗转换加载过程中主要的关键技术是:1、增量抽取2、数据转换3、半自动异常处理4、任务执行汇报etl工具中任何一个任务的执行都可以获取该任务当前的执行的状况,特别有利于大数据量的转换处理,可以看到每一时刻的转换状态。3.6小结 本章介绍了电信经营分析决策系统数据仓库的设计过程,重点介绍了数据仓库的概念建模。根据etl的工作流程,定义了电信经营分析决策支持系统的etl逻辑体系结构,制定了数据抽取接口和策略,将电信经营分析决策系统数据仓库所需要的内部数据以及外部数据转换成系统所需要的数据格式与数据内容,并加载到数据仓库中。第4章电信经营分析决策支持系统实施应用 4.1电信数据仓库系统的主题分析电信数据仓库系统的主题分析功能,在功能上划分为以下几大分析主题:客户、产品、收益、市场竞争和互联互通,4.1.1客户构成分析从时间、地域、客户营销属性、客户级别等不同角度及各角度之间的不同组合,对客户到达数、新增客户数等进行分析,比较在指定变化周期内历史平均值趋势和本周期趋势的区别以达到充分了解客户按不同属性的总体构成及其发展趋势的目的。4.1.2产品构成分析对普通电话、公用电话、小灵通、基础数据业务、互联网、网元出租产品的市场占有率、收入贡献率等进行分析,以达到更好的规划和发展该产品的目的。可从客户类型、行业类型、地域等维度分析各种产品的客户数、业务量、收入量等。通过对客户数和收入量的比较分析和趋势分析,可以看出某种类型的产品是否具有发展的潜力,是否需要加大设备的投资,以获取更多的收益,还是进行相应的压缩,以减小运营成本进行科学的决策,提高企业的投资回报率。4.1.3产品发展分析新增/流失分析的主要目标:分析影响用户新增和流失主要因素,掌握用户新增/流失的规律,以便制定合理的营销策略,建立有效的客户挽留机制。从产品类型、在网时长等角度分析网上新增、流失用户的客户属性构成,分析在某一时段网上新增用户、流失用户数及发展趋势。并分析用户的净增与发展趋势,为制定科学合理的营销策略提供依据。4.1.4收入分析从时间、地域、产品类型、城乡标识、用户性质、帐目类型等多个角度,对整个电信的收入进行分析,包括营业系统收取的费用(一般是一次性收费),帐务收入费用,进行统计分析,对于包月、包年等费用,记入当月营业收入,数据仓库不作按月等摊分处理。4.2专题分析在完成数据仓库基础建设后,用户通过固定报表和多维分析方式对客户的行为和特征已具备了一定的认识,这时候可以引入专题分析功能。专题分析是针对特定问题,利用实时查询技术去了解数据背后进一层的意义。4.3固定报表固定报表是数据仓库系统的基本应用。固定报表主要是以固定表格的形式满足相应业务用户对于信息的使用需求。固定报表所反映的往往是企业或部门相关人员关心的常用指标,它是一种例行报表,如年报、月报、日报等。固定报表的用户相对比较广泛,从普通业务人员到高层领导,都会用到固定报表,但不同用户通过固定报表看到的信息各不相同,也即不同用户对于信息的使用权限是不同的。固定报表采用excel报表的格式来实现。4.4 olap查询cache设计在系统的实际运行过程中,我们发现当用户同时提交的olap查询数量太多或者所要求的数据量太大(例如查询涉及到的粒度过细,维度过多等)时,会导致系统的响应速度过慢,虽然用户对于olap查询的时间并不是很敏感,但适当的优化将有助于系统整体效率的提高。提出了基于chunk的cache技术,即将单元格组织成固定大小的块chunk,并以chunk为单位来进行cache,这种cache方式虽然部分解决了cache数据冗余的问题,但也带来了非常高的存储代价,同时,为了定位某个chunk而建立的索引也非常复杂。4.5聚合表设计通过建立聚合表可以有效地提高rolap的响应速度。总的思路是:在结果集不大,而查询所要涉及的记录集合巨大的时候,导致响应性能不能满足要求时,考虑采用聚合表,聚合表建立在结果集和原始事实表之间的某个汇总级别上。4.5.1聚合表的权衡在较高的级别建立聚合表,可以建立更小的报表,有更快的查询速度。但是覆盖的面小,用户查看更多的维度或者查看更细的级别时就容易超出聚合表的范围,而要从原始事实表来获取数据。建立较多的聚合表可以使得许多查询都在聚合表中,但是需要更大的数据存储和更多的聚合表维护工作。4.5.2通常设立聚合表的位置在可以大量减少数据量的位置建立聚合表。比如从详细订单数据到天数据。一个客户每天发生100笔交易,那么每天有一条记录的聚合表和为每笔交易建立一条记录的事实表比起来,数据量上就缩小到了百分之一。为高汇总程度的报表建立聚合表。比如帐目一级的报表、年收入的报表之类的。比如显示为帐目一级的报表,虽然返回的数据量只是几个帐目一级项几十项,但是他需要从按帐目四级以及其他维度分划的百万条数据中查询来得到这个查询结果。对于这样的情况可以考虑在显示报表的聚合级别和事实表之间建立一张到多张聚合表。在一些情况中,他们之间并不互相覆盖或重合,比如经常查看一级帐目和营业区的关系,此外还常查看一级产品和帐务月的关系,那么可能为一级帐目和营业区建立一个聚合表,为一级产品和帐务月建立一个聚合表。这样可能建立出一些定位并列的聚合表。4.6小结本章介绍了介绍电信经营分析决策支持系统在数据仓库上的实施应用。并给出了几个具体的主题分析的olap展示。针对电信企业的海量数据有可能造成olap查询性能下降,系统响应慢等突出问题,通过olap查询cache设计和聚合表设计等查询优化手段提高了olap查询性能。附录文中几个重要的中英文对照dw(data warehouse):数据仓库dss(decision dupport dystem):决策支持系统oltp(online transaction process):联机事务处理dm(data mining):数据挖掘kdd(knowledge dicosevry in database):知识发现olap(online analytical processing):联机分析处理fasmi(fast analysis of shared multidimentional information):共享多维信息的快速分析odbc(open database connectivity):开放数据库互连jdbc(java database connectivity):java数据库连接cli(command line interfac):命令行界面ldm(logica
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 抗菌药临床应用思路与制定科学的抗菌方案讲课文档
- 浙江省台州市三门县2023-2024学年第一学期四年级科学期中检测卷(含答案)
- 电瓶车维修知识培训内容课件
- 北楼中学分班考试试卷及答案
- 2-6-Deoxyfructosazine-13C4-生命科学试剂-MCE
- 电梯安全管理员证考试题库及答案
- 家政考试题及答案
- 电热电器知识培训总结
- 高层消防栓安全知识培训
- 2025年云教育项目提案报告模板
- 中华护理学术会议收获
- 跨境电商风险管理-洞察阐释
- 教师数字提升培训课件
- 中西医结合医院“十五五”发展规划
- 消化性溃疡疾病的护理
- 2025-2030年中国少儿期刊出版行业市场深度调研及前景趋势与投资研究报告
- 2025年河南开封水务投资集团有限公司招聘笔试参考题库含答案解析
- JG/T 220-2007铜铝复合柱翼型散热器
- T/CCAA 39-2022碳管理体系要求
- 江苏省扬州市广陵区梅岭中学2025届七下数学期末综合测试模拟试题含解析
- 2025年浙江省公务员录用考试《行测》真题及答案解析(B类)
评论
0/150
提交评论