云计算在电信行业经营分析系统中对海量数据处理的研究_第1页
云计算在电信行业经营分析系统中对海量数据处理的研究_第2页
云计算在电信行业经营分析系统中对海量数据处理的研究_第3页
云计算在电信行业经营分析系统中对海量数据处理的研究_第4页
云计算在电信行业经营分析系统中对海量数据处理的研究_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南大学硕士学位论文云计算在电信行业经营分析系统中对海量数据处理的研究姓名曾浩申请学位级别硕士专业电子与通信工程指导教师孟志强;唐巍20111029云计算作为一种能提供动态资源池、虚拟化和高可用性的计算平台,具有规模化、高可靠性、通用性、硬件廉价性等特征。电信经营分析系统面临着为日益增长的海量数据和复杂业务提供强大计算和存储能力的挑战,海量数据的高效处理成了制约业务发展的瓶颈。云计算将极大地改变电信运营商的服务模式和商业模式,为解决电信业务中出现的海量数据处理低效、业务系统繁多和数据孤岛等问题提供有效的途径。砹鞒探辛擞呕杓屏嘶诓鸱只频暮渴荽简称瓺在考虑了任务运行时间和任务优先级等前提下,提出了改进的基于贪婪算法的证了论文所提算法的可行性和高效性。硕士学位论文,痶瑃琤,瓹,籘籑;硕士学位论文课题的研究背景营商现在都是自己配置硬件设备,存储各自的数据资源,造成了存储资源和计算资源的严重浪费。如电信经营分析系统作为电信业务支撑系统的一个主要支系统,对数据的分析处理、挖掘数据的潜在商业价值,对电信业务的发展起着重要的作用。但现有的系统面临着为日益增长的海量数据和复杂业务提供强大计算和存储能力的挑战,海量数据的高效处理成了制约业务发展的瓶颈。云计算的提出为上述问题提供了新的解决途径,将极大地改变电信运营商的服务模式和商业模式,有效地将异地分布、结构各异的资源整合起来。国内外研究现状云计算是由分布式计算、并发展来的,是一种新兴的商业计算模型。年谷歌推出了“云计算在电信行业经营分析系统中对海量数据处理的研究云计算概念源于网格、公共计算和软件运营,它是共享基础框架的另一种实的发展等都是促使云计算概念提出和深化的重要因素。互联网行业可以说是云计算的先行者。作为云计算的提出者和倡导者,一直走在云计算理论研究和应用研究的前沿。、的搜索引擎可以说平台上运行大型应用程序;司,但不是最早的云计算运营商。可以说是最早的云计算运营商,它通过弹性分组云爰虻娲突峁扑愫痛娲瘛】。目前,括存储空间和软件在内的服务。在中国,由于国内企业谨慎务实的态度,使得云计算的发展相比国外发达国家稍显缓慢。年拢琁宣布在中国无锡太湖新城科教产业园为中国的软件公司建立第一个云计算中心。之后,国际巨头在中国纷纷推出自己的云计算战略,这也推动了国内、通信厂商对云计算的关注。中国移动研究所制定相关的业务支撑系统,启动业务软件平台向云计算平台迁移的计划更是增强了相关产业力量对云计算的关注,同时大家也开始意识到云计算确实可以大大的节省海量计算的总体拥有成本,于是众多的云战略、云产品纷纷推向市场【,如年拢锶砑诮漳暇赘觥暗缱由涛裨萍扑阒行摹保月中厂商也正利用云计算概念来抢占信息化商机,并已经威胁到电信业务市场,作为电信行业的主导者,电信运营商更应该通过这次契机来实现自己商业模式的扩展。国外运营商已经开始认识到云计算的价值。美国电信运营商在硕士学位论文研究内容与结构第三章基于云平台的电信经营分析系统设计首先对传统电信经营分析系统做简要的概述,涉及系统架构、技术架构、系统特点;结合当前电信业务量增加、业务数据几何增长所带来的挑战,提出了基于云平台的经营分析系统瓸设计方案,并针对方案中的技术要点给予阐述。中海量数据的产生原因,分析了海量数据的类型;然后介绍了海量数据的一第五章测试与验证首先介绍了测试平台搭建的有关内容;然后选论文的创新之处本文选题前沿,关注与云计算这一信息技术领域相关的最新热点话题,着重探讨了云计算在通信领域的应用现状和前景,并针对当前电信业务量猛增、数据量级别几何化增大、现有的电信经营分析系统已面临发展瓶颈等的现状,提出了基于云平台构建的方案,并针对该系统下的海量数据处理进行了着重探讨。提出了基于云计算平台的电信经营分析系统瓸的设计方案,并对方案中涉及的主要技术要点给予解析。针对下的海量数据处理,提出了基于拆分机制,并行处理实现海云计算在电信行业经营分析系统中对海量数据处理的研究量数据高效处理的方法,并给出了方法的主要思路。系统中所涉及的任务调度算法采用基于改进的贪婪算法,该算法在考虑任务运行时间、任务优先级等前提下,提出了一种更加优化的任务调度方案。以上两点所涉及的算法,均在项目实践中验证了其可行性和有效性。云计算基本概念云计算、分布式计算、效用计算、网络存储的发展,或者说是这些科学概念的商业实现。硕士学位论文义都仅从一个方面对云计算做出定义,缺乏完善。霸的分类所示。图云的分类混合云兼顾以上两种情况的云计算服务。混合云有助于提供按需的,外部供应的扩展。典型应用等既为企业内部又为外部用户提供云计算服务。琒用户通过玟榔来,用编程接运行平台等。用户基于该应用服务引擎,可以构建该类应用。典型应硬件资源,如虚拟主机存储网络数据库管理等资源。用于无需购买服务器、网、。计算带给你的无限乐趣。因为在“云”的另一端,有专业的人员帮你维护云计算可以轻松实现不同设备间的数据与应用共享。在云计算的网络应用模式中,数据只有一份,保存在“云”的另一端,你的所有电子设备只需要连接互联网,就可以同时访问和使用同一份数据】。当然,这一切都是在严格的安全管理机制下进行的,只有对数据拥有访问权限的人,才可以使用或与他人分享这份数据。“云”具有超大的规模,硕士学位论文通过自动化配置管理服务,能够按需自动调配服务,以及根据应用环境的变化自动增加或减少服务的数量。云计算体系架构图云计算的四层架构图硬件平台提供物理层面的基础设施,是构建云计算服务的底层平台。硬件平台要求必须考虑容错和冗余。假若冗余和容错处理在软件层内,硬件注定是要等公司都提供虚拟化产品。应用软件层提供第三方软件,用户根据自己所需购买已部署在云环境中的如,它可以是任意一款基于或者是一个设计用来专门访问云计算服务的设备,抑或是一台带有浏览器的普通个人计算机。如图为云计算的体系结构,图云计算体系结构模型用户交互界面用户通过终端向“云”提出服务请求;硕士学位论文部署工具自治的,根据用户请求智能地部署资源和应用,动态地部署、配置资源监控和测度对用户服务做出跟踪和测量,并提交给中心服务器分析和统择所需的服务,当服务请求发送并验证通过后,由系统管理来找到正确的资源,接着呼叫部署工具来挖掘服务云中的资源。服务提供工具需要配置正确的服务栈或云计算关键技术云计算由一系列新技术结合而成,由分布式计算、并行计算、网格计算等技按需部署是云计算的核心。要解决按需部署,必须解决资源的动态可重构、监控和自动化部署等,而这些又需要以虚拟化、高性能存储、处理器、高速互联网等技术为基础。所以云计算除了需要仔细研究其体系结构外,还要特别注意研究计算资源的动态可重构、资源监控、自动化部署、虚拟化及海量数据的存储及其并行处理等关键技术。在云计算中,体现为将虚拟资源池中的资源进行划分、安装和部署,给用户置绾痛娲淖远渴稹緇。系统资源的部署有多个步骤,自动化部署过程通过调用脚本,实现不同厂商设备管理工具的自动配置、应用软件的部署和配置,确保这些调用过程可以以静默的方式实现,免除了大量的人机交互,使得部署过程不再依赖人工操作。整个部署过程基于工作流来实现,如图所示。资源池和文件库十十十千千彳产鹤髁饕彳卜图自动化部署方案架构硕士学位论文虚拟化技术也与目前定其对系统上所有虚拟机的访剐诖咳砑槟饣饩龇桨钢校琕在软件套件中的位置是传统意义上操作系统所处的位置,而操作系统的位置是传统意义上应用程序所处的位置。这一额外的通信层需要进行二进制转换,以通过提供到物理资源绱砥鳌诖妗娲钥屯的接口模拟硬件环境。这种转换必然会增加系统的复杂性。分布式文件系统能提供备份恢复机制以保证了分布式处理的可靠性。如的索引,找寻文件块。云计算与网格计算的比较硕士学位论文网格的目标是想要尽可能地利用各种资源。它通过特定的网格软件,将一个庞大的项目分解为无数个相互独立的、不太相关的子任务,然后交由各个计算节点进行计算。即便某个节点出现问题,没有能够及时返回结果,也不影响整个项目的进程,甚至即便某一个计算节点突然崩溃,其所承担的计算任务也能够被总任务调度系统分配给其他的节点继续完成。应该说,从这一点来说,作业调度是网格计算的核心价值。一般来说,尽管云计算也像网格计算一样将所有的资源构筑成一个庞大的资源池,但是云计算向外提供的某个资源是为了完成某个特定的任务。比如说某个用户可能需要从资源池中申请一定量的资源来部署其应用,而不会将自己的任务对于网格计算来说,其资源虽然也已经被池化,在外界看来就是一个巨大的资源池。对于要提交特定任务的用户来说,他并不知道自己的任务将会在哪些网格的物理节点上运行。他只是按照特定的格式,将作业任务提交给网格系统,然后等待网格返回结果。是不同芯片的物理节点被归类到不同的资源池中。云计算提供一种简单易用的管理环境。本章小结硕士学位论文云计算在电信行业经营分析系统中对海量数据处理的研究决策支持、市场经营分析和一线营销服务支撑为服务目标,以客户为中心,以数所示。令通信接口机集团公司侧广域网丫通信接口机通信接口机通信接口机毒令每图两级架构图硕士学位论文务域和数据管理域三大部分,如图所示。图总体系统功能架构建立数据管理域,发挥数据仓库的元数据管理优势,建立全程数据控制机制;获取层图数据层结构信息子层保存各类经过数据仓库技术和分析挖掘工具深加工、提炼而成的信息。信息子层包括指标库、多维数据、报表数据、挖掘模型库、知识库和专业数数据转换和映射、数据的集成整合、数据的校验等多步数据处理形成统一的数据服务。应用层应用层包括功能子层、应用子层和信息适配子层,如图应用层结构示。厥酗蚴钪K胠日趴突菁杏肐现浩簿莞趌营销及产品管客户管理其它管理功能域治鯥莆穹治鯥稹鱨竟芾韑突床霫辞掳榉治鯥突縧崴惴治鰈突隝功能子层参考功能域划分方法,将经营分析系统的基础分析和营销管理等功能划分为营销及产品管理、客户管理、资源管理、合作伙伴供应商管理四大功能域。并将绩效分析、财务分析、工作流管理、规则管理等功能划分为其它管理功能域。应用子层面向企业的运营管理和业务组织模式,其中的应用通过调用和编排功能子层提供的功能集中解决一类业务问题。如面向客户服务和营销管理的客户分析及运营应用、面向管理和决策的决策支持应用、面向企业内部员工绩效的日常工作中能便捷访问经营分析系统所提供的服务。系统安全管理穸諀癫祃系统优化管理图数据管理域结构硕士学位论文系统安全管理负责管理经营分析系统的安全。它包括审计日志记录、接口系统优化管理负责管理经营分析系统的优化,主要分为三个方面系统优化、数据优化和应用优化。的扩展,同时系统应采用统一流行的交互式浏览器界面,便于用户掌握。预测、分析提供丰富的数据源。则以及某些预设阀值,提高决策的准确性理各种实际问题,与业务完美结合。访问需求。云计算的提出,为上述问题的解决提供了新的解决方案。目前,云计算技术已基于云平台的经营分析系统瓸算平台的发展已趋于成熟,像人们熟知的巨头都已推出云平台的,亚马逊的蓝云、微软的取。式、全局可访问的资源组织方式,像互联网一样进行运作,提供计算服务。微软发者、学生和新兴企业所推出的第一个公共云服务,其对和进一步说,开源云计算将是未来发展的趋势,除了上述云平台,还有一些较图云平台架构图图对照图可以看出,。在典型云计算平台架构的基础上,在最顶层图的云计算平台架构示意图分组成,主要考虑系统的海量数据存储能力、高处理能力、高可靠性和低成本等要素。发的文件系统,是一个具有高可靠性和高稳定性的存储平台。数据管理模块提供对海量数据集的管理功能,采用数据库领域中列存储的执行、结果反馈等功能,以及向平台提供作业功能。萃诰蚱教悖喊髁鳌菁釉亍蠩和并行数据挖掘算法等模块,主要实现对海量数据的分析处理,对有效数据的挖掘,主要考虑系据挖掘各步骤的控制及调度。并行椋憾栽词萁懈咝腅处理。由图可知,为四层架构,最上面一层为移动,该层需要部署相应的移动功能。通过用户缑婕八惴釧的调用,移动可以发起对数据处理的请求并能够实现对云计算平台内己处理数据的调用,进而质量、营销管理、营销渠道、新业务及业务数据等功能。备身份码、资费预演等功能。口基于云平台的经营分析系统关键技术分析云计算的提出,为问题的解决提供了解决方案。云计算作为一种新型的超级计算方式,以数据为中心,是一种数据密集型的计算。通过虚拟化、分布式等技术将连接在互联网的计算资源整合起来,形成一个巨大的“资源云”。用户将所需处理数据交付“资源云”执行,而无需关心其具体实现。云计算采用分布式存储的方式存储数据,采用冗余存储来保证数据的可靠性。同时,为了优化系统的执行性能,提高资源的数据利用率,需要对数据进行并行处理。硕士学位论文和一定数目的数据节点组成。命名节点是一个中心服务器,负责管理文件系统的命名域和客户端对文件的访问。数据节点在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在其内部,一个文件其实分成一个或多个数据块,这些数据块存储在数据节点集合里。命名节点执行文件系统的命名域操作,例如打开、关闭、重命名文件和目录,同时决定数据块到具体数据节点的映射。数据节点在命名节点的指挥下进行数据块的创建、删除和复制。的架构图云计算针对海量数据的处理和分析,因此数据管理技术要能够高效管理大规模数据集,同时,如何在庞大的数据中定位所需数据,也是数据管理技术所要解决的问题之一。云系统数据管理技术。是一种为了管理结构化数据而设计的分布式存储系统,这些数据可以是一个稀松的、分布式、稳定的多维分类映射图,这张映射图以行关键字、列关键字、时间戳为索引。管理的数据的存储结构为,话姹続的逻辑结构图中的数据项按照行关键字的字典序排列,每行动态地划分到记录板云系统大部分采用疪谋喑棠剑琈是一种编程模型,言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将操作将与中间键相关的所有中间值合并。务,而就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。硕士学位论文靠性;每个节点会周期性的把完成的工作和状态的更新报告回来。如果一个节点中的主服务器锹枷抡飧鼋诘阕刺K劳觯逊峙涓飧鼋诘愕氖莘奖鸬慕诘恪。每个操作使用命名文件的原子操作以确保不会发生并行线程间的冲突;当文件被任务调度器、底层数据存储系统、输入数据切分、监控“云”系统等方面是将来一方面也是一个流行的研究方向。阶段输出文件本章小结本章在典型云计算平台架构的基础上,根据移动的特点,选择当前已经应用层的三层结构,其中数据挖掘平台层主要实现对海量数据的分析处理。硕士学位论文传统电信海量数据的产生与处理随着信息化程度的不断提高,“数据”早已超出它狭义范畴,它包含各类业务操作数据、统计报表数据、办公类文档、电子邮件、超文本、表格、报告以及图片、音频信息、视频信息等各种数据信息。人们用海量数据来形容巨大的、空前浩瀚的、还在不断增长的数据。如今,电信业务数据正在以指数级速度增长。如、网络的发展增加了数据的增长速度;监控点击流需要存储与以往相比越来越多的不同的数据类型;多媒体数据也增加了对存储的要求;数据仓库和数据挖掘鼓励运营商存储越来越长的时间段内越来越多的数据。这些实际情况导致的结果就是数据大量增加。非结构化数据的需要这些问题,一般采用的应对措施主要如下选用优秀的数据处理相关软件建立广泛的索引建立缓存机制加大虚拟内存硕士学位论文视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分中的海量数据中的海量数据分析云计算在电信行业经营分析系统中对海量数据处理的研究分析模型等数据模型;图传统的源表目标表流程硕士学位论文将文件分配到不同的处理终端中,并行处理这些文件实现数据库仿真运算,处理操作,三兰台任务分恰畉狫“。一图基于拆分机制并行处理海量数据处理流程简图一次性读取源数据表。由于所有目标表的信息都来自源表,那么根据所有目就是、字段。于是通过这样的信息并集,可以得到任务描述见图所示。特耀蚰内干蔍表恒肐数兰据表图硕士学位论文据进行一定条件的拆分。一般是按照电话号码,通过合理指定电话号码的某些位进行拆分,将所有抽取的记录,比较平均地分布在抽取出的文件中。拆分的文件数和拆分位数关系是“的幂”,即拆分位数为貌鸱治募。随着拆分文件数的增加,匹配速度也能得到快速提升。诟慕奶袄匪惴腅任务调度算法这里规定,文中的各个任务同时存在优先级的差异,即各个任务的执行存在任务组并行,且当各个任务组并行时,各个任务执行时间与其单个执行时所需时间一致。如何分配及调度任务分组,即把各个任务分配到任务组中,使得尽可能、将鋈挝穹峙涞絥个并行分组中,每个任务仅执行一次。同时需要说明的是,任务完成总时间为各个任务分组执行的最长估算执行时间的确定基于上文的描述,我们已经得知源数据的执行时间与表的大小成正比,与所经过的僮魇煞幢取碓酱螅璄操作越多,执行时间就越长。但最重要的,依据日志文件得出的平均所需执行时间是解决问题的关键,针对特殊情况下,某任务数据量较以往相差较大,我们进一步优化估算任务执行时间公式如下其中,执行优先级的确定其中,杂谌挝的执行优先级;且优先级界定为絤之间,以此类推。在估算得知任务所需执行时间后以及确定执行优先级后,算法执行步骤描述如下硕士学位论文同时依优先级顺序,将重排。优先级相同的情况下,将估算执行时间长的任务排在前。将余下的猲个任务依次存放到最小的分组中,同时将该任务的估算执算法代码描述如下簂痬个任务分组,在优先级相同的情况下,优先分配估算执行时间长的任务;按照降序排序分组如下如果按照升序排序分组如下对移动现有砹鞒探杏呕诖嘶希杓鳰思想,硕士学位论文测试平台的搭建测试平台的部署设计测试平台的部署设计主要涉及云计算平台底层架构设计的实现,包图所示。负载均衡服务器集群和管理节点图测试平台的部署设计硕士学位论文存储节点集群由具有庞大的海量数据存储能力的集群系统组成,主要完成数据的存取;计算节点主要提供运算功能,完成海量数据的分析处理,实现超大规模计算的请求;应用节点存储各种复杂的逻辑应用。管理节点主要负责对上述节点进行管理。,、测试平台的基础类设计测试平台主要类的设计如图所示。这些类是云计算平台构建的基础。图测试平台基础类的设计该类主要涉及云计算环境中资源提供者所提供的核心基础服务砑布。云计算在电信行业经营分析系统中对海量数据处理的研究的执行一系列带宽、内存和存储设备分配策略的资源部署组件。该类是虚拟机的实例。一个主机能够同步实例化多个虚拟机,并根据预先定类该抽象类用来实现虚拟机处理能力的分配策略奔涔蚕怼占涔蚕淼,该测试场景的设计处理算法韵录虺葡钟兴惴与瓺惴钠骄葱惺奔洌橹硕士学位论文算法的可行性与有效性。其中晃8米榈趈次汇总处理的执行时间所示。在每组测试中,分别应用随机调度、轮询调度、贪婪调度、瓻算法各设在某次调度测试中,任务分组数为琓H挝穹肿閗的执行时间,则该次测试的任务调度执行时间定义为;芰。测试结果与分析按照测试场景一的设计进行测试,在源数据相同、目标表个数不同的情况下,标表的个数,纵坐标为平均执行时间。图场景一的测试结果算法处理流程渭屯的比较,分析如下所需时间相同;当保淮涡猿槿氖奔湎匀簧儆诙啻纬槿氖奔洌訬个硕士学位论文瓻算法的测试结果与分析度算法的平均执行时间。个任务分组的调度结果分析表场景二中相同优先级的示例数据的任务分组结果瓻调度,表场景二中不同优先级的示例数据的任务分组结果瓻调度,瓻调度在估算得出各个任务执行时间以及确定优先级的前提下,优先图场景二中相同优先级的示例数据的任务分组执行时间图场景二中不同优先级的示例数据的任务分组执行时问硕士学位论文顺序读取峙涞个任务分组中,这两种调度算法都不考虑任务的估算值较大;但是这两种调度之间的优劣是随机的,不具有确定性。贪婪调度和瓻调度的调度策略相似,都是先将任务按照估算执行时相同优先级情况下,狤调度袄返鞫轮询调度和随机调度;不同优先级

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论