智慧旅游大数据集成平台-方案建议书

上传人：1*** IP属地：广东上传时间：2024-07-20 格式：DOC 页数：85 大小：2.09MB 积分：12 举报 版权申诉

已阅读5页，还剩80页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

智慧旅游大数据集成平台方案建议书PAGE3PAGE3目录1.项目建设背景 42.旅游大数据集成平台 3112.1.旅游大数据集成平台概述 3112.1.1.建设背景 3112.1.2.大数据云平台现状 3112.2.平台指导思想 3132.2.1.平台设计的指导思想 3132.2.2.平台选择的指导思想 3142.2.3.平台应用的指导思想 3142.3.总体解决方案 3162.3.1.总平台旅游大数据的存储解决方案 3182.3.2.总平台旅游大数据的计算解决方案 3192.3.3.总平台旅游大数据的文件传输解决方案 3212.4.平台总体设计 3242.4.1.Hadoop云平台的总设计原则 3242.4.2.Hadoop云平台架构 3252.4.3.平台的基础架构设计 3262.4.4.高用性设计 3342.4.5.业务分析平台 3352.4.6.数据管理平台 3372.4.7.数据访问平台 3422.4.8.数据管制和集成平台 3522.4.9.运营平台 3532.5.平台功能 3512.5.1.总体要求 3512.5.2.平台业务功能 3512.5.3.平台技术功能 360项目建设背景智慧旅游来源于“智慧地球(SmarterPlanet)”及其在中国实践的“智慧城市(SmarterCities)”。2008年国际商用机器公司(InternationalBusinessMachine,IBM)首先提出了“智慧地球”概念,指出智慧地球的核心是以一种更智慧的方法通过利用新一代信息技术来改变政府、公司和人们相互交互的方式,以便提高交互的明确性、效率、灵活性和响应速度。由此,“智慧的城市”、“智慧的企业”与“智慧的行业”等概念应运而生。全世界的企业和政府都对“智慧”产生了自己的认识和理解。旅游业是高关联度、高综合拉动性的产业。它是集交通、旅行社、景区景点、饭店宾馆、餐饮、商业、娱乐、金融投资、房地产等产业为一体的产业群。考虑智慧的旅游公共服务平台的建设,就必须对满足当前及未来游客,经营者,市场管理者的综合需求,从引导和打造更加智慧的的产业链角度,以创新的国家级智慧旅游公共服务平台这种形式为整个生态体系进行服务。获得国内领域的良好实践后,未来可以考虑向全球提供服务和体系的输出。本项目旨在建立旅游行业的一体化信息服务平台,通过构建游客服务网站平台、智慧旅游景区（点）信息亭及智慧旅游智能终端应用等工具,实现针对游客的旅游信息服务和旅游体验表达,服务游客结伴出行、紧急救助等业务需求。系统按照SoLoCoMo（Social-Local-Communication-Mobile,社交-本地-沟通-移动）模式构建,全面提升游客旅游体验与旅行品质。通过游客服务网站平台（So）,实现游客出行前信息检索、结伴出游、辅助游客完成票务预订等；通过智慧旅游信息亭（Lo）和智能终端（Mo）的交互应用,实现智能导览、紧急求助、旅游感受发布等,并通过位置服务等功能,实现同伴位置检索及网上互动；利用Wiki方式,发动游客参与,严格审核,维护针对景区（点）的唯一、权威的旅行攻略信息,满足游客行程规划及旅行过程中的旅游辅助需要。最后,构建涵盖旅游政府主管部门、旅游景区、旅游服务机构和游客的沟通（Co）体系让游客与管理者、经营者可以随时互动,并实现与目前广泛使用的通用微薄平台的互连与同步,为旅游活动相关主体提供网上信息发布与在线交互的实时联动平台。

PAGE317PAGE317旅游大数据集成平台旅游大数据集成平台概述建设背景旅游大数据的产生:众所周知,随着信息社会的快速发展,信息量以爆发式的速度增长。这些数据的特征表现为数据量大,一般为TB级或PB级甚至更大。数据类型多,可以是结构化的表单、半结构化的文本、视频、图像、语音、及非结构话的文件。而全国旅游数据也是异常巨大,形成了旅游大数据,而面对庞大而复杂的信息体系,我们把整个大数据分成了两个层次,第一个层次是基础数据,包括所有的景区信息、地图、POI、景区周边环境信息等等。第二个层次就是应用和交易数据,以游客所产生的数据为主。目前的大数据应用主要是从第二个层次做延伸,也仅仅体现在在线旅游中,包括做得比较好的百度的旅游数据预测系统与蚂蜂窝游客点评数据等等,它们大都从监管和营销的角度出发。但是我认为目前市场上没有一种产品能真正满足游客的游中体验,而其实游客才是真正实现智慧旅游的核心价值。而且从游客体验的吃、住、行、游、购、娱六大要素来看,中国人的旅游方式是以景区为原点延伸的,景区基础数据的应用应该是游客体验中最重要的一环,但是目前所有的导航服务系统都是针对陆路交通的,景区内基础信息是一个盲点,更谈不上基于此基础数据的景区内导航、语音播报、LBS定点等产品的研发了。旅游大数据的挑战：如何对这些数据进行高效存储,如何对这些数据进行分析和处理,以获取更多有价值的信息。旅游大数据集成平台应运而生。因此,通过整合国家智慧旅游公共服务平台、交通、气象、酒店、餐饮、旅行社等相关数据,并结合旅游管理和目的地促销活动中产生的所有数据形成国家旅游大数据集成平台。通过对数据筛选、分析,提供如旅游行业发展动态、服务模式、旅游者偏好等的数据分析报告,为国家旅游决策提供数据支撑。大数据云平台现状目前,随着云计算的高速发展,Hadoop及Hadoop的生态圈逐渐壮大,但真正商用且成熟的Hadoop云平台架构却非常少。本方案结合国内的大数据应用巨头百度、阿里巴巴、腾讯,即“BAT”的Hadoop云平台同时,也结合并学习国外的大数据巨头Hadoop应用发布商Cloudera,Hortonworks,MapR,即“CHM”的Hadoop商用云平台,利用ApacheHadoop开源的力量,推出一套稳定、商用、高效、成熟、开源、易开发,易扩展的大规模hadoop云平台——HDP（HadoopDataPlatform）,以满足全国的旅游数据的采集、存储、分析和发掘和应用。平台指导思想服务满意率主要考核供应商在服务期限内服务内外部客户的满意度。包括投诉接通率、报告及时性两个方面。投诉接通率是公共服务可信的重要保障。投诉接通率是投诉接通次数（包括电话、网站响应）/投诉总次数。报告及时性是对国家旅游局要求的相关服务的响应时间,计算方法为报告按时提交次数/报告总次数。这需要投诉方面的大数据有快速的分析和处理,需要设计Hadoop云架构中的storm、hbase、hive的应用和优化。下面主要从平台的设计、选择和应用来进行思想指导。平台设计的指导思想因为大数据是由分布存储在集群节点中多个单节点的磁盘空间中,能被进行分布式处理的数据构成的一个数据总体。大数据的规模可以随点节点数量的不断增加而不断扩大。旅游大数据集成平台的设计目标:可以存储海量数据可以进行高速处理可以快速开发出并行服务可以运行在廉价机器搭建的集群上所以,我们选择Hadoop。因为Hadoop是一个能够分布式存储大数据,并且能对大数据进行分布式处理的软件框架。主要由HDFS和MapReduce组成。它主要有以下几个优点:高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性:Hadoop能在各节点之间动态地移动数据,并保证各个节点的动态平衡,因为其处理速度非常快。高容错性:Hadoop能够保存数据的多个副本,并且能够自动将失败的任务重新分配。低成本:Hadoop可以运行在廉价服务器上管理海量数据,降低了成本。由Apache基金会所开发,纯Java编写的开源系统。平台选择的指导思想平台应用的指导思想智慧旅游是旅游业发展到现阶段出现的一种旅游新形态,是旅游业与科技创新融合发展的典范,是旅游业未来发展的趋势。智慧旅游发展的直接受益者将是旅游者,它将使旅游者享受到更多的智慧旅游服务。比如游客通过手机、IPAD等工具,到网上查询观光信息、网上订票,还可以订制私人旅游线路,合理安排个人日程,最大化地利用旅游时间。总体解决方案总体的解决方案是采用成熟、商用、稳定的Hadoop云平台—HDP,核心技术主要是Hadoop与其生态系统的整个云技术家族。本平台架构包括数据访问、数据管制与集成和数据监控模块,平台提供了丰富的大数据接口,为国家旅游各大平台提供大数据的支撑,比如：旅游公共信息发布及资讯平台,中国旅游产业运行监管平台,全国各景区门票预约与客流预警平台,多语种的旅游形象推广平台等。详细如下如所示：图10-1Hadoop云平台总解决方案图国家旅游数据最重要的是数据分析,通过HDP,可以得到如下的分析:图10-2数据分析方案图数据分析结果快速形成图表:图10-3数据分析展示图旅游大数据分析平台需要从各个景点的系统传输大量的非结构化数据文件,我们的文件传输解决方案是:320320图10-4旅游大数据文件数据传输图总平台旅游大数据的存储解决方案存储方案核心技术其存储的核心技术解决方案是:HBASE（数据库的首选技术）HDFS（文件存储首选技术）方案核心技术介绍 HDFS:HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统.HDFS有着高容错性（fault-tolerant）的特点,并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（highthroughput）来访问应用程序的数据,适合那些有着超大数据集（largedataset）的应用程序。 HBASE:HBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。方案设计图图10-5总平台旅游大数据的存储解决方案图总平台旅游大数据的计算解决方案其分析的核心技术解决方案是: 高性能并行计算引擎:MapReduce2.0（离线）、Spark（内存）、Storm（实时）、Tez（底层）MapReduce2.0的介绍MapReduce2.0或者MRv2具有与MRv1相同的编程模型,唯一不同的是运行时环境。MRv2是在MRv1基础上经加工之后,运行于资源管理框架YARN之上的MRv1,它不再由JobTracker和TaskTracker组成,而是变为一个作业控制进程ApplicationMaster,且ApplicationMaster仅负责一个作业的管理,至于资源的管理,则由YARN完成。简而言之,MRv1是一个独立的离线计算框架,而MRv2则是运行于YARN之上的MRv1。Spark的介绍Spark基于mapreduce算法实现的分布式计算,拥有Hadoop、MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map、reduce的算法。Storm的介绍Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的。Tez的介绍Tez是基于HadoopYarn之上的DAG（有向无环图,DirectedAcyclicGraph）计算框架。它把Ｍap/Reduce过程拆分成若干个子过程,同时可以把多个Ｍap/Reduce任务组合成一个较大的DAG任务,减少了Map/Reduce之间的文件存储。同时合理组合其子过程,也可以减少任务的运行时间。方案设计图Storm:MapReduce也不适合进行流式计算、实时分析,比如广告点击计算等,而Storm则更擅长这种计算、它在实时性要远远好于MapReduce计算框架。Tez:运行在YARN之上支持DAG作业的计算框架,并且更底层,对pig,hive等的支持比较高。图10-6总平台旅游大数据的计算解决方案图总平台旅游大数据的文件传输解决方案文件传输解决方案“数据通”(FastFileTransfer:FFT)提供文件网关,核心传输工具,安全认证,传输监控等功能,为企业提供一个统一,安全,高效的传输平台。方案功能介绍FFT具有内置的完整安全性功能,包括连接节点安全验证,传输中数据加密以及数据完整性验证。FFT具有出色的带宽控制功能,提供了有保障的传输时间,充分利用了可用带宽,同时让其他网络流量可公平使用带宽。FFT拥有灵活开放的架构,支持在所有主要的操作系统直接的跨平台传输,提供开放的可扩展的软件开发包,API接口,能够方便的将“数据通”的技术和产品无缝集成到现有的应用程序和工作流程管理平台中。传输架构设计各地方景点都会用FFTP2PServer将各地数据上传到旅游大数据平台,FFTConsole监控所FFT服务器的运行。此外还可以考虑HA架构保证服务的不间断性。图10-7传输架构设计图平台总体设计Hadoop云平台的总设计原则Hadoop云平台作为大数据的分布式的计算平台,必须具备分布式系统设计的重要且必须的设计原则,本平台严格根据以下分布式系统的设计原则进行设计:HighReliability高可靠性HighScalabilty 高可扩展性HighRobustness高鲁棒性HighAvailabity 高可用性高可靠性高可扩展性高鲁棒性Federation是简单鲁棒的设计,由于联盟中各个Namenode之间是相互独立的。大部分改变是在Datanode、Config和Tools,而Namenode本身的改动非常少,这样Namenode原先的鲁棒性不会受到影响。比分布式的Namenode简单,虽然这种实现的扩展性比起真正的分布式的Namenode要小些,但是可以迅速满足需求。另外一个原因是Federation良好的向后兼容性,已有的单Namenode的部署配置不需要任何改变就可以继续工作。因此Federation（联盟）是未来可选的方案之一。在Federation架构中可以无缝的支持目前单Namenode架构中的配置。高可用性hadoop2.0的HA机制有两个namenode,一个是activenamenode,状态是active；另外一个是standbynamenode,状态是standby。两者的状态是可以切换的,但不能同时两个都是active状态,最多只有1个是active状态。只有activenamenode提供对外的服务,standbynamenode是不对外服务的。activenamenode和standbynamenode之间通过NFS或者JN（journalnode,QJM方式）来同步数据。Hadoop云平台架构图10-8Hadoop云平台架构图平台的基础架构设计智慧旅游公共服务平台需要云计算基础架构为了快速构建以上各种平台以满足业务功能的建设,运营和扩张,更好的支撑智慧旅游业务的经营,需要高等级基础架构平台进行支撑。根据旅游行业的特点,我们建议采用云化的基础架构进行支撑。同时,采用双活/多活架构来满足业务连续性和客户体验的要求。旅游产业自身是综合性服务产业,同时旅游产业与其他产业的正在不断的深度融合,这就要求要求智慧旅游的基础架构平台要能与未来城市与社会服务的对接能力要能够支撑未来5~10年的发展需求,根据最佳实践,按需建设的业务需要云化的基础架构。旅游行业具有季节性、周期性,作为行业平台,需要按需扩展的计算能力进行支撑,这就必须采用先进的云化建设模式来满足业务高峰期的处理能力。旅游行业的客户体验具有跨地域特点,同时考虑途体验和地域体验,需要平台能够为整个过程提供一致的漫游体验。因此,需要考虑在全国进行业务能力的建设,初期计划使用双活的数据中心设计来满足南北大区客户的需求。同时,我们也应充分考虑未来旅游业务模式的不断创新的必然性。智慧旅游提供核心基础架构整体设计智慧旅游基础架构平台的整体架构设计:图10-9智慧旅游基础架构平台的整体架构设计图在初期建设中,采用南-北双活的数据中心结构来满足整个中国的业务需求:图10-10南-北双活的数据中心结构图技术构架模式上,采用以POD为建设单位的标准化建设机制:数据中心站点内的部署结构多活数据中心的整体网络架构实现:图10-11多活数据中心的整体网络架构在数据中心的内部,根据业务要求,需要划分如下逻辑区域:测试区核心生产区域DMZ区域管理区域存储区域合理的逻辑分区保证了业务的有序开展数据中心外的部署结构CDN内容加速网络的建设也是保证海量客户体验的基础,拟在初期建设阶段完成后,在后续阶段完成国内CDN节点的部署。图10-12CDN内容加速网络图CDN服务以多媒体视频为例:图10-13CDN服务以多媒体视频图考虑国外访问的需求,在国内CDN网络建成后,将前端业务平台扩展到国外。同时完成与国际平台（B2B对接,O2O平台对接,支付平台与渠道对接,其他行业应用平台对接）的整合。拟采用Softlayer平台完成国外的平台承载能力。整体运维方案图10-14整体运维图安全架构设计在云环境下,安全管控将发生如下变化:图10-15安全架构设计图其中,“基于云的服务与管理”指智慧旅游公共云提供的公共云安全服务。本项目将进行适当评估这些云服务的必要性,并进行整合分析。具体而言,将在如下层面实现安全:PAGE344PAGE344业务连续性的设计可以预见,智慧旅游公共服务平台将在未来融入中国社会的重要信息化支撑体系,其信息系统的安全将会直接影响到国民经济的正常运行,直接关系到社会稳定和群众生活。我国信息安全的防护能力较弱,安全保障水平不高,就信息化平台来说,建立统一的灾难恢复和业务连续性管理机制,信息安全和灾难恢复工作是必须考虑的需求。智慧旅游公共服务平台采用双活/多活的基础架构设计,在建设时,充分考虑了业务连续性的设计。在业务连续和容灾备份建设中,以下几个概念非常重要,它们也是衡量业务持续以及容灾备份需求的指标。恢复时间目标（RTO）恢复时间目标（RecoveryTimeObjective,简称RTO）是指信息系统突发事件发生后,从信息系统故障导致业务停顿时刻开始,到信息系统恢复至可支持各部门运作、业务恢复运营之时,此两点之间的时间段称为RTO。一般而言,RTO时间越短,即意味要求在更短的时间内恢复业务至可使用状态。虽然从管理的角度而言,RTO时间越短越好,但是,这同时也意味着更多成本的投入。RTO目标的确定可以用下图来说明:图10-16RTO指标恢复点目标（RPO）与RTO目标不同,RPO目标的确定不是依赖于企业业务规模,而是取决于企业业务的性质和业务操作对数据的依赖程度。因此,RPO目标对相同行业的企业而言会有些接近,而对于不同行业的企业来说仍可能会有较大差距。业务连续性的需求业务连续性有如下的建设需求考虑资源整合和架构优化,逐步按照生产、查询、公共服务、交换等多种专业分区管理,形成南北中心一体化基础架构和运维支持专业体系；防范可能的不同级别的灾难的发生（设备、机房、区域性等）成为目前风险防范的重点；需要制定成体系的、规范的灾难恢复制度和计划；需要建设规范的、有清晰责任定义的灾难恢复管理组织；灾备机制需要针对核心生产进行有计划的演练,以确保灾备中心的真实可用。业务连续性的模式设计1.灾备工作模式常见的灾备工作模式主要有两种,即主备模式和双活模式；主备模式是灾备中心处于备份接管状态,不对外提供服务；双活模式是灾备中心承担对外服务功能,通常需要远程集群处理技术支持。本次项目建设的模式的双活模式。该模式在系统建设开始时同步考虑灾备的实现,即北方生产中心对客户提供服务的同时,南方生产中心同时为客户提供服务。系统具有如下特点:完全杜绝数据中心灾难、网络故障对生产的停顿影响,无需通常意义上的灾难切换过程在计划内维护的场景下:“”对数中的大划维护以正工时完成由最的术资源支持2.运行管理模式ECC7*24统一日常运行维护,对一个中心的维护必须考虑到对另外一个中心的影响涉及到多中心并行中心运作的其他运维工作,需要统一的组织架构以方便沟通提高效率需要便捷有效的沟通平台支持协调工作,IM是一个成熟可行的方式,沟通平台本身也需要双中心冗余高用性设计HDFS的HA功能通过配置Active/Standby两个NameNodes实现在集群中对NameNode的热备来解决单点故障问题。HDFSHA的解决方案可谓百花齐放,LinuxHA,VMwareFT,sharedNAS+NFS,BookKeeper,QJM/QuorumJournalManager,BackupNode等等。目前普遍采用的是sharedNAS+NFS,因为简单易用,但是需要提供一个HA的共享存储设备。而社区版已经把基于QJM/QuorumJournalManager的方案merge到trunk了。高可扩展性是来自于hadoop的存储方案HDFS,现在急需大规模的部署和应用的商用方案。在大规模部署中,熟练使用ＣＭ和Ambari是必须且首要的选择。而在CM与Ambari中只有Ambari是Apache的顶级开源项目,所以选择Ambari来管理并设计。图10-17Hadoop云平台运行监控图业务分析平台作为业务分析和决策支持的手段分为四种:标准报表、主题分析、在线分析、数据挖掘。1.标准报表标准报表是决策支持平台的核心功能,可以综合日常医疗卫生报表序列。2.主题分析主题是在较高层次上将组织信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应组织中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。3.联机分析联机分析处理（OLAP）是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满"维"“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维,使用户能对不同维度上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。OLAP的基本多维分析操作有钻取、切片和切块、以及旋转等。钻取是改变维的层次,变换分析的粒度。它包括向上钻取和向下钻取。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数；而向下钻取则相反,它从汇总数据深入到细节数据进行观察或增加新维。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片；如果有三个,则是切块。旋转是变换维的方向,即在表格中重新安排维的放置（例如行列互换）。OLAP有多种实现方法,根据存储数据的方式不同可以分为关系OLAP（ROLAP）、多维OLAP（MOLAP）、混合OLAP（HOLAP）。ROLAPOLAP,将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等形成了星型模式。,,,雪花模式MOLAPOLAP实现（MultidimensionalOLAP）。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成"立方块（Cube）"的结构,在MOLAP中对"立方块"的"旋转"、"切块"、"切片"是产生多维数据报表的主要技术。HOLAP表示基于混合数据组织的OLAP实现（HybridOLAP）。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。4.数据挖掘数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示隐藏其中的规律,并将其模型化,指导并应用于实际的企业经营中。数据挖掘与OLAP分析、预定义报表和即席查询等有很大的区别。后三者通常是用户对所关心的业务指标,按照已知的角度进行分析；而前者则是在业务问题和目标明确,但考察的角度不清楚时,对数据进行探索,揭示隐藏其中的规律性,进而将其模型化。不同的实际问题所采用的数据挖掘方法有所不同,有的问题甚至需要结合多种方法共同进行解决。数据挖掘的方法一般分为预测型和描述型。具体而言,本系统要求数据挖掘应用能支持以下各类方法:预测型（Predictive）方法通常包含以下几种:分类(Classification)/(DecisionTree)（Regression）（TimeSeries）描述型（Descriptive）方法通常包含以下几种:（AssociationAnalysis）（SequentialAnalysis）（Clustering）数据管理平台主要的组件是HDFS和YARN。HDFS的介绍Hadoop分布式文件系统（HDFS）是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实标准。随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍。HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。HDFS可以提供以下特性:YARN的介绍YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的。它完全不同于HadoopMapReduce,所有代码全部重写而成。整个平台由ResourceManager（master,功能是资源分配）和NodeManager组成（slave,功能是节点管理）。较于HadoopMapReduce,其最大特点是将JobTracker拆分成ResourceManager和ApplicationMaster,其中ResourceManager是全局的资源管理器,仅负责资源分配（由于ResourceManager功能简单,所以不会严重制约系统的扩展性）,而ApplicationMaster对应一个具体的application（如Hadoopjob,SparkJob等）,主要负责application的资源申请,启动各个任务和运行状态监控（没有调度功能）。所以YARN,作为资源统一管理和调度平台,具有以下的特点资源统一管理和调度平台应该提供一个全局的资源管理器。所有接入的框架要先向该全局资源管理器申请资源,申请成功之后,再由框架自身的调度器决定资源交由哪个任务使用,也就是说,整个大的系统是个双层调度器,第一层是统一管理和调度平台提供的,另外一层是框架自身的调度器。现有的分布式计算框架都会将系统扩展性作为一个非常重要的设计目标,比如Hadoop,好的扩展性意味着系统能够随着业务的扩展线性扩展。资源统一管理和调度平台融入多种计算框架后,不应该破坏这种特性,也就是说,统一管理和调度平台不应该成为制约框架进行水平扩展。同扩展性类似,容错性也是当前分布式计算框架的一个重要设计目标,统一管理和调度平台在保持原有框架的容错特性基础上,自己本身也应具有良好的容错性。如果采用静态资源分配,也就是每个计算框架分配一个集群,往往由于作业自身的特点或者作业提交频率等原因,集群利用率很低。当将各种框架部署到同一个大的集群中,进行统一管理和调度后,由于各种作业交错且作业提交频率大幅度升高,则为资源利用率的提升增加了机会。非结构化大数据管理及内容分析平台图10-18非结构大数据管理及分析平台图非结构化大数据管理及分析平台由以下几个主要功能模块组成:统一的非结构化数据管理模块,内容分析模块,报表/BI的连接及数据导出模块。非结构化内容管理模块景点非结构化数据的快速管理。分别针对各个景点的资料,可以对接收景点大数据信息的进行模版化的快速创建。如下图,可以针对北京故宫景点,直接指定景点模版创建。图10-19景点模板图通过模版创建的分类管理,可以针对不同景点,旅游局不同业务部门,快速建立对应的团队管理空间。如下两个示例:杭州西湖景区的内容管理和模版保持一致。图10-20模板创建图同时,在不同景点管理空间内,景点的管理员可以自己进行更详细的管理。如下图:故宫特色的展览资料管理等。图10-21景点资料管理图带有索引信息的非结构化数据的管理。如下图,保存非结构化数据的时候,保留适当的元数据索引信息,方便信息的快速查询。图10-22信息查询图针对视频资料的管理,除了在原始文件的管理基础上,还利用大数据平台,进行各种编码的转换,适应在不同的终端上,景点的宣传播放。内容管理平台内置的详细的安全权限管理,达到不同景点,不同的部门间权限可控。图10-23权限管理图统一的内容管理平台具备不同存储设备的管理功能。如下,针对传统的存储,和HDFS的分布式存储,可以通过存储策略直接进行管理。内容分析功能

图10-24非结构化数据存储图大数据内容分析功能模块,主要区分文本内容和音视频内容两类。针对文本内容,可以通过针对外部网站的爬虫,和内部非结构化统一管理平台爬虫,进行数据的统一爬取,同时进行统一的分析。分析的结果,不但可以直接通过分析界面进行展示,更可以导出到报表系统中,结合数据仓库的结构化数据,进行统一的报表和业务价值挖掘。内容分析可以从时间序列的维度进行总结,如下图:在不同的时间段,同样的内容是不一样的。例如通过分析各个旅游景点照片网上的发帖量,旅游攻略的阅读量等信息,通过以下的图片,可以直观的得到哪些月份会是游客高峰。340340图10-25游客高峰统计图还可以根据相应的参数,制定一些数据共识,对数据分析结果进行数学偏差的纠正。图10-26数据分析结果图对各纬度信息的趋势进行评估:PAGE354PAGE354图10-27数据趋势图通过自动识别的地理位置信息,进行分析。如下图:各个城市的旅游游记的发表数量:图10-28地理位置信息分析图热点抽取,可以根据某个景点的所有非结构化数据,进行大数据分析,得到景点的各种环境信息。如下图:图10-29景点的各种环境信息图通过各种大数据的集中,可以分析某个景点的游客的消费喜好,例如下图:从游客的游记和相关的内容资料中,抽取各种金融机构的关联关系,可以看出,游客更喜欢国内的阿里巴巴和京东。在景点的门票销售,促销方案,就可以在这些网站上进行推广。图10-30非结构化数据分析结果图数据访问平台主要的组件是\hHive|\hTez|\hPig|\hStorm|\hSpark|\hHBase|\hAccumulo|\hSolrHive的介绍Hive是一种建立在Hadoop之上的数据仓库架构。它提供了:(ETL)的工具。HadoopHive的基本特点是它采用HDFS进行数据存储并利用Map/Reduce框架进行数据操作。所以从本质上来说,Hive就是个编译器,它把用户的操作(查询或者ETL)变换成Map/Reduce任务,利用Map/Reduce框架执行这些任务以对HDFS上的海量数据进行处理。Hive被设计成一种批处理系统。它利用Map/Reduce框架来处理数据。因此,它在Map/Reduce任务提交和调度上有比较高的开销。即使对于小数据集(几百兆)来说,延迟也是分钟级的。但其最大的优点是延迟相对于数据集大小是线性增加的。Hive定义了一种简单的类SQL查询语言HiveQL,让熟悉SQL的用户可以非常容易的进行查询。与此同时,HiveQL也允许熟悉Map/Reduce框架的程序员在查询中插入自定义的mapper和reducer脚本以扩展Hive内嵌的功能,完成更复杂的分析。Tez的介绍Tez是Apache最新开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output,Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,这样,这些分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业。总结起来,Tez有以下特点：Apache）YARNHive/Pig等）Pig的介绍Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。Pig自己实现的一套框架对输入、输出的人机交互部分的实现,就是PigLatin。Zebra是Pig与HDFS/Hadoop的中间层、Zebra是MapReduce作业编写的客户端,Zerbra用结构化的语言实现了对hadoop物理存储元数据的管理也是对Hadoop的数据抽象层,在Zebra中有2个核心的类TableStore(写)/TableLoad(读)对Hadoop上的数据进行操作。Pig中的Streaming主要分为4个组件:1.PigLatin2.逻辑层(LogicalLayer)物理层(PhysicalLayer)4.Streaming具体实现(Implementation),Streaming会创建一个Map/Reduce作业,并把它发送给合适的集群,同时监视这个作业的在集群环境中的整个执行过程。MapReduce在每台机器上进行分布式计算的框架(算法)。HDFS最终存储数据的部分。Storm的介绍Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快（在一个小集群中,每个结点每秒可以处理数以百万计的消息）。Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开发应用。Storm有如下特点:在Storm集群中真正运行topology的主要有三个实体:工作进程、线程和任务。Storm集群中的每台机器上都可以运行多个工作进程,每个工作进程又可创建多个线程,每个线程可以执行多个任务,任务是真正进行数据处理的实体,我们开发的spout、bolt就是作为一个或者多个任务的方式执行的。因此,计算任务在多个线程、进程和服务器之间并行进行,支持灵活的水平扩展。Storm可以保证spout发出的每条消息都能被“完全处理”,这也是直接区别于其他实时系统的地方,如S4。请注意,spout发出的消息后续可能会触发产生成千上万条消息,可以形象的理解为一棵消跟踪消息树中的每个消息,而是采用了一些特殊的策略,它把消息树当作一个整体来跟踪,对消息树中所有消息的唯一id进行异或计算,通过是否为零来判定spout发出的消息是否被“完全处理”,这极大的节约了内存和简化了判定逻辑,后面会对这种机制进行详细介绍。这种模式,每发送一个消息,都会同步发送一个ack/fail,对于网络的带宽会有一定的消耗,如果对于可靠性要求不高,可通过使用不同的emit接口关闭该模式。上面所说的,Storm保证了每个消息至少被处理一次,但是对于有些计算场合,会严格要求每个消息只被处理一次,幸而Storm的0.7.0引入了事务性拓扑,解决了这个问题,后面会有详述。如果在消息处理过程中出了一些异常,Storm会重新安排这个出问题的处理单元。Storm保证一个处理单元永远运行（除非你显式杀掉这个处理单元）。当然,如果处理单元中存储了中间状态,那么当处理单元重新被Storm启动的时候,需要应用自己处理中间状态的恢复。除了用java实现spout和bolt,你还可以使用任何你熟悉的编程语言来完成这项工作,这一切得益于Storm所谓的多语言协议。多语言协议是Storm内部的一种特殊协议,允许spout或者bolt使用标准输入和标准输出来进行消息传递,传递的消息为单行文本或者是json编码的多行。Storm支持多语言编程主要是通过ShellBolt,ShellSpout和ShellProcess这些类来实现的,这些类都实现了IBolt和ISpout接口,以及让shell通过java的ProcessBuilder类来执行脚本或者程序的协议。Storm有一种“本地模式”,也就是在进程中模拟一个Storm集群的所有功能,以本地模式运行topology跟在集群上运行topology类似,这对于我们开发和测试来说非常有用。高效用ZeroMQ作为底层消息队列,保证消息能快速被处理Spark的介绍Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级。Spark提供了与Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark在某些工作负载表现更优秀。处理过程中磁盘的读写,大幅度的降低了所需时间。Spark依赖SparkStreaming对数据进行实时的处理,当然在YARN之后Hadoop也可以借助其他的工具进行流式计算。对于SparkStreaming,Cloudera的评价是：简单:轻量级且具备功能强大的API,SparksStreaming允许你快速开发流应用程序。容错:不像其他的流解决方案,比如Storm,无需额外的代码和配置,SparkStreaming就可以做大量的恢复和交付工作。集成:为流处理和批处理重用了同样的代码,甚至可以将流数据保存到历史数据中。Hbase的介绍HBase是一个构建在HDFS上的分布式列存储系统；是基于GoogleBigTable模型开发的,典型的key/value系统；是ApacheHadoop生态系统中的重要一员,主要用于海量结构化数据存储；从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。Hbase表的特点无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列；\hAccumulo的介绍ApacheAccumulo是一个可靠的、可伸缩的、高性能的排序分布式的Key-Value存储解决方案,基于单元访问控制以及可定制的服务器端处理。使用GoogleBigTable设计思路,基于ApacheHadoop、Zookeeper和Thrift构建。\hSolr的介绍Solr是一个拥有象WebService一样接口的独立运行的搜索服务器。你将能够通过HTTP协议以XML格式将文档放入搜索服务器(这个过程叫做索引),你能够通过HTTP协议的GET来查询搜索服务器并且得到XML格式的结果。Solr的特性包括:（XMLHTTP）HTML管理界面SolrXML数据管制和集成平台Falcon的介绍Falcon提供了一个用于治理和编排Hadoop内部和周边数据流的数据处理框架。该框架为获取和处理数据集、复制与保留数据集、重新定向位于非Hadoop扩展中的数据集、维护审核跟踪与沿袭提供了关键性的管控框架。Sqoop的介绍Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Oozie的介绍Oozie是一个基于工作流引擎的开源框架,是由Cloudera公司贡献给Apache的,它能够提供对HadoopMapReduce和PigJobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行。Oozie工作流定义,同JBossjBPM提供的jPDL一样,也提供了类似的流程定义语言hPDL,通过XML文件格式来实现流程的定义。对于工作流系统,一般都会有很多不同功能的节点,比如分支、并发、汇合等等,Oozie也有类似的一些概念,不做过多解释,更多信息可以参考相关文档。Oozie定义了控制流节点（ControlFlowNodes）和动作节点（ActionNodes）,其中控制流节点定义了流程的开始和结束,以及控制流程的执行路径（ExecutionPath）,如decision、fork、join等；而动作节点包括Hadoopmap-reduce、Hadoop文件系统、Pig、SSH、HTTP、eMail和Oozie子流程Flume的介绍Flume是Cloudera公司的一款高性能、高可能的分布式日志收集系统。支持在系统中定制各类数据发送方,用于收集数据；同时,Flume提供对数据进行简单处理,并写到各种数据接受方（可定制）的能力。具有以下特性:也是scribe采用的策略,当数据接收方crash时,将数据写到本地,待恢复后,继续发送）,Besteffort（数据发送到接收方后,不会进行确认）。Flume采用了三层架构,分别为agent,collector和storage,每一层均可以水平扩展。其中,所有agent和collector由master统一管理,这使得系统容易监控和维护,且master允许有多个（使用ZooKeeper进行管理和负载均衡）,这就避免了单点故障问题。用户可以根据需要添加自己的agent,collector或者storage。此外,Flume自带了很多组件,包括各种agent（file,syslog等）,collector和storage（file,HDFS等）运营平台运营平台主要的组件是Ambari和ZookeeperAmbari的介绍ApacheAmbari是一种基于Web的工具,支持ApacheHadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等。ApacheAmbari支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。350350Ambari主要取得了以下成绩:通过一步一步的安装向导简化了集群供应。预先配置好关键的运维指标（metrics）,可以直接查看HadoopCore（HDFS和MapReduce）及相关项目（如HBase、Hive和HCatalog）是否健康。支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。通过一个完整的RESTfulAPI把监控信息暴露出来,集成了现有的运维工具。用户界面非常直观,用户可以轻松有效地查看信息并控制集群。Ambari使用Ganglia收集度量指标,用Nagios支持系统报警,当需要引起管理员的关注时（比如,节点停机或磁盘剩余空间不足等问题）,系统将向其发送邮件。此外,Ambari能够安装安全的（基于Kerberos）Hadoop集群,以此实现了对Hadoop安全的支持,提供了基于角色的用户认证、授权和审计功能,并为用户管理集成了LDAP和ActiveDirectory。Zookeeper的介绍Zookeeper分布式服务框架是ApacheHadoop的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍Zookeeper的安装和配置文件中各个配置项的意义,以及分析Zookeeper的典型的应用场景（配置文件的管理、集群管理、同步锁、Leader选举、队列管理等）,用Java实现它们并给出示例代码。平台功能总体要求稳定、商用、高效、成熟、开源、易开发,易扩展的大规模hadoop云平台,为国家旅游相关的大数据进行统一的存储、分析、挖掘和应用。平台业务功能旅游统计是旅游发展变化的“晴雨表”,具有“牵一发而动全身”的作用。旅游统计是旅游宏观决策的前提和条件。旅游产业的发展,宏观决策的可行性和现实性都离不开旅游统计数据来实证。旅游业是信息密集型产业,旅游信息是联系旅游产业各要素的纽带。旅游信息的采集是旅游信息工作的首要环节,是进行旅游信息化建设的基础和核心。旅游信息数量庞大,种类繁多,形式多样,时效性强,传递渠道多,涉及范围广,更新速度快,必须建立一套科学合理有效的旅游信息采集长效机制才能保障旅游信息的准确、及时、完整和实用。目前的统计主要涉及以下几个方面:••••旅游企业的基础信息分析统计针对于旅游企业的基础信息进行分析统计,包括:景区基础设施统计:景区等级、占地面积、景点基本情况、人员本情况、运营基本情况以及景区官方方基本情况等。酒店餐饮企业基础信息统计:客房数量、包厢数量、基础服务设施情况、特色菜品情况、接待情况以及运营情况等。其他旅游企业基础信息统计:人员信息、工资福利情况、基础设施建设情况、年审情况等相关内容。旅游从业人员统计系统将专职带团导游、景区导游、旅游行业专家以及其他旅游行业相关从业人员的专业技能信息进行专项性统计,从而形成针对旅游行业人才信息的统计报表内容。其中主要包括:人员年龄、人员性别、教育水平、专业培训历史记录、奖励及处罚记录、带团及工作履历、专业技能、专业领域以及游客评价等多个方面进行分析统计。行业营运信息统计基于系统各类行业运营信息、各企业上报信息,主要对各涉旅机构、企业的经营收入情况以及游客接待情况进行统计分析。同时可在指定时间段、企业范围进行定制型报表查询。综合经营收入统计针对市辖所有景区、酒店、餐饮以及其他相关旅游企业在一定时间或条件下的经营收入情况进行分析统计。主要包括:景区门票收入、客房收入、餐饮收入以及商品销售收入等内容进行统计分析。综合游客接待情况统计针对市辖所有景区、酒店的游客接待情况进行统计分析,主要包括:游客客源地、游客年龄组成、游客性别组成、酒店住入游客数量、客房入住率等多方面进行统计分析。景区流量统计主要统计内容包括:景区级别、指定时间段内游客流量、来源旅行社、游客归属地、带团导游等相关内容。饭店出租率统计针对于市辖的各类涉旅接待酒店、饭店客房出租率进行统计分析,其主要数据来源为旅行社行程计划中所涉及的酒店住宿安排信息以及酒店日常报送信息进行汇总,从而形成实时的酒店客房出租情况的动态统计。主要统计内容包括:酒店类型、酒店级别、客房类型、空闲客房间数、出租客房间数、客房出租率、入住游客来源旅行社、带团导游、客房价格、游客来源等相关内容。自驾游车辆统计通过景区、酒店以及相关企业在系统内进行自驾游车辆信息的日常报送,以及结合交通服务机构的数据,全面的将旅游自驾车辆的信息进行统计分析,从而形成有关各景区、目的地自驾游车辆的实时情况。主要内容包括:车辆类型、车辆来源地、逗留时间等内容。节庆期间专项统计系统将通过定制指定时间段、所辖旅游企业机构的方式,对于专题节庆期间的各类游客接待、经营收入、客房出租以及商品销售情况进行统计,从而能够是旅游局管理部门相关人员及时了解到重要节庆期间的旅游行业运营情况。主要内容包括:景区游客接待情况:景区级别、游客流量、来源旅行社、游客归属地、带团导游。酒店客房出租情况:酒店类型、酒店级别、客房类型、空闲客房间数、出租客房间数、客房出租率、入住游客来源旅行社、带团导游、客房价格、游客来源。自驾游车辆统计:车辆类型、车辆来源地、逗留时间。客源地统计系统将针对入境游客的科院所在地进行分析,从而形成全面的游客客源地统计分析数据,以便于旅游局管理部门管理人员以及企业经营者能够全面了解客源发布情况。主要内容包括:游客所在地地区、客源比例、入境天数、接待旅行社以及带团大有等相关信息。游客行为监测统计系统将各类统计信息、业务信息以及上报信息进行综合性分析工作,为旅游行业企业提供科学的游客行为监控统计,通过游客在参团后的一系列行动,分析不同游客的喜好。例如可通过系统获取到:“客源地为北京的45-55岁的男性游客,绝大多数入住4星以上宾馆,以及希望浏览山水类景区,同时平均旅游行程为3天,旅游消费在2000元以上。旅游景区峰值预警旅游企业用户权限管理为相关旅游行业企业进行权限、角色管理,通过由系统统一分配的各企业管理员角色根据企业实际情况进行二次分配多个不同的用户角色以及权限,使得企业内各类用户均可以登录使用系统相关功能。旅游局管理部门管理人员权限管理旅游局管理部门领导为旅游局管理部门各级领导提供各类旅游行业数据的统计分析、电子合同、电子行程计划等行业数据的查询等相关功能。旅游局管理部门管理人员为旅游局管理部门管理人员提供旅游行业数据的统计分析、电子合同、电子行程计划查询、业务审批等相关功能。现场执法检查人员为旅游局管理部门现场执法检查人员提供电子行程计划查询、电子合同查询以及现场执法检查操作等相关功能。旅游企业管理人员权限管理旅行社企业用户,主要分为管理员、旅行社计调、旅行社门市人员、旅行社专职导游以及旅行旅行社社业务主管等多种类型。其中:旅行社管理员：主要负责旅行社内部账号、权限分配,以及旅行社基础信息管理、人员信息管理等业务管理功能。旅行社计调人员:主要负责旅行社线路管理、行程计划管理、电子合同管理、导游招聘以及现场管理等行程管理功能。旅行社门市人员:主要负责线路报名、散客管理、游客及供应商信息管理等线路拼团、销售业务的管理功能。旅行社业务主管人员:主要负责各类业务数据报表、旅游局管理部门信息上报、业务审批等业务管理管理功能。旅行社专职导游人员：主要负责旅游线路带团工作,使用手机客户端进行各类业务处理,主要包括,行程查询、供应商查询、个人信息管理以及散客管理等功能。酒店宾馆企业系统为各类旅游服务酒店、住宿机构提供企业管理员以及业务管理人员角色等多种用户类型。其中:企业管理员:主要负责企业内部账号及角色管理、酒店基础信息管理、房型、酒店配套设施等辅助信息管理维护功能。酒店业务管理人员:主要负责旅游局管理部门信息上报、行程确认、酒店客房入住报表统计以及房型动态信息管理。景区景点为各类旅游景区以及相关企业机构提供景区管理员以及景区业务管理人员角色等多种用户类型。其中:景区管理员:主要负责景区内部各类人员账号、景区基础信息管理、景区附属服务设施信息管理以及景点信息管理。景区业务管理员:主要负责旅游局管理部门信息上报、行程确认以及景区接待情况数据统计等相关工作。旅游车辆服务企业为各类旅游车船服务企业提供企业基础信息管理员角色以及企业业务信息管理员等多种用户角色。其中:车船公司管理员:主要负责企业内部各类人员账号、基础信息管理以及车辆船舶信息管理。景区业务管理员:主要负责旅游局管理部门信息上报、行程确认以及车辆船舶使用情况数据统计等相关工作。其他旅游服务企业为各类旅游服务企业、机构提供企业管理员以及业务管理员角色,相关其他企业包括:休闲演艺场所:农家乐、酒吧、KTV等游客特色服务:漂流竹筏、特色旅游项目等；公共服务机构:游客集散中心、导游服务中心等。平台技术功能业务分析商务智能平台软件能平台软件严密有效的安全性机制能有效保证企业数据的安全,为真正的企业级应用打下良好的基础。元数据管理商务智能平台软件具有一致,统一的元数据管理,同时在元数据层具有完备的安全性控制。能够为整个企业提供一致的数据视图。由管理员或高级用户定义元数据模型,管理种类繁多的字段、表连接、视图等等对象,并且元数据可以贯穿整个商务智能平台软件应用始终,便于最终用户探查细节数据。能够平滑的适应从简单到复杂的应用环境。开放的数据访问用户可以访问各种数据源,基于这些数据源制作报表,报表制作纯浏览器方式:商务智能平台软件采用的是纯浏览器方式,整个系统中最终用户的使用界面为真正的零安装、零维护。多数据源:商务智能平台软件可以同时连接多数据源,甚至异构数据源,一个报表中可以分页设计,每页都可以进行多查询,每个查询可以连接多个数据源。从而使系统能够很好的应用在复杂环境中。报表制作的方便性:商务智能平台软件在纯浏览器界面中,提供了基于鼠标拖拽的强大的格式定义能力,其优异的XML可视化报表定义方式,可以使用户非常方便的控制报表中内容的精确布局,也可以很方便的制作中国特色的非平衡报表。只需要做简单的操作就可以完成穿透钻取,级联提示等功能。使得最终用户可以自己制作个性化的报表,IT部门从烦杂重复劳动中解脱出来,将精力集中在如何利用数据。报表内容:商务智能平台软件可以将包括声音,视频,图形,表格,文字,关系行数据库内容,OLAP等任何有用的信息集成在报表中,同时这些内容还可以和查询相关联,使报表的内容声色并茂,内容饱满,充实。OLAP和关系型数据源制作报表支持在图形等内容上进行钻取支持在报表制作过程中使用MDX可直接制作非平衡报表,比如将不同维度或字段的内容在同一行或列展现在报表制作过程中进行查询的连接,交并补关系设置更为方便支持仪表盘功能支持地图报表,并提供例子可在图形中添加基本线,标注等,比如表达式的结果,平均,最大最小,标准偏差等穿透钻取:商务智能平台软件的各个模块能够紧密集成,能够迅速有效地传递数据流和安全性信息,用户可以从一个主题钻取到另一个主题,其独特的分析后的查询,使用户能够通过OLAP分析再穿透钻取到相关的明细数据,适应了用户的分析和使用习惯,从而能从业务上层次上跟踪发生了什么问题和为什么发生了这样的问题。高级报表功能:360360报表发布商务智能平台软件中,所有数据立方体、报表、图表、分析,查询等等对象都可以发布到统一的信息门户中,做到信息集中,为使用者的访问增加便捷。Web的分析功能分析开发模块,提供纯浏览器的高级分析功能。API商务智能平台软件作为一个企业级的端对端的解决方案,产品本身已经提供了全面完备的功能。同时商务智能平台软件也完全开放API供企业内部不同应用系统的集成和根据用户需求所作的二次开发负载均衡商务智能平台软件产品是为企业级应用精心设计的,具有良好的可扩展性能,其服务器本身就具有智能的负载均衡功能,能根据实际使用情况对各个的模块进行负载,满足企业级大用户数并发访问的要求,需要加入一台新的服务器,通过简单的注册就能加入到整个扩展环境中参与负载；并且支持NT和UNIX混和环境的负载均衡,能最大限度的利用现有资源保护已有投资。事件生命周期管理事件开发环境,通过他可以在影响业务的事件发生时对用户进行自动的提醒,你可以通过客户端对事件的条件进行定义,设置处理事件的任务。从而为系统提供全面的监控,对用户进行及时提醒。PAGE371PAGE371预测分析平台软件快速直观地创建强大的预测模型您的组织可能已经在数据库、报告、企业资源规划(ERP)、业务分析、在线分析处理(OLAP)及其他技术方面投入了大量资金,协助您管理业务。您可以利用商务智能预测分析软件软件直接访问存储在不同的操作系统中的大量数据,创建强大的预测模型—并且无需编程,即可在图形界面中形象直观地完成此操作。现已推出两个版本的商务智能预测分析软件软件支持分析需求。商务智能预测分析软件专业版包括利用结构化数据所需的所有工具—在CRM系统中跟踪记录的行为和交互、人口分布特征、购买行为及销售数据。商务智能预测分析软件高级版引入了强大的文本挖掘工作台,扩展了商务智能预测分析软件专业版的功能,这种工作台能够从文本数据或“非结构化”数据中提取关键概念、观点和关系,并将它们转换为结构化格式,从而使预测模型更加精确。加速整个数据挖掘流程商务智能预测分析软件软件开创性的图形界面使企业专业分析师轻松地专注于解决问题,而无需花费时间编写程序。工作时,交互式“数据流”直观映射数据挖掘流程,用户能够随时与信息互动,更加快速放心地开发模型。商务智能预测分析软件软件减轻了分析师的非生产性技术负担,使他们得以专心解答业务问题。商务智能预测分析软件软件通过向数据挖掘流程的每一步添加支持文档,支持分析数据重复使用。此外,它还能够以各种方式充分利用部署能力,确保数据挖掘人员、分析师及其他业务用户能够相互协助完成项目,解决各种各样的严峻挑战。数据挖掘人员通过图形界面访问整套先进的分析功能,包括最先进的运算法则、自动化的数据准备工具,以及丰富的交互可视化功能。这些省时技术可实现更大的有效性和准确性,降低日常开销。商务智能预测分析软件软件可为跨行业数据挖掘标准流程(StandardProcessforDataMining,CRISP-DM)提供明确的支持,这种行业标准方法可确保利用数据挖掘技术得到及时可靠的结果。通过自动化更加迅速地获取结果自动化建模功能使软件能够识别最适于解决您的问题的各项技术。这种功能可帮助您一步快速创建最佳模型。您可以选择特定的模型,也可以结合使用多种预测技术生成模型,以便准确地预测结果。采用自动化的数据准备功能,使分析师不必花费大量时间验证和准备分析数据。由于几乎80%的数据挖掘工作时间通常耗费在此类任务上,而商务智能预测分析软件软件能够自动完成这一流程,分析师便能集中精力完成主要工作—解决业务问题。利用所有数据最大限度地获取洞察您可以利用商务智能预测分析软件软件获取更深入的洞察和更准确的预测,这是因为您可以利用所有数据资产创建客户或涉众的完整视图。商务智能预测分析软件软件可在多种平台上利用多种数据库、电子表格和平面文件,因此您可以充分利用所有数据,获取更好的业务成果。这就大大提高了组织解决复杂业务问题的能力。您还能从以各种语言记录的文本数据或“非结构化”数据中提取关键性概念、观点和关系。商务智能预测分析软件高级版提供全面的数据挖掘功能和完全整合的文本分析工作台,轻松地将文档、电子邮件、博客、RSS订阅源等文本数据源中的自由文本数据纳入分析。这样有助于您了解概念、态度、人员、组织和事件之间的关系,并将这些洞察整合到模型。商务智能预测分析软件可与其他数据挖掘工具技术全面整合,使组织能够充分利用现有投资,轻松地实现更多价值。数据挖掘工具®DataCollection系列调查研究软件,可将态度数据纳入预测模型,为您提供可以深入分析客户的丰富资料来源。此外,Statistics界面可从商务智能预测分析软件软件直接访问,因此您无需离开数据挖掘工作台,便能够执行数据准备和处理、统计测试和报告工作。将预测整合到整个企业中商务智能预测分析软件软件使您能够利用各种标准编程接口,轻松地将预测功能部署到业务流程中,从而同时支持实时分析和批量分析流程。您还可利用其他服务管理模型性能,实现分析流程自动化。这些服务可节省时间,并确保持续更新模型及模型的准确性。可通过数据挖掘工具添加创新性分析管理、流程自动化及部署功能,将预测模型转换为企业信息资产。这种最佳的分析平台可提供可靠的可扩展基础设施,提供关键业务流程预测和建议。实现显著的可扩展性和开放性商务智能预测分析软件软件的开放式架构使您能够使用数据、部署模型、预测和了解决策者及自动化的操作系统,包括:呼叫中心工作人员,协助他们提供更多客户乐于接受的产品或服务—提高营收,而不会大幅增加成本其他面向客户的工作人员,以便他们能够向现有客户进行向上销售和交叉销售,留住那些可能会流失的客户—提高客户群的收益率网站,让客户更加轻松地搜寻和购买他们想要的产品,从而增加这一渠道的盈利能力商务智能预测分析软件软件能充分利用IT基础架构,因此无需添加新硬件,即可利用现有的数据库内提供的数据挖掘运算法则,在几分钟内为多条记录评分。中小型企业将会发现,

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

智慧旅游大数据集成平台-方案建议书

文档简介

温馨提示

最新文档

评论