版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于Hadoop旅游数据分析系统的设计目录TOC\o"1-3"\h\u282811引言 1288222相关技术 2291492.1hadoop 2242862.2Spring框架 2282352.3Mysql数据库 34863需求分析 4291542.1数据爬取 441532.2数据分析 4241272.3数据储存 4238692.4分析结果展示 5144724系统设计 690934.1总体设计 668814.2数据爬取 7161324.3数据分析 7180854.4可视化展示 9164884.5数据库设计 97745系统实现 1132405.1开发环境 1172785.2可视化实现 11194475.2.1北京景区数据分析 11249595.2.2天津景点排名 13302495.2.3最热线路排名 13131425.2.4全球目的地排名 14131425.2.5热门旅游线路 14131425.2.6全国景点统计 14229146总结 168281参考文献 171引言国家依据现在仅有的旅游行业飞速的发展情况和互联网技术的发展,迎来了旅游的大数据时代,认为旅游行业信息化应该作为旅游行业过程之中发展和升级的新起点,形成了旅游+大数据的有效形式。大家把眼光聚焦在智慧旅游行业的发展上也是不可避免的,依据国家智慧旅游的公共服务平台中各类旅游相关的存在一系列数据进行整合比如、通行、气象天气、酒店住宿、餐饮美食、旅行部门等,与集合旅游管理以及目的地打折方案中生成全部的数据造成完整的国家旅游大数据集成平台[1]。经过对大量相关旅游数据信息先筛选、从而分析,供给例如旅游行业现阶段信息的发展动向、服务功能、以及旅游爱好者的喜好等的数据分析报告,主要是为了国家旅游决策供给强有力的数据提示。维克托•迈尔舍恩伯格他是最早洞察大数据发展趋势的科学家,可以将他提出的大数据思想逐渐引入到分区旅游当中,建造成旅游的提前预知、监测,操纵以及反应在大数据平台当中,引导旅游上级的部门、旅游各种类型的企业、旅游各大景区、旅游者的全面信息共享。现存的旅游大小各种企业中、旅游景点建设的信息服务平台中,缺失系统的完整的服务信息规划计划[2]。所以政府上级旅游部门掌控建造一个基于大数据分析的旅游信息服务共享平台,即时的利用好大量的旅游更新中的数据,从而更升级增加指引旅游行业经验,以至于更高效地效劳旅游爱好者的特征和偏好,一切以旅游爱好者的需求为关注点。一方面可以为潜在旅游爱好者提供精准的,不同目标目的地的旅游信息共享,另一方面可以为旅游目的地的上级管理部门供给深度数据挖掘,实行高效率的管理和游客经销。2相关技术2.1hadoop Hadoop是由Java语言编写的,是Apache软件基金会是一个用Java语言实现组织所建立出来的开放的分布式服务器集群上储存海量数据和分析应用的开源架构。被准许使用简单的编程模型。在用户端不清楚分布式最低级的细枝末节的情况之下,建立一个分布式程序[3]。分布式文件系统简称:HDFS。HDFS有很多很好的特点,比如提供多个副本,副本丢失自动恢复,有高容错性的机制,并不需要运行在高昂的硬件上,低廉的就可以。Hadoop包含:HDFS和Map(映射)Reduce(归纳)俩个部分。分工明确比如:大量的数据存储了HDFS中,而大量的数据计算则在MapReduce之中[4]。2.2Spring框架现在的一些小型企业在系统实行开发和完备的过程中,一般会遇到一系列各种各样的难办的问题,所以开发者为了更好的处理或者是解决这些问题建立了一个开源的框架,就是现在我们熟知的Spring框架,而且Spring框架是必须再EJB完成相关的开发工作的前提下才能对基本的JavaBean操作进行完成,也就是说再JavaBean操作完善之前,只能运用EJB进行对企业工作中的完成。而且Spring框架还特意的为企业相应的工作设计了各种各样的功能。Spring框架再完成系统完善开发的进行过程中不在只限制于服务器端。还最为便利的方面是Spring框架能够支持各种java应用软件对其进行更加便捷、智能的操作。Spring的工作原理如图1所示。1Spring工作原理2.3Mysql数据库由mysqld、客户程序和库构成的客户机/服务器布局的应用为MySQL。其特点是多用户、多线程。在处理信息的过程中,使用SQL语言会使这一个过程简单化。数据库管理系统拥有丰富的功能,它以SQL的客户关系和服务器模式为基础,拥有着简单的操作模式、安全可靠的特性,能够适用大多数语言编写的访问程序,而且开放了源代码。用户在使用数据库管理系统时,运行快、多线程的特点也能保证用户的体验,跨平台性的特点也方便了开发者的项目开发,除此之外,它还拥有管理方便和完全网络化的优点。同时正是由于源码开放这一特性,其适用范围大大拓展。也正是因为这一原因,Mysql能够快速的使用后端开发。3需求分析3.1功能分析旅游目的地的分析系统大致可以分为三个模块,分别是数据的爬取、数据的分析和可视化。本次设计需要做一个的旅游目的地数据统计分析与实现,此次数据统计分析有如下功能:(1)北京景区数据分析及展示;(2)天津景点排名数据分析及展示;(3)欧洲景点排名分析及展示(4)全球目的地排名分析及展示;(5)线路景点最多排名分析及展示(6)全国景点统计分析及展示3.2设计思路3.2.1数据爬取本系统的需求是爬取携程数据,通过对旅游网页分析,通过八爪鱼采集器,首先完成对携程网页的分析,获取到一系列如景点地区,景点热度、景点偏向,景点人气值、景点导向,景点评价等信息,并存储到HDFS中。3.2.2数据储存选择的数据库必需在Windows和Linux这俩种环境之间中具有非常强的共融能力,这样就可以将Hadoop数据分析平台布置在Linux虚拟机上。更加方便的实行数据信息传入和输出。解析出各种各样的数据,须要储存在数据库之中。本次开发时对于爬取的数据存储到HDFS中,经过Hadoop分析过得结果可知,将Mysql作为数据库是最好的选择。3.2.2数据分析基于Hadoop,对大量的数据旅游数据信息进行预处理。关键是选取到有效可靠的信息。操作之后,则原本源数据的格式变得不同。首先经过MapReduce计算框架计算,对源本数据分割处理,整合各种各样的计算,取得期望计算成果。3.2.4分析结果展示可视化展示作为重要部分之一。仅仅数字展现用户可能并不明白,也许并不算清晰的呈现。由此我们选择Echart技术作为更清晰的展现给用户,展示可视化的Hadoop数据分析平台中的数据。例如曲线图、柱状图等表格的模式,活灵活现的呈现数据分析最后结果。目前来说,市面上有多种数据展示的组件可供使用,本次数据可视化工具采用的是Echart,将分析好的北京景区数据、天津景点排名、最热路线排名以及景区推荐等数据展示出来。4系统设计4.1总体设计本系统总的理念就是对海量旅游数据进行分析处理等一系列的操作之后,对分析结果进行可视化的展示。整个系统设计总的来说可以分为两个模块,一个是Hadoop数据分析平台另一个则是Web可视化平台。Hadoop数据平台利用技术,对源数据进行分析,获取精准有用信息。对处理完成的数据进行可视化展示则是web的重要功能。Hadoop数据分析平台以及Web可视化平台在MySQL数据库之中进行有效连接。设计流程如图2所示:图2系统总体流程4.2数据爬取四个步骤可以概括。第一步:分析携程旅游网页中的数据,可以找到key。第二步:把全部的网页的信息集中放入到python中。第三步:依据所需字段,分析网页中的标签,再通过python截取。最后一步:把数据存入到csv目标文件中。流程如下图所展示:图3携程旅游数据爬取流程爬取的网页具体如图4所示:图4旅游网站数据具体的爬虫代码如下5所示:爬取后具体的数据如图6所示:图6旅游网站爬取后数据
如图7所示,上述的数据中,主要有7列,第一列为序号、第二列为旅游线路的编号、第三列为旅游线路名称、第四列为线路中景点的编号、第五列为景点名称、第六列为排序编号,最后一列为景点的精度。上述的数据上传到hadoop中的HDFS存储系统中,具体的服务器代码如下所示:图7HDFS数据
4.3数据分析分析首先要明确数据分析目的,不至于导致偏离方向。因此,可以提示在行实数据分析之前,可以对数据进行一个的预处理。由五个方面构成:(1)数据提取从旅游源抽取数据的过程,数据在通过python爬取后选择某些合乎标准要求的数据,把数据传送存入到csv目标文件中,把爬取到的数据放到hadoop服务器当中(2)数据清洗他的原理就是通过分析‘脏数据’的产生原因和存在的形式。数据信息的清洗可以总结就是,其实就是在大量的数据中剔除没有用的和有问题的,如同人要洗澡洗去身上污垢一样去除死皮角质层。数据清洗包括下面4种方法:①手动的删除数据。选择必须删除的数据,直接删除就可。②通过linux命令,删除特定行数据:sed-i'1d'③通过编写相关代码,在mapreduce读取数据时,忽略该行数据。具体如下:if(key.toString().equals("0")){return;}else{}④通linuxshell脚本删除需要的数据:catfilename|awk'{$2=null;print}'在本系统中,主要使用了通过第三种mapreduce进行数据清洗。数据规约数据规约是指概括原始数据,分析很有难度的数据进行大致统计,这样可以为以后的步骤省掉很大的麻烦,在规约后的数据集上进行分析和挖掘将更有效率。新数据输出经过上述所有过程步骤,数据的格式也就变成所需要的,这样的话数据就变的更加规范了,最后一步就是定时的储存。新数据存储Mapreduce分析完成的结果数据,则分析后的最终数据就会被放入到mysql中,存储的信息主要有北京景区排名、天津景区排名、目的地排名等信息。4.4数据库设计数据库在整个系统中的位置如同人的大脑一样举足轻重,系统是否可以成功运行是由数据库起决定性的作用。如果在使用中出现数据库很多的功能性障碍,甚至还有功能性大的缺陷,那系统的正常运行则会大打折扣甚至造成很大的问题,这时候相关模块的准确性则成为最先考虑的关键性因素。将网站的数据库所包含的数据表和字段信息设计为:beijing_destination(北京景点排名)表、destination_num(目的地排名)表、europe_order(欧洲景区排名)表、tianjing_destination(天津景区排名)表具体如下:图8北京景点排名图9目的地排名图10欧洲旅游线路图11天津景区排名图12数据存储4.4可视化展示在这个系统中可视化模块是在Web的前提下设置的。在Echart相关组件和技术上实现了数据分析可视化的功能。Echart技术的功能可以提供生动、可交互、可高度个性化定制的图画和表格。图13数据分析可视化流程效果展示图Echart可视化柱状图框架,如下所示:xAxis:{type:'category',data:},yAxis:{type:'value'},series:[{data:type:'bar',showBackground:true,backgroundStyle:{color:'rgba(180,180,180,0.2)'}}]5系统实现5.1开发环境所有操作系统、硬件平台和相关性的应用app,都是在Linux环境下和Eclipse运行编译下设计完成的。(1)本系统的硬件环境是:CPU:Corei3及以上;内存:4GB及以上。(2)本系统的软件环境是:Java的版本为:java8。操作系统为:Window7/XP,Centos;系统支持多种软件应用;分辨率使用标清或以上。Hadoop软件2.6.4。5.2可视化的实现5.2.1北京景区数据分析首先Hadoop平台将对源本数据的分析结果储存在Mysql数据库之中,Mysql的数据被WEB程序调用起来,为了更好的呈现效果借助于可视化工具echart,使结果更加显而易见。因为本旅游数据分析分为各种不同的种类地名,所以选用柱状图或者饼状图显示。用不同的颜色高低不一的高度显示不同类型的旅游的区别,使可视化效果更加清晰明确。图14北京景区数据分析实现界面图15北京景区数据分析实现界面图16北京景区数据分析实现界面图17北京景区排名数据分析实现界面通过上述的分析可以看出,八达岭长城、颐和园、圆明园等排名较高,推荐游客去上述的景区游玩。5.2.2天津景点排名天津景点排名的实现代码和北京的类似,实现的界面如下所示:图18天津景区排名数据分析实现界面图19天津景区排名数据分析实现界面图20天津景区排名数据分析实现界面通过上述的分析可以看出,五大道、静园、意大利风情区等排名较高,推荐游客去上述的景区游玩。5.2.3欧洲景点数据分析通过对携程上欧洲景点的数据分析和排名,最终的可视化界面如下所示:图21欧洲景区数据分析效果图图22欧洲景区数据分析效果图图23欧洲景区数据分析效果图通过上述的分析可以看出,西班牙广场、兰布拉大道、树苏黎世等排名较高,推荐游客去上述的景区游玩。5.2.4全球目的地排名依据携程app旅游上的全球目的地的数据分析,可视化展示如下图所示:图24全球目的地数据分析实现界面图25全球目的地数据分析实现界面通过上述的分析可以看出,英国、日本、北京等目的地排名较高,推荐游客去上述的景区游玩。5.2.52021最热门评论次数多的旅游线路依据不同旅游线路的评论数之间高低值的不同进行分析,实现的界面如下所示:图26最热线路效果图如图26所示,在最热旅游线路中,北京、日本、东南亚等线路最为热门。5.2.6全国景点统计通过对携程景点数据的爬取,根据省份进行统计,具体的展示如图5-13所示:图27全国景区排名图28全国景区排名图总通过上述的分析可以看出,四川、新疆、内蒙、西藏等地区景点较多,推荐游客去上述的景区游玩。6总结在本次研究过程中,接触到了之前在课堂中没有涉及的难题,不断研磨的同时也增加了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年云南体育运动职业技术学院单招综合素质笔试备考题库含详细答案解析
- 2026年衢州职业技术学院单招职业技能考试备考试题含详细答案解析
- 2026年红河卫生职业学院单招综合素质考试备考题库含详细答案解析
- 2026年鹤壁汽车工程职业学院高职单招职业适应性测试备考题库及答案详细解析
- 2026年长沙航空职业技术学院单招职业技能考试参考题库含详细答案解析
- 2026年河北政法职业学院单招职业技能考试备考试题含详细答案解析
- 2026年黑龙江农业工程职业学院高职单招职业适应性测试备考题库及答案详细解析
- 2026年安阳职业技术学院单招综合素质考试备考题库含详细答案解析
- 2026年郑州轨道工程职业学院高职单招职业适应性测试备考题库及答案详细解析
- 2026新疆兵团国资公司权属企业总会计师市场化选聘1人笔试模拟试题及答案解析
- 23J916-1 住宅排气道(一)
- (正式版)JB∕T 7052-2024 六氟化硫高压电气设备用橡胶密封件 技术规范
- 计数器检定规程
- 股权融资与股权回购协议
- 企业人才发展方案
- ISO 31000-2023 风险管理 中文版
- 花城版音乐七年级下册53康定情歌教案设计
- 高考数学答题卡
- 燃料质量化学技术监督
- 历届湖北华师一附中自主招生物理试题
- GM/T 0002-2012SM4分组密码算法
评论
0/150
提交评论