携程旅游网站景点数据采集与分析_第1页
携程旅游网站景点数据采集与分析_第2页
携程旅游网站景点数据采集与分析_第3页
携程旅游网站景点数据采集与分析_第4页
携程旅游网站景点数据采集与分析_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言.......................................................................................................................1

1.1项目背景..................................................................................................1

1.2开发环境与工具......................................................................................2

1.2.1Python简介.................................................................................2

1.2.2Jupyternotebook简介.............................................................2

2需求分析...............................................................................................................3

2.1可行性需求分析.......................................................................................3

2.2采集目标功能分析...................................................................................3

2.3关键技术分析..........................................................................................4

2.3.1网络爬虫技术...............................................................................4

2.3.2文件存取技术..............................................................................4

2.3.3可视化技术...................................................................................4

3数据采集..............................................................................................................5

3.1采集页面分析...........................................................................................5

3.2字段分析...................................................................................................7

3.3编程实现...................................................................................................8

4数据清洗与处理...................................................................................................8

4.1数据清洗...................................................................................................9

4.2数据储存...................................................................................................9

5数据统计与分析...................................................................................................9

5.1数据准备...................................................................................................9

5.2数据展示.................................................................................................10

5.2.1长沙热度前十地名排行分析.....................................................10

5.2.2长沙景点评分分析......................................................................11

5.2.3长沙景点评价分析......................................................................11

6小结.....................................................................................................................13

I

湖南商务职业技术学院毕业设计

参考资料................................................................................................................15

II

湖南商务职业技术学院毕业设计

携程旅游网站景点数据采集和分析

1引言

当今互联网时代,数据是企业发展的关键要素,它具有重要的商业价值和应

用前景。对于在线旅游行业而言,携程网作为中国领先的旅游在线服务网站,其里

面的大数据更是具有重要的价值。数据采集和分析是了解携程网的竞争对手、市

场需求和用户行为的重要手段。通过爬取携程网站上长沙景点的数据,构建一个

全面准确的长沙景点信息数据库,以提升携程网站在长沙旅游信息方面的覆盖率

和准确性。利用Python编程语言和网络爬虫技术,实现自动化地获取长沙各个景

点的详细信息,如名称、地址、热度、评分等,并建立结构化的数据结构和可视

化图形。这将为游客提供更准确、全面的长沙旅游信息,促进旅游业发展。同时,

本设计探索了网络爬虫技术在旅游信息获取与管理中的应用,具有重要的实践和

学术意义。

1.1项目背景

随着旅游业的快速发展,携程网成为了中国领先的在线旅游服务商之一。在当

今旅游业蓬勃发展的背景下,携程网等旅游服务平台扮演着至关重要的角色,为

广大游客提供了方便快捷的旅游信息查询和预订渠道。然而,对于某些地区的旅

游景点信息,尤其是像长沙这样历史悠久、文化底蕴丰厚的城市而言,携程网站

上的数据居多,更有利于对当代年轻人的旅游参考。

本项目旨在解决这一问题,通过利用网络爬虫技术,从携程网站上爬取长沙

景点的相关数据,构建一个全面准确的长沙景点信息数据库。目的在于提升携程

网站在长沙旅游信息方面的覆盖率和准确性,为游客提供更全面、详实的长沙旅

游信息,提高其旅游规划和预订的效率和准确性。

长沙作为湖南省的省会城市,不仅拥有悠久的历史文化和丰富的自然资源,

还以其独特的地理位置和人文景观吸引着众多游客。然而,由于旅游信息的不完

善和不准确,游客在选择和规划旅游行程时往往会受到限制,无法充分体验长沙

的魅力。因此,构建一个全面准确的长沙景点信息数据库对于提升长沙旅游业的

发展和形象具有重要意义。

通过本项目的实施,可以为游客提供更便捷、准确的旅游规划服务,增强其

对长沙旅游的吸引力和竞争力。同时,本项目还将为相关旅游机构和决策部门提

1

湖南商务职业技术学院毕业设计

供重要的数据支持,促进长沙旅游业的可持续发展和提升,并且提供参考。

1.2开发环境与工具

1.2.1Python简介

Python是一种高级编程语言,于1991年由GuidovanRossum创建,以简洁、

清晰的语法而著称。其设计理念强调代码的可读性和简洁性,使得Python成为初

学者和专业程序员的首选语言之一。python具有广泛的应用领域,包括Web开发、

数据科学、人工智能、机器学习、网络爬虫、自动化测试等。它拥有丰富的标准

库和第三方库,为开发人员提供了丰富的工具和资源并且python语法简单直观,

易于学习和使用。它采用缩进方式表示代码块,而不是像其他语言那样使用大括

号,使得代码结构更加清晰。

Python是一种解释型语言,可以在不同平台上运行,包括Windows、Linux、

MacOS等。它支持面向对象、函数式、过程式等多种编程范式,具有灵活的特

性。由于其强大的功能和易用性,Python已经成为了许多领域的首选编程语言之

一,并且在全球范围内得到了广泛的应用和认可。

最后,在编程语言排行榜中。Python的排名已经与老牌的C语言和JAVA语言

不相上下,它也逐渐走进非IT行业工作者的视野内。现如今,人们用它开发简单的

小脚本用来做文件的自动化处理或者开发一些小网站打发无聊时光。这也突出

Python的特点就是易学、第三方库足够丰富、并且免费开源、支持跨多平台且可

移植性比较强。

1.2.2Jupyternotebook简介

Jupyternotebook从本质上来说是一种应用程序,是一种基于浏览器的工具。它

将一些解释性文本、数学、计算等结合起来,放在一个交互式的创作型文档中。并

且在这个创作型文档中所有的内容都是可分享并可见的。在一些教学或者项目的

讲解中,Jupyternotebook或许是一枝独秀。因为它支持Markdown标记语言,在浏

览器界面编辑代码的同时可以很方便的为代码提供注释。在Jupyternotebook执行

代码的同时对于注释性文本并不会执行,这个极大的方便了教学人员,或者开发人

员讲解项目。

Jupyternotebook在大数据方面应用比较广泛,特别适合用来做数据的清洗和

处理,在数据挖掘和可视化上的应用也是十分方便的。对于比较高层次的开发人员

来说,这个工具也可以用来做深度的机器学习。

2

湖南商务职业技术学院毕业设计

对于初学者来说安装Jupyternotebook的方法就是安装Anaconda,因为

Anaconda的版本中就是自带Jupyternotebook。如果觉得不需要Anaconda,可以

自主选择进入官网下载安装包。

2需求分析

2.1可行性需求分析

技术可行性Python是一门非常简单的脚本语言,提供了非常完善的代码库,

这次项目就是利用Python语言来实现数据采集、数据处理、数据可视化。在数

据采集时在数据获取的过程中遇到一些小问题。其中有的部分数据需要登录才能

获取得到,对于需要登录获取的数据利用Python的BeautifulSoup和Scrapy等

框架就可解决。数据处理过程目标网站数据规模比较大需要清洗,利用Python

的Pandas和Numpy等工具就能解决。数据可视化过程考虑到后续分析等问题,

Python提供了很多可视化分析的数据库,可以很好地帮到我们。以上为本次项

目的技术可行性,我也将在后续步骤中逐步实现,以此保证数据的准确性。

项目可行性近年来,随着我国人民生活水平的不断提高,我国旅游行业不断发

展,各式各样的旅游层出不穷,特别是今年的长沙也上了春晚,成为了网红热门城

市。本次项目通过采集全国比较有名的长沙景点数据,来分析我国长沙景点旅游热

门话题信息和数据。我们也将从长沙景点的热度、点评、评价等方面对其进行深

度分析,得出更有用利于长沙游客的信息,将其通过可视化得出最后的结论与记录。

2.2采集目标功能分析

本次项目的数据集的来源是携程旅游网站,是通过python爬取携程旅游网

的长沙景点的信息,通过数据分析处理清洗后共800条记录。爬取完成后尽可能

地与其他地点的数据进行对比检查,确定爬取出来的准确无误并且是属于携程旅

游网站上的热门旅游城市。通过分析携程旅游网上的长沙景点信息,明确我们需

要爬取的景点参数有地点、出发时间、天数、人均消费、任务、玩法、浏览量等

数据,让游客们更加拥有参考性。在对这些原始数据进行预处理后,我们会对其

数据进行多个维度的分析。

3

湖南商务职业技术学院毕业设计

2.3关键技术分析

2.3.1网络爬虫技术

在我们学习和工作的过程中浏览网页通常都会遇到把数据下载到本地保存

的情况,当数量比较少的时候我们可以自己用比较简单的方式比如手动下载的方

式保存数据至本地,有时候遇到数据量比较多的情况时,这时候再像少的情况那

样采取手动下载的方式就非常不好,弊端很大,所以这时候我们就会利用网络

python爬虫的方式来爬取网页上的数据并下载保存至本地。网络爬虫技术是指利

用程序自动化地从互联网上获取信息的一种技术。网络爬虫的英文即Web

Spider,所以网络爬虫也被称为网络蜘蛛、网络机器人等,它可以自动访问互联网

上的网页并提取数据,如文本、图片、视频、音频等,然后将这些数据保存到本地

或远程服务器上。爬虫技术是信息获取和数据挖掘的重要手段之一。在实际应

用中,网络爬虫技术常常被用于数据采集、搜索引擎、舆情监测、竞品分析等领

域。

2.3.2文件存取技术

Pycharm提供了许多文件存取技术,例如CSV模块,如图2-1所示:

图2-1python内置csv模块

2.3.3可视化技术

Python提供了多种可视化库,可以用于处理和展示数据。下面是一些常用的

数据可视化库:Pyecharts库是Python中最常用的数据可视化库之一,它可以

生成各种类型的图表,包括条形图、玫瑰图、直方图、饼图等,并且提供了丰富

的配置选项来控制图表的样式和内容,本次项目利用Pyecharts就可以很好地将

数据呈现出来,将呈现地数据进行分析就可得出结论。

4

湖南商务职业技术学院毕业设计

3数据采集

3.1采集页面分析

我们首先通过谷歌浏览器搜索携程旅游网官方网页,然后找到景点目录集页

面观察后选择长沙然后再选择景点如图3-1所示,其中URL为:

/。

图3-1数据网址页面

按F12调出开发者工具,刷新页面,如图3-2。

5

湖南商务职业技术学院毕业设计

图3-2开发者工具

利用全局搜索工具定位所需数据位置,点击开发者工具上面的Headers字段,

分析这是个什么请求,发现这个是一个POST请求,那我们需要寻找它的的from

data往下翻找,在最后找到了表单数据FormData,如图3-3。

图3-3FormData

6

湖南商务职业技术学院毕业设计

3.2字段分析

使用浏览器的开发者工具(例如Chrome的开发者工具)可以查看目标网页

的HTML结构,如图3-4所示,确定需要爬取的内容所在的标签和属性。根据

目标网页的结构,确定需要爬取的字段,例如景点名称、景点热度、景点评分、

景点评价、景点地址等。携程网的搜索结果详情页的URL是动态生成的,需要

分析URL的参数和格式,确定如何构造URL来获取需要的数据。使用Python

的爬虫库(例如Requests、BeautifulSoup、Scrapy等)来编写爬虫代码,发

送请求获取网页内容,解析网页结构,提取需要的字段,并保存到本地或数据库

中。

图3-4分析数据类型页面

7

湖南商务职业技术学院毕业设计

3.3编程实现

导入所需库和包,如图3-5所示。

图3-5导入所需库页面

设置请求头,伪装成浏览器访问服务器,如图3-6所示。

图3-6请求头内容页面

在Python这些第三方包的基础上,并配置好相应的请求头,我们实现数据的

采集,在此基础上使用pandas等第三方包将数据进行清洗并分析,具体代码详见

附件。

4数据清洗与处理

获得庞大的数据集之后我们需要对数据进行预处理,也就是所谓的清洗和检

查,确定爬取过来的数据是否存在无效值和确实值,要保证数据的一致性,这个对

于信息质量的评估是一项很重要的任务。不仅如此,我们需要将数据进行有理化和

有序化,这样子能够在数据调用共享过程中方便很多开发人员对数据信息的使用。

本次项目中我们需要将爬下来的数据和网页原数据进行比对,并且检查是否

出现空值、错值,还有数据的位置是否正确。根据不同的需求我们要对数据进行不

8

湖南商务职业技术学院毕业设计

同的处理。

4.1数据清洗

经过比对和检查,发现数据不存在缺失,错位还有空值,那么我们根据需求将

有效数据统一规划去掉不要的行列数据,防止数据冗余。因此我们只需保留需要的

数据,然后整理为原网页格式存入data.csv文件中,留存后续作为统计分析、可视

化使用。

图4-1获取数据页面展示

4.2数据储存

数据的储存方法有很多种,例如JSON,CSV,TXT文本格式等,本次项目因为

考虑到爬取的数据量的原因所以我们用到的是CSV,因为我认为csv相对于TXT

会更加的直观和简明一点。

5数据统计与分析

5.1数据准备

导入相关库,使用pandas加载成csv文件进行源数加载,如图5-1。

9

湖南商务职业技术学院毕业设计

图5-1数据准备页面展示

5.2数据展示

5.2.1长沙热度前十地名排行分析

图5-2长沙热度前十名排名条形图展示

将在changsha.csv文件里面的热度进行由高到低的排序,然后再取出前十的

地名进行条形图的绘制,如5-2数据展示页面,可以看出橘子洲的热度是长沙所有

景点里面最高的,其次长沙开福区的湖南博物馆,两者景点都有的共同之处都是含

有较强的长沙文化底蕴,所以说明当代年轻人对一座城市的文化底蕴还是很有好

奇心的并且也是一座当代的网红城市的一大很亮的吸引点。横轴表示景点名称,

纵轴表示景点的热度指数,通过条形的长度来反映景点的热度程度。条形图清晰

10

湖南商务职业技术学院毕业设计

地展示了长沙市内各个景点之间的受欢迎程度差异,为游客选择旅游目的地提供

了重要参考依据。

5.2.2长沙景点评分分析

从图5-3中可以看出来长沙景点的评分还算比较平均的,大部分的景点评分

数量在4点2分到4点6分之间,小部分的评分数量在4.8到5分之间,所以说

明游客对长沙景点的评分还有待加强,长沙的景点比较有单一性,好玩的就人很

多,不好玩的就人比较少,长沙作为湖南省省会城市,拥有丰富的历史文化和自

然景观,吸引了大量游客前来观光游览,并且在2024年的春晚晚会上也是作为热

门城市上了春晚舞台,也上了热搜。由此,玫瑰图的形式来看,今年的长沙景点

应该会评分更趋向于4.6到4.8分之间,但是随着今年的旅游趋势,我认为长沙

景点的旅游水平和观光率会慢慢的上升,评分相对于其他城市来说还是很不错的,

可以给大家一个很详细的参考,去到自己更加心仪的景点。

图5-3评分分布玫瑰图展示

5.2.3长沙景点评价分析

此图是以长沙景点评价作为词云分析的分析数据,然后再进行重复字频率的

提取出现程度而绘制出来的词云图,从图5-4中可得知,大部分的游客对长沙的

景点印象还是非常不错的,主要以趣味性强四个字总体的介绍长沙景点的大部分

的特点和优势,对长沙景点大家的评价更加注重在一个景点的趣味性,性价比还

11

湖南商务职业技术学院毕业设计

有景色的靓丽程度来进行主要的评优标准,由此我们可以看出,游客对长沙景点

的评价还是很好的,如果不知道去哪里旅游的乘客可以从此看出来长沙景点是一

个很不错的选择。

长沙是一座令人陶醉的城市,其独特魅力让人为之倾倒,有丰富的历史文化

底蕴,也有古老建筑,传统民俗无不昭示着这座城市的悠久历史。在长沙的每一

道街,都能感受到古老与现代的和谐共存,并且根据此词云图的分析,我们可以

由此得出大家主要对长沙的景色和风景最为谬赞,可以为之称得上是长沙的招牌

特色,和最大的吸睛点。

图5-4长沙景点词云图展示

图5-5所示是提取了长沙景点点评作为数据分析来为主绘制的横向条形图,

此横向条形图主要分为七个模块,它的横轴主要代表的是对数据的一个统计数量,

可以让人们对图形的更加直观明了,而x轴主要是点评分区的规划和处理,我们

由此可以看出一个趋势,0到3分的点评分区数是最多的,高达665个景点,但

是我们又往上面看,如果以七分为一个优秀点评的话,七分到9点5分,一共是

47个景点,由此我们可以看出,长沙景点的两极分化,大部分的景点还是存在有

待加强的,但是也有非常好的景点供游客们参考,希望我的这个数据能够给游客

带来更好的体验感。

提取所有的点评数,然后进行分区,虽然现在长沙作为网红城市受到非常多

游客的喜欢和欢迎,但是根据这个图来进行分析,我们可以发现还有许多更加很

好的点,需要长沙景点文旅局来进行调整和完善,以便达到更高的点评,但是来

长沙旅游的游客也可以尽量选择自己喜欢的景点,并且以点评分区统计来进行参

12

湖南商务职业技术学院毕业设计

考,选择点评分区比较高的景点会让游客的舒适度和开心度更高。

图5-5长沙景点点评分区横向条形图展示

6小结

在本次设计中,首先我使用Python编程语言爬取并分析了携程网的旅游产

品信息,其次我使用了pycharm来爬取携程网站的长沙旅游网页信息,并通过对

网页源代码的分析,找出了需要爬取的数据所在的HTML标签。然后我使用正则

表达式来进一步提取需要的数据,包括长沙景点的地名,地址,评分,评价等信

息。随着爬虫程序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论