下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于网络爬虫的旅游用户数据分析获奖科研报告【摘
要】步入“互联网+”与大数据时代,网络爬虫与用户数据分析已经成为技术舆论新格局的重要组成部分,各个行业都在积极的朝着互联网转型,旅游行业也在不断的在尝试智能化转型,其中用户数据的分析也是最为热门的话题之一。本文以马蜂窝网旅行网的用户在网站发表的行为数据,基Python这一时下流行的人工智能编程语言,做详细的数据爬取、数据分析,为旅游组织方在旅游产品追求个性化、差异化的市场提供一个有效的优化方向。
1.分析背景
伴随着经济蓬勃发展及人们对生活品质的高要求,外加各国政府不约而同的采取优惠政策促进旅游服务产业发展,使得全球旅游产业保持快速、稳定的发展。近年来,中国旅游业竞争力呈现快速上升趋势。据统计数据得出,2018年全国旅游出行人数超55亿,总收入超5万亿元,与2017相比分别增长11.09%和11.98%;全国境外旅行人数约为1.5亿人次,同比增长11.5%。消费升级的社会,全民旅游意愿、支出节节攀升,未来旅游产业市场仍是块大蛋糕。
2.国内外研究现状
用户在选择具体的旅游景点和规划旅游路线时,国内大多数都是基于基本的旅游咨询,根据用户的旅游需求,结合景点一些对外开放的信息进行数据采集、分析,最后推荐给用户。马蜂窝旅游分享社区目共有1.25亿用户,每月在线活跃的人数超过1亿,用户量广,月产优质游记超过13万篇。其中涉及国内外目的地攻略、游记、问答、点评等用户真实分享的UGC信息,对服务企业规划旅游路线有重要意义。
3.本文实现思路
本文研究主要由通过网络爬虫技术获取马蜂窝城市数据及用户足迹数据,并将获取到的用户数据存储至数据库中。具体实现思路如下。
(1)以Python为编程语言,通过Scrapy分布式爬虫框架获取城市数据和用户足迹数据,将获取到的用户数据以文档的形式存储到MongoDB数据库中,数据存储之后完成网络爬虫部分。
(2)统计数据中每个城市累积旅游人数和用户游记中累积出现的词语。将所有城市的出游情况通过热力图的形式附着至中国地图上,以观察国内整体旅游城市持有趋势。另外根据Python提供的中文词库,对爬取的游记进行分词统计,获得出现次数较多的关键词并可视化分析,通过这两点对国内的旅游特点进行总体概括。
(3)从总体可视化方向对用户具体的旅游行为进行分析,主要通过出行伴侣、出行天数、出行季节、人均花费四个特征对用户的个人旅游特征概括,以达对用户之间的区分。
(4)根据以上分析结果,将其结合至实际的旅游行业情况,得出一些优化旅游服务行业的方向以及个人旅游未来的趋势。
互联网时代的到来,网络所容纳的信息数量级已无法确切统计,对传统的纸质记录、电脑录入、系统管理,如何将如此海量的数据收集到文本或者数据库中,是个巨大的难题。面对如此庞大,错综复杂的网络信息,一套自动获取信息的网络爬虫系统孕育而生,以减少数据检索,机器维护,网络技术学习等各方成本。本论文以Python作为编程语言来完成相关数据的收集。
4.网页爬虫流程
网络爬虫的是给定一个需要访问的URL,通过HTTP协议与服务器建立连接,得到对应页面的数据,然后根据一定规则进行数据爬取,本文单个网页爬取流程如图1-1所示。
基本流程如下:
步骤1发送请求:给定需要访问的URL,通过HTTP协议向站点发起连接请求(Request),等待响应与服务器响建立连接。
步骤2获取响应内容:正常响应后建立连接,服务器返回一个携带网页内容的Response,类型为HTM。
步骤3解析内容:通过Python提供的Beautifulsoup和Json库对获取内容进行解析,解析方式主要为Beautifulsoup提供的DOM文档节点提取。
步骤4存储数据:将所需的数据从对应节点中提取出来,并存储到数据库。
整体爬取过程:
(1)爬虫引擎与起始URL建立站点连接。
(2)爬虫引擎将URL封装为请求,并通过下载中间器将其传递给下载程序。
(3)下载器把访问服务器并下载返回内容,封装成应答包,并发送给爬虫。
(4)爬虫解析Response,从网页中抓取需要的信息,并将解析出信息传送给实体管道
(5)若爬虫解析出的是链接,则将链接返回存放给调度器。
(6)重复以上步骤直到调度器中没有请求,结束对站点的爬取。
5.总结
基于网络爬虫的旅游用户数据分析模型是挑选马蜂窝旅游社区用户数据设计的分析模型,实现了从庞大的数据中从两方面提取用户的指定数据,一方面从马蜂窝社区用户的某個个人主页进行数据获取,数据获取后通过其关注的用户和访客深究整个社区的其他用户,直至穷尽所有。另一方面由旅游目的地为切入点,提取社区网站中的国内热门旅游城市数据,其参考重点主要是所有城市的数据均有旅游用户在网站发布的行为活动组成。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人体成分分析解读手册
- 淋巴引流排毒技法操作培训手册
- 客户接待咨询流程服务规范
- 农产品品牌化建设推广实施方案
- 季节性关怀服务操作规范
- 心血管风险评估操作标准
- 玉米密植高产种植实施方案
- 高血压患者低盐配餐方案
- 广东省深圳市2026年中考数学一模试卷附答案
- 身体成分检测方案执行手册
- 人教版小学六年级数学知识点梳理(下册)
- 社保费基础知识培训课件
- 政治学原理(第三版)课件 第10章 政治文化与社会资本
- 祛斑知识培训课件
- 招商总监的职责内容模版(3篇)
- Python语言基础学习通超星期末考试答案章节答案2024年
- 学前教育普及普惠督导评估内容和标准量化评分表
- JT-T-1230-2018机动车发动机冷却液无机阴离子测定法离子色谱法
- 兄弟宅基地分割协议书完整版
- 房地产项目资产收购协议
- 绿化保洁物业工作总结
评论
0/150
提交评论