《旅游电子商务(第三版)》课件 项目八:旅游电子商务数据挖掘_第1页
《旅游电子商务(第三版)》课件 项目八:旅游电子商务数据挖掘_第2页
《旅游电子商务(第三版)》课件 项目八:旅游电子商务数据挖掘_第3页
《旅游电子商务(第三版)》课件 项目八:旅游电子商务数据挖掘_第4页
《旅游电子商务(第三版)》课件 项目八:旅游电子商务数据挖掘_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目八旅游电子商务数据挖掘知识目标:了解常见的数据挖掘工具;理解Python语言的特点及基本用法;了解常用的基于机器学习的方法。学习目标项目八旅游电子商务数据挖掘技能目标:能够运用Python语言从旅游网站上提取有用信息,并保存至本地存储;能够对中文文本进行文本分析,提取关键词,分析词频;能够运用情感分析技术对游客对景区的网络点评进行舆情分析。素质目标:提升学生对旅游数据挖掘工作的理解和职业热爱;培养学生的创意创新思维和团队协作精神;培养学生认真细致的工作态度和工匠精神;通过中文分词的学习,让学生感悟汉字与中文之美,坚定文化自信。任务一:电商数据挖掘工作任务导入:张大方是朝阳旅行社的电商部经理

,近日接到公司的通知

,要在他的部门里成立

一个旅游数据挖掘的项目小组

目的是分析商业数据

,为公司的决策和业务开展提供

数据支持

。张大方是学旅游管理的

,学过VisualBasic和SPSS,对数据统计也有些了

,但对数据挖掘还是有些陌生

,作为部门负责人

当然要对这个数据挖掘小组的业

务有深层次的了解

,所以他决定恶补一下相关知识

。他发现部门实习生手中有本《旅

游电子商务》,其中有一部分是对数据挖掘的介绍

,倒也通俗易懂

,于是

,他用了三天

的时间阅读了数据挖掘的内容

,学习过后

,心中对组建该项目小组便有了清晰的思路。任务执行:以四人为一个小组

,分组讨论三种以上的大数据分析工具

,思考哪种工具比较适合自己

,并阐述原因。虽然有些数据挖掘技术非常新颖并且看上去非常酷,但是数据挖掘本身并不是一种新的技术,自从世界上第一台计算机发明并投入实用以来,各行各业的人们就一起通过计算机进行数据分析,并把结果应用到各自的领域。在计算机发明之前的数个世纪里,人们在没有计算机的情况下,同样分析数据,只不过速度要慢上许多。GordonS.Linoff对数据挖掘的定义是:数据挖掘是一项分析大量数据以发现有意义的模式和规则的业务流程。一、什么是数据挖掘二、常见数据挖掘工具RapidMiner,是一个用于机器学习和数据挖掘实验的环境,用于研究和实际的数据挖掘任务。毫无疑问,这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写,通过基于模板的框架提供高级分析。一、常见数据挖掘工具IBMSPSSModeler工具工作台最适合处理文本分析等大型项目,其可视化界面非常有价值。它允许您在不编程的情况下生成各种数据挖掘算法。它也可以用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器进行反向传播学习的基本神经网络。一、常见数据挖掘工具OracleDataMinerGUI使数据分析师、业务分析师和数据科学家能够使用相当优雅的拖放解决方案处理数据库内的数据。它还可以为整个企业的自动化、调度和部署创建SQL和PL/SQL脚本。一、常见数据挖掘工具KNIME(Konstanzinformationminer)信息采集器是一个用户友好、可理解、全面的开源数据集成、处理、分析和探索平台。它有一个图形用户界面,帮助用户方便地连接节点进行数据处理。。一、常见数据挖掘工具Python是由GuidovanRossum在八十年代末和九十年代初,在荷兰国家数学和计算机科学研究所设计出来的。Python本身也是由诸多其他语言发展而来的。流量红利期2012年--2014年三、Python语言使用——安装三、Python语言使用——安装三、Python语言使用——安装&开发环境的搭建过程任务二:电商数据挖掘的方法任务导入:今天是陈晓白同学入职朝阳旅行社实习的第一天,在办好相关入职手续后,陈晓白充满了疑惑。部门经理张大方:晓白同学,有什么问题吗?陈晓白:我想问问,我的岗位是数据挖掘专员,具体要做什么呢?张大方:咱们部门主要为公司提供数据,为各部门的业务开展提供数据支持,而你的工作就是从网络和各部门提供的大量数据中“提炼”或“挖掘”知识。陈晓白:我在学校里学过一点Python语言,没有接触过数据挖掘的相关内容,听着感觉难度不小,有一点紧张。张大方:不用担心,我这儿有一本《旅游电子商务》,其中有旅游数据挖掘的介绍,你可以先自学一下,有什么问题,可以请教你的企业导师,也可以来问我。陈晓白:太好了,我这就去学习。陈晓白同学接到主管的任务后,首先用一天的时间学习了数据挖掘的几种常见技术,并尝试用在学校学习的Python语言对照教材上的几种技术进行了编程,体验了旅游数据挖掘的魅力,他感觉到在新时代,旅游业的确也是需要技术助力的。任务执行情感分析,通常是指对一段带有主观性情感的文本进行分析的过程。情感分析有很强的实用价值,例如,通过对某酒店服务评论的情感分析,可以发现顾客对该酒店软硬件设施和服务的褒贬态度和意见,从而改进设施并改善服务,赢得竞争优势;通过对游客对某条旅游线路的评论情感分析,旅行社可以了解游客对该线路的态度倾向分布,从而优化路线,提高服务品质,从竞争中脱颖而出。通过情感分析技术,可以帮助企业从互联网上海量的产品评论中获取对产品综合、全面的评价信息。情感分析技术目前进行情感分析,主要使用两种方法,分别是:基于机器学习的方法和基于语义的方法。SnowNLP是一个中文的自然语言处理的Python库,支持的中文自然语言操作包括:中文分词、词性标注、情感分析、文本分类等功能。利用SnowNLP实现文本情感分析亲和性分析是根据样本个体之间的相似度,确定它们关系的亲疏。在数据挖掘中有大量的旅游营销的应用场景,比如游客更愿意同时购买哪些景点的门票、向景区网站用户提供多样化的服务或投放定向广告、旅行社向游客推荐旅行线路,卖给他们一些与之相关的产品。亲和性有多种测量方法。例如,统计两个景点门票一起出售的频率,或者统计游客购买了景点1后再买景点2的比率。最常用的用来进行亲和性分析的两个重要概念是:支持度(support)和置信度(confidence)。亲和性分析支持度:表示同时购买X、Y的订单数占总订单数的比例。置信度:表示购买X的订单中同时购买Y的比例,即同时购买X和Y的订单数占购买X的订单的比例。任务三:旅游数据挖掘应用任务导入:陈小白通过一周的学习,对数据挖掘应用有了一定的认识,加上他之前是学习过Python语言的,所以,决定牛刀小试,对去哪儿网站上对公司业务的点评进行提取与词频分析。学习知识讲解中的代码,把几部分融会贯通,添加自己的代码,完成对某一景区网页上游客点评的分析。一、数据抓取:Python代码以下Python代码

,可以提取某旅游网上的游客对某一景点的评价:importrequestsfromlxmlimportetree#要抓取的页面链接url=lhttps://piao.qunar.com/ticket/detail_7984.html?from=mpshouye_hotd-est_sightlheaders={lUser-Agentl:lMozilla/5.0(Macintosh;IntelMacOSX10_14_1)Ap-pleWebKit/537.36(KHTML,likeGecko)Chrome/70.0.3538.110Safari/537.36l}r=requests.get(url,headers=headers)r.encoding=lutf-8ls=etree.HTML(r.text)result=etree.tostring(s)comments=s.xpath(l//p[@class="mp-comments-desc"]/text()l)print(comments)一、数据抓取:JSON代码某些景点网页无法直接用上面的办法提取评价信息

,需要使用JSON进行解析,

以下代码(可以直接使用本书配套例程)可以实现这类网页评价信息的提取并保存到本地硬盘excel文件中。二、中文分词将游客对景区的评价信息从网页中提取出来以后,需要对评论内容进行预处理,第一步需要进行中文分词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词就是将由汉字序列组成的评价语句,通过一定的方法分割成若干个有着单独意义的汉语词条,这一步比较关键,同时这也是中文文本挖掘的重点和难点。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。以下代码使用jieba包实现了一段景区点评的中文分词。importjiebatxt="扬州瘦西湖,一直是闻其名,果然是美景怡人,门票稍贵了点,不过也算值得,在湖上荡舟,别有风味。就是四月的扬州人太多了些。"words=jieba.cut(txt)print("/".join(words))运行结果为:扬州/瘦西湖/,/一直/是/闻其名/,/果然/是/美景/怡人/,/门票/稍贵/了/点/,/不过/也/算/值得/,/在/湖上/荡舟/,/别有风味/。/就是/四月/的/扬州人/太多/了/些/。三、词云绘制“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。在Python中使用wordcloud包,可以很方便的进行词云图的绘制。任务拓展本项目示例代码没有实现对游客点评的情感分析

,请以四人为一个项目小组

,利

用SnowNLP包

,对一段游客点评进行情感分析。项目实训实训背景:陈晓白同学的景区游客点评的词频分析报告提交给主管后,主管认为完成得不错,并交给他一个正式的任务:用网络数据提取技术抓取给定的景区景点的游客评价的情感倾向进行分析,为公司的旅游线路设计的安排作参考。假设你是陈晓白,你如果开展这一工作呢?实训目的:通过实训,加深对旅游数据挖掘的理解,通过对某一景点的游客评价的数据采集、数据存储和对数据的情感分析,使学生具备旅游数据挖掘的基本技能要求,培养认真、细致、一丝不苟的工作态度,并激发他们对旅游数据挖掘工作的兴趣;通过对景区数据的分析,感悟祖国的大好河山,在美景中感受爱国情怀。项目实训实训任务:1.利用网页数据提取和文本情感分析技术,对某景区景点旅客评价进行分析,得出某种结论,并把工作过程写成报告;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论