




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、项目八:旅游数据挖掘(教案)章(节)/模块项目八内容旅游数据挖掘教学目的与要求知识目标:理解数据挖掘的概念和内涵;理解机器学习、数据挖掘之间的区别和联系;理解旅游数据挖掘的意义。技能目标:能够运用Python语言从旅游网站上提取有用信息,并保存至本地存储;能够对中文文本进行文本分析,提取关键词,分析词频;能够运用情感分析技术对游客对景区的网络点评进行舆情分析。态度目标:提升学生对旅游数据挖掘工作的理解和职业热爱;培养学生的创意创新思维和团队协作精神;培养学生认真细致的工作态度和工匠精神;通过中文分词的学习,让学生感悟汉字与中文之美,坚定文化自信。教学重点、难点重点内容:理解和掌握数据挖掘、机器
2、学习等概念;掌握使用Python语言和相关软件包进行简单的数据挖掘实验。难点内容:能够使用Python语言进行简单的程序设计,编写网络提取信息的程序,应用软件包进行简单的数据挖掘实验。教学方法投影仪PPT讲授+上机教学手段多媒体教学、互动教学、演示教学教学内容及其过程教学内容及其过程教学环节教 学 程 序导入新课近年来,大数据和数据挖掘的概念频繁出现在各类媒体上,“曝光率”和“回头率”都非常高,在旅游业中也不例外,请扫一扫二维码,阅读“第一财经”的这篇报道:你有没有看懂旅游大数据?以4人为一个小组,查阅大数据与数据挖掘在旅游业应用的案例,分组讨论:什么是数据挖掘?数据挖掘在电子商务业务上有哪些
3、成功的案例?旅游业是否也需要进行旅游数据挖掘?学习新课任务一:旅游数据挖掘基础知识数据挖掘: Gordon S.Linoff对数据挖掘的定义是:数据挖掘是一项分析大量数据以发现有意义的模式和规则的业务流程。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,林杰斌,刘明德等学者在数据挖掘与 OLAP 理论与实务一书中认为:数据挖掘主要有以下五类功能:1自动预测趋势和行为。2关联分析。3聚类。4 概念描述。5偏差检测。一般数据挖掘技术包括关联分析、序列分析、分类、预测、聚类分析及时间序列分析。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分
4、析、算法复杂度理论等多门学科。数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术。Tom Mitchell在1997年出版的Machine Learing一书中指出,从数据分析的角度来看,数据挖掘与机器学习有很多相似之处,但不同之处也十分明显,例如,数据挖掘并没有机器学习中所包含的探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据进行的,等等。从某种意义上说,机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些。任务二:电商数据挖掘工具一、常见数据挖掘工具数据挖
5、掘工具是使用数据挖掘技术从大型数据集中发现并识别模式的计算机软件。数据在当今世界中就意味着金钱,但是因为大多数数据都是非结构化的。因此,拥有数据挖掘工具将成为帮助您获得正确数据的一种方法。下面为大家介绍5款常用的数据挖掘工具。1 Rapid Miner2IBM SPSS Modeler3Oracle Data Mining4KNIME5Python二、Python语言使用(一)Python 简介 (二)Python的基本用法1. 安装与配置2. 语法简介任务三:电商数据挖掘的方法1、 情感分析技术1 情感分析技术简介情感分析, 通常是指对一段带有主观性情感的文本进行分析的过程。情感分析有很强的
6、实用价值,例如,通过对某酒店服务评论的情感分析, 可以发现顾客对该酒店软硬件设施和服务的褒贬态度和意见,从而改进设施并改善服务, 赢得竞争优势;通过对游客对某条旅游线路的评论情感分析,旅行社可以了解游客对该线路的态度倾向分布, 从而优化路线,提高服务品质,从竞争中脱颖而出。通过情感分析技术,可以帮助企业从互联网上海量的产品评论中获取对产品综合、全面的评价信息。因此,许多企业都对应用情感分析技术分析客人的网络评价,有着迫切的需要,因此,如何从旅游网络评价中获取游客的情感倾向,并更好的服务于游客,是一个非常有实用价值的研究方向。目前进行情感分析,主要使用两种方法,分别是:基于机器学习的方法和基于语
7、义的方法。基于机器学习的方法是利用分类技术来处理文本,分类技术一般是使用某种学习算法来确定分类模型,该模型不但很好地拟合输入数据中的类标号与属性集之间的关系,还能够正确地预测未知样本的类标号中类标号,我们需要为它提供一个人工标注的训练集,通过上述的学习算法,训练并建立分类模型,然后可以将这个模型运用于检验集,从而检验类标号未知情感文本记录。基于语义的方法,一般是先获得情感倾向词,把表示情感的词语划分成正面词语和负面词语,同时构造一个专用的情感词典,然后利用这个词典,使用线性代数和统计分析的方法,来统计文本中的正面和负面情感词语的相对数量,从而确定文本的情感倾向。二、亲和性分析亲和性分析是根据样
8、本个体之间的相似度,确定它们关系的亲疏。在数据挖掘中有大量的旅游营销的应用场景,比如游客更愿意同时购买哪些景点的门票、向景区网站用户提供多样化的服务或投放定向广告、旅行社向游客推荐旅行线路,卖给他们一些与之相关的产品。亲和性有多种测量方法。例如,统计两个景点门票一起出售的频率,或者统计游客购买了景点1 后再买景点2的比率。最常用的用来进行亲和性分析的两个重要概念是:支持度(support)和置信度(confidence)。任务四:旅游数据挖掘应用景区游客点评词频分析以下Python代码,可以提取“去哪儿”旅游网站的上游客对某一景点评价:import requestsfrom lxml impo
9、rt etree # 要抓取的页面链接url='headers ='User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'r=requests.get(url,headers = headers)r.encoding='utf-8' s=etree.HTML(r.text)result=etree.tostring(s)co
10、mments=s.xpath('/pclass="mp-comments-desc"/text()')print(comments)去哪儿旅游网上有些景点网页无法直接用上面的办法提取评价信息,需要使用json进行解析,以下代码可以实现这类网页评价信息的提取并保存到本地硬盘。import requestsurl='headers ='User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko
11、) Chrome/70.0.3538.110 Safari/537.36'r=requests.get(url,headers = headers)tjson = r.json()t = len(tjson'data''commentList')fp = open("qnercomments.txt","w",encoding = "utf-8")for i in range(0,t): tempstr = tjson'data''commentList'i
12、9;content' if tempstr != "用户未点评,系统默认好评。": fp.write(tempstr+"n")fp.close()print("已经成功的写入文件!") 中文分词:将游客对景区的评价信息从网页中提取出来以后,需要对评论内容进行预处理,第一步需要进行中文分词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词
13、这一层上,中文比之英文要复杂得多、困难得多。中文分词就是将由汉字序列组成的评价语句,通过一定的方法分割成若干个有着单独意义的汉语词条,这一步比较关键,同时这也是中文文本挖掘的重点和难点。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。分词方法一般有3种方法:机械匹配的方法、最大概率的方法、语义理解的方法。机械匹配的方法是最常用的方法,在借助一个词典的帮助下,它主要利用正向或者反向最大匹配的原则来分
14、词,清华大学CSEG系统就是这种方法实现的。最大概率是根据一个事先建立的常用词语的概率表,依据这张概率表,对汉字字符串可能存在的多种分词结果进行统计分析,将其中概率最大的那个结果,作为该汉字字符串的分词结果,代表系统有中科院计算所ICTCLAS系统;基于语义理解的方法,这种方法可以实现新词识别功能,亦称为人工智能分词方法,山西大学ABWS系统是其代表。Jieba中文分词:支持三种分词模式: ü 精确模式,试图将句子最精确地切开,适合文本分析; ü 全模式,把句子中所有的可以成词的词语都扫描处理,速度非常快,但是不能解决歧义; ü 搜索引擎模式,在精确模式的基础上,
15、对长词再次切分,提高召回率,适合用于引擎分词。另外jieba还支持繁体分词和支持自定义词典。以下代码实现了一段景区点评的中文分词。import jiebatxt = "扬州瘦西湖,一直是闻其名,果然是美景怡人,门票稍贵了点,不过也算值得,在湖上荡舟,别有风味。就是四月的扬州人太多了些。"words = jieba.cut(txt)print("/".join(words)运行结果为:扬州/瘦西湖/,/一直/是/闻其名/,/果然/是/美景/怡人/,/门票/稍贵/了/点/,/不过/也/算/值得/,/在/湖上/荡舟/,/别有风味/。/就是/四月/的/扬州人/太
16、多/了/些/。实训演练:1. 利用网页数据提取和文本情感分析技术,对某景区景点旅客评价进行分析,得出某种结论,并把工作过程写成报告;2. 文字需要是正规书面用语,结论需要有数据支持;3. 情感分析的结果,需要得出正向评价的平均概率;4. 要有python源代码5. 需要对所使用的理论和技术进行介绍;6. 要符合一般论文的格式要求;7. 建议文章中要用相应的表格、图片8. 要注意报告的WORD排版9. 项目设计报告不少于2000字反馈练习见教材各任务的任务拓展练习及综合实训任务。归纳总结课外作业与参考资料作业(包含书面和口头作业)1. 去图书馆或检索互联网,进一步查阅python语言的编程技巧。2. 进一步学习网络信息提取的编程方法参考书目与资料1 Robert Layton著,杜春晓译.Python数据挖掘入门与实践M.中国工信出版集团,2016.2 Gordon S.Linoff等著,张小明等译.数据挖掘技术M.清华大学出版社,2013.3 卢辉.数据挖掘与数据化运营实战思路、方法、技巧与应用M.机械工业出版社,2018.4 托马斯米勒著,崔立真等译.营销数据科学M.机械工业出版社,2016.5 王新宇. 基于情感词典与机器学习的旅游网络评价情感分析研究
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025产品销售代理合同范本全文
- 2025年供货合同的范本
- 后勤领域新质生产力
- 初中历史唐朝建立与“贞观之治”课件 2024-2025学年统编版七年级历史下册
- 2025年房地产估价师之开发经营与管理能力提升试卷B卷附答案
- 大学新质生产力
- 2025公寓房屋购买合同
- 良性小动脉性肾硬化症的临床护理
- 2025路灯广告牌制作安装合同(范本)
- 教学设计和教学评价模板(V60版)
- 2025年FRM金融风险管理师考试专业试卷(金融风险管理案例分析)
- 泥尾运输合同协议
- 低压电器 课件 单元三 项目三 任务一 掌握接触器联锁正反转控制线路
- 食堂食品追溯管理制度
- 北京市石景山区2025年高三统一练习(生物及答案)(石景山一模)
- 森林火灾风险评估-全面剖析
- 人教版2024-2025学年度八年级下册物理期中模拟测试卷(含答案)
- 设计变更流程管理培训
- 煤矿警示教育培训
- 数字时代的转变:高校数字素养教育的目标与方向
- 传染病的防控知识课件
评论
0/150
提交评论