大数据营销 课件 第五章 用户评论_第1页
大数据营销 课件 第五章 用户评论_第2页
大数据营销 课件 第五章 用户评论_第3页
大数据营销 课件 第五章 用户评论_第4页
大数据营销 课件 第五章 用户评论_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章用户评论1学习目标一、了解用户评论内涵及应用二、掌握评论数据处理的步骤三、熟悉文本数据的情感分析方法2本章思维导图34"互联网+"新经济背景下,社交媒体迅速兴起,为评论数量爆炸式增长导致网络文本挖掘与情感分析技术应运而生。微博(Micro-Blog)的信息传播迅速、受众广和使用便捷等优势,使其成为全球最大的中文社交媒体平台,截至2020年平台的月活跃用户数量突破5亿,日活跃用户数量达到2.29亿。微博的传播具有即时性、开放性、碎片化和裂变传播的特征,而评论内容包含的情感因素,不仅会影响信息传播的深度和广度,还能传染其他用户的情绪。例如,负面评论更容易造城舆情事件的爆发。因此,随着社交媒体的迅速发展,文本挖掘和情感分析技术的迅速发展也是必然的。开篇案例[微博用户情感分析]5微博的评论文本有短文本、口语化、噪声大,以及包含网络新词和背景信息有限等特点,挖掘内容中有价值的信息,对政府决策、产品营销和网络舆情监控至关重要。例如,北京航空航天大学开发了基于表情符号的情感分析系统(Moodlens),对2010年4至9月的7000万条微博与20万个活跃用户数据进行了情感分类与波动分析,发现人们更容易转发朋友发出的愤怒信息,粉丝众多的用户拥有更强的情绪影响力。开篇案例6研究分析了用户转发的愤怒性微博,利用话题模型和关键词抽取发现:一类是有关国家主权和核心利益的事件,例如,军事演习;另一类是社会热点话题,例如食品安全。由此可见,通过情感分析控制舆论有必要被纳入公共突发事件的管理范围。相关部门或企业通过识别微博舆论的情感走势,洞悉公众对突发事件的态度与反应,进行有效的舆论的干预和引导,对促进社会舆论的良性发展有着重要意义。开篇案例第一节

用户评论一、用户评论是什么二、用户评论对企业的价值三、用户评论的商业发现78一、用户评论是什么(一)用户评论的定义

是潜在的用户、以前的用户及正在体验或消费的用户,对产品或服务给出的评价及自己的观点,包含有积极和消极的情感倾向性。

由购买并使用了产品或服务的消费者对商品或服务发表的评论,是消费者在购买产品或体验服务后在公司网站或第三方网站上发布的内容,能够直接反映用户对商品的满意度。9一、用户评论是什么(二)用户评论的分类用户评论四大要素:评论的目标主题评论者评论所表现出的情感倾向评论发布的时间四种评论类型:新闻时事评论书籍评内容评论影视评论产品和服务评价10一、用户评论是什么(三)用户评论的特征内容信息的多元化:用户经常运用轻松随意的语调来描述自己的感受,评论中会谈到一些客观的事实,但着重强调自己的个人感受。内容保存时间久:在线用户评论与网站会同步存在,评论内容能够被长期的保存,除非网站被关闭或者评论被删除。促进客户与商家交流:用户的反馈也可以帮助企业更加准确地定位市场,挖掘盈利机会。传播范围广:用户评论主要通过网络和社交媒体的平台进行传播,不受时间和地理位置的限制,传播速度快、范围广、更有影响力。内容信息可测性:用户评论中,结构化的评价类内容可直接进行测量,非结构化内容可以通过文本挖掘和情感分析等方法进行处理。11用户洞察:是基于用户的行为或态度,挖掘用户真正的需求的过程。企业可以更有效地处理和利用用户评论数据,帮助营销人员理解和接触用户在客户旅程不同的阶段的需求。客户满意度:是消费者对企业产品、服务和能力的满意度,常常通过评论和星级评价进行评估,帮助企业改善产品和服务。竞争分析:评估竞争对手的优势和劣势是营销和战略管理竞争分析的关键目标。在线用户评论揭示了消费者对已购买产品和不同品牌的意见和情绪。二、用户评论对企业的价值12舆情检测:随着互联网新媒体的崛起,信息传播的速度和范围都有了巨大的提升。

对于企业而言,任何一点信息都可能在网络上被不断的放大,从而以极快的速度传播并发酵成为社会网络热点事件。

企业危机的发生往往伴随着热点事件带来的舆情危机。二、用户评论对企业的价值13(一)用户评论的主要发现更好的了解客户需求,帮助企业提高产品或服务销量社交媒体作为消费者寻找、分享产品和服务信息的重要渠道,评论数据促使用户作出决策。用户网络言论的监测和识别对于提高舆情管理效率,维护企业形象是关键随着产品或服务的负面体验评论不断累积,网络平台信息的传递速度与公开性更容易引发社会舆论,为企业带来负面影响。优化内容特征,提升推荐系统的效率,有助于改善用户体验,并提高推荐系统的有效性。三、用户评论的商业发现14第一,用户偏好信息缺失。

用户偏好意味着每个用户关注的产品属性不同,例如,有的用户介意电影情节或产品功效,但有的用户更关注演员或产品包装。第二,语言与语义特征阻碍了情感分析方法。

传统的意见挖掘方法有局限性,通常是将评论提取出词包,识别词包中包含的积极或消极的情感因素。第三,过多的评论内容为其他用户带来信息过载的问题。

通过文本摘要过滤文本相似性可以缓解评论内容带来的信息过载。其中文本摘要的基本方法包括提取法和抽象法,常用于解决信息过载问题。三、用户评论的商业发现(二)用户评论内容研究遇到的问题第二节

用户评论数据及其分析一、文本数据的分析步骤和流程二、文本数据的采集及预处理三、文本数据的预处理四、文本数据的情感倾向分析五、文本数据的语义网络分析六、文本数据的LDA主题模型分析1516文本数据的分析四个步骤:文本数据的采集。

直接来源的数据是一手数据,基于实验法或调查法获得;间接来源的数据是二手数据,基于系统内部采集和基于系统外部采集获得。文本数据的预处理。文本数据的预处理包含文档切分、文本分词、去除停用词、建立词袋模型、文本向量化等操作。训练自然语言处理模型。

常用的自然语言处理模型包括:文本分类模型信息抽取模型自动文本摘要模型自动问答模型话题推荐模型一、文本数据的分析步骤和流程17文本数据的分析四个步骤:训练自然语言处理模型。

文本分类模型包括:朴素贝叶斯、决策树、k-NN逻辑回归(LogisticRegression)、支持向量机(SVM)卷积神经网络(CNN)和循环神经网络(RNN)等信息抽取模型包括CRF模型等自动文本摘要模型包括TextSum模型等使用自然语言处理模型

使用自然处理模型时,需要将数据集进行预处理,且预处理的步骤必须和训练模型时的预处理步骤一致。一、文本数据的分析步骤和流程18基于调查法采集数据。普查:专门组织的不连续性全面调查。主要调查一定时点的社会经济现象的总量。重点调查:是为了解总体基本情况,在调查对象中只选择一部分重点单位进行调查的一种非全面调查组织方式。抽样调查:一种非全面调查,从总体中抽取样本,以样本推断总体的统计调查方式。二、文本数据的采集及预处理采集组织外部的二手数据。组织外部的数据是更加宏观、更加公开的数据。这些数据更加偏重于社会的外部环境以及行业的经济形势。常用的工具有网络爬虫,包括:Requests库;Selenium库+谷歌浏览器;Scrapy框架;PySpider框架;Fiddle。19代码

以python为例:为了保持开发环境的整洁,简化生产效率,本书建议使用virtualenv管理虚拟环境,以及安装依赖性。在python终端或命令窗口(windows系统)使用pip命令:为了提高操作效率,让代码更紧凑易读,本书建议安装NumPy库为了更方便地处理不同类型的数据,本书建议安装pandas库。二、文本数据的采集及预处理20数据采集获取API通常社交媒体API提供了JSON或XML格式的数据,利用python的标准库处理这些格式,例如,JSON格式可以更好的映射python字典,界口也很简单。

获取内容数据二、文本数据的采集及预处理21

文档切分

文档切分是可选的操作。

大部分文档的文本长度都比较小,只有100个字,有一个文档包含超过1000个字,可以通过截取保留前100个字使得数据集长度一致。对于某些任务,需要将文档根据段落切分。三、文本数据的预处理22

文本分词文本分词是自然语言处理中必不可少的一个操作,通过分词才可以用单词来表征文本jieba分词有三种模式:精确模式、全模式、搜索引擎模式。精确模式:会将句子最精确地切分开,适合在文本分析时使用。全模式:会将句子中所有成词的词语都扫描出来,速度非常快,缺点是不能解决歧义问题。搜索引擎模式:会在精确模式的基础上对长词再进行切分,将更短的词语切分出来。三、文本数据的预处理23文本分词代码展示如下:分词代码结果输出:三、文本数据的预处理24去除停用词

停用词大致分为两类。

一类是对句子没有多大意义的词。比如'the'、'is'、'at'、'on'等。

另外是出现频率过高的词。例如:“我”,这些词出现极其普遍,不能够表征这个文本,那么这些词就应当从文本中清除掉。建立词袋模型

词袋模型(Bow,BagofWords)不考虑文本中词与词之间的上下文关系,仅统计每个文档中每个单词出现的频率,每个词都是独立的,不含上下文信息,类似于将所有词语装进一个袋子里。

例如:语料库:Johnlikestowatchmovies.Marylikesmoviestoo.

Johnalsolikestowatchfootballgames.

词袋:[“John”,“likes”,“to”,“watch”,“movies”,“also”,“football”,“games”,“Mary”,“too”]。三、文本数据的预处理25建立TF-IDF模型

TF-IDF是一种统计方法,用以评估一个词对于语料库中的其中一个文档的重要程度。

词频(TF)表示词条(关键字)在文本中出现的频率。

某一特定词语的IDF,可以由语料库总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到。分母加1是为了避免分母为0。TF-IDF实际上是:TF*IDF。三、文本数据的预处理26建立词嵌入模型

Word2vec模型里面包含两个模型:CBOW(ContinuousBag-of-WordsModel)模型:就是根据某个词前面的n个词或者前后n个连续的词,来计算某个词出现的概率。Skip-Gram模型:是根据某个词,然后分别计算它前后出现某几个词的各个概率。

三、文本数据的预处理27建立词嵌入模型

TF-IDF模型在某些问题上表现很好,但缺点也是没有考虑到单词的顺序。

Doc2vec模型是受到了Word2Vec模型的启发。Word2Vec预测词向量时,预测出来的词是含有词义的,Doc2vec中也是构建了相同的结构,所以Doc2vec克服了词袋模型中没有语义的缺点。

Doc2vec也有两种训练方式:

一种是分布记忆的段落向量,类似于Word2Vec中的CBOW模型另一种是分布词袋版本的段落向量,类似于Word2Vec中的Skip-gram模型。文本向量化多数自然语言处理算法都只适用于数值类型,因此需要将文本进行向量化,也就是用数学上的多维特征向量来表示一个文本。三、文本数据的预处理28情感倾向分析用于区分用户评论的倾向性。比如将情感极性分成正面和负面或正面、负面和中性。情感倾向分析方法包括:基于情感词典的情感倾向分析方法基于有监督机器学习模型的情感倾向分析方法情感词典往往只针对某个领域,用于跨领域情感分析时效果欠佳。基于情感词典的文本情感分析适用于短文本的情感分析,而对于长文本来说利用机器学习方法更好。基于情感词典的情感倾向分析,首先需要构建情感词典。

情感词典包含情感词、程度副词、领域词、否定词。常用的情感词典有知网情感词典、LIWC等。四、文本数据的情感倾向分析29语义网络的结构

在语义网络中,每一个节点和弧都必须有标志,用来说明它所代表的实体或语义。节点:表示实体,如各种事物、概念、情况、属性、状态、事件、动作等。文本数据的语义网络的节点是高频词。弧:代表语义关系,表示它所连接的两个实体之间的语义联系。弧是有方向和标注的,方向体现了结点所代表的实体的主次关系;线上的标注表示它所连接的两个实体之间的语义联系。五、文本数据的语义网络分析30语义关系Is-a型和Part-of型关系:

具有共同属性的不同事物间的分类关系、成员关系或实例关系。体现“具体与抽象”、“个体与集体”、“部分与整体”。Is-a:表示一个事物是另一个事物的实例,表示具体与抽象关系Part-of:表示一个事物是另一个事物的一部分,有组织或结构特征的“部分与整体”之间的关系Is:表示一个事物是另一个事物的属性五、文本数据的语义网络分析31语义关系属性关系:

事物和其属性之间的关系。Have:表示一个结点具有另一个结点所描述的属性。A-Kind-of:表示一个事物是另一个事物的一种类型,表示是一种隶属关系,体现某种类内部的层次。Can:表示一个结点能做另一个结点的事情。其他关系:时间关系:指不同事件在其发生时间方面的先后关系。位置关系:指不同事物在位置方面的关系。相近关系:指不同事物在形状、内容等方面相似和接近。五、文本数据的语义网络分析32语义网络的推理继承:把对事物的描述从抽象结点传递到具体结点。匹配:在知识库的语义网络中寻找与待求问题相符的语义网络模式。语义网络表示法的特点:优点:能把事物间的语义联系显式地表示出来,能结构化的、直观的表示通过与某一结点连接的弧很容易找出相关信息,而不必查找整个知识库,有效避免了搜索时的组合爆炸问题语义网络着重强调事物间的语义联系,体现了人类思维的联想过程,符合人们表达事物间关系的习惯缺点:推理规则不十分明了表达范围有限,一旦结点个数太多,网络结构复杂,推理难以进行五、文本数据的语义网络分析33案例携程网收集时间跨度从2016年11月至2020年2月的2004年03条游客评论。1收集数据3构建语义网络词组出现的次数越多,词组的字体就越大;词组和词组共同出现的次数越多,词组和词组之间的连线就越粗。2结果可视化利用绘图工具Gephi将结果可视化,画出了所有游客评论的词组和组合。五、文本数据的语义网络分析34

根据该图我们可以得知,词组出现的次数最多的是“司机”,较多的还有“行程”、“安排”、“导游”、“服务”等等。

由图片可知,在所有游客的评论中,主要聚焦于“司机服务”、“导游服务”、“景点景区”、“行程安排”、“体验心得”五个主题。五、文本数据的语义网络分析案例35

在获取情感极性作为语料库后,使用LDA统计每条评论的主题数量。LDA常用于文本分类,推测文本中的主题分布,抽取每篇文档的主题以概率分布的形式进行主题聚类或文本分类。

LDA假设每个文档可以表示为潜在主题的概率分布,并且所有文档的主题分布共享Dirichlet先验。同时,LDA模型的每个潜在主题也可以表示为词的概率分布,并且主题的词分布也共享Dirichlet先验。假设文档组成的语料库有词,根据LDA生成过程对语料库建模:参数在Dirichlet分布中选择主题()的多项分布参数在Dirichlet分布中选择文档()的多项式分布选择文档()的词六、文本数据的LDA主题模型分析第三节

用户评论分析的案例一、场景介绍及问题提出二、数据及分析问题三、数据分析及解决问题四、结论及营销意义3637随着通信技术和互联网的发展,人们的消费和生活越来越依赖移动设备。Statista统计了2011至2022年美国成年人平均每天需要花费470分钟接触数字化媒介。Web2.0的双向沟通方式将媒介从技术视角转向了用户生成内容(UGC)视角,强调了由内部利益相关者与外部目标群体的互动能力。企业为了让品牌或产品获得更多的竞争优势,增加用户黏性,实现价值共创,从而建立品牌社区。移动设备与非移动设备(PC)作为当前企业接触消费者的主要媒介,可以帮助企业识别并解决消费者对产品或服务体验存在的问题,从而维系与消费者长期而又紧密的联系。一、场景介绍及问题提出38本文选取小米社区(MIUI)的在线评论数据进行研究。本文利用python收集了2020年1月至12月,515名用户参与社区活动的5194条内容与互动的原始数据,剔除与手机产品无关的内容帖子,同时对文本内容进行了预处理,删除相同ID创造的相同内容,无效内容,停用词,以及小于4个字的内容,最后获得2703条内容与行为相互匹配的数据。本文使用python发帖内容为基准,匹配并统计发帖ID与所有回帖ID。其次,内容丰富性是基于Bi-LSTM对文本内容进行分类,再通过LDA模型统计本文包含的产品属性的数量。二、数据及分析问题39Bi-LSTM进行情感极性分析是近年来处理文本内容较常见的方法,在处理中文本文内容时可以有效提取句子的语法规则,采用双向LSTM结构,更好地捕捉小米社区的评论内容中所有句子的语义特征。文本直接调用了Tensorflow的API训练数据集根据LSMT算法,本文通过动态置信区间优化,以及提高结果数据的可靠性,本文置信度为0.40,积极情感为0.73,消极情感为0.27

表5-1小米社区情感极性分析结果示例三、数据分析及解决问题40Bi-LSTM对每条评论内容进行情感分类,再通过LDA识别全部内容里与产品相关的主题词汇,匹配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论