人工智能数据挖掘 课件 项目7-客户反馈分析_第1页
人工智能数据挖掘 课件 项目7-客户反馈分析_第2页
人工智能数据挖掘 课件 项目7-客户反馈分析_第3页
人工智能数据挖掘 课件 项目7-客户反馈分析_第4页
人工智能数据挖掘 课件 项目7-客户反馈分析_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘课程教学课件项目7客户反馈分析通过文本预处理、词云与情感分析,挖掘客户反馈中的主题与情绪,支撑产品服务优化决策客户反馈分析文本预处理词云分析情感分析课程导航任务7.1数据集简介任务7.2数据集以及相关资源下载任务7.3词云数据准备任务7.4绘制词云任务7.5情感分析项目7_客户反馈分析2项目描述假设我是一家电子商务公司的数据分析师,我负责研究和理解客户反馈,以改进我们的产品和服务。最近,我注意到客户满意度评分有所下降,负面评论数量增加。这引起了我的关注,因为这可能意味着我们的产品或服务存在问题,影响了客户的体验和忠诚度。为了解决这个问题,我决定利用数据挖掘技术来分析客户的评论数据。我已经获得了一份包含客户评论和评分的数据集。通过深入分析这些数据,我希望能够理解客户的情绪倾向、识别常见问题和客户关注点,并提出相应的改进措施。具体来说,我将通过自然语言处理和情感分析技术,挖掘客户评论中的有价值信息,帮助公司优化产品和服务,提升客户满意度和忠诚度。项目7_客户反馈分析3项目实施数据收集:使用亚马逊的产品评论数据进行分析。这些数据包含了产品信息、用户对产品的评分以及用户对产品的评论。数据预处理:数据预处理是数据分析中的重要步骤。进行数据清洗、数据转换等操作,以便数据满足分析的需求。数据分析:进行一系列的数据分析操作,包括但不限于特征提取、情感分析等。结果评估:根据分析结果进行评估,查看分析是否准确,是否符合预期。结果应用:根据分析结果,提出改进产品和服务的建议,以提高客户的满意度和忠诚度。项目7_客户反馈分析4项目目标了解文本数据挖掘的基本概念与应用理解情感分析的原理和方法,包括基于词典的方法和基于机器学习的方法掌握利用自然语言处理技术预处理客户评论数据,如分词、去停用词、词性标注等学习如何构建和训练情感分析模型,以分析客户评论数据中的情绪倾向能够通过情感分析,识别客户反馈中的主要情绪,提取常见问题和客户关注点项目7_客户反馈分析5企业岗位要求岗位:数据分析师/数据挖掘工程师要求:负责收集和分析客户反馈数据,通过挖掘用户评论中的关键信息,理解客户的情绪倾向,识别常见问题和客户关注点,为公司优化产品和服务提供决策依据。需要具备数据处理、自然语言处理和情感分析的能力,熟悉相关数据分析工具和框架。项目7_客户反馈分析6思政目标通过学习情感分析的应用,培养学生的数据科学素养,提高他们的创新思维和数据驱动的决策能力。同时,也强调数据科学的伦理责任和社会影响力,使学生了解并理解数据科学在公平、公正、透明和责任等方面的重要性。我们期望通过这门课程,学生不仅能掌握和应用数据科学技术,用数据科学技术服务社会,推动社会公正和发展。此外,我们通过分析和解决实际问题,培养学生的团队协作和问题解决能力,使他们在未来的学习和工作中能够更好地服务于社会和人民,实现自我价值和社会价值的统一。项目7_客户反馈分析7知识储备.文本型数据文本型数据是指以文字或符号表示的数据类型,例如字符串、句子、段落等。这些文本可以用于描述、分类、搜索等。文本型数据通常以字符形式存储,可以进行文本处理和分析等操作。文本型数据一般用于自然语言处理、信息检索、社交网络和新闻媒体等领域。文本型数据的特点文本型数据由字符组成,可以是汉字、英文字母、数字、标点符号等。项目7_客户反馈分析8任务7.1数据集简介本任务采用亚马逊商品数据集进行学习和研究,该数据集主要包括产品分类信息表、商品表、和用户评论评分表,;有很多有有价值的研究方向可以进行。项目7_客户反馈分析9任务7.1数据集简介(1/3)本任务采用亚马逊商品数据集进行学习和研究,该数据集主要包括产品分类信息表、商品表、和用户评论评分表,有很多有有价值的研究方向可以进行。产品推荐系统,建立基于用户历史评分和购买记录的推荐系统。常见的方法包括协同过滤(基于用户或基于物品)、矩阵分解、神经网络等。评论情感分析,对用户评论进行情感分析,确定评论是正面、负面还是中性。可以使用自然语言处理技术(如情感词典、机器学习分类器、深度学习模型)来实现这一点。产品类别趋势分析,分析不同产品类别的销量和用户评分趋势。可以探索特定类别的产品在某些时间段内的流行趋势,找到影响销量的季节性因素或流行周期。用户行为分析,分析用户购买和评论行为,挖掘用户购买模式。可以识别出活跃用户、忠诚用户、新用户等,分析用户的购买频率、评论频率以及偏好。产品性能分析,比较同一类别下不同品牌或不同型号的产品的性能,通过用户评分和评论数量来评估产品的受欢迎程度和质量。项目7_客户反馈分析10任务7.1数据集简介(2/3)价格变动与销量关系,研究产品价格变动对销量的影响,分析价格调整策略的效果。可以使用时间序列分析来探索价格和销量之间的关系。评论质量和可信度分析,分析评论的质量和可信度,识别虚假评论或刷单行为。可以基于评论的内容、评论者的历史行为、评分分布等特征进行识别。产品属性与用户满意度,分析产品的具体属性(如颜色、尺寸、功能等)与用户满意度(评分)的关系。可以发现哪些属性对用户满意度有显著影响。销量预测,基于历史数据,使用机器学习模型(如回归模型、时间序列模型、神经网络)进行销量预测,帮助商家进行库存管理和市场预测。跨类别关联分析,探索不同产品类别之间的关联,分析用户是否有跨类别购买的倾向。例如,购买电子产品的用户是否也倾向于购买相关配件或其他类别的产品。由于本章主要针对文本型数据进行数据挖掘,所以我们将重点放在用户评论上进行研究。其他的研究,读者可以根据前面几章学习的内容进行课外研究。项目7_客户反馈分析11任务7.1数据集简介(3/3)总之,该数据集具有很好的学习研究价值。项目7_客户反馈分析12任务7.1数据集简介图示补充该页用于课堂中对界面截图、流程结果或图表进行补充说明,适合教师边展示边讲解。项目7_客户反馈分析13任务7.2数据集以及相关资源下载步骤1:解压数据资源包;从随书附带的资源包中,找到文件夹“项目7-客户反馈分析”,解压后得到文件夹“yfamazon”,其中包含了文件“categories.csv”1175条商品分类信息,“products.csv”525619条商品信息,“ratings.csv”1424596名用户的7202921评分/评论信息,以及“links.csv”所以商品在亚马逊的商品编号。项目7_客户反馈分析14任务7.2数据集以及相关资源下载(1/18)步骤1:解压数据资源包从随书附带的资源包中,找到文件夹“项目7-客户反馈分析”,解压后得到文件夹“yfamazon”,其中包含了文件“categories.csv”1175条商品分类信息,“products.csv”525619条商品信息,“ratings.csv”1424596名用户的7202921评分/评论信息,以及“links.csv”所以商品在亚马逊的商品编号。文件加“stopwords-master”包含了常用的中文停用词表,如表7.1所示。||||--------------------------------|---------------------||词表名|词表文件|项目7_客户反馈分析15任务7.2数据集以及相关资源下载(2/18)|中文停用词表|cnstopwords.txt||哈工大停用词表|hitstopwords.txt||百度停用词表|baidustopwords.txt||四川大学机器智能实验室停用词库|scustopwords.txt|“情感词汇本体.xlsx”文件,中文情感词汇本体库是大连理工大学信息检索研究室在林鸿飞教授的指导下经过全体教研室成员的努力整理和标注的一个中文本体资源。该资源从不同角度描述一个中文词汇或者短语,包括词语词性种类、情感类别、情感强度及极性等信息。项目7_客户反馈分析16任务7.2数据集以及相关资源下载(3/18)除了以上必备的资料外,我们还需要安装中文分词库,请使用“pipinstalljieba”命令进行安装。步骤2:数据初步观察【例7.6】导入基础库\子图%matplotlibinline\忽略警告项目7_客户反馈分析17任务7.2数据集以及相关资源下载(4/18)【例7.7】分类数据categories=pd.readcsv('categories.csv')categories.sample(10)\输出结果如表下。类别数目:1175catIdcategory项目7_客户反馈分析18任务7.2数据集以及相关资源下载(5/18)1089牙膏72家庭/家居568磨脚器1092冲锋裤851笔记本配件952演出/票务项目7_客户反馈分析19任务7.2数据集以及相关资源下载(6/18)615榨汁机1113教学演示/展示用品346软件/服务314女性护理【例7.8】商品数据products=pd.readcsv('products.csv')项目7_客户反馈分析20任务7.2数据集以及相关资源下载(7/18)products.sample(10)产品数目:525619productIdnamecatIds实用商务英语写作项目7_客户反馈分析21任务7.2数据集以及相关资源下载(8/18),1101,921三维图解:肩背调理书,665,1011小学英语分级阅读(1级)(1至2年级),1101,1116车尔尼钢琴快速练习曲(Op.299)项目7_客户反馈分析22任务7.2数据集以及相关资源下载(9/18),519,1076D.YigTo第一套时尚职业装男士商务正装两扣西服套装1010112,799,1160让孩子越玩越聪明的150个经典益智游戏(3-6岁),665,285资生堂第三代传人自传:我的多轨人生项目7_客户反馈分析23任务7.2数据集以及相关资源下载(10/18),723,586带我走,去远行,519,599药性歌括400味(彩图版),1096,867,723,221项目7_客户反馈分析24任务7.2数据集以及相关资源下载(11/18)【例7.9】用户评论与评分pdratings=pd.readcsv('ratings.csv')用户数目:1424596评分/评论数目(总计):7202921【例7.10】评论抽样pdratings.sample(10)项目7_客户反馈分析25任务7.2数据集以及相关资源下载(12/18)userIdproductIdratingtimestamptitlecomment项目7_客户反馈分析26任务7.2数据集以及相关资源下载(13/18)外观漂亮时尚保温效果好!~NaN0?2.0!NaN值得拥有看了之后觉得内容到纸张都很不错,值得拥有项目7_客户反馈分析27任务7.2数据集以及相关资源下载(14/18)给公司买的,优惠给公司买的,优惠,营业厅249,这边便宜,速度还算稳定很好用,按键很舒服,鼠标也很灵活和图一样,送货够快和图一样,送货够快,快递包装也不错,给小侄女的礼物,纸质印刷都好。服务很好项目7_客户反馈分析28任务7.2数据集以及相关资源下载(15/18)NaN不怎么样不怎么样啊纸质比较差感觉像盗版字体看着也不舒服NaN还可以,想象中的差不多NaN项目7_客户反馈分析29任务7.2数据集以及相关资源下载(16/18)由于本章主要针对文本型数据进行数据挖掘,所以用户的评论是我们要研究的对象,以下主要从两个方面进行数据挖掘。关键短语和特征提取目标:提取评论中的关键短语和特征词汇。方法:使用TF-IDF(词频-逆文档频率)识别高价值词汇。应用词向量模型(如Word2Vec、GloVe)提取特征词汇。项目7_客户反馈分析30任务7.2数据集以及相关资源下载(17/18)使用依存句法分析(dependencyparsing)提取短语和实体。情感分析目标:分析用户评论中的情感倾向(正面、中性、负面)。方法:使用情感词典(如SentiWordNet、AFINN)进行情感评分。应用机器学习分类器(如SVM、朴素贝叶斯)进行情感分类。项目7_客户反馈分析31任务7.2数据集以及相关资源下载(18/18)利用深度学习模型(如LSTM、BERT)进行更高精度的情感分析。项目7_客户反馈分析32任务7.3词云数据准备词云是一种数据可视化技术,适用于表达文本数据中的关键词频率。;在词云中,重要性高或频率多的词以大字体或醒目的颜色显示,而重要性低或频率少的词以小字体或暗淡的颜色显示。项目7_客户反馈分析33任务7.3词云数据准备(1/11)词云是一种数据可视化技术,适用于表达文本数据中的关键词频率。在词云中,重要性高或频率多的词以大字体或醒目的颜色显示,而重要性低或频率少的词以小字体或暗淡的颜色显示。这种方式可以快速地揭示文本数据的主要主题或模式。词云在文本分析、用户反馈分析、社交媒体分析等领域有广泛的应用。在本任务中,准备从商品评论列表中找出某一个款商品,然后对其所有评论进行预处理,对评论的所有关键词绘制词云。【例7.11】商品选择selectedproduct=242973获取该商品的所有评论项目7_客户反馈分析34任务7.3词云数据准备(2/11)productratingsuserIdproductIdratingtimestamptitle项目7_客户反馈分析35任务7.3词云数据准备(3/11)comment提高商务写作,蛮详尽的。商务英语写作比较实用基本上是商务英语专业专升本用的商务英语写作的缩写本,但是那套教材比较老,可能不好买了。好书,考研用的,值得购买,好好利用很好的書项目7_客户反馈分析36任务7.3词云数据准备(4/11)這本書很實用,真的很喜歡,絕對有用书有些折损,但不影响整体。是正版的。还没开始看,相信对自己有帮助书的质量很好,内容很好,适合考研学生使用,给五分!对学英语的人还比较有帮助。对外的教授灰常牛!狂顶OK啦!项目7_客户反馈分析37任务7.3词云数据准备(5/11)讲解,练习,都挺好啦!英语书上课用的教材翻看了一遍,质量还蛮好,和学校提供的一样不错先看了一点,还蛮不错的适合学习商务类写作有案例解析,和修正版,适合初学者书的质量很好!!!!项目7_客户反馈分析38任务7.3词云数据准备(6/11)买错书了分得很细,可惜买错愕,摆书架吧!感觉不错全新的书,是本好书,很实用,快递很快,纸质不错,包装的很好【例7.12】定义停用词表\定义停用词列表项目7_客户反馈分析39任务7.3词云数据准备(7/11)stopwords=set()stopwords.add(line.strip())stopwords【例7.13】定义文本处理函数\停用词过滤函数\文本处理函数项目7_客户反馈分析40任务7.3词云数据准备(8/11)words=jieba.lcut(text,cutall=False)\分词filteredwords=removestopwords(words,stopwords)\去除停用词【例7.14】对商品评论应用文本处理函数df=productratings.copy()\应用文本处理函数到DataFrame的comment列\合并所有处理后的关键词到一个列表中项目7_客户反馈分析41任务7.3词云数据准备(9/11)\输出结果如下:所有评论的关键词列表:\['提高','商务','写作','蛮','详尽','基本上','商务英语','专业','专升本','商务英语','写作','缩写本','那套','教材','比较','老','可能','不好','买','好书','考研','值得','购买','好好','利用','這本書','實用','真的','喜歡','絕對','有用','书','折损','影响','整体','正版','没','相信','帮助','书','质量','内容','适合','考研','学生','使用','五分','!','对学','英语','比较','帮助','对外','教授','灰常牛','!','狂顶','讲解','练习','挺','!','英语书','','','上课','教材','项目7_客户反馈分析42任务7.3词云数据准备(10/11)','','翻看','一遍','质量','蛮','学校','提供','','','不错','先看','一点','蛮','不错','案例','解析','修正版','适合','初学者','书','质量','!','!','!','!','分得','很细','可惜','买','错愕','摆','书架','!','全新','书','好书','实用','快递','很快','纸质','不错','包装'\]【例7.15】将所有的关键词导出为csv文件\将关键词列表转换为DataFrame\将DataFrame导出为CSV文件项目7_客户反馈分析43任务7.3词云数据准备(11/11)keywordsdf.tocsv('keywords.csv',index=False,encoding='utf-8')项目7_客户反馈分析44任务7.4绘制词云步骤1:新建Orange空白安装Text插件;打开Orange软件,新建一个空白的Orange文件,处理文本需要安装Text插件,首先,单击“选项\|安装插件”菜单,在插件列表对话框中勾选“Text”复选框,然后单击“安装”按钮。项目7_客户反馈分析45任务7.4绘制词云(1/2)步骤1:新建Orange空白安装Text插件打开Orange软件,新建一个空白的Orange文件,处理文本需要安装Text插件,首先,单击“选项\|安装插件”菜单,在插件列表对话框中勾选“Text”复选框,然后单击“安装”按钮。安装成功后,“Text”插件中的组件会显示在左侧的组件列表中,如下图7.1所示。步骤2:绘制图云在组件列表的“Textmining”分类下,拖曳一个“Corpus”(语料库)组件到工作流中,双击打开,然后选择“keywords.csv”文件,如图7.2所示。项目7_客

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论