版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向电商平台的顾客满意度分析模块系统设计实现消费者网购后留下的评论数据具有极大的数据量与可分数据进行网络爬虫与数据挖掘,得出消费者对商品满意度本文以京东商城AppleiPhoneXR(A2108)128GB的评论为研究对象爬虫程序爬取京东商城AppleiPhoneXR(A2108)128GB的9865条在线评价,通过关键词提取算法对关键词进行概提炼与概括,获得基础语料。以机器学习算法为朴素贝叶斯情感分类器对基础预料进行训练,将评价好的分类器将评论数据分为积极情感集和消极情感集。通过LDA主题模型结合情感分类器构建满意度模型,再分析消根据分析结果,为京东商城苹果自营店提高消费者满意度提分析结果对买家提升用户体验也有一定的意义 31.1研究背景与意义 31.1.2研究意义 3 51.2.1文本情感分析研究综述 51.3论文内容和框架 6 7 7 72.2python语言与网络爬虫 82.3可视化分析 8 92.4中文分词 92.4.1jieba自然语言处理 2.5情感分析 2.5.1贝叶斯情感分类器 2.5.2分类器性能评价指标 2.6本章小结 3.2文本预处理 3.2.1停用词处理 3.2.2无效文本与特殊内容清洗 3.3评论数据提取 3.4评论数据可视化分析 3.5本章小结 204.1朴素贝叶斯分类器 204.2LDA主题挖掘 214.2.1LDA模型结构 4.2.2积极情感集的LDA主题模型结果与分析 214.2.3消极情感集的LDA主题模型结果与分析 23 23 5.1结论 245.2本文研究的不足与展望 24 25第一章绪论1.1研究背景与意义随着中华民族的伟大复兴,中国居民的购物体验也随着中国发展腾飞。当前的中国,互联网行业逐渐崛起,其主要行业之一——电商行业已成为国内互联网行业大头。随之崛起的物流行业的蓬勃发展更是为网络购物奠定了不可或缺的物质基础。2020年,全国网上零售额117601亿元,比上年增长10.9%。其中,实物商品网上零售额97590亿元,增长14.8%,占社会消费品零售总额的比重为24.9%,比上年提高4.2个百分点。以上数据表明,网购市场早已消费市场重要的组成部分,发展潜力巨大,规模也在不断扩大,是各家企业的必争之地。此外,不仅能改变其他消费者的消费目标,还能指导企业进一步发展,消费者网购之后的评论数据已不止于消费者购物之后对商品满意度的直观感受。本文通过对京东商城的评论数据进行网络爬虫与文本挖掘,构建满意度模型,得出消费者对商品满意度的影响因素。通过满意度模型的分析,企业得以充分理解消费者需求,提升服务质量,自身也将获得销售额的增长,实现卖家买家的双赢。同时人工提取评论数据中的关键信息的效率较低,有效信息很难从中发掘,其主要原因是评论数据量不断增长这一事实已经十分常见。与此同时,一项日益成熟的技术能针对性地有效提取文本中的信息,如情感信息,文本挖掘这一技术对商家了解影响消费者满意度的相关因素大有裨益。人工智能的发展根据其接近于人类的水平,大致可以划分为:计算智能、感知智能、认知智能三个时代。人工智能对于认知和情绪的功能,是从人工智能进步到现代认知和智能化的重要标志。仿真了人类对于情绪和感觉的能力,让机器根据某些规则计算情感,则是情感感知的概念。文本情感分析是情感感知的一个细分领域,也是自然语言处理的一个分支领域。文本情感分析的具体概念是,利用人类自然语言处理的技术,模仿一个人的心灵情感活动过程,对一个文本中的各种情感单词进行了分析。文本的情绪性分析在很多研究领域都已经具有广泛的科学研究和应用,诸如文本挖掘技术领域、机器学习技术领域、自然语言处理技术领域等,都被认为是一种能够使我们在文本的情绪性分析中获得广泛科学研究和应用的热门领域。文本的情绪性分析指标可以根据不同的情绪性指标对其进行分类。按文本粒度的分类如图所示。本文研究的对象京东商城中的评论数据,属于在线评价文本。消费者对商品满意度的直接体现可以通过在线评价文本中的评论数据直观地反映出来。对评论数据进行文本挖掘,可以构建满意度模型,分析出消费者的满意度影响因素;从情感角度分析,可以归纳出积极因子与消极因子,即消费者为什么满意与为什么不满意的相关因素。其中在线评价的文本粒度为句子级,文本来源是京东商城苹果自营店苹果手机评论数据。本文需要分类的文本来源于京东商城AppleiPhoneXR(A2108)128GB的在线评价,选择机器学习法构造分类器,通过主题模型对分类后的正面评价文本集和负面评价文本集进行挖掘,得到消费者评论内容中的积极因子与消极因子。根据分析结果,商家可以借鉴分析结果发挥指导作用,从而可以有效地提高消费者满意度,同时增加回头客数量。根据文本信息来源的具体分类方式不同,文本情感分析还可以划分为自媒体数据、感,主要分析人情绪的表达,通过构建基准情感词,对喜、怒、哀、惧进行特征分析,义(积极或消极),即判断文本的极性。[2]国内外学者认为网络消费者满意度影响因素的研究与线下消费者满意度影响因素务产出质量的一个标准。随着顾客满意度模型从差距中国自己国家层次的消费者满意度模型需要进一步深入的理论研究与大量的实践研究3。殷荣伍在于1994年美国建立的消费者满意度指数计量经济模型的基础上,分析了度模型。[5T刘文霞通过理论分析研究了当前我国互联网购物中对于顾客服务和满意度的主要影响因素,她指出,服务价值和形象价值是显著影响消费者满意程度的因素,而商家个人背景与满意度均值之间没有显著联系。此外,普遍而负面的影响是感知品质对于消费者满意度最有作用的因素,而感知价值对消费者满意度影响不大6。南剑飞等分析了建立企业消费者满意度(CSD)评价体系的必要性,指出了设置消费者满意度分析影响因素的基本原则,分析了各个影响因素之间的相互关系,从而构建了新本文从评论数据中分析了网购消费者满意程度影响的因素,对京东商城苹果自营店中苹果手机的评论数据进行了研究,使用到的主要技术为网络爬虫、文本挖掘、自然语言处理、情感分析的等本文的满意程度影响评价因素的模型,在关键词提取算法的作用下初步形成。构建模型后,基于机器学习的方法,构建朴素贝叶斯的情绪评价分类器,将其评价集划分为积极的情绪集和消极的情绪集。对两个情感集进行语料训练,建立LDA主题模型,以此研究网购消费者的积极因子和消极因子。主要内容如下:第一章是绪论。首先介绍了研究的背景和意义。网购评论数据是消费者购物之后发表的具有强烈个人色彩的主观性文本,情感分析在此处可靠性比较高。对评论进行情感分析有利于卖家改善服务质量,满足消费者需求,从而提高流水。之后介绍了国内外学者对满意度模型的研究现状。第二章是文献综述。本章主要包含Python语言与网络爬虫、满意度模型分析、可视化分析、中文分词,以及情感分析五方面内容,通过这五方面内容,系统介绍了构建满意度模型的主要流程、相关理论内容和技术方法。第三章是数据爬取及预处理。首先设计了爬虫程序,从京东商城爬取AppleiPhoneXR(A2108)128GB的评价,然后进行文本处理,并用TF-IDF算法抽取关键词,以抽取后得到的关键词为基础,初步分析网购苹果手机的满意度影响因素。第四章是构建京东商城苹果自营店苹果手机的消费者满意度模型。用手动标注的方法分别标注400条积极情感、消极情感的评价。训练朴素贝叶斯分类器,再构建基于LDA主题模型的满意度模型,分析消费者网购的积极因子和消极因子。第五章是结论与展望。主要为通过满意度模型的分析得到给京东商城的指导性建议,以及满意度模型的可用性。此外还指出了满意度模型的不足与未来的改进方向。第二章理论基础及文献综述消费者满意度是国内外学者的研究热点,国内外学者通过选取特定的消费者群体,从理论方面和实践方面展开研究。在国内外学者的努力下,现在已经有许多能够对实践产生指导作用的满意度模型框架。消费者满意度模型,即通过数学建模,将影响消费者购物的满意程度的影响因素的综合作用通过模型分析,并对买家卖家双方提供指导作用的实践模型。目前,国内外学者都十分重视通过构建消费者满意度模型来提高消费者的购物满意度。ChurchillSuprenant基指出,消费者从其接受的服务或者其购买到的产品中获取到的收益,是消费者为获得该服务或该产品所付出的成本,与收益之间的差值成正比关系,成本主要构成为时间成本、金钱成本、精力等8。Borle从认知角度对消费者满意度因素进行了理论分析。他指出,消费者从其接受到的服务或其购买到的产品中获取到的收益,与实际获得到的收益之间的对比与评价过程即消费者满意度的强相关因素[91。Armstrong指出,消费者购买商品前的期望,与商品购买后产生的实际收益,两者之间的差异主要由价格、品牌、服务质量、产品质量组成。[10]马银戌等基于石家庄市20个村庄700名农民抽样调查的第一手数据,构建农村网购满意度的SEM模型。通过SEM模型数据结果分析,得到消费者农村网购满意度的直接影响因素有三个:销售服务、产品核心价值和网络安全。其中销售服务是影响因子最大的因素,权重为0.6。此外,模型分析还得出物流配送对消费者网购满意度影响较小,但史晓丹等综合分析了SCSB,ACSI,ECSI和CCSI等国内外消费者满意度模型理论,结合消费者网购满意度的影响因素,从网络购物的独有特征出发,将满意度指标分为如下1)一级指标:顾客满意度2)二级指标:产品核心价值、网络购物核心优势、销售及售后服务等9个变量3)三级指标:网购产品总体质量、售后服务及时性等29个变量2.2python语言与网络爬虫自2000年以来,Python和Web爬网程序就紧密地联系在一起。当涉及到Web爬网C++,Java,ruby等。但是,python仍是上至学术下至工作中人们最青睐的网络爬虫语深度优先策略基于图的深度优先算法,即爬虫程序从某网页的url信息,爬取下一个网页,重复广度优先策略基于图的广度优先算法,即爬虫程序在完成与有网页的内容后,再寻找下一层次网页的url信息,重复如上步骤直至完成网页爬取。本文利用最佳优先的策略展开网络爬虫,主要使用的第三方库为requests库与2.3可视化分析信息。用户可能有特定的分析任务(例如比较它们或了解因果关系),并且这些分析任务的方面。2.3.1pyecharts库pyecharts库是一款强大的把一个python和pyecharts相互的结合在一起的企业数据分析可视化统计分析应用工具。其产品前身的aecharts实际上本身就是一个由中国百度公司自主研发开源的百度数据分析可视化,凭借其良好的用户互动性,精巧的数据图形和功能设计,得到了许多专业开发人员的一致认同。而python语言是当前世界上最好用的pyecharts,它具有简单而有效的api操作系统架构设计,并且同时支持链式的线程调图、平行坐标图等。此外jupyechartsb还支持了目前主流的应和新的jupyterlab,可轻易地将其直接集成在flask,django等各种目前主流的web中的应用环境框架,还同时具备了海量多达400+的企业地图资源文件以及最先进的正版百度企业地图,为企业地理技术数据分析提供了更加可视和优化的并给予强有力的地理技术基础中文分词的目的是根据语义将句子分为有序的词。句子的多义性是中文分词的一个难点,而词作为语义的基本单位,能够给中文分词加以利用,从而最大程度地消除句子的起义。中文分词还需要跳出英文分词的桎梏,两者最直接的区别是组成句子的单词没有如英语句子之类的空格标记。因此,中文分词是中文自然语言处理的基础。揭春雨等先考察了当时中文信息处理区域已有的汉语自动分词方法,然后对这些分词方法进行时间复杂度分析,最后认为最大正向匹配分词法是当时(80年代)最实用的吴胜远提出单次扫描分词法,并通过比对其他分词法的时间复杂度,得出单扫描分词法当时(90年代)最快的中文分词方法[15。孙茂松等提出了一种针对三字长交集型歧义词的消解算法,针对歧义词,将歧义词切分,并分为真、伪两种类型,有效地改善中文分词中识别歧义词的准确程度16。陈桂林等先使用了一种高效率的中文词表数据结构,再通过这种支持hash和二分查找的数据结构提出了一种改进的快速分词算法,使中文分词速度得到提升17]。袁鼎荣等提出基于统计的无词典分词方法。结果表明,无词典分词模型能够满足中文分词中快速分词的要求[18。史宇提出了基于深度学习的中文分词方法。在分析CNN,RNN,LSTM的基础上,他目前比较常用的中文分词算法有词典分词法、统计特征分词法、理解分词法。理解分词法最接近人的思维过程,先进行语法分析,然后再对句子、文本含义进行分析,并且处理歧义词或者多义词、句时能够模仿人类综合考虑句法和语义。这种分词法最符合人类的语言习惯,但是目前准确率不高[20]。中文分词是汉语环境下人机自然语言交互的基本模块,也是文本挖掘阶段自然语言处理的基本步骤。分词是自然语言处理(NLP)中非常重要的部分,可以为文本挖掘其他阶段的数据分析和文本建模提供关键字支持[21]。Jieba库是基于Python编程语言的开源分词第三方库,对中文文本能获得极佳的分词结果22]。jieba分词主要包含三种分词模式:精确分词模式、全局模式、搜索引擎类模式。1)全局模式分词:扫描所有可以组成句子中的单词的单词。这种分词方式处理速度非常快,但是它不能彻底处理可能出现的歧义词,导致出现重复的词。例如“爸爸来自2)精确分词模式:指处理后的文本中句子依据词性被划分为最精确分词,例如动词,名词和其他概念性词,以及副词,介词,连词,感叹词,辅助词,语气词等功能词,以及标点符号,英文字母,表达方式等文字,非常适合于文字分析。3)搜索引擎模式分词:指在精确分词的基础上,对精确分词后仍然较长的词语再进行切分的分词方式,这种分词方式能提高分词结果的召回率[23]。情感分析是对带有情感色彩的文本进行分词、停用词去除、特征选择、分类和聚类以及处理结果分析的过程。目前,情感分析领域的研究的主要方面是:主观内容识别、消极积极情感分类以及评论价值挖掘。大部分研究借鉴文本挖掘等手段互联网上出现了大量带有情感色彩的主观文本,包括微博,在线评论,弹幕等。一种情感文本的划分可以为单词级,短语级,句子级,篇章级和多篇章级,分类依据是该情感文本中中文文本的粒度,即文本长度。情感信息可被分类为若干类别,如情感、目的、粒度等,均可以作为情感信息的分类依据。进行情感分析之前需对评论文本进行关键词提取。温有奎等提出一个基于TF-IDF的关键词抽取改进算法,其主要改进点为词频法和向量空间模型相结合的成果。他对一篇文章进行测试,将测试对象用名词向量表示,以词在句子中的权重构建名词权重矩阵,将句子中词的加权平均数相加,所得和值就是词在测试对象中的权值。实验结论指出,该情算法适用于提取比较长的文献,如学术期刊目前,情感分类方法主要有两种常见方法,一是以情感词典为基础进行分类,二是以机器学习为基础进行分类。基于情感词典的分类方法首先需要构建情感词典,而自动杨立公等[26从文本颗粒度出发,抽取情感相关词,构建情感词典和情感语料库,并分析了当前情感分析的文献库,指出了当前情感分析系统和算法准确率比较低的若干原感类,用1表示;另一部分标为消极因子,即消极情感类,用0表示。手动标注后的文的权值作为衡量标准,则用特征向量表示的文本d属于类别C,其数学原理如图所示。 (B)表示测试集中特征词B的权值。如果特征词在某一类别中不存在,则该特征词在这一类别的后验概率为0。查准率(精确率):分类器对测试集进行分类,正确分类的样本数与总样本数之比。查全率(召回率):分类器对测试集进行分类,分类结果正确的正样本个数与正样本2.5.3LDA主题模型隐式Dirichlet分配(LDA)是一个主题模型,它可以以概率分布的形式给出文档集的训练集。它仅需要文档集和指定主题数K。此外,LDA的另一个优点是它可以找到2.6本章小结两者相关理论内容和技术方法,主要包含Python语言与网络爬虫、满可视化分析、中文分词,以及情感分析五方面内容。课题开展主要基于Python语言,第三章数据采集和可视化分析本文对京东商城AppleiPhoneXR(A2108)128GB评价数据进行采集分析。通过评论内容、购买时间、点赞数、回复数、得分(评价等级)、评价时间、手机型号,按照京东评论的评论数降序即推荐排序爬取了商品最多100页9865条评价。(在生成文件中可以以不同关键词为标准进行升序或降序排序)爬虫程序在运行时,需要控制台输入京东商品的数字编码,以“AppleiPhoneXR(A2108)128GB黑色移动联通电信4G手机双卡双待”这款商品为例,爬取成功之后会按照用户ID/会员级别/手机参数/昵称/购买时间/评论内容的格式存为csv文件。部分评论如图所示。在对数据初步处理之前,先观察是否存在评论数目异常的数据,若存在则将其删除;再保留评论内容长度大于4个字的评论,并将长度不足4个字的评论删除,之后将两轮筛选后的评论内容全部导出至表格。经过初步处理后得到9865条评论。部分数据如表3-1所示。序号评论内容1代,挺好!!!2足,嗯,希望以后大家都购买他的产品真的非常的支持。3非常好不愧是京东自营!原装正品速度飞快!用着感觉也很好!完美的购物体验!!45从苹果6puls换到了8puls特别的喜欢,因为自己的6p太小了16G的,干脆这次换到了256G的绝对够用,一直也想买这个颜色,这次趁着双11就赶紧入手了,现在也一直在用。3.2文本预处理1)将评论内容的csv文件转存至txt文件2)改变编码格式,将txt文件中编码格式改为utf-8部分分词结果如表3-2所示。京东手机苹果速度体验不错容量送货很快正品评价活动免息物流喜欢好服务质量值得标签防伪充电手感好用满意没货缺货无语便宜国行正品银色金色深空灰美丽舒适外观很好自营维修不好客服问题缝隙跳水死机退货可以流畅高端外表新3)删除与停用词库对比值大于0的内容,保留与停用词库对比值小于0的文本作为新的数据文本停用词库部分词汇如表所示。?语气词呀哎呀吧呵呵么啊啊啊哦哪连词助词3.2.2无效文本与特殊内容清洗对于评论数据的内容中,既没有实际意义,也无法表达情感的文本,如特殊符号等,进行数据清洗,就是清楚无效文本与特殊文本。如示例所示,这些评论实际上没有实际含义。例如:“用户默认述相符”,“卖家非常好,非常热情”,“如预期的那样,获得五分好评”等。此外,评论中包含的表情,特殊符号等内容如:“□”、“□”、“□”、“□”等表情符对这类评论进行数据清洗的方法大致分两种:1)交叉对比无效文本或特殊文本,筛选出清洗后的文本内容。2)以无效文本与特殊文本为拓展,将无效文本与特殊文本写入停用词文本。□□观察数据是进行数据清洗之前的前继步骤。观察数据的合理与否,从而来确定待清洗的部分。使用python语句读取的数据如图所示。Comment_Comment_data[Comnent_dataI'评论内容]=’此用户未填写评价内容”]#查看评论前几行数璃AppleIenoneoPiusAppleiPhone8Plus(A1AppleiPhone8Plus(A1864)256GB金色移动联通AppleiPhone8Plus(A1从图中可以清晰的看出,有大量的用户并未填写评价,猜测可能是店家进行刷单导致评价为空。这部分数据没有任何用处,且空数据会对整个数据分析产生很大的影响,最终影响满意度模型的准确性,因此去除这部分数据。3.3评论数据提取本文采用TF-IDF算法进行关键词抽取。关键词抽取不仅是特征选取、构成词库的重要步骤,更可以了解消费者满意度影响因素对于在京东商城苹果自营店网购苹果手机的消费者的相关程度。经考虑,本文最终选取特征值较大的前200个词进行分析。使用jieba分词库进行关键词抽取,抽取权重值最高的200个关键词用于初步分析顾客满意度影响因素和特征选取,部分输出结果如表所示。关键词苹果满意实惠京东服务态度在去掉语境不明显词后,本文对剩下的关键词进行概念化提炼与概括,总结出以下影响因素:容量、外观、品牌、屏幕、性价比、包装、品牌、屏幕、整体感受、包装、物流、发货、在线客服、购物平台。这些影响因素经划分可分为四大类,类别如表所示。所属类别影响因素关键词示例容量内存、足够外观品牌苹果、自营屏幕清晰、大整体感受舒服、满意、喜欢、舒适、感觉价格性价比价比、值得、价格包装包装物流、快递、速度发货发货、很快客户服务客服、态度、服务购物平台京东、网上通过使用pyecharts库,将数据转化为柱状图、折线图等图表,直观地反映出用户评论数据中隐含的信息。将评论内容通过jieba库进行中文分词,再使用wordcloud库生成词云图,直观地反映出用户评论数据中高频词的分布。(1)日消费时段分析分析一天中不同时段消费者的手机购买情况,可以分析得出,大部分消费者在午时(10-12时)和晚上(20-22时)出现了消费高峰期,在此时段顾客购买商品的概率更大,他们浏览商品的机会更多。(2)月消费与会员等级分析从规格化的数据中看出,会员等级是有限个。但会员等级这一数据生成格式都是字符串,这需要进行统一编码,然后才能统计类别个数。会员等级和销售额存在一定的关系,通过分析月份和时间段能更精确的为消费者提供服务,因此用折线图来表示销量与月份、会员级别的关系是非常有必要的。0通过分析上图可知,不论是哪种会员,他们在三月份前后以及十一月份前后购买该款手机的数量最多,三月份换手机的原因推测是新年到来,更新换面的想法。十一月份换手机的原因推测与双十一有关,这时有很大的优惠,也是人们多样化选择手机的时段。①PLUS会员②金牌会员③银牌会员④钻石会员⑤PLUS会员(试用)⑥企业会员。分析原因,大致是因为PLUS会员大部分都属于高消费群体,他们购买这些价值昂会员(31.00%)、金牌会员(21.87%)、银牌会员(18.52%)。(3)评论内容分析系统非常苹果系统手机本章基于京东电商平台,对AppleiPhoneXR(A2108)128GB进行数据采集,采集条商品信息、评价,对应约200万字数据内容。并且在此基础上对数据清洗的效果是否第四章满意度模型分析4.1朴素贝叶斯分类器1)从爬取的9865条评论数据中随机抽取800条评论数据。2)手动标记400条积极评价,400条消极评价。3)从手动标记的评价中随机抽取20%的评价作为测试集,用于对朴素贝叶斯分类器进行测试,再随机抽取80%的评价作为训练集进行训练。4)根据测试集和关键词,选取带有情感色彩的词语(如不错、满意、差评等词语)5)设置0.5为阈值,若后验概率大于0.5,标记为为积极情绪;若后验概率小于等于0.5,标记为为负面情绪。然后对测试集进行测试。测试情况如表4-1所示。预测结果人工标记情况积极评价消极评价积极评价96(TP值)4(FN值)消极评价17(FP值)83(TN值),计算得P=85.0%,计算得R=96.1%,计算得F1=0.897F1的值大于1时,分类器倾向于查全率;而F1的值小于1时,分类器倾向于倾向类器要求。根据计算可知,该情感分类器的在积极评价上的精准率为83.2%,召回率为99%,F1值为0.904。由计算可得该分类器符数据分布如表4-3所示。消极情感评价数数量本文利用TF-IDF算法进行关键词提取。根据TF-IDF值,初步分析了京东商城上影本文将采用基于LDA主题模型构建的满意度模型分别对积极感情评价集和消极感4.2.1LDA模型结构Zm,nkB4.2.2积极情感集的LDA主题模型结果与分析根据积极情感集LDA主题模型的分析结果图表4-3所示,从不同的主题可以得到2)分组2中的五个关键词为“客服”者不仅认可京东的发货速度与物流速度,认为京东自营履行了第二天必达的承诺,还表明了消费者很满意京东客服的售前、售后服务。3)分组3中权重值最高的“苹果”、“自营”。说明消费者对京整体服务较为满意,比起实体店更愿意在网上自营店购买。4)分组4中权重值较高的“实惠”、“外形”表示消费者比较满意苹果手机的外形,而且相较于实体店更实惠的价格也令消费者满意。5)分组5“颜色”、“漂亮”、“正品”三个词都权重很高,表示消费者认营店购买到的都是正品苹果手机,基本没有假冒伪劣产品;且苹果手机颜值高,深受消费者喜爱。此外权重极高的“不错”说明消费者的购物体验很不错。表4-3积极情感集的LDA主题模型分组1分组2分组3分组4分组5关键词平均值关键词平均值关键词平均值关键词平均值关键词平均值购买客服苹果价格满意满意东西服务优惠实惠不错发货自营外形正品京东不错4.2.3消极情感集的LDA主题模型结果与分析如表4-4所示,通过消极情感集LDA主题模型分析结果可知,消费者最容易感到不满的地方为产品质量,比如电池、屏幕等,认为电池容量与预期不符、屏幕上有划痕等。同时也有部分消费者认为京东的物流速度不如预期,发货速度很慢;而且野有部分消费者对客服不满意,尤其是售后服务与退后服务。以及部分消费者认为在京东苹果自营店网购的购物体验不如线下实体店。表4-4消极情感集的LDA主题模型分组1分组2分组3分组4分组5关键词平均值关键词平均值关键词平均值关键词平均值关键词平均值差评差劲屏幕客服自营发货电池不好售后垃圾服务特别感觉商品破损很慢劣质这11个元素可以进一步提炼概括,将其划分为四个大类别:其中让用户感到满意的积极因子与造成用户不满的消极因子的结果如表所示。(表格中1表示该因素属于积极因子/消极因子)所属类别影响因素积极因子消极因子容量11外观11品牌1屏幕11整体感受11价格性价比1包装11发货速度11客户服务1售后服务1建了符合要求的情感分类器;其次介绍了LDA主题建模和LDA主题模型原理;再次,分析;最后,综合了积极情感集与消极情感集的LDA主题模型分析结果,构建出满意第五章结论与展望本文通过利用电商平台的海量消费者购物数据和商品评价信息,基于文本挖掘、情感分析等方法,以苹果手机为研究载体,对影响消费者满意度的因素进行研究与探索,从而构建出一个可靠、有效、准确的满意度模型对商品进行预测。课题主要开展了对应研究工作。研究和研究文本挖掘的研究方法和数据处理方法,结合国内外研究现状和研究目标,确定研究的总体思路和框架。也就是说,基于PythonWeb爬虫,我们从京东苹果自己的商店中获得了苹果手机的评论数据。在数据清理的基础上,我们完成了基于机器分割和字典分割的高密度关键字的存储。在此基础上,我们完成了相应的文本分类和数据分析,得出了用户的研究结论,最后,测试了文本挖掘方式下用户研究方法的可行性。。经过文本挖掘和关键词分析得到的语料,先使用朴素贝叶斯分类器进行训练,再用LDA主题模型得到情感评价集,构建满意度模型,通过模型可以得出结论:网购苹果手机的消费者满意度影响因素有容量、屏幕等11个因素,其中积极因子有容量、外观、屏幕、发货速度等。消极因子有容量、外观、售后服务等。综上建议商家首先要保证产品质量,保证货源手机不出现电池容量不足、手机外部出现损伤等问题。其次加快发货速度,并在业界物流速度风评较好的京东物流的基础上保证买家的收货体验。此外,让买家有更充足的理由选择网购手机的一个方法是,提供比实体店更具性价比的产品。此外,同样重要的还有在线客服提供的服务。事实上,售后服务、退货是造成消费者购物体验不佳,购物不满意的主要因素之一,京东平台需要重视售后服务,并为用户提供合理的退货服务。此外还需要考虑发货、物流速度,最好提前和商家沟通,让商家保证提供完整的售后服务。由结论可得出,本文通过利用京东苹果自营店中苹果手机的评论数据,运用网络爬虫、文本挖掘、关键词提取等方法,通过基于朴素贝叶斯分类器与LDA主题模型构建的满意度模型,可以比较好地通过挖掘网购平台评论数据来进行消费者满意度因素分析,并给予买家和卖家在网购中一定的指导作用以及积极的促进作用。在有限的时间和资源内,由于作者的水平有限,在完成后发现了很多的不足之处,这些不足之处大致可以总结为两点,希冀能在未来加以改进:这给作者的启示是,如果有足够的资源与实践,可以采集多家网购平台,如天猫、仅通过人工标注语料,最终训练集的语料数目仅800条。这次毕业设计的经历也将指导作者在未来的工作与学习中进一步学习文本挖掘与[1]杨经,林世平.基于SVM的文本词句情感分析[J].计算机应用与软件,2011,28(9):[2]陆文星,王燕飞.中文文本情感分析研究综述[D].,2012.[3]梁燕.顾客满意度研究述评[J].北京工商大學學報(社會科學版),2007,22(2):75-80.[4]张新安,田澎,张列平.顾客满意度测评模型[D].,2002.[5]殷荣伍.美国顾客满意度指数述评[J].世界标准化与质量管理,2000,1.[6]刘文霞.C2C模式网络购物顾客满意度影响因素的实证分析[D].东北财经大学,[7]南剑飞,熊志坚.论顾客满意度评价体系的构建[J].世界标准化与质量管理,2002,6:[8]Chu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GA/T 1390.7-2025信息安全技术网络安全等级保护基本要求第7部分:大数据系统安全扩展要求
- 注册会计师审计中审计报告关键审计事项的沟通要求
- 2026届四川教育联盟高三下学期第二次适应性考试语文试题及参考答案
- 中建材通辽矽砂工业有限公司门达砂矿矿山地质环境保护与土地复垦方案
- 某水泥厂物料采购流程细则
- 造纸厂生产成本控制制度
- 2026年运输企业安全教育培训计划及记录(1-12月)
- 2026年上半年长信保险经纪(四川)有限公司第二批人员招聘1人备考题库带答案详解(预热题)
- 2026内蒙古通辽市科尔沁左翼后旗招聘政府专职消防员29人备考题库及答案详解【考点梳理】
- 2026陕西西安医学院第二附属医院硕士人才招聘51人备考题库带答案详解(完整版)
- 2026重庆酉阳自治县城区学校选聘教职工91人笔试模拟试题及答案解析
- 2026湖北松滋金松投资控股集团有限公司招聘28人笔试备考试题及答案解析
- 2026江苏无锡惠高新运产业招商发展有限公司招聘6人笔试备考题库及答案解析
- T∕CEA 3030-2026 乘运质量等级 第2部分:自动扶梯和 自动人行道
- 医院清明假期安全课件
- 2026年国海证券行测笔试题库
- 2026年春沪教版《音乐》二年级下册教学工作计划
- 喜茶人力资源案例分析
- 品牌活动策划与执行指南手册
- DB4301∕T 001-2022 质量诊断准则
- 2025年云南省中考数学-26题二次函数降次幂题35道
评论
0/150
提交评论