基于情感分析的评论数据用户满意度影响因素研究_第1页
基于情感分析的评论数据用户满意度影响因素研究_第2页
基于情感分析的评论数据用户满意度影响因素研究_第3页
基于情感分析的评论数据用户满意度影响因素研究_第4页
基于情感分析的评论数据用户满意度影响因素研究_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 基于情感分析的评论数据用户满意 度影响因素研究 摘要通过对用户的满意度影响 因素的分析,能够帮助商家挖据用户需 求、提升用户满意度、从而提高商品销 量。本文使用商业智能软件 PowerBI 对 用户评论文本进行数据挖掘,通过提取 评论数据中的质量、物流、尺码、价格、 颜色等影响用户满意度影响的因素,利 用情感分析法进行赋值,然后统计各影 响因素的样本得分,识别出价格和质量 是最重要的影响因素。 中国论文网 /4/view-12980356.htm 关键词 评论数据;情感分析; 用户满意度;影响因素 伴随电子商务的蓬勃发展,电商 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 网站下累积了大量用户在线评论数据, 通过对评论数据相关研究的解读和分析, 我们发现:评论数据是用户表达真实需 求和情感极性的重要途径,故而可以挖 掘出其隐藏的用户偏好以及真实需求。 姜巍等人创造性地将评论数据看作一种 内容互连的网络拓扑的形态,利用评论 网络节点的重要性来度量评论的有用性, 该方法对用户需求获取能够达到较高的 准确率和覆盖率。评论数据中的情感极 性对商品销量会产生一定程度地影响作 用。如 Sonnier,G.P.等人验证了积极的 评论数据、中性的评论数据、消极的评 论数据都对销量有着显著影响作用。因 此,通过对评论数据进行情感分析来挖 掘用户需求、提升用户满意度最终可以 达到提高商品销量的目的。本文将从用 户评论数据中提取如质量、颜色、服务 等具有实体意义的影响因素指标,通过 建设多维度数据集进行用户满意度影响 因素研究。 1 数据来源 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 本文对京东商城的用户评论数据 进行采集,使用网络爬虫软件八爪鱼对 班尼路官方旗舰店男装 T 恤(链接 https: /item.id.COB/1574267931.html) 的用户评论数据进行抓取,对每一条评 论数据(如图 1 所示)中方框内各字段 进行抽取,抽取的字段分别是:用户名、 用户级别、地区、用户满意度(星级好 评) 、评论文本、价格、商品信息、颜 色、尺码、评论时间、端口。将抽取的 字段设置为自动导入数据库中以备后续 分析。 2 数据的抽取、清理和加载 由于抽取到数据库中的用户名仅 显示首尾字符,中间字符是由星号键组 成,故而容易出现不同用户共享同一用 户名的情况或者同一用户名在不同时期 的评论被数据库禁止读入的情况发生, 因此需要将序号代替用户名作为表格中 的主键进行分析以避免数据库读取数据 失败的情况发生。截止至 2017 年 3 月 19 日共抓取到 7000 条评论数据,故而 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 形成一张样本容量为 7000 条数据的评 论数据总表(如表 1 所示) 。数据库可 实现在线实时更新,抓取的网页数据会 自动加载到数据库中的评论数据总表中, 为减少数据冗余,需要对数据进行清理, 减少垃圾数据的读取。从竞争情报角度 考虑,如果用户名、用户级别、地区三 者完全一致的用户可被视为同一用户, 因此可以设置联合主键的方式作为同一 用户的判断条件,如果数据库中显示较 为接近的时间段内由大批用户级别较低 的评论涌入,则默认为是水军;如果同 一用户在较为接近的时间段发表多条评 论数据,则默认为是重复评论,只保留 该用户的第一条评论;前者的评论数据 置信度较低,后者评论数据产生冗余, 为保证研究结果的准确可靠性,应将这 两类的评论数据予以清除。 3 用户满意度的影响因素指标 本文在数据库存储设计时创建多 维数据集,从评论用户本身出发,设计 以地区、端口(上网设备) 、用户级别 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 三个影响指标;从商品属性出发,由表 征商品特征属性的特征词质量、物流、 尺码、价格、颜色五个影响指标,如图 1 所示。本文图从不同维度对用户满 意度进行分析,商业智能软件 Power BI 能够实现对多维数据集进行数据处理, 通过对用户满意度与影响指标间的各项 数据进行自动化分析,寻找出用户满意 度的关键影响因素。地区、端口、用户 级别三项指标都能较易地由字符串数据 转化为数值型数据;再利用情感分析法 将评论文本中的字符型数据转化为语义 识别后的数值型数据,从而作为用户满 意度影响指标中的可分析处理的自变量, 从而被商业智能软件识别和分析。 4 评论文本的情感分析 4.1 通过分词提取特征词 提取评论文本中特征词的方法中, Li,F 等人采用句法结构树 Skip-Tree CRFs 提取评价特征词进行情感极性分 析。Li,C.w 等人利用了情报学专业中 常见的逆文本频率指数(IDF)方法, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 对关键词权重进行排序后提取重要特征 词并进行情感极性分析。这些方法效率 虽高,但是忽略了评论文本中特征词的 同义词产生的误差,从而影响研究结果 的可靠度。本文采用半自动化提取的方 式,设定特征词同义词表以提高整个研 究的准确度。具体方法是:特征值显著 的特点是词性为名词,因此本文通过对 评论文本进行分词并统计词性为名词的 高频特征词即可得到用户满意度影响因 素指标。分词软件采用 PHP 简易中文 分词(SCWS )第四版,将 7000 条评论 文本分词为词语词性(如质量n) 统计汇总后得到的高频特征词为以下几 类:质量、物流、尺码、价格、颜色、 活动、品牌、服务等;本文仅选取排名 靠前的五项指标进行详细分析,即将质 量、物流、尺码、价格、颜色作为用户 满意度的影响因素指标进行后续分析。 对出现特征词的同义词进行归类形成一 特征词同义词表,如表 2 所示。特征词 同义词表的作用是避免重复提取特征词 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 以提高检索效率。如评论“颜色很好看, 色彩很美,价格便宜” ,其中 “颜色”和 “色彩”都属于颜色类特征词,数据库在 提取同类型特征词时设置为仅提取首次 出现的特征词,因此提取结果为特征词 “颜色”、 “价格”,将提取结果导人数据库 一抽取词表表格中,然后该条评论结束 读取跳转至下一条评论。 4.2 情感词的定位及提取 相关学者将情感分析分为:有监 督方法,如 Ali,F 采用机器学习的方 法使用基于支持向量机(SVM)和改进 版的模糊领域本体(FDO)方法进行情 感极性判断;无监督方法,如李欣等人 采用无监督方法通过多重聚类算法进行 情感极性判断;f 情感词典方法,如马 松岳等人使用 ROST EA 情感词典工具 进行情感分析。特征词显著的标志是词 性为名词,而情感词则由多种词性组成, 常见的是由副词和形容词组成,本文中 采用以对评论文本分词后确定的特征词 位置为基准,在特征词附近创建字符区 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 间作为情感词定位区间,例如“挺好, 穿了一天,性价比挺高的。 ”分词结果为 “挺/v 好/a 穿/v 了/v 一/m 天/n 性价比/n 挺/v 高/a 的/ui”。能够定位到特征词为 “性价比”,属于“价格”类,情感词的取 值范围为“一 /m 天/n、挺/v 高/a”,接下 来需要通过数据库的一情感词表与一抽 取词表进行关联匹配出情感词并赋值得 分。 4.3 通过情感词表进行情感 词匹配赋值 本文中将数据库中一抽取词表与 一情感词表进行关联匹配来进行情感极 性赋值。具体操作是:特征词后面连接 的是情感词,如“ 质量很好 ”中“很”是情 感程度词语, “好” 是情感极性词语,将 HowNet 情感词表和台湾 NTUSD 情感 词表输入数据库中作为一情感词表,可 通过人工方式添加增添词表内容。情感 程度词语赋值为 1 分至 6 分(如果没有 出现程度词语则默认为 1 分,出现情感 程度词语则得分为 2-6 分) ,积极情感 词语赋值 2 分,消极情感词语赋值-2 分, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 中性情感词为 1 分。 情感得分 F=w*i,w 为情感程度 得分,i 为情感极性得分。举例:“挺好, 穿了一天,性价比挺高的。 ”中分词效果 为“挺/v 好/a 穿/v 了/v 一/m 天/n 性价比 /n 挺/v 高/a 的/uj” 中提取的特征词为 “性 价比”,之前提取情感词区间为情感程 度词语为“挺 ”,得分 3 分,情感极性词 语为“高”,属于积极情感词语,得分 2 分,因而价格指标下该条评论中情感得 分为 6 分;其余指标得分为 0;对每一 条评论数据得分统计后,得到用户满意 度表中各项指标得分情况如表 4 所示。 4.4 结果分析 运用中文分词技术及情感词极性 识别方法对用户评价进行量化,运用灰 色关联分析方法对获取的数据进行信用 度得分计算,最后采用商业智能分析软 件 Power BI 进行多维数据集进行数据 分析,结果如图 2 所示。 从单一因素分析结果来看,用户 级别、地区、端口不同的情况下有着不 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 一样的用户满意度。从用户级别来看, 用户满意度从高到低的顺序分e 是银 牌会员、金牌会员、铜牌会员、钻石会 员、PLUS 会员、PLUS 会员【试用】 、 企业会员;从用户端口来看,用户满意 度从高到低的顺序分别是 Android 客户 端、iPhone 客户端、PC 端、微信购物、 手机 QQ 购物、iPad 客户端;从地区来 看,用户满意度从高到低前四位分别是 广东、北京、江苏、上海;从商品属性 来看,用户满意度影响因素从高到低的 是价格、质量、尺码、物流、颜色。 从切片图中可观察到在用户级别、 地区、端口不同的情况下,并没有表现 出对商品需求的明显不一致现象,仍然 表现出对价格和质量的关注。针对这种 情况,商家可以将关注的重点仍然放在 商品特征本身,提高商品的质量、降低 销售价格,当整体评论情况发生变化以 后再去根据用户特性去进行细分市场划 分,根据特定人群的用户属性和偏好去 实现个性化定制服务。当然,商家还可 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 11 以利

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论