网络评论挖掘技术综述_第1页
网络评论挖掘技术综述_第2页
网络评论挖掘技术综述_第3页
网络评论挖掘技术综述_第4页
网络评论挖掘技术综述_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络评论挖掘技术综述

0网络上的产品评论近年来,网络技术和电子商务的快速发展不仅给公司的业务流程带来了重大变化,也对消费者的行为模式产生了深远影响。以前,消费者在购买产品时,大部分是靠产品的口碑或者广告宣传来进行选择,对不同品牌的同类产品很难进行比较全面的了解和比较。而随着电子商务的快速发展,电子商务网站提供了越来越多的产品,越来越多的消费者也开始习惯于通过电子商务网站购买各类产品。同时,为了提高消费者的满意度以及改善消费者的购物体验,电子商务网站大都开辟了专门的区域来供消费者发表对其购买产品的评论。因此,网络上各种产品的评论数量也在飞速地增长。而且越来越多的证据表明,评论信息影响到消费者的购买决定。对网络上的产品评论进行挖掘的意义主要体现在两个方面:一方面,可以帮助消费者全面、综合地了解其他消费者对产品的评价,了解产品各个方面的性能,从而挑选出更适合自己的产品;另一方面,可以帮助生产厂商通过用户评论来了解自己产品的优势以及不足,找出消费者最感兴趣和最希望拥有的功能,以改进产品的设计,改善服务,获得竞争优势。网络上产品评论的数量极为庞大,有些热门商品可能包含成千上万的评论,而且有些评论可能内容很长,但是其中用户自身的观点只占一小部分。如果人工对产品评论进行分析和处理,将是一件非常繁琐和耗时的任务,而且很难获取全部产品评论中的有用信息。因此,需要提供一种有效的方法能自动或半自动地对产品评论进行分析和处理,挖掘出对用户和厂商有用的信息。近年来,以获取产品评论中有用信息为目标的非结构化数据挖掘技术——“评论挖掘”吸引了越来越多的学者的关注。1结果产品各方面性能的评价产品评论挖掘是近年来受到广泛关注的一个研究热点,以Web上发表的用户产品评论作为挖掘对象,采用自然语言处理技术,从大量文本数据中发现用户对该产品各方面性能的评价。评论挖掘主要包含4个子任务:产品特征抽取;评论观点抽取;评论观点的极性以及强度判断;评论挖掘结果的汇总以及按用户观点排序。(1)产品特征的提取从产品评论中抽取用户评价的产品特征,产品特征包括产品的属性或功能、产品的部件、产品部件的属性或功能、产品的相关概念等;(2)评论中提取的观点如下从产品评论中抽取用户所评论的产品特征的观点;(3)对评论观点的极性和强度做出评价确定用户观点的极性(褒义、贬义、中性)以及用户表达情感程度的极性强度;(4)评论总结和用户观点分类如下利用统计数字、图表等直观的形式对挖掘结果进行显示,并可以按照评论中用户对产品的评价观点对产品或产品的特征进行排序。2产品评论的特征产品评论挖掘需要从网络上的产品评论中抽取消费者对特定产品相关特征的评价,因此需要将产品评论中所涉及的产品特征抽取出来,以便获得消费者和生产厂商感兴趣的信息。虽然产品说明书中一般都包含了产品特征的描述,但是仅仅考虑这些特征是不够的。首先,产品说明书中的特征大部分都是以技术术语描述的,而产品评论中的产品特征用词更加丰富、更加贴近用户的表达习惯。其次,产品说明书主要描述了产品的硬件特性,而用户可能在评论中提及很多说明书中不存在的产品功能特性,或者生产厂商没有考虑到的特征。因此,需要从真实的网络产品评论语料中进行产品特征抽取。产品评论中的产品特征可以分为显式特征和隐式特征。显式特征是用户在产品评论中明确描述出来的特征,例如“手机外观非常时尚”,“外观”就是一个显式特征。隐式特征是用户在产品评论中没有明确描述,需要对句子的语义进行理解后才能获取的特征,例如“这款手机携带方便”,通过理解可以得到“尺寸”这个隐式特征。抽取产品的隐式特征需要对产品评论进行深刻的语义理解,目前自然语言处理技术还很难达到深刻理解句子语义的程度,因此绝大部分产品特征的抽取都只考虑了产品的显式特征。2.1基于产品特征的层次模型Zhuang等针对电影评论,将电影的特征分为两类:电影元素(例如情节、音乐等)和电影相关人员(例如导演、演员等),并人工定义了电影的特征。姚天昉、聂青阳和李建超通过人工定义的汽车本体抽取中文汽车评论的产品特征。Shi和Chang人工建立了一个产品特征的层次概念模型,层次概念模型将相似的特征聚集在一起,构成特征层次的一个叶子,每个叶子包含两个部分:“特征名称”和“观点词”。Carenini等利用领域知识建立了一个产品特征的层次模型,然后利用关联规则挖掘产品特征,并将挖掘到的产品特征通过相似性映射到该产品特征层次模型上。利用手工定义产品特征或者产品特征的层次结构是一件非常耗时的工作,而且对于不同的领域需要不同领域的专家参与,定义众多领域的产品特征显然是一项非常庞大的任务。同时,产品的特征并不是一成不变的,随着新产品的出现以及产品的升级,必然还要重新召集领域专家对产品特征进行补充或者修正。因此,自动产品特征的抽取是一个必然的研究课题。2.2基于公司定义特征的产品特征挖掘Kobayashi,Inui等针对游戏和汽车产品,将每一个特征使用一个三元组〈Attribute,Subject,Value〉表示,其中Attribute表示产品的特征,Subject表示产品,Value表示该特征的观点。利用人工定义的特征种子集、观点词种子集以及特征和观点的同现模式集来挖掘产品特征和观点,对挖掘的结果再通过人工进行修订。Yi,Nasukawa等抽取具有BNP(basenounphrase)、dBNP(definitebasenounphrase)和bBNP(beginningdefinitebasenounphrase)结构的名词或名词短语作为候选产品特征,并使用一些信息检索算法对候选特征进行筛选。人工定义的产品特征表达模式虽然能较精确地抽取出评论中的产品特征,但很难将所有可能的表达模式都人工罗列出来,因此产品特征挖掘的召回率往往较低。2.3产品特征的采集Hu和Liu首先对评论语料进行词性标注,提取出所有的名词和名词短语构成事务文件,然后利用Apriori关联规则挖掘算法挖掘出不超过3个词的频繁项,并把频繁项作为产品特征的候选集,最后通过“紧凑修剪”去掉不在其相邻位置出现的候选集,通过“冗余修剪”去掉包含在其他候选特征中的冗余特征。李实,叶强等将Hu的方法针对中文产品评论的特性做了一些修改,在挖掘中文产品特征时也取得了较好的效果。Popescu和Etzioni抽取评论中频繁出现的名词和名词短语作为候选产品特征,并利用WebPMI计算产品候选特征和产品类型之间的联系来对候选特征进行评估,但利用搜索引擎计算PMI值将消耗大量的时间。李培抽取了中文产品评论特定窗口内的名词和名词短语作为候选产品特征,然后利用词性的组合模式、词频、修饰语来对产品候选特征进行修剪。Zheng,Ye等抽取了中文产品评论所有的名词作为候选产品特征,除了名词外,在评论中多词构成的特征也会频繁出现,而且有些特征还被分词误判(例如“蓝牙”被分解为“蓝”形容词和“牙”名词),对于这种特征可以使用同现频率来判定。同时,通过计算领域一致度和领域相关度来去掉伪产品特征,领域一致度主要反映了一个产品特征在该领域的评论中的分布情况,而领域相关度则反映了一个产品特征在不同领域评论中的分布情况,真正的产品特征应该在同一领域的产品评论中均匀分布,而在其他领域的产品评论中分布较少。Wei,Liu等抽取了中文产品评论中的名词和名词短语作为候选产品特征,并利用词性组合、词频和修饰语特征进行剪枝,利用产品特征在领域相关评论和领域无关评论中出现的比率来区分一般产品特征和特殊产品特征,同时利用已抽取产品特征的语法表达模式来发现不频繁的产品特征。Christopher,Bierhoff等抽取名词作为候选产品特征,通过计算候选产品特征在领域相关评论中出现的频率以及一般语料中出现的概率,对候选产品特征进行修剪以获取真正的产品特征。2.4提取产品特征和观点词,添加评论特征Liu,Hu等标注了评论训练集中所有词的词性以及产品特征词,利用关联规则挖掘算法获取产品特征的词性序列表达模式,并利用表达模式进一步抽取未标注评论中的产品特征。Xia,Xu等标注了中文产品评论训练集中的词性、观点词、修饰词等元素,利用这些元素学习得到频繁的产品特征和观点词的搭配模式,再利用这些搭配模式在未标注评论中抽取产品特征以及相应观点。Zhao和Zhou利用评论训练集中标注的产品特征和观点抽取特征和观点之间的词性序列表达模式,并给出初始的产品特征种子集以及观点词种子集。根据产品特征种子集抽取和表达模式匹配的新的观点词,并将可信的观点词加入观点词种子集,然后根据观点词种子集抽取和表达模式匹配的新的产品特征,并将可信的产品特征加入产品特征种子集,上述过程迭代进行直到不能发现新的产品特征和观点词为止。黄永文首先定义了一些常见的产品特征和观点词,然后利用这些产品特征和观点词的语法联系抽取特征和观点的表达模式,并采取Bootstrapping方法迭代抽取新的产品特征和观点词以及新的表达模式。2.5极大熵分类器如果将句子中所有词的序列标记为(x1,x2,…,xn),可以给定一个标签序列(y1,y2,…,yn),当xi代表的词是产品特征时,yi的取值为1,否则为0。这样,就可以将产品特征的识别转换为分类问题。Somprasertsri和Lalitrojwong标注了评论训练集中的产品特征,利用句子中词周围特定窗口中的词、词的词性等语法特征构造了一个极大熵的分类器,然后抽取所有的名词和形容词作为候选产品特征,并用极大熵分类器来判断该候选产品特征是否是产品特征。Wang等标注了少量的评论训练集用于构建一个产品特征词和观点词的朴素贝叶斯分类器,然后将分类器应用于未标注的评论语料,来获取可信度最高的几个产品特征词和观点词,并将其加入初始的训练集,然后进一步利用新的训练集训练朴素贝叶斯分类器,通过Bootstrapping迭代处理来获取所有评论语料中的产品特征和观点。3评论中的观点观点是消费者对产品的特定特征所发表的带有情感色彩的评论,评论挖掘需要找到产品评论中出现的评价产品特征的评论观点,以便抽取评价信息。3.1基于鼓励义和废义词的观点词词典Zhuang等针对电影评论手工定义了频繁使用的100个褒义和贬义词作为种子集,然后在WordNet中寻找种子的同义词集,并将新得到的同义词添加到种子集中,通过迭代形成最终的观点词词典,然后通过观点词词典来获取用户观点。3.2基于产品特征的语法规则抽取观点Hu和Liu认为观点主要由形容词描述并且应该和产品特征邻近,因此要抽取产品特征邻近的形容词作为观点。Popescu和Etzioni根据产品特征和观点词往往在句子中同现的规律,人工定义了观点词和产品特征以及相关元素之间的语法规则,利用已挖掘出的产品特征结合语法规则抽取观点。Feng,Zhang等首先提取产品特征,然后在一些评论语料中标注出和产品特征对应的观点词,利用语法分析器获取产品特征和观点词之间的语法表达规则,并通过规则进一步抽取观点词。黄永文同时抽取产品特征和观点,首先定义了一些评论中常用的产品特征和观点词作为种子集,利用语法依存关系获取产品特征和观点词之间的语法表达模式,然后利用Bootstrapping方法迭代抽取新的产品特征、观点词以及表达模式。4情感极性词典的建立方法抽取出消费者在产品评论中对产品特征的评价观点词后,还需要进一步明确观点词的极性(褒义、贬义、中性)。判断观点极性最主要的工作就是建立情感极性词典来获取一个词的极性,同时还需要考虑观点词周围的各种语法修饰(例如否定词“不”、情感加强词“非常”等)来综合决定观点词的极性以及极性强度。情感极性词典的建立方法主要分为两类:基于词典的方法和基于语料的方法。基于词典的方法主要利用词典中词之间的同义词、反义词、上位词等联系来获取词的极性,或者根据词典计算词之间的相似性来获取词的极性。基于语料的方法根据在大规模语料上词之间的语法或共现联系来获取词的极性。4.1利用特点计算什么词极性这类方法利用词典中词之间的语义联系来分析词的极性,例如同义词往往具有相同的极性,而反义词具有相反的极性。Sista和Srinivasan利用GILexicon获得初始的褒义和贬义词种子集,然后利用WordNet中的同义词和反义词联系对初始的褒义和贬义词种子集进行扩展,形成最终的极性词典。Hu和Liu人工选取了一些褒义和贬义的形容词作为种子集,然后利用WordNet的同义词和反义词联系对种子集进行扩展建立极性词典。王素格,李德玉等利用中文的《同义词词林》对人工收集的褒义词和贬义词种子集进行扩展,从而建立极性词典。Kim和Hovy人工选取了一些褒义和贬义的形容词以及动词作为种子集,利用WordNet的同义词和反义词联系扩展建立极性词典。但是有些词的极性和其同义词的极性并不相同,同时有些词的极性和其反义词的极性也不相反。因此利用一个词的同义词集中属于极性词典中褒义词和贬义词的数量,可以计算出一个词属于褒义和贬义词的概率,通过这个概率值可以去掉极性词典中极性模糊的词,也可以判断极性词典中未包含的词的极性。Kamps,Marx等利用WordNet的同义词集来构建形容词之间的联系,如果两个形容词是同义词则在它们之间建立一条边,从而构成了一张图,利用公式(1)计算该词的极性:SO(w)=d(w,bad)−d(w,good)d(good,bad),(1)(w)=d(w,bad)-d(w,good)d(good,bad),(1)其中,d(·)是图中两个词之间的最短距离,如果SO(w)>0则词w是褒义的,如果SO(w)<0则词w是贬义的。Godbole,Srinivasaiah等给出了一个包含多个褒义和贬义词的种子集,利用WordNetd同义词集和反义词集来构造词之间的边。计算一个词的极性时综合考虑该词到种子集的所有路径,同时随着路径长度的增长,种子词的影响也随着递减。Williams和Anand利用WordNet的同义词、反义词、相似性、相关性联系构建了词之间的有向图,同时给定了一个包含多个褒义和贬义词的种子集,利用一个词到种子集之间的路径综合计算词的极性。Rao和Ravichandran利用WordNet的同义词、上位联系来构建词之间的边,从而形成了一张图。同时给出了一个包含褒义和贬义词的训练集,使用基于图的半监督的学习算法mincuts、randomizedmincuts和labelpropagation将图中的点划分为褒义和贬义两类,并对比了不同算法的结果。朱嫣岚、闵锦等人工选择了k对褒义、贬义的基准词,利用公式(2)计算一个词与褒义基准词集的相似度和贬义基准词集的相似度的差值作为该词的极性分值:Orientation(w)=∑i=1kSimilarity(key−pi,w)−∑i=1kSimilarity(key−ni,w),(2)Οrientation(w)=∑i=1kSimilarity(key-pi,w)-∑i=1kSimilarity(key-ni,w),(2)其中,key-pi和key-ni是k对褒义、贬义基准词中的第i个褒义词和贬义词,词之间的相似度可以利用HowNet的语义相似度和语义相关场计算,如果Orientation(w)>0认为该词是褒义的,如果Orientation(w)<0则认为该词是贬义的。实验结果表明,基于HowNet的语义相似度比语义相关场可以获得更高的准确率。杨昱昺和吴贤伟在朱嫣岚的基础上改进了基准词的选取以及相似度的计算公式,取得了更好的准确率。4.2分类设置及分类这类方法通过分析词典或其他资源中词的注释来获取词的极性,认为一个词的极性应该和其注释中出现的词的极性相关,因此通过对词的注释的极性分析可以判断词的极性。Esuli和Sebastiani首先人工建立了褒义词和贬义词种子集,利用WordNet的同义词、反义词、上位词、下位词联系来扩展种子集,然后利用扩展结果中褒义词和贬义词的注释文本作为训练集建立分类器(注释文本分为褒义和贬义两类),利用分类器对词在WordNet中的注释进行分类从而判断词的极性。随后,他们在文献的基础上建立了褒义词、贬义词、客观词3类初始种子集,利用WordNet中词的注释建立分类器,使用了3种不同的分类策略将词分为褒义词、贬义词和客观词,并对3种分类策略的准确率进行了对比。Esuli和Sebastiani在以前研究的基础上将WordNet中的同义词集划分为褒义、贬义和客观3类,并对每一个同义词集都分配了3个值,分别代表该同义词集属于褒义、贬义和客观的程度。Baccianella,Esuli和Sebastiani在文献的基础上做了进一步的改进,在分类过程中引入了Random-Walk算法,提高了分类的准确性。Takamura,Inui等假设一个词出现在另一个词的注释中,那么这两个词之间存在一条连接,连接分为极性相同和极性相反两类,如果注释中的词前面存在否定词则认为是极性相反的连接,否则是极性相同的连接。利用WordNet中词的注释,WordNet中同义词、反义词、上位词联系以及语料中形容词之间的连接词关系,可以在词之间构造极性相同和极性相反的连接,从而形成一个词之间的网络图。在网络图的基础上,利用人工建立的褒义词和贬义词种子,通过SPINMODLE对词的极性进行分类。4.3基于极性的识别这类方法通过分析语料中词之间出现的连接词来获取词的极性。语料中由连接词连接的两个词往往具有相同的极性(例如连接词“AND”)或相反的极性(例如连接词“BUT”),因此可以通过大规模语料中连接词的分析来判断词的极性。Hatzivassiloglou等利用大规模语料中的连接词来识别形容词的极性。首先使用对数线性回归模型预测由不同连接词连接的形容词对是否具有相同或相反的极性,然后根据形容词之间的极性联系,利用聚类算法将形容词聚为褒义和贬义的两类。Kanayama和Nasukawa提出了一种无监督的算法用于建立领域极性词典,有些领域相关的极性词在不同领域表达不同的极性,因此针对不同领域需要动态建立不同的极性词典。首先,他们建立了初始的具有明确极性(词的极性和领域无关)的极性词典,然后通过分析领域相关语料中语句内部和语句间的文本和连接词来获取新词的极性从而扩展极性词典,最终形成特定领域相关的极性词典。Ding和Liu考虑了即使在同一领域中,修饰不同产品特征时某些极性词也具有不同的极性,利用语句内和语句间的文本和连接词来判断特定领域的产品评论中描述特定产品特征的观点词的极性。他们在文献的基础上,进一步利用了同义词、反义词、否定修饰等更多规则来判断特定领域的产品评论中观点词的极性。4.4基于pm-ir算法的观点词极性判断算法这类方法主要通过语料文本中词与词共同出现的统计信息来判断词的极性,一般定义一个初始的褒义词和贬义词种子集,认为在语料中和褒义词共现次数较多的词是褒义的,而和贬义词共现次数较多的词是贬义的。Turney提出了PMI-IR算法采用点互信息(PMI)和信息检索(IR)相结合的方式来计算词的极性。两个词的点互信息定义为PMI(word1,word2)=log2(p(word1&word2)p(word1)p(word2))2)=log2(p(word1&word2)p(word1)p(word2)),(3)其中,p(word1&word2)表示将词word1和word2输入搜索引擎得到的网页数量,p(word1)和p(word2)表示将word1和word2输入搜索引擎分别得到的网页数量。通过计算词和两个褒义词、贬义词种子“excellent”和“poor”的点互信息的差值SO(phrase)=PMI(phrase,“excellent”)-PMI(phrase,“poor”)(4)来判断词的极性,差值大于零是褒义的,否则是贬义的。Turney和LITTMAN在文献的基础上,进一步将初始的褒义和贬义词种子集扩展为7个词,并通过计算词和种子集点互信息的综合值SO(word)=PMIpword∈Pwords(word,pword)−(word)=ΡΜΙpword∈Ρwords(word,pword)-PMInword∈Nwords(word,nword)(5)ΡΜΙnword∈Νwords(word,nword)(5)来判断观点词的极性。其中,Pwords是褒义词种子集,Nwords是贬义词种子集。Ye,Shi等将PMI-IR算法应用于中文电影评论中观点词的极性判断,针对电影评论选择了有针对性的6个褒义词和贬义词作为种子集,并计算种子集中的褒义、贬义词对的平均分值来调整极性判别阈值,而不是使用零做阈值。Zhang,Li等针对中文电影评论进一步用搜索引擎的摘要来代替全部文档,同时动态调整了极性判别阈值。王素格、李德玉等在利用PMI计算中文词的极性时,除了考虑一个词和褒义词、贬义词种子集的关系外,还考虑了该词和其同义词集的关系,同时基于词的类别区分能力提出了特定领域中褒义词和贬义词种子集的选取方法。5产品特征的评价产品评论挖掘的目的是为消费者和生产厂商提供有用的信息,因此对挖掘结果需要进行整理和汇总,以某种直观的方式显示出来。Zhuang等以产品特征为单位,汇总了该特征褒义和贬义的句子(如图1)。L

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论