中文产品评论的意见挖掘研究论文_第1页
中文产品评论的意见挖掘研究论文_第2页
中文产品评论的意见挖掘研究论文_第3页
中文产品评论的意见挖掘研究论文_第4页
中文产品评论的意见挖掘研究论文_第5页
已阅读5页,还剩192页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、硕士学位论文中文产品评论的意见挖掘研究Research on Opinion Mining of Product Reviews in Chinese作者:严孙荣导师:瞿有利北京交通大学2010年5月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学能够将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采纳影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权讲明)学位论文作者签名: 导师签名:签字日期: 年 月 日 签字日期: 年 月 日中

2、图分类号:TP391.3UDC:620学校代码:10004密级:公开北京交通大学硕士学位论文中文产品评论的意见挖掘研究Research on Opinion mining of Product Reviews in Chinese作者姓名:严孙荣 学 号:08120510导师姓名:瞿有利 职 称:副教授学位类不:工学 学位级不:硕士 学科专业:计算机科学与技术研究方向:自然语言处理北京交通大学2010年5月致谢本论文的工作是在我的导师瞿有利副教授的悉心指导下完成的,瞿有利副教授严谨的治学态度和科学的工作方法给了我极大的关心和阻碍。在此衷心感谢两年来瞿有利老师对我的关怀和指导。尹传环老师悉心指导

3、我们完成了实验室的科研工作,在学习上和生活上都给予了我专门大的关怀和关心,在此向尹传环老师表示衷心的谢意。王志海和田盛丰教授关于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢。在实验室工作及撰写论文期间,张美珍、张彦博和张尚超等同学对我论文中的意见挖掘研究工作给予了热情关心,在此向他们表达我的感激之情。另外也感谢女朋友符蓉,他们的理解和支持使我能够在学校用心完成我的学业。严孙荣2010年5月 于北京摘要随着电子商务的迅猛进展,用户购买和使用产品之后会在Web上发表对产品的评论,产品评论的自动挖掘关于商家和潜在的消费者有着重要意义。本文以中文产品评论为要紧研究对象,从评论的整体褒贬

4、分类和细颗粒的产品意见挖掘两个层面进行分析研究,论文要紧内容如下:采纳机器学习的方法对产品评论进行整体褒贬分类研究。构建用于产品评论褒贬分类的语料库;采纳基于N-Gram文本特征抽取(分为基于词的 unigram,bigram和基于字的unigram,bigram,trigram),结合不同的特征权重计算方法(TF,BOOL,TFIDF),在不同的分类算法(朴素贝叶斯、最大熵和支持向量机)进行分类实验。实验表明使用基于字的bigram特征表示并结合基于词频的加权方法在支持向量机分类器下取得了最好的分类性能,准确率为94.74%。在特征抽取上,采纳基于后缀树结构的特征提取算法,提取关键子串组作为

5、文本特征。实验表明基于后缀树的关键子串组的特征表现能力强而且特征维度低,分类的准确率略高于基于N-Gram文本特征表示的分类效果。设计并实现了基于依存句法分析的细颗粒意见挖掘算法和基于关键字匹配的细颗粒意见挖掘算法,并构建产品特征库和中文极性词典。实验表明关键字匹配方法好于基于依存句法分析方法。最后,设计并实现了一个产品评论意见挖掘系统,该系统能够自动抓取指定的评论页面并抽取评论内容,可从整体和细颗粒两个层面对产品评论进行意见分析,并将意见分析结果存入产品意见库中,提供可视化的统计展现。关键词:产品评论;情感分类;意见挖掘;自然语言处理分类号:TP391.3ABSTRACTNowadays,

6、the electronic commerce plays a more and more important role in our daily life. Consumers always express opinions on the product via the Web after using the product. The automatic mining on these comments is important for the potential consumers and enterprises. We focus on Chinese product reviews.

7、We analyzed the comments on two levels including document-level sentiment classification and feature-based product opinion mining. The main contents are as follows:We employ machine learning algorithm to perform the document-level sentiment classification of the product reviews. We collect corpus fr

8、om online reviews; investigate the N-Gram based feature representation including Word-Based Uigram, Bigram and Chinese Character-Based Unigram, Bigram, trigram; analysis different feature weighting approaches(TF, BOOL, TFIDF), compare different classification algorithms (Naive Bayes, Maximum Entropy

9、 and Support Vector Machine). The SVM using Chinese Character Bigram-based feature extraction method and word frequency based text representation has the best performance, of which the accuracy was 94.74%. We researched suffix tree based structure algorithm extracting the Key Substring Group feature

10、s. Experiments show that the Key Substring Group features have better description of the comments sentiment classification, lower dimension, and better accuracy than other text features represented in SVM.We investigated dependency parsing based algorithm and keyword matching based algorithm for fea

11、ture-based opinion mining. We construct a product features library and a Chinese polarity Dictionary. Experiments show that the keyword based method is better than the dependency parsing based method.We designed and implemented a product review opinion mining system. The system can automatically cra

12、wl and extract specified comments on review pages, then analysis the reviews, save the result into the products opinion library. Users can get visualized result which will be helpful for decision making.KEYWORDS:Product Review; Sentiment Classification; Opinion Minng; Natural Language ProcessingCLAS

13、SNO:TP391.3目录 TOC o 1-3 h z u HYPERLINK l _Toc263864454 摘要 24中对SBV算法进行了补充。算法如下:对每个利用SBV算法分析时计算的主题(subject),假如是产品特征词,则记录下来;关于使用过的极性词,也作上标记。在利用SBV算法分析之后,接着查找整个句子中没有标记过的产品特征词,并查找它的ATT(定中结构)关系对,关于所有ATT关系对,查找含有极性词的关系对,并将当前的极性词的上下文极性给予此产品特征。记录以上所有算法步骤中(包括SBV分析算法)使用过极性词,查找没有使用过的极性词UnHandledPolar。因为,假如UnHan

14、dledPolar是一个修饰产品特征词的前缀,那么在2)中就差不多使用了,因此UnHandledPolar不可能是前缀词,因此,向前查找最邻近的产品特征词,将当前的极性词作为调整参数,调整Topic的极性。经娄德成改进后的SBV算法,差不多能够解决大部分的意见挖掘任务。然而依旧存在一个问题,算法将每个产品特征词独立的进行计算,并没有考虑特征词之间的关系。当多个特征词连续出现的情况时,例如:“电池的待机时刻相当长”,句子中出现两个特征词“电池”,“待机时刻”,算法将分不计算两个特征词的情感。那个地点本文添加对多特征词连续出现的处理。假如两个特征之间只有一个“的”字的情况,则查询产品特征库推断是否

15、为从属关系。假如特征之间无从属关系,则分不进行计算。基于关键字匹配的意见挖掘基于依存句法的极性传递方法,专门好的利用了语义的特性,然而它最大的问题在于对依存句法分析器的依靠太高,假如语法分析错误,那么将直接导致分析结果的错误。为此,本文实现一种较为直观的方法,要紧的思想确实是使用关键字进行匹配,通过查找产品特征词的最近出现的极性词来计算极性。图4.7为关键字匹配方法算法的整个挖掘流程。图4.7关键字匹配算法流程图Figure.4.7 The Flow chart of Key-Word based Mining Algorithm下面详细介绍流程处理内容。猎取评论文本。将评论文本按指定格式读入

16、程序中。切分分句。得到评论文本之后,首先进行适当的断句,以空格,分号,逗号,“”,“”为标记进行切分。分词和词性标记。调用ICTCLAS进行中文分词和词性标注。分析句子的句式。分析评论的句式,推断句式类型,确定单句或复句,推断是否为疑问句,感叹句等。并过滤复句中出现了假设连词和条件连词的句子。关键词标记。借助于中文极性词典和产品特征库,将文中出现的产品特征词,极性词进行标记。所有关键词匹配过程过中,要求词的名称和词性都必须匹配。评论句子选择。要紧是过滤那些没有表达实际意见的句子。分为两种情况:过滤那些句子中既没有出现产品特征词,也没有出现极性词的句子。过滤只表达了希望或者建议的态度和“没有”、

17、“尚未”等句式,这些句子一般以“建议,强烈建议,没有的情况”的形式出现。计算极性词的上下文极性。借助于否定词词典和强调词词典。对每个分句中的极性词,查找当前分句中是否出现了否定词和强调词,假如有,则对当前极性词进行极性调整。关键字匹配计算。以分句为单位进行意见抽取。要紧分如下五种情况单产品特征词和单极性词。如“性价比高”,此类评论句子是评论的要紧表现形式。处理的方法也比较简单,将当前分句中极性词的情感方向,赋于当前分句中的产品特征,并将此关系对和情感结果存入意见结果库中。单产品特征词多个极性词。如“这款手机漂亮又大方”,则分不计算每个极性词,且分不保存产品特征和极性词的关系对和情感结果。并列多

18、产品特征词,也称作多特征的情况。现在需要推断特征词之间的关系,假如是从属关系,本文处理两个特征之间只有一个“的”字的情况,如“屏幕的尺寸”、“信号的强度”、“键盘的手感”等中的“屏幕”和“尺寸”、“信号”和“强度”、“键盘”和“手感”这些产品特征词之间的关系确实是从属关系。假如特征之间无从属关系,例如“外观和性价比都专门不错”,则把评论句子中找到的所有特征连接上极性词,获得多个特征关系对。非连续的多产品特征词。如“优良的性能和超低的价格”,则推断假如存在连词则以连词为分隔符。对每个特征词,先查找特征词前的极性词再查找特征词后的极性词。只有特征词无极性词。如“九百多的价格,依旧比较划算的”。推断

19、下一个分句,假如下一个分句没有出现新的特征词,同时含有极性词。则将下一个分句中的极性词作为当前分句中的产品特征词的情感极性。只有极性词。如“漂亮,大方,易操作”。尝试查找隐式产品特征指示规则,如“漂亮”则对应的产品的外观等。统计分析结果。以产品特征为单位,统计所有的分析结果,并存入产品意见库中。意见挖掘实验测试语料实验要紧选择了京东网()上部分热卖产品的相关评论作为测试数据集,选择手机的相关评论作为研究对象。本文随机选择了500条句子进行实验,其中包含了280个褒义评论句,150个贬义评论句子,70条个褒贬都含有的评论句子。为了验证算法的性能,本文对所有句子进行标注,要紧包括产品特征词、极性词

20、、极性修饰词、褒贬色彩和极性强度。在标记的过程中也发觉,人工去发觉评论中的产品特征,并推断出用户所表达的意见,是一件特不耗时的工作。表4.3为人工标注示例。表4.3意见挖掘手工标注结果Table 4.3 Manual Labeling of Opinion Sentences评论句子内容产品特征词极性词强度褒贬色彩Q8在运行速度上的表现,在目前同品牌的手机型号中绝对是最优秀的!运行速度优秀+2支持它的外观设计新颖,拿在手上相当酷。外观新颖酷+1+2支持相当支持我昨天刚买了诺基亚5230,今天就降价了!只是它的性价比依旧相当高的。诺基亚性价比高+2客观相当支持这款手机的屏幕专门炫,只是电池不如何

21、耐用!屏幕电池炫不耐用+1-1相当支持反对实验结果和分析首先,本文对词语的上下文极性计算进行实验。我们在500个评论中,共标注了904个极性词。通过手工标注,发觉句子中含有否定词的比例为18%,含有强调词的比例为35%,含有产品特征相关的极性词为13%,这些词假如只通过统计的方法是无法有效识不的,势必会造成极性差不方向的错误和极性强度的失真,也讲明本文中的极性词典的构建是比较合理的。接下来我们对评论中所涉及的产品特征进行极性计算,实验要紧验证两个内容:一、产品特征和极性词的关系匹配。如(性价比,高),(功能,强大)。产品特征是意见挖掘的主题,只要找到修饰它的极性词,也确实是找到正确的关系匹配,

22、就能够正确的分析产品特征的情感。二、产品特征的情感方向。情感方向由极性词的上下文极性计算而得。由于手工标注的主观性,以及极性词典、词语权重的相对主观性,我们专门难做到手工标注的结果和系统自动计算的结果精确匹配,为了减少这些差异,本文只考虑极性方向分析是否正确,而没有细究其极性强弱,因为极性强弱是能够通过极性词典调整的。为了测试意见挖掘的性能,本文保证了在实验语料中出现的产品特征词和极性词在产品特征词库和极性词库中基础差不多构建。因此借助于两个基础库,能够将语料中出现的产品特征词和极性词进行全部标记。本文共标记了953个产品特征词,904个极性词,其中对特征词表达了有效的情感意见的关系对共有81

23、8对。表4.4意见挖掘关系对结果Table 4.4 the result of opinion mining relationship算法正确匹配数量准确率依存句法51562.9%关键字匹配77796.2%从上表能够看出,依存句法的准确性较低,缘故是特征词和真正修饰它的极性词不能被正确的在依存句法中分析出来,也确实是在进行依存句法分析时就差不多带入了许多的错误。本文也深入地解了目前中文句法分析器的工作原理,了解到在构建句法分析模型时使用的训练语料差不多上一些规范的,完整的句子。而本文研究的对象是互联网上的产品评论,它的要紧特点是语句结构不规范,口语化比较严峻,同时会有相当多的网络词语,如“偶”

24、代表“我”,和其他一些网上的流行语等。标点符号使用随意,直接阻碍断句不准确,有时候一个句子过长,如此句法分析器就专门难分析句子的结构。为了提高语法分析器的准确率,本文进行了一些处理,假如及时的断句,使用尽量短的句子送入分析器,将一些网络词语进行替换等,这在一定程序上提高了分析的准确性。由于基于依存句法的极性传递算法过于依靠极性分析的准确率,直接导致算法实际效果不是专门理想。基于关键字匹配的方法,获得了较高的准确率,达到96.2%。通过直观的将最近出现的产品特征词和极性词进行关联,在本实验语料中也有较好的表现,同时关键字匹配的方法,不需要依靠语法等预处理,同时计算速度快,比较适合于实际的系统应用

25、。本章小结本章从细颗粒的层面对产品评论进行意见挖掘,分不介绍了产品特征库的构建,中文极性词典的构建,对中文产品评论语言的特点进行分析,分不采纳基于依存句法和基于关键字匹配的方法进行评论的意见挖掘。最后设计实验,实验结果表明基于关键字匹配的方法有较高的准确率。产品评论意见挖掘系统设计与实现系统整体设计本文在整理了论文前部分的研究成果之后,将它们进行整合,初步实现了一套比较完善的产品挖掘系统,能够实现产品意见挖掘整个流程,并取得了不错的效果。系统要紧包括评论下载与内容提取、评论意见挖掘、人机交互可视化三部分内容。系统的要紧结构如下:图5.1产品评论意见挖掘系统体系结构Figure.5.1 The

26、Architecture of Product Reviews Opinion Mining System系统开发环境本系统开发使用Java语言来开发。Java是一种简单的、面向对象的、性能优异、多线程的动态语言。Java由Sun公司于1995年5月正式推出,进展到现在差不多有了专门长时刻,现现在差不多是当今软件开发的要紧语言。系统的开发环境汇总如下:操作系统:Windows xp2。硬件环境:CPU,Interl E4500;内存,2G。开发平台:Eclipse3.4,JDK1.6。WEB服务器:Tomcat6.0。前端展现:Extjs 3.0, JFreeChart 1.0。数据库:MyS

27、ql 5.0。可视化界面生成本系统采纳基于B/S的结构进行开发,应用Extjs框架创建前端用户界面。ExtJS能够用来开发RIA也即富客户端的AJAX应用,是一个用Javascript写的与后台技术无关的前端AJAX框架。因此,能够把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。ExtJs最开始基于YUI技术,由开发人员JackSlocum开发,通过参考Java Swing等机制来组织可视化组件,不管从UI界面上CSS样式的应用,到数据解析上的异常处理,都可确实是一款不可多得的JavaScript客户端技术的精品。为了让用户更方便和快速地了解产品评论的分析结果,本文使用图

28、表的表现形式,借助于JFreeChart软件展现图形化。JFreeChart是Java平台上的一个开放的图表绘制类库,它完全使用Java语言编写,是为applications, applets, servlets以及JSP等使用所设计。JFreeChart可生成饼图(pie charts)、柱状图(bar charts)、散点图(scatter plots)、时序图(time series)、甘特图(Gantt charts)等等多种图表,同时能够产生PNG和JPEG格式的输出,还能够与PDF和EXCEL关联。JFreeChart是目前比较常用的Java图形解决方案,差不多能够解决目前的图形方

29、面的需求。产品特征库和极性词典的治理产品特征库维护产品特征包括两类:产品类型和产品属性。现代科技的发达,致使各种产品更新换代的速度特不快,不断有新产品上市,新功能公布,尤其是IT产品、手机数码产品等。这也要求我们必须不断完善系统的产品特征库,保证产品特征库尽可能高的覆盖率。系统设计了产品类型表和产品特征词表,本文在系统开发中,手工整理了手机相关的179个特征词。表5.1产品类型表Table 5.1 The Table of Product Type字段名称类型长度讲明product_type_idint4产品类型IDtype_namevarchar50类型名称type_levelint4类型层

30、次,1为产品类型,2为品牌,3为型号parent_idint4父级ID表5.2产品特征表Table 5.2 The Table of Product Feature字段名称类型长度讲明feature_idint4特征IDfeature _namevarchar50特征词名称feature _levelint4类型层次 parent_idint4父级IDfeature_synonymvarchar500特征同义词,以“”隔开,如电池和电板,外观和外形。极性词库维护中文极性词的数量是庞大的。极性词典构建在第四章中差不多提到,它包括了基础极性词典、网络极性词典、领域极性词典,产品特征相关极性词典四个

31、部分和两部极性修饰词典,即否定词词典和强调词词典。要求系统必须定期对这些词典进行维护更新,以保证系统分析的正确性。第四章中具体介绍了极性词的构建过程,本文将第四章中手工整理的极性词大约900个导入极性词库中。数据表的设计如下所示。表5.3极性词词典表Table 5.3 The Table of Polarity dictionary字段名称类型长度讲明polarity_idint4极性词典IDword_namevarchar50极性词posvarchar10词性,如动词,形容词typeint4词类型,1基础极性词,2网络极性词,3领域极性词 strengthfloat4极性强度,假如极性词,值

32、为正代表褒义,负代表贬义,区间为(-2,2)表5.4否定词词典表Table 5.4 The Table of Negation Dictionary字段名称类型长度讲明negation_idint4否定词典IDword_namevarchar50否定词表5.5强调词词典表Table 5.5 The Table of Intensive Dictionary字段名称类型长度讲明intensifier_idint4强调词IDword_namevarchar50极性词posvarchar10词性strengthfloat4极性强度,区间为(0, 3)表5.6产品特征相关极性词词典表Table 5.6

33、 The Table of Product Feature Related Polarity Dictionary字段名称类型长度讲明feature_relate_idint4强调词IDfeature_idint4特征词IDword_namevarchar50极性词posvarchar10词性strengthfloat4极性强度,区间为(0, 3)评论页面下载与内容提取评论的页面下载本系统的第一个任务是下载指定产品相关的网页,JAVA语言提供了对网络资源的操作功能,只需要指定网址,就能够将整个网页以数据流的形式提取出来。当同一产品的评论数量较多时,一般的网页会采取分页的形式展现,那个地点系统也

34、需要将同一产品的所有分页下载下来,而同一产品不同的页面的URL地址差不多相似,URL的部分内容体现了分页的信息。以京东网某产品的评论页面的URL为例,“/review/208158-1-7-0.html ”其中的数字7表示当前页为第7页,为了方便程序自动下载全部的网页,本文采纳了“/ review/208158-1-(*)-0.html”的URL规则,其中的(*)代表页面的当前分页,如总页数20页,则(*)确实是1到20。在程序中就能够编写循环语句进行所有产品相关的评论页面的下载。系统为了方便用户定制下载评论,提供了评论下载定制功能,同意用户指定产品评论页面,指定抽取结点的规则,将所有下载的规

35、则存入数据库表5.7中。 表5.7产品评论抽取规则表Table 5.7 The Table of Product Review Extract Rule 字段名称类型长度讲明rule_idint4规则IDproduct_type_idint4评论所属产品类型url_pathvarchar50评论页面URL规则page_numberint4分页数目xpath_pros_nodevarchar200评论内容中优点XPath路径规则xpath_cons_nodevarchar200评论内容中缺点XPath路径规则xpath_free_nodevarchar200评论内容中总评XPath路径规则xpa

36、th_comment_timevarchar200评论发表时刻XPath路径规则xpath_comment_uservarchar200评论发表用户名XPath路径规则review_numberint4页面评论的数量site_fromvarchar50评论网站名称,如京东网review_typevarchar50评论类型add_timebigint20规则添加时刻读取规则表中的用户新增的规则,即可完成评论页面的下载,为了方便治理,系统将下载的产品评论页面按产品类型结构存入指定文件目录中,目录结构为:产品类型品牌具体型号评论来源网站,文件名称为当前的URL路径,如:笔记本联想(Thinkpad)

37、SL400(2743- GZC)京东网。评论内容抽取在得到评论的原始页面之后,接下来就需要将评论内容进行提取。网页大部分以HTML形式存在,HTML(HyperText Mark-up Language)即超文本标记语言或超文本链接标示语言,是目前网络上应用最为广泛的语言,也是构成网页文档的要紧语言。网页上的HTML元素之间存在着层次结构和嵌套关系,能够依据这种关系生成一个树状结构。用如此的树描述网页,可达到网页表示的目的。其中HTML标签为树的根结点,网页上的不同信息处于不同的子树中。 为了完成确定区域的内容提取,也确实是本文实验需要的产品评论内容,必须将HTML表示成易于计算机处理的形式,

38、本文称之为标记树。这通常是能够依据网页HTML代码的标记嵌套关系直接构建标记树的,图5.2显示了这种转化过程。图5.2依据网页的HTML代码嵌套关系构建标记树Figure.5.2 Tag tree built based on the nested tags of the HTML code 为了准确的定位指定结点,本文使用了XPath。XPath 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的要紧元素,同时 XQuery 和 XPointer 同时被构建于 XPath 表达之上。本文以京东网中的笔记本电脑Thin

39、kpad(2743-GZC)的评论页面为例。图5.3京东网评论页面例子Figure.5.3 An Example of Jingdongs Product Review Page在Firefox扫瞄器下,通过安装插件Firebug,能够快速的定位HTML任何结点,同时能够计算出当前结点的XPath路径。系统只需要提取图5.3中红框里的内容,为方便描述,本文分不进行了编号,表5.8是计算出的XPath路径信息。表5.8 Xpath结点信息表Table 5.8 The Table of XPath node information编号XPath路径1/html/body/form/div7/div

40、2/ul2/li2/div2/dl/dd2/html/body/form/div7/div2/ul2/li2/div2/dl2/dd3/html/body/form/div7/div2/ul2/li2/div2/dl3/dd4/html/body/form/div7/div3/div/p2/a一般的评论是以列表的形式展现。通过对标签树结构分析发觉,它们的DOM表现形式差不多上一样,即只有一组结点在循环展现。如图5.3中编号为1的结点,它的XPath为/html/body/form/div7/div2/ul2/li2/div2/dl/dd,其中以重复结点.*,因此只要设定列表循环读取/html/

41、body/form/div7/div2/ ul(*)/li2/div2/dl/dd,(*)为通配符。本页面中的评论一页显示20条,因此(*)是从数字1到数字20。如此就能够的猎取到所有结点的具体内容,将所有评论内容按指定格式存入评论的原始数据库。数据表设计如表5.9所示。表5.9产品评论表Table 5.9 The Table of Product Reviews字段名称类型长度讲明review_idint4评论IDrule_idint4对应规则表中的IDpros_contentvarchar4000评论中优点文本内容cons_contentvarchar4000评论中缺点文本内容free_c

42、ontentvarchar4000评论中自由评论的文本内容review-timebigint20评论内容review-user-varchar 100评论用户名通过指定下载的URL,抽取的XPath规则并指定评论所属产品型号,就能够实现下载并抽取系统所需要的评论文本,用户能够通过评论治理功能,查看所有抓取的评论内容。图5.4产品评论查询界面Figure.5.4 The Interface of Product Reviews Management图5.4为抽取出的内容在系统中的界面,用户能够查询所有产品相关的产品评论。系统界面以表格的形式展现,点击表格的某行,在表格的下方显示评论的详细内容。评

43、论意见挖掘整体褒贬分类目前网上的评论格式要紧分为二种格式,格式(1):区分优点和缺点,用户需要分不对优点和缺点进行描述。如京东网,中关村在线等;格式(2):自由格式,没有区分优点和缺点,用户能够对产品进行自由的描述。如淘宝网等。那个地点系统只对格式(2)进行整体褒贬分类。在第三章中,本文对评论的褒贬分类进行了实验,并取得了较高的分类准确率,实验表明基于后缀树的特征提取方法获得了相对较高的分类性能。但由于在使用后缀树分类器时,需要在训练分类模型时加入测试语料,如此就需要在每次进行分类时重新建立分类模型,需要耗费较多的时刻。考虑到实际应用的有用性,系统中没有采纳基于后缀树的特征提取,而是采纳传统的

44、文本分类的方法。经实验发觉使用基于字的bigram特征提取方法结合使用基于词频的文本表示,在SVM分类器下能够取得最高的分类性能,准确率可达94.74%。那个地点本文应用第三章构建的分类模型,对评论进行整体褒贬分类。并将分类结果更新到产品意见库中。表5.10产品评论整体意见结果表Table 5.10 The Table of Entire Opinion Result of Product Reviews字段名称类型长度讲明entire_idint4IDreview_idint4评论IDentire_polaritybit1整体褒贬分类结果0表示贬义,1表示褒义细颗粒评论分析在第四章中,本文论

45、述了评论细颗粒分析的内容,介绍了构建产品特征库和极性词典两个基础资源的方法。并实验分析了两种意见挖掘方法,即基于依存句法的意见挖掘方法和基于关键字匹配的意见挖掘。实验表明基于关键字的方法,在产品评论中有较好的表现,而且具有不需要依存句法分析过程、计算速度快等优点。因此本系统采纳这种方法进行细颗粒的评论分析。系统对评论中有明显情感意见表达的产品特征和极性词关系对进行抽取,并分不计算各个产品特征的极性方向。最后以产品特征为差不多单位,将所有分析结果存入细颗粒分析结果数据表中。将得到的所有评论进行意见分析并得出结果后,我们就能够进行各种形式的统计展现。表5.11产品评论细颗粒结果表Table 5.1

46、1 The Table of Detailed Opinion Result of Product Reviews字段名称类型长度讲明detail_result_idint4IDreview_idint4评论IDfeature_idint4产品特征词IDpolarity_idint4特征词IDpolarity_resultfloat4情感方向评论意见查询评论分析是本系统的核心功能,用户将通过搜索指定产品的品牌、型号来得到其他用户对该产品的详细评价,包括对产品的整体褒贬和对产品的细颗粒分析。用户不仅能够从一种产品的评论中获得有价值的信息,还能够对多个同类产品进行比较,为购买到最优产品做参考。产品

47、意见查询产品意见查询,即从系统库中搜索产品评论并获得意见分析结果。在我们的系统库中,通过上述评论采集、文本清洗、意见抽取等后端处理过程,能够存放多个产品的意见库。用户只要依照需要,选择感兴趣的某种产品的名称(或产品型号),即可得到关于该产品的评论分析结果。界面左侧部分为系统的菜单,点击“产品意见查询”菜单,界面的右侧将出现相应的功能界面。图5.5意见查询界面Figure.5.5 The Interface of Product Opinion Query如图5.5,在查询条件的表单中,选择产品类型为手机,品牌为诺基亚,型号为N70,点击查看产品分析结果按钮,在页面的下半部分将显示出分析结果。分

48、析结果分为两部分:评论整体褒贬分析结果和评论细颗粒分析结果。整体褒贬分析结果中显示了褒贬的比重,蓝色表示褒义,红色表示贬义。从图5.5能够清晰地看出86.67%的评论对当前产品表达了确信的意思。细颗粒分析结果在板块的左侧,以树型菜单的形式,列出了所有评论中所涉及的产品特征,用户能够勾选感兴趣的产品特征,点击“显示所选特征分析结果”按钮,右侧将显示指定特征的分析结果,从图5.5的柱状图能够看出,当前的评论对性价比的评价专门高,对电池的评论相对较低。其中要讲明的是,为了方便图表的展现,系统要紧计算褒贬观点分不所占的百分比。产品意见比较查询在用户选择购买商品的过程中,往往有比较多种同类商品的过程。同

49、样,通过评论分析了解了一种产品的优劣,还需要了解其他产品的优劣,同时通过比较,得知谁更有优势,更受用户好评。而多产品评论比较分析功能则满足了用户的这种需求。图5.6多产品意见查询界面Figure.5.6 The Interface of Multiple Product Opinion Query用户能够在查询条件中,添加多个产品,查看多个产品之间分析比较结果。值的注意的是,那个地点要求是同类型的产品才能够进行比较分析。通过柱形图,能够专门明显的看出不同产品在不同特征上的表现,这对用户深入了解产品提供了专门大的关心。文本评论分析查询文本评论分析,即用户自主输入文本评论,系统将对其进行分析。那个

50、地点提供了一个便捷的评论分析器,用户能够将在互联网上看到的任何评论,通过该评论分析器分析,不再需要将每条评论都阅读完毕,即可得出一些图形化的直观的结论,方便快捷,让用户在众多的文字中解放出来。意见结果的展现同上面两个查询功能,不同的是将选择产品的下拉框换成了文本输入框。本章小结本章论述了产品评论意见挖掘系统的设计与实现,分不介绍了系统的整体设计、系统的开发环境和要紧模块的详细功能。该系统能够自动抓取指定的评论页面并抽取评论内容,可从整体和细颗粒两个层面对产品评论进行意见分析,并将意见分析结果存入产品意见库中,提供可视化的界面供用户进行操作,查看系统的意见分析结果。总结本章总结了本文的工作,并指

51、出了本文算法中尚存在的不足之处,为进一步的改进工作指明了方向研究工作总结近年来,网络上的产品评论正以惊人的速度增长,这类文本在一定程度上体现了人们对产品的主观态度,表现出鲜亮的褒贬极性。本文选择中文产品评论为要紧研究对象,进行情感分析和意见挖掘,从两个层面对产品评论进行分析,要紧分为评论的整体情感分类和细颗粒的产品意见抽取。采纳机器学习的方法对产品评论进行整体褒贬自动分类研究,构建用于产品评论褒贬分类的语料库;采纳基于N-Gram文本特征的表示(分为基于词的 unigram,bigram;基于字的unigram,bigram,trigram)、不同的特征加权方法(TF,BOOL,TFIDF三种

52、特征)、不同的分类算法(朴素贝叶斯、最大熵和支持向量机三种分类算法)进行分类实验。从整体的分类性能来看,在特征表示上,排列顺序如下:CBB WBB WBU CBU CBT;在特征加权方法上,排列顺序如下:TF BOOL TFID;分类器的排列顺序如下:SVM ME NB。其中使用基于字的unigram特征提取方法、基于词频的文本表示在SVM分类器下取得了最高的分类性能,准确率为94.74%。本文实现了基于后缀树结构的特征提取算法,提取关键子串组作为文本特征。实验表明基于后缀树的关键子串组的特征表现能力强而且特征维度低,分类的准确率高于基于N-Gram特征抽取的分类效果。只是为了覆盖未见测试集的

53、字符串模式,需要在构建后缀树的任务中,添加未标注的语料。设计并实现了基于依存句法分析的细颗粒意见挖掘算法和关键字匹配的细颗粒意见挖掘算法,并构建产品特征库和中文极性词典。实验表明中文极性词典的构建和产品特征词库的构建关于细颗粒的意见挖掘是专门有必要的,同时由于依存句法的意见挖掘方法对句法分析的依靠过重,导致分析准确率不理想,与基于关键字匹配的意见挖掘方法相比之下,分析性能要好于依存句法的方法。最后,设计并实现了一个产品评论意见挖掘系统原型,该系统能够自动抓取指定的评论页面并抽取评论内容,可从整体和细颗粒两个层面对产品评论进行意见挖掘,并将意见分析结果存入产品意见库中,提供可视化的统计展现。通过

54、系统能够方便用户进行产品评论意见挖掘相关操作。进一步工作当前对产品评论挖掘的研究差不多取得了一些成果,然而离成熟和完善仍有专门长的距离,下一步我将致力以下几个方面的研究:1、中文产品评论语料库的完善。作为一个新兴的研究领域,目前还没有一个公开的、标准的语料库,便于后来者能够在这些基础之上进行对产品评论的深入挖掘和研究。评论语料库还要考虑到领域内资料的完整性,应该包括那个领域中用户关怀的大部分内容,需要从不同的网站、不同的板块中去抓取数据、分析内容,猎取用户真正的产品体验。还需要能猎取网上实时更新的评论数据,既要有新产品的评论出现,同样也要跟踪产品在使用过程中的质量变化情况。2、进一步挖掘适用于

55、文本情感分类的文本特征,提取出有较强表现能力的文本特征,尝试结合中文语言的更多的语义相关的特征。3、增强对更加复杂评论的处理能力。由于中文语言的表达方式多样化如比喻、附和、讽刺、正话反讲等,句式的复杂性如比较型句子、各种不同的适应用语、句式的不同搭配等,因此评论的挖掘工作还有专门长的路要走。参考文献Han JW, Kambr M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers. 2002.韩家炜, 孟小峰, 王静. Web挖掘研究. 计算机研究与进展. 2001. 4. 405-414.Appelt DE, I

56、srael DJ. Introduction to Information Extraction Technology. A Communications. 1999. Hu M, Liu B. Mining Opinion Features in Customer Reviews. Proceedings of 19th National Conference on Artificial Intelligence (AAAI-2004). 2004.Pang B, Lee L, Vaithyanathan S: Thumbs up? Sentiment Classification usin

57、g Machine Learning Techniques. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing, University of Pennsylvania. 2002.Pang B, Lee L. A sentimental education: sentiment analysis using subjectivity summarization based on minimum cuts. In Proc. of the 42nd Meeting o

58、f the Assocication for Computation Languages. 2004. 271-278.Goldberg AB, Zhu X. Seeing stars when there arent many stars: Graph-based semi-supervised learning for sentiment categorization. In Proc. of HLT-NAACL 2006 Workshop on Textgraphs: Graph-based Algorithms for Natural Language Processing. 2006

59、. 45-52.NI X, Xue G, Ling X. Exploring in the Weblog space by detecting informative and affective articles. In Proc. of the 16th Int. Conf. on World Wide Web. 2007. 281-290.Whitelaw C, Garg N, Argamon S. Using appraisal groups for sentiment analysis. In Proc. of the 14th ACM Int. Conf. on Informatio

60、n and Knowledge Management. 2005. 625-631.Bruce R, Wiebe J. Recognizing subjectivity: a case study in manual tagging. Natural Language Engineering. 1999. 5(2). 1-16.Wiebe J, Riloff E. Greating subjective and objective sentence classifiers from unannotated texts. In Proc. of the 6th Int. Conf. on Com

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论