中文产品评论的意见挖掘研究论文_第1页
中文产品评论的意见挖掘研究论文_第2页
中文产品评论的意见挖掘研究论文_第3页
中文产品评论的意见挖掘研究论文_第4页
中文产品评论的意见挖掘研究论文_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文中文产品评论的意见挖掘研究Research on Opinion Mining of Product Reviews in Chinese作者:严孙荣导师:瞿有利北京交通大学2010年5月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名: 导师签名:签字日期: 年 月 日 签字日期: 年 月 日中图分类号:TP391.3UDC:620学校代码:10004密级:公开ii北京交通大学硕士学位论文中文产品评论的意见挖掘研究Research on Opinion mining of Product Reviews in Chinese作者姓名:严孙荣 学 号:导师姓名:瞿有利 职 称:副教授学位类别:工学 学位级别:硕士 学科专业:计算机科学与技术研究方向:自然语言处理北京交通大学2010年5月致谢本论文的工作是在我的导师瞿有利副教授的悉心指导下完成的,瞿有利副教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来瞿有利老师对我的关心和指导。尹传环老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给予了我很大的关心和帮助,在此向尹传环老师表示衷心的谢意。王志海和田盛丰教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢。在实验室工作及撰写论文期间,张美珍、张彦博和张尚超等同学对我论文中的意见挖掘研究工作给予了热情帮助,在此向他们表达我的感激之情。另外也感谢女朋友符蓉,他们的理解和支持使我能够在学校专心完成我的学业。严孙荣2010年5月 于北京北京交通大学硕士论文 摘要摘要随着电子商务的迅猛发展,用户购买和使用产品之后会在Web上发表对产品的评论,产品评论的自动挖掘对于商家和潜在的消费者有着重要意义。本文以中文产品评论为主要研究对象,从评论的整体褒贬分类和细颗粒的产品意见挖掘两个层面进行分析研究,论文主要内容如下:采用机器学习的方法对产品评论进行整体褒贬分类研究。构建用于产品评论褒贬分类的语料库;采用基于N-Gram文本特征抽取(分为基于词的 unigram,bigram和基于字的unigram,bigram,trigram),结合不同的特征权重计算方法(TF,BOOL,TFIDF),在不同的分类算法(朴素贝叶斯、最大熵和支持向量机)进行分类实验。实验表明使用基于字的bigram特征表示并结合基于词频的加权方法在支持向量机分类器下取得了最好的分类性能,准确率为94.74%。在特征抽取上,采用基于后缀树结构的特征提取算法,提取关键子串组作为文本特征。实验表明基于后缀树的关键子串组的特征表现能力强而且特征维度低,分类的准确率略高于基于N-Gram文本特征表示的分类效果。设计并实现了基于依存句法分析的细颗粒意见挖掘算法和基于关键字匹配的细颗粒意见挖掘算法,并构建产品特征库和中文极性词典。实验表明关键字匹配方法好于基于依存句法分析方法。最后,设计并实现了一个产品评论意见挖掘系统,该系统可以自动抓取指定的评论页面并抽取评论内容,可从整体和细颗粒两个层面对产品评论进行意见分析,并将意见分析结果存入产品意见库中,提供可视化的统计展现。关键词:产品评论;情感分类;意见挖掘;自然语言处理分类号:TP391.3iv北京交通大学硕士论文 ABSTRACTABSTRACTNowadays, the electronic commerce plays a more and more important role in our daily life. Consumers always express opinions on the product via the Web after using the product. The automatic mining on these comments is important for the potential consumers and enterprises. We focus on Chinese product reviews. We analyzed the comments on two levels including document-level sentiment classification and feature-based product opinion mining. The main contents are as follows:We employ machine learning algorithm to perform the document-level sentiment classification of the product reviews. We collect corpus from online reviews; investigate the N-Gram based feature representation including Word-Based Uigram, Bigram and Chinese Character-Based Unigram, Bigram, trigram; analysis different feature weighting approaches(TF, BOOL, TFIDF), compare different classification algorithms (Naive Bayes, Maximum Entropy and Support Vector Machine). The SVM using Chinese Character Bigram-based feature extraction method and word frequency based text representation has the best performance, of which the accuracy was 94.74%. We researched suffix tree based structure algorithm extracting the Key Substring Group features. Experiments show that the Key Substring Group features have better description of the comments sentiment classification, lower dimension, and better accuracy than other text features represented in SVM.We investigated dependency parsing based algorithm and keyword matching based algorithm for feature-based opinion mining. We construct a product features library and a Chinese polarity Dictionary. Experiments show that the keyword based method is better than the dependency parsing based method.We designed and implemented a product review opinion mining system. The system can automatically crawl and extract specified comments on review pages, then analysis the reviews, save the result into the products opinion library. Users can get visualized result which will be helpful for decision making.KEYWORDS:Product Review; Sentiment Classification; Opinion Minng; Natural Language ProcessingCLASSNO:TP391.3北京交通大学硕士论文 目录目录摘要iiiABSTRACTiv1绪论11.1研究背景11.2选题意义21.3研究现状31.3.1文本情感分类研究现状31.3.2词的极性分类研究现状41.3.3产品特征抽取研究现状61.3.4产品评论挖掘系统构建研究现状71.4论文主要工作81.5论文组织结构82文本分类相关基础理论92.1文本表示92.2特征权重计算92.3文本分类算法112.3.1朴素贝叶斯112.3.2最大熵122.3.3支持向量机132.4文本分类性能评价142.4.1查全率、查准率和F-测度值142.4.2宏平均和微平均152.5本章小结163产品评论整体褒贬分类研究173.1整体设计173.2产品评论褒贬分类实验183.2.1文本预处理183.2.2特征向量抽取及权重计算193.2.3特征选择213.2.4分类算法选择213.3产品评论语料库的构建213.4基于N-Gram的特征提取分类实验结果243.4.1基于词的unigram和bigram243.4.2基于字的unigram,bigram和trigram263.4.3实验结论273.5基于Suffix Tree特征抽取的褒贬义分类283.5.1Suffix Tree介绍283.5.2关键子串组的特征提取和算法实现303.5.3基于Suffix Tree的特征提取分类实验结果323.5.4实验结论353.6本章小结354产品评论细颗粒意见挖掘研究364.1研究目标364.2整体设计364.3产品特征库的构建374.3.1从产品规格说明书提取特征384.3.2从产品评论中提取特征394.4中文极性词典构建414.4.1极性词典构建424.4.2极性修饰词典构建434.4.3产品特征相关极性词典构建444.5中文产品评论语言特点分析464.5.1中文句子分析464.5.2产品评论特点分析474.6基于依存句法的意见挖掘484.6.1句法分析器484.6.2SBV极性传递算法504.7基于关键字匹配的意见挖掘514.8意见挖掘实验534.8.1测试语料534.8.2实验结果和分析544.9本章小结555产品评论意见挖掘系统设计与实现565.1系统整体设计565.2系统开发环境565.3可视化界面生成575.4产品特征库和极性词典的管理575.4.1产品特征库维护575.4.2极性词库维护585.5评论页面下载与内容提取595.5.1评论的页面下载595.5.2评论内容抽取605.6评论意见挖掘635.6.1整体褒贬分类635.6.2细颗粒评论分析645.7评论意见查询645.7.1产品意见查询655.7.2产品意见比较查询665.7.3文本评论分析查询675.8本章小结676总结686.1研究工作总结686.2进一步工作69参考文献71作者简历75独创性声明77学位论文数据集7970北京交通大学硕士论文 绪论1 绪论1.1 研究背景随着生活水平的不断提高,商品经济的不断繁荣,面对琳琅满目的各种商品,要挑选出自己真正需要的商品并不容易。为了满足不同消费者的需求,生产厂商往往会根据不同类别的使用者生产出不同类型的产品。然而,消费者一不小心便会买到并不适合自己的产品。即便是口碑好的厂家,也会有设计不良的产品,而那些不良产品往往在使用一段时间后才会发现问题,而此时消费者已经后悔莫及。随着Internet的发展和普及,Web已经成为了消费者反馈观点的主要途径。它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。产品使用者可以通过商家的网站,网络论坛,以及Blog发表对于产品的看法。因此很多网民在购买某类产品前,往往会选择先上网浏览一些相关产品的信息,了解其他消费者的使用体验,深入比较产品之间的性能,从而使自己的消费更趋理性化。面对网上海量的良莠不齐的信息和数据,生产厂商和用户要想从产品评论中获取信息,只有通过人工阅读的方式来获取,而这是一个需要耗费大量的时间与精力且容易产生错误的过程。因此,我们迫切需要能有一种有效的手段对各种大量数据进行整理,提供一目了然的数据统计结果的展示。数据挖掘(Data Mining)技术正是在这样的应用需求环境下产生并迅速发展起来的。它是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、先前未知的、但又是潜在有用的信息和知识的过程Error! Reference source not found.。对用户评论挖掘的研究,目的就在于对网上大量的评论信息进行挖掘,通过采用自然语言处理技术,对自然语言描述的无结构的用户产品评论中进行自动挖掘,找到有用的信息,并以直观的方式对挖掘结果进行表示。对网络上的产品评论进行挖掘主要是使用现有的文本挖掘技术,文本挖掘(TextMining)是数据挖掘的一个研究分支,用于基于文本信息的知识发现Error! Reference source not found.。数据挖掘是揭示存储在数据库中的结构化数据的数值属性之间的关系,而文本挖掘则是分析和发现大量非结构化文本中的关系,研究的关键在于文本内容的量化表征。文本挖掘利用智能算法,结合文字处理技术,如文本切分、词性标注、句法分析、浅层语义分析等,对大量的非结构化文本(如文档、电子表格、客户电子邮件、问题查询、网页等)进行分析,抽取文本特征,将文本数据转化为能描述文本内容的结构化或半结构化数据。然后利用聚类、分类技术和关联分析等数据挖掘技术,形成具有一定结构文本,并根据该结构发现新的概念和相应的关系,获取有用的知识和信息Error! Reference source not found.。随着各种产品信息纷纷发布在网页上,消费者可以更加便捷地获取各种产品的信息。同时产品使用者也纷纷发表使用评论,这样就又便于其他消费者能够获得最直接的产品评价。产品评论信息作为文本内容的一种,也在网络上大量的出现。与普通文本不同的是,这些评论内容是产品使用者把自己的使用体验写出来提供给其他用户看的,是以用户为中心的信息展示。1.2 选题意义互联网的发展与普及已经深刻地改变了人们的生活和思维方式,极大地推动了全球信息化进程。网络已经成为当今人们获取知识、发布信息、交流沟通的主要工具。然而从纷繁复杂的网络世界中准确而快速地获取所需的信息也并非易事,信息检索,信息过滤,文本挖掘等信息处理技术成为解决该矛盾的主要方法。对产品评论进行挖掘的意义主要体现为二个方面:一、帮助用户购买适合自己的产品。评论挖掘能够收集不同网站上大量用户所表达的使用体验,通过产品评论,产品使用者可以把自己的使用情况表达出来,目的在于为其他消费者在购买相关产品时提供一个参考意见,从而选择到称心如意的商品。对产品评论进行挖掘可以把不同网站上、不同时间、不同用户的评价信息统计起来,全面展示产品的使用情况,帮助潜在用户挑选出适合自己的产品。二、帮助厂家生产符合社会需求的产品。因为评论挖掘能够揭示出产品质量的内在信息,因此对产品评论进行挖掘就能展示出产品的质量信息。对生产厂家来说,生产出真正适合用户需求的产品才是最重要的。通过浏览产品评论挖掘的结果,他们可以找出现有产品的不足,同时借鉴其他厂家的优良产品,不断改进自身产品的功能和性能。因此,产品评论的挖掘能促使厂家提升其社会竞争力,生产出功能更多、性能更好、适合不同用户群的产品。因此,对产品评论进行挖掘,目的在于帮助消费者在海量信息源中迅速找到真正需要的信息,用简单和直接的手段将评论挖掘结果展现给商家和消费者,有着广泛的应用价值和研究价值。1.3 研究现状1.3.1 文本情感分类研究现状文本的情感分类,近年来受了广泛的关注,其目的是判断给定文本片段所体现的说话者的情感倾向,判断内容中的文字表述是主观性的评论还是客观性的介绍,是正面肯定评价还是反面否定批判。Pang和LeeError! Reference source not found.Error! Reference source not found.等人最早在文本的主客观分类和极性分类方面做了一系列的研究工作。使用基于图的minimum-cut方法,利用上下文信息提高极性分类的精度。实验中使用了700个正面和700个负面评论,采用朴素贝叶斯、最大熵、支持向量机分类器,通过3重交叉验证对分类器进行对比评估。实验中他们分别使用了unigram(分别用词条频率和布尔值作为特征权重)、bigram、unigram+bigram、unigram+POS、top unigram(前2633个)、unigram+position作为他们的语言特征,实验结果中,归纳出一些值得注意的结果:(1)在使用布尔的unigram特征时得到最好的结果,而不是词频unigram。而在主题分类中词频通常是最有效的特征加权方法之一。(2)使用bigam+unigam特征比仅使用unigram特征性能要差。这与通常的自然语言现象相悖。在自然语言中,有非常多的由两个或多个单词构成的短语、复合词、句式结构等语言元素一起出现时才会表达了非常显著的情感倾向,而构成它们的那些单词中多并没有显著倾向性。例如,“how should”是一个很强的语气句式结构,而“how”、“should”单独使用时则一般作为中性词。Goldberg和ZhuError! Reference source not found.针对电影评论的等级推理问题,提出了基于图的半监督算法,比以往采用多分类模型的方法,在性能上有较大提高。NiError! Reference source not found.将情感分类视为二分类问题,使用了NaiveBayes、SVM和Rocchios算法,并采用了CHI方和信息增益(Information Gain)进行特征选择,SVM分类器的性能达到最好,准确率、召回率和F1都达到了92%左右。Whitelaw等人Error! Reference source not found.提取含有形容词的词组及其修饰语作为特征,使用向量空间模型表示文档,并采用SVM进行分类,来区分带有正面和负面评论的文档。Bruce和Wiebe等Error! Reference source not found.Error! Reference source not found.利用贝叶斯分类器对句子的主客观性进行分类。汉语文本的情感分类方面,徐军等人Error! Reference source not found.使用朴素贝叶斯和最大熵模型,对中文网页中的新闻进行情感自动分类,采用布尔和词频特征权重,实验结论表明,布尔权重性能不比词频特征权重差,同时发现最大熵的分类方法要明显优于朴素贝叶斯方法。唐慧丰等人Error! Reference source not found.则对部分基于监督学习的中文情感分类技术做了比较研究,在文本特征方面,采用N-Gram以及名词、动词、形容词、副词作为不同的文本表示特征;以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法;以中心向量法、KNN、NaiveBayes和SVM作为不同的文本分类方法;并在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验。他们的实验结果表明:采用bigram特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,能取得较好的效果情感分类。Li JunError! Reference source not found.采用一元、二元和三元词语作为特征,对SVM、ME、NaiveBayes、ANN四种分类方法用于文本情感分类的效果进行了比较研究。1.3.2 词的极性分类研究现状词的极性分类的研究主要是集中在找到带有情感倾向的词,并且判断它的情感极性。主要分为自动发现和手工定义两种方法,其中自动发现方法又可以分为两大类:(1)基于词典的极性词自动发现,Hu和LiuError! Reference source not found.提出利用词典的词汇关系来判断形容词的极性,在WordNet中形容词是以两极的群体呈现的,具有相反意义的形容词以两极的方式连结,而在这两个形容词后面分别又会将具有相似意义的形容词与带头的同义词连结,形成一个具有相反意义的形容词集合。利用WordNet词典的特点,设计自动地完成极性词分类的算法。这个方法的缺点在于只能对形容词判断情感极性,对于WordNet中其它没有以两极方式呈现的词性则无法判断。也就是说利用WordNet只能作初步的处理Error! Reference source not found.,使用WordNet生成极性词也会包含大量情感极性区分度不强的词语,还需要人工进行筛选,另外如果种子集中的形容词数目不够,那么仅仅依靠同义词的方法就会导致许多极性词不能被发现。同时有一些形容词的情感极性是随着上下文情况不同而确定的,如:“电池很小很薄”以及“手机屏幕太小”。前者中“小”表达了正面的情感,后者的“小”则表达了负面的情感。因此在观点的褒贬判定上还需要加入其它的上下文因素来辅助。(2)基于语料的极性词自动发现。TurneyError! Reference source not found.Error! Reference source not found.假设经常一起出现的词语具有相同的情感极性方向。也即正面观点与正面观点往往会一起出现,而负面观点也会靠近负面观点,采用互信息和信息检索PMI-IR相结合的方法判定词汇的极性,该方法首先建立7个单词构成的正极词汇种子集PWords(good, nice, excellent, positive, fortunate, correct, superior)和7个单词构成的负极词汇种子集NWords(bad, nasty, poor, negative, unfortunate, wrong, inferior),对需要进行极性判断的词汇UWord,分别计算UWord与PWords和NWords中的每个极性词汇的互信息,见公式(1-1): (1-1)其中p(word1&word2)表示使用搜索引擎对出现word1和word2所构成的二元词对在Web检索中出现的网页数目,p(word1)和p(word2)分别表示使用搜索引擎在Web检索出现word1和word2的网页数目分别将计算得到的UWord与PWord每个极性词汇的互信息相加和UWord与NWords每个极性词汇的互信息相加,并计算两者的差,结果为正则表示UWord更靠近正性词汇,为负则表示UWord更靠近负性词汇,从而计算出词的极性方向。Turney使用PMI计算未知观点词与正面观点和负面观点作为判断未知观点词与正面以及负面的观点出现关系的依据。若是未知观点词与“excellent”出现的次数多于未知观点词与“poor”出现的次数,则将未知opinion word归类为正面。用来判断未知观点词(op)的方法是将未知观点词与正面观点计算得到的PMI值减去将未知观点词与负面观点计算得到的PMI,公式如下:(1-2)计算完毕后,若SO(op)0,则表示op是正面的观点;若SO(op)0则表示op是负面的观点。Camon和AueError! Reference source not found.对这一技术作了进一步的扩展,增加了一个假设,在同一个句子中,极性相反的词语趋向于不同时出现。HatzuvassiloglouError! Reference source not found.利用形容词之间的连词存在语言学上的限制,也称为连词假设,将语料库中的形容词聚类为正性词汇和负性词汇,结果表明对形容词的极性判定具有较好的效果。不过该文只对形容词进行了语义方向的判定,也可以采用相同的方法来确定动词和副词的极性。人工定义的方法通过人工的分析来建立极性词汇表,这样只要直接查询极性词汇表即可获取词汇或短语的情感极性。娄德成和姚天昉Error! Reference source not found.分别对HowNet中的6564个词条和从2454篇汽车评论中人工选择得到的极性词汇以人工标注的方式建立中文极性词汇表,而对于在词汇表中没有的词,同样通过SO-PMI来计算出与不同极性词之间的互信息,再通过差值确实词的极性。Hatzivassiloglou和WiebeError! Reference source not found.对语义方向及程度词汇(副词和名词)对语义方向的影响进行分析,并手工建立了一个由73个单词构成的词汇表。WangError! Reference source not found.等发现产品评论一般包含两个部分的内容:评论的标题和评论的具体内容。由于标题往往会表示了整个评论的态度,因此可以将标题中的用户态度作为具体内容的极性标注,建立朴素贝叶斯分类器,计算评论具体内容中词汇的情感极性。很多网站允许用户在网站提供的表情图标中选择一个来表示自己的态度:支持/反对,YangError! Reference source not found.等将博客上的回复信息的表情图标作为回复语句的极性标注,并通过计算语句中的词汇与表情图像之间的互信息来建立极性词汇表。1.3.3 产品特征抽取研究现状产品评论挖掘的一个主要任务是需要了解用户对产品的哪些功能、部件和性能进行了评价,因此需要从产品评论中提取出用户评价的对象产品特征。用户在产品评论中对特征的描述,可能是厂家根本没有考虑到的一些特征,因此挖掘出产品评论中所提及的特征,了解用户对这类产品最关心的功能和性能是具有重要意义的。产品特征的提取分为人工定义和自动提取两类。在人工定义方面,Kobayashi、Inui和MatsumotoError! Reference source not found.以人工定义方式构建了针对汽车的产品特征,共有287个产品特征,每一个特征使用一个三元组进行表示(),其中Subject表示产品,Attribute表示产品的特征,Value表示对这个特征的观点;姚天昉Error! Reference source not found.Error! Reference source not found.利用本体建立了汽车的产品特征,该系统可在电子公告板、门户网站的各大论坛上挖掘并且概括意见持有者对各种汽车品牌的不同性能指标的评论和意见,并且判断这些意见的褒贬性以及强度;Li ZhuangError! Reference source not found.针对电影评论人工定义了电影的产品特征,将电影的产品特征分为两类:电影的元素(screen play, vision effect)与和电影相关的人员(director, screenwriter, actor)。自动提取产品特征的方法,需要使用词性标注、句法分析和文本模式等自然语言处理技术对产品评论中的语句进行分析。自动发现产品特征,由于不需要大量的标注语料库作为训练集,因此具有较好的通用性,并且可以适用于各种产品,可以比较容易地移植到不同产品上,但它最大的缺点就是准确率比较低。Hu和Liu7先对评论语料进行词性标注,然后把每个句子中的名词和名词短语提取出来,利用关联规则挖掘方法从评论语料中取出满足最小支持度的名词或名词短语生成transaction file。再使用CBA(Classification Based on Associations)Error! Reference source not found.从transaction file中挖掘出频繁项,把频繁项作为产品特征候选集,由于关联规则产生的频繁项不是全都是有用的或真正的特征词,需要进行进一步的筛选,首先去掉了三个词以上的名词短语,然后对候选特征集中的候选特征进行修剪,通过“紧凑修剪”和“冗余词修剪”移除那些很大可能不是产品特征词的名词短语。PopescuError! Reference source not found.把评论挖掘分成四个主要子任务:(1)识别产品特征;(2)识别产品特征对应的观点词;(3)判断观点词的极性;(4)根据观点的强度排序。他们在KnowItAllError! Reference source not found.网络信息抽取系统基础之上建立了一个无监督的信息挖掘系统OPINE。在产品特征识别方面,Popescu建立的OPINE系统将产品特征分成显式特征和隐式特征,其中显式特征又分为五类,分别为“properties、parts、features of productparts、related concepts、parts and properties of related concepts”。用OPINE来挖掘产品特征的准确率比Hu Error! Reference source not found.挖掘结果高出了近22%,而召回率仅下降了3%。 1.3.4 产品评论挖掘系统构建研究现状意见挖掘技术作为一种新颖的语言技术不仅可以运用于自然语言处理系统中,还可以应用于现实生活中,目前已经存在了一些意见挖掘系统。例如:Dave等人研究并开发的ReviewSeerError! Reference source not found.是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统。Gamon等人研究并开发的PulseError! Reference source not found.系统可以自动挖掘网上用户所上载的自由文本中有关汽车评价中的贬褒信息和强弱程度, 它所进行的陈述定界是简单的粗分法,认为整个句子即是一个陈述。Pulse在主题抽取上提到了层次主题的概念,在意见分析上,主要使用的是机器学习的方法,同时它没有涉及意见持有者识别的问题。LiuError! Reference source not found.等人研究并开发的Opinion Observer系统可以处理网上在线顾客产品评价,对涉及产品各种特征的优缺点进行统计,并采用可视化方式对若干种产品特征的综合质量进行比较。Yi和NiblackError! Reference source not found.研究并开发了WebFountain系统中的意见挖掘器。WebFountain系统是IBM研发中心开发的一个基于多类型数据、开放领域意见挖掘的研究和开发平台,是一种采用NLP技术构建知识库解决极性识别问题的系统,此系统在主题识别方面达到了较细的颗粒度。Wilson等人研究并开发的OpinionFinderError! Reference source not found.是一个自动识别主观性句子以及句子中各种与主观性有关的成分(例如,意见源、直接的主观性表达、说话事件Speech Event、情感等)的系统。由于中文和英文的存在较大的差异,所以不能直接套用英文在评论挖掘方面的研究成果,中文评论挖掘才刚刚起步。最初的代表是香港城市大学TsouError! Reference source not found.等人在WebFountain系统研究的基础上对中国四地(北京、香港、上海、台北)报刊上有关四位政治人物(克里、布什、小泉纯一郎、陈水扁)褒贬性的新闻报告进行了分类研究。在研究中,他们首先通过标记语料库获得文本中的极性元素,然后主要采用了三个衡量指标,即极性元素的分布、极性元素的密度和极性元素的语义强度来对每个文本进行统计,得出文本褒贬分类和强度大小的结果。姚天昉等人开发了一个用于汉语汽车评论的意见挖掘系统Error! Reference source not found.。该系统的目的是在BBS、各大论坛上挖掘并概括用户对各种汽车品牌的不同性能指标的评论和意见,并且判断这些意见的褒贬性和强度。在意见挖掘系统的设计中,他们定义了一些基本的资源和处理算法的数据结构,如汽车本体、极性词词典、基本元素、语法关系树、匹配规则。随着电子商务的迅速发展,未来评论挖掘依然是数据挖掘和中文信息处理领域的热点研究领域Error! Reference source not found.。1.4 论文主要工作本文以中文产品评论为主要研究对象,从评论的整体褒贬分类和细颗粒的产品意见挖掘两个层面进行分析研究。(1)采用机器学习的方法对产品评论进行整体褒贬自动分类研究。构建用于产品评论褒贬分类的语料库;采用基于N-Gram文本特征抽取,使用不同的特征加权方法和不同的分类算法进行分类实验,分析比较各个因素对情感分类性能的影响。在文本特征抽取上,采用基于后缀树结构的特征提取算法,提取关键子串组作为文本特征,并用不同的特征加权方法和不同的分类算法进行分类实验。(2)设计并实现了基于依存句法分析的细颗粒意见挖掘算法和关键字匹配的细颗粒意见挖掘算法,并构建产品特征库和中文极性词典。(3)最后将前两部分的意见挖掘研究成果进行整合,设计并实现了一套产品评论意见挖掘系统。该系统可以自动抓取指定的评论页面并抽取评论内容,可从整体和细颗粒两个层面对产品评论进行意见挖掘,并将意见分析结果存入产品意见库中,提供可视化的统计展现。1.5 论文组织结构本文分为六章,文章结构及各章主要内容组织如下:第一章介绍了课题的研究背景与意义,介绍了国内外研究现状和论文的主要工作,最后给出了本文的整体组织结构。第二章介绍了文本分类的相关知识,介绍了文本表示、文本特征权重计算、文本分类算法、文本分类性能评价等内容。第三章论述了产品评论整体褒贬分类的研究与实验。包括褒贬分类的数据集的构建,采用基于N-Gram的特征提取方法和基于后缀树的特征提取方法进行分类实验。第四章是产品评论细颗粒评论分析研究。主要内容包括产品特征库的构建,中文极性词词典的构建,详细介绍基于依存句法的意见分析算法和基于关键字匹配的意见挖掘算法。第五章是产品评论分析系统的设计与实现,包括系统整体设计,系统开发环境和系统详细功能等。第六章是总结了本文的研究工作,并对今后的研究做出了展望。北京交通大学硕士论文 文本分类相关基础理论2 文本分类相关基础理论2.1 文本表示在大规模文本分类系统中,我们所处理的原始数据是非结构化的自然语言文本,我们首要的任务就是将它们从一个无结构的原始文本转化为计算机可识别处理的结构化信息,即对文本进行形式化处理,这个形式化的结果一般称为文本表示Error! Reference source not found.。文本表示问题包括两个方面:用于表征文档语义的特征和这些特征的组织方式。常用的文本特征包括词、短语、N-Gram项,词性等。在实际应用中,到底选择哪种单位作为文本的特征必须要综合考虑,如处理速度、精度要求、存储空间等诸多因素。选择的单位越具有代表性,语言的层次越高,它所包含的信息也就越丰富,但同时进行分析所付出的代价也就越大。大量研究表明,用单个词与用复杂的表示(如短语、词性等)作为特征分类的效果差异不大。然而可以很容易地想到,用短语或词性等表示特征必然会导致计算更加复杂以及耗费更多的资源,因此大部分文本分类的研究都是将单个词作为特征。特征的组织方式亦即文本的表示模型,包括向量空间模型Error! Reference source not found.(Vector Space Model,VSM)、布尔模型(Boolean Model)及概率模型(Probabilistic Model)等。向量空间模型是Salton等于上世纪60年代提出的,是现在应用最广泛的基于统计的模型,本文也将采用此模型。向量空间模型的基本思想是用词袋(Bag Of Words,BOW)表示文本,每个词条作为特征空间坐标系的一维,将文本看作特征空间的一个向量,用两个向量之间的夹角来衡量两个文本之间的相似度。在向量空间模型中,每一个文档都被表示为一组规范化正交词条向量所张成的向量空间中的一个点。假设由n个特征项词条组成的集合为,则文档形式化为n维空间的一个向量:,表示的第k个特征项词条的权重(其中k=1,2,n)。向量的每一维的值表示了特征项在文档中的权重,用以刻画该特征项在描述此文档内容时所起作用的重要程度,权值越大,表示该特征项在文档中的分量越重,即该特征项越能反映的内容。2.2 特征权重计算特征权重用于衡量某个特征项在文档表示中的重要程度或者区分能力的强弱。权重计算的方法是利用文本的统计信息,主要是词频,给特征项赋予一定的权重。目前特征项权重的计算通常有布尔权重、绝对词频及TFIDF函数等多种方法。1布尔权重布尔权重是最简单的一种加权方法,直观的表示特征词项是否在文本中出现,如果特征词出现次数为0,则其权重为0;如果出现次数大于0,则其权重为1即 (2-1)2绝对词频权重布尔权重模式中,仅以0-1值标记特征词项,忽略了词项之间的重要性区别;而绝对词频权重则直接以特征词项在文本中出现的次数作为文本特征的权重,词项出现次数越多,其重要性越强,即: (2-2)3TFIDF权重TFIDFError! Reference source not found.是目前广泛采用的权重计算方法,是由Salton在1988年提出的,它的指导思想是:在一个文本中出现次数很多的单词,在另一个同类文本中出现次数也会很多,反之亦然。该方法是根据特征词的重要性与特征词的文档内频数成正比,与训练文档中出现该词条的文档频数成反比的原理构造的。常用频率因子和文档集因子的乘积表示: (2-3)其中定义同上,频率因子表示特征项在文档中出现的频率;文档集因子是该特征项在文档集合中分量情况的量化。经典的TFIDF方法考虑两个因素:(1) 词语频率TF(Term Frequency):词语在文档中出现的次数;(2) 词语倒排文档频率IDF(Inverse Document Frequency):该词语在文档集合中分布情况的一种量化,常用的计算方法是,其中N为文档集合中的文档数目,为出现该词语的文本数。根据以上两个因素,可以得出公式: (2-4)考虑到文本长度对权值的影响,还应对项的权值公式做归一化的处理,将各特征项权值规范到0,1之间,公式如下: (2-5)另外,对于特征较为明显的文本类别,往往有少数项的出现频率远远大于其它项,根据上述计算公式计算出的权值会很高,如果个别权值很高,在分类过程中往往会抑制其它项的作用。因此在计算各项权重的时候,应对统计出的词频做适当的均衡处理,较为简单的均衡处理方法是对统计出的权值进行开平方。经过词频均衡处理的TFIDF权值计算公式为: (2-6)该公式基于这样的假设:区分文档最有意义的特征词是那些在指定文档中出现频率足够大,而在文档集的其它文档中出现频率足够小的词。TFIDF权重计算法刻画了特征表达文本内容属性的能力,TF越大,特征项在文档集中出现的范围越广,说明它的重要程度越高;IDF越大,特征项在文档中的分布越集中,说明它在区分该文档内容属性方面的能力越强。最终那些具有较高出现频率并且在文档集合中较少的文档中出现的特征项将被赋予较高的权值。2.3 文本分类算法由于文本分类本身是一个分类问题,因此,一般的模式分类方法都可用于文本分类研究,常用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论