




已阅读5页,还剩68页未读, 继续免费阅读
(管理科学与工程专业论文)中文网络产品评论中的评价对象抽取方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
i 1 u n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g yo fc h i n a adi s s e r t a t i o nf o rm a s t e r sd e g r e e r e s e a r c ho nt h ea p p r o a c h e so f o p i n i o nt a r g e te x t r a c t i o nf r o m chin e s ecu s t o m e rr e v i e w s o nt h ei n t e r n e t a u t h o r sn a m e :c u i c u im e n g s p e c i a l i t y :m a n a g e m e n ts c i e n c ea n de n g i n e e r i n g s u p e r v i s o r :a p r o f w e i p i n gw a n g f i n i s h e dt i m e : m a y ,2 0 11 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名: 歪雩翠 签字日期:丝! ! :! :i 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复 位论文全 手段保存 保密 圈公 作者 签字 随着i n t e r n e t 的迅猛发展和电子商务的不断普及,互联网以其独特的优势吸引 着各大制造商在网络上出售产品以及消费者在网络上购买产品。与此同时,网络 上关于各种产品的评论语句的数量迅速增长。这些产品评价给制造商和消费者带 来巨大好处。一方面,制造商可以从中得到关于产品的反馈信息;另一方面,潜 在的消费者可以从已有的产品评价中找到客观真实的购物参考。 但是评论语句庞大的数量在一定程度上非常不利于制造商以及潜在的消费 者从中提取有用信息。面对这样的现实问题,如何才能对这浩如烟海的评论语句 进行快速查询和统计,意见挖掘技术应运而生。 意见挖掘是当前自然语言处理的研究热点,它帮助人们在大量产品评论中快 速定位需要寻找的相关产品意见。意见由四个元素组成,即主题、持有者、陈述、 情感。这四个元素之间存在着内在的联系,即意见的持有者针对某主题发表了具 有情感的意见陈述。 在这四个元素中,主题的抽取可谓是重中之重。准确又快速地定位网络客户 评论的主题( 即评价对象) ,这是正确进行情感分析的基础,这也是意见挖掘系 统准确率的保证。只有正确抽取评价对象,意见挖掘的结果才会准确可信。 本文使用了网络中的中文产品评论( 电脑类) 作为实验数据来源,着重研究 了意见挖掘中的评价对象抽取任务。 本文从一个新的角度来考虑:一、抽取的评价对象符合抽取规则,但是并不 一定与主题相关;二、即使与主题相关,但未必是主观句中的评价对象。本文不 需要建立任何词典,也不需要进行主客观句的分析,只需要利用中国科学院计算 技术研究所自然语言处理研究组的i c t p a r s e r 的句法分析以及哈尔滨工业大学的 语言技术平台i r 的依存关系对评论语句进行分析,然后根据一定的规则计算候选 评价对象的权重,对候选评价对象进行初步筛选,最后利用似然率检验方法计算 候选评价对象与主题的相关程度,对候选评价对象进行排序。 实验结果验证了该方法的有效性。 关键词:意见挖掘评价对象抽取似然率检验句法分析依存分析 摘要 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r a c ta n dt h eg r o w t ho fe c o n l n 3 e f c e ,al o to f b i gm a n u f a c t u r e r ss e l lp r o d u c t so nt h ei n t e m e ta n dm o r ea n dm o r ec o n s u l d _ e r sb u y p r o d u c t so n l i n eb e c a u s eo fi t su n i q u ea d v a n t a g e s m e a n w h i l e ,t h en u m b e ro f c o n l l n e n t a r yo nv a r i o u sp r o d u c t si nt h ew e bg r o w sr a p i d l y t h e s ep r o d u c te v a l u a t i o n s b r i n gg r e a tb e n e f i t st ot h em a n u f a c t u r e r sa n dc o n s u n r q r s o nt h eo n eh a n d ,t h e m a n u f a c t u r e r sc a ng e tf e e d b a c ki n f o r m a t i o na b o u tp r o d u c t s ;o nt h eo t h e rh a n d ,t h e p o t e n t i a lc o n s u m e r sc a nf i n dt h eo b j e c t i v er e a ls h o p p i n gr e f e r e n c ef r o me x i s t i n g p r o d u c te v a l u a t i o n b u tt h eh u g en u m b e ro fc o m m e n t a r yl i n e si sn o tg o o df o rm a n u f a c t u r e r sa n d p o t e n t i a lc o n s u m e re x t r a c t i n gu s e f u li n f o r m a t i o ni nac e r t a i ne x t e n t i nt h e f a c eo f s u c hr e a l i s t i cp r o b l e m , h o wt of a s tq u e r ya n ds t a t i s t i ct h e s ev o l u m i n o u sc o m m e n t a r y l i n e s ,o p i n i o n sm i n i n gt e c h n o l o g ya r i s e sa tt h eh i s t o r i cm o m e n t o p i n i o nm i n i n gi st h eh o tr e s e a r c ht o p i ci nn a t u r a ll a n g u a g ep r o c e s s i n g ,i th e l p s p e o p l el o c a t et h ec o m m e n ta b o u tt h er e l a t e dp r o d u c t sw h i c hp e o p l en e e dt os e e ki n l a r g ep r o d u c t sc o m m e n t a c c o r d i n gt ot h ed e f i n i t i o no f t h eo p i n i o nf r o mk i l na n d h o v y ,t h e r ea r ef o u re l e m e n t si n c l u d i n gt o p i c ,h o l d e r , c l a i ma n ds e n t i m e n t t h e r ea r e i n n e rc o n n e c t i o n sb e t w e e nt h e s ef o u re l e m e n t s ,t h a ti st os a y ,t h eh o l d e ro fo p i n i o ni n a s u b j e c tr e p o r t se m o t i o n a lo p i n i o ns t a t e m e n t s t o p i ce x t r a c t i o n i st h em o s ti m p o r t a n ti nt h e s ef o u re l e m e n t s t h eb a s i so f c o r r e c ts e n t i m e n ta n a l y s i si sf i n d i n gt h et o p i c s ( e v a l u a t i o no b j e c t s ) o fn e t w o r k c o m m e n t sc o r r e c t l ya n dq u i c k l y i ti sa l s ot h eg u a r a n t e eo ft h ea c c u r a t eo fo p i n i o n m i n i n gs y s t e m o n l yw i t ht h ec o r r e c te v a l u a t i o no b j e c t s , t h er e s u l t so fo p i n i o n s m i n i n gw i l lb ea c c u r a t ea n dr e l i a b l e t h i sp a p e ru s e dc h i n e s ep r o d u c tr e v i e w s ( c o m p u t e rc l a s s ) f r o mt h en e t w o r ka s t h ee x p e r i m e n t a ld a t as o b i c e s ,i ts t u d i e de m p h a t i c a l l yt h et a s ko ft h ee v a l u a t i o no b j e c t e x t r a c t i o ni no p i n i o nm i n i n g t h i sp a p e rc o n s i d e r sf r o man e w a n g l e :f i r s t , t h ee x t r a c t i o no fe v a l u a t i o no b j e c t s c o n f o r m st ot h er u l e s ,b u tt h ee v a l u a t i o no b j e c t se x t r a c t e da r en o tn e c e s s a r i l yr e l a t e d w i t ht o p i c s ;s e c o n d ,e v e ni fb e i n gr e l a t e dw i t ht o p i c s ,b u tt h e ya l en o tn e c e s s a r i l y e x t r a c t e df r o ms u b j e c t i v ee v a l u a t i o ns e n t e n c e s 1 1 t i v 录 录 摘要i a b s t r a c t i i i 第一章绪论1 1 1 研究背景及意义1 1 1 1 研究背景i 1 1 2 研究意义3 1 2 国内外研究现状简介3 1 2 1 国外研究现状4 1 2 2 国内研究现状5 1 3 论文主要工作和结构安排6 1 3 1 论文主要工作6 1 3 2 文章结构安排6 第二章文本挖掘技术介绍9 2 1 文本挖掘概述9 2 i 1 文本挖掘概念9 2 1 2 文本挖掘的一般流程9 2 2 特征提取1 0 2 3 文本表示1 2 2 4 特征权重的计算方法1 2 2 5 文本分类方法1 4 2 5 1 贝叶斯分类算法1 4 2 5 2k - 邻近算法1 5 2 5 3 支持向量机1 6 第三章意见挖掘技术综述1 9 3 1 意见挖掘的概念1 9 v 目录 3 1 1 意见的涵义 3 1 2 意见挖掘 3 2 意见挖掘的任务 3 2 1 主题抽取 3 2 2 意见持有者识别: 3 2 3 陈述的选择 3 2 4 情感分析 3 3 意见挖掘的具体步骤 3 3 1 主观性分类( s u b j e c t i v i t yc l a s s i f i c a t i o n ) 3 3 2 情感分类 3 3 3 观点抽取 3 4 意见挖掘结果显示 第四章意见挖掘中产品评价对象的抽取方法 4 1 产品评价对象的含义 4 2 产品评价对象抽取的一般框架 4 3 基于关联规则算法的抽取方法 4 4 基于似然值检验的抽取方法 4 5 基于i c t p a r s e r i r l i k e l i h o o d 的抽取方法 4 5 1 候选评价对象的抽取规则 4 5 2 候选评价对象的筛选规则 4 6 本章小结 第五章产品评价对象的抽取3 7 5 1 产品评价对象抽取框架3 7 5 2 候选评价对象的抽取3 7 5 2 1 词性标注分析器简介3 7 5 2 2 数据预处理3 9 5 2 3 候选评价对象抽取步骤3 9 5 3 候选评价对象的筛选4 0 5 3 1 基于规则的候选评价对象的筛选4 l 5 3 2 似然值检验法( 1 i k e l i h o o d - r a t i ot e s t ) 4 1 5 4 本章小结4 2 4 3 4 3 4 4 4 4 6 4 实验结果及分析4 5 6 4 1实验1 :利用i r 依存分析修正后的结果对比4 5 6 4 2 实验2 :验证筛选候选评价对象的方法的有效性4 6 6 5 本章小结4 8 第七章总结与展望4 9 7 1 总结4 9 7 2 展望4 9 参考文献5 1 致谢5 5 附录5 7 在读期间发表的学术论文与取得的其他研究成果5 9 i 目录 电子商务 物方式也 使得越来越多的消费者注重别人在网络上对商品的评价,这是消费者获取商品好 坏信息的非常重要的途径。随着评论的数最的增长,无论是商家还是消费者,想 要获取有价值的信息,都需要耗费太多的精力。所以需要一些技术方法来处理这 些评论,直接将处理好的结果反馈给商家和消费者。因此,电子商务越盛行,意 见挖掘越是能体现其应用和研究价值。 1 1 研究背景及意义 1 1 1 研究背景 从2 0 世纪7 0 年代开始,信息技术的发展带领人类进入了信息时代,信息成 为人们日常生产和生活中重要影响因素。2 0 世纪9 0 年代,随着互联网和计算机 软硬件技术迅猛发展至今,个人电脑已经普及到各家各户。随着手机和3 g 技术 的发展,手机网络用户已经达到空前的数量。 由中国互联网络信息中心( c 蛆c ) 发布的第2 6 次中国互联网络发展状 况统计报告显示,截至2 0 1 0 年6 月底,我国网民数量达4 2 亿人,互联网普 及率达3 1 8 。手机网民成为中国网民中重要组成部分,半年内新增4 3 3 4 万, 达到2 7 7 亿人,增幅为1 8 6 。由此可以看出,电子商务的普及程度迅速提高, 全国网络购物用户达到1 4 亿,网上支付、网络购物和网上银行半年用户增长率 均在3 0 左右。 网络作为个人表达主观性观点和态度的平台,其表现形式多以自然语言为主 的评论文本形式,即主观性文本,如产品评论、新闻评论、影视评论、音乐评论 等等。这些评论蕴含着丰富的信息? 生产厂家可以通过分析这些评论,得到消费 者所真正关心的产品特征,消费者可以通过分析这些评论,获得产品的具体的优 劣信息,以供参考,把这种信息不对称的程度减少到最小。 但是随着网络上的评论越来越多,尤其是随着电子商务的发展,评论数量呈 指数增长,对于生产厂家和消费者,网上评论数以万计,仅依靠人工进行网页浏 览、评论搜集、观点分析,这是不可行的。主要原因有如下三点:一是互联网中 的信息量是非常巨大的,如果用人工的方式去查找和分析,效率肯定是非常低的; 第一章绪论 二是有效评论抽取困难,由于很多评论的篇幅较k ,也许只有其中的几句话是消 费者或者生产厂家所需要分析的;三是评价标准不。致,人们的评价标准容易受 到个人的学历和见识的影响,有时并不能客观地对其消费的产品进行评价,从而 影响最终的评价结果。 那如何才能对这浩如烟海的评论语句进行快速查询和统计,意见挖掘技术应 运而生。 意见挖掘的研究起源于2 0 世纪9 0 年代后期,但是真正被研究者所重视还是 在2 l 世纪初期。主要有两种研究方法:机器学习技术和语义分析技术。接卜来, 随着研究的深入,自然语言处理技术被广泛应用在这个领域,尤其是在文档层次 上面的情感分析。 目前,意见挖掘处在自然语言处理和信息检索领域的交叉部位,和信息抽取 和文本挖掘多有相似之处,但也有本质差别。一方面,它基于数据挖掘( d a t a m i n i n g ) 和文本挖掘( t e x tm i n i n g ) 技术,另一方面,它又具有相当的文本理解 ( t e x t u n d e r s t a n d i n g ) 的能力。所以,它是比文本挖掘技术更接近人工智能目标 的一种新技术。 例如:这款电脑的显示屏的尺寸非常小,字都看不清楚。在这句话里,评论 的主题是“显示屏的尺寸”,给予的评价观点是“小”,“非常”是用来表示“小 的程度的。通过这句话的分析,生产厂家就可以把这款电脑的屏幕放大,消费者 如果想买屏幕大的电脑,就不用考虑这款电脑了。 意见挖掘的应用非常广泛,主要有以下几个方面的应用: ( 1 ) 商业和组织( b u s i n e s s e sa n do r g a n i z a t i o n s ) :产品和服务的标杆,市 场情报。 ( 2 ) 个人( i n d i v i d u a l s ) :当消费者需要购买产品或者享受服务时,常常需 要参考别人的观点。 ( 3 ) 广告位置的选择( a d sp l a c e m e n t s ) :在赞扬产品的时候或者在别人批 评竞争产品的时候。 ( 4 ) 观点检索( o p i n i o nr e t r i e v a l s e a r c h ) :能够做到像普通的搜索引擎以 这样可以检索到观点。这一点还没有实现。 ( 5 ) 产品比较( p r o d u c t c o m p a r i s o n ) :产品的对比一个典型的系统( o p i n i o n o b s e r v e r ) 就解决这方面的问题。产品对比的结果用一个条形图来表示,针对每 一种要对比产品的具体特征,包括:产品的各个组成部分、产品的功能、产品各 个组成部分的特点以及产品功能的特点。 ( 6 ) 观点摘要( o p i n i o ns u m m a r i z a t i o n ) :对于一个很长的文本,也许里面 只有几旬是表达观点的,需要把观点的摘要呈现给消费者,这样消费者就会一目 2 第一章绪论 了然! 现在产品评论以及新闻和博客中都有相应的方法来提取观点。 ( 7 ) 观点原因挖掘( o p i n i o nr e a s o nm i n i n g ) :尤其是对于电影评论,往往 人们不是关注褒义和贬义评论的数鼍对比,而是它们具体的喜欢的理由。不仅仅 要寻找持有观点的句子,而且要寻找具体的理由。用一个三元组 来描述。 ( 8 ) 其他应用:在线评论的过滤,电子邮件的情感分类等等。 1 1 2 研究意义 本文针对中文网络的产品评论( 电脑评论) ,使用意见挖掘、词性标注分析 器、自然语言处理等方面的技术,来提取评论中的评价对象( 例如:硬盘、内存、 显示器、重量等等) 。 从消费者查看评论的行为特点,当消费者准备买某种产品的时候,才会去查 看关于这种产品或者系列产品的评论,方便消费者决策。所以本文的研究内容是 基于某个特定的领域的。同时,选定特定的产品领域,大大降低的研究的复杂度, 使得研究成果更加准确。 另外,有关本文的特征级意见挖掘方面的研究比较少,有关中文方面的意见 挖掘就更少了,对中文网络评价对象抽取的研究还不太成熟,在研究结果的召回 率以及准确率上还没有达到理想的状态。 越来越多的人开始利用互联网寻找自己需要的产品的信息,同时用户对产品 的评论信息也越来越多。无论是消费者还是生产商,能够很好的利用这些评论信 息,从中挖掘出对自己有用的信息,这就是意见挖掘真正的实用价值。 1 2 国内外研究现状简介 近年来,产品评论挖掘已经成为信息检索和自然处理处理领域的一个热点问 题,其中,评价对象的抽取和情感分析已经得到越来越多的学者关注。从意见挖 掘的兴起至今,无论在英文领域还是在中文领域,观点评论挖掘技术都取得了很 大的进步。评价对象的抽取结果的正确与否,直接决定着情感分析的结果。在 a a a i 、a c l 、s i g i r 、w w w 等国际项尖会议中,都有针对这一方面的文章。在 评测方面,t r e c 2 0 0 3 以及2 0 0 6 年的n t c i r 检索评测会议都设计了意见挖掘的四 个子任务。国内已经分别在2 0 0 8 年和2 0 0 9 年开设了中文倾向性分析评测( c h i n e s e o p i n i o na n a l y s i se v a l u a t i o n ,c o a l ) ,包括6 个子任务:中文情感词的识别、中 文情感词的褒贬度分析、评价对象的抽取、中文文本的主客观分析、中文文本的 褒贬度分析以及中文文本的观点检索。本文重点研究评价对象的抽取这个子任 3 第一章绪论 务。 1 2 1 国外研究现状 在国外,意见挖掘的研究开始于2 0 0 2 年,p a n ga n dl e e ( 2 0 0 4 ) 提出对文本 的分类不是基于主题,而是基于情感,利用电影评论作为实验数据,利用贝叶斯 ( n a f v eb a y e s ,n b ) 、最大熵( m a x i m u me n t r o p y ,m e ) 、支持向量机( s u p p o r t v e c t o rm a c h i n e s ,s v m ) 这三种传统的机器学习方法运用到情感分类当中。 而t u m e y ( 2 0 0 2 ) 则发现电影评论是情感分析中最难的领域之一,他把情感 分析分成三个步骤,首先利用分析器识别出包含形容词或者副词的短语,然后估 计这些短语的语义倾向,最后计算这个评论中所有短语的平均语义倾向,根据计 算结果,指定给定的评论是推荐( r e c o m m e n d e d ) 还是不推荐( n o tr e c o m m e n d e d ) 。 其中他设计出了一个算法p m i i r ,用来估计短语的语义倾向的,主要思想就是分 别计算给定的短语与“e x c e l l e n t ”词和“p o o r ”词之间的互信息,然后两者之差 就是给定短语的语义倾向性值。 y i 等人( 2 0 0 3 ) 根据名词短语的组成和位置特点,采用似然值检验( l i k e l i h o o d t e s t ) 方法来确定用户评价的主题。 m i n q i n gh ua n db i n gl i u ( 2 0 0 4 ) 采用n l p r o c e s s o r2 0 0 0 先对评论语句进行分 词标注( p a r t - o f - s p e e c h t a g g i n g ,p o s ) ,然后再使用关联规则的方法来挖掘频 繁项作为候选评价对象,并对候选评价对象进行了剪枝处理。但是后来的研究发 现,采用关联规则的方法并没有很好地抽取候选评价对象,提取出来的所有候选 评价对象都会被进一步处理,那么最终的处理结果的准确率和召回率也是不能保 证的。 p o p e s c ua n de t z i o n i ( 2 0 0 5 ) 的o p i n e 系统中,他们计算互信息( p m i ) 值作 为参数对候选评价对象进行筛选。相比于h u 和l i u 的结果,o p i n e 系统的准确率 提升了2 2 ,而召回率只下降了3 。但是该系统需要根据事先设定的模板以及 w o r d n e t 中的上下位关系( w o r d n e t si s - ah i e r a r c h y ) 来提取候选评价对象。 k i ma n dh o w ( 2 0 0 6 ) 对新闻评论进行研究,他们不预先设定评价的对象, 而是找到一个评论,来寻找这个主题。首先找出评价词,然后借助于f r a m e n e t ( b a k e re ta 1 ,2 0 0 3 ) 分析句子的语义结构来找出评价对象,运用了语义角色标 ( s e m a n t i cr o l el a b e l i n g ) 方法。这种方法受限于外部资源:f r a m e n e t ,如果无 法在f r a m e n e t 找出相应的或者语义相近的评价词,那么就无法找出评价对象。 以前的观点挖掘重点在发现评论者的态度,但是需要指出的是虽然许多消费 者评论的产品特征由于没有极性词的存在而被忽略,但是那些特征仍然很重要。 例如:这个手机的音响效果非常好;我最看重的就是这款手机的音响效果。这两 4 第一章绪论 句话都是在讨论音响效果。第一个句子有明显的态度标识“非常好”,而第二个 句子就没有提供任何的态度标识。但是第二个句子却显示了消费者真正关心的手 机特征。像这种中性的评论并没有引起重视。观点挖掘看重的产品特征,而产品 特征却不能涵盖所有重要的主题。 为此,新加坡国立大学的j i a m i n gz h a n e ta 1 ( 2 0 0 9 ) 研究了一种新的自动摘 要的方法( a u t o m a t i cs u m m a r i z a t i o na p p r o a c h ) 。这种方法是在分析评论文章的内 部主题结构的基础上进行的,目的在于运用自动化的文本摘要方法从多种网上评 论上收集消费者关心的主题。 1 2 2 国内研究现状 在国内,汉语意见挖掘方面的研究起步较晚。 在汉语极性词的获取方面,y u a ne ta 1 ( 2 0 0 4 ) 在t u r n e ya n dl i t t m a n ( 2 0 0 3 ) 研究工作的基础上,对汉语极性词的自动获取进行了研究。此后,t s o u 等人在上 述研究工作基础上对具有褒贬性的新闻报道进行了分类研究。主要采用了三个衡 量指标,即极性元素的散布( s p r e a d ) 、密度( d e n s i t y ) 和语义强度( i n t e n s i t y ) 来对每个文本进行统计,计算出文本的褒贬度,并得出情感强度的大小。 在汉语词汇语义倾向自动获取研究方面,朱嫣岚等( 2 0 0 6 ) 提出了基于 h o w n e t 的两种词汇语义倾向计算方法。 在汉语句子语义极性分析和观点抽取研究方面,娄德成和姚天防( 2 0 0 6 ) 利 用自然语言处理技术,对汉语网络评论语句进行了语义极性分析和观点抽取,考 虑到在不同的语境中同一词汇的褒贬性会不同,它们提出了计算词语的上下文极 性的算法,并且分析了主题和极性词的匹配关系。 在评价对象抽取方面,哈尔滨工业大学的李实等( 2 0 0 7 ) 针对中文评论语 句的特点,在m i n q i n gh ua n db i n gl i u ( 2 0 0 4 ) 提出的关联规则算法的基础上, 提出了一种改进的关联规则算法,实现了中文网络客户评论的产品特征的挖掘。 o p i n a x 系统( 郝博一等,2 0 0 8 ) 利用一个小规模标注评价语料库产生候 选评价对象的“种子”,利用哈尔滨工业大学语言技术平台分析出词汇与“种子” 之间的依存关系,对种子进行评价对象扩展。但是利用语言技术平台的句法分析 得到的词性标注信息不一定准确。另外,他还需要提前建立一个语料库,降低了 系统的效率。 郝博一等( 2 0 0 9 ) 提出一种基于泛化、繁殖和自举的意见目标抽取方法, 该方法的基本思想:将意见目标分为原子意见目标和复合意见目标,先将原子意 见目标集进行泛化,得到复合意见目标集,再将原子意见目标集和复合意见目标 集在一起繁殖,得到更为准确的意见目标。 5 第一章绪论 条件随机域( c o n d i t i o n a lr a n d o mf i e l d ,c r f ) 模型由j o h nl a f f e r t y 和a n d r e w m c c a l l u m 于2 0 0 1 年提出,这是一种序列化标注模型,常用于命名实体识别等任 务,并有良好表现。 南京大学计算机科学与技术系的濮小佳等( 2 0 0 9 ) 采用基于c r f 并结合一 些规则匹配的方式,对评价对象进行抽取。但是使用c r f 进行标注能够得到较高 的准确率,但是召回率不理想。 山西大学的宋晓雷等( 2 0 0 9 ) 研究出一种基于特定领域模板的评价对象抽 取方法,使用词形模板和词性模板,采用白举学习方法,实现产品名称和产品属 性的同时抽取。 1 3 论文主要工作和结构安排 1 3 1 论文主要工作 对于评价对象的抽取,研究者作出了很多的研究,也是现在意见挖掘研究的 热点之一,2 0 0 8 年和2 0 0 9 年,连续两次被列入中文倾向性分析评测( c h i n e s e o p i n i o na n a l y s i se v a l u a t i o n ,c o a e ) 的任务之一。 评价对象抽取最常用的方法就是基于模板的提取,在牺牲召回率的条件下, 实现较高的精确率。 本文从一个新的角度来考虑:抽取的评价对象符合抽取规则,但是并不一定 跟主题相关;即使跟主题相关,但未必是主观句中的评价对象。本文不需要建立 任何词典,也不需要进行主客观句的分析,只需要利用中国科学院计算技术研究 所自然语言处理研究组的i c t p a r s e r 的句法分析以及哈尔滨工业大学的语言技术 平台i r 的依存关系对评论语句进行分析,然后根据一定的规则计算候选评价对象 的权重,对候选评价对象进行初步筛选,最后利用似然值检验方法计算候选评价 对象与主题的相关程度,对候选评价对象进行排序。 1 3 2 文章结构安排 本论文的章节安排如下: 第一章是绪论,简单介绍了本论文的研究背景、研究意义以及本论文研究对 象的国内外研究现状。 第二章介绍了文本挖掘的相关理论知识,重点介绍文本主题分类的相关技 术。 第三章介绍了意见挖掘的基本理论知识,主要介绍了意见挖掘的四个子任务 6 的基 第五章是本文的核心内容,针对意见挖掘的一个子任务,即评价对象抽取任 务。主要包括数据的预处理、候选评价对象抽取以及候选评价对象的筛选。 第六章是实证分析,把网络上的评论语句作为实验数据来源,验证本文方法 的有效性。 第七章是对本文的总结和展望,分析当前方法的不足,对下一步的研究进行 展望。 7 第一章绪论 8 意见挖掘技术是在文本挖掘技术的基础上发展起来的,很多意见挖掘技术都 是改进文本挖掘技术而得到的。所以,在介绍意见挖掘技术之前,本文先介绍下 基本的文本挖掘技术。 2 1 文本挖掘概述 2 1 1 文本挖掘概念 文本挖掘( t e x tm i n i n g ) 是在数据库知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) 上发展起来的。 文本挖掘,又称文本知识发现,最开始是由u s a m am f e l d m a n 在1 9 9 5 年提 出的,是指应用机器学习和统计的方法从非结构化的文本数据中抽取有价值的信 息和知识的计算机处理过程。它涉及到多个领域,如信息抽取、数据挖掘、语义 分析、自然语言处理等等。 具体来说,文本挖掘就是以非结构化的文本信息为分析对象,利用机器学习 和统计的方法,寻找用户感兴趣的模式和各种隐含的知识。文本挖掘的主要任务 是分析文本的内容特征,发现文本数据中的规律,从而为用户提供有价值的知识 和信息。文本挖掘是数据挖掘的一个分支。 2 1 2 文本挖掘的一般流程 文本挖掘的一般流程如图2 1 所示。 特 文 分 征 文本结构 本 词 提 分析器 +取 源 处 及 文本摘要 理 处 生成器 理 文本 分类解 释 用 文本 界 户 面 聚类 图2 1 文本挖掘的一般流程 9 提取 着重 2 2 能够 可分 的词 专业 其代 有姓 提取 维处 信息 统计 次数来预测文档的类别。它是针对一个一个的特征而言的,就是看一个特征t 。, 系统有它和没它的时候信息量各是多少,两者的差值就是这个特征给系统带来的 信息量,即增益。 信息量的度量单位是信息熵,信息熵的形式化定义: 有一个变量x ,它可能的取值为x i , 7 c :,每一种取到的概率分别为 p l ,p 2 ,p 。,那么x 的熵定义为: 日g ) = 一p ,l 0 9 2p f ( 2 1 ) t - i 这个公式可以反映一个变量x 出现某种值的可能性越多,它携带的信息量就越 大。 1 0 第_ 章文本挖拙技术介绍 那么信息增益的计算公式如下: 佑纯) = h ( c ) 一日( c l t 。) = 一z p ( c ) l 。9 0 ( c ”+ p 以) p ( e l t 。) l 。g ( p ( c l t 。”+ p ( - ) p ( c i i ) l 。g g g i i ) ) c e ( f 莓c c e c = 萎h ( 揣弧( 其中,c 表示文本的类别变量,c 表示文本的类别集合。日( c ) 为整个系统的熵, 即系统的不确定性;日( cit 。) 为特征t 。发生条件下系统的条件熵。信息增益的值 越大,表示特征t 。的代表性就越强。 2 、互信息 互信息是信息论里一种有用的信息度量,它是指两个事件集合之间的相关 性。在文本分类当中,用来计算特征项词条和文本类别的相关性。 两个事件x 和y 的互信息的定义为:m l ( x ,y ) = 日g ) + 日( y ) 一日g ,y ) ,其中 日g ,y ) 为联g m ,其定义hh ( x ,y ) = 一p g ,y ) l o g p ( x ,y ) 。 使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率 高,但在其他类别出现频率比较低的特征词条与该类的互信息比较大。通常用互 信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量 最大。 特征项词条f 。和类别c 的互信息的计算公式为: 砒咖- 。嬲) - - o g 铡乩g 网a x n 旺3 , 其中,彳表示包含特征项词条t 。且属于类别c 的文档数;召表示包含特征项 词条t 。且不属于类别c 的文档数;c 表示属于类别c 但不包含特征项词条t 。的文 档数。表示文档集合的总数。 特征项词条t 。与所有类别的互信息m ( c ,吒) 的期望值为: 柳嘴以) = p ( c ) m i ( c ,f 。) ( 2 4 ) 互信息的数值越大,特征项词条与类别的关联性就越强,所以最终应选择互 信息值大的候选特征。 3 、z 2 统计 z 检验就是统计样本的实际观测值与理论推断值之间的偏离程度。和互信 息一样,z 统计也被计算两个特征变量之间的相关性。它同时考虑了特征项词 箔章文本挖掘技术介绍 条存在和不存在的情况,比互信息计算的更加准确。特征项词条f 。的z 2 统计值 为: z 2 g ,t 。) = ( 2 5 ) 和互信息一样,特征项词条t 。的整体z 2 的统计值为: z 乞o 。) = p ( c k 2 g ,t 。) ( 2 6 ) c e c z 2 统计值越大,特征项词条和类别的相关性就越强。 2 3 文本表示 文本表示是指用能够代表文本特征的信息来代替原文本。文本的特征信息是 关于文本的元数据,它可以是标题、作者、机构等信息,也可以是主题、分类、 摘要等信息。 文本的特征有不同的语言粒度,分为词、短语、句子和段落。通常,文本特 征采用词的语言粒度。 文本表示比较经典的模式是向量空间模式,它是6 0 年代末s a l t o m 等人提出 来的,最早用于信息检索领域。 向量空间模型的基本思想是用词袋( b a go fw o r d s ,b o w ) 表示文本。首先 选定文本d ;的特征,然后利用这些文本特征,表示特征空间的一个向量,成为文 本向量。用两个文本向量之间的夹角来衡量两个文本之间的相似度。文本d ;的向 量表示形式为: ,、 d i = l 嵋l ,心2 , 文本向量中的每一个文本特征t i ( k = 1 , 2 ,刀) ,表示d ,的第k 个特征项 词条t 。的权重,即第k 个特征项词条t 。在文本d ,中的重要程度。权值越大,表示 该特征项在文档d ,中的分量越重,即该特征项越能反映t 的内容。 2 4 特征权重的计算方法 特征权重( 在本文中用来表示) 用来衡量被选定的特征项在文档当中的 重要程度。权重计算的方法一般是利用该特征项在文档当中出现的次数,即词频。 常见的特征权重计算方法有布尔权重、绝对词频以及t f i d f 函数等多种方 法。 1 2 t 。出现在文本t 当中, 0 ,即 布尔权重的计算方法,没有注意特征项词条之间的重要性区别。绝对词频就 是利用特征项词条t 。在文本d ,中出现的次数来计算的。出现的次数越多,其权重 值就越大,即 w i k = 如 3 、t f i d f 函数 绝对词频利用次数的绝对值来衡量权重值,但是往往有些出现次数非常多的 特征项词条的代表性并不是很强。 目前,最常用的文本特征权重的计算方法为t f i d f 。该方法的指导思想是 在一个文本中出现次数很多的特征项词条,在另一个同类文本中出现的次数也会 很多,反之亦然。 t f ( t e r mf r e q u e n c y ) 即词频,指单词在文档中出现的次数。通常一个单词 在一个文本中出现的次数越多,那么这个单词就越能体现文本的特征。i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) 即倒排文档频率,是文档频率d f ( d o c u m e n t f r e q u e n c y ) 的倒数。倒排文档频率i d f 的计算公式为: i d f :l o g n ( 2 7 ) 刀量 其中,表示文档集合中的文档数量,刀。表示包含特征项词条的文档数量。 之所以考虑文档频率,是因为如果一个单词在许多文档中都出现,那么这个 单词对其中的某个文档的代表性就不强。 根据1 1 f 和i d f 这两个因素,权重值的计算公式为: = 如木l o g ( n i ) ( 2 8 ) 考虑到文本长度对权重值的影响,对权重值进行归一化处理,将权重值规范 到【o ,1 】范围之内,计算公式如下: :下丝丝丝照 ( 2 9 ) 善帆) 2 * l 0 9 2 ( n n k ) 1 3 列分类的规则作为分类器。当计算机对一些新的文档进行分类时,就需要这些分 类器
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校区晨跑活动策划方案
- 零售行业智能化发展报告
- 齿轨车司机质量管控考核试卷及答案
- 仲裁法考试题库及答案
- 鞋业数字化市场前景分析报告
- 渔业机械市场需求分析报告
- 国道大修工程施工方案
- 产品促销策划咨询方案
- 职业转型咨询方案模板
- 基础财务报表编制快速入门
- 灌胶机作业指导书
- 上海小学数学教材目录(沪教版)
- GB/T 13576.4-1992锯齿形(3°、30°)螺纹公差
- 一年级新生入学家长会
- 机械工程学科课件
- 公共教育学试题10套 答案
- 污水管道施工截流,导流方案
- 保洁常用工具和设备一览表
- 《牙周》课件药物治疗-徐莉
- 50米t梁的预制及安装施工技术方案
- A107010《免税、减计收入及加计扣除优惠明细表》
评论
0/150
提交评论