




已阅读5页,还剩62页未读, 继续免费阅读
(模式识别与智能系统专业论文)面向web文本的产品意见挖掘算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名:! 题签 本人承担一切相关责任。 日期:型蛸盟班一 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: ;! 垣莶 日期: 趔! 釜墨盈12 园 导师签名: 绘兹汇。 日期: 丝丝:之! 望 | fiij 一li_ 北京邮电人学硕士学位论文 面向w e b 文奉的产品意见挖掘算法研究 面向w e b 文本的产品意见挖掘算法研究 摘要 随着互联网的广泛应用,在b l o g 、b b s 、w i k i 等w e b 站点中出现 了大量的针对商品或服务的客户评论。本文针对这样的w e b 评论文 本,主要研究从文本中提取产品属性词和评价情感词,然后对客户持 有的意见进行极性判断。文中使用到的方法经过实验都证明了方法的 适用性,相对应所开发出来的系统也具有很好的鲁棒性。本文的研究 内容主要如下: 1 、针对网络资源,首先用基于h t m l 标签的模式匹配的信息抽取 方式从特定的网页中抽取产品属性词建立基本的评价对象词典,然后 利用搜索引擎采集评论文本从中抽取情感词,然后基于h o w n e t 计算 这些词的倾向性,建立具有口语化特征的情感词表。 2 、利用中文依存句法分析,结合其他的语义特征进行属性词的 抽取,以扩大属性词典,然后使用二部图模型,对属性词和情感词进 行反复的互训练,最后将新训练的属性词和情感词分别写入词典,且 将匹配的属性词和情感词以二元组的方式写入文本。 。 3 、手工构造了否定词、转折词和程度词表,然后定义了评论情 感词的评分模型,对抽取出来的评价情感词进行打分,最后确定其极 性,即客户对产品属性所持有的意见或者态度。 通过上述工作,本文实现了对w e b 文本的意见挖掘,即属性词和 情感词的抽取及意见的褒贬分析,并建立了相关资源。本文最后探索 如何实现跨领域,在一定程度上表明了方法的可行性。 关键词:意见挖掘中文依存句法分析二部图模型情感分析 北京1 1 5 t 1 1 人学硕一l :学位论文 面向w e b 文本的产品意见挖掘算法研究 h ! 一ji 北京邮电人学硕士学位论文面向w e b 文本的产品意见挖掘算法研究 r e s e a r c ho fp r o d u c t0 p i n i o nm i n i n g a l g o i u t h mf o r 、扼bt e x t s a b s t r a c t w i t ht h ew i d er a n g eo f t h ei n t e r n e ta p p l i c a t i o n s ,b l o g 、b b s 、w i k ia n do t h e rw e b s i t e sa p p e a ri na l a r g en u m b e ro f c u s t o m e rr e v i e w sf o rp r o d u c t so rs e r v i c e s t h ep a p e r a i m sa tt h e s ew e bt e x t s ,r e s e a r c ho fh o wt oe x t r a c t i n gp r o d u c tf e a t u r e sa n do p i n i o n w o r d sf r o mt e x t s ,a n dt h e nh o l d sf o rac l i e n tt od e t e r m i n ep o l a r i t yo fo p i n i o n s t h e m e t h o d si nt h ep a p e rh a v eb e e np r o v e dt h ea p p l i c a b i l i t yb ye x p e r i m e n t s ;t h er e l a t i v e d e v e l o p e ds y s t e ma l s oh a sag o o dr o b u s t n e s s o u rs t u d yi sm a i n l ya sf o l l o w s : 1 、u s i n gn e t w o r kr e s o u r c e s ,w ef i r s ta d o p tp a t t e r nm a t c h i n ge x t r a c t i o nm e t h o d s b a s e do nh t m lt a g st oe x t r a c tp r o d u c tf e a t u r e sf r o ms p e c i f i cw e b p a g e sa n dt h e n , e s t a b l i s hab a s i cf e a t u r ed i c t i o n a r y s e c o n d l y , w ec r a w l sc o m m e n tt e x t sf r o ms e a r c h e n g i n e st oe x t r a c to p i n i o nw o r d s ,a n dt h e nc a l c u l a t et h ep o l a r i t yo ft h ew o r d sb a s e d o nh o w n e tt oc o n s t r u c tac h a r a c t e r i s t i co f c o l l o q u i a ls e n t i m e n tl e x i c o n 2 、u s eo fc h i n e s ed e p e n d e n c yp a r s i n ga n a l y s i s ,c o m b i n a t i o nw i t ho t h e r s e m a n t i cp r o p e r t i e s ,w ee x t r a c tn e wp r o d u c tf e a t u r e sa n de x p a n dt h ef e a t u r e d i c t i o n a r y , a n dt h e nb a s e do nt h eb i p a r t i t eg r a p hm o d e l ,w et a k et h ef e a t u r ew o r d sa n d o p i n i o nw o r d st or e p e a t e dc a ) 一t r a i n i n g , f i n a l l y , w ew r i t en e w sf e a t u r ew o r d sa n d o p i n i o nw o r d si n t or e s p e c tl e x i c o n a tt h es a m et i m e , w ew r i t et h em a t c h i n gf e a t u r e a n do p i n i o nw o r d si n t on e wt e x ti n t h ew a yo f b i n a r y g r o u p 3 、w ea r t i f i c i a l l yc o n s t r u c tn e g a t i v ew o r dt a b l e , t u r n i n gt h et a b l ea n de x t e n to f v o c a b u l a r yw o r d s ,a n dt h e nd e f i n ear a t i n gm o d e lo fs e n t i m e n tw o r d s ,s c o r i n gt h e s e n t i m e n tw o r d ,t h e nj u d g et h ep o l a r i t yo ft h ew o r d , t h a ti s ,t h eo p i n i o no ra t t i t u d eo f t h er e v i e w e r t h r o u g ht h ea b o v ew o r k , t h i sp a p e rp r e s e n t st h ev i e w so fw e bt e x tm i n i n g , n a m e l y , e x t r a c t e do ft h ef e a t u r ew o r d sa n do p i n i o nw o r d sa n dt h ea n a l y s i so fp r a i s e a n da b u s e a n dw ee s t a b l i s h e dr e l a t e dr e s o u r c e s t h ep a p e rf i n a l l ye x p l o r e sh o wt o i i i 面向w e b 史奉的产品意见挖掘算法研究 w eh a v eb e e np r o v e dt h ef e a s i b i l i t yo fo u r d e p e n d e n c yp a r s i n ga n a l y s i s ,t h eb i p a r t i t e i v i 土 j 广 一糊斡 维 瘫 l _ l - _ _ _ 北京邮电人学硕士学位论文面向w e b 文本的产品意见挖掘算法研究 目录 第一章绪论1 1 1 研究背景及意义1 1 2 产品意见挖掘的研究现状2 1 2 1w 曲文本的特征2 1 2 2产品意见挖掘的理论研究2 1 2 3 现有的意见挖掘系统4 1 3 意见挖掘所涉及的技术及应用领域5 1 4 本文的工作及内容安排7 第二章产品属性词与情感词基本词典构建8 2 1 弓l 言8 2 2 构建基本产品属性词典9 2 2 1 信息抽取的概念9 2 2 2 信息抽取技术1 1 2 2 3 属性词典的构建1 5 2 3 情感词典的构建1 8 2 3 1 提取网络情感词1 8 2 3 2 利用h o w n e t 计算情感词的倾向性1 9 2 3 3 网络情感词典的构建2 1 2 4 小结2 1 第三章属性词与情感词的自动更新2 3 3 1 引言2 3 3 2 中文依存句法分析2 4 3 2 1 句法分析的统计模型2 4 3 2 2 句法分析的标注体系及其含义2 8 3 2 3 属性词的自动更新2 9 3 2 二部图模型3 2 3 3 属性词与情感词的互训练3 4 3 4 1 方案设计3 4 3 4 2 算法描述3 5 3 4d 、结3 6 第四章评价对象的倾向性分析3 7 4 1 引言一3 7 4 2 情感词倾向性分析3 7 v 北京邮电人学硕士学位论文面向w e b 文本的产品意见挖掘算法研究 4 2 1 已有资源扩展生成情感倾向词典3 8 4 2 2 无监督机器学习的方法3 8 4 2 3 基于人工标注语料库的学习方法3 8 4 3 评价对象的倾向性评分模型3 9 4 3 1 一些相关工作3 9 4 3 2 评分模型的建立4 1 4 4 实验4 2 4 4 1 数据集与工具包4 2 4 4 2 实验结果与评测方法4 2 4 4 3 实验结果分析4 4 第五章跨领域探索4 6 5 1 命名实体识别4 6 5 2 算法探索与设计4 6 第六章总结4 8 6 1 对以前工作的总结4 8 6 2 对以后工作的展望4 9 参考文献5 0 致谢5 7 攻读学位期间发表的学术论文。5 8 v i , j 北京邮电大学硕上学位论文 1 1 研究背景及意义 第 随着i n t e m e t 的广泛应用,用户使用产品会通过w e b 对产品进行评论,这些 评论中包含用户对产品的各个方面的性能持有肯定还是否定的意见。产品评论中 蕴涵了丰富的信息,生产厂商分析产品评论可以了解产品的不足和用户实际需求 以改进产品,用户浏览产品评论可以在购买产品之前更多地了解产品,从而更加 合理地购买产品。这种网络变革对消费者的行为模式产生了深刻的影响。一方面 改变了消费者表达对于产品观点和看法的方式一他们可以在销售网站,网络论 坛,讨论小组,以及博客( b l o g ) 中撰写产品评论;另一方面这些产品的“口碑 也反过来影响其他消费者做出购买决策【1 2 】。d o u b l e c l i c ki n c 进行了针对美国服 装业、计算机硬件设备业、运动健身产品行业及旅游业网络客户的研究【3 】,发现 这些行业中,近一半以上的互联网用户做出购买决定前,会在互联网上搜索有关 产品介绍及商品评论等信息。 但是,随着网络评论数量的飞速增长,庞杂的信息使得人工方法难以获得全 部客户评论中的有用信息。因此,迫切需要借助一定的技术手段来使这一过程变 得更为便捷。近来,以有效获取网络用户评论信息为目标的非结构化数据分析技 术一“意见挖掘 吸引了很多学者关注【4 】。意见挖掘作为非结构化信息挖掘的一 个新兴领域,主要涉及网络评论情感倾向的分析,评论中产品特征的提取,以及 评论中产品比较信息挖掘等等【5 一1 l 引。消费者可以借助于意见挖掘工具了解产 品的性能和其他用户对该产品的态度;同时,网络客户评论作为反馈机制,可以 为销售商和生产商提供哪些产品特征是客户所关注的以及客户对于产品的情感 倾向分布等信息,从而可以帮助企业改进产品、改善服务,获得竞争优势。面向 网络用户评论的产品特征提取研究,作为意见挖掘的研究方向之一,旨在从客户 评论中挖掘出备受关注的产品特征信息,并且总结基于这些产品特征的观点,依 靠情感分类( s e n t i m e n tc l a s s i f i c a t i o n ) 技术自动得出用户对各个属性的态度倾向,从 而可以为用户提供更为具体和有价值的信息【9 】。 意见挖掘技术可以应用于生活中的很多方面,如商业情报获取、电子商务、 民意调查、报刊编辑等。在电子购物网站、论坛、博客,有人们对产品、电影、 书籍、时事的评论信息,使用意见挖掘技术对这些信息进行处理后,厂商可以据 北京邮 乜人学硕j :学位论文面向w e b 文冬的产品意见挖掘算法研究 此了解顾客的反馈意见,潜在的购买者也可以事先了解产品,政府部门可以将其 作为决策参考,报社也可以从中选择新闻素材。 1 2 产品意见挖掘的研究现状 1 2 1w e b 文本的特征 w e b 文本,顾名思义,是从网络上提取而来的文本,广大的网民便是w e b 文本的创建者,正是由于这一原因,w e b 文本与书面文本有着很大的差别。 由于w e b 文本大部分来说是评论信息或者是b l o g 想法,所以个人主观性和 喜好在文本中就体现的很明显了。但由于网民的文化程度和习性等各方面的不 同,也造成了w e b 文本的一个很大特点:口语化很强,且书写方式和用词都极 其随意,一切都根据个人特点而定。同时网络新词也会大量的应用在里面,同时 对于错别字,同音字等网民也并不纠正,所以w 曲文本的个人特点就很强了。 1 2 2 产品意见挖掘的理论研究 对于网络评论的挖掘问题,学者p o p e s c u 4 】明确将其分为以下几个子任务:1 ) 挖掘重要产品特征;2 ) 挖掘用户对于产品特征的主观观点;3 ) 判断评论观点的情 感导向;4 ) 根据观点的重要性进行排名。相关研究包括评论的情感分析【6 】,评论 的主客观分析【1 0 1 以及评论中商品特征挖掘【4 5 明等。下面对这几点进行详细的介 绍。 - 1 、网络客户评论情感分析 情感分析以客户在互联网上发布的产品评论为研究对象,挖掘客户的情感倾 向,从而自动判断该评论的极性( t h ep o l a r i t yo f t h er e v i e w ) ,即正面评论或负面评 论1 6 1 。通过对大量客户评论的情感分类,可以综合得出这些客户对该种产品或服 务的普遍看法。 目前情感分析技术,主要包括机器学习方法及语义方法( s e m a n t i co r i e n t a t i o n ) 两类【7 4 】。一些学者已经开始应用这两种方法对英文客户评论的情感分类进行了 一定的研究。最初p a n g l 7 5 】在研究中提出来用机器学习的方法进行情感倾向的挖 2 北京邮电大学硕l 学位论文 掘工作,准确率达到8 7 5 , 了很好的研究结果。s a n j i v 7 6 】 提取了投资者对其所关注股 相结合,提高了英文文本情感分析的准确度。f c i 7 8 】等利用机器学习方法,针对 y a h o o 网站的英文体育评论研究情感分析。 基于机器学习的情感分类方法在针对每一种产品使用前,都需要用大量的训 练样本对分类模型进行训练,而训练样本集的建立则需要采用人工方法对大量的 评论文章逐一阅读甄别,并进行手工标识,这与利用自动情感分类降低人的阅读 负担这一初衷还有着一定的差距。因此,近来许多研究者将情感分析研究的重点 集中在对训练样本的需求量较低的语义方法上。t u m e y 6 】最早提出了基于p m i i r 算法的语义情感分类思想,该方法将点互信息( p m i ) 与信息汲取方法( i r ) 相结合, 借助搜索引擎的后台数据库获得语义倾向信息,从而做出情感判断,得到汽车评 论的准确率是8 4 ,电影评论的准确率是6 6 。其可靠性已经在英文客户情感 分类的研究中得到了初步的验证。2 0 0 3 年,d a v e 7 9 】利用该方法对亚马逊( a m a z o n ) 和c n e t 等网上商店的客户评论进行了情感分析,再次验证了该方法的性能。 z h o u 7 4 】利用电影评论数据对基于语义倾向的情感分类方法和基于机器学习的情 感分类方法进行了对比分析,发现语义方法的结果与机器学习方法具有相似性。 上述研究均证实了该语义倾向的客户情感分析方法的有效性。 2 、网络客卢评论的主客观分析 用户的情感倾向主要是通过主观句来表达的,所以在现有的意见挖掘技术 中,主观性模式的自动识别与判断是非常重要的基础性技术。w i e b e 等【lo j 针对英 文主观情感识别进行了研究,选择某些词类( 代词、形容词、序数词、情态动词 和副词) 、标点和句子位置作为特征,实现对主观句识别的平均准确率7 2 1 7 。 r i l o f f 等【8 0 】利用b o o t s t r a p p i n g 算法学习得到了10 5 2 个主观性名词,单独使用主 观性名词为特征,采用朴素贝叶斯分类器对主观句识别的查准率为7 7 ,查全率 为6 4 ;如果加上先前确定的主观线索( 来自词典和已有的研究结论) 和句子的背 景信息,那么分类器对主观句判断的查准率和查全率分别能达到8 1 和7 7 。 r i l o f f 和w i e b d 8 1 】进一步提出了从未经过人工标注的文本中自动提取主观句的方 法。他们依靠先前研究中确定的主观特征,分别建立了主观分类器和客观分类器, 自动从未标注的文本中获得大量主观句( 查准率为9 1 5 ,查全率为3 1 9 ) 和客 观旬,再从这些句子中得到更多主观性词语搭配,再用准确性很高词语搭配更新 原始的主观特征。通过重复上述过程进一步提高主观分类器和客观分类器的准确 率,最终主观分类器的查准率和查全率分别达到9 0 2 和4 0 1 1 。y u 和 h a t z i v a s s i l o g l o u 8 2 】利用相似性方法、朴素贝叶斯分类和多重朴素贝叶斯分类3 种 3 北京邮l 乜大学硕l :学位论文面向w e b 文本的产品意见挖掘算法研究 统计方法进行主客观句的识别研究。其中,朴素贝叶斯分类器在原有研究的基础 上采用词、2 2 9 r a m 、3 2 9 r a m 和词类、具有情感倾向的词序列、主语和其直接修 饰成分等作为特征项,对主观句识别的查准率和查全率达到8 0 9 0 ,而客观 句的查准率和查全率大约在5 0 左右。叶强等探索了中文主观性的自动识别方 法,提出了基于连续双词词类组合模式( 2 2 p o s ) 的主观程度自动判别算法,为中 文客户意见挖掘提供了一种可能的方法选择【8 3 】。 3 、网络客户评论中的产品特征挖掘 网络客户评论中的产品特征挖掘是指通过机器从大量的网络客户产品评论 中自动地获取所关注的产品特征【5 】,这项技术是分析用户对于产品具体特征所持 情感倾向的前提,其准确性和全面性是非常重要的。对于英文评论中的产品特征 挖掘研究已经取得了一些成果。h u 5 】和l i u 等晔】首先提出应用关联规则分类方法 提取英文评论中的产品特征,利用该方法对于包括手机,数码相机等产品评论进 行挖掘,平均查全率达到8 0 ,平均查准率达到7 2 ,而且他们在此基础上进 行了后续的研究,判断用户对这些特征的观点以及情感导向。也有一些研究人员 采用了其他方法实现这一功能,比如k o b a y a s h i l 8 5 】采用了半自动化的循环方法提 取产品特征和用户观点,但是需要大量的人工参与;p o p e s c u 等【4 j 利用了e t z i o n i 研发的k o n w i t a l l 系统,计算点互信息值( p m i ) ,然后进行贝叶斯分类,从而提取 产品特征,虽然提高h u 的准确率( 平均提高了2 2 ) ,但是查准率却有所下降( 平 均下降了3 ) 。另外,l i u 8 】重点研究存在多种产品互相比较内容的评论,这与 l i u 等挖掘同一产品的重要特征在研究内容上有些差别;而且与p o p e s c u 所提出 的技术类似,其中对于产品特征的提取采用有导师学习方法( s u p e r v i s e dt r a i n i n g ) , 需要建立一个产品特征集合,以及产品相关领域的训练样本集,而训练样本集的 。建立则需要人为对这些大量的评论文章进行逐一阅读,这与自动意见挖掘的目的 有些矛盾。 1 2 3 现有的意见挖掘系统 已经有许多研究人员实现了一些对评论意见进行分析的系统,我们在这里作 一简要介绍。 t o n g 提出了一种产生情感时间线( s e n t i m e n tt i m e l i n e ) 的系统i s 4 】。该系统跟踪 关于电影的在线讨论,并显示被称为“情感时间线 的曲线图,该图反映了带有 正面意见留言与带有负面意见留言在数量上的对比随时间推移所发生的变化。 t o n g 系统的核心是通过寻找表达情感的短语来实现对每条留言的情感分类。情 4 一 r 北京邮电人学硕十学位论文面向w e b 文奉的产品意见挖掘算法研究 感时间线有许多潜在的应用,比如:广告主可以跟踪广告活动的效果,政治家可 以跟踪民意,记者可以跟踪大众对于当前新闻事件的反应,股票交易商可以跟踪 金融界的动向。 在文献【8 6 】中,m o r i n a g 等人开发了一种对目标产品进行声誉分析的系统 r e p u t a t i o n s e a r c h e n g i n e ( r s e ) 。该系统根据用户给定的产品名称,从互联网上搜 索相关意见,并标示出每个意见的极性及可能性。在可视化方面,该系统对同一 类别产品的用户评论进行比较,并用图形方式显示用户对于不同产品的偏好。但 该系统并未将意见细化到产品的各个特性。 y i 与n a s u k a w a t f l 髂】提出了s e n t i m e n t a n a l y z e r 系统,根据用户指定的产品, 从语料中抽取所有含有该产品的引用,并判断各自的情感倾向。 d a v e 等人【8 9 】提出了r e v i e ws e e r 系统,用于搜索关于具体产品的意见句子, 并对这些句子按照语义方向的取值排序。与r s e 系统类似,r e v i e ws e e r 对于意 见分析的粒度仍在产品一级,而未细化到产品特性。 l i u 与h u 8 4 】提出了o p i n eo b s e r v e r 系统,通过情感摘要,得到各产品在各个 特性上的用户综合评价,并以柱状图的形式进行反映。 g a m o n 9 0 l 提出了p u l s e 系统,它能找出语料中的意见句并根据关健词( 包括产 品、特性) 进行聚类。在可视化方面,系统对于用户给定的产品,将用树图形式 输出该产品所涉及的特性,以及每个特性综合的语义方向。在树图中,每个方块 代表一个特性,方块的面积越大,则相关的用户意见也就越多;同时,方块的颜 色代表了顾客对于该特性总体的情感倾向。 1 3 意见挖掘所涉及的技术及应用领域 意见挖掘技术,一方面,它基于数据挖掘( d a t am i n i n g ) 和文本挖掘( t e x t m i n i n g ) 技术,另一方面,它又具有相当的文本理解( t e x tu n d e r s t a n d i n g ) 的能力。 所以,它是比文本挖掘技术更接近人丁智能目标的一种新技术。它与以往的信息 抽取( i n f o r m a t i o ne x t r a c t i o n ) 、文本分类( t e x tc l a s s i f i c a t i o n ) 和文本摘要( t e x t s u m m a r i z a t i o n ) 技术不同。虽然信息抽取和意见挖掘都需要深层的语义理解,但 信息抽取主要是获取具体的语言表达结构,如命名实体、命名实体关系、事件等, 这成分一般为显式表达结构;而意见挖掘是挖掘意见的元素和它们之问的关系, 即主题、意见持有者、陈述、情感和它们之间的关系,这些成分表达形式多样, 而且常常不是显式地、独立地表达。文本分类是在预定的用户需求下把文本进行 分类,并没有涉及到深层次的语义理解。文本摘要是用简练的语言表达长篇文本 5 北京1 1 1 1 _ j i i x 人学硕j :学位论文面向w e b 文本的产品意见挖掘算法研究 的中心思想,但文本中对事物的具体看法和评价则没有被清晰地提取出来。实际 上,意见挖掘技术弥补了上述这些技术的不足,是更具有应用价值的一种新技术。 意见挖掘涉及各个语言分析层面,不但涉及到词汇层( 如分词和词性标注) 、 句法层( 如命名实体识别和语法分析) 和语义层( 如语义分析) ,还涉及到篇章层( 如 跨句的指代消解) 。 意见挖掘与一些语言技术有关,例如,信息检索、文本分类、信息抽取、白 动摘要、数据融合、问答系统、自然语言生成、对话系统、机器翻译等。意见挖 掘技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、 民意调查、电子学习、报刊编辑、企业管理等。例如,采用意见挖掘系统从来自 网上的产品( 如笔记本电脑) 评价意见中快速地获得意见分类统计结果,可以提供 给厂商以进一步改进产品的质量,可以提供给潜在的顾客作为选择购买什么型号 产品的参考,也可以提供给代销商作为进货品种和数量的依据。图1 1 说明了在 意见挖掘处理中所涉及的语言分析层面、相关语言技术和部分应用领域。 语言分析层面 相关语言技术 图1 - 1 意见挖掘处理中所涉及的语言分析层面、相关语言技术和部分应用领域 综上所述,意见挖掘是一种很有前途的新颖的语言技术。但是,它同时也面 临着许多尚未解决的问题和挑战。因此,对于意见挖掘方法和技术的研究,不但 6 北京邮电大学硕上学位论文面向w e b 文本的产品意见挖掘算法研究 具有理论意义,而且具有实用价值。 1 4 本文的工作及内容安排 论文的第一章介绍了本文的研究背景及其意义,并对国内目前这方面的研究 现状做了详细的介绍,最后说明了本文的研究价值所在及实际应用性。 第二章介绍了基于网络和现有知识库资源的产品属性和情感词基本词典的 构建,基本词典既作为种子列表同时也作为分词的补充词典。 第三章着重分析了基于二部图的理论对种子产品属性和情感词进行互训练, 并通过计算相似度的方法保证新抽取的属性词和情感词的正确性,已达到对基础 词典进行自动更新的目的。 第四章在前两章的研究成果基础上,利用相关指示信息,提出自己的倾向性 评分模型,对评价者的意见进行褒贬确定。 第五章在前面的基础上,针对领域内的跨领域难点进行探索,并提出认为可 行的方法,同时介绍了与研究相关的一些工作。 第六章对本文的工作进行总结,同时对下一步工作进行展望。 7 北京邮电人学硕l :学位论文面向w e b 文本的产品意见挖掘算法研究 第二章产品属性词与情感词基本词典构建 2 1 引言 典型的意见挖掘系统致力于两方面的任务:产品属性或者说意见单元抽取和 意见情感词或者说评价词的分析。一般的处理思想是:首先使用关键词定位候选 产品属性,再用确定的意见模式过滤候选产品属性。属性和情感词词典对意见挖 掘任务至关重要。然而这两个词典如何构建却是个问题,同时词典的完备也是个 难题,词典的完备性使意见挖掘系统在新评论中的适应性大打折扣。一般的系统 都以低召回率的昂贵代价换取较高的准确率。而低召回率的原因,很大程度上是 由于基本词典不完备导致未登录( o u t o f - v o c a b u l a r y ,o o v ) 属性和o o v 情感词的 抽取产生很大困难。o o v 问题目前被公认为意见挖掘领域中颇具挑战性的难点 问题。 h u 和l i u 1 1 概述了一种特征抽取的算法,使用特征项的频率在标注好的评 价语料库中启发式寻找意见搭配规则。k o b a y a s h i 1 2 】等人实现了一种半自动的递 归方法,此方法使用了评价对象与目标属性之间的同现模型。大量实验证明,基 于模板的产品属性抽取方法是有效的,所以在我们的产品属性词和情感词基本词 典都将通过这种方法来获取。 本章探讨如何使用信息抽取的方法从网络资源中获取基本产品属性和情感 词词典。后续内容组织如下: 第2 节,对信息抽取中的一些相关技术,如基于h t m l 结构的信息抽取等 进行简单的介绍,重点对如何从网页中抽取基本产品属性词典进行描述; 第3 节,介绍如何从网络上获取口语化的情感词,同时利用h o w n e t 计算这 些情感词的倾向性,最后说明如何利用这些知识库构建基本情感词词典; 第4 节,说明以上两种词典的抽取难点和在大规模数据语料中的应用实验。 8 北京邮电大学硕上学位论文面向w e b 文奉的产品意见挖掘算法研究 2 2 构建基本产品属性词典 2 2 1 信息抽取的概念 信息抽取( i e ) 是指从一个给定的文档集合中自动识别出预先设定的实体、关 系和事件等类型信息,并将这些信息结构化存储的过程。比方说,我们可以从文 档中识别出人名、地名、机构名、数字、货币、时间、同期等类别的实体,这 类工作称之为命名实体识别( n e d ;从文档中识别出实体之间或实体及其属性之 间的关系,称之为关系信息抽取( 下文有时也简称关系i e ) ;从文档中识别出某个 事件发生的时间、地点、事件的参与者、造成的后果等信息,称之为事件信息抽 取( 下文有时也简称事件i e ) 。 图2 1 是一段取自m u c 7 中的来自n e wy o r kt i m e sn e w ss e r v i c e 的英语文 本。该段文本中含有三个分属于不同类别的实体,这些实体所在的位置和所属的 类型都用s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 标引了出来。实体 “u k 所属的类型为“e n a m e x 下的”l o c a t i o n ;实体“1 7 5p e r c e n t ”所 属的类型为“n u m e x ”下的”p e r c e n t ”,实体“t h ep a s ty e a r 所属的类型为 “t i m e x ”下的d a t e ”。 t h e u k s a t e l l i t e t e l e v i s i o nb r o a d c a s t e rs a i di t ss u b s c r i b e rb a s eg r e w 17 5p e r c e n t d u r i n g t h e p a s ty e a r t o5 3 5m i l l i o n 图2 - 1 一段来自n e wy o r kt i m e sn e w ss e r v i c e 的进行命名实体标引后的文本 实体与实体之间、实体及其属性之间可以形成各种二元关系。比方说,公司 及其雇员之间、公司及其所生产的产品之间、公司及其总部所在地之间就形成三 个不同的二元关系:e m p l o y e e - o f , p r o d u c t - o f ,l o c a t i o n - o f 。图2 2 是从一 段文本中识别出的一个具体的e m p l o y e e - o f 关系 “e m p l o y e eo f 9 6 0 2 0 4 0 1 3 6 5 ,该关系所关联的两个实体为 “e n t i t y _ 9 6 0 2 0 4 0 1 3 6 1 1 和“e n t l l y 9 6 0 2 0 4 0 1 3 6 1 ,前者为“p e r s o n 9 掘算法研究 图2 2 从文本中识别出的一个e m p l o y e e - o f 关系 一个事件信息抽取的例子是从恐怖活动新闻报道中识别出恐怖活动的时间、 地点、类型、发起者、攻击的物理目标、攻击的人员目标、对物理目标造成的损 伤、对人员目标造成的伤害、所用的工具等。图2 3 示出了一段关于恐怖活动的 新闻报道和从中抽取出的恐怖活动事件模板。 1 9m a r c h 。ab o m bw e n to f ft h i sm o r n i n gn e a rap o w e rt o w e ri ns a ns a l v a d o r l e a v i n gal a r g ep a r to ft h ec i t yw i t h o u te n e r g y ,b u tn oc a s u a l t i e sh a v eb e e n r e p o r t e d a c c o r d i n gt ou n o f f i c i a ls o u r c e s ,t h eb o m b a ll e g e d l yd e t o n a t e db y u r b a ng u e r r i1l ac o m m a n d o s - b l e wu pap o w e rt o w e ri nt h en o r t h w e s t e r np a r t o fs a ns a l v a d o ra t0 6 5 0 ( 1 2 5 0g m t ) 1 0 , 广 北京邮电大学硕十学位论文。面向w e b 文本的产品意见挖掘算法研究 i n c i d e n tt y p eb o m b i n g d a t am a r c h1 9 l o c a t i o ne ls a l v a d o r :s a ns a l v a d o r ( c i t y ) p e r p e t a t o ru r b a ng u e r r i l l ac o m m a n d o s p h y s i c a lt a r g e tp o w e rt o w e r h u m a nt a r g e t e f f e c to np h y s i c a lt a r g e t d e s t r o y e d e f f e c to nh u m a nt a r g e tn oi n j u r yo rd e a t h i n s t rim e n tb o m b 图2 - 3 一段关于恐怖活动的新闻报道和从中抽取出的恐怖活动事件模板 实际上,作为一种i e 的任务类型,n e i 对最终用户并没有什么直接意义。 但它是关系i e 和事件i e 的基础,后者只有在前者的基础上才能得以实现。所以 本文的直接研究对象是关系i e 和事件i e ,虽然这离不开n e i 的支持。 2 2 2 信息抽取技术, w e b 信息抽取技术有多种分类方式【1 3 1 ,例如根据自动化程度就可以分为人 工方式的信息抽取、半自动方式的信息抽取和全自动方式的信息抽取3 大类。根 据各种工具所采用的原理将现有的工具分为以下5 类:基于自然语言处理方式的 信息抽取、包装器归纳方式的信息抽取、基于o n t o l o g y 方式的信息抽取、基于 h t m l 结构的信息抽取和基于w e b 查询的信息抽取。并在以下部分,对于这些 分类方式,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现 形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较。其中结 构化的数据称为对象;模式的定义方式主要有2 种,信息抽取之前给出对象模式 的称为先模式,反之称为后模式。下面对各种分类依次分析。 1 、基于自然语言处理方式的信息抽取 这类信息抽取主要适用于源文档中包含大量文本的情况( 特别适合于合乎文 法的文本) ,在一定程度上借鉴了自然语言处理技术,利用子句结构、短语和子 句间的关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的 典型的系统有r a p i e r 1 4 1 ,s r v t l 4 1 ,w h i s k 15 1 。下面结合比较典型的系统w h i s k 北京邮i 乜大学硕l 学位论文面向w e b 文奉的产品意见挖掘算法研究 来详细说明这种方式的信息抽取。 w h i s k :该系统既适用于结构化、半结构化的文本也适用于自由文本和半 结构化的文本,所以系统主要是根据语义项的上下文实现感兴趣信息的定位。此 时基本上没有利用到自然语言处理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025内蒙古鄂尔多斯实验室成果转化部招聘3人模拟试卷及参考答案详解一套
- 2025年上半年四川乐山职业技术学院赴四川大学考核招聘10人考前自测高频考点模拟试题带答案详解
- 2025年蚌埠市东方人力资源招聘30人模拟试卷及答案详解(夺冠)
- 2025内蒙古呼和浩特市托克托县补录参加2024年公益性岗位招聘4人考前自测高频考点模拟试题及一套完整答案详解
- 安全培训教室宣传标语课件
- 2025湖北恩施硒茶集团招聘财务人员拟聘对象考前自测高频考点模拟试题及答案详解参考
- 河北省【中职专业高考】2025年中职高考对口升学(理论考试)真题卷【土木建筑大类】模拟练习
- 连带责任保证担保合同范本5篇
- 2025菏泽曹县教育系统公开招聘初级岗位教师(166人)模拟试卷附答案详解(典型题)
- 2025年阜阳界首市“政录企用”人才引进8人模拟试卷及答案详解(考点梳理)
- 企业环保督察迎检工作指南培训
- T/CAQI 96-2019产品质量鉴定程序规范总则
- 2025年共青团入团考试测试题库及答案
- GA 1551.6-2021石油石化系统治安反恐防范要求第6部分:石油天然气管道企业
- 各类机载娱乐系统快速操作指南6.24制
- 徐州的传统民俗
- 服装企业生产工序分析
- 我的暑假生活PPT模板
- 井冈山井冈山-完整版PPT
- 高考语文一轮复习:语言文字运用之句子的表达效果课件45张
- 苏教版小学美术一年级上册全册课件
评论
0/150
提交评论