(管理科学与工程专业论文)网上产品评价的意见挖掘模型研究.pdf_第1页
(管理科学与工程专业论文)网上产品评价的意见挖掘模型研究.pdf_第2页
(管理科学与工程专业论文)网上产品评价的意见挖掘模型研究.pdf_第3页
(管理科学与工程专业论文)网上产品评价的意见挖掘模型研究.pdf_第4页
(管理科学与工程专业论文)网上产品评价的意见挖掘模型研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着b 2 c 商务模式的日趋发展和网络购物的流行,互联网上存储了大量消费 者对产品的评论信息,产品评论信息中蕴含着消费者使用特定商品后所表达的主 观感受。这些评论性文本反映了人们的意见、态度和立场,因而具有宝贵的商业 研究价值:一方面,产品评论信息有助于让生产商知道其产品在消费者心目中的 地位以及受欢迎程度,这能给企业的产品研发部门提供重要的产品改进信息,从 而提高产品的市场竞争力。另一方面,潜在的消费者在做出购买决策前,往往会 参考b 2 c 网上商城中顾客发表的产品评论信息来分析产品的性能并最终做出是 否购买的决定,产品评论信息能有效引导潜在消费者做出购买决定。 本文在文本挖掘和意见挖掘技术的基础上,提出一个w e b 产品评论意见挖掘 模型。本文的产品评论意见挖掘模型第一次将评论文本中的观点语句分为显性极 性观点语句、第一类依赖语境观点语句和第二类依赖语境观点语句。 本文根据不同类型观点语句的特征,采用相应的意见挖掘技术分步进行语义 极性分析。相关的研究很少关注依赖语境观点语句的极性分析,本文的意见挖掘 模型着重分析两类依赖语境观点语句,运用句法规则方法和语境信息提取方法确 定依赖语境观点语句的极性。 最后本文以著名b 2 c 网上商城a m a z o n 中的产品评论作为语料进行实验分 析。而且将本文的模型和相关文献中的意见挖掘模型o p i n i o no b s e r v e r 和f b s 进行 实验结果对比分析,结果表明本文的意见挖掘模型能有效地分析三类观点语句的 极性。 关键词:意见挖掘产品评论文本挖掘模型网络购物 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fb 2 ce c o m m e r c ea n dt h ep o p u l a r i t yo fo n l i n e s h o p p i n g ,t h ew e bs t o r a g e sh u g en u m b e ro fp r o d u c tr e v i e w sc o m m e n tb yc u s t o m e r s p r o d u c tr e v i e w sc o n t a i ns u b j e c t i v e f e e l i n g so fc u s t o m e r sw h oh a v eu s e ds o m e p r o d u c t s t h e s es u b j e c t i v et e x t sr e f l e c tp e o p l e so p i n i o n s ,a t t i t u d e sa n dp o s i t i o n s s o i n f o r m a t i o no fs u b j e c t i v et e x t sp r o v i d e si m p o r t a n tc o m m e r c i a lv a l u e o no n eh a n d , p r o d u c tr e v i e w sc a nh e l pm a n u f a c t u r e r su n d e r s t a n dt h ei m p r e s s i o na n dp o p u l a r i t yo f t h e i rp r o d u c t si nt h ee y e so fc u s t o m e r s t h i sc a s eg i v e sr e s e a r c ha n dd e v e l o p m e n t d e p a r t m e n ti m p o r t a n ti n f o r m a t i o n o n p r o d u c ti m p r o v e m e n t s t oe n h a n c et h e c o m p e t i t i v e n e s so fp r o d u c t si nt h em a r k e t o nt h eo t h e rh a n d ,b e f o r em a k i n ga p u r c h a s i n gd e c i s i o n ,p o t e n t i a lc o n s u m e r so f t e nr e a dp r o d u c tr e v i e w so fb 2 co n l i n e s h o p p i n gm a l lt oa n a l y z eq u a l i t yi n f o r m a t i o na b o u tp r o d u c t sa n dt h e nd e c i d et ob u yo r n o t p r o d u c tr e v i e w sc a l lg u i d ec u s t o m e r st om a k ew i s ed e c i s i o n se f f e c t i v e l y i nt h i sp a p e r , b a s i n go nt e x tm i n i n ga n do p i n i o nm i n i n gt e c h n o l o g y , w ep r o p o s e a l lo p i n i o nm i n i n gm o d e lo fp r o d u c tr e v i e w si nw e b t h en e wm o d e l f i r s t l yc l a s s i f i e s o p i n i o ns e n t e n c e so fs u b j e c t i v et e x t si n t ot h r e et y p e s :c o n t e x ti n d e p e n d e n to p i n i o n s , t h ef i r s tt y p eo fc o n t e x td e p e n d e n to p i n i o n ,t h es e c o n dt y p eo fc o n t e x td e p e n d e n t o p i n i o n a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fd i f f e r e n tt y p e so fo p i n i o ns e n t e n c e s ,w eu s e a p p r o p r i a t eo p i n i o nm i n i n gt e c h n o l o g yt oc o p ew i t hp r o b l e mo fs e m a n t i cp o l a r i t y c u r r e n ts t u d i e so fd e a l i n gw i t hc o n t e x t d e p e n d e n to p i n i o n s a r ed e f i c i e n t t h e p r o p o s e dm e t h o dc o n c e n t r a t e so nt w ot y p ec o n t e x t u a ld e p e n d e n to p i n i o n s w eu s e l i n g u i s t i cr u l e s a n dc o n t e x t u a li n f o r m a t i o ne x t r a c t i o nt oi n f e rt h es e m a n t i c o r i e n t a t i o n so fo p i n i o n s a tl a s t ,w eg e tp r o d u c tr e v i e w sf r o ma m a z o no n l i n e s h o p p i n gm a l la st h e l i n g u i s t i cr e s o u r c et oc a r r yo u te x p e r i m e n t c o m p a r i n gt h ee x p e r i m e n tr e s u l t sw i t h “o p i n i o no b s e r v e r a n d ”f b s ”w ef i n do u tt h ep r o p o s e dm e t h o dc a ni n f e rt h e s e m a n t i co r i e n t a t i o n so ft h r e et y p e so f o p i n i o ns e n t e n c e se f f e c t i v e l y k e yw o r d s :o p i n i o nm i n i n g ,p r o d u c tr e v i e w ,t e x tm i n i n g ,m o d e l ,o n l i n ep u r c h a s i n g 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除己特别 加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工 作的同志对本研究所做的贡献均已在论文中作了明确的说明。 作者签名:j 缉 签字日期:生生垒星 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的 部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允 许论文被查阅和借阅,可以将学位论文编入中国学位论文全文数据库等有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容 和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 口公开口保密( 年) 作者签名:2 雄髯: 签字e t 菇j - 碰:! :! 导师签名: ) 多乃矿 签字日期:釜翌! ! :兰! 尘: 第1 章绪论 第1 章绪论 1 1 研究背景及意义 1 1 1研究背景 随着网络和信息技术的突破性发展,在全世界范围内,i n t e r n e t 得到了广泛 的普及。不断增长的供货能力、全球竞争和客户需求成为现代商业的三大特征。 在这种新趋势下,及时、适时地改变组织结构和运行方式以适应这种全球新趋势 是每个商业组织迫在眉睫的任务。电子商务这种基于互联网、以交易双方为主体、 以电子支付和结算为手段、以顾客数据为依托的全新商务模式在这样的新趋势和 新发展的时代背景下得到了迅速的发展并受到无数组织机构的青睐,它能使商家 与供应商联系得更紧密,客户需求得到更好的满足:也可以使商家通过电子商务 平台在全球范围内快速,准确地寻找最佳供应商和销售自己的产品。 自h p 公司,m m 公司等先后宣布1 9 9 8 年为“电子商务年”以来,电子商务 在全球发展迅猛,平均大约每九个月其交易额将翻一番,全球电子商务交易额( 包 括网上贸易额、销售额等) 达到数千亿美元,电子商务收入剧增2 6 2 。这些数 字既包括企业对消费者( b 2 c ) 销售方式的网上收入,也包括企业对企业( b 2 b ) 销售方式的网上收入。 毋庸置疑,电子商务的飞速发展使得商业组织在商业模式选择上发生翻天覆 地的变化。很多生产商为了扩大销售面,提高市场占有率,都纷纷建立b 2 c 电子 商务平台,以求通过建立网上商务平台的方式来抢夺客户资源,并降低销售成本。 与此同时,互联网的成熟发展,给消费者的生活也带来巨大的改变。我们不再局 限于传统的购物方式,如今通过互联网进入一个b 2 c 网上商城,我们可以浏览各 种不同类别的商品,可以通过搜索导航精确定位自己感兴趣商品,诸如价位、原 料、款式等。越来越多的消费者打破传统的购物方式而选择更方便,商品资源更 丰富的网上购物方式。 随着b 2 c 商务模式的日趋成熟和网络购物的流行,互联网上存储了大量有价 值的信息。我们可以广义地将世晃上所有的文本信息分成两类:事实型信息和意 见型信息。人们对个体、事件以及它们的属性的客观表达就是所谓的事实。而意 见通常是对个人、事件以及他们的属性的主观性表达,意见用来描述人们对某一 事物的情感态度或是评价。在本文中,我们关注的是表达人们积极或消极情感态 度的意见。信息抽取、w e b 搜索、文本分类、文本聚类等现有的关于文本信息处 理的方法注重的是挖掘和抽取事实型的信息,但到目前为止对于意见型信息处理 的研究还很少。但是无论对于个人还是机构,意见型信息具有更重要的价值,因 第1 章绪论 为人们都需要参考别人的意见来辅助自己做出更合理的决策。例如:很多潜在的 网上购物者经常通过浏览并参考别人发表的产品评论来帮助自己做出购买决定。 对意见型信息研究较少的主要原因之一是在互联网流行之前,意见型的文本数量 很少。当个人在做出决策时,他通常会去咨询朋友和家人的意见;当一个机构想 要了解其服务或产品的大众意见时,其通常采用的是意见调查。然而,随着互联 网的飞速发展以及大量互联网用户生成的w e b 文本的产生,整个研究趋势正在逐 步改变。 互联网的发展给人们表达其观点和意见的方式带来了根本性的改革。现在人 们可以通过b 2 c 网上商城对特定的产品发表评论,也可以对论坛( b b s ) 、讨论 区、博客中的任何感兴趣的事物发表自己的观点,即所谓的用户生成内容。这种 在线的“语言代表声音”的行为生成了一种新的可度量的信息资源。如今,如果 人们想购买某个商品,他们不再局限于通过他的朋友和家人得到意见,因为在 w e b 上有许多使用过该产品的顾客已经发表了大量的产品评论信息;对于一个组 织或公司来说,意见调查不再是搜集顾客对产品的反馈信息的唯一途径,因为他 们可以直接通过互联网上顾客的产品评论获得很多关于自身产品和其竞争对手 产品的评价信息。 b 2 c 商务模式的日趋成熟和网络购物的流行导致互联网上存储了大量消费 者评论产品的评价信息,这些产品评论中蕴含着顾客使用了商品后所表达的主观 感受。这些评论信息具有宝贵的商业研究价值,是因为他们反映了消费者对产品 的质量、性能、价格等各个方面的意见、态度和立场。比如:产品评论信息有助 于让生产商知道其产品以及产品的哪些性能在消费者心目中的地位以及受欢迎“ 程度,这能给企业的产品研发部门提供重要的产品改进信息,保持处于优势地位 的产品特性,改进不足的产品性能,从而提高产品的市场竞争力;同时企业还可 以通过w e b 产品评论去挖掘其竞争对手的产品评论信息,这为企业制定有效的市 场战略决策提供了重要的情报参考。另一方面,潜在的消费者通常会参考网上商 城中顾客发表的产品评论信息来分析其想购买的产品的性能,这样的话,产品评 论信息能有效引导潜在消费者的购买决定。从海量的评论信息中挖掘有价值的信 息至关重要,基于此,意见挖掘技术孕育而生。 1 。1 2 研究意义 电子商务的飞速发展使得商业组织在商业模式选择上发生翻天覆地的变化。 很多生产商为了扩大销售面,提高市场占有率,都纷纷通过b 2 c 电子商务平台, 通过网上商务平台的方式来抢夺客户资源,并降低了销售成本。与此同时,互联 网的成熟发展,给消费者的生活也带来巨大的改变。我们不再局限于传统的购物 方式,如今通过互联网进入一个b 2 c 网上商城,我们可以浏览各种不同类别的商 2 第1 章绪论 品,可以通过搜索导航精确定位自己感兴趣商品,诸如价位、原料、款式等。越 来越多的消费者打破传统的购物方式而选择更方便,商品资源更丰富的网上购物 方式。 b 2 c 商务模式的日趋成熟和网络购物的流行导致互联网上存储了大量消费 者评论产品的评价信息,这些产品评论中蕴含着顾客使用了商品后所表达的主观 感受。这些评论信息具有宝贵的商业研究价值,是因为他们反映了消费者对产品 的质量、性能、价格等各个方面的意见、态度和立场。比如:产品评论信息有助 于让生产商知道其产品以及产品的哪些性能在消费者心目中的地位以及受欢迎 程度,这能给企业的产品研发部门提供重要的产品改进信息,保持处于优势地位 的产品特性,改进不足的产品性能,从而提高产品的市场竞争力;同时企业还可 以通过w e b 产品评论去挖掘其竞争对手的产品评论信息,这为企业制定有效的市 场战略决策提供了重要的情报参考。另一方面,潜在的消费者通常会参考网上商 城中顾客发表的产品评论信息来分析其想购买的产品的性能,这样的话,产品评 论信息能有效引导潜在消费者的购买决定。 网上商城中的评论信息蕴藏着巨大的商业价值,人们已经开始重视挖掘这部 分潜在信息的研究,并且已经在现实的商业活动中应用了所挖掘出来的意见信 息。在这样的趋势下,意见挖掘这一新兴的研究领域成为研究的热点。 本文在意见挖掘领域相关研究的基础上,提出一个新的意见挖掘模型,并将 该模型运用在挖掘网上商城的产品评论中。 1 2 国内外研究现状 1 2 1 国外研究现状 意见挖掘是目前的一个研究热点。随着b 2 c 网上商城、博客等飞速发展并受 到广大因特网用户的青睐,互联网中蕴藏着大量顾客产生的主观性意见。挖掘此 类意见型信息对各个参与商业活动的组织都具有重要的商业价值。比如:挖掘网 上商城中各种商品的评论信息,提取用户对特定商品的反馈意见信息。意见挖掘 以文本挖掘技术为基础,并将文本理解和自然语言处理的相关技术应用在意见挖 掘中,专业性更强。 目前,意见挖掘在国外研究的比较活跃。情感分类、比较型语句挖掘、基于 特征的意见挖掘和摘要、意见检索和垃圾意见检测是意见挖掘的重要子领域b l i u ( 2 0 0 6 ) 。本文下面分别介绍每一个子领域的研究现状。 情感分类是目前研究最热的领域。将一个意见型文本分类为积极的或消极的 意见,该任务被称为基于文档层的情感分类。因为它把整个文档看作是一个基本 的信息单位。同样情感分类可以运用在语句层面,语句主观性分类是将语句分为 3 第1 章绪论 意见型的和非意见型两类的过程。意见型的语句可进一步分为表达积极的或消极 的意见,即语句层面的情感分类。 pt u r n e y ( 2 0 0 2 ) ,kd a v e 和bp a n g ( 2 0 0 2 ) 的研究在文档层的情感分类方面 具有一定的权威性和代表性。p t u m e y ( 2 0 0 2 ) 提出一个简单的无监督学习算法, 将评论文档分为积极的和消极的,他利用p m i i r 方法将评论文档进行情感分类。 在这个过程中,包含形容词或副词的短语被提取出来并利用p m i i r 方法来计算 每个短语的语义极性。将e x c e l l e n t 和p o o r 作为基本词来计算p m i ,最后 该评论文档的极性可由累加文档中所有短语的极性得到。如果文档中被提取出来 的词的平均语义极性是积极的,则该评论被分类为积极的,反之,若该文档中的 词的平均语义极性是消极的,则该评论被分类为消极的。pt u m e y ( 2 0 0 2 ) 对 e p i n i o n s 网站上的4 1 0 篇涉及不同领域( 对手机、银行、电影等) 的评论文档作为 实验语料,该算法能平均达到7 4 的精确度。 在基于话题的文本分类中最常用的是机器学习方法,我们可以把文档层的情 感分类看作是一个文本分类的特殊情况,因此机器学习方法同样能运用在情感分 类中。bp a n g ( 2 0 0 2 ) 对整篇文档进行褒义和贬义的训练和分类时,分别利用朴 素贝叶斯、最大熵分类和支持向量机三种分类算法。w h i t e l a w ( 2 0 0 3 ) 将评估方 法应用到bp a n g 的机器学习方法中,通过人工构建评价资源,他们能进一步改进 分类的准确率。 下面进一步分析语句层的情感分析,主观型语句的判别方法在 h a t z i v a s s i l o g l o u ( 2 0 0 0 ) 中得到了实现。他们在进行主观性分类时考虑动态形容 词、语义倾向的形容词、可分等级的形容词对分类效果的影响。sk i m ( 2 0 0 4 ) , mh u ( 2 0 0 4 ) 和w i e b e ( 2 0 0 5 ) 研究语句层的意见极性分类。对语句层进行分类 时他们采用自动或半自动的方法,通常是通过单词或短语进行情感识别,而基于 语料库的方法和基于词典的方法就是最常用的两种方法。pt u m e y ( 2 0 0 2 ) 的研 究中使用了基于语料库的方法。基于词典的方法在mh u ( 2 0 0 4 ) 和sk i m ( 2 0 0 6 ) 的得到了使用。 基于特征的意见挖掘和摘要研究的更深入更细致,比如具体到用户对一个对 象的几个方面的褒贬性态度。mh u ( 2 0 0 4 ) 通过识别顾客评论的产品特征并且 根据它竹丁在评论中出现的频率来进行排序。对于每个特征,识别其对应的有多少 积极和消极的观点。mh u 的目的是挖掘并概括某一产品的所有顾客评论,这个 摘要过程不同于传统的文本摘要,只需要挖掘顾客所发表观点的产品的特征并确 定意见的褒贬性。该方法包括三个步骤:第一,利用数绝挖掘和自然语言处理技 术来挖掘顾客所评论的产品的特征。第二,对每一个评论,利用w o r d n e t 识别观 点语句所包含的观点词的极性,最终计算并确定每条观点语句是积极或消极的。 4 第1 章绪论 第三,利用得到的信息生成每一个产品特征的意见摘要。bl i u ( 2 0 0 5 ) 首次提 出一种基于语法规则从特定类型的评论集中提取产品特征。设计出分析和比较竞 争性产品的顾客评论信息的摘要系统o p i n i o no b s e r v e r ( 2 0 0 5 ) ,用户可以通过可 视化的系统界面清楚的看到特定产品对应的产品特征在顾客心中存在的优势和 劣势。p o p e s c u ( 2 0 0 4 ) 和c a r e n i n i t ( 2 0 0 5 ) 基于相关研究的基础上,创造新的方 法继续深入地研究基于特征的意见挖掘和摘要。 比较型语句表达了对于两种实体在某些共同特征方面的特定的关系,识别比 较性语句是更直接的评价手段。在这一方面,j i n d a l 和bl i u ( 2 0 0 6 a ) ( 2 0 0 6 b ) 在研究中首先将比较性语句分为不同的类型,然后提出一个新的完整的规则发现 和监督学习方法从文本文档中识别比较性语句。对意见检索和垃圾意见检测方面 的研究目前还很少,j i n d a l 和bl i u ( 2 0 0 8 ) 只是简单涉及了这一领域。 1 2 2国内研究现状 国内在汉语意见挖掘领域的研究跟国外的研究相比起步比较晚,但还是取得 了积极的成果。 在文档层的情感分类方面,姚天防和彭思崴( 2 0 0 7 ) 在文中首先介绍了主客 观文本的定义,接着根据对大量的主客观文本的观察和分析,并结合主观性文本 的特点的基础上,提出了将情感形容词、第一或第二人称代词、不规范的标点符 号等六个方面特征作为预选的主客观文本分类特征。实验中通过选择稳定的分类 特征并把它们应用于w e k a 工具的四种分类算法中。试验结果表明提出的分类特 征是合理和有效的。唐慧丰( 2 0 0 7 ) 运用比较的方法在分类算法和训练集等方面 对汉语文本进行情感分类。刘全升( 2 0 0 8 ) 分析了主观性文本的定义和特点。刘 永丹( 2 0 0 4 ) 将文本倾向性识别引入到文本过滤工作中。 对语句层的意见极性分类的研究中,娄德成和姚天叻( 2 0 0 6 ) 提出了识别主 题和主题极性的改进后的s b v 极性传递算法,该方法介绍了识别汉语语句主题和 主题与情感描述项之间的关系以及计算主题的语义倾向( 极性) 。姚天防( 2 0 0 7 ) 利用领城本体来抽取语句主题以及它的属性,通过句法分析来最终确定语句中每 个主题的极性。金珠和林鸿飞( 2 0 0 7 ) 将h o w n e t 中的情感体系应用在分析新闻 报道中主观型语句。 在汉语极性词方面的研究中,y u e n ( 2 0 0 2 ) 在t u m e y ( 2 0 0 3 ) 较早地研究汉 语极性词的自动获取。t s o u 矛t j y u e n ( 2 0 0 5 ) 在此基础上以新闻报道为语料进行褒 贬性分类。基于h o w n e t 的语义相关场和语义相似度两种方法在朱嫣岚等( 2 0 0 6 ) 中首次提出,通过这样的方法来计算词汇语义的倾向性。 在基于特征的意见摘要方面,姚天防( 2 0 0 6 ) 在研究中以汽车评论为语料, 构建了一个关于汽车评论的意见挖掘系统。黄小江等人( 2 0 0 8 ) 通过支持向量机 5 第1 章绪论 分类算法重点研究了汉语比较型语句的特征。徐琳宏和林鸿飞( 2 0 0 8 a ) ( 2 0 0 8 b ) 在语料库的构建方面,采用相关方法构建了情感词汇本体库和情感语料库。 1 3 论文的主要工作 随着电子商务技术的迅猛发展矛i l b 2 c 网上商城购物方式的流行,w e b 中存储 了大量消费者生成的蕴含巨大商业价值的产品评论文本。本文以b 2 c 网上商城的 w e b 产品评论为研究对象,讨论了b 2 c 网上商城中消费者生成的w e b 产品评论的 特点、现实商业价值。 语义极性分析是意见挖掘领域的研究热点,但是相关的关于产品评论极性分 析的研究主要存在以下两个方面的局限: 1 仅仅利用w o r l d n e t 等语义词典分析观点词的极性来判断观点语句的褒贬 性。这在一定程度上能取得积极的效果。但是,在现实的w e b 产品评论中,考虑 到评论文本书写的随意性和观点词在不同的语境中表达不同的语义,仅仅通过利 用词典分析观点词的极性去确定观点语句的语义极性存在一定的局限性,达不到 较高的准确率。 2 相关的语义极性分析的研究比较多的关注显性极性的观点语句,很少涉及 依赖语境观点语句的语义极性分析。这样就不能全面真实的挖掘出特定产品所对 应评论信息。 本文在文本挖掘和意见挖掘技术的基础上,构建一个w e b 产品评论意见挖 掘模型,分析评论文本中观点语句的语义极性。虽然本文的工作任务也是确定观 点语句的语义极性,但模型所要挖掘的对象和采用的挖掘方法和之前的研究存在 区别: 一方面,在挖掘对象上,与其他的语义极性分析的相关研究不同,本文首 先将观点语句分为三种类型:显性极性的观点语句、第一类依赖语境观点语句、 第二类依赖语境观点语句。这就能使本文的意见挖掘模型分步骤地处理这三类观 点语句。 另一方面,本文综合利用语义词典方法、句法规则分析和外部语境信息抽 取的方法来分析观点语句的极性,并重点分析怎么确定两类依赖语境观点语句的 语义极性。 在实验部分,选取著名的b 2 c 网上商城a m a z o n 为实验分析对象,并且选 择同类竞争性商品的产品评论作为实验语料。一方面能验证本文提出的模型的准 确率,另一方面可以直观地比较同类产品之间孰优孰劣。 本文的意见挖掘思想有以下两个创新的方面: 1 在相关研究的基础上,本文总结产品评论中观点语句的特点和语言语法 6 第1 章绪论 规则,第一次将观点语句分为显性极性的观点语句、第一类依赖语境观点语句、 第二类依赖语境观点语句。 2 意见挖掘是目前的研究热点,分析观点语句极性更是被很多学者研究, 但是分析依赖语境观点语句的研究甚少。本文提出的意见挖掘模型的工作重点是 分析依赖语境的观点语句,利用句法规则、提取语境信息方法并结合语义相似度 去分析依赖语境观点语句的语义极性。 1 4 论文的结构 第一章:绪论。介绍了意见挖掘的研究背景和研究意义,并简要介绍了国 内外在意见挖掘领域的研究现状。随后概括介绍了本文的主要工作和创新点。 第二章:回顾了w e b 文本挖掘基本理论和技术。 第三章:回顾意见挖掘基本理论和技术。 第四章:提出网上商城产品评论的意见挖掘模型,分步分析三种类型的观点 语句的语义极性。并且给出了本文的意见挖掘模型在挖掘a m a z o n 网站产品评论 中的实验分析。 第五章:结论与工作展望。总结了全文的优点和不足,并对意见挖掘领域的 研究前景进行展望。 7 第2 章文本挖掘技术概述 第2 章文本挖掘技术概述 2 1文本挖掘概述 2 1 1文本挖掘的概念 随着信息技术的迅速发展,w e b 中存储了大量的用户信息。怎样在繁杂的信 息海洋中找到并挖掘出对自己有用的信息? 在这种需求目的驱动下,文本挖掘作 为数据挖掘一个新的子领域开始兴起。面向非结构化和半结构化文本数据是文本 挖掘在数据挖掘研究基础上的一个自然延伸。文本挖掘及建立在其基础上的文本 管理的最大困难是海量的文本信息。文本挖掘( t e x tm i n i n g ,a m ) 要从文本或文 本集中发现和挖掘归纳出有效、创新、有用和最终可理解的模式的非平凡过程。 传统的信息检索技术已经不适应日益增加的大量文本数据处理的需要。典型 的大量文档中只有很少一部分与某一个体或用户相关。而不清楚文档中的内容, 就很难形成有效的查询,从数据中分析和提取有用的信息。用户需要有关的工具 完成不同文档的比较,以及文档重要性和相关性排列,或找出多文档的模型或趋 势。因此,文本挖掘就成为数据挖掘中一个日益流行而重要的研究课题。 文本挖掘通过利用一些智能算法,比如神经网络、可能性推理、基于案例的 推理等,并结合文字处理技术,分析大量的非结构化文本源( 如文档、电子表格 等) 抽取或标记关键字概念,文字间的关系,并按照内容对分档进行分类,。获取 有用的知识和信息。文本挖掘涵盖了多种技术,包括信息抽取、信息检索、自然 语言处理、机器学习和数据挖掘技术等。 2 1 2文本挖掘主要技术 苏新宁等( 2 0 0 3 ) 认为获取文本的内容特征是文本挖掘的首要任务。文本挖 掘的主要技术包括: 1 特征抽取:一般特征和数字特征是最重要的文本特征,名词和名词短语 多为一般特征;日期、货币、时间等数字信息属于数字特征。 2 主题标引:在标引文本方面,传统的关键词标引技术的效果不是很理想。 引入主题词标引在一定程度上能提高文本标引的质量,从而能为改善文本的检索 效果起到积极的效果。 3 文本分类:文本分类是指根据文本的内容;确定该文本是归属于预先定 义的类别中的哪一个类别。在进行文本分类时,特征抽耿和特征选择是两个很重 要的步骤,然后利用分类算法进行分类。 8 第2 章文本挖掘技术概述 4 文本聚类:以某种算法为基础,把一组文本划分为多个类别的过程称为 文本聚类。文本聚类是一个无监督的过程,可通过计算文档间的文本相似度进行 聚类。 5 自动摘要:自动摘要是对文章的结构进行自动分析,通过整理和归纳将 文本生成文摘的形式。面对互联网的海量数据,人工摘要工作量大且效率较低。 因此,对于处理网络信息,自动摘要起到了重要的作用。 2 1 3 文本挖掘一般过程 文本挖掘过程通常包括以下几个子过程:文本准备、特征标引、特征集缩减、 知识模式的提取、知识模式的评价、知识模式输出。如图( 2 1 ) 所示。 文本特征引特征集知识模 知识模 知识模 用 缩减 + 式提取 式评价 式输出 图2 1 文本挖掘过程 1 对文本进行预处理的过程就是文本准备。确定并处理文本的数据源是得 到用于进一步分析的文本的必要前提。 2 生成文本内容特征的过程就是特征标引,文本的特征表征是通过系统自 动选取一组关键词。 3 自动从原始特征集中提取部分特征的过程就是特征集缩减。挖掘工作的 很大的难度主要在于特征集包含的特征过多,以不影响挖掘准确度为前提,尽量 减少特征的数量将是一项关键的工作。 4 对文本中实体之间的概念关系以及其它隐含知识的发现过程就是知识模 式的提取。 5 从已经抽取出的知识模式集合中选择对用户有价值的知识模式叫做知识 模式评价。 6 将挖掘得到的知识模式最终提交给用户就是知识模式输出。 2 2 文本预处理 2 2 1特征选择 滤除停用词、词缀处理等是英文文本的特征提取工作的主要步骤。汉语中词 与词之间没有分隔符号是汉语与英语的不同之处,因此分词处理是中文文本挖掘 中一项必要的工作。中文信息处理研究的热点和难点问题就是自动分词,其在理 论和实用技术上仍存在很多不成熟的地方。对中文文档自动分词被很频繁地研 9 第2 章文本挖掘技术概述 究,并提出了许多分词方法。基于词典的机械分词是使用较广、也较为成熟的方 法。但是,机械分词仍然存在一定的缺陷,例如对词典覆盖率有限和对应用领域 适应性较差。因此,研究无词典分词方法的工作迫在眉睫,争取能不依赖词典就 能在文档中提取出词。利用汉字的结合模式在文档中重复出现的次数,来判断这 个结合模式是否可被视为一个词就是无词典分词算法的主要思想。 2 2 2 文本表示 进行文本挖掘的基础是用简单而准确的方法将文档表示成计算机能够处理 的形式。最经典的文本形式化方法是s a l t o m ( 1 9 7 5 ) 等人提出的向量空间模型 ( v s m :v e c t o rs p a c em o d e l ) ,该方法目前已经在包括文本挖掘的多个领域中进行 应用。把一组正交的特征词( f ,f :,t 。) 作为维向量,该向量是构造表示文档主题 的n 维向量空间的基础。这一方法过程就是v s m 方法的关键。文本的特征向量 ( w ,1 ,:,w 拥) 是各个特征词在文档中的权重,用于表示文档西。通过t f i d f 函数 计算文本特征的权值作为特征向量: ( 2 1 ) 其中,矿f ,表示词条,_ ,在文本a f 中出现的次数,集合d 中包含词条的 文本数量表示为甩,文本集合d 中的文本总数量用n 表示。其本质是取词条,在 样本中的总频数t f 。为权值,再用i d f 因子1 。g 矿+ o 0 1 ) 乘以t f 。,这样就能抑制通 用性词条,把区分度高的词条突出出来,公式中对特征向量的权值进行归一化处 理,这能有效地消除文档的不同长度给结果造成的影响。 一般情况下,词频是表示文本的向量空间模型的基础,但是不同的人有不同 的喜好,常常会使用不同的词语来表达同一个意思,如有人愿意用“结账”一词, 而有人喜欢用“买单一词。因此,仅仅依靠特征词的重复而产生的频率信息是 远远不够的。提高相近文档的识别能力的有效手段便是将特征项映射到概念级。 对于文本特征向量d f 一( w i l ,w i 2 ,w i n ) 及d _ ,一( w j l ,w j 2 ,w i n ) ,主要用 如下三个方法来衡量d f 与d _ ,之间的相似性: 夹角余号玄: 2网dl网djs(di,dj) 2 七量1 ( w i k w 业) 2 , 2 网2 七:1 业 2 2 街区距离: d ( d d ) = 1 w 聃一w 止l 2 欧式距离: 1 0 第2 章文本挖掘技术概述 d ( d ,d ,) 2 荟( w 汝一w j k ) ( 2 4 两篇文档之间的相似性可通过夹角余弦的计算结果来反应,两篇文档之间的 距离可通过街区距离和欧氏距离的计算结果来反应,对于给定的文档集合s ,定 义其中心向量c : 扣高荟d 汜5 ) 即集合s 中的所有文档向量的权重的平均值就是中心向量的每个特征维度的 权值。这样的话,我们可以使用夹角余弦、街区距离等公式计算文档与类别的相 似性。比如使用夹角余弦公式,计算方法为: c o s 姚一力2 斋 旺6 ) c o s 姚( ) - 幽 7 ) 2 3 文本分类 文本分类就是基于预先定义好的类别,根据文本的内容将文本自动分配给某 一个类。文本分类是学术研究的一个热点领域,存在很多成熟的分类方法,如基 于文本特征向量的方法,基于网络技术的方法等。 基于文本特征向量的分类算法的主要思想包括以下三个方面: 1 、构建每一个待分类文本的规范化特征向量; 2 、构造预定义类别的规范化特征向量; 3 、文本特征向量与类别特征向量的相似度可以利用余弦法来计算,并用相 似度值来评价待分类文本和每一预定义类别特征之间的相关性: 简单向量距离分类算法、逝邻算法、支持向量机算法等是目前存在的基于 向量空间模型的训练算法和分类算法。文本分类的基本思想如图( 2 2 ) 所示。 第2 章文本挖掘技术概述 图2 2 文本分类过程 2 3 1简单向量距离分类算法 简单向量距离分类算法的原理是针对每类文本集,利用算术平均生成一个能 用中心向量来代表该类别。首先要确定该新文本的向量,然后分别计算该向量与 每个类别的中心向量间的距离,根据距离值的大小将文本归属于与该文本向量距 离最近的类别。该算法的具体步骤如下: 1 依据所有训练文本向量简单的算术平均,来计算并确定每类文本集的中 心向量。 2 通过分词这个步骤后,才能将新文本表示为特征向量; 3 新文本特征向量和每类中心向量之间,我们需要计算其相似度; 4 根据每类中心向量与新文本的相似度值,确定与该新文本相似度最大的 类别,即将文本归属到该类别中。 2 3 2 k 近邻算法 在k 近邻算法中,n 维空间中的一个点对应每个文本。对于一个待分类的测 试文本时,找出最接近待测文本的k 个“近邻 是该方法的关键步骤。若k 个“近 邻”中多数文本属于某一个特定的类,就把测试文本划分到该类。临近性可以使 用 如( d 。,d :) 一:1 w ( d 1 ,f 七) 一w ( 刀2 一于力l ( 2 8 ) 欧式距离来定义。假设共有m 类样本存在于x 的邻近区域集合,每个样本的 训练文本数可以表示为后。且尼,一七,f ,o ) = 尼,f = 1 ,门称为判别函数,将文本x 归为厂类的前提是7 ,( x ) = m a xk ,。 1 2 第2 章文本挖掘技术概述 对每一个待分类文本,k n n 算法都要计算它与全体己知样本的距离,才能 得到它的k 个近邻点。这是k n n 算法最大的缺点。 2 3 3 朴素贝叶斯算法 利用贝叶斯定理分别计算文档属于每一个类别的概率是朴素贝叶斯算法的 原理,最后选取概率值最大的那个类别,即是文本归属的类别。m c c a l l u m 和n i g a m ( 1 9 9 8 ) 的朴素贝叶斯分类显示了较好的效果。朴素贝叶斯算法的具体步骤如下: 首先,利用贝叶斯定理转换类别对于文档的后验概率: 驯d ) ,丝掣 ( 2 9 ) 其中,d 表示文档,c j 是第f 个类别。文档属于类别c ,的概率由e ( c ,i d ) 的 值表示。类别c ,的先验概率用e ( c ,) 表示,在这里所有类别是等概率,这是个必 要的假设。文档的先验概率用户( d ) 的值表示。在给定类别c ,的条件下,产生文 档d 的概率用尸( di c ,) 的值表示。 其次,运用向量空间模型将文档d 表示为一组特征向量q 。,f :,z 。) o 最终文档d 的类别由概率值最大的类别决定。 2 3 4支持向量机算法 v a p n i k ( 1 9 9 5 ) 等人提出了支持向量机算法( s v m ) 。s v m 属于监督学习算法, 在这类算法中,为学习机提供一个样本集及其相应的分类标识。与决策树一样, 样本以属性向量的形式提供,所以输入空间是r n 的子集。通过学习算法,对分类 有较好区分能力的支持向量可通过s v m 自动寻找得到,构造出的分类器具有较 高的分准率和较强的适应能力,因为它能将类与类的间隔最大化。 寻找一个超平面是该算法的主要目的,通过该超平面可以分开训练集中的数 据。v c 维理论和结构风险最小原理是支持向量机算法的理论基础,根据有限的 样本信息在对特定训练样本的学习精度和无错误地识别任意样本的能力之间寻 求最佳折衷。其优点包括如下几个方面: 1 它对有限样本的情况效果比较好,力求能不仅仅在样本数趋于无穷大时 达到最优值,更要在现有信息下得到最优解; 2 将待处理问题转化成为二个二次型寻优问题是该算法的一大特征,二次 寻优问题最后能得到全局最优点,与神经网络方法相比较,它很好地弥补了局部 极值问题; 3 通过非线性变换,算法将实际问题转换到高维的特征空间,该算法更巧 妙地解决了维数问题。 4 当定义了不同的内积函数时,s v m 算法就可以对多项式逼近、径向基函 1 3 第2 章文本挖掘技术概述 数( r a d i a lb a s i cf u n c t i o n ) 7 弓- 法、贝叶斯分类器等许多现有学习算法进行实现。 2 4 文本聚类 2 4 1 文本聚类概述 聚类分析是一种探查数据结构的工具。聚类分析的核心是聚类,将物理或抽 象对象的集合分组成为由类似的对象组成的多个类的过程称为聚类。即将对象划 分为多个簇,使得同一个簇里的对象要尽可能的相似,而不同簇里的对象相异。 可以通过某些度量( 如特征、属性) 或与其他对象的关系( 例如,相似性、逐队 距离) 来描述对象。聚类和分类不同,它不需要假定用先验标识符来标识数据类 别标号。因此,聚类是一个非监督学习过程,而分类属于监督学习技术。 基于对急剧增长的数据加以组织和从数据中发现有价值信息的需要,使得聚 类成为一个非常活跃的领域。不采用概括技术,人们很难从充斥着大量信息的数 据库中发现有用的知识。基本的统计量或直方图可以提供对于数据的初步感觉。 然而,聚类分析可以揭示对象之间、特征之间以及对象和特征之间的错综复杂的 关系。 通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式, 以及数据属性之间的有趣的相互关系。聚类分析已经广泛地应用在许多领域中, 包括模式识别、数据分析、图像处理、机器学习、人工智能和市场研究等。文本 聚类的基本过程如图( 2 2 ) 所示。 通常情况下,可以将聚类算法分为以下几类: 1 、基于划分的方法 给定一个包含n 个数据对象的数据库,以及要生成的簇的数目k ,一个划分类 的算法的目标就是要将数据对象组织划为k 个划分( k 小于等于n ) ,其中每个划分 代表一个簇。换句话说,它将数据划分为k 个组,同时满足以下两个条件:1 每 个组至少应该包含一个对象;2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论