(管理科学与工程专业论文)基于意见挖掘的电子商务网站评价研究.pdf_第1页
(管理科学与工程专业论文)基于意见挖掘的电子商务网站评价研究.pdf_第2页
(管理科学与工程专业论文)基于意见挖掘的电子商务网站评价研究.pdf_第3页
(管理科学与工程专业论文)基于意见挖掘的电子商务网站评价研究.pdf_第4页
(管理科学与工程专业论文)基于意见挖掘的电子商务网站评价研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(管理科学与工程专业论文)基于意见挖掘的电子商务网站评价研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着互联网的商业化发展,电子商务网站如雨后春笋般涌现,竞争日趋激烈。 网站投资者们希望知道网站的运营状况、实力、潜力等以便投资;网站经营者希 望知道网站所受用户的欢迎程度,网站的成功及不足之处;消费者需要寻找最好 的网站,力求以最少的支出获得最大的价值和最好的服务。 要想解决好上述问题,就需要有科学有效的方法对电子商务网站进行综合 评价,以此作为比较网站相对优劣和指导网站建设的重要依据。传统的评价方法 有很多,目前通用的主要有网站流量指标统计、专家评价和问卷调查法等,但是 总体来说都因主观性因素太强,缺乏说服力。 本文中,我们提出一种基于意见挖掘的方法。通过挖掘互联网上顾客留下的 评论性文章,统计出关于其中关于电子商务网站指标的客观评价。为了提高挖掘 的准确率,本文使用m r a ( m u t u a lr e i n f o r c ea p p r o a c h ) 方法,通过对统计出 的主题词和情感词反复聚类,建立起语义相关集。语义相关集发现了词语间的潜 在联系,并以此为参照对整体的评价文本库进行挖掘,这种做法一方面提高了准 确率,另一方面由于很好的识别出主题缺省语句,所以兼顾到了召回率。本文的 新颖之处,在于首次完全从顾客的角度出发,建立以顾客中心的电子商务网站评 价,其结果相比传统方法更加客观且更具说服力。 实验结果表明,语义相关集参照下的意见挖掘,统计出的主题词和情感词词 对,具有较高的准确率,召回率也在可以接受范围之内,真实反映了顾客对网站 的评价。因此,本文建立的电子商务网站评价意见挖掘模型是合理、有效的。 关键字:电子商务网站评价意见挖掘m r a 语义相关集 ab s t r a c t w i t ht h ep o p u l a r i z a t i o na n dd e v e l o p m e n to fi n t e r n e t , a san e wb u s i n e s s m e t h o d o l o g y ,e b u s i n e s sw e b s i t e s a r ea t t r a c t i n gt h ea t t e n t i o no fp u b l i ca n ds p r i n g i n g w i t hf i e r c ec o m p e t i t i o n h o wt om a k et h ew e b s i t e si n v i n c i b l ea n dh o w t oh e l pt h e p o t e n t i a lc u s t o m e r sm a k ed e c i s i o n s ? t h eo n l yw a y i st om a k eac o m p r e h e n s i v ea n d a c c u r a t ee v a l u a t i o no ft h es i t e s m a n yt r a d i t i o n a la p p r o a c h e sh a v ed o n et h i sj o b ,w h i c h a r em o s t l yq u a l i t a t i v ea n d s u b j e c t i v e i nt h i sp a p e r ,w ep r o p o s ean e wa p p r o a c hb a s e do no p m l o nm l m n g t h r o u g ht h er e v i e w sc u s t o m e r sh a v ep o s t e dw ec a r lm i n i n gt h ee v a l u a t i o no fv a r i o u s w e b s i t e i n d e x e sq u a n t i t a t i v e l y t oi m p r o v et h ea c c u r a c yo ft h em i n i n gr e s u l t sw eu s eaa p p r o a c hc a l l e d m r a ( m u t u a lr e i n f o r c e m e n ta p p r o a c h ) t oc o n s t r u c ta s e n t i m e n ta s s o c i a t i o n d i f f e r e n t f r o mt h ev a s tm a j o r i t yo fo p i n i o nm i n i n gm e t h o d sc e n t e r i n go nm i n i n ge x p l i c i t f a c t o r o p i n i o np a i r s ,t h em r a c a l lm i n i n gi m p l i c i tp a i r se f f e c t i v e l yb a s e do nt h e p r e c o n s t r u c t e ds e n t i m e n ta s s o c i a t i o ns e t t h eb i g g e s tf l a s hp o i n to fo u re v a l u a t i o n a p p r o a c hi st h a ti t i sc u s t o m e r o r i e n t e da n dt h e r e f o r em o r ec r e d i b l ea n dt r u s t w o r t h y t h a nt r a d i t i o n a la p p r o a c h t h ee x p e r i m e n t a ls t u d ya n de v a l u a t i o ns h o wt h a tt h er e s u l t s b yt h ep r o p o s e da p p r o a c ha r e c o n s i s t e n tw i t ht h et r a d i t i o n a la p p r o a c hb u tm o r e r e l i a b l e k e yw o r d s :e b u s i n e s sw e b s i t e se v a l u a t i o n ,o p i n i o nm i n i n g ,m r a ,a s s o c i a t i o ns e t i l 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名: 耻 签字日期: 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签字日期: 导师签名:呈! 主 签字日期: 第一章绪论 第一章绪论 11 研究背景与意义 1 11 研究背景 二十世纪七十年开始,信息理论和信息技术快速发展社会渐渐迈入了信息 时代,人们在生产和生活中对信息的依赖闩趋强烈。二十世纪九十年代后,互联 阿技术和计算机软硬件技术得到飞跃式发展,随着个人电脑普及,接入互联网的 用户数量迅速增长,互联网蕴台数据量也以几何级数增长。 w e b 2o 的提出并广泛应用于实践,彻底揭开了互联网神秘的面纱。任何接入 网络的电脑都可以轻松自由的访问到世界各地的信息,互联网所蕴含的信息量开 始了爆炸式的增长。一方面,各大网站不断扩充自己的信息量,以求争夺传统纸 质媒体的用户资源;另一方面,w e b 20 时代的用户会以互联网为平台,构建自 己的社会关系,他们不仅仅只是信息的被动接受者。更是信息的生产者和传播者。 博客、论坛和b b s 等应用的蓬勃发展也从侧面说明了这么一点。 2 0 0 9 年6 月c n n i c ( 中国互联网络信息中心) 发布了第2 4 次中国互联 网络发展状况统计报告,报告内容显示,我国的网民数量增长迅猛,2 0 0 9 年上 半年网民总体规模已达到33 8 亿相比2 0 0 8 年底增长了1 34 上网普及率也 达到2 5 5 。如下图l1 所示,我国网民规模持续扩大,互联同普及率平稳上升。 潲俐7 2 0 0 5 22 0 0 0 c o o 20 一一2 122 c e2 0 0 8 - :2 ,c le f q e 一j 骈口e ,i c f b - k w w wc cc n - 2 0 0 9 0 6 雷1 1 中国大陆同民规模与互联网普及率 |耋揣肼毒薹倘辨 第一章绪论 1 1 2 论文的研究意义 随着互联网的商业化发展,电子商务的概念被应用于实践,电子商务网站大 批量出现,竞争也日趋激烈。投资者需要知道网站的实力、潜力等以便决定投资; 网站运营商需要了解网站的用户忠诚度,优势和不足;消费者希望选择最好的网 站,以便花费最少的支出获得最大的价值或最好的服务。要解决好以上问题,就 需要建立科学有效的评价体系对电子商务网站进行综合评价,进而比较网站相对 优劣,指导网站的未来建设。 传统上,网站经营者和消费者间信息沟通不畅,消费者了解到的多是对网站 较积极的介绍,负面评价却很少见到。电子商务网站评价,在一定程度上解决了 上述问题。通过中立的第三方评价结果,消费者可以获得对网站较全面合理的了 解,因此降低了搜寻成本,可以快速选择合适的网站进行商务活动。比如,在选 择网站购物时,消费者可根据网站评分结果,对产品的价格、质量,物流派送等 各方面进行比较,据此找到自己最需要的网站,买到价廉物美的产品。 传统的评价方法有很多,从评价所需的数据资料和获取资料的方法来看,目 前通用的有三种,即网站流量指标统计、专家评价和问卷调查法。上述方法在使 用过程中,主要集中在对网站技术性能进行分析,而忽略了用户的服务水平和质 量,评价结果和实际情况相比常有出入。 针对以上传统方法的不足,我们提出一种新的资料获取途径一互联网上消费 者评论信息。 目前,互联网发展日新月异,蕴藏着巨大的信息量,但是,要在短时间内从 这些海量信息中获得价值信息,却是比较困难的。比如,对电子商务网站性能评 价的文章出现在论坛、b b s 以及门户网站上,其中的很多信息对运营商和消费者 意义重大,但是采用人工抽取的方式对这些信息进行统计,明显效率低下且不符 实际。 鉴于上述的情况,学者们提出了意见挖掘的方法。通过意见挖掘,我们统计 出主观评价语句中的元素和它们之间的关系,如主题、意见持有者、陈述、情感 极性以及它们之间的关系,并以此作为评价的数据来源,获得中立的评价结果。 基于意见挖掘的电子商务网站评价方法,真正实现了以顾客为中心的理念,对潜 在消费者来说,这样的评价结果最客观,也是他们最想看到和最值信赖的参考标 杆。 综上所述,意见挖掘技术用于电子商务网站评价,不但具有理论意义,更具 有实用价值。 2 第一章绪论 1 2 研究现状 1 2 1 电子商务网站评价 电子商务网站评价,是指根据一定的评价方法对电子商务网站的整体状况进 行综合评估( 王伟军,2 0 0 3 ) 。 学者们对电子商务网站评价课题的研究有很多,所采用的方法也有很各不相 同,从评价所采用资料的来源区分,目前通比较常用的有以下三种。 1 ) 流量统计法 网站流量指标统计是指通过特定的软件统计和分析网站的浏览量。国内的网 站流量统计机构有很多,比如中国互联网络信息中,c , ( c n n i c ) ,网易中文网站排 行榜等均是采用这种方法定期发布网站排名。国外采用这中方法的机构也有很 多,如m e d i a m e t r i x 等公司。流量统计法应用较多,但是局限性较为明显,主要 是国外和国内对网站流量统计指标的选取并不相同,即使国内各家机构对网站流 量指标的选取也不完全统一,从而影响了国内网站流量指标法排名的权威性和有 效性。 2 ) 专家评价法 专家评价法,是指通过规定程序对专家进行调查,依靠专家的知识和经验, 由专家通过综合分析研究对问题作出判断和评估。 专家评价法有很多优点,比如集思广益,综合专家的专业知识,对各参选网 站进行综合评价,但是,也有比较明显的局限性。例如,专家团队的数量可能有 限,导致代表性不够全面;不可避免部分专家的倾向性;部分影响力较大的权威 专家可能主导讨论结果;有些专家碍于情面等原因,可能即使不同意他人观点, 也不会于当面提出,因而影响了整个评价结果的公正性。 3 ) 问卷调查法 问卷调查主要有抽样调查和在线调查两种形式,是目前使用较广泛的方法。 这种方法较简单,c n n i c ( 中国互联网络信息中心) 历次进行的中国十大网站评 比,都是基于这种方法。问卷调查法的弊端也较为明显,主要是有人为作弊的可 能,需要花费人力和物力去剔除那些无效的干扰问卷。同时,问卷调查结果的准 确性和有效性与问卷的设计、抽样方法、样本数量、系统误差、样本分布、调查 费用等多种因素有关,实际运用中难以兼顾上述所有因素,因此问卷调查法得到 的结果,其客观性和有效性均有待改进。 总体来说,电子商务网站评测的机构在进行网站评比时,都要有合适的评价 方法和科学的评价标准,自身也必须是中立的第三方机构,这样才具有公信力。 但是,就目前的实际来看,无论是专家评价还是在线调查,都无法避免主观因素 的过多影响,这是因为每个人的偏好和经历都各不同,其对每种标准的判断也有 3 第一章绪论 所不同。因此,无论是定量分析还是定性描述,传统的评比方法都存在一定的缺 陷。 1 2 2 意见挖掘 近年来,由于互联网技术和计算机的快速发展,互联网用户大规模增加,加 之b b s 、博客等网络应用的广泛普及,产生了大量源于用户创造的主观性文本。 这类文本中包含了用户的观点、情感和态度等主观信息,准确高效的挖掘出这类 信息有着较强的现实意义,比如挖掘购物网站中商品的评论信息,可以总结用户 的反馈意见,挖掘时政论坛中的用户意见,可以评估政局形势等等。 意见挖掘以文本挖掘技术为基础,融合了文本理解和自然语言处理的相关 技术,专业性相对较强。主观性文本中意见表达常常为隐式,这与传统文本挖掘 对象的显式表达方式有着很大区别,因此对这意见挖掘的研究有着较大挑战。 bl i u ( 2 0 0 6 ) 在文献中对意见挖掘的内容进行了划分:包括情感极性划分、 特征级意见挖掘和摘要、比较型语句和关系挖掘、意见检索和垃圾意见检测等。 情感分类是指对主观性文本进行极性分类,可划分为褒义和贬义两类评价。 情感分类一般集中在文档层,也有少部分细致到语句层次。 基于特征的意见挖掘和摘要主要集中在语句层挖掘,可以统计出更多的细 节内容,比如用户喜爱某个对象的哪几个方面。 比较型语句和关系挖掘面所对的不是直接的意见表述,而是对象间的比较 型语句,其主要任务在于识别比较型语句并挖掘被比较对象间的关系。 意见检索建立在前面几项任务基础之上,具体可以分为检索一个对象或对象 特征的意见,检索某个意见持有者对一个对象或对象特征的意见。意见检索与信 息检索有较明显的区别,意见检索需要对文档进行过滤,得到包含意见的主观性 文本,在排序时需要考虑意见的多样性,分别从褒义和贬义两方面对意见进行排 序等等。 垃圾意见的出现是由于一些组织和个人在商业利益的诱惑下,在网上发布虚 假评价,吹捧自己的产品,恶意中伤竞争对手的产品。因此,提供评论服务的运 营网站需要制定反垃圾意见策略,对垃圾意见进行识别。 意见挖掘由于技术挑战性较大且对实际应用有重大意义,所以在被提出后 便受到广泛关注,国外在这个领域的研究起步较早,已经取得了一定的成果,国 内起步相对较晚,但是也取得了一些成果。 4 第一章绪论 1 3 论文工作和结构安排 1 3 1 论文工作 本文以博客、b b s 或其他蕴含丰富评论语句的网站为研究对象,选取其中 关于电子商务网站比较的文章,通过文本挖掘和意见挖掘,得出顾客最关心的指 标内容及对它们评价。文章创新性的把意见挖掘方法引入网站评价的工作中。 传统关于网站评价的方法,多是使用专家法或问卷法,虽各自有其合理之处, 但劣势也很明显。意见挖掘方法在于挖掘“好事 的顾客主动留下的评论,得出 以顾客为中心的优劣评判,其说服力不言而喻。此方法的应用,为潜在顾客选择 电子商务网站购物节约了时间成本,也为网站经营者的工作改进提供方向。 博客或b b s 上的顾客留言有着丰富的内容,为我们工作提供了充足数据源。 但是,由于留言随意性和口语化的原因,语句结构常常并不完整,很多语句可能 只有几个字,这给挖掘工作带来了很大难题。鉴于上述原因,本文利用分类和聚 类等相关方法处理训练数据集,建立起语义相关集合,以此为基础对全体评论文 章进行挖掘,此举既提高了挖掘的准确性,也可以挖掘出主干缺失语句内容,提 高了召回率。 1 3 2 文章结构安排 本论文的研究内容共分为六章: 第一章:绪论。介绍文章的研究背景、意义以及国内外的研究现状。简要介 绍了本文的主要工作。 第二章:介绍文本挖掘理论和技术。包括文本挖掘相关理论,数据挖掘中常 用的分类聚、类概念和算法。 第三章:介绍意见挖掘理论和技术。对意见挖掘的主要工作内容进行说明, 并对每一项工作中使用的方法进行简要介绍,包括传统方法和最新的方法。 第四章:电子商务网站评价意见挖掘模型。对电子商务网站评价分析,确定 基础数据来源,利用意见挖掘算法挖掘出顾客最关心的信息,包括网站技术指标 和服务指标等。文章创新性的通过聚类和分类等方法建立语义相关性集合,并以 此为参考集合挖掘评价语句,既提高了准确性也提高了模型的有效性。 第五章:实证分析,建立电子商务网站评价意见挖掘模型。运用模型分析采 集到的源数据,通过对比实验结果与人工建立的参照数据集,验证模型的有效性。 第六章对全文的工作进行了总结,分析了当前模型的不足之处,对下一步的研究 方向进。 5 第一章绪论 1 4 本章小结 本章开始简单的介绍了选题的背景和研究意义,强调了电子商务网站评价的 重要性及将意见挖掘方法应用于此领域的创新性和有效性。接着,从电子商务网 站评价和意见挖掘这两领域的发展进行了较详细的介绍,列举了电子商务网站评 价的传统方法及其不足之处,意见挖掘课题的提出、发展和主要成果等。最后, 简单对文章的主要贡献和结构安排进行了介绍,清晰的展示了本文的脉络。 6 第二章文本挖掘相关技术 2 1 文本挖掘概述 第二章文本挖掘相关技术 面对浩瀚如烟的互联网评论信息,不加处理直接进行意见挖掘,抽取主题词 和极性意见词,一方面挖掘效率较低,另一方面由于大量噪声数据的影响,正确 率也会大大降低。因此,在进行意见挖掘之前,我们先使用较为成熟的文本挖掘 技术,对采集的源数据进行处理,抽取意见极性较丰富的主观性文本数据。 鉴于此,本章将对文本挖掘的相关理论和技术进行回顾,重点介绍文本表示、 特征选择、文本分类和文本聚类的概念和算法。 2 1 1 文本挖掘概念 文本数据挖掘是一种计算机技术,是指从文本数据中抽取有价值的信息和知 识的过程。作为一个边缘学科,文本挖掘技术由自然语言处理、机器学习、数理 统计等多种学科交叉形成。 文本挖掘是从文本中进行的数据挖掘,从这个意义上讲,文本数据挖掘是数 据挖掘的一个分支。具体来说,文本挖掘工作以文本信息为分析对象,利用定量 计算和定性分析的方法,寻找文本中信息的结构和模式等隐含的知识。文本挖掘 的对象主要为非结构化的文本信息,任务是分析文本的内容特征,发现文本数据 中包含的概念、文本间的相互关系和相互作用,从而为用户提供相关有用的知识 和信息。 2 1 2 文本挖掘主要技术 文本挖掘的主要技术具体有以下几种: 1 ) 特征抽取。文本特征是关于文本的元数据,分为一般特征和数字特征。 常用的一般特征为名词和名词短语,数字特征包括时间、日期、货币等数字信息。 文本特征是文本的外在表现形式,特征抽取是文本挖掘的基础。 2 ) 主题标引。使用传统的关键词标引技术来标引文本,效果不是很好。利 用主题词标引代替传统的关键词标引可以提高标引质量,对改善文本的检索质量 有着显著的效果。 3 ) 文本分类。文本分类的就是让机器学会一个分类函数或分类模型,该模 型能把文本映射到己存在的多个类别中的某一类,使检索或查询的速度更快,准 7 第二章文本挖掘相关技术 确率更高。 4 ) 文本聚类。文本聚类是一种典型的无监督式的机器学习方法,它将文档集合 分成若干个簇,同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可 能小。和文本分类不同,它并不要求预先定义好的类别。 5 ) 自动摘要。自动摘要是指自动分析文章的结构,发现文章的主题语句,通过 整合生成摘要的过程。人工手段工作量大且效率较低,面对互联网的海量数据环 境,显然是不现实的。因此,自动摘要对于处理网络信息具有重要作用。 2 2 文本预处理 2 2 1 文本表示 文本表示即使用文本的特征信息集合来代表原文本。文本的特征信息是描述 文本的元数据,一般可以分为外部特征和内容特征两种类型。文本的外部特征包 一般指的是文本的名称、日期、大小、类型、文本的作者、标题等信息;文本的 内容特征一般指的是主题、分类、摘要等信息。 目前,学者们通常使用的文本表示方法是向量空间模型( v e c t o rs p a c e m o d e l ) 。模型的主题思想如下。将文档d 用向量d 0 , ,w i ;t 2 ,w 2 t s ,w s ) 表示,其 中n 表示特征项的总体数目,t k 表示第k 个特征项,w k 表示特征项缸的所占的 权重,用以度量特征t l c 在文档d 中的重要程度。假设t l ,t 2 w n 为空间中的一个 n 维坐标系,w l ,w 2 w n 为对应的坐标取值,那么d 即为n 维空间中的一个向 j 置 里。 在传统布尔模型中,特征t k 的权重w i 取值为l 或0 。当特征项t i 在文档d 中出现时,就给对应的特征权重w i 赋值为1 ,反之赋值为0 。我们知道,现实情 况中不同特征项对于文档的代表程度是不相同的,所以,布尔模型确定特征权重 的方法是效用较低的。 目前学者使用较多的特征权重算法是t f i d f 方法。t f ( t e r mf r e q u e n c y ) 即词语频率频,是指词语在文本中出现的频率。一般情况下,某个词语在一个文 本中出现得越频繁,它对对应文本的重要性就越高。i d f ( i n v e r s ed o c u m e n t f r e q u e n c y ) 即逆文档频率,取值是文档频率d f ( d o c u m e n tf r e q u e n c y ) 的倒数, 其中,文档频率是指包含某词语的文档在所有文本集合中所占的比例。把文档频 率作为参考因素,主要是出于以下考虑。如果某个词语在许多文本中都出现,那 么这个词语对于本篇文档则不具有较强的代表性。利用t f 和i d f 这两个指标进 行特征权重的计算,公式如下: 第二章文本挖掘相关技术 w f = 吮溉 ( 2 1 ) 公式中,w i j 是指词语t i 在文档d j 向量空间中的的权重,墙是指单词t i 在文 档冯中出现的频率,i 蛳是词语的逆文档频。从公式中我们不难发现,t f 使得文 档中频繁出现单词的权重得到提高,i d f 降低了在多个文档中都出现的词语的权 重。 实际运用中,常用文档长度或者最大t f 值对t f 进行归一化: 观= 上l e n g t h ( d j ) t f = 巧口 m a x ( 矿) ( 2 2 ) ( 2 3 ) 对t f 进行归一化处理,可以使得t f 不在具有量纲,数据在进行处理和比较 时,更具有实际意义。 实际运用中,常用公式( 2 4 ) 计算i d f : f 矾= l + l o g ( 1 够) ( 2 4 ) 函数变化通过对d f 取对数变得更加平缓,拉平了值域。 2 2 2 特征抽取 在处理较大的文本集合时,随着文本数量不断增大,词频矩阵的规模也不断 增大,计算量同时增大,处理效率逐渐降低。同时,词频矩阵维数的增大,导致 词频矩阵就会变成大型的稀疏矩阵。鉴于以上原因,对抽取的特征集迸行缩减工 作是必不可少的。通过特征集缩减我们可以达到一下两种效果:第一,提高了程 序的运行速度和效率;第二,提高了分类的精度。因为不同的词语对文本分类结 果的贡献是不相同的,那些普遍存在于各个类别中的词语对分类的贡献小,那些 些在特定类中出现频率较高而在其他类中出现频率较低的词语对文本分类的贡 献意义重大,所以,对于每一类,我们要努力剔除那些代表性不足的词语,识别 此类的表现力较强的特征项组合。 一般来说,学者们使用基于文本特征评估函数的方法来进行特征集缩减工 作。 在使用评估函数的特征集缩减算法中,学者们假设所有的特征是相互独立 的。首先,对每个特征使用评估函数进行独立的打分,然后根据每个特征分值的 大小进行排序,最后选择出分值最高的前n ( 根据实际情况确定n 的具体取值) 9 第二章文本挖掘相关技术 项作为缩减后的最终特征选择。在进行文本处理时,通常使用的评估函数主要是 文本频率、信息增益、互信息、c h i 统计、期望交叉熵等。在以上的函数中,t 表示对应与单词w 的特征,p ( w ) 表示单词w 出现的概率,p ( c i ) 表示第i 类值的 出现概率,p ( c ij w ) 表示单词w 出现且属于第i 类的条件概率,t f ( w ) 表示单词在 文本集中出现的次数。下面将简要的对文本频率、信息增益和互信息等评估函数 进行介绍。 1 ) 文本频率( d f ) 文档频率是指对于给定特征t ,在文档集合中包含t 的文档数目。文档频率 法假设是稀有特征对于类别预测是没有太大帮助的,不会影响到整体的性能。文 本频率法的具体步骤:首先计算每个特征的d f ,然后再删除所有d f 小于阈值 的特征,从而降低特征空间的维度。文档频率的优点在于其实现简单,所以特征 选择速度很快,但是缺点也较明显,因为稀有的特征往往也含有很多的信息,因 此大量剔除d f 特征会一定程度降低有效性。 2 ) 信息增益( i g ) 在信息增益中,重要性的衡量标准就是看特征能够为整个分类带来多少信 息,带来的信息越多,该特征越重要。信息增益是针对一个一个的特征而言的, 就是给定一个特征t ,考虑和不考虑它的时候信息量各是多少,两者的差值就是 这个特征给系统带来的信息量,即增益。公式如下: 阿( f ) = 一p ( c ,) l o g :p ( q ) 一眦) 一p ( q t ) l o g :p ( q 7 = 17 = 1 ( 2 5 ) + p ( f ) 一p ( qi t ) l 0 9 2p ( qi f ) 】 i = 1 信息增益考虑了一个特征的出现与否。实验表明,在不均衡数据集中,对于 稀有类别,考虑特征不出现的情况对判断文本类别的贡献往往远小于考虑特征不 现情况所带来的干扰。 3 ) 互信息( m i ) 互信息本来是信息论中的一个概念,用于表示信息之间的关系,而将这个概 念引入到特征选择来表示词条与类别之间的关系。使用互信息理论进行特征选择 是基于如下假设:特征t 在类别c 中出现频率高、但在其他类别出现频率比较低, 那么t 与类别c 的互信息比较大。即,m i 越大,特征t 与类别c 的共现程度越大。 公式如下所示: l o 第二章文本挖掘相关技术 刖礼g 器矗g 等乩g 丽a x n 汜6 , l ( ,) = p ( c j ) ,( f ,c ,) 1 = 1 k ( f ) = m a x 篙i ( t ,q ) ( 2 7 ) ( 2 8 ) 其中,a 表示包含特征t 且属于类别c 的文档数;b 表示包含特征t 且不属 于类别c 的文档数;c 表示属于类别c 但不包含特征t 的文档数。n 表示文本总 数。m i 在特征选择的方法中效果较其它几种差一些,其原因是m i 倾向于低频 词。 2 3 文本分类 文本分类是指根据文本内容特点将文本分配到预定义的类别中。目前使用的 分类的方法有很多,如基于文本特征向量的方法,基于规则的方法,基于统计的 方法,基于神经网络技术的方法,基于遗传算法的方法,基于关联的方法等等。 基于文本特征向量的分类算法一般包括以下三个步骤:首先,为每一个需要分类 的文本构造规范化特征向量;然后,再为每一个预定义类别构造规范化特征向量; 最后,评价分类文本与每一预定义类别特征之间的相关性,计算文本特征向量与 类别特征向量的相似度。 基于向量空间模型的训练算法和分类算法有很多种,常用的有简单向量距 离分类算法、k 近邻算法、朴素贝叶斯分类算法、支持向量机算法等等。 2 3 1 简单向量距离算法 简单向量距离算法的原理十分简单。首先,根据算术平均为每类文本集生成 一个代表该类别的中心向量;然后,对新到来的文本进行向量表示:最后计算新 到来文本向量与每个类别的中心向量间的距离,依据取值大小将新到来文本划入 距离最小的类别。具体步骤如下: 1 ) 对所有训练文本向量进行简单的算术平均计算,得到每类文本集合的中 心向量。 2 ) 新文本到来后,将其进行为特征向量表示; 3 ) 计算新文本特征向量和每类中心向量间的距离,比较每类中心向量与新 文本的距离,将新到文本分到距离最小的对应类别中。 第二章文本挖掘相关技术 2 3 2k 近邻算法 k 近邻方法是一种基于实例的文本分类算法,广泛应用于模式识别领域。它 基于类比学习,即通过给定的新样本与和它相似的训练样本进行比较学习的。 k 近邻算法的基本思想相对简单:对于一个给定的测试文本,在训练文本集 中,通过相似度找到与之最相似的k 个训练文本,其中相似度可以用距离度量, 也可以用余弦度量。在找到k 个训练文本后,为每个类别打分,然后排序,只有 分值超过给定阈值的类别才被判定为测试文本的类别。每个类别的分值为k 个训 练文本中属于该类别的文本与测试文本之间的相似度之和。形式化的表示如下: s c o r e ( d ,c i ) = s i m ( d ,d j ) g ( d j ,c f ) ( 2 9 ) d i 矗诋d o c 其中,d 为测试文本;d j 为最近邻的k 篇文本之一;k n n d o c 为训练文档集; s i m ( d ,d j ) y 9d 与d j 相似度;g ( d j ,c i ) 为文本d j 在类别c i 中的权重,通常d j 属于c i 时 取l ,d j 不属于c i 时取0 ;所有使得s e o r e ( d ,c i ) 大于给定阈值的类别都被判定为文 本d 的类别。 k 近邻算法中参数k 的确定是重要的,如果k 值过大或者过小都会引起分类 结果的错误,导致测试文本的类别不能被正确的判定。由于k 近邻算法是一种惰 性学习算法,且与训练集中的每个文本都进行相似度的计算,因此对于大规模文 本分类问题,k 近邻算法需要耗费大量的分类时间。该算法的分类效率非常低, 但是在分类精度上,是效果最好的分类器之一,并且性能也比较稳定。 2 3 3 朴素贝叶斯算法 朴素贝叶斯分类方法是一种常用的有指导意义的方法,以贝叶斯定理为理论 基础,是一种在已知先验概率与条件概率的情况下的方法。朴素贝叶斯算法是基 于一个基本假设t 它假设文本中的每个特征对给定类的影响独立于其它的特征, 即特征独立性假设。对于文本分类来说,它假设各个特征w i 之间两两独立。 朴素贝叶斯分类器是在已知新实例的文本特征值的情况下,利用训练数据来 评估每个类的概率的。设训练集分为k 累,记为c = c l ,c 2 ,c k ) ,则每个类 c i 的先验概率p ( c i ) ,i = 1 ,2 ,k ,其值为c i 类的样本数除以训练集总样本数n 。对于 新测试文本d ,其属于c i 类的条件概率是p ( d l c i ) 。根据贝叶斯定理,c i 类的后验 概率为p ( e i l d ) 为 讹i 们:丝必 ( 2 1 0 ) 1 2 第二章文本挖掘相关技术 其中,公式2 1 0 中的分母在各个类别中为常数,可以忽略,则公式2 1 0 简 化为: p ( c 。ld ) o r :p ( dlq ) p ( c ,) ( 2 1 1 ) 为了避免p ( c i ) 等于零采用如下平滑: 讹,= 蒜篙 眩 式中,ic l 为训练集中类别的数目,l 见l 为训练集中属于类c i 的文档数,id ci 为训练集包含的总文档数。 朴素贝叶斯分类器将未知文本归于类别的依据如下 a r g m a x p ( c ,ld ) = a r g m a x p ( diq ) 尸( q ) ( 2 1 3 ) 接下来的问题就是如何估计p ( dc f ) ,目前存在着多种模型:多变量贝努利 模型、多项式模型、泊松模型等。这里我们给出多项式模型的介绍,假定训练集 的特征空间为r = t l , f :,- l t ,1 ) , “表示第k 个特征,l 刁表示特征空间的维数。 多项式模型考虑了特征出现在文本中的频率,文本的特征向量权重由特征玖 在文本弓中的出现次数觋表示,p ( d j l c i ) 矛1 p ( t k l c i ) 的计算公式如下: mi c f ) :p ( ) ! 丌i t i d 业 (214jj尸( ti c f ) 卵( 2 珥 汜1 4 j 1 + 尸( 气ic i ) = 斧矿一 ( 2 1 5 ) + 赐 在公式( 2 1 5 ) 中,分子表示类别c ,中特征t k 出现的次数,分母表示类别毋 中所有特征出现的总次数,其中为避免出现零概率做了平滑处理。 贝叶斯算法的缺点是在实际情况下,类别总体的概率分布和各类样本的概率 分布函数( 或密度函数) 常常是未知的。为了获得它们,需要足够多数量的样本。 另外,贝叶斯算法建立在文本中词与词之间相互独立的假设上,而这个假设在实 际情况中很难成为现实。 第二章文本挖掘相关技术 2 4 文本聚类 2 4 1 文本聚类概述 同类的文本相似度较大,而不同类的文本相似度较小,这是文本聚类所依据 的著名假设。文本聚类是一种无监督的机器学习方法,它在工作时不需要进行训 练,也不需要预先对文档进行手工类别标注,所以灵活性和自动化处理能力相比 文本分类有很大的提高。鉴于以上特点,文本聚类已被越来越多的研究人员所关 注,成为对文本进行组织、摘要等工作的重要手段。 常用的聚类算法可以分为以下几类: 1 ) 划分法( p a r t i t i o n i n gm e t h o d s ) 它是将数据集划分成多个簇,且每个簇中至少包含一个数据元素。每个数据 元素可以属于多个簇( 模糊划分) 或仅属于一个簇( 确定性划分) 。给定划分数 k ,划分方法首先创建一个初始划分,然后采用一种迭代的重定位技术,尝试通 过对象在簇间的移动来改进划分。目前使用最多的是k - m e a n s 算法。为了对大规 模的数据集进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的 改进。 经典的k - m e a n s 方法,在每次迭代过程中将数据对象归入相距中心点最近的 一类,同时重新调整和计算这些类的中心点,直到中心点收敛于确定的位置。这 种方法计算简单、有效,但也存在一些严重的不足,需要事先确定聚类的数目, 然而,在一般情况下,这个数目往往是不能准确得到的;同时,聚类的结果和效 率也往往会受到初始聚类中心位置的影响,在数据维数较高时,聚类的质量也明 显下降。 2 ) 层次法( h i e r a r c h i c a lm e t h o d s ) 这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体 又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时 每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的 组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算 法有:b i r c h 算法、c u r e 算法、c h a m e l e o n 算法等。层次法的缺陷在于不 能更正错误的决定,一旦一个步骤完成,就不能被撤销。 2 4 2k - m e a n s 算法 假设被聚类对象的数量为n ,最终被聚为k 类,则k - m e a n s 算法的描述如下: 1 ) 首先从n 个数据对象任意选择对k 个,作为初始聚类的k 个中心; 1 4 第二章文本挖掘相关技术 2 ) 计算剩余数据对象与每个中心的距离,根据距离取值的大小,将每个数 据对象赋给距离最小的类; 3 ) 更新每个类的平均值,即计算每个类中数据对象的平均值; 4 ) 反复执行2 ) 、3 ) 步,直到准则函数收敛。准则函数一般采用全部数据 对象与其相应的类中心的距离平方和。 k - m e a n s 算法虽然原理简单且收敛速度快,但也存在一定的缺点,例如,随 机选择初始值可能会导致不同的聚类结果,甚至存在无解的情况;算法需要指定 最终的聚类数目,但是未知情况下判定聚类数目是比较困难的。 2 5 本章小结 本章主要介绍了文本挖掘相关理论和技术,解释了文本挖掘的基本概念,文 本挖掘的主要技术分类,接着逐一对这些技术进行了的详细说明。 互联网上的客户留言文本,不仅数量大,内容丰富,而且语言风格不一,偏 离评论主题的内容也很多,不经过处理直接进行意见挖掘,一方面效率低下,另 一方面由于存在大量噪声数据,准确性也会有所下降。本章介绍的文本挖掘的相 关知识,目的在于通过文本挖掘技术对文本库中的主观性文本和客观性文本进行 区分,特别是统计出意见丰富的主观文本,以此作为下面电子商务网站意见挖掘 模型的数据源。 第三章意见挖掘相关技术 3 1 意见挖掘概述 第三章意见挖掘相关技术 k i m 和h o v y ( 2 0 0 4 ) 在文献中对意见进行了如下定义:意见由四个基本元 素组成,即主题、持有者、陈述和情感。四个元素之间存在着内在联系,即意见 的持有者针对主题发表了具有情感极性的陈述。 近些年,学者对非事实型主观文本处理进行了很多研究,重点集中在对包含 断言和评论的文本进行处理。这类文本具有共同的特征,即蕴含大量个人、群体 或组织等的意见、情感和态度等方面的内容。其中对意见型主观性文本进行的研 究形成了一个新颖且重要的研究课题一意见挖掘( 姚天叻等,2 0 0 8 ) 。这里所说的 主观性文本主要用来描述对事物、人物、事件等的的想法或看法,与客观性文本 描述客观事实相对应。我们常见到的主观性文本多出现在报刊、互联网等媒体上, 其中含有意见极性即褒贬含义的主观性文本,即为意见型主观性文本。 “我觉得淘宝网上的商品,不但价格便宜,而且质量非常好。”这句话共由 三个子句构成。第一个子旬是客观句,不包含对意见的陈述。第二和三个子句是 主观句,并且包含对意见的陈述。对于这两个意见的陈述旬,它们的主题分别是 “价格 和“质量 ,且都是“商品”的性质,“我”是这两个陈述的意见持有者, 在陈述中的情感描述词是“便宜 和“好”,都是褒义的。意见挖掘工作的就是 在文本中自动识别这些元素以及它们之间的关系。 一般来说,意见挖掘的内容包括:主题识别,即识别主题词语和指派领域相 关的本体概念;意见持有者识别,即识别发表意见评论的作者;陈述的识别,即 识别意见表述的范围并对客观性表述进行过滤;情感分析,即识别意见陈述的语 义极性即褒义或贬义。 3 2 意见挖掘的内容 在这节中,我们将从主题的识别、意见持有者的识别、陈述的选择和情感的 分析这几个方面介绍意见挖掘的相关方法。 3 2 1 主题的识别 “大众汽车的质量一直不错,而且帕萨特也是一款经过市场考验的车型,目 1 6 第三章意见挖掘相关技术 前的价格也非常合理。 这句话第一个子句的主题是“质量”,第二个子句的主题是“帕萨特 ,第三 个子句的主题是“价格 ,这三个都是显式主题。目前大多数研究都是面向产品 的意见挖掘,显式主题主要是领域相关的术语。主题的确定主要有两种方法,第 一种方法根据候选主题的同现和上下文指示符来确定主题术语。h u 和l i u ( 2 0 0 4 ) 的文献中,就利用了这种方法来确定常现和非常现主题术语。第二种方法根据短 语结构的特点确定主题术语。y i ( 2 0 0 3 ) 等人根据名词性短语的组成和位置特点, 采用相似性测试方法来确定主题,但是,这种方法确定的主题术语覆盖面不全, 有效性有所降低。 相关实验证实,第一种方法有着较高的召回率,但是第二种方法的准确率高 于前者。 事实上,句子的主题很多时候并非都是显式的,隐式主题也很常见且识别难 度更大,通常需要考虑上下文的语义关联以及其他因素的影响。目前的主题识别 方法主要针对显式主题的挖掘,但隐式主题的挖掘也有重大意义,这将是意见挖 掘领域今后研究的重点之一。 3 2 2 意见持有者的识别 “消费者有理由相信,阿里巴巴在中国电子商务的发展中发挥了积极的作 用。 这句话中,“消费者”是关于阿里巴巴的意见持有者。可以看出,命名实体 的方法可用来识别意见持有者。除此之外,也可以利用语言资源来解决这个问题。 但是,利用自然语言处理技术在识别意见持有者时有两种的缺点:语言现象覆盖 率较低和领域适应性较差。到目前为止,上述技术都还不能识别意见持有者之间 的关系。 请看下面的例子: s e r g e ys t a n i s h e v 表示:“保加利亚推迟加入欧盟的是一个严重的错误”。 自 从2 0 0 5 年被选举为保加利亚总理以来,s t a n i s h e v 一直是他的国家加入欧盟的著 名支持者。以上两句话中,意见持有者是s e r g e ys t a n i s h e v ,即保加利亚总理。 他对“保加利亚推迟加入欧盟”持否定意见,而对“他的国家加入欧盟”持肯定 意见。这种情况下,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论