【毕业学位论文】(Word原稿)中文网页评价系统的设计与实现-软件工程_第1页
【毕业学位论文】(Word原稿)中文网页评价系统的设计与实现-软件工程_第2页
【毕业学位论文】(Word原稿)中文网页评价系统的设计与实现-软件工程_第3页
【毕业学位论文】(Word原稿)中文网页评价系统的设计与实现-软件工程_第4页
【毕业学位论文】(Word原稿)中文网页评价系统的设计与实现-软件工程_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 (专业学位) 姓 名: 学 号: 所在院系:软件学院 职业类别:工程硕士 专业领域:软件工程 指导教师: 副指导教师: 二一 四年三月 中文网页评价系统的设计与实现 A in 2010 基于 人力资源管理系统的设计与实现 陈世军 同济大学 2014 F N 中文网页评价系统的设计与实现 同济大学 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学 位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名: 年 月 日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 年 月 日 同济大学 硕士学位论文 摘要 I 摘要 随着网民对网络新闻认可度的提高,越来越多的人浏览网络新闻并进行相关评价。因此,网络新闻对企业、品牌、事件以及人物的影响起着重大作用,甚至成为企业或品牌影响力扩张的基石。通过分析相关新闻报道,企业、组织或个人可以掌握大众的情感倾向,不断完善自身,进而更好的发展。 本文以朴素贝叶斯方法为基础,提出了 基于二分类 贝叶斯方法以及基于统计的语义的分析方法用于情感分析,通过比较,发现基于统计的语义分析方法能够获得较好的效果。作者结合 感分析用词,从大量语料中提取常用的 情感词汇及词汇组合扩充情感特征库,根据特征项的语义倾向构建情感分析模型。充分考虑网页的结构信息,综合考虑多种影响网页褒贬倾向的因素,对网页进行情感倾向性分析,提高褒义网页和贬义网页的准确率和召回率,在此基础上设计并实现一个基于搜索引擎对查询关键词的新闻网页进行褒贬评价的系统。本文采用的情感分析方法以及搜索引擎对查询词的整体褒贬评价方法,对其它情感分析系统具有一定的参考价值和实用价值。 关键词 : 情感倾向, 卡方统计,朴素贝叶斯,语义分析I s of on an in of of or on on to in on on of of of of a on of a on in to 同济大学 硕士学位论文 目录 录 第 1 章 绪论 . 1 究的背景和意义 . 1 内外研究现状 . 2 于语义进行情感分类的国内外研究现状 . 2 于机器学习进行情感分类的国内外研究现状 . 3 课题的主要研究内容与组织结构 . 7 第 2 章 相关技术介绍 . 10 于语义的文本倾向性分类 . 11 于 语义倾向性计算 . 11 于 语义倾向性计算 . 12 于机器学习的文本倾向性分类 . 13 素贝叶斯分类 . 15 章小结 . 16 第 3 章 中文褒贬评价系统需求分析与系统设计 . 18 求分析 . 18 贬评价系统概要设计 . 20 统中进行情感倾向性分析的关键问题 . 21 感分析模型 . 21 征项的定义 . 22 征评估 . 23 本表示 . 23 感分析模型 . 24 感分析模块 . 24 于二分类的贝叶斯方法 . 25 于统计的语义分析方法 . 26 贬分析模块 . 27 据检索 . 28 贬分析 . 28 章小结 . 29 同济大学 硕士学位论文 目录 4 章 中文褒贬评价系统详细设计及实现 . 30 页内容抽取 . 30 感特征库的构建 . 32 文本分割 . 32 于卡方统计量的特征提取 . 34 感倾向分析 . 38 感特征抽取 . 38 素贝叶斯学习 . 39 于二分类的贝叶斯学习 . 40 于统计的语义分析 . 41 种方法分析结果展示 . 42 态调整策略 . 43 贬分析模块 . 43 章小结 . 44 第 5 章 情感分析模块的评估 . 45 验数据 . 45 估方法及特征集合的对比 . 45 法之间的评估及对比 . 49 法的稳定性 . 49 法的准确性 . 50 入分块规则 . 51 制统计次数 . 52 体结果分析 . 53 章小结 . 54 第 6 章 总结与展望 . 56 结 . 56 望 . 56 致谢 . 57 参考文献 . 58 个人简历、在读期间发表的学术论文与研究成 果 . 60 第 1 章 绪论 1 第 1 章 绪论 究的背景和意义 随着 计算机的普及和网络的发展,大量信息以电子文本的形式出现,面对信息爆炸带来的挑战,人们迫切需要更快更便捷的获取所需信息。 术的发展增强了网络与网民的互动性,越来越多的用户参与到网络社区、博客、论坛进行交流和表达意见,这些文章通常包含作者的情感倾向性,比如对某个产品、电影、企业或者舆论事件的评论,这些信息中都蕴含着巨大的商业价值。文本倾向性分析就是在这样的背景下应运而生的 1 电子商务为人们的出行和购物带来许多便利,越来越多的普通大众加入到网络购物的行列,比如淘宝、凡客、卓越等等。通常情况下 ,人们在购物之前往往会查看已有用户对某一商品的评论,了解用户对某商品是持褒声的态度还是贬斥的态度,即使用户可以找到善于某个产品的大量评论,但是关于评论的整理和分析会花费大量的时间和精力,情感的自动分类可以方便的提供比较,这些情感倾向评论在很大程度上能够决定潜在用户的购买行为;同时,生产商品的商家也可以通过用户对产品或者服务的总体评论了解用户的反馈情况,进一步对产品进行改进 4。这方面最早的应用是 人开发的第一个 于比较顾客对于不同电子产品的意见,它主要针对网 络上顾客的意见进行情感分析,通过该软件顾客可以一眼看出关于某个产品的优点和缺点以及不同产品间的对比 (如图 一方面它帮助潜在的客户以可视化的方式分析产品的特性,另一方面帮助生产厂家收集市场意见,更好的改进产品。基于分析结果,用户通过相应的用户接口可视化查看和比较不同产品的意见。国内有人针对军事领域、名人领域、汽车领域等等进行褒贬评价,也取得了不错的效果。 图 类产品的消费者观点对比 同济大学 硕士学位论文 中文网页评价系统的设计与实现 ,2 此外,语义倾向判别对自动文摘和文本过滤也具有很大的实用价值,通过对文档的情感倾向性设置合理的阈值,就可以过滤掉情感倾向过于偏激的文章,有利于维护网络的讨论秩序;在自动文摘生成中可以摘出带有作者强烈感情倾向的语句,更好的保留作者的观点和意见。 内外研究现状 于语义进行情感分类的国内外研究现状 人 5关注基于词汇的无监督情感分类方法,它根据个人情感词汇或者短语知识别评论的情感倾向。很多研究已经使用了基于词汇的算法提高无监督情感分类的效果,但是很少有人系统的比较和统计词汇的规模和精确度对于无监督情感分类的影响。根据经验推断,情感词汇的规模和准确度在无监督感分类中起着非常重要的作用。作者通过设置不同的数据集分别比较情感汇规模和准确度对情感分类的影响。作者还通过一种基于图排序的算法计算词汇的准确度来判断无监督情感分类中的准确度对情感分类的影响。试验中将影响情感分类的词汇称这为情 感停用词,比如服务不是普通停用词,但是在旅馆服务中,它却是情感停用词;另外,情感停用词是领域相关的,如大普通的停用词,在数码产品评论中它却不是情感停用词,但是大在社会事件中却是情感停用词,如大人物和大事件没有表达任何情感倾向。实验假设一个短句至多包含一个情感词汇,这些短句被逗号、问号、叹号、分隔符等等隔开,如果一个情感词汇经常与其它情感词汇同时出现在一个短句中,则被认为情感停用词,并用基于图排序的算法识别情感停用词,实验证明,移除情感停用词后,无监督的情感分类获得了很好的结果,并且证明,随着情感词汇规模的扩 大,无监督的情感分类准确率会提升。 zi 人 6对手机的产品评论进行褒贬性分析,并提出一种基于因特网的无监督分类方法。基于评论站点的方法不能应用于领域的情感分类,后者需要大量标注的评论语料。基于因特网的方法有两种优势:首先,它不需要大量的训练集或者语言资源作为极性词汇,这些对于文本分类模型和词汇方法都是必须的。分类模型需要语料学习语言学模式来判断一个新的观点,这种方法通常需要大量的训练集,并且训练集是领域相关的,基于词汇的方法中,根据出现的极性词汇数量将方档,句子或者短语分为褒义或 者贬义的情感倾向,这种方法的缺点是语义倾向的改变,在该领域褒义的情感倾向或许在另一个领域中具有贬义的情感倾向,并且词汇覆盖不完全;另外该方法直接使用 的资源,意见挖掘的目的在于从 的所有顾客评论中抽取有用的信息,搜索引擎的数据能第 1 章 绪论 3 够提供比较完整的知识。相对来说,手工创建的极性语料爬以的文本数量相对来说较小,这不可避免造成偏差。作者对 方法进行改进,将搜索引擎计算词语共现 改为搜索引擎返回的 算词语共现的情况,而且由于搜索引擎返回的都是一个近值,所以可以从公式中去 除,并且调整分类的阈值。 e 等人 7研究了针对中文汉语评论的情感分类,作者认为从网络从网络上挖掘产品意见是一个繁杂的过程,首先需要网络爬虫和引擎从网络上抓取关于产品意见的数据,然后对数据进行预处理,形式化为计算机能够处理的数据。将网页分为主观文本和客观文本,然后对主观文本进行情感倾向分析。该文献提出了一种 基于二分类 语义倾向计算方法,首先对评论分词并进行词性标注,选择某种语义模式抽取具有两个 词语的短语作为处理对象,该方法采用了 究中的语义模式,形容词或者动词提供了主观情感,其它词语 作为语境,并总结了五种抽取中文短语的模式,选择最能代表褒义和贬义情感倾向的极性参考词对,分别计算短语与参考词对的语义倾向值,最后计算整篇文档的平均语义倾向值,如果高于某个阈值则为褒义情感,否则为贬义情感。实验结果表明中文影评意见挖掘相对于英文来说,准确率和召回率是可以接受的。 朱嫣岚等人 8过建立领域内 评价对象关系 价对象同义词 评价词 用最大熵模型训练评价词与评价对象之间的映射关系,结合基于 词汇语义倾向计算评价词 语的语义倾向性来得出评价对象的褒贬倾向性。 杨超等人 10进行了基于情感词典扩展技术的网络舆情倾向性分析,分别采用建情感词汇表,最后将 并成一个情感词汇表,实验结果表明,用 建的词汇表得出的结果要准确,两者合并之后更加的准确。 感词典扩展通过知网提供的语义相似度计算公式,根据选择的基准词汇计算其它情感词汇的语 义倾向; 台湾大学总结整理的中文情感词典,包括简体中文和繁体中文两个版本,假设中文词的情感倾向是组成该词的每个汉字倾向性的函数,通过预测情感集合中每个汉字在 义词集和贬义词集中出现的频率计算每个词汇的情感倾向。传统的机器学习方法需要标注训练出分类器,工作量大,该方法针对网民评论内容较短、所有情感词汇广泛的特点,应用词典技术初步设计并实现了一个网络舆情系统,通过实验表明该系统达到了较理想的效果,并且分类的速度比机器学习方法快。 于机器学习进行情感分类的国内外研究现状 同济大学 硕士学位论文 中文网页评价系统的设计与实现 ,4 a, 11在搜索引擎通常返回主题搜索的基础上进行情感分类,首先设计一个根据搜索引擎返回的 动识别产品评论的方法,然后再将这些评论分为褒义和贬义的类别,最后用户就可以直接决定访问褒义的评论还是贬义的评论。该文献中作者晃是采用原始文本而是采用搜索引擎返回的 用常见的 法先进行类别分类,再进行情感分类,类别分类中利用 n 元模型和标题、文本总结和 别进行主题分类和情感分类,主题分类取得了良好的结果,情感分类结果不尽如人意,作者 得出结论,认为要想提高情感分类效果,搜索引擎应该提高 质量,并且情感分类比主题分类需要更多的情感词汇。 人 12认为文本主题分类需要很大程度上信赖于具体任务的领域知识,将传统的文本主题分类应用到情感分类中在技术上还不够成熟,作者认为可行的解决办法是加入文本的方法,因此作者提出了基于词汇变体的本体分类方法,如 “ “首先根据词典、不规则动词和原始文本用名词和动词的变体和同义词构造词汇本体,然后根据 法进行分类获得了良好的效 果。 e 等人 13针对旅游目的地的评论进行情感分类,挑选了 7 个目的地的评论作为训练集和测试集,分别采用朴素贝叶斯、支持向量机、 N 元模型的机器学习方法进行分类,结果发现当训练数据集较小时, 有最好的表现,其次是 N 元模型和朴素贝叶斯,随着训练集的加大,最后三种分类方法的趋于相同,准确率都达到了 80%以上。 人 14开发了一种统计模型用于识别文档和句子的层级属于哪方观点,作者通过分类鉴别观点,有点类似对产品特征的情感识别。能够帮助人们从不同观点的文章中分析海量信息 的自动化系统,对于分析人士来说非常具有价值。该方法通过建立潜在语义模型分析句子是否具有强烈的观点,然后分析巴以冲突中的文章是 关于哪方的观点。当前自动观点识别主要学习主观语言,识别主观文档和句子,区分语言的褒贬。作者对观点的区分作为对文档的分类,采用普素贝叶斯的方法好于 法。 何坤等人 15在普通文本分类的基础上加入语义特征,切分后成为好小说,好单独作为特征表现并不优秀,但好小说本身作为一个语义单元能够更好的表达语义的倾向性,类似的对于前面的副词的,例如非常好,不负责,也将非常好不负责单独作为语义特征 项,这些语义特征使得文本的情感更加明显,从特征提取的角度来看,其中有很多对分类是有益的,作者采用 行特征选择,选用基于能函数的 类算数进行分类,但是最终的 F 宏平均值不超过 80%。 王晓东等人 16则提出了基于构建情感 行文本倾向性分析,作者第 1 章 绪论 5 认为利用机器学习的文本分类与基于语义的文本分类在抽取文体特征词汇时候没有充分考虑词汇之间的语义信息,所以作者构建的情感 充分的表达情感词汇之间所蕴含的语义信息,如词汇的情感倾向性以及词汇间的相似,递进和转折关系等,这些关 系为文本的倾向性分析提供有效的分析依据,作者的方法是将情感 象为一个地球仪,选择知网中标注过的情感分析用词,选择语义强烈的正面情感词汇和负面倾向词,赤道则表示中性,通过知网提供的语义相似度公式计算每个情感词汇的语义倾向值并进行排序,按照与高纬度词汇的语义相似排放在地球仪的一个位置上,这样每个词汇分别具有一个纬度和经度,每个经度上的情感词汇表示递进关系,不同半球上的情感词汇表示转折的语义关系。对于文本中的所有词汇,首先计算关键词与情感 的映射与两极的靠近程度来衡量关键词的情感倾 向,关键词基于知网的语义相似度与映射在情感深度的加权平均作为词汇的语义相似度,并赋予每个程度词一定的等级。若某个情感倾向词汇前出现了一个程度词,则首先判断这程度词的级别,然后根据程度词的级别对这个词汇的相似度权重进行相应 调整并重新抽取特征词汇,最后再根据调整后的特征词汇对文本的倾向性进行分析,作者采用 类算法对训练和测试语料进行分类,实验证明利用情感 取特征词汇比以所有词汇作为特征词汇的文本倾向性分类方法的准确率具有显著提高。 作为一种预处理手段,组块分析可以大大降低 进行短语划分和短语分析处理的复杂性,为进一步对句子的深层次分析提供了基础,使得句法分析任务在某种程度上得到简化。卢志茂等人 17提出了情感组块的概念,利用情感组块与机器学习相结合进行文本倾向性分析。情感组块是在文档中出现频率较高、长度不一的带有褒贬倾向的框架式短语,如否定词 +否定对象不 +合理,形容词 +形容对象非常漂亮的形式等等。作者在通用情感词汇的基础上加入用户领域情感扁,去除不带有褒贬倾向性的信息,更加有效地实现褒贬特征选择,采用器学习的方法对军事评比样本集进行分类,非情感信息的 有效去除以及情感组块的采用也对特征降维、先生的正确提取和实验的正确率和 F 测试值的提高起到了很大的作用。 樊娜等人 18基于最大熵模型对观点句主观关系提取,考虑句子中词汇的基本特征(词语特征、词性特征)和语义特征(距离特征)。基本特征考虑了评价词和评价对象本身及其词性,同时还将它们前后的 2 个词语都纳入特征考虑范围内,因为其左右邻词在一定程度上体现了该词是否具有主观含义,这样的特征选取可以有效解决否定词以及程度副词对评价词的影响,因为通常起修饰作用的否定词和程度副词都位于评价词语前后 2 个词语范围的位置上。语义 特征主要描述词语在句子中的句法语义信息,通过对观点句子进行句法分析,获得评价词语和同济大学 硕士学位论文 中文网页评价系统的设计与实现 ,6 主人对象在观点句子中的语义信息,将其作为语义特征应用到模型中。该方法采用哈工大信息检索研究室的中文句法分析器对句子进行分析,获得该句子完整的句法结构树,从中提取评价对象与评价词之间的句法路径信息作为特征。 杨峰等人 19提出了一种基于随机网络的在线评论情绪倾向性分类模型 X( , X 代表机器学习算法,可以是 。首先引入一种增量式创建词语 顺序共现随机网络的方法,并基于此随机网络以及情绪词表,提出了一种基于评论序列最短覆盖路径( 情绪倾向性分类方法。由于共现网络的建立是一个增量式的过程,因此该算法 可以改造成增量式学习算法,能够随着训练数据的增加逐渐提高预测准确率。它的优点是: 1)能够对相对短小、随意性较强、完整性较差的评论文本展开词语联想,从而对完整性较差的评论进行属性值扩展; 2)能够对评论文本的冗余属性进行约简,约简后数据的属性模型为一般 型的10%左右。 徐琳宏等人 20首先计 算词汇与知网中已标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作为特征,用 类器分析文本的褒贬性。作者从大量的否定句子中提取出高频的否定词汇,则将其用相反意义的词汇替代,以消除否定句对文本观点识虽的负面影响,这种策略可以提高分类效果,同时处理程度副词附近的褒义词和贬义词。作者设定了一个观察窗口作为参数,按词汇与程度副词切分出的距离来计算,如果褒贬义词出现在观察窗口内,则按照程度副词的量级差别相应增加褒贬义词汇的词频,以加强对文本褒贬义强度的识别。 田胜利等人 21采用 法对名人网页进行情感分类,新文本到达后,根据特征项分词新文本,确定新文本的向量表示,计算新文本与训练文本集中所有文本的褒贬相似度和向量相似度,最后计算二者的相似度,根据相似度大小排序,选取最大的 K 个文本作为新文本的邻居,依次计算每类的权重,确定新文本的类别,把 算的值作为类条件概率密度,根据名人所在的领域先验概率,再计算出后验概率;根据计算出来的后验概率确定应该把文本分到哪个类别中。实验证明在样本分布不均匀时,该方法能取得较好的效果。 人 22研究了一种基于词 汇的针机器学习方法和语义情感分类方法结合起来,基于情感特征词汇生成了一个情感词汇集合,并用它们作为特征的一维空间用于机器学习的分类器。研究中作者采用三种特征进行不同的组合,首先是机器学习经常使用的内容无关的特征,比如词汇特征,语义特征和结构特征,另一种是内容特定的 元模型)和 元模型)的特征,以及基于词汇语义的情感特征, 近期的情感分类研究中被应用,第 1 章 绪论 7 它给 的每个同义词集合指定三个分别代表:褒义、贬义和客观的评分。该文献中对于情感特征的 获得,先进行词性标注,根据每个词性分别计算它的褒义、贬义和客观分值;由于 的每一个词汇具有多种意思,则分别计算每个词汇的形容词、动词和副词的平均极性分值,以此来选择情感特征词汇。作者结合了现存机器学习方法中的内容无关和内容特定特征以及现存语义情感分类中的情感特征。分别使用目前分类效果较好的 法对每种特征集合进行实验,作者在五种不同的在线产品评论数据集上进行测试,证明了该方法的优越性。 课题的主要研究内容与组织结构 本文主要是以中文网页的情感倾向性分析为基础,在搜索引擎 的基础上设计并实现了一个中文网页褒贬评价系统,主要包括情感分析棋坛和褒贬评价模块,针对搜索引擎提出了对于查询关键词的褒贬分析策略。情感分析模块中采用基于语义的方法对中文网页进行情感倾向分析,以情感特征词汇、常用情感表达词汇组合共同作为情感特征库,按照情感特征在网页中出现的位置进行分析的依据,计算得出网页的情感倾向值并且写入数据库。从用户接口输入查询关键词,褒贬评价模块根据返回的新闻网页查询数据库中对应的情感倾向值,结合文本的相关度得出系统对于查询关键词的整体褒贬评价。 以往的情感分析是在主观性文本的基础上进 行极性分类,将文本判断为褒义或者贬义,这种方法对于网络上既包含主观性文本又包含客观性文本的新闻来说,无法更好的区分不包含情感倾向的文本;另一个问题是召回率与准确率之间总是相互制约,准确率高,则召回率低,反之亦然,这导致系统的总体性能不高。以机器学习为基础的情感分类研究中,以普通关键词选取作为特征向量导致特征向量空间比较大,同时普通词汇对于文本情感倾向性的关联度不那么明显。以者 基础,通过计算特征项与基准词的语义相关度进行文本情感分类能达到令人满意的分类效果,但是基准词的选择难度较 大。 本文结合已有的文本自动分类技术,设计并实现一个对 闻网页进行褒贬评价的系统。以 感分析用词为基础,从大量语料中提取常用的情感词汇或者情感用语组合扩充情感特征库,分别采用机器学习方法和基于统计的语义方法构建情感分析模型,在分类过程中充分考虑网页的结构信息,综合考虑多种影响网页褒贬倾向的因素对网页进行褒贬倾向性计算,比如位置信息、文本中情感特征的词频,文本中情感特征与文本长度的比重,文本的链接率等,通过设定合理的权重系数和阈值将网页的情感倾向分为褒义、贬义和其它,提高褒义同济大学 硕士学位论文 中文网页评价系统的设计与实现 ,8 网页和贬义网面的 准确率和召回率,取得了很好的效果。 褒贬评价系统的关键在于对网页进行情感分析。在项目的整个过程中,作者参与系统的整体设计过程和关键算法的改进工作;在实现部分,本人主要承担了情感特征库的构建,情感分析模型,情感分析模块的实现工作以及褒贬评价标准的制度。网页内容的抽取工作和其余部分主要由他人完成,因此,本文在讨论了整体的设计方案后,对内容抽取部分简要介绍,对情感分析相关部分进行详细说明。 本文的结构安排如下: 第 1 章简要介绍了项目的背景和实际应用中对于新闻情感分析的需求,然后叙述了本文的主要工作和组织结构。 第 2 章是情感倾向分析的国内外研究综述,主要分为基于语义的文本倾向性分类和基于机器学习的情感倾向性分类。目前的情感倾向性分类主要针对词汇级别、句子级别和篇章级别。对于语义的情感倾向性分类,首先讨论了词汇语义倾向度计算的两种方法:基于 语义倾向性计算方法和点间互信息( 法,并详细介绍了基于语义的情感分类研究的国内外现状。对于机器学习的情感分类研究,首先简要介绍了常用的机器学习算法,包括支持向量机、最近邻方法和朴素贝叶斯方法等等,然后详细阐述了基于机器学习进行情感分类的国内外研究现状。 第 3 章主 要是关于系统的设计部分,首先给出了系统的概要设计,然后讨论了系统中关于情感倾向分析的关键问题,包括褒义网页和贬义网页的准确率和召回率之间的关系,重点分析情倾向性分析模块的详细设计和采用的方法,然后分别对各个模块采用的设计思想和关键算法进行讨论。首先说明选用哪些关键词作为情感特征,将不同的特征评估函数进行对比,最终选择卡方评估函数进行特征选择。在情感分析的算法选择部分,以朴素贝叶斯方法为基础 提出 了 基于二分类贝叶斯,进而提出了基于统计的语义分析方法,分别对网页阶段中所采用的分析策略和规则,最后给出搜索引擎对于查 询关键词的褒贬评价策略。 第 4 章详细介绍了系统中关于情感分析的实现部分,主要讨论了情感特征的选择方法、情感特征库的构建工作及情感分析采用的方法。情感特征库的构建主要是计算特征项的卡方统计值,然后结合人工编辑扩充情感特征库。情感倾向分析模块对于页面分析器处理后的网页,按照结构分块提取网页内容,情感分类过程主要考虑影响特征权重的因素,分配不同的权重系数来提高 分类结果。通过对朴素贝叶斯方法, 提出的 基于二分类 贝斯方法以及语义方法进行对比,发现基于统计的语义方法的有效性,系统最终采用了基于统计的语义方法。 第 5 章介 绍了情感分析模块中统计数据的来源及采用的人工褒贬分类标准,第 1 章 绪论 9 分别采用不同的情感分析方法和特征组合进行交叉验证,评测的标准主要是褒义的准确率和召回率,贬义的准确率和召回率,对评测结果进行对比和分析,证明了基于统计的语义分析方法的有效性。 第 6 章是本文工作的总结和展望,概括说明本文的主要内容和所做的工作,最后对下一步的工作进行展望。 同济大学 硕士学位论文 中文网页评价系统的设计与实现 ,10 第 2 章 相关技术介绍 文本的情感倾向性分析 1是对文本中的主观性信息进行分析,确定说话人或作者对某个主题的态度。情感分析的一个重要问题就是情感倾向性的判断,即判断创造 者的观点是褒义的、积极的、还是贬义的、消极的,这类问题也被称为情感分类( 一般情况下对主观文本进行情感分类或极性差别是指识别主观广本的情感是正面的赞赏和肯定还是负面的批评与否定。 目前学术界对情感倾向性的研究主要分为三个级别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论