面向金融领域的文本情感分析技术研究_第1页
面向金融领域的文本情感分析技术研究_第2页
面向金融领域的文本情感分析技术研究_第3页
面向金融领域的文本情感分析技术研究_第4页
面向金融领域的文本情感分析技术研究_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、面向金融领域的文本情感分析技术研究 硕士学位论文 面向金融领域的文本情感分析技术研究 THE STUDY ON SENTIMENT ANALYSIS FOR FINANCIAL TEXT 王亚伟 哈尔滨工业大学 2011 年12 月 国内图书分类号TP3913 学校代码10213 国际图书分类号6213 密级公开 硕士学位论文 面向金融领域的文本情感分析技术研究 硕士研究生王亚伟 导 师王晓龙教授 申 请 学 位工学硕士 学 科计算机科学与技术 所 在 单 位深圳研究生院 答 辩 日 期2011 年 12 月 授予学位单位哈尔滨工业大学 Classified Index TP3913 com

2、6213 Thesis for the Master Degree in Engineering THE STUDY ON SENTIMENT ANALYSIS FOR FINANCIAL TEXT Candidate Yawei Wang Supervisor ProfXiaolong Wang Academic Degree Applied for Master of Engineering Speciality Computer ScienceTechnology Affiliation Shenzhen Graduate School Date of Defence December

3、2011 Degree-Conferring-Institution Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 摘 要 随着互联网技术和金融产业的飞速发展网络上金融信息日益丰富同时 人们对金融信息的需求也日益增多金融文本的倾向性可能对相关个股或者公 司股票价格走势产生重要影响为此对金融文本进行进一步的情感分析有 助于投资者进行投资决策人工判断新闻评论等金融文本的倾向性的工作量 巨大迫切需要一种面向金融领域的自动文本情感分析技术和工具金融文本 的情感分析技术主要受制于高性能的文本情感分类算法和高质量的金融文本情 感标注语料库 为此本文首先对金融

4、文本的倾向性判定方法进行了研究结合文本情感 分类特点本文对感知器算法进行改进提出了基于优化感知器的文本倾向性 分析方法通过观察和分析金融文本的特点本文提取了情感词评价词等特 征来表示金融文本传统的感知器方法的优点是可以通过错误分类的样本来调 节各个特征的权重但却存在确定学习率的问题而传统的基于情感词典统计 的倾向性分析方法能够采用固定特征权值进行统计所以本文结合感知器和词 典统计方法提出了优化感知器的文本倾向性分析方法实验结果表明优化的 感知器方法能够有效地判断金融文本的倾向性在同一金融语料库上的倾向性 分析效果优于其它方法 其次由于人工标记语料具有主观偏向性的缺点从而影响语料库的一致 性并且

5、导致基于监督学习分析方法的综合性能下降借鉴PageRank 算法的思 想本文提出了一种新的DocRank 算法算法采用文本图的结构来表示文档间 相互关系优选出具有代表性的情感样本作为训练语料集合通过多组对比实 验表明DocRank 算法能够对语料库进行优化选择提高语料库的一致性 最后本文将上述算法应用到了专业的金融信息检索系统中从而帮助用 户更好的理解金融文本提升用户体验同时也验证了算法的有效性 关键词情感分析感知器文本图 - I - 哈尔滨工业大学工学硕士学位论文 Abstract With the rapid development of Internet and financial in

6、dustry both provisions and requirements of financial information people needed increase substantially The tendency of financial texts may have a major impact on the related stocks or companies therefore the further analysis of financial texts could help investors make investment decisions It is a ha

7、rd work for people to judge the tendencies of news review and so on This situation causes an urgently demand which needs an automated tool with analysis technology to determine news orientation However the technology is subject to the sentimental analysis algorithms with high performance and emotion

8、al corpus with high quality For this problem this paper first does research the methods which analyze the inclination of financial news According to the characteristics of the sentimental classification this paper improves the general perceptron algorithm and proposes an optimized perceptron method

9、to distinguish the inclination of the news By observing and analyzing the characteristics of financial texts this paper extracts the words set which includes the sentiment words appraise words and so on to express the financial texts Although the general perceptron method can adjust the weights of e

10、ach feature by using the misclassified samples it is hard to determine the rate of learning Taking into account the advantage of dictionary-based statistical method which can static the target objects using the fixed weight values of the statistical characteristics this paper achieves optimized perc

11、eptron method by combining the advantages of the perceptron method and dictionary-based statistical method The experiments show that the optimal perceptron method can effectively distinguish the inclination of the financial news and be superior to other methods on the effect of doing with the same f

12、inancial corpus And then corpus which is marked artificial has the defect of subjective bias that affects the corpus consistency to some extent thereby decline overall performance of the supervised learning method This paper proposes a new DocRank algorithm which chooses the most representative samp

13、le s as the training data set This algorithm which is based on text-graph structure and draws on the idea of PageRank algorithm is an optimal training method The experiments which - II - 哈尔滨工业大学工学硕士学位论文 are the base of the corpus after training by the DocRank algorithm also prove the effect of the p

14、erceptron method and the purified performance of this rank algorithm Finally above the algorithms proposed are applied to a professional financial information retrieval system This can help users understand the financial text s better and improve their experiences This also verifies the effectivenes

15、s of these algorithms Keywords Sentimental Analysis Perceptron Text-graph - III - 哈尔滨工业大学工学硕士学位论文 目 录 摘 要I Abstract II 第 1 章 绪 论 1 11 课题背景及目的和意义 1 12 情感分析国内外研究现状2 com 粗粒度的情感分类2 com 细粒度的情感信息抽取3 com 情感分析系统4 com 情感分析评测与语料资源 5 13 本文的主要研究内容 6 第2 章 相关技术介绍7 21 引言7 22 常见的机器学习方法7 com Rocchio 分类方法7 com 朴素贝叶斯方

16、法7 com K 最近邻方法 8 com 决策树 8 com 感知器算法 10 com 松弛算法 10 com 最小平方误差方法 10 com 支持向量机 11 23 本章小结 12 第3 章 基于优化感知器的金融文本倾向性分析 13 31 引言 13 32 基于语义词典统计的文本倾向性分类方法 13 com 情感词典的扩充 13 com 基于语义词典统计的文本倾向性分类方法实现 14 33 基于优化感知器的倾向性分析方法 15 com 特征提取和选择 15 com 优化的感知器方法 16 34 实验设置 17 com 语料集合 17 com 评价标准 17 35 实验结果与分析 18 com

17、 基于词典统计的倾向性方法的结果分析 18 com 优化的感知器方法的结果分析20 36 本章小结25 - IV - 哈尔滨工业大学工学硕士学位论文 第4 章 基于DocRank 的优化训练方法26 41 引言26 42 文本图的基本定义26 43 DocRank 算法27 44 实验设置30 45 实验验证与结果分析30 46 本章小结36 第5 章 金融文本情感分析系统的实现37 51 引言37 52 情感分析系统的框架 37 53 情感分析系统功能模块介绍38 com 金融爬虫模块39 com 分类模块39 54 情感分析系统演示 40 55 本章小结42 结 论43 参考文献45 攻读

18、学位期间发表的学术论文49 哈尔滨工业大学学位论文原创性声明及使用授权说明 50 致 谢 51 - V - 哈尔滨工业大学工学硕士学位论文 第 1 章 绪 论 11 课题背景及目的和意义 随着互联网普及人们的生活也发生了很大变化网络逐渐成为社会中各 种信息的载体特别是随着中国经济的不断发展股票国债等逐渐成为人们 的话题网络上也出现了越来越多的金融新闻及其相关信息据 CNNIC 发布 的第28 次中国互联网络发展状况统计报告显示截至2011 年6 月低中 国网民规模达485 亿比2010 年底增加了2770 万人增幅为 61 网络新 闻的用户规模达到362 亿其使用率为 747 虽然较2010

19、年使用率有所下 降但是用户规模是增加的微博作为新兴的媒体平台受到广大网民的热烈 推崇其用户数量呈爆炸式增长这也是网络新闻使用率下降的原因之一所 以随着网络信息的猛增如何快速准确的为用户提供其关心的金融信息成为 人们关心的话题 金融网站的出现就是为了满足人们对金融新闻的迫切需求一方面门户网 站和搜索引擎也顺势推出了财经频道金融社区等有代表性的网站有和讯网 新浪财经谷歌财经等而另一方面用户希望能够掌握公司或个股的相关重 要新闻以及其对公司或个股的影响怎样然而金融网站的信息往往存在覆盖面 不广涉及到的公司多针对性弱的缺点同时搜索引擎的金融社区只是把相 关性新闻呈现用户并没有分析其对公司或者个股的影响

20、因此如何判别金融 新闻对相关的个股或者公司的影响成为下一步要解决的问题 本文研究了金融文本的倾向性分析的方法致力于通过判断金融文本的倾 向性来辅助用户更好的了解其对相关个股或者公司的影响首先实现了基于语 义词典统计的倾向性分析方法分析了金融文本的一些特性考虑到不同特征对 金融文本的倾向性有不同的影响程度接着实现了经典的线性分类器方法进行 倾向性分析并对其进行了优化通过优化感知器的方法判断文本的倾向性 这样用户可以方便的得知新闻或者评论的倾向性由于情感语料库的构建过程 中存在一致性问题提出了DocRank 算法来对训练语料集合进行优选从而提 高监督学习的分类器在语料库上的性能 对于金融文本的倾向

21、性研究目的在于通过判断金融文本的倾向性来帮助用 户更好的了解其关心的个股或者公司的动向本文提出的DocRank 算法是对 金融情感语料库优化的一种尝试性方法可以对情感语料库的研究提供了参考 价值 - 1 - 哈尔滨工业大学工学硕士学位论文 12 情感分析国内外研究现状 一般来说广义的情感分析包括文本中说话人的心理态度而狭义的情感 分析主要指的是说话人针对某物或某是的观点是赞同还是反对的分类 与传统的基于主题的文本分类有相似但是又有其特殊的地方基于主题的文 本分类将文本分类到定义好的主题类别中去在这个分类过程中与主题相关 的词汇是非常重要的特征而在情感分析中主题相关词汇就没那么重要了情 感分析也

22、被称为观点挖掘情感分类主观性挖掘或者倾向性分析情感分析 技术作为文本挖掘的一个研究领域逐渐受到人们的关注情感分析技术还可以 与问答系统信息推送和搜索引擎等技术相结合以提高现有应用程序的实用 化水平 com 粗粒度的情感分类 1主客观识别 主观性文本和客观性文本都是语言表达的形式与客观性文本不同主观 性文本主要描述的是发表者对事物人物和事件等的个人 组织或群体等 想法 1 或者看法 由于网络上的许多文本信息都是客观性文本如果不把这些客观 性的句子识别出来会对情感分析带来极大的噪声文本的主客观识别就是将 文本中的没有情感色彩的客观文本去除掉从而实现主观语言的抽取相关研 2 究表明将客观语言去除掉对

23、主观性语言的分析是有作用的 对于主客观句子识别中可以通过识别并提取各种形容词的方法来识别句 2 3 子的主客观性 Yu 等人 针对新闻这类文本进行主客观分析并提出了构建 4 多分类器的方法来解决训练集合的不确定性和质量问题Wilson 等 利用贝叶 5 斯分类器来识别句子的主观性Pang 等人 把句子集合转化成图利用求图的 6 最小割问题来实现对句子的主观性识别叶强等人 针对中文建立了中文双词 主观情感词分类组合模式 2 倾向性分析 1 句子级 7 对于句子级的倾向性分析中文方面娄德成等 借助由哈尔滨工业大学开 发的句法分析器Depaser 完成了对于汽车评论句子的倾向性分析Ku 等根据单 8

24、 词的极性强度实现了句子级别的观点抽取和判断 Qu 等针对主观句子训练支 9 持向量机 Support Vector Machine SVM 分类器实现了对句子的倾向分析 2 文档级 - 2 - 哈尔滨工业大学工学硕士学位论文 对于文档级的倾向性分析最简单的方法就是基于统计的方法主要是根 10 据情感词典提取适当的特征然后通过计算获取文本的倾向性 由于机器学 习的方法在文本分类中的效果非常好人们也开始将机器学习方法应用到文本 11 情感分析中来Pang 等 研究了贝叶斯最大熵和SVM 三种机器学习的方法 12 在情感分析中的应用其中 SVM 的效果最好徐军等 在中文新闻和评论上 采用贝叶斯和最

25、大熵模型进行情感分类文献13 比较了SVM最大熵贝叶 斯和人工神经网络四种机器学习方法在中文情感分类中的效果根据专家知识 14 建立规则库然后基于这些规则结合SVM 分类器来判断文本倾向性的方法 15 Goldberg 等 对影评进行等级划分后采用了基于图的半监督学习算法来进行 16 情感判别徐睿峰等 提出了利用词级依存语义模版和上下文等多种特 17 征来对不同领域的中文新闻进行倾向性分析Zhou 等 用深度网络的半监督方 18 法实现对文本的情感分析Bickerstaffe 等 采用多层级方法实现了文本级别的 多分类的情感分析 由于情感分析技术受领域的限制而为每个领域标注和建立语料资源是不

26、现实的所以很多研究人员开始研究如何基于单一领域的情感分析技术来实现 向跨领域的情感分析Turney 等最早研究了领域迁移对情感分类器所产生的显 19 20 著影响 Wu 等 研究了图排序方法在跨领域情感分析的应用根据文本相 似度把不同领域的文本用图的形式表示出来然后把已知情感倾向的文本标签 1 或者- 1 传播到为标记的文本从而实现跨领域的情感分析 com 细粒度的情感信息抽取 细粒度的情感信息抽取是抽取情感文本中的有用信息也是NTCIR 和中文 倾向性分析等评测会议的基本任务包括观点词语的抽取及其极性的判别评 价对像抽取评价搭配识别及其抽取观点持有者的抽取 对情感词抽取和倾向性判别主要分为两

27、类一类是基于词典的方法另一 类是基于语料库的方法识别并判断情感词的倾向是文本情感分析的基础工作 也是文本情感分析重要考虑的特征对情感词的倾向性的判断的目的是用- 11 之间的一个实数值来代表情感词的倾向度其正负值分类代表词语是褒义还是 贬义的相对与零点的距离值的大小表示情感的强烈程度距离零值越远说明 这个词表达的情感越强烈从词性上来说情感词的词性绝大多数是是形容词 21 动词副词和名词 但是由于领域应用等的限制不论中文还是英文都没有 一个完整的情感词典所以识别情感词并判断情感词的倾向是情感分析的一个 首要任务 - 3 - 哈尔滨工业大学工学硕士学位论文 22 对于情感词的识别和倾向性分析最简单

28、的方法就是在已有基准词 的基 础上通过同近义词的关系扩展情感词典2324 文献9借助WordNet 中的词语 构建统一结构图然后通过待定词语与图中词语的相似度确定其语义倾向文 献22利用 WordNet 提供的同义反义和上下位等语义关系和注释来判断词的 情感倾向还有先根据搜索引擎AltaVista 提供的NEAR 来获得给定词和已知 情感词的共现概率然后分别计算给定词与已知的正负面情感词的点互信息 PMI 从而判断给定词的倾向性文献2526对于情感词的倾向性计算是根据 语言的启发式规则来进行的国内对中文词汇和短语的倾向性分析研究起步较 1 晚文献27给出了根据 HowNet 提供的语义相关场功

29、能和语义相似度来计算 给定词语的倾向性的方法徐琳宏等28 以 HowNet 为基础词然后计算给定 29 词语与基础词之间的关联程度来明确给定词语的倾向Yuan 等 研究了中文 情感词极性的自动获取 com 情感分析系统 随着情感分析越来越收到人们的关注基于情感分析技术的系统也逐渐增 多国外的情感分析系统有Pulse30 ReviewSeer31 Opinion Observer19 Web-Fountain32 Sentiment Analyzer33 Opinion-Finder34 其中Pulse30可以识别用户上传的一些关与汽车评论的自由文本的褒贬性 和强度ReviewSeer31是由

30、Dave 等研发的第一个对特定产品评论识别其褒贬 性的应用系统也是第一个情感分析的工具Opinion Observer19是由Liu 等研发 的产品信息反馈系统可以处理网络顾客对产品的评价信息可以统计涉及产 品特征的正负面评论然后以可视化的形式呈现产品特征的综合质量 Wen-Fountaion32 是由 Yi 等研发的一个基于多种数据类型的非领域限制的观点 挖掘系统由Yi 等研发的Sentiment Analyzer33是主要针对在线评论信息开发 的观点提取系统可以对其进行特征提取和观点抽取以及二者之间的相关性分 34 析Opinion-Finder 系统是由Wilson 等人 研发的一个可以

31、自动判断主观句 子及句子中与主观性相关的各种成分 国内情感分析的起步较晚加上中英文自然语言处理方法之间的差别较大 35 所以中文情感分析技术有其自己的特色姚天昉等人 研发的汉语汽车评论的 意见挖掘系统可以应用在电子公告和门户网站等上面该系统有效的利用了 极性词典和汽车本体等资源对汽车领域的适应性也比较好并把结果以可视 1 HowNethttpcomhtmle_indexhtml - 4 - 哈尔滨工业大学工学硕士学位论文 36 化的效果展示出来由Xu 等 研发的CUHK 包括三个组成模块分别为预处理 模块知识获取模块和句子分析模块此系统在 NTCIR-6 的MOAT 任务中取 得了很好的成绩

32、com 情感分析评测与语料资源 目前影响较大的评测会议主要有三个系列分别是文本检索评测会议 TREC 多语言情感分析评测会议 NTCIR 和中文倾向性分析评测 COAE TREC 情感分析评测会议主要是面向英文博客的情感分析进行跟踪和 分析文献37分析和总结了TREC2006 和 TREC2007 这两届会议中的主流技 术和存在的一些问题 NTCIR 多语言情感分析评测会议是由日本国家咨询中心策划主办的其 2009 年的 NTCIR-8 评测开始从单语言细粒度情感分析的基础上迈向跨语言的 情感分析检索和回答 中文倾向性分析会议 COAE 分别在 2008 2009 和 2011 年举办了三次

33、该系列主要是针对中文不同领域的文本进行不同粒度的评测促进了中文情感 分析的发展 除上面三个评测会议提供的语料资源外在这里还将介绍一些由国内外研 究单位和个人共享的预料资源主要为情感词典和情感标注语料集合其中情 感词典包括 General Inquirer 情感词典为人工分类标注极性强度词性以及 词语倾向的词典OpinionFinder 主观词典是由Wilson 等人编辑的包括MPQA 预料库等的多来源主观词语词典SentiWordNet 词典是通过对WordNet 的每 一个synset 的释义进行分析量化其正面负面和客观属性从而获得其相关 词条情感倾向的词典台湾大学褒贬义情感词词表是由LW

34、ku 等人整理的 繁体中文情感词词典本文是把他转换成简体中文后使用的HowNet 情感词 词表是基于HowNet 建立的情感词词表 情感语料库包括 由Wiebe 等人建立的 MPQA 语料库是一个进行了深度 标注的语料库对评论持有者对象极性以及强度等进行了标注由 Pang 和 Lee 建立的 Cornell 大学的 IMDB 影评语料库Illinois 大学芝加哥分校 Hu 和 Liu 建立的电子产品评论库台湾大学建立的基于新闻文本的标注语料库以 38 及Bliter 等人收集的多领域产品评论库Quan 等 从词汇段落和篇章三个级 别上分别对博客文章进行了标记建立的情感分类为8 类的博客情感语

35、料 - 5 - 哈尔滨工业大学工学硕士学位论文 13 本文的主要研究内容 本文主要对金融个股新闻及其评论进行倾向性挖掘针对语料库自身可能 存在噪声从而影响分类器的性能提出了DocRank 算法把语料集合用图的 形式表示并对其进行排序把排序比较靠后的文本作为噪声去掉接着用线 性分类器对语料进行倾向性分析 本文的结构组织如下所示 第一章介绍了本文的研究背景以及研究的目的和意义并分析了情感分析 技术现有的情感分析系统以及情感分析的语料建设和评测会议 第二章介绍了常见的机器学习方法以及其优缺点 第三章接着介绍了优化的感知器算法对金融文本的倾向性分析优化的感 知器方法的训练过程不是根据错分文本来调节的而

36、是调节权重系数达到训练 的目的 第四章详细介绍了针对人工标注语料库的一致性问题提出的算法 39 DocRank 算法即把文本集合转化成文本图的形式然后采用幂迭代法 进行 重要性排序提高语料库的一致性 第五章介绍了金融情感检索系统的实现过程并介绍了系统各个模块的原 理和功能 - 6 - 哈尔滨工业大学工学硕士学位论文 第2 章 相关技术介绍 21 引言 情感分析方法主要是机器学习的方法19202125 虽然这些方法对文本的倾 向性分析中没有像文本分类中效果那样好但是经过优化或者添加情感知识后 可以提高其分类效果本文中主要采用机器学习的方法来对金融文本的倾向性 进行分析下面介绍了几种机器学习的方法

37、 22 常见的机器学习方法 com Rocchio 分类方法 Rocchio 方法通过分别对正负面文本建立的一个原型向量实现分类的原 型向量是通过计算正面和负面文本的期望得到的当对一个新样本进行分类时 计算其和正负面文本的原型向量的相似度 这里采用是余弦相似度 如果和正 面新闻的原型向量的相似度高于负面文本的原型向量那么就把新样本分类为 正面文本否则分为负面文本 该方法的特点是简单和容易实现时间和空间复杂度低一般用来实现衡 量分类系统的基准系统使用而很少被实用的分类系统采用 com 朴素贝叶斯方法 朴素贝叶斯 Nave Bayes NB 方法是通过对训练集合特征的统计出其在训 练集合中正负面文本中出现的概率从而以此概率估计新样本属于正负面文本 的概率公式如下 2- 1 式中 正面或者负面文本的概率 某一个样本的空间向量表示 i 为0 时表示正面文本为1 时表示负面文本 已知样本 的情况下类别为c 的概率 i 样本 出现的概率 - 7 - 哈尔滨工业大学工学硕士学位论文 朴素贝

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论