在线评论分析系统【功能需求文档】_第1页
在线评论分析系统【功能需求文档】_第2页
在线评论分析系统【功能需求文档】_第3页
在线评论分析系统【功能需求文档】_第4页
在线评论分析系统【功能需求文档】_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

功能需求文档一、系统名称在线评论分析系统二、主要功能(1)能够抓取移动APP市场页面,并从页面中提取出评论区信息评论者、评论对象(APP应用)、时间、评论文本等(2)对评论文本进行特征和意见词抽取(3)根据特征和意见词对评论文本进行准确的情感倾向分析(4)利用网站进行结果展示和后台管理3、系统功能模块在线评论分析系统页面抓取模块特征和意见词抽取模块情感倾向分析模块数据存储模块用户交互模块页面抓取模块页面内容提取模块分词模块特征和意见词抽取模块特征权重计算模块分类模块数据库数据存储模块网站后台模块网站前端模块将系统划分为以下几个模块页面抓取模块、特征和意见词抽取模块、情感分析模块、数据存储模块和用户交互模块。各个模块的具体功能如下1页面抓取模块本模块包含两个子模块页面抓取模块、页面内容提取模块。页面抓取模块的功能是利用网络爬虫技术对互联网上的网页进行抓取,保存链接地址、页面HTML、应用市场、应用名称等信息。页面内容提取模块的功能是对抓取到的HTML页面进行解析,提取出评论区中的评论正文、发布时间、作者等有用信息。(2)特征和意见词抽取模块分词模块本模块包含两个子模块分词模块、特征和意见词抽取模块分词模块的功能是对评论文本进行中文分词及词性标注。特征和意见词抽取模块的功能是提取出评论文本中描述对象实体的特征词,如内存小、流量大、界面难看等等(3)情感分析模块该模块是本系统的关键模块,包含两个子模块特征权重计算模块、分类模块特征权重计算模块的功能是提取出文本的特征并计算其特征权重后,将文本保存成向量空间模型。分类模块的功能是使用台湾大学的LIBSVM模块进行分类。主要提供两个功能,即模型的训练和对新文本进行分类。(4)数据存储模块将页面的内容、情感分析结果等信息存储到数据库中(5)用户交互模块提供系统与用户的交互,包括分析结果的展现、用户配置选项、系统管理等4、系统运行机制系统开始运行后,页面抓取模块读取数据库中的用户配置信息,根据配置信息抓取网页,然后对抓取到的网页评论区中的文本内容进行提取,抽取出特征和意见词后,对评论文本进行情感倾向分析,将页面内容及分析结果保存在数据库中。用户通过浏览器访问WEB服务器,WEB服务器将数据库中存储的分析结果返回后,以网页的形式呈现给用户。用户还可以通过浏览器进行一些自定义配置,这些配置信息将写入数据库中,页面抓取模块会定时更新配置信息。5、系统开发和运行环境本系统开发平台为64位LINUX系统,页面抓取模块、页面内容提取模块和情感分析模块的开发语言为PYTHON,WEB开发语言为PHP,数据库选用MONGODB,使用的主要开发和调试工具有ECLIPSE、PYDEV、VIM和IPYTHON,WEB服务器选用APACHE。6、设计要点与说明(1)抓取模块1、需要抓取HTTP/PJYMAPPCOM/ISP/SITEAPPCHANNEL/PUBLIST中显示的所有应用市场中的APP应用的评论区信息,按应用市场分类。(3)情感分析模块1、实现对评论的情感倾向分析,准确率70以上2、预留开发接口、可对分析算法进行替换(5)用户交互模块1、可配置抓取的应用市场、情感分析算法2、界面可选择查看APP应用市场,有应用搜索功能3、情感分析的结果按单个应用展示34个关键的特征和意见词展示,正、负、中性评价条数和趋势图表(时间X轴)4、待续情感分析模块设计参考基于32节的算法研究,本文设计出的面向新闻和博客文本的情感分析模块的流程如图58所示。本模块包含了两个处理过程,训练过程和测试过程。其中,训练过程是使用已经标注好的语料集进行分类器的训练,测试过程是使用训练好的分类器进行情感分类。算法测试时,首先运行训练过程来训练分类器,然后通过测试过程来测试情感分类的准确度。在实际工程应用中,提前使用标注好的训练语料生成训练模型,然后将模型和分类器准备好,待分析的文本经过文本预处理(主要是分词和词性标注)、特征提取和权重计算等步骤后,进入分类器,使用分类器将其分到相应的类别中。5421特征提取与权重计算子模块本子模块在提取出文本的特征并计算其特征权重后,将文本保存成向量空间模型。将本子模块定义为类FEATUREEXTRACT,类的成员包括SENTIMENT_WORDS情感词集合NEG_WORDS否定词集合SHIFT_WORDS转折词集合PUNC_DICT情感标点符号集合ADV_WORDS程度副词集合FEATURES特征字典类提供的方法有_INIT_SELF,SENTI_PATH,NEG_PATH,PUNC_PATH,SHIFT_PATH,ADV_PATH构造函数,参数为词典路径LOAD_DICTSELF,DICT_PATH读入指定词典EXTRACT_FEATURESELF,CONTENT提取特征EXTRACT_FEATURE为提取文本中的特征的方法,先对CONTENT进行分词和词性标注,完成后依次根据给定的去查找情感词、否定词、标点符号、程度副词等特征,使用DICT数据结构来储存数据,KEY为特征,VALUE为特征出现与否,出现则VALUE标记为1,不出现标为0。最后返回标记了特征的DICT。5422分类子模块本节使用台湾大学的LIBSVM模块进行分类。主要提供两个功能,即模型的训练和对新文本进行分类。在系统中,将分类子模块封装成类SVMCLASSIFIER,类的成员有MODEL训练好的模型类的主要方法如下FEATURES_TO_VSMSELF,FEATURE_DICT将特征DICT表示成VSMADD_TRAINING_DATASELF,TRAINING_DATA_PATH添加训练数据SAVE_MODELSELF,MODEL,MODEL_PATH保存训练好的模型LOAD_MODELSELF,MODEL_PATH读入训练好的模型CLASSIFYSELF,CONTENT分类BENCHMARKSELF,DATA_PATH,TRAIN_PERCENT测试算法的准确度ADD_TRAINING_DATA添加训练数据,然后将训练数据提取特征并表示成VSM模型,最后将其转换为LIBSVM需要的格式。参数TRAINING_DATA_PATH表示训练数据所在路径,注意训练数据必须保存成3个文件夹,并分别以1、1、0命名(1为正向,0为中性,1为负向)。LIBSVM的数据格式为CLASSIFY,将CONTENT进行特征提取并保存成LIBSVM需要的格式后,使用SVM分类器对文本进行分类。返回值为1、1或0。这也是本文的系统中实际使用的接口。BENCHMARK函数用来对算法的准确度进行测试,包含两个参数,一个是DATA_PATH,表示训练数据所在路径,另一个参数TRAIN_PERCENT表示训练数据占总数据的比例,默认的TRAIN_PERCENT取05,即随机取一半的数据作为训练,另一半数据进行测试。返回值为分类的准确率。情感倾向分析算法研究目前国内外对于新闻和博客文本的情感分析研究已经比较成熟,本文沿用PANG等人提出的文本分类的思路,使用基于文本分类的情感分析算法,将情感倾向分成正向、负向、中性三类。在经过对不同特征和不同分类方法的实验后,选择出对于网络舆情的新闻和博客文本来说,准确率最高的组合。基于文本分类的情感分析算法的具体过程如图所示。情感分类分为两个过程,训练过程和测试过程。训练过程首先对训练集分词、特征选择及特征权重计算,然后构建分类器。测试过程使用测试集经过分词、特征选择及权重计算后,通过分类器进行分类,然后对分类结果进行评估。本节随机抓取了新浪、网易、腾讯等网站的新闻文本和网易、凤凰博客文本共3000篇,经过页面内容提取和情感倾向的人工标注后,从中筛选出正向文本986篇、负向文本992篇和中性文本978篇,使用这些文本作为训练语料来评测分类器的性能。情感分类跟将文本按领域分类不同,通用的特征提取方法如文档频率法、信息增益等在按领域分类中能起到很好的效果,但情感分类有其独有的特征,使用通用特征提取方法的效果并不好。情感分类中可以选择的特征主要包括词语、情感词、文本中含有的否定词、转折词、程度副词、程度标点符号、情感词的词性等。表33中详细列出了这些特征及对特征的描述。本节采用布尔权重(PRESENCE)和特征出现频率(TF)两种特征权重计算方法,选取不同特征进行组合、使用不同分类器来进行情感分类实验,分类工具使用WEKA数据挖掘工具。评测方式使用数据挖掘中常用的十折交叉验证,即将数据随机的分成10份,评测时,使用其中的9份作为训练集,另1份作为测试集,依次进行10次实验,最后计算平均值。评测的指标包括准确率、召回率和FMEASURE。准确率指的是分类正确的文档与所有分到该类的文档之间的比值。召回率是指分类成功的文档与集合中所有该类文档之间的比值。FMEASURE用来综合评价准确率和召回率,用公式31计算。在本文中,参数A取1。WEKA中计算平均FMEASURE的方式是对各个类别的FMEASURE加权平均,而不是将平均准确率和平均召回率代入公式31来计算,为了前后一致,本文中计算平均FMEASURE时全部采用加权平均的方式。由于特征权重计算方式有两种,而特征和分类方式也有多种,这里先分别使用两种特征权重计算方式和三种分类方式NAIVEBAYESMULTINOMIAL、SVM线性核函数、RBF核函数进行初步筛选。选定的特征为所有情感词和单个情感词。共有9种组合方式(所有情感词只使用特征出现频率这一种权重计算方式),实验结果如表35所示。由表35可以看出,使用RBF核函数的SVM的分类效果比NB、线性核函数要差很多,因此在后面的实验中,舍弃该方法。所有情感词的总个数这一特征比单个情感词这个特征的分类效果要强很多,因此选择单个情感词作为基础特征。而选择布尔权重与特征出现频率两种特征权重计算方式的结果相差不大。因此,我们在筛选特征组合的实验中,只使用特征出现频率这一种特征选择方法,在确定特征组合以后,再使用最佳特征组合来最终选择使用哪种特征权重计算方式。下面开始进行特征组合的筛选实验,以单个情感词为基础特征,依次对否定词、转折词、程度副词、情感标点符号、词性等特征进行考查,实验结果如表36所示。在加入了否定词、转折词、程度副词、情感标点符号等特征后,情感分类的准确率略有提高,而加入词性后的准确率会降低;SVM分类器的效果总体上比朴素贝叶斯分类器要高5个百分点。可以确定否定词、转折词、程度副词、情感标点符号等特征对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论