




已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六届浙江省大学生电子商务竞赛参赛作品第六届浙江省大学生电子商务竞赛作品名称: 互联网商品评论情感倾向性分析系统 作品类别: 技术类 2011年3月15日目 录第1章项目概要51.1项目背景51.2项目意义71.3研究目的81.4项目主要内容8第2章现状分析102.1国内外研究现状102.2未来发展趋势122.3竞争影响力分析132.4SWOT分析142.5市场需求分析152.5.1针对大型评价网站的市场需求152.5.2针对商品生产商的市场需求152.6市场定位及特点162.7市场优势16第3章平台模块与整体架构183.1爬虫模块193.2分析模块193.3展示模块20第4章关键技术介绍224.1网页评论自动获取与预处理224.2利用自然语言处理技术抽取文本的语义信息234.3基于情感词典的情感词极性分类与情感强度定量计算方法研究244.4基于特征的情感量化分类计算方法的研究254.5基于半监督机器学习方法的特征与情感信息的识别254.6文本倾向性分析的服务化封装29第5章平台的详细功能展示305.1搜索305.2对比315.3查看评论325.4可定制的特征分类方法335.5查看分析后评论345.6提交评论35第6章创新和特点分析366.1全自动的评论情感倾向性分析366.2基于多种自然语言处理和机器学习技术366.3细粒度情感倾向性分析方法366.4人性化的评论浏览方式376.5多种发展模式并行376.6独特的营销方法38第7章营销策略397.1市场定位397.2市场推广397.3市场策略407.3.1渠道策略407.3.2定价策略407.3.3广告策略41第8章财务分析428.1融资情况428.2股本结构428.3资金运用438.3.1预计财务报表438.3.2项目销售预测表448.3.3预计损益表458.3.4预计资产负债表468.3.5项目投资效益分析488.3.6回收期498.3.7净现值(NPV)498.3.8内含报酬率(IRR)50第9章风险分析与对策519.1经营风险与对策519.1.1经营业绩的风险与对策519.1.2客户的风险与对策519.1.3产品技术方面的风险与对策529.1.4融资的风险与对策529.2行业风险与对策539.2.1产业政策的风险与对策539.2.2行业内部竞争的风险与对策539.3其他风险与对策54第10章总结与展望5510.1项目成果5510.2未来工作55参考文献56表索引表 21项目SWOT分析14表 41标注集及相关说明27表 42标注扩展集及相关说明27表 81公司股本结构表(单位:万元)42表 82期初资金用途表43表 83人民币贷款利率表44表 84项目销售预测表(单位:万元)44图索引图 11 中国网民与普及率5图 31 整体框架示意图18图 32 爬虫模块19图 33 分析模块19图 34 展示模块20图 41 文本倾向性分析框架图25图 42 特征情感词对提取过程26图 51 搜索功能30图 52 高级搜索功能31图 53 两家酒店对比图示31图 54 评论列表32图 55 详细评论内容32图 56 数值化、图形化分析结果33图 57 特征分类33图 58 分析后评论34图 59 评论提交35图 71 互联网情感分析系统推广流程图39图 81 公司股本结构与规模42第1章 项目概要1.1 项目背景随着互联网在全球范围内的快速发展和普及,网络媒体已经成为了继报纸、广播和电视之后的“第四媒体”。根据中国互联网络信息中心(CNNIC)2010年12月发布的第27次中国互联网络发展状况统计报告,截止2010年12月我国网民数达到4.57亿,互联网普及率持续上升增至34.3%。其中网络新闻用户达到3.53亿人,信息检索用户达到3.75亿人,即时通信用户达到3.53亿人,中国网页总数已经超过600亿个,其中文本内容占网页总数的80%以上。另外,截至2010年12月,网络购物用户规模达到1.61亿,使用率提升至35.1%,上浮了7个百分点,2010年用户增长48.6%,增幅在各类应用中居于首位,是用户增长最快的应用,而网上支付和网上银行也以45.8%和48.2%的年增长率,远远超过其他类网络应用,我国更多的经济活动正在加速步入互联网时代。网络购物用户规模较快增长,显示出我国电子商务市场强劲的发展势头。中国网民与普及率如图1-1所示。图 11 中国网民与普及率如此庞大且快速增长的网络用户群体加上Web2.0模式的互联网应用,使网络内容的数量和网络信息的访问量都以前所未有的速度增长,互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的主观性文本大量存在,信息形式多种多样,如新闻、博客文章、产品评论、论坛帖子等等。随着电子商务的发展,主观性评论文章越来越多,在一定程度上帮助了潜在消费者购买抉择,同时也对产品商家和服务商提供了很好的反馈意见。如果评论信息只有几十条,普通浏览者还能应付,但如果是数以千、万计的信息量,就难以全部浏览。再加上一些枪文(收买别人帮自己做广告写的文章)等噪音的出现,并且这些噪音往往穿插在前几页,这将严重影响浏览者获取信息的全面性和判断的正确性。另外,产品商家、服务提供商也非常需要从评论中获取到顾客评价的第一手资料,以帮助其提高产品质量和改进服务。例如,阿里巴巴、淘宝、卓越等电子商务网站每天新增的评论数量十分庞大,如果所有评论中的情感信息只通过人工分析和判定得出,则人力、物力将消耗巨大。当然有些网站在用户评论时,也往往要求用户给出评论对象的整体量化评分,如果只针对这些评分进行简单统计而对具体评论信息不进行语义分析和信息挖掘,则不能获取到基于商品属性的细粒度情感倾向性分析结果,而这些结果往往是用户和企业最关心的,是用户选择商品的重要参考建议,也是企业改进商品质量和服务的重要资讯来源。近年来,电子商务在第三产业迅猛发展,同时其惊人的发展速度带动了相关行业的繁荣,电子商务服务行业由此形成。这种电子服务面向电子商务应用,成为信息服务业发展中的新亮点。电子商务服务业正在崛起,政府的支持、应用的丰富、分工的精细、跨界合作的实现、各类企业的涌现推动整个行业滚雪球式向前发展。本系统的创业计划以商品(包括服务性商品)评论分析为主,并逐步扩散到舆情、影评分析等各个领域,为普通消费者、企业乃至政府提供精确而全面的决策依据。本系统在传统的数据挖掘分析基础上另辟蹊径,它不仅令用户摆脱了信息轰炸的困扰,其对信息监控、民意调查、电子学习、报刊编辑、企业管理等方面也有着重要的作用和意义。1.2 项目意义目前,政府和公司企业对市场信息及用户信息的掌握主要来源于调查问卷等传统形式,这类传统方式耗费了大量的财力人力物力,但其结果并非尽如人意。如果采用本项目的文本情感倾向性分析系统,就可以更方便快捷地掌握互联网各个领域的信息,更全面系统地了解公众舆论对商品的情感倾向。电子商务的快速发展使其已经拥有庞大的用户群体,电子商务的发展势头决定其潜在客户数量众多。对于这两类群体,他们可以利用本系统直观地了解到其余用户对互联网商品的评价的整体信息,帮助他们做出最优购买选择。互联网商品情感倾向性分析,就是对这些商品评论信息进行有效的分析和挖掘,识别出其情感趋向,或得出其观点是“赞同”还是“反对”,甚至情感随时间的演化规律。通过该技术的应用,本系统可以从大量商品评论文章中自动识别出情感语句以及分析出相应评价对象的倾向性结果,大大节省了人力、物力和时间。通过分析得到的数据,很容易了解用户的消费需求,同时为企业、政府等机构提供重要的决策依据。因此,近年来文本情感倾向性分析已引起了人们越来越多的重视,已经成为信息检索和自然语言处理领域的热点研究问题。从近年来在ACL、WWW、SIGIR、CIKM等顶级国际会议上的文章发表情况就可以看出已经开始吸引越来越多的学者加入这方面的研究,成果也越来越丰富。同时,由于其在企业的商品评价、政府部门的网络舆情监管等方面的应用,吸引越来越多的企业参与到该领域的研发中来,如国外的Google、Autonomy公司,国内的阿里巴巴、北京拓尔思、北大方正等。本系统主要以用户的主观性文本为研究对象,由于其信息量大、非结构化等特点,文本情感倾向性分析还存在不少的问题和难点,如词汇的情感强度量化、特征识别、倾向性分析具体实现方法等,导致现有文本情感倾向性分析的准确率不高,影响了实际的使用。通过研究文本情感倾向性分析的新方法,提高分析的准确率,最后在商品评价中进行示范应用,为商业推广奠定基础。综上所述,互联网商品情感分析是当今信息检索和自然语言处理领域研究的热点问题,具有重要的科学意义和实际应用价值。通过在商品评论中的示范应用,本项目将进一步推动浙江省乃至全国电子商务的发展。1.3 研究目的随着电子商务飞速发展,商品评论中的情感倾向性分析逐渐成为当前的研究热点。目的是利用网络上丰富的顾客评论资源,进行商品的市场反馈分析,为生产商和消费者提供直观的针对商品各个特性的网络评价报告。当前,不少网站在提供主观性文本评论发布的基础上,还提供了针对评价对象的总体量化评分功能,如亚马逊,商品评论进行了五星制评级,5星为最好,1星为最差;还有部分网站推出了针对评价对象各个属性(特征)的细粒度评价功能,如携程网,它实现了对宾馆的房间卫生、酒店服务、周边环境、设施设备这四方面的5分制评级,并给出综合得分。但由于各个网站的细粒度评价结果基本建立在人工判定基础之上且标准不够统一,所以针对评论的细粒度倾向性自动分析是一个重要的研究趋势。在这个信息爆炸的时代,本项目的商品情感分析系统能优化商品评论分析,为互联网用户提供直观、便捷的商品评价信息,为企业提供全面、系统的商品评价报告。1.4 项目主要内容本项目主要内容为:研究并创建一个具有普适性的互联网商品评价情感分析系统。此系统能够自动分析来自互联网的海量评论,同时根据不同的需求提供不同的分析结果的表达方式。本系统利用语言学知识,对句子进行了语义分析,并在此基础上结合机器学习方法实现产品评价的意见挖掘和倾向性分析。本项目的自然语言处理技术具有先进性,对文本进行句法结构分析和语义理解(主要利用语义角色标注技术)。本系统采用细粒度情感分析方式,以句子为单位,挖掘出主观句中评价对象的特征及其对应的情感词,如评价对象为酒店,其特征有设施,环境,交通,服务等。本系统为用户提供了可视化、细节化的分析结果展示。用户可以自主选择自己所偏重的特征进行个性化分析,同时还能够针对同类商品的不同品牌或型号进行横向比对。而产品评价的情感倾向性分析系统分析获得的分类统计结果,既提供给厂商以进一步改进产品的质量,又提供给潜在的顾客作为选择购买产品的参考,同时还可以提供给代销商作为进货品种和数量的依据。本系统还能够提供热门商品排行。用户可以随时了解到热卖产品的信息;此外,用户还可参照本项目系统做出的趋势预测,对商品未来的发展方向有所了解。对于本项目的内容,可举下例加以说明。某用户需要了解某酒店的用户反馈情况,包括酒店的环境、设备、服务、服务等等。目前人们一般只能通过浏览各个网站上的评论信息进行决策,而评论信息数量往往十分庞大。本项目的目标就是提供一个评论分析系统,用户只要设定感兴趣的酒店,本系统将会提取互联网中各大网站中关于此酒店的评论信息,并将经过分析后的分类量化结果提供给用户。用户若有个性化需求,可以设置对于此酒店的某方面信息,如设备、环境,系统将会有针对性的对这几方面进行量化分析,并根据需要列出这些评论的详细内容。同时本系统还提供对比信息,如用户需要对比酒店A和酒店B的评价分析结果,系统可以根据用户的选择,将分析结果用不同方式展现给用户,让用户有一个直观、简便的体验。此外,本系统提供的热门酒店排行可供用户参考。第2章 现状分析当前,商品评论中的情感倾向性分析成为研究热点。但由于各个网站的评价标准不够统一,再加上原本的细粒度评价结果更多的是建立在人工判定基础之上,所以针对评论的细粒度倾向性自动分析是一个重要的研究趋势。从文本倾向性分析方法的研究趋势来看,更多的是利用自然语言处理技术和机器学习方法相结合,面向基于句子的细粒度倾向性分析研究。目前文本倾向性分析的方法大致有以下三类:(1) 基于一般性统计方法。主要对所有情感项进行简单的倾向性统计,统计方法有求和法和向量空间模型法,根据最终得分与事先设定阈值比较得出倾向评价,一般用于篇章级的粗粒度情感倾向性分析。(2) 基于机器学习的方法。通过对大量标注语料的训练,生成倾向分析模型,用来对测试文本进行情感分类。该方法主要依赖标注语料库,目前专门应用于情感倾向性分析的语料库非常少,所以半监督机器学习方法的研究是一种趋势。(3) 基于自然语义处理技术的方法。利用成熟的自然语言处理技术,在一定程度上实现了文本的语义理解,帮助更正确的分析情感倾向性,更多的应用于句子级的细粒度情感倾向性分析。该方法一定程度上更接近人的思维和判断,它首先进行文本的语义分析,然后挖掘其中的语义关系,最后分析出评价对象的情感倾向性。2.1 国内外研究现状目前,国内外已有不少学者和机构开展了主观性文本倾向性分析研究,并设计出了一些系统应用于商品评价、舆情分析等不同领域。现将当前国内外主观性文本倾向性分析研究与应用现状和发展趋势进行总述和分析。从具体的应用来看,NEC美国研究所Dave等人研究并开发的ReviewSeer是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统,通过对评论性文章的语义倾向分析,为商品的受欢迎程度进行打分评价,该评价结果是极具价值的商业信息。微软研究院的Gamon等人研究利用聚类、半监督学习方法进行句子的语义分类,并开发了Pulse系统实现自动挖掘网上用户所上载的自由文本中有关汽车评价中的褒贬信息和强弱程度。美国伊利诺大学的Liu Bing等人研究并开发了Opinion Observer系统,实现网上顾客的在线商品评价处理,对评论中出现的产品各个属性(特征)的用户褒贬意见进行统计,给出友好的产品特征分类可视化界面展示,同时还提供了同类产品之间的评价比对功能,使各部分属性(特征)优劣一目了然,极大帮助了用户的购买决策。IBM研究中心的Yi等人研究并开发了一个面向在线评论的情感分析系统(Sentiment Analyzer),该系统利用自然语言处理技术建立情感词库和情感语言模式库,对在线评论进行特征术语抽取、观点提取以及观点和特征关系的关联性分析,最终实现在线评论的情感分析。美国匹兹堡大学的Wilson等人研究并开发了OpinionFinder系统,它实现了主观性句子自动识别以及句子中各种与主观性有关的成分(例如,意见源、直接的主观性表达、说话事件(Speech Event)、情感等)挖掘。英国科波拉软件公司于2005年推出了一套舆情感情色彩分析软件,它主要是通过网络舆情过滤和分级技术实现的。该技术可自动分辨语法成分,例如名词、动词和形容词,并确定动词的主语和宾语,因此可以去除一些与文章主要内容无关的词语,从而判断文章的感情色彩是正面、负面还是中立的,以帮助政府和一些大公司了解民意。另外美国国土安全部于2006年起利用能概述和分析新闻报道中公众意见的情感分析软件获取民众意愿,把握社情民意的走向。从国内来看,文本倾向性分析技术更多是应用于网络舆情监控系统,如方正的智思系统、厦门美亚柏科、邦富软件和谷尼国际软件等。针对网络舆情中各类评论的情感分析,必然要用到文本倾向性分析技术,但由于上述软件更多的是基于篇章的粗粒度情感倾向性分析,从技术实现上相对比较简单和传统。近几年,已有不少学者开始细粒度情感倾向性分析方法,如上海交通大学的姚天昉等研究开发了用于汉语汽车论坛的意见挖掘系统,可以实现在电子公告板、门户网站等各大论坛上的意见挖掘,对褒贬信息进行综合统计后给出可视化结果。香港城市大学的Tsou等人设计了一个面向报刊上关于政治人物具有褒贬性的报告的情感分类系统,通过利用统计分析方法得到最终的文本褒贬分类和强度。清华大学的孟凡博等人设计了一个基于关键词模板的电影评论褒贬倾向判定系统,从结果来看,集外测试的效果不够理想,主要缺乏对句子的语义理解。哈尔滨工业大学的徐军等人使用机器学习方法实现了一个新闻情感自动分类系统,在一定实验环境下,最高达到了90%的准确率,领先于其他基于篇章的情感倾向性分析方法。2.2 未来发展趋势情感挖掘方面的研究刚刚起步,针对情感分析领域的研究现状,以下几个方面是未来研究中值得关注的方向:情感资源的建设和评价体系的建立。语料库的建设是相关工作顺利开展的基础,语料标注是语料库建设的关键技术,应进一步研究情感标注体系,考虑如何从包括词汇层(如词性标注)、句法层(如语法分析)和语义层(如属性和情感的对应关系)的多个分析层次体现主观性文本的语言现象,形成较细颗粒度的公开语料库。也应进一步丰富词典资源,一方面是静态层面的研究,即词语在静态词典中所表现出的褒义、贬义等情感属性,这些属性可以直接在语法信息词典中描述;另一方面是描述词语的情感信息在进入句子框架下发生的偏移现象,即词语褒贬倾向的动态句法(框架)研究。统一的评价体系是对方法进行客观评价的前提,也是不可忽视的基础性工作,对相关研究的开展具有重要的意义。语句中各语义成分及其对应关系识别。情感分析的最终目标是挖掘消费者对商品属性、功能等的态度或评价。可在现有句法分析研究(如依存分析等)的基础上,结合情感知识,获得针对情感分析问题的方法或模型。系统研究的开展。目前,相关工作比较零散,而情感分析领域的问题之间具有紧密的联系,系统性地研究非常重要。一方面应该着手建立初始的情感词典资源,为较细粒度的句子情感分析提供支持,另一方面也应依据句子水平的分析结果,对词语在具体上下文中的褒贬性以及情感性进行判断。在线商品评论经济价值的研究。在线评论对消费者购买行为有着巨大的影响,而相关的理论研究才刚刚起步。由于缺少对在线评论以外影响商品销售因素的控制,如商品物理属性、市场需求环境和目标客户群特征等,现有研究获得的结论并不一致,规律性的发现还不多见。因此,对在线商品评论与销售情况的影响关系及其作用机制的研究尚需进一步深入,企业应如何管理和利用在线商品评论的研究仍略显不足,这些都是值得关注的课题。2.3 竞争影响力分析根据著名的战略管理学者迈克波特的观点,在一个行业中,存在五种基本的竞争力量,即潜在的新进入者、替代品、买主、供应商以及现有行业竞争者间的抗衡。潜在的新进入者:现阶段互联网情感分析系统的开发尚处于起步阶段,所以面对巨大的市场,会有很强的资金和技术投入。但是由于情感分析信息系统这个行业本身的特殊性,它要求企业不仅要有研发资金,还需要比较强的技术力量,并且拥有一些该行业的相关从业经历以及背景了解,能够很好的了解客户真正的需求,所以相对来说进入这个行业的技术以及资金要求比较高。同时一些大型的专业的软件开发公司也逐渐开始向这块业务发展,将成为潜在的进入者。替代品:目前由于情感分析系统本身就是一个新兴的事物,它的替代品很少,所以需求弹性很小。买主:分为带有电子商务业务的大、中、小型企业。大型企业:购买力巨大,尤其是一些专业化很强的电子商务企业,但是他们对技术的需求也很高。中型企业:潜力很大,对与产品成本的选择稍低,购买力和上升潜力巨大。小型企业:本身处于上升阶段,追求资金和规模的积累,一旦形成规模经济,就可以考虑引入相关的系统。2.4 SWOT分析表 21 项目SWOT分析外部环境条件匹配自身因素条 外 件 部 匹 环 配 境自 身因 素O:机 会市场:极具潜力的目标市场。同时,市场刚开辟,竞争力弱。消费群体:消费者的消费导向很大一部分依据网络评价。企业公司急需基于市场真实的反馈信息。T:威 胁竞争对手:来自国内与国际竞争对手的威胁。人员素质:项目人员初步接触数据挖掘技术领域,专业性以及实施能力相对薄弱。S:优 势项目基础:互联网在全球范围内的快速发展和普及,用户基数庞大。技术:可依托的技术研发人员力量雄厚。人力:指导老师尽心尽力,团结进取,专业知识扎实。SO:强项与机会技术先进项目创新老师谆谆教导ST:强项与威胁市场定位专利机制团队年轻有活力W:劣 势融资:初期融资渠道不畅。产品:初期系统功能不完善,市场认可低。团队:团队管理经验不足。销售渠道:建立销售渠道有一定难度。WO:弱项与机会项目开发市场认可拓宽融资渠道WT:弱项与威胁欠缺资金支持广告宣传项目管理难点2.5 市场需求分析2.5.1 针对大型评价网站的市场需求根据上文提到,截止2010年12月我国网民数达到4.57亿,互联网普及率持续上升增至34.3%。网民当中很大一部分的网络行为为娱乐、商务、交易、沟通等。在如今网络当中充斥着铺天盖地的网络信息,想要在这些商务信息当中获得自己需要的,就必须花费大量的时间与精力进行网络信息收集,而对于大多数网民来说,信息检索技术并不是每个人都有相应的了解与运用。基于此问题,口碑网、大众点评网等大型评价网的出现在很大程度上解决了这个难题,但是问题仍未解决。比如,在现今电子商务网站提供主观性文本评论发布的基础上,还提供了针对评价对象的总体量化评分功能,如亚马逊,商品评论进行了五星制评级,5星为最好,1星为最差;还有部分网站推出了针对评价对象各个属性(特征)的细粒度评价功能,如携程网,它实现了对宾馆的房间卫生、酒店服务、周边环境、设施设备这四方面的5分制评级,并给出综合得分。这个决策从表面上可以认为解决了对商品评论的评级机制,然而,我们忽略了一点,人是一种复杂的生物,他们的思维与行动有可能会背道而驰,真正能展示一个真实情感的路径,就是通过对主观性文本分析。现今的评论网站可以看到不同人对网络商品不同的评价,但是缺少一个系统的、直观的、整体的评价。因此,通过本项目开发一种高效的主观性文本情感倾向分析软件迫在眉睫。对大型评价网站来说,使用本系统可以提高在电子商务领域的竞争力,使网站更具有客观真实的参考价值。用户更可以一键获取有关商品的整体评价。2.5.2 针对商品生产商的市场需求商品的生产商或者服务的提供商通过本项目的预期成果,能够及时了解本企业所提供的商品或服务的反馈信息,为改善产品性能、提高服务质量赢得更快和更有效的机遇,这相当于为企业节约了大量的市场调研和市场反馈信息获取的成本,间接地加快了企业产品、服务升级的进程。2.6 市场定位及特点本系统的应用范围相当广泛,目标用户可以是普通个人和企业。对于普通个人用户,利用本系统所提供的功能,可以直观的了解到目标商品(服务)的细粒度量化评价结果,而不需要逐句浏览大量的评论来全面获取此商品(服务)的评价信息,同时还可以根据不同的商品特性进行分类查看。系统的自动比对功能也给用户在不同商品进行艰难抉择的困境下提供有力的支持,根据选择自己感兴趣的商品特性,真正做到适合自己的才是最好的。对于企业用户,此分析结果无形中节省了他们大量的市场调查费用,从此评论分析系统中他们可以了解到消费者关注的是哪些商品,这些商品的哪些特性是消费者重视的,哪些问题是消费者敏感的,哪些商品易于被消费者接受等等。这些信息对于一个企业来说无疑是一笔巨大的财富。同时对于有特殊要求的企业,本系统可以提供更详细的评论分析服务。对他们有针对性的要求,进行系统升级、改造。特别对于大型评论网站,可以直接引用系统的分析结果,或者与本团队合作,根据不同的需要对系统进行特殊化调整,以适应网站的运行策略。根据不同的侧重面,此系统还能够提供网络舆情分析、网络信息抽取、竞争新报系统等方面的应用。2.7 市场优势随着电子商务的不断发展,用户对目标商品的已有评论数据越来越关注,利用本项目的研究结果可以帮助电子商务网站针对本地海量评论数据实现自动化统计分析和可视化结果展示,使顾客可以一目了然的了解各种商品的细粒度评价结果,节省了大量的时间和精力,从而一定程度上也提高了该电子商务网站的点击率和人气。当前,电子商务发展迅猛,网站数量与日俱增,本项目的市场前景十分看好。互联网上的信息日新月异,政府相关部门针对网络舆情有监控和分析的需求,如宣传系统、关注民情和民生部门、监督监察部门、产业经济部门等等,这些部门机构在省市县三级都有设置,全国的市场容量和潜力是巨大的。本项目研究的文本情感倾向性分析技术可以应用于舆情信息的极性判断及热点事情的发现和追踪,具有重要性意义。因此,本项目的研究内容市场前景良好。第3章 平台模块与整体架构平台整体架构分为三大模块:爬虫模块(crawler)、分析模块(analyser)、展示模块(layout)。框架如图3-1所示。图 31 整体框架示意图3.1 爬虫模块图 32 爬虫模块(1) 文本提取模块该模块用于提取指定网页中的评论内容,可根据不同的页面编辑不同的模板精确提取目标内容。(2) 预处理模块预处理提取的文本评论:去除HTML标签,去除重复标点符号,去除空行,去除多余空格,断句,分词,POS标注,SRL标注(POS,SRL为自然语言处理技术,在第四章详细介绍),最后将文本评论结构化后存入数据库供进一步分析使用。3.2 分析模块图 33 分析模块分析模块是整个系统的核心部分,承担着分析自然语言的任务。在此模块中对评论文本进行“流水线”处理。(1) 关键词(特征-情感词对)提取模块将爬虫模块处理过的结构化文本评论转化为机器学习要求的格式,并使用机器学习技术提取关键词(包括特征词,情感词,程度副词等),最后将提取的关键词存入数据库。(2) 情感倾向性分析与量化模块此模块分词特征-情感词对的情感倾向性,使用基于字频的倾向性分析,并配合哈工大同义词林进行情感倾向的量化计算。(3) 特征词聚类模块此模块将根据需要对特征进行归类,既将描述类似或相同特征的词归为一类。需要分为两种,其一为特征预先设定(由系统直接设定,或由用户设定),其二为选择出现频率靠前的一些特征,最后将归类结果储存进数据库。(4) 评论整体倾向性计算模块该模块基于以上模块分析计算结果,根据不同特征设定不同权重,对评论中所有特征-情感词对进行计算,得出评论整体情感倾向性,存入数据库。3.3 展示模块图 34 展示模块展示模块使分析结果具有灵活的表现形式,可根据不同需求使用相对应的展现方式。(1) 图形化显示模块以图形方式显示评论情感倾向性,包括显示评论整体情感倾向性,特定句子情感倾向性,以及特定特征情感倾向性。(2) 颜色标记模块用户可根据个人喜好设定不同颜色标记不同的关键词,以便于评论的阅读。(3) 摘要模块综合显示某商品的所有评论分析结果,使用图形化显示模块显示所有特征情感倾向性结果,并以颜色标记模块显示包含特征-情感词数量较多的评论内容。(4) 对比模块由用户选择要对比的商品,使用图形化显示模块在同一页面中列出这些商品特定特征的情感倾向性结果,助于用户直观感受评论结果。第4章 关键技术介绍4.1 网页评论自动获取与预处理(1) 自动获取评论内容浩瀚如海的互联网有无穷无尽的用户评论,纯粹人工获取并不现实。爬虫技术就是将特定页面中有用信息的“位置”告诉计算机,计算机将从类似网页中自动抓取目标信息。以往所使用的技术为人工分析页面结构、编写标识符来定位目标信息。而本系统使用了xpath以及python的扩展库lxml,极大的提高了编写抓取程序的效率和程序运行速度、可读性。XPath是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。而lxml库则可以快速正确地分析xml文档。具体到项目中,将HTML看成是XML的特殊形式,所以可以使用Xpath来表示一个评论在此HTML文档中的具体位置,并且xpath可以使用工具自动生成,保证了准确率和效率 。此后使用lxml提供的方法,可以高效的提取出需要的信息。(2) 预处理在获取需要的文本信息后,必须进行预处理。预处理包含两个步骤,第一步骤,去除噪音字符。例如从网页中抽取出的文本可能含有HTML标记“”,“”等等,如果不把这些字符去除,将会影响之后的分析。此外,在预处理中还应该去除重复的标点符号。由于抽取出的文本是自然文本,不含有结构化信息,之后的“断句”处理是根据文本的标点符号进行判断,若有两个重复的标点势必造成断句错误,影响进一步的分析。此外还要去除多余空格,多余空行。第二步骤“断句”和“分词”。在汉语中一个句子可以表达一个完整的意思,所以关键词抽取以“句”为基础,逐个分析句中词汇,若断句或分词错误,势必影响系统的最终结果。所以预处理是整个系统的前提,也是关键。4.2 利用自然语言处理技术抽取文本的语义信息分词和词性标注是自然语言处理中的基本问题。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。词性标注(Part-of-Speech tagging)是指对于句子中的每个词都指派一个合适的词性,也就是一个确定每个词是名词、动词、形容词或其他词性的过程。一般的情感倾向性分析或多或少用到自然语言处理技术,在英文处理中用到最多的是词性标注(POS),中文处理则还需用到分词。POS和分词是自然语言处理技术中最基本的工具,可以实现对文本的一般性分析。有一些学者利用这些分析结果进行了细粒度文本情感分析,但由于这些方法处理的结果对象只是词汇,缺乏对句子的整体结构和语义上下文关系的研究,所以在处理细粒度文本情感倾向性分析过程中往往不能精确定位分析,单靠规则方法效果非常有限。本项目提出利用更先进的自然语言处理技术对文本进行句法结构分析和语义理解(主要利用语义角色标注技术)。本文中定义的细粒度情感分析是以句子为单位,挖掘出主观句中评价对象的特征及其对应的情感词,如评价对象为酒店,其特征有设施,环境,交通,服务等。语义角色标注(Semantic Role Labeling)是浅层语义分析的一种实现方式,该方法并不对整个句子进行详细的语义分析,而是在句子级别进行浅层的语义分析。具体而言,即标注句子中的一些成分为给定谓词的语义角色,这些成分作为此谓词框架的一部分被赋予一定的语义含义。此工具还包含了分词、词性标注、句法分析等功能,并且已有相关论文在国际重要会议上发表。对情感的倾向性细粒度分析,传统方法多是在对句子POS标注后,利用词性的特点进行属性和情感词的识别,这个过程一般只考虑词的特性,缺乏对句子的整体语义理解。以索尼DSC-H9P相机评论中的一个句子为例,“佳能A530P的镜头比它的好,价格还比它便宜”,如果仅按照POS标注的方法来判断属性的极性的话,就会简单的判断出“镜头好”,“价格便宜”,刚好跟本意相反的结果。而通过SRL标注处理后,佳能A530P的镜头Arg0比它的ARGM-ADV好V,价格Arg0还ARGM-ADV比它ARGM-ADV便宜V。只要对“ARGM-ADV”这一语义角色所对应的内容进行指代消解处理,然后通过对比较级的正确分析,即可抽取出两个特征的情感倾向性。同时从分析的结果也可以非常清晰的看出“镜头”和“价格”为产品的特征,他们所属的语义角色均为“Arg0”,“好”、“便宜”为情感词汇,所属角色均为“V”(“好”、“便宜”均属于谓词性形容词,在宾州中文语料库中的词性标注为VA)。这句话中特征与情感词的关联信息可以通过挖掘角色Arg0和V之间的依存信息进行抽取,也可以利用机器学习的方法进行识别。4.3 基于情感词典的情感词极性分类与情感强度定量计算方法研究通常进行文本倾向性分析时,无论是句子还是篇章都强依赖于情感词典。因此,情感词典的好坏直接影响情感倾向性判断的正确性。另外,在很多应用中,情感强弱的判断也是非常重要。比如在产品评论中,如果某商品评论是强烈好评,往往此商品是不二之选;相反如果仅为一般好评,则还需要货比三家。因此,在情感词典生成及扩展过程中还需要进行情感强弱的定量计算。本项目的情感词典建立在现有的一些情感语料库基础上(如知网的情感分析用语词集、哈工大的同义词林),抽取出7926个词语的基本极性词表,其中表达正面的评价和情感的词1993个,表达负面的评价和情感的词5936个。另外还建立了程度级别词词典和否定词词典,程度级别词库主要参考知网情感分析用语词集中的中文程度级别词语219个。由于否定表达的用语相对有限,所以主要通过人工收集,并利用知网、哈工大的同义词林进行扩展。中文情感词汇的极性分类方法大多是根据与基准词的语义相似度计算结果来判定,但分类结果往往跟所选基准词有关,不同的基准词选择往往产生不同的结果,所以这种方法的正确性不高。本项目提出的方法是基于这样的结论:字是词的最小组成单元,语言学者认为相同的字往往分布在同一极性的词中。为此,本项目在已有的算法基础上提出了改进方法,即利用现有情感词典的极性分类,统计情感词典中出现的每个字的情感强度值,将这个数据结合情感词的组词特点,进行分类计算现有情感词典中每个词的情感强度。同时利用该方法,可以对新词进行极性分类和情感量化计算,从而达到情感词典的自动扩展。本系统重点考虑了情感词中字的多种组合模态,根据不同情感组合分别进行计算方法的设计,从而提高计算正确率。4.4 基于特征的情感量化分类计算方法的研究本项目主要利用情感词典,以及自然语言处理技术,本项目设计了文本情感倾向性分析的基本框架,如图4-1所示。图 41 文本倾向性分析框架图特征库建设由于不是本项目的研究内容,所以只简单地参考了现有方法来实现,并结合哈工大的同义词林,通过对大量的商品评论数据进行统计分析,抽取出了指定商品的特征库。本系统基于识别出来的评价对象特征与情感的关联信息,针对不同的句子结构和句型,利用相应的语言学规律,研究利用不同的计算方法实现最终的情感量化计算。4.5 基于半监督机器学习方法的特征与情感信息的识别评价对象特征与情感信息的关联识别是本项目的关键,当前多为采用基于规则、概率统计的方法来实现,利用POS、SRL等结果直接进行相关的概率统计,找出一些识别规则。这种方法对规则的依赖很强,规则设计的好坏直接影响识别性能。此外,规则的调整也比较复杂,往往需要改动程序的设计逻辑。本项目提出了利用半监督学习方法实现训练语料的自动化扩展,利用条件随机场(CRF)实现特征与情感信息的关联识别。“条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马模型(HMM),基于类的中文分词。但隐马模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。整个过程如图4-2所示。下面对有关的主要内容进行解释。图 42 特征情感词对提取过程(1) 评论信息的格式化标注参考Fu等的定义方法38,本项目设计了属性(Attribute)和情感(Opinion)这两种实体的一套标注集,如表4-1,4-2所示。表 41标注集及相关说明标注集相关说明商品属性正面评价负面评价情感程度修饰词其他背景词汇表 42标注扩展集及相关说明实体标注扩展集相关说明单一实体实体开始部分实体中间部分实体结尾部分表2是针对两种实体的标注扩展。具体以下面的句子为例进行说明。“手机的外形很漂亮,屏幕也很清晰”。标注的结果为:手机的外形很漂亮,屏幕也很清晰(2) 利用SRL和POS信息进行CRFs模型设计本项目通过抽取文本的语义信息(如POS和SRL信息)并结合分词结果生成相应的特征集,然后利用现有的CRFs工具(CRF+)进行分类模型设计。每句评论句由(wi,POS(wi),SRL(wi)表示,其中wi是词,POS(wi)和SRL(wi)分别是词wi的POS和SRL结果。所以本系统的任务就可以转化为:给定文本W=w1w2w3wn,以及相应的POS结果O=o1o2o3on和SRL结果S=s1s2s3sn,找出最大概率的标注结果T=t1t2t3tn,也就是(5)根据CRFs模型的定义可以得出:(6)(7)其中,是特征函数的权重系数。是第k个特征函数。通过定制相应的模板文件,现有的CRFs工具(CRF+)可以方便地增删特征信息(包括文本的上下文特征信息)。(3) Bootstrapping方法实现训练预料的自动化扩展当前,用于训练的格式化语料非常少,本项目的方法首先通过人工标注一部分原始评论语料,随机平分为两个子集,分别进行训练,生成相应的CRFs模型;然后利用各自的CRFs模型标记相同的原始评论语句(完成分词以及POS和SRL的特征信息提取),如果两个CRFs模型的预测结果一致,则把这句评论语句的标注结果放入训练集中。这个过程循环多次,直到没有可标注的原始训练语句。最后利用扩展的训练预料和初始训练预料一起训练生成最终的CRFs模型,用于“属性-情感”词对的识别。(4) 后处理针对利用上述方法识别出来的结果,有时还比较粗糙,还需要利用相应的规则进行细化和过滤。如“手机的外形很漂亮”的识别结果为:手机的外形很漂亮这里的对象属性标注结果是“手机的外形”,而真正的属性只有“外形”。由此可以进一步借助于文本的上下文知识和文本的词性标注信息进行规则设定,研究最终结果的过滤和细化。另外,如果文本中出现指代词的话,研究利用指代消解链结果确定真实的对象属性,从而提高对象属性识别的正确率。4.6 文本倾向性分析的服务化封装本项目所提出的文本情感倾向性分析方法可应用于各类电子商务网站的商品评价分析,而这些应用系统往往是分布、异构的。为了方便本项目研究成果的推广使用,本项目采用面向服务架构(SOA)将文本情感倾向性分析方法封装为Web服务资源,以屏蔽分析方法自身的复杂性,对外呈现统一的调用接口,各种商务网站可以按标准的WEB形式进行访问,而不需要考虑分析方法的具体实现,实现了在网络环境中的共享,可适应不同的应用需求。文本倾向性分析的服务化封装关键在于服务接口的定义,考虑到实际应用,本项目将主要提供两种接口。一种是用户提供待评价的商品名称、商品评论数据源,系统将通过采集给定数据源相关的信息,分析处理后返回待评价商品的倾向性结果;另外一种是用户提供具体的商品评论文本,系统对给定的文本分析后获取特征与情感的关联信息,并给出每个特征的倾向性结果。第5章 平台的详细功能展示5.1 搜索用户可以在系统中根据商品名称、评论内容进行搜索。例如用户需要搜索包含关键词“酒店”的商品评论信息,在搜索栏中输入“酒店”,点击搜索后系统将会列出所有与“酒店”相关的评论分析结果,如图51所示。图 51 搜索功能为了节省用户的时间,提高搜索准确度,系统提供“高级搜索”功能,如图5-2所示:(1) 商品名关键词搜索:此选项搜索系统中所有商品名称,对商品名进行匹配,若发现匹配则列出。例如,系统中有“北京快捷酒店”,“上海快捷酒店”等,搜索“快捷”则会列出这些酒店。(2) 商品特征关键词搜索:此选项搜索系统中所有商品的特征,列出含有此关键词属性的商品以及信息。例如,系统中相机的特征为“价格”,“功能”等,手机的特征也有“价格”,“功能”。搜索“功能”,则这两种商品都会在搜索结果列表中出现。此功能主要为辅助定位某商品的特定特征。(3) 商品评论关键词搜索:此搜索功能搜索系统中所有的评论,对评论内容进行匹配,既在评论内容中发现此关键词,则将这些评论内容以及商品信息列出。如图5-2所示。图 52 高级搜索功能5.2 对比用户勾选需要对比的商品,系统会分别列出各个商品的商品属性、评论数、分析结果(包括不同属性的分类结果)。例如需要对比两家酒店,则系统将会列出两家酒店不同特征上的评分情况。演示效果如图5-3所示。图 53 两家酒店对比图示5.3 查看评论(1) 分页显示所有商品评论系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 荆门驾考试题及答案
- 电脑产品销售合同范本
- 瓷砖店铺装修合同范本
- 银行正式借款合同范本
- 采购工程用门合同范本
- 酒水回购销售合同范本
- 湖北空调清洗合同范本
- 民间石器销售合同范本
- 游船购票协议合同模板
- 测绘项目劳务合同范本
- JJF 2215-2025 移动源排放颗粒物数量检测仪校准规范
- 2025年天津市中考英语试卷(含标准答案)
- 智慧审计数字化场景DeepSeek+AI智算一体机设计方案
- 机械清扫队管理制度
- 第16课《田忌赛马》课件
- 陕西省专业技术人员继续教育2025公需课《党的二十届三中全会精神解读与高质量发展》20学时题库及答案
- 普洱茶考试题及答案
- 节目演出安全协议书
- 酒店物件赔偿协议书
- 职业技能考评员培训课件
- 基于视觉的增强现实虚实注册技术:原理、挑战与突破
评论
0/150
提交评论