用户评论分析系统研究毕业论文.doc_第1页
用户评论分析系统研究毕业论文.doc_第2页
用户评论分析系统研究毕业论文.doc_第3页
用户评论分析系统研究毕业论文.doc_第4页
用户评论分析系统研究毕业论文.doc_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2010 届信息管理与信息系统专业毕业设计 论文 1 用户评论分析系统研究毕业论文用户评论分析系统研究毕业论文 目 录 1 绪论 1 1 1 国外评论分析发展状况 1 1 2 国内评论分析发展状况 3 1 3 本课题研究的内容和意义 5 1 3 1 论文的主要内容 5 1 3 2 课题研究的意义 5 1 4 本文的组织结构 6 2 理论综述 8 2 1 文本挖掘技术 8 2 1 1 数据预处理技术 9 2 1 2 挖掘分析技术 9 2 1 3 可视化技术 10 2 2 极性词典 10 2 2 1 静态极性词典 11 2 2 2 动态极性词典 13 2 3 语义极性分析与分析的难点 14 2 4 本章小结 14 3 评论分析原型系统设计 16 3 1 总体设计 16 3 1 1 文本预处理模块 17 3 1 2 文本倾向性分析模块 18 3 1 3 统计分析模块 18 3 2 极性字典设计 19 3 2 1 初始极性词典的构建 19 3 2 2 网络极性词典扩充 19 3 2 3 领域极性词典修正 19 3 2 4 否定词典和强调词典 19 3 3 数据库设计 20 3 4 系统程序设计 21 3 4 1 预处理模块程序设计 21 3 4 2 文本倾向性分析模块程序设计 22 3 4 3 统计分析模块程序设计 23 3 5 GUI 设计 24 用户评论分析系统研究 2 3 5 1 数据字典管理 24 3 5 2 评论文本管理 25 3 5 3 评论文本处理 25 3 5 4 系统设置和帮助系统 26 3 6 本章小结 27 4 系统实现及其在开心商城的应用 28 4 1 关键问题的解决与实现 28 4 1 1 系统开发 测试环境搭建 28 4 1 2 J2EE 数据访问方法 28 4 1 3 数据处理函数及其访问接口 30 4 1 4 系统核心组件应用 31 4 2 系统测试 32 4 2 1 测试资料 33 4 2 2 评论文本倾向性测试 33 4 3 开心商城介绍 34 4 4 系统应用及其步骤 34 4 4 1 开心商城评论分析系统建立步骤 34 4 4 2 评论分析原型系统应用效果 36 4 5 本章小结 37 5 总结与展望 38 5 1 总结 38 5 2 展望 39 致 谢 41 参考文献 42 2010 届信息管理与信息系统专业毕业设计 论文 1 1绪论 最近几年 电子商务迅速发展 网上购物已变得不再陌生 越来越多的人足不 出户就能买到自己想要的商品 为了更好地服务网上购物的消费者以及增加消费者 的购物经验 许多购物网站联合商家为消费者提供了发表评论的平台 这样 就能 够给潜在的购买者提供参考 而且也有利于生产商跟踪客户反馈 从而改善新产品 的满意度 对于生产商来说 需要获得对产品全面的反馈信息 只靠人工分析少数 的评论远远不够 另外 通过统计和分析商品评论 可以知道用户最关注商品的哪 个特性 从而有利于对商品的改善 一个能够收集商品评论 并且能有效归纳评论 中的品牌 商品特性 以及评价词语的商品评论总结系统 可以有效地为潜在商品 用户和商品制造者提供便利 随着人们对商品评论的重视 商品评论呈指数级增长 并且这些评论出现在各 大论坛 电子公告板以及门户网站上 而这些评论从本质上讲是一种文本 对这种 评论的分析实际上是对文本的数据挖掘 对于这种半结构或无结构化的数据 用传 统方法获取特定内容信息的手段却较弱 导致信息搜寻困难和信息利用率低下 文 本表达了大量的 丰富的信息 同时包含了许多未被所有者发现的潜在知识 面对 浩瀚的文本资源 传统的文档和文本处理工具已经不能满足用户的需求 于是在人 工智能研究领域结合结构化数据库中的数据挖掘技术 提出了一种有效的 可以充 分利用这些文本数据的新的信息处理技术 文本挖掘 评论挖掘是目前数据挖掘 文本挖掘 自然语言处理等领域的热点研究课题之 一 在几年的时间中 无论在英文领域还是在中文领域 观点评论挖掘技术都取得 了很大的进步 1 1 国外评论分析发展状况 在国外 2002 年是评论挖掘开始兴起的一年 在这一年里 首先 Peter 1 提出将 语义倾向性应用在非监督的评论分类上 并设计了一个简单的算法 该算法目的就 是将评论分为两类 推荐 recommended 和不推荐 not recommended 一段评论将有 包含在该评论中的形容词和副词的语义倾向性决定 也就是说 如果一段评论的平 用户评论分析系统研究 2 均语义倾向性为正 则可以把该评论划分为推荐一类 反之 划分为不推荐那一类 Peter 利用 PMI IR 算法 2 计算一个短语或者词语的语义倾向性 主要思想就是分别计 算给定的短语与 excellent 词和 poor 词之间的互信息 然后两者之差就是给定短语 的语义倾向性值 选取了四个领域的评论 汽车 银行 电影以及旅游地 最终实 验的准确率达到了 74 Bo Pang 和 Lillian Lee 等人 3 使用机器学习的方法对观点评 论分类 文章采用电影评论作为实验语料 使用了三种机器学习的分类方法 朴素 贝叶斯 最大熵模型和支持向量机模型 虽然实验结果不是很理想 但这也从另一 方面反应出评论的分类还面临很多的困难 以及今后需要研究的重点和难点 NEC 公司的 Satoshi Morinaga Kenji Yamanishi 等人 4 在 2002 年提出在网络上挖 掘产品声誉度的想法 他们认为 了解自己或者竞争者的产品声誉度对市场营销和 处理与客户的关系是很重要的 但是手动的收集 分析调查数据是非常费时费力的 基于这种情况 他们提出了一种新的框架来挖掘网络上的产品声誉度 设计的这个 框架能自动地从网页上收集人们经常关注的产品的意见 然后通过文本挖掘技术获 取那些产品的声誉度 首先他们通过选定人工测试的样本 提前依照句法和语言学 的规则判断所给的句子是否为观点句 同时确定该观点句是褒义还是贬义 对于一 个给定的目标产品 利用搜索引擎进行收集该产品的所有相关评论 随后利用规则 抽取观点 并且在每个观点上帖上三个标签 分别为产品的名称 观点的褒贬以及 一个表明该陈述句置信度的数量值 随后将标注后的观点放入数据库 文章将存入 数据库的句子作为挖掘的语料 执行四种文本挖掘的技术 抽取特征词 挖掘共现 的词 提取典型句和多个类别的相似分析 真实的数据证明了这种方法相比于传统 方法的有效性 同时也减少了声誉度分析的成本 除此之外 国外也有些研究机构将对观点评论挖掘做成了一个系统 并在商业 上有着很高的应用价值 2003 年 NEC 公司的 Kushal Dave 等 5 几名研究员开发了一 个 ReviewSeer 系统 该系统通过对评论性文章的语义倾向分析 为商品的受欢迎程 度进行打分评价 为商家及其消费者提供了非常重要的商业信息 微软美国研究院 Gamon 等人所开发的 Pulse 系统可以自动挖掘网上用户所上载的自由文本中有关汽车 评论中的褒贬信息和强弱程度 6 IBM Almaden 研究中心的 Yi 和 Biblack 介绍了该研 2010 届信息管理与信息系统专业毕业设计 论文 3 究中心开发的 WebFountain 系统中的意见挖掘器 7 从 2004 年到 2005 年之间 美国伊利诺斯大学 Bing Liu Minqing Hu 等 8 人开始 对商品特征挖掘进行系统的研究 他们首次提出利用关联规则挖掘算法挖掘商品评 论中的隐藏的商品的特征 分四个步骤挖掘商品特征 以及评价这些特征可能的观 点词 主要分为三个步骤 第一挖掘消费者经常提到的商品特征 第二判定评价商 品特征句子的语义倾向性 第三总结挖掘的结果 并且通过实验证明了他们算法的 有效性 同时开发的原型系统 Opinion Observer 可以处理网上在线顾客产品评论 对 设计产品 电子照相机 各种特征的优缺点进行统计 并采用可视化方法对若干种产品 的特征的综合质量进行比较 1 2 国内评论分析发展状况 由于中文和英文的差异 基于中文领域的观点评论挖掘才刚刚起步 最初的代 表是香港城市大学 Tsou 等人在 WebFountain 系统研究的基础上对中国四地 北京 香 港 上海 台北 报刊上有关四位政治人物 克里 布什 小泉纯一郎 陈水扁 褒贬 性的新闻报告进行了分类研究 9 在研究中 首先通过标记语料库获得文本中的极性 元素 然后主要采用了三个衡量指标 即极性元素的分布 极性元素的密度和极性 元素的语义强度来对每个文本进行统计 得出文本褒贬分类和强度大小的结果 最 近一年最具代表性的是上海交通大学计算机科学与工程系姚天萌老师的团队 2006 年该团队成功开发了一个用于汉语汽车评论的意见挖掘系统 10 该系统的目的是在 电子公告板 门户网站的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性 能指标的评论和意见 并且判断这些意见的褒贬性以及强度 在意见挖掘系统的设 计中 他们定义了一些基本的资源和处理算法的数据结构 如汽车本体 极性词词 典 基本元素 语法关系树 匹配规则 通过对文本处理的综合统计 给出可视化 的结果 意见挖掘系统的测试结果显示了系统平均召回率达到了 80 总平均精确 率达到了 60 这项研究是对汉语主观性文本处理的一次探索 特别是文本各个层 次处理所设计到的词汇 句子和文本极性和强度判断以及它们之间关系的分析 根据国外的研究背景以及姚天防团队的技术路线 2007 年 观点评论挖掘以及 句子的语义倾向性判别已经成为很多学者的研究热点 2007 年 8 月份 在大连理工 用户评论分析系统研究 4 大学举办的 第九届全国计算语言学学术会议 上 11 已经初现一些学者在情感分析 blog 的信息挖掘方面有所研究 比如 姚天鲂老师提出一种汉语语句主题语义倾向 分析方法 利用本体来抽取语句主题以及它的属性 然后在句法分析的基础上 识 别主题和情感描述项之间的关系 从而决定语句中每个主题的极性 观点评论挖掘 的过程就是要在自然语言主观性 subjective 文本中自动确定这些元素以及它们之间的 关系 另外还有如 基于聚类引擎的话题褒贬度计算 基于内容相关度和语义分析 的 blog 热点话题发现 基于多重冗余标记 CRF 的句子情感分析研究 等等 2007 年 10 月 在武汉大学举办的 第七届中文信息处理国际会议 中 12 福州大 学的蔡健平做了一篇关于 基于语义理解的意见挖掘 报告 他们研究意见挖掘系统的 目的是在论坛上挖掘并且概括网络用户对某物及特点的各种评论 同时判断这些意 见的褒贬性以及强度 北京邮电大学的马月珠等人对评论性文章的情感分类做了一 些研究 他们提出一种面向语义的文本情感分类技术 通过分析文本中的特定短语 模式来获得文本的情感特征 对于文章的复杂句子进行语义层的深入分析 最后实 验证明了方法很好地体现了文本中的语义信息 准确率和召回率都达到了 90 以上 2007 年 11 月 在苏州大学举办的 第三届全国信息检索与内容安全学术会议 上 13 关于观点评论及其倾向性分析方面就有多达 8 篇研究论文 这在过去两届会议 上是从没有过的 值得一提的是 在该会议中 北京大学苏祺提出一种新的面向观 点挖掘的产品评价特征词识别算法 作者认为 目前的观点挖掘技术通常只帮助识 别主观性文本中所表达的整体观点态度 研究尚未深入到所评价对象的具体细节 例如 关于某个汽车产品的评论可能对汽车的外型赞赏有加 而对其动力系统持有 否定态度 这些不同的观点可以说是针对汽车产品不同特征的相应评价 耳前的观 点挖掘技术大多是对评价句或评价篇章的整体进行褒贬倾向的分析 这样的分析方 法无法进一步满足更细化的用户需求 另外 复旦大学的章剑锋等人对中文评论挖 掘中的主观性关系抽取做了一定的研究 作者提出一种基于机器学习的方法看来对 中文评论进行主观性关系抽取 即抽取出表达主观性意义的评价词与其对应的评价 对象 所要解决的关系抽取不同于以往传统的任务 他们要抽取的是带有主观性的 2010 届信息管理与信息系统专业毕业设计 论文 5 关系 即要带有评价信息 相对于传统意义上的关系抽取有两点不同 第一作者所 描述的关系抽取中的评价词不仅可以是名词 还可以是动词 形容词或者副词 面 传统的关系抽取都是抽取实体也就是名词性短语之间的关系 第二个不同点是评论 挖掘中抽取的是主观性的关系 而传统的关系抽取不需要考虑句子的主观性 1 3 本课题研究的内容和意义 1 3 1论文的主要内容 在研究了英文语种极性词抽取基础上 根据中文本身所拥有的特点 针对中文 网络评论的句子 研究极性词的上下文极性 并且尝试着运用自然语言处理技术 解决修饰匹配问题 并进行极性词抽取 本文的主要研究内容如下 1 利用HowNet知识资料 将现有的极性词语进行极性及强度的标注 为极性词 的检索提供依据 并建立新的极性词典 本文中的极性词典在总结了以往研究成果 的基础上 对其进行补充和修正 依照极性词计算的特点 将极性词典划分为静态 极性词典和动态极性词典两部分 2 经过对词语上下文的分析 发现动态极性词产生动态极性的原因 将被修饰 的极性挑选出来 分析它们与一般极性词不同的地方 提出将动态极性解决方法 将修饰词也标注极性 通过修饰词的极性和极性词的极性来确定动态极性词的极性 3 本文提出了极性词抽取的算法 选择修饰关系对 进行动态极性词的极性计 算 并用抽取出来的极性词代替了句子 在一定程度上 提高了评论分析的可信度 和正确性 4 将评论分析结果进行汇总 以简单明了的方式向用户展现分析的结果 1 3 2课题研究的意义 随着电子商务迅速发展 越来越多的人足不出户就能买到自己想要的商品 为 了更好地服务网上购物的消费者以及增加消费者的购物经验 许多购物网站为消费 者提供了发表评论的平台 这样 就能够给潜在的购买者提供参考 而且也有利于 生产商跟踪客户反馈 从而改善新产品的满意度 对于生产商来说 需要获得对产 品全面的反馈信息 只靠人工分析少数的评论远远不够 另外 通过统计和分析商 用户评论分析系统研究 6 品评论 可以知道用户最关注商品的哪个特性 从而有利于对商品的改善 一个能 够收集商品评论 并且能有效归纳评论中的品牌 商品特性 以及评价词语的商品 评论总结系统 可以有效地为潜在商品用户和商品制造者提供便利 同时评论也是对事物的观念表达 阐发的是评论人的思想 因为思想也是一种 信息 所以评论具有信息功能 评论的作用正好可以让人们从纷繁复杂的事物表象 中把握事物的本质 使人对事物的认识由不清楚 不确定转向清楚 确定 评论的信息功能主要体现为三个方面 1 评论透露事物的自在信息 自在信息即事物自我显示的信息 评论作者只需 把事物有关特征 资料收集汇总后 评论信息和作者观点便明显地浮现出来 2 评论揭示了事物的本质信息 零零总总的事物 所显示出来的总是现象方面 的信息 马克思主义哲学告诉我们 认识事物要透过现象看本质 对本质信息的认 识须从现象入手 借助人脑的思维才能最后得以完成 3 评论期待信息反馈 有些观点评论既不是评论事物本身 又不是借助评论进 行务虚 而是针对事物或者问题对人们鼓吹 发号令等等 这种评论虽然信息含量 较少 但也同样能引起人们的关注 从以上的分析 不然发现 评论的挖掘有着深远的意义 首先从信息角度来说 互联网时代的信息爆炸 大量的信息以电子文档的形式出现在人们面前 为了应对 爆炸带来的严重挑战 迫切需要一些自动化的工具帮助人们在海量信息源中迅速找 到真正需要的信息 其次从评论角度来说 网络评论曾指数级增长 阅读评论是获 取信息的首要途径 面对如此数量的评论 无论是商家还是消费者都显得有点力不 从心 所以急需一些技术手段来处理这些评论 用最简单直接的手段将评论挖掘结 果反馈给商家和消费者 因此 观点评论的挖掘有着广泛的应用价值和研究价值 比如 客户关系管理 产品声誉度分析 新鲜事物推崇程度等等 1 4 本文的组织结构 本文分为五个章节 主要内容如下 第一章是绪论 主要介绍了课题的研究背景 并且对评论文本分析以及评论分 析的研究现状做了详细地介绍 同时还对课题的研究意义及本课题所做的工作做了 2010 届信息管理与信息系统专业毕业设计 论文 7 一定的阐述 第二章是基础理论介绍 主要介绍了文本挖掘 极性词 语义极性分析相关概 念 以及系统实现中用到相关工具 同时还提出了语义极性分析的难点 第三章是评论文本分析原型系统的设计 主要包含了总体设计 极性词典设计 数据库设计 核心程序设计和系统界面设计 第四章是评论分析原型系统的实现和其在开心商城中的应用 主要包含了系统 开发环境的介绍 系统组件的引用 数据接口的使用 系统测试和系统的应用 第五章是总结与展望 这一章对本文所做的工作进行了总结 并对下一步的研 究方向和改进进行了展望 用户评论分析系统研究 8 2理论综述 2 1 文本挖掘技术 文本挖掘是指以计算语言学 统计数理分析为理论基础 结合机器学习和信息 检索技术从大量文本数据中抽取事先未知的 可理解的 最终可用的知识的过程 同时运用这些知识更好地组织信息以便将来参考 文本挖掘涉及多个学科领域 数 据库 信息检索 信息提取 机器学习 自然语言处理 计算语言学 统计数据分 析 线性几何 概率理论 甚至还有图论 文本挖掘是从数据挖掘发展而来 因此其定义与大家熟知的数据挖掘定义相类 似 但与传统的数据挖掘相比 文本挖掘有其独特之处 主要表现在 文档本身是 半结构化或非结构化的 无确定形式并且缺乏机器可理解的语义 而数据挖掘的对 象以数据库中的结构化数据为主 并利用关系表等存储结构来发现知识 因此 有 些数据挖掘技术并不适用于文本挖掘 即使可用 也需要建立在对文本集预处理的 基础之上 文本挖掘的主要处理过程是对大量文档集合的内容进行预处理 特征提取 结 构分析 文本摘要 文本分类 文本聚类 关联分析等 图 2 1 给出了文本挖掘的一 般处理过程 数据源 文本 数据 网页 预处理 分词 Stemming 噪音词 特征提取 挖掘分析 文本结构分析 文本摘要 文本分类 文本聚类 关联分析 分布分析 趋势预测 可视 化用 户浏 览 图 2 1 文本挖掘的一般处理过程 文本挖掘不但要处理大量的结构化和非结构化的文档数据 而且还要处理其中 复杂的语义关系 因此 现有的数据挖掘技术无法直接应用于其上 对于非结构化 2010 届信息管理与信息系统专业毕业设计 论文 9 问题 一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘 由于数 据非常复杂 导致这种算法的复杂性很高 另一条途径就是将非结构化问题结构化 利用现有的数据挖掘技术进行挖掘 目前的文本挖掘一般采用该途径进行 对于语 义关系 则需要集成计算语言学和自然语言处理等成果进行分析 本文按照文本挖 掘的过程简单介绍其涉及的主要技术 2 1 1数据预处理技术 预处理技术主要包括 Stemming 英文 分词 中文 特征表示和特征提取 与数 据库中的结构化数据相比 文本具有有限的结构 或者根本就没有结构 此外 文 档的内容是人类所使用的自然语言 计算机很难处理其语义 文本信息源的这些特 殊性使得数据预处理技术在文本挖掘中更加重要 在文档进行特征提取前必须先对 文本信息进行分词处理 主要针对中文 因为中文词与词之间没有固有的间隔符 空 格 需要进行分词处理 目前主要有基于词库的分词算法和无词典的分词技术两种 特征表示是指以一定特征项 如词条或者描述 来代表文档 在文本挖掘时只需对这些 特征项进行处理 实现对非结构化的文本处理 特征提取是因为特征表示的向量维 数往往达到十万维 如此高维的特征对即将进行的分类学习未必全是重要 有益的 而且高维的特征会大大增加机器的学习时间 所以特征提取很有必要 2 1 2挖掘分析技术 挖掘分析技术 文本转换为向量形式并经特征提取以后 便可以进行挖掘分析 了 常用的文本挖掘分析技术有 文本结构分析 文本摘要 文本分类 文本聚类 文本关联分析 分布分析和趋势预测等 文本结构分析的目的是为了更好地理解文 本的主题思想 了解文本所表达的内容以及采用的方式 文本摘要是指从文档中抽 取关键信息 用简洁的形式对文档内容进行解释和概括 文本分类的目的就是让机 器学会一个分类函数或分类模型 该模型能把文本映射到已存在的多个类别中的某 一类 使检索或查询的速度更快 准确率更高 文本聚类是将文档归入到已经存在 的类中 文本聚类的目标和文本分类是一样的 只是实现的方法不同 关联分析是 值从文档集合中找出不同词语之间的关系 分布分析与趋势预测是指通过对文档的 分析 得到特定数据在某个历史时刻的情况或将来的取值趋势 用户评论分析系统研究 10 2 1 3可视化技术 数据可视化 Data Visualization 技术指的是运用计算机图形学和图像处理技术 将数据转换为图形或图像在屏幕上显示出来 并进行交互处理的理论 方法和技术 它涉及到计算机图形学 图像处理 计算机辅助设计 计算机视觉及人机交互技术 等多个领域 如今文本挖掘技术基本趋于成熟 如何最大程度地将这些技术应用在高速发达 的互联网时代是许多专家学者需要研究的重点 2 2 极性词典 极性词典 顾名思义 是查找词语极性的一种词典 其目的是提高极性计算的 准确率和减少时间复杂度 极性词是人们用来表达自己观点的直接描述工具 所以 词语的极性研究是意见挖掘的基础 极性词典的构造工作是意见挖掘系统实现的核 心内容 本文中提到的极性词典吸取以往研究中涉及到的构造极性词典经验 并针对网 络 特有领域等特点加以扩展和强化 展现了在本范围内的更好的适用性 该词典 被划分为静态极性词典 StaticDictionary 和动态极性词典 DynamicDictionary 两部分 其中静态极性词典部分加入了网络词典和特有领域词典 动态极性词典部分利用浅 层语义分析的方法 将极性词的上下文环境结合起来进行分析 对极性词的静态极 性加以修正 以期获得更高的准确率 图 2 2 给出了极性词典的结构 2010 届信息管理与信息系统专业毕业设计 论文 11 极性词典 静态 极性 词典 动态 极性 词典 初始极性词典 网络极性词典 领域极性词典 否定词词典 强调词词典 图 2 2 极性词典结构 2 2 1静态极性词典 静态极性词典指的是传统意义上的中文极性词典 主要包括极性词本身的两个 重要属性 褒贬色彩和极性强度 褒贬色彩 即表达褒义 贬义或中性 这一类带有情感倾向的词语称之为极性 词 例如用 漂亮 文明 著名 先进 等词表达对评论对象的赞扬 仰慕 欣赏 等感情 即褒义词 用 生活 食物 等词表达对评论对象的客观评价 即中性词 也常用 暴力 讨厌 虚假 等词来表达对评论对象的反对 厌恶 讽刺等感情 即 贬义词 极性强度 人们表达主观意见时 看法的强度也往往不一 如 好 意思 可以用 不错 良好 优秀 等来形容 它们所表达的情感强度递增 针对极性词的这两个重要属性 在本文的极性词词典中 使用一个实数 P 来表 示极性 P 的取值为 1 0 1 本文将 0 作为褒贬义的分界线 负数表示贬义 0 表 示中性 正数表示褒义 而绝对值越大表示情感越强烈 在国内 对中文的词汇倾向计算方面的研究才刚刚起步 主要的方法是选择基 准词对 利用知网计算倾向性待定词与基准词词汇的相似度来判定词汇的极性倾向 和极性强度 在文献 18 中提出了基于 Hownet 的词汇语义倾向计算得方法 首先他 为每个词汇赋予一个语义倾向的度量值 其大小由这个单词与基准词的语义关系紧 密程度有关 基准词指褒贬态度非常明显 强烈 具有代表性的词语 与褒义基准 用户评论分析系统研究 12 词关系越紧密 则词语的褒义倾向越强烈 反之与贬义基准词联系越紧密 词语的 贬义倾向越明显 文献中选择了知网中已经标注的词汇作为基准词的标准集 在知网中有两个重要的概念 义原 和 概念 概念是用一种 知识表示语 言 来描述的 这种 知识表示语言 所用的词汇就叫 义原 在知网中共定义了 1500 个 义原 其他的每个词汇都由它的义原组成 所以义原的相似度计算是概念 相似度计算得基础 知网中义原间的上下位关系将同类的义原组成一棵树 所以可 以通过义原在树种的语义距离计算相似度 假设两个义原在这个层次体系中的路径 距离为 d 则这两个义原之间的语义距离公式如下式 2 1 所示 2 1 ad a ppSim 21 其中 p1和 p2表示两个义原 d 是 p1和 p2在义原层次体系中的路径长度 是一个 整数 a 是一个可调节的参数 最后将待定词 极性词 与所有可能近义词的相似度求和 公式如式 2 2 所 示 2 2 kp i kn j ji wwnSimwwpSimwO 11 通过以上的处理 发现一个极性词语要么可以通过静态极性词典查到它的极性 要么可以通过基于语义相似度的计算得到它的极性 因此静态极性词典构建的目的 就达到了 词语通过静态极性词典获得了它的静态极性值 初始极性词典 本文采用将英文极性词词典 Harvard String driver com mysql jdbc Driver String url jdbc mysql config name 3306 database String user config user String password config password ResultSet rs null try Class forName driver Connection conn DriverManager getConnection url user password if conn isClosed JOptionPane showMessageDialog null 数据库连接失败 n 错误信息 JOptionPane ERROR MESSAGE Statement statement conn createStatement if sql startsWith se rs statement executeQuery sql else 用户评论分析系统研究 30 statement executeUpdate sql conn close catch ClassNotFoundException e e printStackTrace JOptionPane showMessageDialog null 没有找到驱动JDBC 错误信 息 JOptionPane ERROR MESSAGE catch SQLException e e printStackTrace JOptionPane showMessageDialog null 数据库连接失败 n请检查数据 合法性和系统设置 n 错误信息 JOptionPane ERROR MESSAGE catch Exception e e printStackTrace JOptionPane showMessageDialog null 数据库访问发生异常 错误信 息 JOptionPane ERROR MESSAGE return rs 4 1 3数据处理函数及其访问接口 本系统中使用了大量的数据处理函数 有系统函数也有自定义函数 系统函数 主要是利用了系统中的字符串处理方法 例如 字符串比较 equals 获取字符串开 头 startsWith subSting ength 等 自定义函数主要是在极性词获取和统计方面 的方法 以下给出了极性词获取的方法 public ArrayR selectkey String str DatabaseJoin db new DatabaseJoin String sql1 select keyword score from keyword String sql2 select keyword score from adverb ArrayR arr new ArrayR int num 0 try ResultSet rs1 rs2 rs1 db join sql1 while rs1 next String key rs1 getString keyword int strlen str length int keylen key length for int i 0 i 0 String pre str substring i prelen i if pre equals adverb keyword pre key score score rs2 getFloat score break arr keyarr num keyword arr score num score num i i keylen 1 if num 10 break if num 10 break catch SQLException e e printStackTrace JOptionPane showMessageDialog null 发生数据库访问错误或结果集已关闭 错误信息 JOptionPane ERROR MESSAGE return arr 4 1 4系统核心组件应用 系统中也使用了大量的可视化组件 主要是 Swing 组件 系统中包含 JFrom 组 件 面板 JPanel 标签 Jlable 按钮 JButton 文本字段 JTextField 文本窗格 JTextPane 表 JTable 菜单栏 JMenuBar 和菜单项 JMenu 等 还使用了其他的一 些常见的组件 例如对话框等 下面给出了本系统中的主要组件的作用 1 窗体 JFrom 是一种特殊的组件 它在运行时表现为一个窗体 窗体是 一个容器构件 它可以包含其他种类的组件 并协同完成应用程序的整 体功能 在本系统中主窗口 评论管理 数据字典管理等窗体都是利用 用户评论分析系统研究 32 了 JFrom 组件 2 面板 JPanel 是一个容器 主要用来存放组件 可以将存有组件的 JPanel 放入 JFrom 中 方便管理 在本系统中所有的 JFrom 组件都放入了 JPanel 组件中 然后将其他的组件放入到 JPanel 组件中 方便管理 3 标签 JLable 是最常用的输出文本信息工具 在本系统中利用了大量的 JLabel 组件 主要作用是向用户显示信息 例如 内容为 评论编号 的 JLabel 就是向用户说明其后将输出评论的编号 4 按钮 JButton 窗体中某些行为的执行工具 在本系统中使用了很多的 JButton 组件 系统使用了很多单击事件 而这些单击事件都借助于 JButton 组件 5 文本字段 JTextField 是一种通用组件 可以输入文本 也可以显示文本 在本系统 JTextField 组件主要用于接收用户输入 如评论管理中用户可 以在 JTextField 中输入评论编号 点击 查询 就可以查找到该编号的 评论 6 文本窗格 JTextPane 是最常用的输出多行文本信息的工具 在本系统中 评论文本可能有几十个甚至上百个字组成 而用 JTextField 组件只能输 入或输出一行文字 无法完成系统要求 而 JTextPane 就可以输出或输 出多行的文字 达到系统需求 例如本系统中的评论浏览 7 表 JTable 主要是用于对数据库中的信息预览 在系统中评论管理和数据 字典管理中都用到了 JTable 组件 例如 评论管理中评论的预览就是利 用了 JTable 组件来预览存在数据库中的评论 8 菜单栏 JMenuBar 为用户使用系统和操作提供方便 在本系统中使用的 不是很多 只在主界面中使用了 JMenuBar 组件 用户可以在 JMenuBar 组件中预览到系统的所有功能 4 2 系统测试 在这使用了 JUnit 测试 JUnit 是由 Erich Gamma 和 Kent Beck 编写的一个 回归测试框架 regression testing framework Junit 测试是程序员测试 即所谓 2010 届信息管理与信息系统专业毕业设计 论文 33 白盒测试 因为程序员知道被测试的软件如何完成功能和完成什么样的功能 Junit 是一套框架 继承 TestCase 类 就可以用 Junit 进行自动测试了 4 2 1测试资料 为了收集可用的而且比较典型的评论语料样本 本文采用上网收集整理那些根 据自己使用后的感受发表的笔记本电脑评论 最终选定了笔记本电脑评论网站 中既有褒义的评论也有贬义的评论 且评论中经常出现那些情感强烈的词语 符合 本文所要求的样本应该具有典型性 普遍性的原则 另外在测试样本的收集中 本 文重点收集了那些评论中同时对笔记本电脑的优点和缺点进行评论 为了测试主题 特征法在该类评论中的效果 此类评论也包括在评论语料中 本文最终收集整理了 200篇的笔记本电脑评论作为测试集 经过人工标注 其中包含了83篇褒义的评论 72篇贬义的评论 45篇中性评论 4 2 2评论文本倾向性测试 首先 对词语的动态极性在系统中的表现做实验 本文在评论集200篇的评论中 共挑选出338个极性词 将其手工标注 并与系统自动分析的结果进行比较结果如表 4 1 表 4 1 系统分析结果对比 动态极性系统识别手工标注准确率 褒义628374 7 中性794557 1 贬义517270 8 从上面的表中可以看出 通过系统中构建的极性词典的处理 无论是褒义极性 词还是贬义极性词都获得了较高的准确率 其中贬义极性词的准确率略低于褒义极 性词 研究发现其原因在于一些负极性词的静态极性和否定前缀的召回率不高 通 过手工标注 还发现句子中含有强调词的比例为34 含有否定词的比例为17 含有领域极性词的比例为11 含有网络极性词的比例为7 这些词语如果靠统计 的方法是无法有效识别的 势必会造成极性判别方向的错误或极性强度的失真 也 用户评论分析系统研究 34 证明了本系统中极性词典的构造是比较合理的 4 3 开心商城介绍 开心商城又名商家联盟 是榆林视窗有限公司营运的一家购物网站 以销售电 脑配件 笔记本 MP3 等电子产品为主 兼具发展小家电 玩具 图书等其他多种 商品的销售 总部设在陕西榆林 榆林视窗始创于 2006 年 1 月 是一家集城市消费 预定 服务 俱乐部活动 生活门户以及互联网信息服务 软件开发 网站建设 IT 外包服务 电子商务 策划和多媒体制作于一体的高速健康发展的信息科技服务公司 公司定位于新兴 的信息技术服务业 秉承 IT 保姆服务现代企业 的先进服务理念 努力将管理 理论的创新成果与现代信息技术发展的最新成就相融合 致力于成为企业外挂的 IT 专职机构 为客户适应新经济时代的 全程供应链管理 提供专业化 高水准 和最具价值的信息技术服务 其旗下的开心商城于 2009 年 6 月创建 目前主要 是面向榆林市内的电子商务网站 其联合了榆林市的多家商场 提供 网上定 购 货到付款 的服务 4 4 系统应用及其步骤 4 4 1开心商城评论分析系统建立步骤 开心商城评论分析系统的建立主要分为以下五个步骤 1 安装 JDK 首先在 sun 官方网站下载 JDK 最新版本 Java SE 6 将其安装在 C Program File java 目录下 打开系统属性 设置环境变量将 java 路径添加到环境变 量的 path 中 打开 cmd 输入 java 若出现如图 4 1 所示的界面表示 jdk 安装成功 2010 届信息管理与信息系统专业毕业设计 论文 35 图 4 1 JDK 安装测试图 2 安装 MySQL 数据库服务 本系统使用了 MySQL5 0 和 PHP2 10 搭建了数据 库服务器 首先下载 appserv2 5 9 将其安装在 c AppServ 目录下 在安装的过程中 需要设置 MySQL 数据库的 root 账户密码 在这里将密码设为 root 安装完成后将设 计好的数据库文件拷贝到 c appserv mysql data 目录下 然后打开浏览器 在地址栏 输入 http localhost phpMyAdmin 若出现如图 4 2 所示的界面表示 MySQL 数据库安 装成功 图 4 2 MySQL 数据库管理 3 将开心商城 web 服务器中的商品评论导入到 MySQL 数据库中 4 运行本系统 在系统设置中配置 MySQL 数据库服务器和数据库的用户名和密 码 如图 4 3 所示 图 4 3 系统设置 用户评论分析系统研究 36 5 测试数据库连接是否成功 在主界面点击 查看所有 按钮 若出现如图 4 4 所示 则表示数据库连接失败 请检查用户名和密码 否则表示数据库连接成功 图 4 4 测试数据库连接 4 4 2评论分析原型系统应用效果 评论分析原型系统主要的应用方向是商品评论的极性倾向分析 将评论分为正 向 中性 负向三个方向 正向表示该商品比较好 负向表示该商品比较差 中性 既不表示差也不表示好 这样公司可以通过该系统就可以得出消费者对该商品的评 价 便于公司计划采购量 公司将该系统分析结果发布可以帮助客户在同类型的商 品中选择 在应用中选取笔记本 Thinkpad SL400 手机 诺基亚 5230 MP3 台电 C430T 电视机 创维 42L05HF 和空调 格力 KFR 23GW R 23540 N5 的评论各 100 条进行系统测试 测试结果和人工标注的结果如下表 4 2 所示 表 4 2 评论测试结果 褒义评论贬义评论中性评论 产品 系统手工系统手工系统手工 Thinkpad SL400 54612631208 诺基亚 5230 62672127176 台电 C430T 48523745153 创维 42L05HF 333746532110 格力 KFR23GW 354730413512 由表 4 2 可以看出测试结果中褒义和贬义评论都比手工标注少点 中性评论反而 比较多 经分析发现主要有以下俩方面的原因 2010 届信息管理与信息系统专业毕业设计 论文 37 1 数据字典不健全 极性词不能被识别 例如 键盘比较舒服 而数据字 典中却没有 舒服 这个极性词 原本是正向的评论就被识别为中性评论 2 由于汉语语言的复杂性 例如 这个手机声音很小和笔记本风扇声音很小 同样是声音很小 可表达的倾向却正好相反 这个笔记本真的很好用 由于本 句中含有极性词 好用 原本是中性的评论被识别为正向评论 所以本系统在这些方面还有待于进一步完善 4 5 本章小结 本章主要介绍了系统的具体实现 测试和在开心商城中的应用 在实现部分主 要介绍了系统的开发环境 数据访问方法 数据处理方法和核心组件的应用 系统 测试部分主要是将系统分析结果和手工标注结果进行对比得出系统的准确率 用准 确率来评价系统的性能 在应用部分主要介绍了系统的建立步骤和系统的应用效果 用户评论分析系统研究 38 5总结与展望 5 1 总结 今年来 随着互联网的快速普及 电子商务已经发展成为最具有活力 最具有 发展前途的新型商业模式 各大电子商务网站和论坛中保存着大量的商品评论信息 在这些商品评论中蕴含着巨大的商业价值 它为企业提供了新的商业机会 如商品 调查 客户关系管理以及市场营销等领域 所以对着些评论的信息挖掘成为当前的 一个研究热点 本文针对中文网络评论 考虑到用户对评论观点的抽取需要 介绍了语义极性 倾向分析的研究以及针对中文网络评论句子的观点抽取方法 分析 该领域研究存在 的不足和本文研究的难点 由于网络评论多种多样 大部分句子不规范 如缺少句子成分 缺少标点 而且 对句法的分析还只是停留在浅层 更重要的是该领域的中文研究还不成熟 没有可 供参考的比较先进的算法 这些都对观点抽取带来了较大难度 因此本文利用中英 文文献 分析一些算法的优缺点 力求找到一个好的方法 归纳本系统的特点如下 1 借助于极性词词典 不但可以有效地处理了极性词的静态极性 还将动态极 性的处理方法加入进来 静态词典中的网络词典和领域词典在测试中被证明得到了 较好的应用 动态极性的计算也被证明准确率较高 2 构建了笔记本电脑本体 并借助该本体 实现了一个完整的评论挖掘系统 领域本体在意见挖掘的多个阶段都发挥了重要的作用 分词 主题层次识别 指代 消解和主题极性计算 3 系统具有很好的领域适应性 领域词典和领域本体的引入 使本文的评论挖 掘系统有着较强的面向领域的特征 但也显示了在这个领域中的优势 通用的系统 有着广泛性却失于专业性 面对众多的产品体系 领域本体的构建是一个热点 也 是一种不错的解决方案 当然 系统中还存在很多的改进之处 2010 届信息管理与信息系统专业毕业设计 论文 39 1 数据的抓取部分工作 大多手工完成 可以借助抓取工具自动获取 2 实验的结果数据的可视化表示工作 目前是手动完成的 3 本体及主观意见褒贬挖掘的方法等都还处于摸索阶段 本体在意见挖掘中的 作用还没有完全体现 只是对主题 主题属性以及主题和极性词间的层次关系做了 语义分析 其实本体本身就有其逻辑推理机制 将意见挖掘的推理规则描述系统用 本体逻辑语言表达 并结合本体推理机进行意见挖掘将是下一步努力的方向 4 领域本体的丰富与完善也将是一个持续升级的过程 能参到中文意见挖掘这个领域 并将其于本体的研究方法相结合本身就是一件 重要且有意义事情 从整个项目来看 本文的研究仅仅是一个起点 关于领域本体 的建设 后续要进行的工作还有很多 在今后的研究中 希望能提出更加积极的想 法 5 2 展望 当前的网络评论观点技术还不成熟 还不能投入商业运营 而且研究的机构并 不多 在本文的研究之后 认为观点抽取领域可以以下方面进行进一步的研究 1 系统预处理 由于网络评论语句的不规范 需要对网络评论语句做分词前的预处理和分词后 的预处理 如 正确添加标点 纠正错别字 正确识别简称等 预处理的好不好对 网络观点的正确抽取有着不可忽视的影响 2 综合主题特征库 现在 各个研究所的观点抽取都是有特定范围的 只限定在一个领域 这样就 不能被广泛的应用 应该设立综合主题特征库 使之适应多种主题评论观点的抽取 3 特殊句型的正确识别 现在的网络评论观点抽取算法只能对一般句型进行观点抽取 这样就会影响观 点抽取结果的正确性 因此 进一步研究特殊句型中采用的表现手法 如排比 拟 人 比喻 类比 讽刺 假设等 这样可以更好的分析上下文极性 认出其正确的 观点 是值得作者去积极探索和研究的 用户评论分析系统研究 40 网络评论观点抽取是一项长期的研究工作 它是分析人们的口语化语句 因此 受到人们语言习惯的影响 对于极性库需要进行长期的维护 它又是一个在自然语 言处理方面非常有意义的研究 它将会方便网民 改变人们将来选择产品的方式 也将成为厂家认识产品的不足和开发更适合大众需要的产品的重要评判标准之一 同时也是关注竞争对手的产品的重要方式 同时会给其它的自然语言处理研究作参 考 自然语言处理研究的进步 能提高极性词抽取系统的准确率 间接的也提高了 网络评论观点抽取的准确率 共同促进对中文语言的深入挖掘 2010 届信息管理与信息系统专业毕业设计 论文 41 致 谢 在完成系统实现和撰写本篇论文的过程中 李建勋老师给予了我精心的指导和 无私的关怀 李老师在对课题的研究思路 结构框架 系统实现 理论

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论