版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电商产品评论文本情感分类相关理论基础综述目录TOC\o"1-3"\h\u27703电商产品评论文本情感分类相关理论基础综述 1152491.1评论文本的预处理 1138901.1.1文本清洗 230431.1.2分词 2312561.1.3过滤停用词 2249901.2文本表示模型 2220951.1.1布尔模型 2290291.1.2向量空间模型 39801.1.3词向量模型 3296651.3情感分类模型 4303001.4常用主题模型 5237991.4.1标准LDA模型 5279501.4.2ASUM模型 61.1评论文本的预处理图1.1评论文本预处理流程图当我们爬取到语料后,需要对大量的评论语句进行处理,去除对模型分类无关的语句。比如一些符号和停用词。大致流程如图所示。图1.1评论文本预处理流程图1.1.1文本清洗由于网络评论语句没有固定的格式要求,消费者可以随意发送,因此会出现一些文字、网络术语、特殊符号等,这些文字不仅会增加文本的表现维度,还会影响情感分类最终效果。因此,需要对评论文本中的空格、无关数字、特殊字符、表情符号等进行识别并去除。1.1.2分词词作为汉语语句中语义信息表达的基本单位。与英语不同,英语单词可以用空格分隔,而中文文本短语由一个或多个单词组成,它们之间没有空格分隔。因此,中文自动分词已成为情感主题分类不可避免的步骤。目前,汉语分词除了基于字典的暴力分词方法,还有统计分词和基于知识理解分析的分词方法。汉语分词需要解决歧义检测和新词检测这两个问题,这就需要研究人员来解决的问题。随着各国研究人员的不懈努力,分词技术也越来越成熟,本文选择使用中科院研制的中文分词系统(NLPIR)。1.1.3过滤停用词去除停用词,即不相关词、无用词、符号等。这里借鉴了航大的停用词表进行匹配过滤,最后去掉停用词。处理过停用词后,需要进行关键词提取,所谓关键词就是词频高的词,但是要注意的是,像“的”、“是”这种停用词需去除。1.2文本表示模型通过语料预处理后,需要将评论文本表示为机器可识别的结构,并使用更合适的文本表示模型,将中文文本转换为数学模型,便于机器识别,以减少文本分析和处理的时间。1.1.1布尔模型布尔模型(BM)的基本原理是通过检索的方式,对某个特征词进行查询。查询结果只有两种,一是出现了此特征词,其返回结果为真,权重设置为1;二是没有查询出此特征词,其返回结果为假,权重设置为0。布尔模型的公式如下:其中ti表示文本dk对应的特征向量,布尔模型的优点是它有一个简单而快速的表示。它的缺点是不能准确地表达评论文本的意思,而且没有重视评论文本中每个特征项。1.1.2向量空间模型向量空间模型可以比布尔模型更准确地表示文本,其中重要原因是VSM考虑了特征的权重。向量空间模型(VectorSpaceModel,VSM),原理是把评论语句中的部分词语当成特征项,将文本转换为向量的形式。假设有n个特征词,VSM可以将其映射为n个n维向量,特征向量有且仅有一维有值,即权重,剩下其他维权重都表示为0。因此,n个n维向量就形成了一个仅有主对角线有值的稀疏矩阵。1.1.3词向量模型与向量空间模型相比之下,向量词模型(WordVectorModel,WVM)解决了向量空间模型中特征词表示单一的问题,它通过特定的实数空间来表示词,词空间是多维的。词向量的表示需要用一个合适的工具,将词转换为向量空间中的向量。本文使用word2vec,通过词向量之间的向量运算来表达词的语义关系。word2vec工具有两种模型,其处理过程如图1.2所示图1.2CBOW和Skip-gram模型结构图1.3情感分类模型情感分类所用的分类器实际上是一个映射函数。我们将常用的情感分类模型分为基于字典和基于机器学习的分类方法。由于深度学习在大部分自然语言处理中的应用很广泛,所以研究出了比传统算法更加精确的分类模型,它们结合了的情感分析模型,其分类可归纳如图所示。图1.3情感分类模型一览图1.4常用主题模型1.4.1标准LDA模型LDA可以看做是一种三层结构的模型,属于无监督的机器学习方法,将文本评论语句可被转换为易于建模的结构化数字信息。其中有文档、主题和词,词与词之间的顺序和联系不再是要关注的点,每个词都是独立的,主题其实就是一种词汇分布,而文章是主题的一种多项概率分布的表现形式,并不涉及到词与词的顺序关系。如图1.6所示。图1.6LDA结构图其中θβz为隐形变量,经过n次循环迭代得到更新的α后验参数。这就是lda需要的结果。可用公式概括为Pj(wi|ds)=P(wi|tj)*P(tj|ds)1.4.2ASUM模型这是一种极端情感分类的模型,通过假设出的一种极性情感对文本进行识别分类。ASUM模型把一句话中的所有词都当做这个极性情感的属性词,当某个属性词出现率较高时,就代表了整个句子的属性,然后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 韶关市浈江区2025-2026学年第二学期五年级语文期中考试卷(部编版含答案)
- 龙岩永定县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 广州市东山区2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 潍坊市潍城区2025-2026学年第二学期五年级语文第五单元测试卷(部编版含答案)
- 系部行政例会工作制度
- 纪委办案人员工作制度
- 维修人员现场工作制度
- 综合治理防范工作制度
- 2025 初中写作运用象征帆船寓意逐梦前行课件
- 2026年注册会计师税法历年真题详解及复习技巧
- 2025年五类人员选拔考试试题及答案
- 压力储罐设计计算书
- 产业基金课件
- 2025年疾病预防控制中心招聘考试笔试试题(含答案)
- 医院培训课件:《医疗机构消防安全知识讲座》
- 咯血护理常规课件
- 慢性肾衰竭病人的护理试题及答案
- 设备制造质量安全保证体系及措施
- 跨境电子商务专业教学标准(中等职业教育)2025修订
- 国网营销安全培训体系构建与实施
- 人教PEP版六年级英语下册Unit4PartA第一课时教学课件完整版
评论
0/150
提交评论