4-6.项目四 人工智能+文化娱乐:电影影评情感分析-任务二 文本预处理与特征提取_第1页
4-6.项目四 人工智能+文化娱乐:电影影评情感分析-任务二 文本预处理与特征提取_第2页
4-6.项目四 人工智能+文化娱乐:电影影评情感分析-任务二 文本预处理与特征提取_第3页
4-6.项目四 人工智能+文化娱乐:电影影评情感分析-任务二 文本预处理与特征提取_第4页
4-6.项目四 人工智能+文化娱乐:电影影评情感分析-任务二 文本预处理与特征提取_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

任务二

文本预处理与特征提取项目四

人工智能+文化娱乐:电影影评情感分析《人工智能技术应用导论》12目录任务描述任务目标3任务实施4任务说明任务描述1

任务描述中文文本处理技巧本任务将带领大家探索中文文本的特殊性,学习分词、停用词过滤与TF-IDF特征工程及原理应用。

中文文本处理的作用理解中文文本处理对模型性能的影响,为机器学习与情感分析奠定数据基础。任务目标2中文文本处理方法

中文文本预处理方法掌握分词、去除停用词等中文文本预处理的具体方法。

文本特征提取方法掌握如TF-IDF等文本特征提取的相关方法。任务说明3实现步骤与实践要求

1、文本预处理创建停用词列表;创建含分词去停用词、重组字符串的预处理函数;对数据集应用该函数。

2、特征提取初始化TfidfVectorizer转换器,并设定只保留最重要的1000个词,以控制维度;转换文本数据为TF-IDF特征矩阵并获取标签。

要求1-成功对中文文本进行预处理。

要求2-成功对中文文本提取特征向量。任务实施4核心框架

核心框架Jieba是中文分词Python库,解决中文无空格分隔问题,是中文NLP任务首要步骤,支撑文本分类等后续处理。代码详解1、文本预处理

代码详解创建停用词列表创建停用词列表,包含"的"、"了"、"是"、"在"、"我"、"有"、"和"、"就"、"不"、"人"、"都"、"一"、"一个"等常用无实义词汇。

定义预处理函数定义预处理函数,接收一个原始文本字符串作为输入,并返回一个清洗后的字符串。

应用预处理函数对数据集中review列的每一行都执行预处理函数函数,并将结果存入新列processed_review,并打印输出。代码详解

预处理函数详解1、jieba.lcut()是Jieba库中的一个函数,它将一个连续的中文句子切分成一个词语列表2、使用列表推导式对分词后的列表进行过滤。这是预处理的核心,它同时执行了两个过滤条件:

(1)检查当前词语是否在我们之前定义的停用词列表中。如果不在,就保留它。

(2)检查当前词语的长度是否大于1。不是,则过滤掉一些单个汉字,这些单字词通常信息量较少。3、将过滤后的词语列表用空格连接成一个字符串,这是后续特征提取所需要的格式。代码详解2、特征提取01代码详解:特征提取创建TfidfVectorizer对象使用特征工程的核心工具:TfidfVectorizer文本向量化器,创建TfidfVectorizer对象,参数限制只考虑最重要的1000个词,防止特征维度过高02TF-IDF计算学习所有文档的词汇表,并计算每个词的IDF值;将每篇文档转换成TF-IDF特征矩阵,它是一个稀疏矩阵,形状为(样本数,特征数)。TF指一个词在单篇文档中出现的频率。IDF指一个词在整个文档集中的普遍程度。TF-IDF是两者的乘积。评估一个词对于一篇文档的重要性。03目标标签提取选数据集中取名为label的那一列,这一列包含了每条评论对应的情感(1代表好评,0代表差评)。将这个标签列赋值给变量y。在监督学习中,x通常代表特征,y代表我们想要预测的目标。项目运行与测试项目运行与测试在PyCharm中运行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论