人工智能应用与实践项目式教程 课件 ch02 让机器“理解”文字-自然语言处理_第1页
人工智能应用与实践项目式教程 课件 ch02 让机器“理解”文字-自然语言处理_第2页
人工智能应用与实践项目式教程 课件 ch02 让机器“理解”文字-自然语言处理_第3页
人工智能应用与实践项目式教程 课件 ch02 让机器“理解”文字-自然语言处理_第4页
人工智能应用与实践项目式教程 课件 ch02 让机器“理解”文字-自然语言处理_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

让机器“理解”文字——自然语言处理“高职高专系列丛书人工智能应用与实践项目式教程项目201短文本相似度分析任务知识01应用背景互联网的快速发展使用户生成的短文本数据呈爆炸式增长,涵盖社交媒体帖子、评论、搜索关键词等。对这些数据进行有效的管理与利用可以提升用户体验、优化内容推荐、改善搜索效果,因此如何从海量的数据中准确识别相似内容,是电商平台面临的核心挑战。02AI+行业结合传统的短文本处理方式依赖关键词匹配,效率低且准确率不高;AI技术通过将文本转换为向量并计算相似度,能精准识别语义相似内容,大幅提升处理效率和准确性。03技术原理短文本相似度分析的核心是“词典+向量计算”,即先构建记录词出现频率的“词典”,再将这些信息转换为数字向量,最后计算数字向量之间的角度(余弦相似度),角度越小相似度越高。这种方法也是NLP的经典方法之一。任务实施01实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台及其自带的四个数据集,分别是user1.csv(包含用户爱好和感受的短文本)、sent2.txt(描述祖国山河的长文本)、user3.csv(武侠小说人物名称)和doc4.csv(包含多组句子的对比数据)。02数据预处理对数据进行清洗和格式标准化,确保数据的有效性。任务实施03操作步骤3.1短文本特征提取(1)(2)(3)打开“短文本相似度分析”界面,在界面左侧的“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。单击“读取csv文件”组件,在打开的如图2.1.1所示界面右侧的“读取csv文件”选区中进行参数设置。将“选择数据源”设置为“user1”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“GB18030”。右键单击“读取csv文件”组件,在打开的菜单中选择“运行”命令,运行完成后组件右侧出现“”表示完成数据的读取。任务实施03操作步骤3.1短文本特征提取(4)(5)(6)然后在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,并连接“读取csv文件”组件和“分词”组件。单击“分词”组件,打开“分词”选区,进行参数设置。将“选择数据源”设置为“test1”,然后运行。将第二个“分词”组件拖曳到画布中,并将“选择数据源”设置为“test2”,连接第一个“分词”组件和第二个“分词”组件,然后运行。(7)将第三个“分词”组件拖曳到画布中,并将“选择数据源”设置为“test3”,连接第二个“分词”组件和第三个“分词”组件,然后运行。单击界面下方的展开按钮即可查看数据的基本统计信息,如图2.1.2所示。任务实施03操作步骤3.1短文本特征提取图2.1.1“短文本相似度分析”界面任务实施03操作步骤3.1短文本特征提取图2.1.2显示数据的基本统计信息(8)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本特征提取”组件并将其拖曳到画布中,连接第三个“分词”组件和“文本特征提取”组件。单击“文本特征提取”组件,在打开的“文本特征提取”选区中进行参数设置。将“需要向量的列”设置为“已选择3个”,然后运行,如图2.1.3所示。图2.1.3设置“文本特征提取”组件任务实施03操作步骤3.1短文本特征提取(9)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“行列转置”组件并将其拖曳到画布中,连接“文本特征提取”组件和“行列转置”组件,然后运行“行列转置”组件。运行完成后组件右侧出现“”表示完成对数据集userl.csv的特征提取,如图2.1.4所示。图2.1.4对数据集userl.csv进行特征提取预期结果:数据格式从10行3列转换为3行10列。(10)任务实施03操作步骤3.2长文本特征提取(1)在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取txt文件”组件并将其拖曳到画布中。单击“读取txt文件”组件,在打开的“读取txt文件”选区进行参数设置,将“选择文件”设置为“sent2”,“编码”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,然后连接“读取txt文件”组件和“分词”组件。单击“分词”组件,在打开的“分词”选区进行参数设置,将“选择文本列”设置为“content”,然后运行。任务实施03操作步骤3.2长文本特征提取(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本特征提取”组件并将其拖曳到画布中,连接“分词”组件和“文本特征提取”组件。单击“文本特征提取”组件,在打开的“文本特征提取”选区进行参数设置。将“需要向量的列”设置为“content”,然后运行。(4)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“行列转置”组件并将其拖曳到画布中,连接“文本特征提取”组件和“行列转置”组件,然后运行“行列转置”组件,完成对数据集sent2.txt的特征提取,如图2.1.5所示。图2.1.5对数据集sent2.txt进行特征提取任务实施03操作步骤3.3One-Hot编码(1)在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区中进行参数设置。将“选择数据源”设置为“user3”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“One-Hot编码”组件并将其拖曳到画布中,连接“读取csv文件”组件和“One-Hot编码”组件。单击“One-Hot编码”组件,在打开的“One-Hot编码”选区中进行参数设置,将“待处理列”设置为“Name”,然后运行。(3)在“组件”选区选择“行列转置”选项,在打开的下拉列表中用鼠标左键选中“行列转置”组件并将其拖曳到画布中,连接“One-Hot编码”组件和“行列转置”组件,然后运行“行列转置”组件,完成对数据集user3.csv的特征提取,如图2.1.6所示。图2.1.6对数据集user3.csv进行特征提取任务实施03操作步骤3.4余弦相似度比较(1)在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区中进行参数设置。将“选择数据源”设置为“doc4”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中用鼠标左键选中“行过滤”组件并将其拖曳到画布中,连接“读取csv文件”组件和“行过滤”组件。单击“行过滤”组件,在打开的“行过滤”选区中将“过滤条件表达式”设置为“Type=="Group1"”,然后运行。(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本特征提取”组件并将其拖曳到画布中,连接“行过滤”组件和“文本特征提取”组件。单击“文本特征提取”组件,在打开的“文本特征提取”选区中将“需要向量的列”设置为“Sentence1”、“Sentence2”和“Sentence3”,然后运行。任务实施03操作步骤3.4余弦相似度比较(4)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“余弦相似度计算”组件并将其拖曳到画布中,连接“文本特征提取”组件和“余弦相似度计算”组件。单击“余弦相似度计算”组件,在打开的“余弦相似度计算”选区中将“文本向量列1”设置为“result_1”,“文本向量列2”设置为“result_2”,然后运行。(5)再次选中“余弦相似度计算”组件并将其拖曳到画布中,连接“文本特征提取”组件和“余弦相似度计算”组件。单击“余弦相似度计算”组件,在打开的“余弦相似度计算”选区中将“文本向量列1”设置为“result_2”,“文本向量列2”设置为“result_3”,然后运行,如图2.1.7所示。图2.1.7中文文本进行余弦相似度比较任务实施03操作步骤3.4余弦相似度比较(6)运行成功后得到文本之间的余弦相似度值,即可对文本进行相似度分析。如表2.1.1展示了Group1组内文本之间余弦相似度的计算结果,余弦相似度的值越大,文本之间的相似度越高。02新闻文本分类任务知识01应用背景新闻媒体行业每天产生海量的文本数据,是否能够快速准确地对新闻进行分类是其面临的重要挑战。传统的人工分类方式效率低、成本高,还容易受主观因素影响,自然语言处理技术为解决这一问题提供了有效途径。02AI+行业结合传统的新闻分类方式依赖人工操作,效率低且准确率不稳定;AI新闻分类通过自动分析文本内容,实现了快速准确分类,大幅提升了工作效率。03技术原理新闻文本分类的核心类似“新闻词典比对”。先构建记录不同类别新闻常见词汇的“词典”,当接收到新闻时,AI先统计新闻中词汇的出现频率,再与“词典”进行比对,最后通过数学计算判断新闻最匹配的类别。任务实施01实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台及其自带的“data.csv”文件,该文件包含两列数据,分别是text(新闻正文)和label(新闻类别)。02数据预处理(1)(2)读取原始数据。将新闻数据文件“data.csv”导入分析环境,确保数据的完整。删除缺失值。将有缺失值的行删除,避免影响分类结果。任务实施03操作步骤(1)打开“新闻文本分类”界面,在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中将“读取csv文件”组件拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区进行参数设置。将“选择数据源”设置为“data”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“删除缺失值”组件拖曳到画布中,然后连接“读取csv文件”组件和“删除缺失值”组件。单击“删除缺失值”组件,在打开的“删除缺失值”选区中进行参数设置。将“选择列名”设置为“全选”,即包含“text”和“label”两个属性。将“删除标准”设置为“某一行/列至少有一...”,“选择轴”设置为“删除行”。然后运行“删除缺失值”组件,如图2.2.1所示。(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,然后连接“删除缺失值”组件和“分词”组件。单击“分词”组件,在打开的“分词”选区进行参数设置,将“选择文本列”设置为“text”,然后运行即可。任务实施03操作步骤任务实施03操作步骤(4)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本预处理”组件并将其拖曳到画布中,然后连接“分词”组件和“文本预处理”组件。单击“文本预处理”组件,在打开的“文本预处理”选区进行参数设置。将“选择文本列”设置为“text”,并勾选“剔除数字”“剔除网址”“剔除email地址”复选框,然后运行,如图2.2.2所示。任务实施03操作步骤(5)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“去停用词”组件并将其拖曳到画布中,然后连接“文本预处理”组件和“去停用词”组件。单击“去停用词”组件,在打开的“去停用词”选区进行参数设置。将“选择文本列”设置为“text”,“选择停用词词典”设置为“stopword”,“增加停用词”设置为“addWords”,“删除停用词”设置为“delWords”,然后运行。(6)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“TF-IDF”组件并将其拖曳到画布中,然后连接“去停用词”组件和“TF-IDF”组件。单击画布中的“TF-IDF”组件,在打开的“TF-IDF”选区进行参数设置。将“选择id列”设置为“label”,“选择文本列”设置为“text”,“最大词数”设置为“None”,然后运行。TF-IDF(TermFrequency-InverseDocumentFrequency,词频—逆文档频率)是一种用于信息检索与文本挖掘的加权技术,核心作用是评估一个词语对一篇文档的重要程度,并以此区分文档主题、筛选关键信息。任务实施03操作步骤(7)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“Ordinal编码”组件并将其拖曳到画布中,然后连接“TF-IDF”组件和“Ordinal编码”组件。单击“Ordinal编码”组件,在打开的“Ordinal编码”选区进行参数设置。将“待处理列”设置为“label”,勾选“保留原列”复选框,然后运行,将文本转化为计算机可以处理的连续整数形式,如图2.2.3所示。任务实施03操作步骤(8)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中用鼠标左键选中“列过滤”组件并将其拖曳到画布中,然后连接“Ordinal编码”组件和“列过滤”组件。单击“列过滤”组件,在打开的“列过滤”选区进行参数设置。将“选择列名”设置为“tf”“idf”“tf-idf”“new_label”,如图2.2.4所示,然后运行。(9)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中用鼠标左键选中“数据拆分”组件并将其拖曳到画布中,然后连接“列过滤”组件和“数据拆分”组件。单击“数据拆分”组件,在打开的“数据拆分”选区进行参数设置。将“拆分比例”设置为“0.8”,“随机数种子”设置为“None”,然后运行。(10)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中用鼠标左键选中“分类-朴素贝叶斯”组件并将其拖曳到画布中,然后连接“数据拆分”组件和“分类-朴素贝叶斯”组件。单击“分类-朴素贝叶斯”组件,在打开的“分类-朴素贝叶斯”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,然后运行。任务实施03操作步骤(11)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中用鼠标左键选中“多分类模型评估”组件并将其拖曳到画布中,然后连接“分类-朴素贝叶斯”组件与“多分类模型评估”组件,以及“数据拆分”组件与“多分类模型评估”组件。单击“多分类模型评估”组件,在打开的“多分类模型评估”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,然后运行,如图2.2.5所示。任务实施03操作步骤(12)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“分类-K近邻”组件拖曳到画布中,然后连接“数据拆分”组件和“分类-K近邻”组件。单击“分类-K近邻”组件,在打开的“分类-K近邻”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,“K值”设置为“5”,“距离度量”设置为“欧式距离”,“分类决策规则”设置为“uniform”,然后运行,如图2.2.6所示。任务实施03操作步骤(13)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“多分类模型评估”组件拖曳到画布中,然后分别连接“分类-K近邻”组件和“多分类模型评估”组件,以及“数据拆分”组件和“多分类模型评估”组件。单击“多分类模型评估”组件,在打开的“多分类模型评估”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,然后运行即可完成对K近邻模型的评估。(14)如表2.2.1所示是使用朴素贝叶斯模型对新闻进行分类后的评估指标表,包含了AccuracyScore、Recall和F1Score等指标,其中部分类别(如1、2、3)的AccuracyScore和F1Score为0,表明模型对这些类别的分类效果不佳。如表2.2.2所示是使用K近邻模型对新闻进行分类后的评估指标表,同样包含了AccuracyScore、Recall和F1Score等指标,从表中可以看到K近邻模型在各类别上的指标均有数值,且整体分类评估表现与朴素贝叶斯模型存在差异。任务实施03操作步骤03新闻评论情感分析任务知识01应用背景随着社交媒体和新闻平台的普及,公众习惯通过评论表达观点,这些评论蕴含的情感信息是政府和企业了解民意的重要窗口。但面对海量的文本数据,传统的人工阅读方式无法满足实时性与全面性需求,舆情监控面临效率低、响应慢的挑战。02AI+行业结合AI驱动的情感分析模型能够从大量的文本中自动学习语言规律,识别复杂语义,实现全天候、自动化情绪监测,大幅提升情感分析效率与准确性。03技术原理情感分析模型如同“语言翻译员”,通过学习带有“正面”和“负面”标签的评论样本,掌握不同语境中词语、句式的情感倾向规律。遇到新评论时,模型依据所学经验判断情感倾向,类似孩子通过听大量的故事学会区分“开心”和“难过”的表达方式。任务实施01实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台及其自带的新闻评论情感分析数据集“combined_shuffled_01.csv”。数据来源于主流新闻网站的真实用户评论,约10000条,包含两个字段,text(评论原文)和emotion(情感标签,0代表“负面”,1代表“正面”),数据集经专业人员人工标注,确保标签质量。02数据预处理010203去除特殊符号。利用正则表达式删除空格、标点、特殊字符,保留纯文本内容,减少干扰信息。中文分词。将连续的汉字序列切分为有意义的词语单元,便于模型理解词汇的组合。数据采样。随机抽取200条评论作为样本,加快处理速度,适配教学演示需求。任务实施03操作步骤(1)打开“新闻文本分类”界面,在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中将“读取csv文件”组件拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区进行参数设置。将“选择数据源”设置为“combined_shuffled_01”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”。然后运行,完成对新闻评论情感分析数据集的读取。(2)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“列运算”组件拖曳到画布中,然后连接“读取csv文件”组件和“列运算”组件。单击“列运算”组件,在打开的“列运算”选区中进行参数设置并运行,如图2.3.1所示。任务实施03操作步骤(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,然后连接“列运算”组件和“分词”组件。单击“分词”组件,在打开的“分词”选区进行参数设置,将“选择文本列”设置为“修改后内容”,然后运行即可。(4)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“采样”组件拖曳到画布中,然后连接“分词”组件和“采样”组件。单击“采样”组件,在打开的“采样”选区中进行参数设置。将“采样数”设置为“200”,“随机数种子”设置为“10”,然后运行。(5)在“组件”选区选择“文本分析”选项,在打开的下拉列表中将“文本数据转换为数据...”组件拖曳到画布中,然后连接“采样”组件和“文本数据转换为数据...”组件。单击“文本数据转换为数据...”组件,在打开的“文本数据转换为数据...”选区进行参数设置。将“选择处理列”设置为“修改后内容”,然后运行即可。(6)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“数据拆分”组件拖曳到画布中,然后连接“文本数据转换为数据...”组件和“数据拆分”组件。单击“数据拆分”组件,打开“数据拆分”选区,将“拆分比例”设置为“0.8”,“随机数种子”设置为“None”,然后运行。任务实施03操作步骤(7)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“分类-朴素贝叶斯”组件拖曳到画布中,然后连接“数据拆分”组件和“分类-朴素贝叶斯”组件。单击“分类-朴素贝叶斯”组件,在打开的“分类-朴素贝叶斯”选区

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论