版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
让机器“学会”学习——深度学习与智能引擎“高职高专系列丛书人工智能应用与实践项目式教程项目1【ch01】让机器“学会”学习——深度学习与智能引擎【ch02】让机器“理解”文字——自然语言处理【ch03】让机器“听懂”声音——语音识别与合成【ch04】让机器“看清”世界——计算机视觉【ch05】让机器“创作”内容——大语言模型与AIGC【ch06】AI+智能办公【ch07】AI+教育人文【ch08】AI+医疗健康【ch09】中华美食制作助手全套可编辑PPT课件
01寻找身边的智能应用任务知识01AI应用背景如今,AI已不再是实验室里的高科技概念,而是深入人们日常生活的“隐形助手”。从早上被手机闹钟唤醒,到晚上用语音控制关灯,AI无处不在。在消费电子、社交平台、电商服务、交通出行等领域,企业纷纷引入AI技术来提升产品体验、优化运营效率、增强用户黏性。然而,许多人享受着AI带来的便利,却对其“看不见、不了解、不会用”。正确认识身边的AI应用,是迈向智能时代的第一步。任务知识02AI+行业结合过去,设备是“被动响应”的:你按开关,灯才亮;你手动搜索,才能找到商品。如今,AI让设备变为“主动智能”:手机能预测你想打开哪个App,电商平台能提前推荐你可能需要的商品,智能汽车能自动识别障碍物并刹车。这种从“人操作机器”到“机器理解人”的转变,正是AI带来的核心变革。它让服务更贴心、决策更高效、交互更自然。03技术原理可以把AI想象成一个“会学习的学生”。(1)输入:AI从各种设备中获取数据,如语音、浏览记录、摄像头画面。(2)学习:AI通过算法分析获取的数据,并找出规律,如“用户A常在晚上看健身视频”。(3)输出:根据学习结果做出反应,如向用户A推荐蛋白粉或健身课程。任务实施01识别智能设备观察你的手机、智能家居(如智能音箱、扫地机器人)、穿戴设备(如智能手表),记录它们有哪些“聪明”的功能。例如,手机相册能自动分类“人物”“宠物”“风景”,这是AI在“看图识物”。02调查推荐系统打开小红书、微信公众号或抖音等App,浏览几条内容,注意系统为你推荐了什么。思考:这些推荐是否符合你的兴趣?你最近是否搜索或点赞过类似内容?任务实施03体验智能客服进入淘宝或京东官网,尝试与机器人客服对话。试试问它“我的订单到哪了?”“这件衣服有货吗?”。观察它能否准确回答。如果它解决不了,是否会转接人工。这体现了AI在服务中的“辅助”作用。04研究语音助手对Siri、小爱同学或天猫精灵说:“明天天气怎么样?”“定一个七点的闹钟。”观察它的反应速度和准确性。语音助手的背后是语音识别(听清你说的)和自然语言处理(理解你的意思)两大技术。任务实施05了解智能家居如果你家里有智能灯、智能空调,观察它是如何工作的。例如,它是否能根据时间自动开关、是否能通过手机远程控制。这些功能依赖传感器和联网技术,由AI进行协调管理。06探究智能驾驶查找资料,了解特斯拉、小鹏等智能汽车是如何识别红绿灯、车道线和行人的。智能驾驶主要依靠摄像头、雷达和AI算法“看清”道路,像人一样做出判断。02回归模型任务知识01应用背景薪资预测是人力资源管理的重要环节,传统方法依赖经验判断,缺乏科学依据,容易导致薪资与员工贡献不匹配。随着大数据技术的发展,通过分析历史数据建立预测模型,可以更客观、准确地预测薪资水平,帮助企业和员工做出更好的决策。02AI+行业结合传统薪资预测依赖经验、主观性强、预测结果波动大,AI薪资预测能基于历史数据建立数学模型,其结果客观准确,可以进行量化评估。03技术原理想象一下,你有一张工作年限与薪资的关系图。如果把这些点连起来,会形成一条直线或曲线。线性回归模型就是找出这条最佳拟合线,通过这条线,可以预测任意工作年限对应的薪资。任务实施01实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台和平台自带的“SalaryData.csv”文件。文件包含两列数据YearsExperience(工作年限,单位:年)和Salary(年薪,单位:元),数据来源于某企业员工的薪资记录,用于建立工作年限与薪资的关系模型。02数据预处理模型训练前需要对数据进行简单处理以确保数据质量,主要步骤包括:检查数据完整性,确认无缺失值;了解数据分布,查看基本统计信息;可视化数据关系,绘制散点图观察数据分布。任务实施03操作步骤3.1读取csv文件(1)打开“回归模型”界面,在界面左侧的“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。(2)设置参数。单击画布中的“读取csv文件”组件,打开如图1.2.1所示界面右侧的“读取csv文件”选区,即可进行参数设置。将“选择数据源”设置为“SalaryData”,将“列名”设置为“首行”,将“行名”设置为“自动生成”,将“编码方式”设置为“UTF-8”。(3)右键单击“读取csv文件”组件,在打开的菜单中选择“运行”命令,运行完成后组件右侧出现“”表示完成文件读取操作。(4)预期结果:成功导入30行×2列的数据,并显示前5行数据。任务实施03操作步骤图1.2.1“回归模型”界面任务实施03操作步骤3.2了解数据结构(1)在“组件”选区选择“了解你的数据”选项,在打开的下拉列表中用鼠标左键选中“查看前N6”。
项目1让机器“学会”学习——深度学习与智能引擎行”组件并拖曳到画布中,连接“读取csv文件”组件和“查看前N行”组件。单击“查看前N行”组件,在打开的“查看前N行”选区中进行参数设置,设置“N”为“5”,确认数据格式。右键单击“查看前N行”组件执行运行操作。任务实施03操作步骤3.2了解数据结构(2)用鼠标左键选中“描述性统计”组件并拖曳到画布中,然后连接“读取csv文件”组件和“描述性统计”组件。单击“描述性统计”组件,在打开的“描述性统计”选区中进行参数设置,设置“选择列名”为“YearsExperience”和“Salary”。右键单击“描述性统计”组件执行运行操作,单击界面下方的展开按钮即可查看数据的基本统计信息,如图1.2.2所示。(3)预期结果:成功显示数据的类型、数量、平均值、标准差等统计信息。图1.2.2查看数据的基本统计信息任务实施03操作步骤3.3观察数据分散位置(1)在“组件”选区选择“数据可视化”选项,在打开的下拉列表中将“散点图”组件拖曳至画布中,然后连接“读取csv文件”组件和“散点图”组件。(2)单击“散点图”组件,在打开的“散点图”选区中设置x轴为“YearsExperience”,y轴为“Salary”。(3)右键单击“散点图”组件,在打开的菜单中选择“运行”命令,即可得到数据分布的散点图,如图1.2.3所示。(4)预期结果:成功生成散点图,显示工作年限与薪资呈正相关分布。163任务实施03操作步骤图1.2.3绘制工作年限与薪资关系散点图任务实施03操作步骤3.4数据拆分(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“数据拆分”组件拖曳到画布中,然后连接“读取csv文件”组件和“数据拆分”组件。(2)单击“数据拆分”组件,在打开的“数据拆分”选区中设置“拆分比例”为“0.8”(80%训练集、20%测试集),设置“随机数种子”为“1”。(3)右键单击“数据拆分”组件,在打开的菜单中选择“运行”命令,即可得到两个数据集,如图1.2.4所示。(4)预期结果:成功拆分了数据,将数据分为训练集(24行×2列)和测试集(6行×2列),用于模型训练和评估。任务实施03操作步骤图1.2.4拆分数据任务实施03操作步骤3.5回归模型训练(1)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“回归-线性回归”组件拖曳到画布中,然后连接“回归-线性回归”组件和“数据拆分”组件。(2)单击“回归-线性回归”组件,在打开的“回归-线性回归”选区中设置特征列为“YearsExperience”,预测列为“Salary”。(3)右键单击“回归-线性回归”组件,在打开的菜单中选择“运行”命令,如图1.2.5所示,表示模型训练成功。(4)预期结果:工作年限与薪资之间的线性关系模型训练成功,显示训练进度和模型基本信息。任务实施03操作步骤图1.2.5训练回归模型任务实施03操作步骤3.6模型评估(1)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“回归模型评估”组件拖曳到画布中,然后连接“回归-线性回归”组件和“回归模型评估”组件,以及“数据拆分”组件和“回归模型评估”组件。(2)单击“回归模型评估”组件,在打开的“回归模型评估”选区中设置特征列为“YearsExperience”,预测列为“Salary”。(3)右键单击“回归模型评估”组件,在打开的菜单中选择“运行”命令,即可得到模型的评估指标,如图1.2.6所示。(4)预期结果:成功生成评估指标,包括MAE、MSE、RMSE和R2,可用于客观评估模型在测试集上的表现。任务实施03操作步骤图1.2.6评估回归模型任务实施03操作步骤3.7排序与可视化(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“排序”组件拖曳到画布中,然后连接“回归模型评估”组件和“排序”组件。(2)单击“排序”组件,在打开的“排序”选区中设置列名为“YearsExperience”,设置“排序方式”为“升序”。右键单击“排序”组件,在打开的菜单中选择“运行”命令,即可得到数据的升序排列,如图1.2.7所示。(3)在“组件”选区选择“数据可视化”选项,在打开的下拉列表中将“多条折线图”组件拖曳到画布中,然后连接“排序”组件和“多条折线图”组件。单击“多条折线图”组件,在打开的“多条折线图”选区选择x轴数据为“YearsExperience”,设置x轴名称为“工作经验”;选择y轴数据为“Salary”和“Y_prediction”,设置y轴名称为“年薪”。任务实施03操作步骤图1.2.7设置数据按照升序排列任务实施03操作步骤3.7排序与可视化(4)右键单击“多条折线图”组件,在打开的菜单中选择“运行”命令,即可得到实际薪资和预测薪资随工作经验增长的变化曲线,如图1.2.8所示。(5)预期结果:成功生成实际薪资与预测薪资的折线图,可以直观比较实际薪资与预测薪资的差异。图1.2.8绘制实际薪资与预测薪资折线图03分类模型任务知识01应用背景贷款审批是金融机构的核心业务,涉及大量的客户申请。传统的审批方式依赖人工经验,存在效率低、主观性强、风险控制难等问题。随着金融科技的发展,利用历史数据训练的机器学习模型能够更客观、高效地评估客户的信用状况,成为现代金融机构的重要工具。02AI+行业结合传统的贷款审批方式以人工审核为主,依赖经验判断、审批速度慢、风险控制难度大;AI审批方式通过自动分析历史数据,能够快速完成信用评估,风险控制更精准,且可大规模应用于海量申请。03技术原理分类模型就像一个“信用评估小助手”,它先学习过去贷款人的个人信息(如年龄、收入)和还款情况,建立一套判断标准。当新申请人提交贷款申请时,小助手会将申请人的相关信息与历史数据进行比对,进而预测该申请人是否会按时还款,为贷款审批提供依据。本任务使用的逻辑回归和随机森林等都属于经典的机器学习算法,非常适合处理像表格这样的结构化数据。任务实施01实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台和平台自带的贷款用户信用评估数据集“3cstraining.csv”,该数据集包含以下关键信息:是否出现严重违约(SeriousDlqin2yrs)即目标变量(1表示出现严重违约,0表示正常)、信用额度使用率(RevolvingUtilizationOfUnsecuredLines)即未使用信用额度比例、年龄(age)即申请人年龄、未偿付债务比率(DebtRatio)即当前债务与收入的比率、月收入(MonthlyIncome)即申请人月收入水平、已开放信用额度数量(NumberofOpenCreditLinesAndLoans)即已开放的信用额度数量等。任务实施02数据预处理(1)(2)(3)采用“众数填充”方法填补少量缺失值,确保数据的分布特性,避免因删除缺失值丢失信息。缺失值处理基于相关性分析,选择与信用评估最相关的特征,排除冗余信息对模型的干扰。特征筛选按8∶2的比例将数据集分为训练集和测试集,确保模型在未见过的数据上也能有良好表现。数据拆分任务实施03操作步骤3.1读取数据文件(1)打开“分类模型”界面,在界面左侧的“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。(2)设置参数。单击画布中的“读取csv文件”组件,打开“读取csv文件”选区,将“选择数据源”设置为“3cs-training.csv”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”。任务实施03操作步骤3.1读取数据文件(3)单击“确定”按钮,完成数据导入,如图1.3.1所示。图1.3.1读取CSV文件任务实施03操作步骤3.2查看数据结构(1)在“组件”选区选择“了解你的数据”选项,在打开的下拉列表中将“描述性统计”组件拖曳到画布中,然后连接“读取csv文件”组件和“描述性统计”组件。(2)单击“描述性统计”组件,在打开的“描述性统计”选区中设置列名,选择所有列名,共11个,然后单击“确定”按钮。(3)右键单击“描述性统计”组件,在打开的菜单中选择“运行”命令,即可得到12行11列的数据表,如图1.3.2所示。(4)预期结果:获取数据的类型、数量、平均值等基础统计信息以了解数据的基本情况。任务实施03操作步骤3.2查看数据结构图1.3.2查看数据结构任务实施03操作步骤3.3数据可视化(1)在“组件”选区选择“数据可视化”选项,在打开的下拉列表中将“直方图”组件拖曳到画布中,然后连接“读取csv文件”组件和“直方图”组件。(2)单击“直方图”组件,在打开的“直方图”选区中设置列名为“age”,如图1.3.3所示。(3)右键单击“直方图”组件,在打开的菜单中选择“运行”命令,即可得到申请人年龄分布直方图,如图1.3.4所示。任务实施03操作步骤3.4特征筛选(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“列过滤”组件拖曳到画布中,然后连接“读取csv文件”组件和“列过滤”组件。(2)单击“列过滤”组件,在打开的“列过滤”选区中进行参数设置。选择“是否出现严重违约(SeriousDlqin2yrs)”“信用额度使用率(RevolvingUtilizationOfUnsecuredLines)”“年(age)”“未偿付债务比率(DebtRatio)”“月收入(MonthlyIncome)”“已开放信用额度数量(NumberofOpenCreditLinesAndLoans)”,即保留与信用评估最相关的6个特征,如图1.3.5所示。(3)预期结果:筛选出目标特征列,去除无关特征。任务实施03操作步骤3.4特征筛选图1.3.5列过滤任务实施03操作步骤3.5相关性分析(1)在“组件”选区选择“数据可视化”选项,在打开的下拉列表中将“相关系数热力图”组件拖曳到画布中,然后连接“列过滤”组件和“相关系数热力图”组件。(2)单击“相关系数热力图”组件,在打开的“相关系数热力图”选区中进行参数设置。选择除是否出现严重违约(SeriousDlqin2yrs)外的其他5个特征,生成特征间的相关系数热力图,如图1.3.6所示。图1.3.6相关系数热力图任务实施03操作步骤3.5相关性分析(3)观察各特征间的关系,依据相关系数热力图结果优化特征选择,避免冗余特征。1表示完全正相关,即一个变量的增加总是与另一个变量的增加相对应;−1表示完全负相关,即一个变量的增加总是与另一个变量的减少相对应;0表示没有线性相关,即两个变量之间没有线性关系(但可能存在非线性关系);颜色的深浅表示相关性的强弱。(4)绘制年龄与信用额度使用率、月收入的散点图,观察特征间相关性。在“组件”选区将“多组散点图”组件拖曳到画布中,然后连接“列过滤”组件和“多组散点图”组件。设置数据对参数如图1.3.7所示。任务实施03操作步骤3.5相关性分析任务实施03操作步骤3.5相关性分析(5)右键单击“多组散点图”组件,在打开的菜单中选择“运行”命令,即可得到如图1.3.8所示的年龄—信用额度使用率及年龄—月收入散点图。图1.3.8年龄—信用额度使用率及年龄—月收入散点图任务实施03操作步骤3.6缺失值填充(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“缺失值填充”组件拖曳到画布中,然后连接“列过滤”组件和“缺失值填充”组件。(2)单击“缺失值填充”组件,在打开的“缺失值填充”选区中进行参数设置。选择所有特征,以解决数据缺失问题,保证数据完整性,如图1.3.9所示。(3)预期结果:填补数据中的缺失值,形成完整的数据集。任务实施03操作步骤3.6缺失值填充任务实施03操作步骤3.7数据拆分(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“数据拆分”组件拖曳到画布中,然后连接“缺失值填充”组件和“数据拆分”组件。(2)单击“数据拆分”组件,在打开的“数据拆分”选区中进行参数设置。设置训练集与测试集的比例为8∶2,即“拆分比例”为“0.8”,保持随机数种子为默认设置。(3)右键单击“数据拆分”组件,在打开的菜单中选择“运行”命令,即可得到拆分好的数据集,如图1.3.10所示。(4)预期结果:将数据分为训练集和测试集,满足模型训练与评估需求。任务实施03操作步骤3.7数据拆分任务实施03操作步骤3.8模型选择与训练(1)分类—逻辑回归模型。在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“分类—逻辑回归”组件拖曳到画布中,然后连接“缺失值填充”组件和“分类—逻辑回归”组件。单击“分类—逻辑回归”组件,在打开的“分类—逻辑回归”选区中进行模型训练的参数设置。设置“预测列”为“SeriousDlqin2yrs”,设置“特征列”为剩余5个特征,其他保持默认设置。然后,右键单击“分类—逻辑回归”组件,在打开的菜单中选择“运行”命令,若“分类—逻辑回归”组件右侧出现图标,则表明模型训练成功,如图1.3.11所示。任务实施03操作步骤3.8模型选择与训练任务实施03操作步骤3.8模型选择与训练(2)分类—随机森林模型。按照训练分类—逻辑回归模型的操作步骤训练分类—随机森林模型,如图1.3.12所示。任务实施03操作步骤3.8模型选择与训练(3)分类—K近邻模型。按照训练分类—逻辑回归模型的操作步骤训练分类—K近邻模型,如图1.3.13所示。(4)预期结果:三种模型训练完成,获取模型基础信息,用于信用评估。任务实施03操作步骤3.9模型评估(1)分类—逻辑回归模型评估。在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“二分类模型评估”组件拖曳到画布中,然后连接“分类—逻辑回归”组件与“二分类模型评估”组件及“数据拆分”组件与“二分类模型评估”组件。单击“二分类模型评估”组件,在打开的“二分类模型评估”选区中进行参数设置,设置“预测列”为“SeriousDlqin2yrs”,设置“特征列”为剩余5个特征,然后运行,即可得到准确率(AccuracyScore)、精确率(Precision)、召回率(Recall)、F1分数(F1Score)等评估指标,如图1.3.14所示。图1.3.14分类—逻辑回归模型评估任务实施03操作步骤3.9模型评估(2)对分类—随机森林模型和分类—K近邻模型进行相同的操作,分别获取准确率、精确率、召回率、F1分数等评估指标。(3)整理三种模型的评估指标结果,见表1.3.1。(4)模型选择:信用评估中的召回率指标更重要,分类—随机森林模型在召回率和F1分数上表现更优,为更优选择。04聚类分析任务知识01应用背景汽车制造行业竞争激烈,不同车型对应不同市场定位。传统方式依赖人工经验,难以从海量数据中挖掘潜在模式。聚类分析作为无监督学习方法,能够自动对数据进行分组,帮助企业更好地理解细分市场和产品特性,提升决策效率和准确性。02AI+行业结合传统市场分析依赖人工经验,主观性强且分析效率低;AI市场分析通过自动处理数据,挖掘潜在模式,大幅提升了分析效率和结果的准确性。03技术原理聚类分析类似给不同特征的球分组,机器会根据球的颜色、大小等特征计算相似度,然后将相似的球归为一组。在汽车数据中,AI会依据车型的油耗、马力、重量等特征计算相似度,从而把特征相近的车型分为一组。聚类分析展示了AI“无师自通”发现数据内在结构的能力。任务实施01实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台和平台自带的贷款用户信用评估数据集“3cstraining.csv”,该数据集包含以下关键信息:是否出现严重违约(Serious
Dlqin2yrs)即目标变量(1表示出现严重违约,0表示正常)、信用额度使用率(RevolvingUtilizationOfUnsecuredLines)即未使用信用额度比例、年龄(age)即申请人年龄、未偿付债务比率(DebtRatio)即当前债务与收入的比率、月收入(MonthlyIncome)即申请人月收入水平、已开放信用额度数量(NumberofOpenCreditLinesAndLoans)即已开放的信用额度数量等。任务实施02数据预处理010203删除缺失值:采用“删除行”的方式移除含无效值的行,确保数据的完整性,避免影响聚类结果。数据探索:通过描述性统计了解数据类型、数量、平均值、标准差等基本信息,为后续分析奠定基础。特征标准化:对关键特征进行标准化处理,消除量纲差异对聚类结果的干扰。任务实施03操作步骤3.1读取CSV文件(1)打开“聚类分析”界面,在界面左侧的“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。(2)设置参数。单击画布中的“读取csv文件”组件,打开“读取csv文件”选区,选择需要的数据集并进行参数设置,如图1.4.1所示。(3)右键单击“读取csv文件”组件,在打开的菜单中选择“运行”命令,即可完成对数据集的导入。(4)预期结果:成功导入392行8列原始的汽车数据集。图1.4.1读取CSV文件任务实施03操作步骤3.2删除缺失值(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“删除缺失值”组件拖曳到画布中,然后连接“读取csv文件”组件和“删除缺失值”组件,如图1.4.2所示。图1.4.2使用“删除缺失值”组件任务实施03操作步骤3.2删除缺失值(2)单击“删除缺失值”组件,在打开的“删除缺失值”选区中进行参数设置。选择数据集中所有的特征,共8个。设置“删除标准”为“某一行/列至少有一个数据为NaN”,设置“选择轴”为“首列”。(3)右键单击“删除缺失值”组件,在打开的菜单中选择“运行”命令,即可完成对数据集的预处理。(4)预期结果:成功删除数据集中的缺失值,保持数据集仍为392行8列,以确保数据的完整性,避免缺失值干扰聚类分析结果。任务实施03操作步骤3.3了解数据结构(1)在“组件”选区选择“了解你的数据”选项,在打开的下拉列表中将“描述性统计”组件拖曳到画布中,然后连接“删除缺失值”组件和“描述性统计”组件。(2)单击“描述性统计”组件,在打开的“描述性统计”选区中进行参数设置。选择统计特征为“mpg”“displacement”“horsepower”“weight”“acceleration”,如图1.4.3所示。(3)右键单击“描述性统计”组件,在打开的菜单中选择“运行”命令,即可得到如图1.4.4所示的汽车特征统计表。(4)预期结果:获取汽车各特征数据的统计信息,为后续的特征选择提供依据。任务实施03操作步骤3.3了解数据结构图1.4.3选择统计特征图1.4.4汽车特征统计表任务实施03操作步骤3.4特征标准化(1)在“组件”选区选择“特征工程”选项,在打开的下拉列表中将“标准化”组件拖曳到画布中,然后连接“删除缺失值”组件和“标准化”组件,如图1.4.5所示。任务实施03操作步骤3.4特征标准化(2)单击“标准化”组件,在打开的“标准化”选区中进行参数设置。设置需要进行标准化处理的特征列为“mpg”“displacement”“horsepower”“weight”“acceleration”。(3)右键单击“标准化”组件,在打开的菜单中选择“运行”命令,即可得到标准化后的数据集。(4)预期结果:成功将选定的特征列转换为Z分数,所有数据具有相同的尺度,避免了因量纲差异带来的影响。任务实施03操作步骤3.5数据分类(1)对特征“cylinders”“year”“origin”进行One-Hot编码,以方便对模型进行数值化处理。(2)使用K-Means算法对数据进行分类,K-Means算法是一种经典的聚类分析方法,它是一种迭代算法,旨在将相似的数据点分组到一起。在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“聚类-KMeans”组件拖曳到画布中,然后连接“One-Hot编码”组件和“聚类-KMeans”组件,如图1.4.6所示。(3)单击“聚类-KMeans”组件,在打开的“聚类-KMeans”选区中进行参数设置。选择所有特征列,设置“聚类个数”为“3”,其余保持默认设置,然后运行即可。(4)预期结果:成功将数据分组,生成聚类索引列(Cluster_index)。任务实施03操作步骤3.5数据分类图1.4.6进行KMeans
分类任务实施03操作步骤3.6查看聚类结果(1)在“组件”选区选择“数据可视化”选项,在打开的下拉列表中将“直方图”组件拖曳到画布中,然后连接“聚类-KMeans”组件和“直方图”组件,如图1.4.7所示。(2)单击“直方图”组件,在打开的“直方图”选区中进行参数设置。设置索引列“Cluster_index”为聚类结果标识。图1.4.7进行查看聚类结果设置任务实施03操作步骤3.6查看聚类结果(3)右键单击“直方图”组件,在打开的菜单中选择“运行”命令,即可得到分类后的直方图(见图1.4.8)和特征均值表(见表1.4.1)。图1.4.8聚类结果直方图任务实施03操作步骤3.6查看聚类结果表1.4.1车型特征均值表(4)预期结果:通过直方图直观展示3个簇的样本数量差异;通过特征均值表显示每个样本的所属簇,以及各簇的特征均值。任务实施03操作步骤3.7分析聚类结果01020304对比各簇特征均值的差异。记录分析结果。预期结果:0簇为低油耗、低重量、低马力的经济型车型;1簇为高油耗、高重量、高马力的高性能车型;2簇为中等油耗、中等重量、中等马力的均衡型车型。结合汽车行业常识解读各簇的车型属性。05交互式可视化人工神经网络任务知识01应用背景人工神经网络是人工智能的核心技术,广泛应用于图像识别、语音识别、自然语言处理等领域。传统人工神经网络的设计依赖经验,需要反复试错和调整,效率低下。随着可视化工具的发展,开发者可以直观观察人工神经网络的工作过程,快速优化模型,大幅提高开发效率。02AI+行业结合传统人工神经网络的设计依赖经验,需要大量试错,开发周期长;AI人工神经网络设计通过可视化工具,可以直观展示网络结构和参数对模型的影响,以快速优化模型,缩短开发周期。03技术原理人工神经网络如同“智能小助手”,通过观察大量的数据进行学习,例如,通过多张猫咪的图片记住其耳朵形状、眼睛位置等特征。人工神经网络由输入层、隐藏层和输出层构成,输入层接收原始数据,隐藏层进行特征提取和处理,输出层给出最终结果。可视化工具就像“透明的玻璃盒子”,让人们能够清晰看到人工神经网络的思考过程。任务实施01实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台和TensorFlowPlayground内置的四种数据集,分别是两个类别用圆形划分的数据集、两个类别用正交直线划分的数据集、两个类别用对角线划分的数据集和两个类别用螺旋线划分的数据集。02数据预处理TensorFlowPlayground内置数据预处理功能,无须额外处理,可以直接使用预设的数据集。任务实施03操作步骤3.1启动TensorFlowPlayground(1)在Linux终端中启动Web服务器。在“交互式可视化人工神经网络”界面中双击“终端模拟器”图标,在打开的窗口中输入命令“cd../playground”切换到TensorFlowPlayground所在目录,然后在终端的命令行中输入“npmrunserve”,启动Web服务器。如图1.5.1所示表示Web服务器已成功启动,并显示TensorFlowPlayground的对应网址。图1.5.1成功启动Web服务器任务实施03操作步骤3.1启动TensorFlowPlayground(2)启动TensorFlowPlayground。打开FireFox浏览器,输入TensorFlowPlayground的对应网址,即可打开TensorFlowPlayground界面,如图1.5.2所示。界面包括“运行控制”区域、“迭代次数展示”区域、“超参数选择”区域、“数据集调整”区域、“特征向量选择”区域、“神经网络”区域和“预测结果”区域,如图1.5.3所示是TensorFlowPlayground界面功能区域标注图。(3)预期结果:成功启动TensorFlowPlayground,为后续实验做准备。图1.5.2TensorFlowPlayground界面任务实施03操作步骤3.1启动TensorFlowPlayground(2)启动TensorFlowPlayground。打开FireFox浏览器,输入TensorFlowPlayground的对应网址,即可打开TensorFlowPlayground界面,如图1.5.2所示。界面包括“运行控制”区域、“迭代次数展示”区域、“超参数选择”区域、“数据集调整”区域、“特征向量选择”区域、“神经网络”区域和“预测结果”区域,如图1.5.3所示是TensorFlowPlayground界面功能区域标注图。(3)预期结果:成功启动TensorFlowPlayground,为后续实验做准备。图1.5.3TensorFlowPlayground界面功能区域标注图任务实施03操作步骤3.2训练模型(1)选择数据集。在“数据集”区域单击“”图标,选择圆形数据集作为模型训练的数据集。(2)选择特征向量。在“特征向量”区域选择X1和X2作为特征向量,单击“运行”按钮开始训练模型,如图1.5.4所示。图1.5.4选择X1和X2作为特征向量进行模型训练任务实施03操作步骤3.2训练模型(3)添加特征向量X1*X2,再次进行模型训练,如图1.5.5所示,可见添加X1*X2特征向量后的分类效果明显改善。(4)预期结果:成功完成对圆形数据集的分类,掌握特征向量的选择对模型训练的重要性。图1.5.4选择X1和X2作为特征向量进行模型训练任务实施03操作步骤3.3调整模型结构和参数(1)(2)(3)在“神经网络”区域可以对模型隐藏层的数量进行设置,通过设置合适的隐藏层数量可以有效改善模型的性能。随着隐藏层数量的增加,分类效果有所改善,但训练时间延长。调整隐藏层数量超参数包括学习率、激活函数等。在“超参数选择”区域可以修改学习率(如0.01、0.1等),可以选择不同的激活函数(如Tanh、ReLU),通过对超参数的修改观察分类效果的变化,以选择合适的超参数。学习率过大会导致训练不稳定,过小则收敛慢;不同的激活函数对模型性能有不同影响。调整超参数通过调整模型的结构和超参数可以有效改善模型性能,得到较好的分类效果。预期结果任务实施03操作步骤3.4模型评估(1)对比不同数据集、网络结构、超参数组合下的分类准确率。(2)记录实验结果,分析关键影响因素。(3)预期结果:简单的数据集(如圆形、正交直线形、对角线形)可以通过简单的网络结构实现高准确率;复杂的数据集(如螺旋线形)需要更复杂的网络结构和适当的超参数;合适的特征组合能大幅提高准确率,如表1.5.1所示是不同数据集与模型配置的分类效果对比表,模型的性能应以准确率作为核心评估指标。任务实施03操作步骤3.4模型评估谢谢观看“高职高专系列丛书人工智能应用与实践项目式教程让机器“理解”文字——自然语言处理“高职高专系列丛书人工智能应用与实践项目式教程项目201短文本相似度分析任务知识01应用背景互联网的快速发展使用户生成的短文本数据呈爆炸式增长,涵盖社交媒体帖子、评论、搜索关键词等。对这些数据进行有效的管理与利用可以提升用户体验、优化内容推荐、改善搜索效果,因此如何从海量的数据中准确识别相似内容,是电商平台面临的核心挑战。02AI+行业结合传统的短文本处理方式依赖关键词匹配,效率低且准确率不高;AI技术通过将文本转换为向量并计算相似度,能精准识别语义相似内容,大幅提升处理效率和准确性。03技术原理短文本相似度分析的核心是“词典+向量计算”,即先构建记录词出现频率的“词典”,再将这些信息转换为数字向量,最后计算数字向量之间的角度(余弦相似度),角度越小相似度越高。这种方法也是NLP的经典方法之一。任务实施01实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台及其自带的四个数据集,分别是user1.csv(包含用户爱好和感受的短文本)、sent2.txt(描述祖国山河的长文本)、user3.csv(武侠小说人物名称)和doc4.csv(包含多组句子的对比数据)。02数据预处理对数据进行清洗和格式标准化,确保数据的有效性。任务实施03操作步骤3.1短文本特征提取(1)(2)(3)打开“短文本相似度分析”界面,在界面左侧的“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。单击“读取csv文件”组件,在打开的如图2.1.1所示界面右侧的“读取csv文件”选区中进行参数设置。将“选择数据源”设置为“user1”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“GB18030”。右键单击“读取csv文件”组件,在打开的菜单中选择“运行”命令,运行完成后组件右侧出现“”表示完成数据的读取。任务实施03操作步骤3.1短文本特征提取(4)(5)(6)然后在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,并连接“读取csv文件”组件和“分词”组件。单击“分词”组件,打开“分词”选区,进行参数设置。将“选择数据源”设置为“test1”,然后运行。将第二个“分词”组件拖曳到画布中,并将“选择数据源”设置为“test2”,连接第一个“分词”组件和第二个“分词”组件,然后运行。(7)将第三个“分词”组件拖曳到画布中,并将“选择数据源”设置为“test3”,连接第二个“分词”组件和第三个“分词”组件,然后运行。单击界面下方的展开按钮即可查看数据的基本统计信息,如图2.1.2所示。任务实施03操作步骤3.1短文本特征提取图2.1.1“短文本相似度分析”界面任务实施03操作步骤3.1短文本特征提取图2.1.2显示数据的基本统计信息(8)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本特征提取”组件并将其拖曳到画布中,连接第三个“分词”组件和“文本特征提取”组件。单击“文本特征提取”组件,在打开的“文本特征提取”选区中进行参数设置。将“需要向量的列”设置为“已选择3个”,然后运行,如图2.1.3所示。图2.1.3设置“文本特征提取”组件任务实施03操作步骤3.1短文本特征提取(9)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“行列转置”组件并将其拖曳到画布中,连接“文本特征提取”组件和“行列转置”组件,然后运行“行列转置”组件。运行完成后组件右侧出现“”表示完成对数据集userl.csv的特征提取,如图2.1.4所示。图2.1.4对数据集userl.csv进行特征提取预期结果:数据格式从10行3列转换为3行10列。(10)任务实施03操作步骤3.2长文本特征提取(1)在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取txt文件”组件并将其拖曳到画布中。单击“读取txt文件”组件,在打开的“读取txt文件”选区进行参数设置,将“选择文件”设置为“sent2”,“编码”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,然后连接“读取txt文件”组件和“分词”组件。单击“分词”组件,在打开的“分词”选区进行参数设置,将“选择文本列”设置为“content”,然后运行。任务实施03操作步骤3.2长文本特征提取(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本特征提取”组件并将其拖曳到画布中,连接“分词”组件和“文本特征提取”组件。单击“文本特征提取”组件,在打开的“文本特征提取”选区进行参数设置。将“需要向量的列”设置为“content”,然后运行。(4)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“行列转置”组件并将其拖曳到画布中,连接“文本特征提取”组件和“行列转置”组件,然后运行“行列转置”组件,完成对数据集sent2.txt的特征提取,如图2.1.5所示。图2.1.5对数据集sent2.txt进行特征提取任务实施03操作步骤3.3One-Hot编码(1)在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区中进行参数设置。将“选择数据源”设置为“user3”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“One-Hot编码”组件并将其拖曳到画布中,连接“读取csv文件”组件和“One-Hot编码”组件。单击“One-Hot编码”组件,在打开的“One-Hot编码”选区中进行参数设置,将“待处理列”设置为“Name”,然后运行。(3)在“组件”选区选择“行列转置”选项,在打开的下拉列表中用鼠标左键选中“行列转置”组件并将其拖曳到画布中,连接“One-Hot编码”组件和“行列转置”组件,然后运行“行列转置”组件,完成对数据集user3.csv的特征提取,如图2.1.6所示。图2.1.6对数据集user3.csv进行特征提取任务实施03操作步骤3.4余弦相似度比较(1)在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区中进行参数设置。将“选择数据源”设置为“doc4”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中用鼠标左键选中“行过滤”组件并将其拖曳到画布中,连接“读取csv文件”组件和“行过滤”组件。单击“行过滤”组件,在打开的“行过滤”选区中将“过滤条件表达式”设置为“Type=="Group1"”,然后运行。(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本特征提取”组件并将其拖曳到画布中,连接“行过滤”组件和“文本特征提取”组件。单击“文本特征提取”组件,在打开的“文本特征提取”选区中将“需要向量的列”设置为“Sentence1”、“Sentence2”和“Sentence3”,然后运行。任务实施03操作步骤3.4余弦相似度比较(4)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“余弦相似度计算”组件并将其拖曳到画布中,连接“文本特征提取”组件和“余弦相似度计算”组件。单击“余弦相似度计算”组件,在打开的“余弦相似度计算”选区中将“文本向量列1”设置为“result_1”,“文本向量列2”设置为“result_2”,然后运行。(5)再次选中“余弦相似度计算”组件并将其拖曳到画布中,连接“文本特征提取”组件和“余弦相似度计算”组件。单击“余弦相似度计算”组件,在打开的“余弦相似度计算”选区中将“文本向量列1”设置为“result_2”,“文本向量列2”设置为“result_3”,然后运行,如图2.1.7所示。图2.1.7中文文本进行余弦相似度比较任务实施03操作步骤3.4余弦相似度比较(6)运行成功后得到文本之间的余弦相似度值,即可对文本进行相似度分析。如表2.1.1展示了Group1组内文本之间余弦相似度的计算结果,余弦相似度的值越大,文本之间的相似度越高。02新闻文本分类任务知识01应用背景新闻媒体行业每天产生海量的文本数据,是否能够快速准确地对新闻进行分类是其面临的重要挑战。传统的人工分类方式效率低、成本高,还容易受主观因素影响,自然语言处理技术为解决这一问题提供了有效途径。02AI+行业结合传统的新闻分类方式依赖人工操作,效率低且准确率不稳定;AI新闻分类通过自动分析文本内容,实现了快速准确分类,大幅提升了工作效率。03技术原理新闻文本分类的核心类似“新闻词典比对”。先构建记录不同类别新闻常见词汇的“词典”,当接收到新闻时,AI先统计新闻中词汇的出现频率,再与“词典”进行比对,最后通过数学计算判断新闻最匹配的类别。任务实施01实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台及其自带的“data.csv”文件,该文件包含两列数据,分别是text(新闻正文)和label(新闻类别)。02数据预处理(1)(2)读取原始数据。将新闻数据文件“data.csv”导入分析环境,确保数据的完整。删除缺失值。将有缺失值的行删除,避免影响分类结果。任务实施03操作步骤(1)打开“新闻文本分类”界面,在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中将“读取csv文件”组件拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区进行参数设置。将“选择数据源”设置为“data”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“删除缺失值”组件拖曳到画布中,然后连接“读取csv文件”组件和“删除缺失值”组件。单击“删除缺失值”组件,在打开的“删除缺失值”选区中进行参数设置。将“选择列名”设置为“全选”,即包含“text”和“label”两个属性。将“删除标准”设置为“某一行/列至少有一...”,“选择轴”设置为“删除行”。然后运行“删除缺失值”组件,如图2.2.1所示。(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,然后连接“删除缺失值”组件和“分词”组件。单击“分词”组件,在打开的“分词”选区进行参数设置,将“选择文本列”设置为“text”,然后运行即可。任务实施03操作步骤任务实施03操作步骤(4)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本预处理”组件并将其拖曳到画布中,然后连接“分词”组件和“文本预处理”组件。单击“文本预处理”组件,在打开的“文本预处理”选区进行参数设置。将“选择文本列”设置为“text”,并勾选“剔除数字”“剔除网址”“剔除email地址”复选框,然后运行,如图2.2.2所示。任务实施03操作步骤(5)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“去停用词”组件并将其拖曳到画布中,然后连接“文本预处理”组件和“去停用词”组件。单击“去停用词”组件,在打开的“去停用词”选区进行参数设置。将“选择文本列”设置为“text”,“选择停用词词典”设置为“stopword”,“增加停用词”设置为“addWords”,“删除停用词”设置为“delWords”,然后运行。(6)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“TF-IDF”组件并将其拖曳到画布中,然后连接“去停用词”组件和“TF-IDF”组件。单击画布中的“TF-IDF”组件,在打开的“TF-IDF”选区进行参数设置。将“选择id列”设置为“label”,“选择文本列”设置为“text”,“最大词数”设置为“None”,然后运行。TF-IDF(TermFrequency-InverseDocumentFrequency,词频—逆文档频率)是一种用于信息检索与文本挖掘的加权技术,核心作用是评估一个词语对一篇文档的重要程度,并以此区分文档主题、筛选关键信息。任务实施03操作步骤(7)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“Ordinal编码”组件并将其拖曳到画布中,然后连接“TF-IDF”组件和“Ordinal编码”组件。单击“Ordinal编码”组件,在打开的“Ordinal编码”选区进行参数设置。将“待处理列”设置为“label”,勾选“保留原列”复选框,然后运行,将文本转化为计算机可以处理的连续整数形式,如图2.2.3所示。任务实施03操作步骤(8)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中用鼠标左键选中“列过滤”组件并将其拖曳到画布中,然后连接“Ordinal编码”组件和“列过滤”组件。单击“列过滤”组件,在打开的“列过滤”选区进行参数设置。将“选择列名”设置为“tf”“idf”“tf-idf”“new_label”,如图2.2.4所示,然后运行。(9)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中用鼠标左键选中“数据拆分”组件并将其拖曳到画布中,然后连接“列过滤”组件和“数据拆分”组件。单击“数据拆分”组件,在打开的“数据拆分”选区进行参数设置。将“拆分比例”设置为“0.8”,“随机数种子”设置为“None”,然后运行。(10)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中用鼠标左键选中“分类-朴素贝叶斯”组件并将其拖曳到画布中,然后连接“数据拆分”组件和“分类-朴素贝叶斯”组件。单击“分类-朴素贝叶斯”组件,在打开的“分类-朴素贝叶斯”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,然后运行。任务实施03操作步骤(11)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中用鼠标左键选中“多分类模型评估”组件并将其拖曳到画布中,然后连接“分类-朴素贝叶斯”组件与“多分类模型评估”组件,以及“数据拆分”组件与“多分类模型评估”组件。单击“多分类模型评估”组件,在打开的“多分类模型评估”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,然后运行,如图2.2.5所示。任务实施03操作步骤(12)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“分类-K近邻”组件拖曳到画布中,然后连接“数据拆分”组件和“分类-K近邻”组件。单击“分类-K近邻”组件,在打开的“分类-K近邻”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,“K值”设置为“5”,“距离度量”设置为“欧式距离”,“分类决策规则”设置为“uniform”,然后运行,如图2.2.6所示。任务实施03操作步骤(13)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“多分类模型评估”组件拖曳到画布中,然后分别连接“分类-K近邻”组件和“多分类模型评估”组件,以及“数据拆分”组件和“多分类模型评估”组件。单击“多分类模型评估”组件,在打开的“多分类模型评估”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,然后运行即可完成对K近邻模型的评估。(14)如表2.2.1所示是使用朴素贝叶斯模型对新闻进行分类后的评估指标表,包含了AccuracyScore、Recall和F1Score等指标,其中部分类别(如1、2、3)的AccuracyScore和F1Score为0,表明模型对这些类别的分类效果不佳。如表2.2.2所示是使用K近邻模型对新闻进行分类后的评估指标表,同样包含了AccuracyScore、Recall和F1Score等指标,从表中可以看到K近邻模型在各类别上的指标均有数值,且整体分类评估表现与朴素贝叶斯模型存在差异。任务实施03操作步骤03新闻评论情感分析任务知识01应用背景随着社交媒体和新闻平台的普及,公众习惯通过评论表达观点,这些评论蕴含的情感信息是政府和企业了解民意的重要窗口。但面对海量的文本数据,传统的人工阅读方式无法满足实时性与全面性需求,舆情监控面临效率低、响应慢的挑战。02AI+行业结合AI驱动的情感分析模型能够从大量的文本中自动学习语言规律,识别复杂语义,实现全天候、自动化情绪监测,大幅提升情感分析效率与准确性。03技术原理情感分析模型如同“语言翻译员”,通过学习带有“正面”和“负面”标签的评论样本,掌握不同语境中词语、句式的情感倾向规律。遇到新评论时,模型依据所学经验判断情感倾向,类似孩子通过听大量的故事学会区分“开心”和“难过”的表达方式。任务实施01实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台及其自带的新闻评论情感分析数据集“combined_shuffled_01.csv”。数据来源于主流新闻网站的真实用户评论,约10000条,包含两个字段,text(评论原文)和emotion(情感标签,0代表“负面”,1代表“正面”),数据集经专业人员人工标注,确保标签质量。02数据预处理010203去除特殊符号。利用正则表达式删除空格、标点、特殊字符,保留纯文本内容,减少干扰信息。中文分词。将连续的汉字序列切分为有意义的词语单元,便于模型理解词汇的组合。数据采样。随机抽取200条评论作为样本,加快处理速度,适配教学演示需求。任务实施03操作步骤(1)打开“新闻文本分类”界面,在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中将“读取csv文件”组件拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区进行参数设置。将“选择数据源”设置为“combined_shuffled_01”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”。然后运行,完成对新闻评论情感分析数据集的读取。(2)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“列运算”组件拖曳到画布中,然后连接“读取csv文件”组件和“列运算”组件。单击“列运算”组件,在打开的“列运算”选区中进行参数设置并运行,如图2.3.1所示。任务实施03操作步骤(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,然后连接“列运算”组件和“分词”组件。单击“分词”组件,在打开的“分词”选区进行参数设置,将“选择文本列”设置为“修改后内容”,然后运行即可。(4)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“采样”组件拖曳到画布中,然后连接“分词”组件和“采样”组件。单击“采样”组件,在打开的“采样”选区中进行参数设置。将“采样数”设置为“200”,“随机数种子”设置为“10”,然后运行。(5)在“组件”选区选择“文本分析”选项,在打开的下拉列表中将“文本数据转换为数据...”组件拖曳到画布中,然后连接“采样”组件和“文本数据转换为数据...”组件。单击“文本数据转换为数据...”组件,在打开的“文本数据转换为数据...”选区进行参数设置。将“选择处理列”设置为“修改后内容”,然后运行即可。(6)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“数据拆分”组件拖曳到画布中,然后连接“文本数据转换为数据...”组件和“数据拆分”组件。单击“数据拆分”组件,打开“数据拆分”选区,将“拆分比例”设置为“0.8”,“随机数种子”设置为“None”,然后运行。任务实施03操作步骤(7)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“分类-朴素贝叶斯”组件拖曳到画布中,然后连接“数据拆分”组件和“分类-朴素贝叶斯”组件。单击“分类-朴素贝叶斯”组件,在打开的“分类-朴素贝叶斯”选区中进行参数设置。设置“选择特征列”时,勾选除“text”“emotion”“修改后内容”外的所有复选框,并将“选择预测列”设置为“emotion”,然后运行即可,如图2.3.2所示。任务实施03操作步骤(8)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“二分类模型评估”组件拖曳到画布中,然后分别连接“分类-朴素贝叶斯”组件和“二分类模型评估”组件,以及“数据拆分”组件和“二分类模型评估”组件。单击“二分类模型评估”组件,在打开的“二分类模型评估”选区中进行参数设置。设置“特征列”时,同样勾选除“text”“emotion”“修改后内容”外的所有复选框,并将“预测列”设置为“emotion”,然后运行。(9)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“分类-K近邻”组件拖曳到画布中,然后连接“数据拆分”组件和“分类-K近邻”组件。单击“分类-K近邻”组件,在打开的“分类-K近邻”选区中进行参数设置。设置“选择特征列”时,勾选除“text”“emotion”“修改后内容”外的所有复选框,并将“选择预测列”设置为“emotion”,“K值”设置为“5”,“距离度量”设置为“欧式距离”,“分类决策规则”设置为“uniform”,然后运行。任务实施03操作步骤(10)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“二分类模型评估”组件拖曳到画布中,然后分别连接“分类-K近邻”组件和“二分类模型评估”组件,以及“数据拆分”组件和“二分类模型评估”组件。单击“二分类模型评估”组件,在打开的“二分类模型评估”选区中进行参数设置。设置“选择特征列”时,同样勾选除“text”“emotion”“修改后内容”外的所有复选框,并将“选择预测列”设置为“emotion”,然后运行即可,如图2.3.3所示。任务实施03操作步骤(11)最后得到朴素贝叶斯模型和K近邻模型的分类结果。如表2.3.1所示是朴素贝叶斯模型与K近邻模型(K=5)在准确率、精确率、召回率和F1值四个评估指标上的对比,其中朴素贝叶斯模型的四项指标明显优于K近邻模型的四项指标,可见朴素贝叶斯模型的性能优于K近邻模型。谢谢观看“高职高专系列丛书人工智能应用与实践项目式教程让机器“听懂”声音——语音识别与合成“高职高专系列丛书人工智能应用与实践项目式教程项目301语音信号处理任务知识01应用背景语音是人与机器最自然的交互方式之一,但原始的语音信号包含大量噪声、频率失衡和连续波动,直接用于AI模型的效果很差。因此,在语音识别、语音合成、声纹识别等应用中,必须先对语音信号进行标准化处理。语音信号的质量直接影响后续模型的性能和稳定性,语音信号处理技术是工业界和学术界长期研究的基础课题。02AI+行业结合传统的语音信号处理方式依赖人工调整参数,耗时且不统一。AI通过自动化预处理流程,能够快速、一致地处理海量的语音数据。例如,智能音箱在接收到“播放音乐”指令后,几毫秒内就完成了降噪、分帧、特征提取等步骤,随即启动播放。这种高效的处理能力正是建立在标准化预处理流程之上的。任务知识03技术原理(1)语音信号的采样与量化。声音本质上是连续的模拟信号,而计算机只能处理离散的数字信号。因此,需要对语音信号进行采样(按固定时间间隔记录声音强度)和量化(将每个采样值转换为有限精度的数字)。(2)预加重。语音中高频成分(如辅音“s”“t”)的能量通常低于低频成分,容易被噪声掩盖。预加重通过一个简单的高通滤波器(如y(n)=x(n)−0.98x(n−1))增强高频成分,使频谱更平坦,以提升后续特征提取的稳定性与准确性。(3)分帧。语音信号整体是非平稳的(统计特性随时间变化),但研究表明,在20~30毫秒的短时段内,语音信号可近似视为平稳信号。因此,需要将整段语音切分为多个短时帧(如每帧25ms),并允许相邻帧之间重叠(如帧移10ms),以保证语音的时序连续性,便于逐帧分析。(4)加窗。直接截取语音片段会导致语音信号在帧边界处突变,引发频谱泄露(能量扩散到邻近频率)。因此,在每帧两端施加窗函数(如汉明窗),使语音信号在帧边界平滑衰减至零,能有效抑制频谱泄露,提高频域分析的精度。(5)MFCC特征提取。MFCC(Mel-FrequencyCepstralCoefficients,梅尔频率倒谱系数)模拟人耳对频率的非线性感知特性,将每帧语音信号转换为一组紧凑的数值特征。这些系数能有效表征语音信号的音色、发音方式等关键声学属性,是语音识别等任务中最常用的输入特征。本任务将通过对比原始信号与MFCC特征,直观展示语音信号处理对信息提炼的作用。任务实施01实验平台和数据准备本任务基于“海豚人工智能与大数据实验室”平台开展,使用平台内置的语音文件“audio1.wav”。该文件为一段简短录音,在计算机中以一维数字序列形式存储,反映声音随时间变化的波形。通过该文件,可以初步认识语音信号的数字化表示方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论