人工智能应用与实践项目式教程 教案全套 第1-9章 让机器“学会”学习 深度学习与智能引擎-中华美食制作助手_第1页
人工智能应用与实践项目式教程 教案全套 第1-9章 让机器“学会”学习 深度学习与智能引擎-中华美食制作助手_第2页
人工智能应用与实践项目式教程 教案全套 第1-9章 让机器“学会”学习 深度学习与智能引擎-中华美食制作助手_第3页
人工智能应用与实践项目式教程 教案全套 第1-9章 让机器“学会”学习 深度学习与智能引擎-中华美食制作助手_第4页
人工智能应用与实践项目式教程 教案全套 第1-9章 让机器“学会”学习 深度学习与智能引擎-中华美食制作助手_第5页
已阅读5页,还剩156页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《人工智能应用与实践项目式教程》课程教案课题:让机器“学会”学习——深度学习与智能引擎教学目的:知识目标:了解身边的AI应用,理解回归模型、分类模型、聚类模型的适用场景和解决的目标问题。能力目标:能够在实验平台上完成数据导入、数据预处理、模型训练与评估的完整流程,能够理解并解释常见的模型评估指标,如准确率、MAE。能够通过可视化结果(如散点图、折线图)对模型效果进行初步分析。素质目标:具备AI伦理责任意识,能够识别模型的应用风险,明确预测结果的局限性,养成严谨的数据分析习惯,注重数据的完整性、模型的可复现性和指标的客观可解释性。课型:新授课课时:本章安排8个课时。教学重点:重点:了解身边的AI应用,理解回归模型、分类模型、聚类模型的适用场景和解决的目标问题。教学难点:难点:能够在实验平台上完成数据导入、数据预处理、模型训练与评估的完整流程,能够理解并解释常见的模型评估指标,如准确率、MAE。能够通过可视化结果(如散点图、折线图)对模型效果进行初步分析。教学过程:教学形式:讲授课,教学组织采用课堂整体讲授和分组演示。教学媒体:采用启发式教学、案例教学等教学方法。教学手段采用多媒体课件、视频等媒体技术。板书设计:本课标题让机器“学会”学习——深度学习与智能引擎课次4授课方式理论课□讨论课□习题课□其他□课时安排8学分共2分授课对象普通高等院校学生任课教师教材及参考资料1.《人工智能应用与实践项目式教程》;电子工业出版社。2.本教材配套视频教程及学习检查等资源。3.与本课程相关的其他资源。教学基本内容教学方法及教学手段课程引入你有没有发现,最近刷小红书时,推荐的内容总是“刚好”是你感兴趣的?如你喜欢露营装备,系统就不断推送帐篷、睡袋、户外炉具等信息;或者你在淘宝搜索了一双球鞋,接下来几天,抖音、微信公众号的广告也纷纷出现类似商品?这并不是巧合,而是AI在“默默观察”你的行为,并为你量身定制内容。这种技术叫“个性化推荐”,它每天在人们看不见的地方工作,影响着人们看什么新闻、买什么商品,甚至听什么音乐。一个看似简单的“推荐”,背后是强大的AI算法在分析人们的点击、停留、收藏等行为数据。正是这些智能技术,让人们的生活更便捷,也让企业经营更高效。你每天都在使用AI,但你真的知道它在哪里吗?如果有一天,手机不再推荐你喜欢的内容,语音助手听不懂你说话——人们的生活会发生怎样的变化?AI,究竟是“工具”,还是已经成了人们生活的人工智能应用与实践项目式教程“隐形伙伴”?本任务将介绍人们身边的AI应用。参考以下形式:1.衔接导入2.悬念导入3.情景导入4.激疑导入5.演示导入6.实例导入7.其他形式任务1寻找身边的智能应用任务知识1.AI应用背景如今,AI已不再是实验室里的高科技概念,而是深入人们日常生活的“隐形助手”。从早上被手机闹钟唤醒,到晚上用语音控制关灯,AI无处不在。在消费电子、社交平台、电商服务、交通出行等领域,企业纷纷引入AI技术来提升产品体验、优化运营效率、增强用户黏性。然而,许多人享受着AI带来的便利,却对其“看不见、不了解、不会用”。正确认识身边的AI应用,是迈向智能时代的第一步。2.AI+行业结合过去,设备是“被动响应”的:你按开关,灯才亮;你手动搜索,才能找到商品。如今,AI让设备变为“主动智能”:手机能预测你想打开哪个App,电商平台能提前推荐你可能需要的商品,智能汽车能自动识别障碍物并刹车。这种从“人操作机器”到“机器理解人”的转变,正是AI带来的核心变革。它让服务更贴心、决策更高效、交互更自然。3.技术原理可以把AI想象成一个“会学习的学生”。(1)输入:AI从各种设备中获取数据,如语音、浏览记录、摄像头画面。(2)学习:AI通过算法分析获取的数据,并找出规律,如“用户A常在晚上看健身视频”。(3)输出:根据学习结果做出反应,如向用户A推荐蛋白粉或健身课程。这个过程不需要程序员一条条写指令,而是让AI自己“总结经验”,越来越聪明。就像你第一次做饭可能很难吃,但多做几次就越来越好——AI也是这样“成长”起来的。任务实施现在,请你化身“AI侦探”,走出教室,观察你身边的AI应用。通过手机拍照、记录笔记、采访家人和朋友等方式,完成以下任务。1.识别智能设备观察你的手机、智能家居(如智能音箱、扫地机器人)、穿戴设备(如智能手表),记录它们有哪些“聪明”的功能。例如,手机相册能自动分类“人物”“宠物”“风景”,这是AI在“看图识物”。2.调查推荐系统打开小红书、微信公众号或抖音等App,浏览几条内容,注意系统为你推荐了什么。思考:这些推荐是否符合你的兴趣?你最近是否搜索或点赞过类似内容?3.体验智能客服进入淘宝或京东官网,尝试与机器人客服对话。试试问它“我的订单到哪了?”“这件衣服有货吗?”。观察它能否准确回答。如果它解决不了,是否会转接人工。这体现了AI在服务中的“辅助”作用。4.研究语音助手对Siri、小爱同学或天猫精灵说:“明天天气怎么样?”“定一个七点的闹钟。”观察它的反应速度和准确性。语音助手的背后是语音识别(听清你说的)和自然语言处理(理解你的意思)两大技术。5.了解智能家居如果你家里有智能灯、智能空调,观察它是如何工作的。例如,它是否能根据时间自动开关、是否能通过手机远程控制。这些功能依赖传感器和联网技术,由AI进行协调管理。6.探究智能驾驶查找资料,了解特斯拉、小鹏等智能汽车是如何识别红绿灯、车道线和行人的。智能驾驶主要依靠摄像头、雷达和AI算法“看清”道路,像人一样做出判断。为了帮助你更好地整理信息,请填写如表1.1.1所示的调查记录表。任务2回归模型案例引入小李是一名刚毕业的大学生,他正在考虑是否接受一份工作。这份工作提供的薪资与他的预期有差距,他想预测自己工作5年后的薪资。通过使用线性回归模型,可以根据已有员工的工作年限和薪资数据,预测小李未来5年的工作薪资,帮助他做出更明智的决策。本任务将介绍线性回归模型在薪资预测中的实际应用价值。在薪资预测中,为什么工作年限与薪资之间存在线性关系?如何判断一个模型是否适合解决这类问题?如何评估模型的准确性?任务知识1.应用背景薪资预测是人力资源管理的重要环节,传统方法依赖经验判断,缺乏科学依据,容易导致薪资与员工贡献不匹配。随着大数据技术的发展,通过分析历史数据建立预测模型,可以更客观、准确地预测薪资水平,帮助企业和员工做出更好的决策。2.AI+行业结合传统薪资预测依赖经验、主观性强、预测结果波动大,AI薪资预测能基于历史数据建立数学模型,其结果客观准确,可以进行量化评估。3.技术原理想象一下,你有一张工作年限与薪资的关系图。如果把这些点连起来,会形成一条直线或曲线。线性回归模型就是找出这条最佳拟合线,通过这条线,可以预测任意工作年限对应的薪资。任务实施1.实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台和平台自带的“SalaryData.csv”文件。文件包含两列数据YearsExperience(工作年限,单位:年)和Salary(年薪,单位:元),数据来源于某企业员工的薪资记录,用于建立工作年限与薪资的关系模型。2.数据预处理模型训练前需要对数据进行简单处理以确保数据质量,主要步骤包括:检查数据完整性,确认无缺失值;了解数据分布,查看基本统计信息;可视化数据关系,绘制散点图观察数据分布。3.操作步骤3.1读取csv文件(1)打开“回归模型”界面,在界面左侧的“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。(2)设置参数。单击画布中的“读取csv文件”组件,打开如图1.2.1所示界面右侧的“读取csv文件”选区,即可进行参数设置。将“选择数据源”设置为“SalaryData”,将“列名”设置为“首行”,将“行名”设置为“自动生成”,将“编码方式”设置为“UTF-8”。(3)右键单击“读取csv文件”组件,在打开的菜单中选择“运行”命令,运行完成后组件右侧出现“”表示完成文件读取操作。(4)预期结果:成功导入30行×2列的数据,并显示前5行数据。3.2了解数据结构(1)在“组件”选区选择“了解你的数据”选项,在打开的下拉列表中用鼠标左键选中“查看前N行”组件并拖曳到画布中,连接“读取csv文件”组件和“查看前N行”组件。单击“查看前N行”组件,在打开的“查看前N行”选区中进行参数设置,设置“N”为“5”,确认数据格式。右键单击“查看前N行”组件执行运行操作。(2)用鼠标左键选中“描述性统计”组件并拖曳到画布中,然后连接“读取csv文件”组件和“描述性统计”组件。单击“描述性统计”组件,在打开的“描述性统计”选区中进行参数设置,设置“选择列名”为“YearsExperience”和“Salary”。右键单击“描述性统计”组件执行运行操作,单击界面下方的展开按钮即可查看数据的基本统计信息,如图1.2.2所示。(3)预期结果:成功显示数据的类型、数量、平均值、标准差等统计信息。3.3观察数据分散位置(1)在“组件”选区选择“数据可视化”选项,在打开的下拉列表中将“散点图”组件拖曳至画布中,然后连接“读取csv文件”组件和“散点图”组件。(2)单击“散点图”组件,在打开的“散点图”选区中设置x轴为“YearsExperience”,y轴为“Salary”。(3)右键单击“散点图”组件,在打开的菜单中选择“运行”命令,即可得到数据分布的散点图,如图1.2.3所示。(4)预期结果:成功生成散点图,显示工作年限与薪资呈正相关分布。3.4数据拆分(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“数据拆分”组件拖曳到画布中,然后连接“读取csv文件”组件和“数据拆分”组件。(2)单击“数据拆分”组件,在打开的“数据拆分”选区中设置“拆分比例”为“0.8”(80%训练集、20%测试集),设置“随机数种子”为“1”。(3)右键单击“数据拆分”组件,在打开的菜单中选择“运行”命令,即可得到两个数据集,如图(4)预期结果:成功拆分了数据,将数据分为训练集(24行×2列)和测试集(6行×2列),用于模型训练和评估。3.5回归模型训练(1)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“回归-线性回归”组件拖曳到画布中,然后连接“回归-线性回归”组件和“数据拆分”组件。(2)单击“回归-线性回归”组件,在打开的“回归-线性回归”选区中设置特征列为“YearsExperience”,预测列为“Salary”。(3)右键单击“回归-线性回归”组件,在打开的菜单中选择“运行”命令,如图1.2.5所示,表示模型训练成功。(4)预期结果:工作年限与薪资之间的线性关系模型训练成功,显示训练进度和模型基本信息。3.6模型评估(1)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“回归模型评估”组件拖曳到画布中,然后连接“回归-线性回归”组件和“回归模型评估”组件,以及“数据拆分”组件和“回归模型评估”组件。(2)单击“回归模型评估”组件,在打开的“回归模型评估”选区中设置特征列为“YearsExperience”,预测列为“Salary”。(3)右键单击“回归模型评估”组件,在打开的菜单中选择“运行”命令,即可得到模型的评估指标,如图1.2.6所示。(4)预期结果:成功生成评估指标,包括MAE、MSE、RMSE和R2,可用于客观评估模型在测试集上的表现。3.7排序与可视化(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“排序”组件拖曳到画布中,然后连接“回归模型评估”组件和“排序”组件。(2)单击“排序”组件,在打开的“排序”选区中设置列名为“YearsExperience”,设置“排序方式”为“升序”。右键单击“排序”组件,在打开的菜单中选择“运行”命令,即可得到数据的升序排列,如图1.2.7所示。(3)在“组件”选区选择“数据可视化”选项,在打开的下拉列表中将“多条折线图”组件拖曳到画布中,然后连接“排序”组件和“多条折线图”组件。单击“多条折线图”组件,在打开的“多条折线图”选区选择x轴数据为“YearsExperience”,设置x轴名称为“工作经验”;选择y轴数据为“Salary”和“Y_prediction”,设置y轴名称为“年薪”。(4)右键单击“多条折线图”组件,在打开的菜单中选择“运行”命令,即可得到实际薪资和预测薪资随工作经验增长的变化曲线,如图1.2.8所示。(5)预期结果:成功生成实际薪资与预测薪资的折线图,可以直观比较实际薪资与预测薪资的差异。任务3分类模型案例引入某大型商业银行每月需要处理近万份贷款申请,过去审批人员依赖个人经验和简单规则判断,导致审批周期长,不良贷款率高。引入机器学习模型后,审批时间缩短,不良贷款率下降。本任务将介绍如何使用AI提升银行贷款审批效率和风险控制能力。任务知识1.应用背景贷款审批是金融机构的核心业务,涉及大量的客户申请。传统的审批方式依赖人工经验,存在效率低、主观性强、风险控制难等问题。随着金融科技的发展,利用历史数据训练的机器学习模型能够更客观、高效地评估客户的信用状况,成为现代金融机构的重要工具。2.AI+行业结合传统的贷款审批方式以人工审核为主,依赖经验判断、审批速度慢、风险控制难度大;AI审批方式通过自动分析历史数据,能够快速完成信用评估,风险控制更精准,且可大规模应用于海量申请。3.技术原理分类模型就像一个“信用评估小助手”,它先学习过去贷款人的个人信息(如年龄、收入)和还款情况,建立一套判断标准。当新申请人提交贷款申请时,小助手会将申请人的相关信息与历史数据进行比对,进而预测该申请人是否会按时还款,为贷款审批提供依据。本任务使用的逻辑回归和随机森林等都属于经典的机器学习算法,非常适合处理像表格这样的结构化数据。任务实施1.实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台和平台自带的贷款用户信用评估数据集“3cstraining.csv”,该数据集包含以下关键信息:是否出现严重违约(SeriousDlqin2yrs)即目标变量(1表示出现严重违约,0表示正常)、信用额度使用率(RevolvingUtilizationOfUnsecuredLines)即未使用信用额度比例、年龄(age)即申请人年龄、未偿付债务比率(DebtRatio)即当前债务与收入的比率、月收入(MonthlyIncome)即申请人月收入水平、已开放信用额度数量(NumberofOpenCreditLinesAndLoans)即已开放的信用额度数量等。2.数据预处理(1)缺失值处理:采用“众数填充”方法填补少量缺失值,确保数据的分布特性,避免因删除缺失值丢失信息。(2)特征筛选:基于相关性分析,选择与信用评估最相关的特征,排除冗余信息对模型的干扰。(3)数据拆分:按8∶2的比例将数据集分为训练集和测试集,确保模型在未见过的数据上也能有良好表现。3.操作步骤3.1读取数据文件(1)打开“分类模型”界面,在界面左侧的“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。(2)设置参数。单击画布中的“读取csv文件”组件,打开“读取csv文件”选区,将“选择数据源”设置为“3cs-training.csv”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”。(3)单击“确定”按钮,完成数据导入,如图1.3.1所示。3.2查看数据结构(1)在“组件”选区选择“了解你的数据”选项,在打开的下拉列表中将“描述性统计”组件拖到画布中,然后连接“读取csv文件”组件和“描述性统计”组件。(2)单击“描述性统计”组件,在打开的“描述性统计”选区中设置列名,选择所有列名,共11个,然后单击“确定”按钮。(3)右键单击“描述性统计”组件,在打开的菜单中选择“运行”命令,即可得到12行11列的数据表,如图1.3.2所示。(4)预期结果:获取数据的类型、数量、平均值等基础统计信息以了解数据的基本情况。3.3数据可视化(1)在“组件”选区选择“数据可视化”选项,在打开的下拉列表中将“直方图”组件拖曳到画布中,然后连接“读取csv文件”组件和“直方图”组件。(2)单击“直方图”组件,在打开的“直方图”选区中设置列名为“age”,如图1.3.3所示。(3)右键单击“直方图”组件,在打开的菜单中选择“运行”命令,即可得到申请人年龄分布直方图,如图1.3.4所示。3.4特征筛选(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“列过滤”组件拖曳到画布中,然后连接“读取csv文件”组件和“列过滤”组件。(2)单击“列过滤”组件,在打开的“列过滤”选区中进行参数设置。选择“是否出现严重违约(SeriousDlqin2yrs)”“信用额度使用率(RevolvingUtilizationOfUnsecuredLines)”“年龄(age)”“未偿付债务比率(DebtRatio)”“月收入(MonthlyIncome)”“已开放信用额度数量(NumberofOpenCreditLinesAndLoans)”,即保留与信用评估最相关的6个特征,如图1.3.5所示。注:图中参数的英文单词间应有空格,为保持平台原状,图中不做修改。(3)预期结果:筛选出目标特征列,去除无关特征。3.5相关性分析(1)在“组件”选区选择“数据可视化”选项,在打开的下拉列表中将“相关系数热力图”组件拖曳到画布中,然后连接“列过滤”组件和“相关系数热力图”组件。(2)单击“相关系数热力图”组件,在打开的“相关系数热力图”选区中进行参数设置。选择除是否出现严重违约(SeriousDlqin2yrs)外的其他5个特征,生成特征间的相关系数热力图,如图1.3.6所示。(3)观察各特征间的关系,依据相关系数热力图结果优化特征选择,避免冗余特征。1表示完全正相关,即一个变量的增加总是与另一个变量的增加相对应;−1表示完全负相关,即一个变量的增加总是与另一个变量的减少相对应;0表示没有线性相关,即两个变量之间没有线性关系(但可能存在非线性关系);颜色的深浅表示相关性的强弱。(4)绘制年龄与信用额度使用率、月收入的散点图,观察特征间相关性。在“组件”选区将“多组散点图”组件拖曳到画布中,然后连接“列过滤”组件和“多组散点图”组件。设置数据对参数如人工智能应用与实践项目式教程。(5)右键单击“多组散点图”组件,在打开的菜单中选择“运行”命令,即可得到如图1.3.8所示的年龄—信用额度使用率及年龄—月收入散点图。(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“缺失值填充”组件拖曳到画布中,然后连接“列过滤”组件和“缺失值填充”组件。(2)单击“缺失值填充”组件,在打开的“缺失值填充”选区中进行参数设置。选择所有特征,以解决数据缺失问题,保证数据完整性,如图1.3.9所示。(3)预期结果:填补数据中的缺失值,形成完整的数据集。3.7数据拆分(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“数据拆分”组件拖曳到画布中,然后连接“缺失值填充”组件和“数据拆分”组件。(2)单击“数据拆分”组件,在打开的“数据拆分”选区中进行参数设置。设置训练集与测试集的比例为8∶2,即“拆分比例”为“0.8”,保持随机数种子为默认设置。(3)右键单击“数据拆分”组件,在打开的菜单中选择“运行”命令,即可得到拆分好的数据集如图1.3.10所示。(4)预期结果:将数据分为训练集和测试集,满足模型训练与评估需求。3.8模型选择与训练(1)分类—逻辑回归模型。在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“分类—逻辑回归”组件拖曳到画布中,然后连接“缺失值填充”组件和“分类—逻辑回归”组件。单击“分类—逻辑回归”组件,在打开的“分类—逻辑回归”选区中进行模型训练的参数设置。设置“预测列”为“SeriousDlqin2yrs”,设置“特征列”为剩余5个特征,其他保持默认设置。然后,右键单击“分类—逻辑回归”组件,在打开的菜单中选择“运行”命令,若“分类—逻辑回归”组件右侧出现图标,则表明模型训练成功,如图1.3.11所示。(2)分类—随机森林模型。按照训练分类—逻辑回归模型的操作步骤训练分类—随机森林模型,如(3)分类—K近邻模型。按照训练分类—逻辑回归模型的操作步骤训练分类—K近邻模型,如图1.3.13所示。(4)预期结果:三种模型训练完成,获取模型基础信息,用于信用评估。3.9模型评估(1)分类—逻辑回归模型评估。在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“二分类模型评估”组件拖曳到画布中,然后连接“分类—逻辑回归”组件与“二分类模型评估”组件及“数据拆分”组件与“二分类模型评估”组件。单击“二分类模型评估”组件,在打开的“二分类模型评估”选区中进行参数设置,设置“预测列”为“SeriousDlqin2yrs”,设置“特征列”为剩余5个特征,然后运行,即可得到准确率(AccuracyScore)、精确率(Precision)、召回率(Recall)、F1分数(F1Score)等评估指标,如图1.3.14所示。(2)对分类—随机森林模型和分类—K近邻模型进行相同的操作,分别获取准确率、精确率、召回率、F1分数等评估指标。(3)整理三种模型的评估指标结果,见表1.3.1。(4)模型选择:信用评估中的召回率指标更重要,分类—随机森林模型在召回率和F1分数上表现更优,为更优选择。任务4聚类分析案例引入某汽车制造商在进行产品开发时面对大量的车型数据,难以直观区分不同车型的特点,加大了其开发难度。通过聚类分析,可以对车型进行分组,如把低油耗、低重量的车型和高马力、高重量的车型分别归类,从而发现潜在细分市场,以制定更具针对性的营销策略和产品开发计划。本任务将介绍如何用AI对车型进行分类。任务知识1.应用背景汽车制造行业竞争激烈,不同车型对应不同市场定位。传统方式依赖人工经验,难以从海量数据中挖掘潜在模式。聚类分析作为无监督学习方法,能够自动对数据进行分组,帮助企业更好地理解细分市场和产品特性,提升决策效率和准确性。2.AI+行业结合传统市场分析依赖人工经验,主观性强且分析效率低;AI市场分析通过自动处理数据,挖掘潜在模式,大幅提升了分析效率和结果的准确性。3.技术原理聚类分析类似给不同特征的球分组,机器会根据球的颜色、大小等特征计算相似度,然后将相似的球归为一组。在汽车数据中,AI会依据车型的油耗、马力、重量等特征计算相似度,从而把特征相近的车型分为一组。聚类分析展示了AI“无师自通”发现数据内在结构的能力。任务实施1.实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台和平台自带的“car_data.csv”文件,文件中的数据共392行8列,核心特征包括每加仑里程(mpg)、气缸数(cylinders)、排量(displacement)、马力(horsepower)、重量(weight)、加速度(acceleration)、年份(year)、产地(origin),用于聚类分析不同车型的特征。2.数据预处理(1)删除缺失值:采用“删除行”的方式移除含无效值的行,确保数据的完整性,避免影响聚类结果。(2)数据探索:通过描述性统计了解数据类型、数量、平均值、标准差等基本信息,为后续分析奠定基础。(3)特征标准化:对关键特征进行标准化处理,消除量纲差异对聚类结果的干扰。3.操作步骤3.1读取CSV文件(1)打开“聚类分析”界面,在界面左侧的“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。(2)设置参数。单击画布中的“读取csv文件”组件,打开“读取csv文件”选区,选择需要的数据集并进行参数设置,如图1.4.1所示。(3)右键单击“读取csv文件”组件,在打开的菜单中选择“运行”命令,即可完成对数据集的导入。(4)预期结果:成功导入392行8列原始的汽车数据集。3.2删除缺失值(1)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“删除缺失值”组件拖曳到画布中,然后连接“读取csv文件”组件和“删除缺失值”组件,如图1.4.2所示。(2)单击“删除缺失值”组件,在打开的“删除缺失值”选区中进行参数设置。选择数据集中所有的特征,共8个。设置“删除标准”为“某一行/列至少有一个数据为NaN”,设置“选择轴”为“首列”。(3)右键单击“删除缺失值”组件,在打开的菜单中选择“运行”命令,即可完成对数据集的预处理。(4)预期结果:成功删除数据集中的缺失值,保持数据集仍为392行8列,以确保数据的完整性,避免缺失值干扰聚类分析结果。3.3了解数据结构(1)在“组件”选区选择“了解你的数据”选项,在打开的下拉列表中将“描述性统计”组件拖曳到画布中,然后连接“删除缺失值”组件和“描述性统计”组件。(2)单击“描述性统计”组件,在打开的“描述性统计”选区中进行参数设置。选择统计特征为“mpg”“displacement”“horsepower”“weight”“acceleration”,如图1.4.3所示。(3)右键单击“描述性统计”组件,在打开的菜单中选择“运行”命令,即可得到如图1.4.4所示的汽车特征统计表。(4)预期结果:获取汽车各特征数据的统计信息,为后续的特征选择提供依据。3.4特征标准化(1)在“组件”选区选择“特征工程”选项,在打开的下拉列表中将“标准化”组件拖曳到画布中,然后连接“删除缺失值”组件和“标准化”组件,如图1.4.5所示。(2)单击“标准化”组件,在打开的“标准化”选区中进行参数设置。设置需要进行标准化处理的特征列为“mpg”“displacement”“horsepower”“weight”“acceleration”。(3)右键单击“标准化”组件,在打开的菜单中选择“运行”命令,即可得到标准化后的数据集。(4)预期结果:成功将选定的特征列转换为Z分数,所有数据具有相同的尺度,避免了因量纲差异带来的影响。3.5数据分类(1)对特征“cylinders”“year”“origin”进行One-Hot编码,以方便对模型进行数值化处理。(2)使用K-Means算法对数据进行分类,K-Means算法是一种经典的聚类分析方法,它是一种迭代算法,旨在将相似的数据点分组到一起。在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“聚类-KMeans”组件拖曳到画布中,然后连接“One-Hot编码”组件和“聚类-KMeans”组件,(3)单击“聚类-KMeans”组件,在打开的“聚类-KMeans”选区中进行参数设置。选择所有特征列,设置“聚类个数”为“3”,其余保持默认设置,然后运行即可。(4)预期结果:成功将数据分组,生成聚类索引列(Cluster_index)。3.6查看聚类结果(1)在“组件”选区选择“数据可视化”选项,在打开的下拉列表中将“直方图”组件拖曳到画布中,然后连接“聚类-KMeans”组件和“直方图”组件,如图1.4.7所示。(2)单击“直方图”组件,在打开的“直方图”选区中进行参数设置。设置索引列“Cluster_index”为聚类结果标识。(3)右键单击“直方图”组件,在打开的菜单中选择“运行”命令,即可得到分类后的直方图(见图1.4.8)和特征均值表(见表1.4.1)。(4)预期结果:通过直方图直观展示3个簇的样本数量差异;通过特征均值表显示每个样本的所属簇,以及各簇的特征均值。3.7分析聚类结果(1)对比各簇特征均值的差异。(2)结合汽车行业常识解读各簇的车型属性。(3)记录分析结果。(4)预期结果:0簇为低油耗、低重量、低马力的经济型车型;1簇为高油耗、高重量、高马力的高性能车型;2簇为中等油耗、中等重量、中等马力的均衡型车型。任务5交互式可视化人工神经网络案例引入某电商平台图像识别系统的商品识别准确率仅为68%,其开发团队借助谷歌公司推出的可视化、交互式的人工神经网络学习工具——TensorFlowPlayground,最终将准确率提升至94%。可视化、交互式工具能够帮助开发者快速理解人工神经网络的工作原理,有效提升模型性能。本任务将介绍使用TensorFlowPlayground进行人工神经网络建模和训练的基本方法。任务知识1.应用背景人工神经网络是人工智能的核心技术,广泛应用于图像识别、语音识别、自然语言处理等领域。传统人工神经网络的设计依赖经验,需要反复试错和调整,效率低下。随着可视化工具的发展,开发者可以直观观察人工神经网络的工作过程,快速优化模型,大幅提高开发效率。2.AI+行业结合传统人工神经网络的设计依赖经验,需要大量试错,开发周期长;AI人工神经网络设计通过可视化工具,可以直观展示网络结构和参数对模型的影响,以快速优化模型,缩短开发周期。3.技术原理人工神经网络如同“智能小助手”,通过观察大量的数据进行学习,例如,通过多张猫咪的图片记住其耳朵形状、眼睛位置等特征。人工神经网络由输入层、隐藏层和输出层构成,输入层接收原始数据,隐藏层进行特征提取和处理,输出层给出最终结果。可视化工具就像“透明的玻璃盒子”,让人们能够清晰看到人工神经网络的思考过程。任务实施1.实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台和TensorFlowPlayground内置的四种数据集,分别是两个类别用圆形划分的数据集、两个类别用正交直线划分的数据集、两个类别用对角线划分的数据集和两个类别用螺旋线划分的数据集。2.数据预处理TensorFlowPlayground内置数据预处理功能,无须额外处理,可以直接使用预设的数据集。3.操作步骤3.1启动TensorFlowPlayground(1)在Linux终端中启动Web服务器。在“交互式可视化人工神经网络”界面中双击“终端模拟器”图标,在打开的窗口中输入命令“cd../playground”切换到TensorFlowPlayground所在目录,然后在终端的命令行中输入“npmrunserve”,启动Web服务器。如图1.5.1所示表示Web服务器已成功启动,并显示TensorFlowPlayground的对应网址。(2)启动TensorFlowPlayground。打开FireFox浏览器,输入TensorFlowPlayground的对应网址,即可打开TensorFlowPlayground界面,如图1.5.2所示。界面包括“运行控制”区域、“迭代次数展示”区域、“超参数选择”区域、“数据集调整”区域、“特征向量选择”区域、“神经网络”区域和“预测结果”区域,如图1.5.3所示是TensorFlowPlayground界面功能区域标注图。(3)预期结果:成功启动TensorFlowPlayground,为后续实验做准备。3.2训练模型(1)选择数据集。在“数据集”区域单击“”图标,选择圆形数据集作为模型训练的数据集。(2)选择特征向量。在“特征向量”区域选择X1和X2作为特征向量,单击“运行”按钮开始训练模型,如图1.5.4所示。(3)添加特征向量X1*X2,再次进行模型训练,如图1.5.5所示,可见添加X1*X2特征向量后的分类效果明显改善。(4)预期结果:成功完成对圆形数据集的分类,掌握特征向量的选择对模型训练的重要性。3.3调整模型结构和参数(1)调整隐藏层数量。在“神经网络”区域可以对模型隐藏层的数量进行设置,通过设置合适的隐藏层数量可以有效改善模型的性能。随着隐藏层数量的增加,分类效果有所改善,但训练时间延长。(2)调整超参数。超参数包括学习率、激活函数等。在“超参数选择”区域可以修改学习率(如27人工智能应用与实践项目式教程0.01、0.1等),可以选择不同的激活函数(如Tanh、ReLU),通过对超参数的修改观察分类效果的变化,以选择合适的超参数。学习率过大会导致训练不稳定,过小则收敛慢;不同的激活函数对模型性能有不同影响。(3)预期结果:通过调整模型的结构和超参数可以有效改善模型性能,得到较好的分类效果。3.4模型评估(1)对比不同数据集、网络结构、超参数组合下的分类准确率。(2)记录实验结果,分析关键影响因素。(3)预期结果:简单的数据集(如圆形、正交直线形、对角线形)可以通过简单的网络结构实现高准确率;复杂的数据集(如螺旋线形)需要更复杂的网络结构和适当的超参数;合适的特征组合能大幅提高准确率,如表1.5.1所示是不同数据集与模型配置的分类效果对比表,模型的性能应以准确率作为核心评估指标。1.教学以学生学习教材的基本内容为主,系统全面地了解为让机器“学会”学习——深度学习与智能引擎的内容。2.整个教学过程中,各教学点可根据实际情况,进行拓展知识的讲解。本章小结:本项目介绍了机器学习中基础的几种“学习”方式,包括预测薪资的回归模型、判断贷款风险的分类模型及自动给车型分组的聚类模型等,这些都是理解所有炫酷AI技术的基石。深度学习可以看作在这些基础“学习”方式上更复杂、更深层的“神经网络大脑”,可以解决更困难的问题。例如,交互式可视化工具将人工神经网络从“黑箱”变成“透明的水族馆”,让人们得以窥见AI的思考过程。这不仅降低了技术门槛,更是一种强大的启蒙,它让创造力而非数学公式成为探索AI的第一驱动力。这类工具正使AI从一门高深的学科转变为一个每个人都可以理解和运用的创意伙伴。你不需要成为数学家,但你需要具备与AI协同思考的能力。交互式可视化人工神经网络的应用需要重视伦理责任,若模型在医疗图像识别中误将良性肿瘤判为恶性肿瘤,可能引发不必要的治疗,因此在开发中需要充分保障模型的可靠性,避免偏见。从社会价值来看,这类工具降低了AI技术的使用门槛,让非专业人员也能理解和应用人工神经网络,加速了AI与各行业的深度融合,推动了产业升级。未来,可视化工具将更智能化,能够自动推荐最优网络结构和超参数,减少人工试错,同时支持CNN、RNN等更多网络类型,提供更直观的交互体验。这对从业者提出了更高要求,AI领域需要既懂人工神经网络原理又熟练掌握可视化工具的复合型人才,他们将成为AI开发中的关键力量,助力技术落地与创新。《人工智能应用与实践项目式教程》课程教案课题:让机器“理解”文字——自然语言处理教学目的:知识目标:理解自然语言处理(NaturalLanguageProcossing,NLP)的核心定义与主要功能,明确其在各个行业的应用场景。理解文本预处理、文本向量化和知识图谱的基本作用。掌握知识图谱的构建逻辑和NLP模型评估的核心指标。能力目标:能够独立完成NLP数据预处理的全流程。能够熟练运用工具训练并评估NLP模型,如短文本相似度计算、新闻分类、评论情感分析等实际任务。能够结合业务场景应用NLP技术,如利用模型解决实际业务问题。素质目标:具备NLP应用中的伦理责任意识,能够识别因模型偏差、分类错误等造成的潜在风险。养成严谨的数据分析与模型开发习惯,注重数据完整性和标签质量,能够客观解读模型评估结果。形成“技术+业务”跨学科思维,能将NLP技术与新闻、文学、电商等具体场景结合,理解技术的实际价值。课型:新授课课时:本章安排8个课时。教学重点:重点:理解自然语言处理(NaturalLanguageProcossing,NLP)的核心定义与主要功能,明确其在各个行业的应用场景。理解文本预处理、文本向量化和知识图谱的基本作用。掌握知识图谱的构建逻辑和NLP模型评估的核心指标。教学难点:难点:能够独立完成NLP数据预处理的全流程。能够熟练运用工具训练并评估NLP模型,如短文本相似度计算、新闻分类、评论情感分析等实际任务。能够结合业务场景应用NLP技术,如利用模型解决实际业务问题。教学过程:教学形式:讲授课,教学组织采用课堂整体讲授和分组演示。教学媒体:采用启发式教学、案例教学等教学方法。教学手段采用多媒体课件、视频等媒体技术。板书设计:本课标题让机器“理解”文字——自然语言处理课次4授课方式理论课□讨论课□习题课□其他□课时安排8学分共2分授课对象普通高等院校学生任课教师教材及参考资料1.《人工智能应用与实践项目式教程》;电子工业出版社。2.本教材配套视频教程及学习检查等资源。3.与本课程相关的其他资源。教学基本内容教学方法及教学手段课程引入你是否有过这样的经历:在电商平台搜索“新款手机”,却找不到心仪的“最新款智能手机”;刷新闻时,想快速筛选出科技类内容,却要在海量信息中逐一甄别;看到新闻下方的数百条评论,想知道大家对事件的整体态度,却没有精力逐条阅读。这些日常场景背后,都隐藏着同一个核心需求——让机器真正“理解”人类的语言。语言是人类沟通的核心载体,而自然语言处理(NLP)正是人工智能领域中让机器解锁语言密码的关键技术。它就像一座桥梁,连接起人类的自然语言与机器的数字世界,让机器不仅能“读懂”文字,还能分析语义相似度、精准分类文本、捕捉情感倾向。在信息爆炸的今天,自然语言处理技术已渗透到生活的方方面面:电商平台的智能搜索与推荐、新闻媒体的自动化分类与舆情监测、客服系统的智能应答、社交平台的内容审核……无论是企业提升运营效率,还是我们优化生活体验,都离不开它的支撑。本课程将以项目实践为核心,通过短文本相似度分析、新闻文本分类、新闻评论情感分析三个真实任务,带大家走进自然语言处理的世界。你将亲手操作“海豚人工智能与大数据实验室”平台,从数据预处理、特征提取到模型训练与评估,完整体验NLP项目的全流程。无需深厚的编程基础,也能掌握词典构建、向量计算、余弦相似度、TF-IDF等核心技术原理,学会用AI解决实际场景中的语言处理问题。参考以下形式:1.衔接导入2.悬念导入3.情景导入4.激疑导入5.演示导入6.实例导入7.其他形式任务1 短文本相似度分析某知名电商平台曾面临典型痛点:用户搜索功能存在语义识别盲区,无法将“新款手机”与“最新款智能手机”这类表述关联为同类商品需求,导致推荐精准度不足、用户搜索体验不佳。为达成“精准识别同义/近义短文🎧、匹配核心需求”的任务效果,平台引入短文🎧相似度分析技术,通过技术手段挖掘不同表述背后的语义关联性,实现了同类需求的自动聚合与精准匹配。最终,平台可以化的搜索表述精准推荐相关商品,提高了搜索转化率。🎧任务将介绍如何使用NLP技术精准识别语义相似的短文🎧。1. 应用背景互联网的快速发展使用户生成的短文本数据呈爆炸式增长,涵盖社交媒体帖子、评论、搜索关键词等。对这些数据进行有效的管理与利用可以提升用户体验、优化内容推荐、改善搜索效果,因此如何从海量的数据中准确识别相似内容,是电商平台面临的核心挑战。2. AI+行业结合传统的短文本处理方式依赖关键词匹配,效率低且准确率不高;AI技术通过将文本转换为向量并计算相似度,能精准识别语义相似内容,大幅提升处理效率和准确性。3. 技术原理短文本相似度分析的核心是“词典+向量计算”,即先构建记录词出现频率的“词典”,再将这些信息转换为数字向量,最后计算数字向量之间的角度(余弦相似度),角度越小相似度越高。这种方法也是NLP的经典方法之一。1. 实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台及其自带的四个数据集,分别是user1.csv(包含用户爱好和感受的短文本)、sent2.txt(描述祖国山河的长文本)、user3.csv(武侠小说人物名称)和doc4.csv(包含多组句子的对比数据)。2. 数据预处理对数据进行清洗和格式标准化,确保数据的有效性。3. 操作步骤3.1 短文本特征提取(1)打开“短文本相似度分析”界面,在界面左侧的“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。(2)单击“读取csv文件”组件,在打开的如图2.1.1所示界面右侧的“读取csv文件”选区中进行参数设置。将“选择数据源”设置为“user1”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“GB18030”。(3)右键单击“读取csv文件”组件,在打开的菜单中选择“运行”命令,运行完成后组件右侧出现“”表示完成数据的读取。(4)然后在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,并连接“读取csv文件”组件和“分词”组件。(5)单击“分词”组件,打开“分词”选区,进行参数设置。将“选择数据源”设置为“test1”,然后运行。(6)将第二个“分词”组件拖曳到画布中,并将“选择数据源”设置为“test2”,连接第一个“分词”组件和第二个“分词”组件,然后运行。(7)将第三个“分词”组件拖曳到画布中,并将“选择数据源”设置为“test3”,连接第二个“分词”组件和第三个“分词”组件,然后运行。单击界面下方的展开按钮即可查看数据的基本统计信息,如图2.1.2所示。(8)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本特征提取”组件并将其拖曳到画布中,连接第三个“分词”组件和“文本特征提取”组件。单击“文本特征提取”组件,在打开的“文本特征提取”选区中进行参数设置。将“需要向量的列”设置为“已选择3个”,然后运行,如图2.1.3所示。(9)在“组件”选区选择“特征工程”选项,在打开的下列表中用鼠标左键选中“行列转置”组件并将其拖曳到画布中,连接“文本特征提取”组件和“行列转置”组件,然后运行“行列转置”组件。运行完成后组件右侧出现“”表示完成对数据集userl.csv的特征提取,如图2.1.4所示。(10)预期结果:数据格式从10行3列转换为3行10列。3.2 长文本特征提取(1)“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取txt文件”组件并将其拖曳到画布中。单击“读取txt文件”组件,在打开的“读取txt文件”选区进行参数设置,将“选择文件”设置为“sent2”,“编码”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,然后连接“读取txt文件”组件和“分词”组件。单击“分词”组件,在打开的“分词”选区进行参数设置,将“选择文本列”设置为“content”,然后运行。(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本特征提取”组件并将其拖曳到画布中,连接“分词”组件和“文本特征提取”组件。单击“文本特征提取”组件,在打开的“文本特征提取”选区进行参数设置。将“需要向量的列”设置为“content”,然后运行。(4)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“行列转置”组件并将其拖曳到画布中,连接“文本特征提取”组件和“行列转置”组件,然后运行“行列转置”组件,完成对数据集sent2.txt的特征提取,如图2.1.5所示。3.3 One-Hot编码(1)在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区中进行参数设置。将“选择数据源”设置为“user3”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“One-Hot编码”组件并将其拖曳到画布中,连接“读取csv文件”组件和“One-Hot编码”组件。单击“One-Hot编码”组件,在打开的“One-Hot编码”选区中进行参数设置,将“待处理列”设置为“Name”,然后运行。(3)在“组件”选区选择“行列转置”选项,在打开的下拉列表中用鼠标左键选中“行列转置”组件并将其拖曳到画布中,连接“One-Hot编码”组件和“行列转置”组件,然后运行“行列转置”组件,完成对数据集user3.csv的特征提取,如图2.1.6所示。3.4 余弦相似度比较(1)在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中用鼠标左键选中“读取csv文件”组件并将其拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区中进行参数设置。将“选择数据源”设置为“doc4”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中用鼠标左键选中“行过滤”组件并将其拖曳到画布中,连接“读取csv文件”组件和“行过滤”组件。单击“行过滤”组件,在打开的“行过滤”选区中将“过滤条件表达式”设置为“Type=="Group1"”,然后运行。(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本特征提取”组件并将其拖曳到画布中,连接“行过滤”组件和“文本特征提取”组件。单击“文本特征提取”组件,在打开的“文本特征提取”选区中将“需要向量的列”设置为“Sentence1”、“Sentence2”和“Sentence3”,然后运行。(4)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“余弦相似度计算”组件并将其拖曳到画布中,连接“文本特征提取”组件和“余弦相似度计算”组件。单击“余弦相似度计算”组件,在打开的“余弦相似度计算”选区中将“文本向量列1”设置为“result_1”,“文本向量列2”设置为“result_2”,然后运行。(5)再次选中“余弦相似度计算”组件并将其拖曳到画布中,连接“文本特征提取”组件和“余弦相似度计算”组件。单击“余弦相似度计算”组件,在打开的“余弦相似度计算”选区中将“文本向量列1”设置为“result_2”,“文本向量列2”设置为“result_3”,然后运行,如图2.1.7所示。(6)运行成功后得到文本之间的余弦相似度值,即可对文本进行相似度分析。如表2.1.1展示了Group1组内文本之间余弦相似度的计算结果,余弦相似度的值越大,文本之间的相似度越高。任务2 新闻文本分类在新闻资讯行业快速发展的当下,新闻网站每日需要接收并处理上万条新闻稿件。传统的人工分类模式受限于人力成🎧和主观判断,不仅处理效率低下,难以匹配海量稿件的分拣需求,还容易出现分类偏差,影响内容流转和读者的检索体验。为了破解这一痛点,该新闻网站引入了自然语言处理技术,搭建了自动化新闻分类系统。该系统可以基于稿件的文🎧内容,精准识别主题特征,自动将新闻归类为“体育”“科技”“财经”等预设类别,分类准确率稳定达到85%。这一技术的应用不仅大幅减少了编辑团队的人工分拣压力,提升了内容处理效率,还能帮助读者快速定位感兴趣的新闻板块,优化阅读体验,实现了新闻内容管理的智能化升级。1.应用背景新闻媒体行业每天产生海量的文本数据,是否能够快速准确地对新闻进行分类是其面临的重要挑战。传统的人工分类方式效率低、成本高,还容易受主观因素影响,自然语言处理技术为解决这一问题提供了有效途径。2.AI+行业结合传统的新闻分类方式依赖人工操作,效率低且准确率不稳定;AI新闻分类通过自动分析文本内容,实现了快速准确分类,大幅提升了工作效率。3.技术原理新闻文本分类的核心类似“新闻词典比对”。先构建记录不同类别新闻常见词汇的“词典”,当接收到新闻时,AI先统计新闻中词汇的出现频率,再与“词典”进行比对,最后通过数学计算判断新闻最匹配的类别。朴素贝叶斯、K近邻等模型是进行文本分类的基本模型。在面对更复杂的分类任务,如判断新闻的虚假性或识别其潜在立场时,还需要借助能够理解长距离上下文依赖的深度学习模型,如循环神经网络等,它们能捕捉到新闻中更隐晦的线索。1.实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台及其自带的“data.csv”文件,该文件包含两列数据,分别是text(新闻正文)和label(新闻类别)。2.数据预处理(1)读取原始数据。将新闻数据文件“data.csv”导入分析环境,确保数据的完整。(2)删除缺失值。将有缺失值的行删除,避免影响分类结果。3.操作步骤(1)打开“新闻文本分类”界面,在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中将“读取csv文件”组件拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区进行参数设置。将“选择数据源”设置为“data”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”,然后运行。(2)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“删除缺失值”组件拖曳到画布中,然后连接“读取csv文件”组件和“删除缺失值”组件。单击“删除缺失值”组件,在打开的“删除缺失值”选区中进行参数设置。将“选择列名”设置为“全选”,即包含“text”和“label”两个属性。将“删除标准”设置为“某一行/列至少有一...”,“选择轴”设置为“删除行”。然后运行“删除缺失值”组件,如图2.2.1所示。(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,然后连接“删除缺失值”组件和“分词”组件。单击“分词”组件,在打开的“分词”选区进行参数设置,将“选择文本列”设置为“text”,然后运行即可。(4)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“文本预处理”组件并将其拖曳到画布中,然后连接“分词”组件和“文本预处理”组件。单击“文本预处理”组件,在打开的“文本预处理”选区进行参数设置。将“选择文本列”设置为“text”,并勾选“剔除数字”“剔除网址”“剔除email地址”复选框,然后运行,如图2.2.2所示。(5)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“去停用词”组件并将其拖曳到画布中,然后连接“文本预处理”组件和“去停用词”组件。单击“去停用词”组件,在打开的“去停用词”选区进行参数设置。将“选择文本列”设置为“text”,“选择停用词词典”设置为“stopword”,“增加停用词”设置为“addWords”,“删除停用词”设置为“delWords”,然后运行。(6)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“TF-IDF”组件并将其拖曳到画布中,然后连接“去停用词”组件和“TF-IDF”组件。单击画布中的“TF-IDF”组件,在打开的“TF-IDF”选区进行参数设置。将“选择id列”设置为“label”,“选择文本列”设置为“text”,“最大词数”设置为“None”,然后运行。TF-IDF是一种用于信息检索与文本挖掘的加权技术,核心作用是评估一个词语对一篇文档的重要程度,并以此区分文档主题、筛选关键信息。(7)在“组件”选区选择“特征工程”选项,在打开的下拉列表中用鼠标左键选中“Ordinal编码”组件并将其拖曳到画布中,然后连接“TF-IDF”组件和“Ordinal编码”组件。单击“Ordinal编码”组件,在打开的“Ordinal编码”选区进行参数设置。将“待处理列”设置为“label”,勾选“保留原列”复选框,然后运行,将文本转化为计算机可以处理的连续整数形式,如图2.2.3所示。(8)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中用鼠标左键选中“列过滤”组件并将其拖曳到画布中,然后连接“Ordinal编码”组件和“列过滤”组件。单击“列过滤”组件,在打开的“列过滤”选区进行参数设置。将“选择列名”设置为“tf”“idf”“tf-idf”“new_label”,如图2.2.4所示,然后运行。(9)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中用鼠标左键选中“数据拆分”组件并将其拖曳到画布中,然后连接“列过滤”组件和“数据拆分”组件。单击“数据拆分”组件,在打开的“数据拆分”选区进行参数设置。将“拆分比例”设置为“0.8”,“随机数种子”设置为“None”,然后运行。(10)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中用鼠标左键选中“分类-朴素贝叶斯”组件并将其拖曳到画布中,然后连接“数据拆分”组件和“分类-朴素贝叶斯”组件。单击“分类-朴素贝叶斯”组件,在打开的“分类-朴素贝叶斯”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,然后运行。(11)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中用鼠标左键选中“多分类模型评估”组件并将其拖曳到画布中,然后连接“分类-朴素贝叶斯”组件与“多分类模型评估”组件,以及“数据拆分”组件与“多分类模型评估”组件。单击“多分类模型评估”组件,在打开的“多分类模型评估”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,然后运行,如图2.2.5所示。(12)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“分类-K近邻”组件拖曳到画布中,然后连接“数据拆分”组件和“分类-K近邻”组件。单击“分类-K近邻”组件,在打开的“分类-K近邻”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,“K值”设置为“5”,“距离度量”设置为“欧式距离”,“分类决策规则”设置为“uniform”,然后运行,如图2.2.6所示。(13)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“多分类模型评估”组件拖曳到画布中,然后分别连接“分类-K近邻”组件和“多分类模型评估”组件,以及“数据拆分”组件和“多分类模型评估”组件。单击“多分类模型评估”组件,在打开的“多分类模型评估”选区进行参数设置。将“选择特征列”设置为“tf”“idf”“tf-idf”,“选择预测列”设置为“new_label”,然后运行即可完成对K近邻模型的评估。(14)如表2.2.1所示是使用朴素贝叶斯模型对新闻进行分类后的评估指标表,包含了AccuracyScore、Recall和F1Score等指标,其中部分类别(如1、2、3)的AccuracyScore和F1Score为0,表明模型对这些类别的分类效果不佳。如表2.2.2所示是使用K近邻模型对新闻进行分类后的评估指标表,同样包含了AccuracyScore、Recall和F1Score等指标,从表中可以看到K近邻模型在各类别上的指标均有数值,且整体分类评估表现与朴素贝叶斯模型存在差异。任务3 新闻评论情感分析针对主流新闻平台每日接收数万条用户评论,人工研判模式存在耗时耗力、效率低下,且易遗漏关键舆情信息、难以及时把控公众情绪走向等问题,🎧任务旨在实现三大功能:一是替代人工完成批量评论情感倾向智能判定,提升研判效率;二是实现舆情动态实时可视化呈现,精准掌握正负情绪占比;三是敏锐捕捉情绪异常波动,提前预警潜在舆论风险。基于此,平台将引入情感分析系统,彻底改变人工浏览筛查的传统模式,可以在新闻发布10分钟内自动生成情感热力图,直观展示评论的情感分布情况。1.应用背景随着社交媒体和新闻平台的普及,公众习惯通过评论表达观点,这些评论蕴含的情感信息是政府和企业了解民意的重要窗口。但面对海量的文本数据,传统的人工阅读方式无法满足实时性与全面性需求,舆情监控面临效率低、响应慢的挑战。2.AI+行业结合AI驱动的情感分析模型能够从大量的文本中自动学习语言规律,识别复杂语义,实现全天候、自动化情绪监测,大幅提升情感分析效率与准确性。3.技术原理情感分析模型如同“语言翻译员”,通过学习带有“正面”和“负面”标签的评论样本,掌握不同语境中词语、句式的情感倾向规律。遇到新评论时,模型依据所学经验判断情感倾向,类似孩子通过听大量的故事学会区分“开心”和“难过”的表达方式。1.实验平台和数据准备本任务使用“海豚人工智能与大数据实验室”平台及其自带的新闻评论情感分析数据集“combined_shuffled_01.csv”。数据来源于主流新闻网站的真实用户评论,约10000条,包含两个字段,text(评论原文)和emotion(情感标签,0代表“负面”,1代表“正面”),数据集经专业人员人工标注,确保标签质量。2.数据预处理(1)去除特殊符号。利用正则表达式删除空格、标点、特殊字符,保留纯文本内容,减少干扰信息。(2)中文分词。将连续的汉字序列切分为有意义的词语单元,便于模型理解词汇的组合。(3)数据采样。随机抽取200条评论作为样本,加快处理速度,适配教学演示需求。3. 操作步骤(1)打开“新闻文本分类”界面,在“组件”选区选择“读取你的数据”选项,在打开的下拉列表中将“读取csv文件”组件拖曳到画布中。单击“读取csv文件”组件,在打开的“读取csv文件”选区进行参数设置。将“选择数据源”设置为“combined_shuffled_01”,“列名”设置为“首行”,“行名”设置为“自动生成”,“编码方式”设置为“UTF-8”。然后运行,完成对新闻评论情感分析数据集的读取。(2)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“列运算”组件拖曳到画布中,然后连接“读取csv文件”组件和“列运算”组件。单击“列运算”组件,在打开的“列运算”选区中进行参数设置并运行,如图2.3.1所示。(3)在“组件”选区选择“文本分析”选项,在打开的下拉列表中用鼠标左键选中“分词”组件并将其拖曳到画布中,然后连接“列运算”组件和“分词”组件。单击“分词”组件,在打开的“分词”选区进行参数设置,将“选择文本列”设置为“修改后内容”,然后运行即可。(4)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“采样”组件拖曳到画布中,然后连接“分词”组件和“采样”组件。单击“采样”组件,在打开的“采样”选区中进行参数设置。将“采样数”设置为“200”,“随机数种子”设置为“10”,然后运行。(5)在“组件”选区选择“文本分析”选项,在打开的下拉表中将“文本数据转换为数据...”组件拖曳到画布中,然后连接“采样”组件和“文本数据转换为数据...”组件。单击“文本数据转换为数据...”组件,在打开的“文本数据转换为数据...”选区进行参数设置。将“选择处理列”设置为“修改后内容”,然后运行即可。(6)在“组件”选区选择“数据预处理”选项,在打开的下拉列表中将“数据拆分”组件拖曳到画布中,然后连接“文本数据转换为数据...”组件和“数据拆分”组件。单击“数据拆分”组件,打开“数据拆分”选区,将“拆分比例”设置为“0.8”,“随机数种子”设置为“None”,然后运行。(7)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“分类-朴素贝叶斯”组件拖曳到画布中,然后连接“数据拆分”组件和“分类-朴素贝叶斯”组件。单击“分类-朴素贝叶斯”组件,在打开的“分类-朴素贝叶斯”选区中进行参数设置。设置“选择特征列”时,勾选除“text”“emotion”“修改后内容”外的所有复选框,并将“选择预测列”设置为“emotion”,然后运行即可,如图2.3.2所示。(8)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“二分类模型评估”组件拖曳到画布中,然后分别连接“分类-朴素贝叶斯”组件和“二分类模型评估”组件,以及“数据拆分”组件和“二分类模型评估”组件。单击“二分类模型评估”组件,在打开的“二分类模型评估”选区中进行参数设置。设置“特征列”时,同样勾选除“text”“emotion”“修改后内容”外的所有复选框,并将“预测列”设置为“emotion”,然后运行。(9)在“组件”选区选择“机器学习模型”选项,在打开的下拉列表中将“分类-K近邻”组件拖曳到画布中,然后连接“数据拆分”组件和“分类-K近邻”组件。单击“分类-K近邻”组件,在打开的“分类-K近邻”选区中进行参数设置。设置“选择特征列”时,勾选除“text”“emotion”“修改后内容”外的所有复选框,并将“选择预测列”设置为“emotion”,“K值”设置为“5”,“距离度量”设置为“欧式距离”,“分类决策规则”设置为“uniform”,然后运行。(10)在“组件”选区选择“评估你的模型”选项,在打开的下拉列表中将“二分类模型评估”组件拖曳到画布中,然后分别连接“分类-K近邻”组件和“二分类模型评估”组件,以及“数据拆分”组件和“二分类模型评估”组件。单击“二分类模型评估”组件,在打开的“二分类模型评估”选区中进行参数设置。设置“选择特征列”时,同样勾选除“text”“emotion”“修改后内容”外的所有复选框,并将“选择预测列”设置为“emotion”,然后运行即可,如图2.3.3所示。(11)最后得到朴素贝叶斯模型和K近邻模型的分类结果。如表2.3.1所示是朴素贝叶斯模型与K近邻模型(K=5)在准确率、精确率、召回率和F1值四个评估指标上的对比,其中朴素贝叶斯模型的四项指标明显优于K近邻模型的四项指标,可见朴素贝叶斯模型的性能优于K近邻模型。1.教学以学生学习教材的基本内容为主,系统全面地了解为让机器“理解”文字—自然语言处理的内容。2.整个教学过程中,各教学点可根据实际情况,进行拓展知识的讲解。本章小结:本项目介绍了人工智能的关键能力——理解人类的语言。无论是搜索商品、浏览新闻,还是发表评论,人们每天都在创造海量的文本。自然语言处理技术就是让机器读懂这些文字背后的含义,如从判断两句话是否“意思相近”到洞察一条评论的“喜怒哀乐”。掌握自然语言处理技术,就意味着你获得了与机器“对话”并让它为人类提供更智能服务的能力。未来,自然语言处理技术将不再是搜索功能和推荐功能的专属,它将融入与智能家居的对话、赋能法律文档的比对,甚至帮助科学家发现学术论文之间的隐藏关联。这要求自然语言处理领域的人才兼具技术能力、行业知识和人文素养,既掌握文本处理、模型训练技术,又能将其落地到实际业务,同时确保技术应用的合理性与公平性。《人工智能应用与实践项目式教程》课程教案课题:让机器“听懂”声音——语音识别与合成教学目的:知识目标:理解语音识别与语音合成的基本概念及其在日常生活中的典型应用场景。掌握语音信号预处理的关键步骤(如预加重、分帧、加窗)及其作用。了解语音识别系统中声学模型与语言模型的协同工作机制。能力目标:能够使用工具完成语音信号的预处理操作,并能够通过特征对比说明预处理的效果。能够对比不同语音合成平台在自然度、情感表达等方面的差异。能够初步评估语音技术在真实场景(如会议记录、无障碍服务)中的适用性与局限性。素质目标:树立技术伦理意识,认识到AI配音等技术可能带来的隐私与安全风险。增强技术包容性观念,理解语音技术应服务于不同人群(如老年人、听障者、方言使用者)。培养对人工智能技术发展的批判性思维,理解“听清”与“听懂”之间的本质区别。课型:新授课课时:本章安排8个课时。教学重点:重点:理解语音识别与语音合成的基本概念及其在日常生活中的典型应用场景。掌握语音信号预处理的关键步骤(如预加重、分帧、加窗)及其作用。了解语音识别系统中声学模型与语言模型的协同工作机制。教学难点:难点:能够使用工具完成语音信号的预处理操作,并能够通过特征对比说明预处理的效果。能够对比不同语音合成平台在自然度、情感表达等方面的差异。能够初步评估语音技术在真实场景(如会议记录、无障碍服务)中的适用性与局限性。教学过程:教学形式:讲授课,教学组织采用课堂整体讲授和分组演示。教学媒体:采用启发式教学、案例教学等教学方法。教学手段采用多媒体课件、视频等媒体技术。板书设计:本课标题让机器“听懂”声音——语音识别与合成课次4授课方式理论课□讨论课□习题课□其他□课时安排8学分共2分授课对象普通高等院校学生任课教师教材及参考资料1.《人工智能应用与实践项目式教程》;电子工业出版社。2.本教材配套视频教程及学习检查等资源。3.与本课程相关的其他资源。教学基本内容教学方法及教学手段课程引入你是否有过这样的经历:在嘈杂的地铁里对着语音助手发号施令,它却“充耳不闻”;想让导航软件播报路线,却被生硬的“机器人音”劝退;或是在跨国交流时,因语言不通而陷入尴尬。这些场景背后,都指向同一个核心技术——语音识别与合成。它是人与机器最自然的交互桥梁,让“听懂”与“回应”无需依赖键盘和屏幕。声音,作为我们传递信息、表达情感的重要载体,蕴含着丰富的细节与复杂的规律。但原始的语音信号就像未经打磨的璞玉,夹杂着环境噪声、频率失衡等干扰,直接交给机器处理往往效果不佳。而语音技术的神奇之处,就在于它能像“声音的工程师”一样,对原始信号进行精准“打磨”,再通过智能算法实现听懂、回应甚至跨语言沟通。如今,这项技术已融入生活的方方面面:智能音箱根据语音指令播放音乐,有声读物为视障人群打开知识大门,实时翻译软件打破跨国交流的语言壁垒,车载系统让驾驶过程中的操作更安全便捷。从日常的语音助手到专业的会议同传,从儿童故事的童声配音到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论