版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《人工智能导论》教案第7次课机器学习本次授课内容第4章AI理论与应用:从原理到实践4.1机器学习的三种“学习秘籍”4.1.1监督学习:用“智能习题册”训练AI 4.1.2无监督学习:让数据自己讲故事 4.1.3强化学习:试错中成长的“电子宠物” 4.1.4案例:基于手写数字数据集的聚类分析实战 本次课的教学目的掌握机器学习三大范式(监督学习、无监督学习、强化学习)的核心原理及典型应用场景。能辨析不同AI技术的适用边界(如监督学习需标注数据、强化学习训练成本高)。本次课教学重点与难点机器学习三大范式的核心原理与应用:如何根据数据是否标注(监督/无监督)、任务是否动态(强化学习)选择合适范式,例如:监督学习需大量标注数据,无监督学习适用于探索未知模式教学方法教学手段PPT、讨论、案例实操。课堂教学时间分配教学内容时间分配(分)内容讲解60案例实操、讨论、提问与互动30课堂教学设计导入任务-核心内容讲解-讨论-总结-案例实操实验基于希冀平台进行手写数字数据集的聚类分析实战本实验将使用希冀平台的智能体进行机器学习聚类实验,通过智能化的实验环境自动执行多种聚类算法对手写数字数据集(load_digits(sklearn):是Scikit-learn库内置的小型数据集,包含1797张图像)进行聚类分析。智能体将自动运行K-means、K-means++等经典聚类算法,用户可以通过与智能体交互来掌握聚类分析的核心概念和实际应用。思考题及作业题习题1-5课程思政元素科技伦理与社会责任:AI发展的价值导向结合强化学习面临“奖励机制难设计”“决策不透明”等挑战,如AI可能为追求奖励“钻空子”或做出人类难以理解的“神之一手”决策,启示:技术发展必须以伦理为边界。在教学中可结合医疗AI、自动驾驶等场景,引导学生思考“算法公平性”(如避免训练数据中的偏见导致歧视)、“责任归属”(如手术机器人失误时的责任划分),培养“科技向善”的价值观,强调AI研发需兼顾效率与人文关怀,避免技术异化。教学后记第一节课课堂重点内容详解4.1机器学习的三种“学习秘籍”4.1.1监督学习:用“智能习题册”训练AI监督学习的运作机制类似于一位学生掌握解题方法的过程:通过反复练习(训练迭代)“带标准答案的习题”(标注数据),不断比对预测结果与标准答案的差距,最终掌握解题规律;当学生拿到全新的试卷(测试数据)时,也能举一反三地解出同类题目(泛化能力),就像突然掌握了这类题目的内在规律(模型收敛)。以猫狗分类为例来理解监督学习的基本原理:1.准备学习资料:制作“动物图卡”收集动物照片:为AI收集专属“习题集”,挑选10,000张特征鲜明的猫狗照片作“题库”,包含常见与特殊品种,涵盖不同角度和光线,注意收集易混淆案例。标注正确答案:请动物专家为每张照片标注“猫”或“狗”,有争议的照片多人确认。统一卡片格式:调整所有图片至相同尺寸,统一颜色和亮度,避免AI因格式不同受干扰。2.制定学习规则:设定标准答案格式,明确评判标准。一是设置简单编码,用[1,0]表示“猫”,[0,1]表示“狗”,专家意见不一致时用概率表示;二是设定计分规则,AI判断错误率越高扣分越多。3.学习与优化:AI学习类似学生练习纠错,但有更系统优化机制。初始训练阶段,AI易混淆相似猫狗,错误率达20%-30%。之后采用“错题本”机制,定位模型对关键特征识别薄弱点进行强化训练,早期每轮迭代准确率提升超5%。约50轮迭代后进入精调阶段,最终达98%左右识别精度。有趣的是,机器学习与生物学习有本质差异,人类少量样本就能建立“猫狗”概念,而AI需要数万张标注图片,但突破阈值后,其识别稳定性和速度远超生物大脑。前沿迁移学习技术能将优化过程缩短至10轮以内,这或许是AI在特定领域超越人类专家的关键。4.1.2无监督学习:让数据自己讲故事无监督学习核心是从未标记数据中自主发现内在结构和模式,类似消费者在超市通过商品摆放识别归类模式定位商品。它是不依赖预设标签或目标变量的机器学习方法,通过分析数据样本相似性、距离或分布特征找相关性和模式,组织或分组数据获新见解。以奶茶店顾客数据分析为例,聚类分析可自动发现消费群体特征,算法分析顾客甜度偏好、消费时段和购买频率等,将顾客分群,用数据散点图表示。自动分群结果让经营者看清不同顾客群体特征,但聚类前可能不知每类特点,需结合人的经验分析,如高甜度+下午茶+高频为甜品爱好者、核心客户群;低糖+早晨+低频为健康饮食追求者、潜在高价值客户;全糖+深夜+单次高消费为夜间冲动消费者、可提升客单价潜力客户。这种“让数据自己讲故事”的能力适用于多个领域。优化分群效果可引入新特征维度。不过,无监督学习存在评估困难、结果误读、过拟合和需专家知识等缺点。案例实操:基于希冀平台使用智能体应用进行机器学习分类实验,通过智能化的实验环境自动执行多种分类算法对不同类型的开源数据集进行分类分析。智能体将自动运行有监督的分类算法KNN,SVM,决策树等经典分类算法,对三种经典数据集进行有监督分类学习,用户可以通过与智能体交互来掌握分类器的核心概念和实际应用1.使用经典的Iris鸢尾花数据集来学习KNN分类算法2.使用糖尿病数据集来学习SVM算法3.使用BreastCancerWisconsin数据集来学习决策树算法课堂重点内容详解第二节课4.1.3强化学习:试错中成长的“电子宠物”强化学习(ReinforcementLearning,RL)是一种让智能体通过不断试错来优化决策的机器学习方法,其运作机制类似于训练一只电子宠物——智能体在环境中采取行动,接收奖励或惩罚,并逐步调整策略以获得更高的长期回报。与监督学习不同,强化学习不依赖预先标注的数据,而是通过与环境的交互自主学习,这使得它在动态、不确定的场景中(如机器人控制、游戏AI、金融交易等)表现出色。强化学习是一种在时间序列上进行决策的方法,强化学习的核心——智能体(Agent)执行指定的动作(Action),同时与所处的环境(Environment)进行交互,收集当前所处环境的状态(State)及交互得到的反馈奖赏(Reward),获得的奖赏越高,说明执行的动作越好,而一系列动作执行完后获得的奖赏总和则反映了策略整体的优劣。智能体通过不断的交互、试错、学习,尽可能地最大化最终获得的总奖赏,从而优化决策能力。强化学习的简单流程如图所示。扫地机器人的技术进步是强化学习应用图谱中的一个代表性案例。案例实操:基于希冀平台体验零代码强化学习本实验基于一个预置的Web应用,该应用实现了一个经典的“乒乓”(Pong)游戏,并内嵌了一个可通过强化学习(ReinforcementLearning,RL)进行训练的人工智能(AI)对手。实验的核心并非从零编写代码,而是通过与该系统进行交互,深入理解并观察AI从一个“新手”成长为“高手”的全过程。可以通过切换不同模式、调整参数、观察数据面板,直观地感受强化学习中状态、动作、奖励等核心概念,并验证AI的学习成果。
第8次课深度学习本次授课内容4.2深度学习的奇妙能力:为什么AI能看懂世界4.2.1举一反三的智慧:AI泛化能力的生动体现 4.2.2神经网络的奥秘:智能学习的核心引擎4.2.3迁移学习:AI的“知识复用”艺术4.2.4注意力机制:AI的“聚焦透镜” 4.2.5模型优化:让AI学习更高效 4.2.6案例:基于手机相册的AI实战 本次课的教学目的理解深度学习的关键技术(神经网络、迁移学习、注意力机制)及AI泛化能力的实现逻辑。能通过案例分析(如手机相册分类、WPS智能文档)理解AI技术在实际场景中的落地逻辑。本次课教学重点与难点神经网络的“分层处理”机制难以直观理解,需结合案例(如手写数字识别)拆解层级功能。深度学习核心机制与泛化能力:预训练模型如何将通用特征(如边缘检测)迁移至特定任务(如医学影像识别),避免从零训练的低效性教学方法教学手段PPT、讨论、案例实操。课堂教学时间分配教学内容时间分配(分)内容讲解60练习、讨论、提问与互动30课堂教学设计导入任务-核心内容讲解-讨论-总结-案例实操实验基于希冀平台通过智能化的实验环境自动执行CNN卷积训练,对Fashion-MNIST经典数据集进行CNN分类模型构建。基于此模型,对测试集的数据进行预测,给出准确率,并展示一张图像以及其预测结果和实际结果。思考题及作业题习题5-10课程思政元素结合华为5G研发团队的事迹,通过讲述团队从零探索、突破封锁的奋斗历程,传承自主创新、科技报国、集体奉献的精神,将价值观塑造融入通信技术、网络架构等专业知识教学中。课堂引入事例:华为5G团队的“十年磨一剑”——从零探索到全球领跑2009年,当5G还处于概念阶段时,华为组建跨领域研发团队(通信、计算机、电子等顶尖人才),在无成熟技术路线可参考的情况下,团队成员日夜扎根实验室,通过数万次理论推导、仿真验证,突破了通信理论、芯片设计、网络架构三大核心难题。例如,在芯片研发中,面对国外技术封锁,团队自主设计出“天罡”5G芯片,性能达到国际领先水平。最终,华为成为全球5G专利数量最多的企业(超3万项),技术覆盖170多个国家和地区。思政引导:理解“自主创新是科技发展的核心动力”,培养学生“敢啃硬骨头”的科研勇气;体会“十年磨一剑”的坚守精神,认识到个人奋斗与国家科技崛起的紧密联系。教学后记第一节课课堂重点内容详解4.2.1举一反三的智慧:AI泛化能力的生动体现AI的泛化能力,是指AI系统能够从有限的训练经验中提取出通用规律,并将这些规律成功应用到全新场景中的能力。例如:图像识别:经过多品种猫图训练的AI模型,可以识别戴墨镜的猫、被P上胡须的猫,或是蜷缩成毛球的猫,通过耳朵形状、面部比例等核心特征保持判断准确性。医疗突破:某些皮肤检测AI通过数万张病例照片的学习,能识别不同人种、不同手机拍摄的早期病灶,准确率甚至超过部分医生。然而,AI的泛化能力并非完美无缺。一方面,训练数据的局限性会导致过拟合问题。模型过度依赖训练数据细节(如只认特定角度的猫),导致新数据识别失败(文档中“过拟合本质”知识点)。4.2.2神经网络的奥秘:智能学习的核心引擎神经网络是现代人工智能系统的核心架构,就像人类大脑的神经连接网络一样,它赋予了AI系统强大的学习能力和举一反三的智慧。这种由多层人工神经元组成的网络结构,正是实现AI泛化能力的核心基础。其分层处理机制:用“传话游戏”(输入层→隐藏层→输出层)类比,解释“线条侦探组→形状分析组→综合判断”的特征抽象过程,如图所示:基于希冀平台演示多层感知机可视化训练系统,通过调整输入层、隐藏层、训练超参数等内容,得到不同情况下模型的可视化训练情况4.2.3迁移学习:AI的“知识复用”艺术迁移学习就像是给AI装上了“经验复用”的超能力,让AI系统也能“触类旁通”:神经网络能够将已习得的特征识别能力灵活地迁移到新的应用场景中,巧妙运用到新领域。这种“知识嫁接”的能力,使得AI不必每次都像新生儿般从零学起,而是像经验丰富的专家一样快速适应新任务。课堂重点内容详解第二节课4.2.4注意力机制:AI的“聚焦透镜”AI的注意力机制能让计算模型在处理海量数据时,自主识别并聚焦于最相关的信息特征,同时有效抑制无关干扰。以“海滩金毛犬照片”为例,讲解AI如何聚焦主体(狗的毛发、姿态)、过滤干扰(远处船只)4.2.5模型优化:让AI学习更高效在深度学习领域,模型优化是让AI学习更高效的关键:数据优化:清洗杂乱数据(如模糊图像)、数据增强(如旋转图像)。训练优化:调整学习率(初期快、后期慢)、正则化避免过拟合。评估反馈优化:多次测试的模型,持续优化模型案例实操:基于希冀平台智能化的实验环境自动执行MLP模型训练1.使用Keras框架构建MLP网络对mnist_train_100.csv数据集文件进行分类模型构建,该数据集文件包含100张图片,每行数据为一张图片,其中第一列值为该行数据对应的标签(图片显示的数值),后面为28*28个图片的灰度值,图像为单通道。基于此模型,对测试集的数据进行预测,给出准确率,并展示一张图像以及其预测结果和实际结果2.使用Keras构建MLP网络对fashion-mnist_test.csv数据集进行分类模型构建,该数据集是Zalando的商品图像数据集,包含一个包含60,000个示例的训练集和一个包含10,000个示例的测试集。每个样本是一张28*28的灰度图像,与10个类别中的一个标签相关联。Zalando旨在让Fashion-MNIST作为原始MNIST数据集的直接替代品,用于评估机器学习算法。它与原始MNIST数据集具有相同的图像大小和训练集与测试集的划分结构。每行数据为一张图片,其中第一列值为该行数据对应的标签(图片显示的数值)。后面为28*28个图片的灰度值,图像为单通道。基于此模型,对测试集的数据进行预测,给出准确率,并展示一张图像以及其预测结果和实际结果
第9次课自然语言处理本次授课内容4.3自然语言处理:让AI“读懂”人类语言4.3.1自然语言处理入门:与语言的亲密接触 4.3.2自然语言处理的基础:分词、词性标注与句法分析 4.3.3深度学习的语言革命:让AI从“识字”到“懂心” 4.3.3案例:WPS自然语言处理——智能文档实战本次课的教学目的掌握NLP基础流程(分词→词性标注→句法分析)理解NLP在AI“读懂语言”中的作用认识深度学习如何推动NLP革命(词向量、注意力机制、预训练模型)本次课教学重点与难点自然语言处理(NLP)基础与技术突破深度学习在NLP中的革新WPSAI实战应用教学方法教学手段PPT、讨论、练习、案例实操。课堂教学时间分配教学内容时间分配(分)内容讲解60练习、讨论、提问与互动30课堂教学设计导入任务-核心内容讲解-讨论-总结-案例实操实验基于希冀平台的可视化理解GPT本实验使用可视化理解GPT系统,该系统支持展示transformer的encode和decode过程,最后展示字符的概率值内容,体现GPT2模型完整运算的过程。在输入框输入自己的提示词内容,并点击Generate至少4次查看生成的语句是否合理,并通过调整采样参数和查看推理界面的计算过程,学习transformer网络结构,并进行记录思考题及作业题习题15-20课程思政元素结合华为5G研发团队“从零开始探索技术路线”“突破国外芯片技术封锁”的事迹,强调核心技术自主可控的重要性。在NLP教学中,对比国内外技术发展差距(如早期中文分词依赖规则方法,而基于统计的模型需大量语料积累),引导学生认识到“卡脖子”技术攻关的紧迫性,培养“科技强国”使命感。通过分词歧义处理(如“南京市长江大桥”的多切分可能性)、词性标注的上下文依赖(如“打”在“打人”和“打酱油”中的不同词性)等案例,说明NLP技术需兼顾规则逻辑与数据实证,培养学生“严谨验证、迭代优化”的科研思维以“华为手机评测”分词错误导致搜索偏差为例,强调技术细节对应用效果的影响,树立“细节决定成败”的责任意识通过智能语音助手帮助视障人士便捷生活、远程医疗中NLP技术辅助病历分析等案例,展现AI技术“以人为本”的价值导向教学后记第一节课课堂重点内容详解4.3自然语言处理:让AI“读懂”人类语言自然语言处理(NaturalLanguageProcessing,NLP)是人工智能领域中一个极富魅力且实用性强的分支,它致力于让计算机能够像人类一样理解、处理和生成自然语言,从而实现人与计算机之间自然流畅的交互。1.NLP基础三步骤:分词、词性标注与句法分析分词:以“南京市长江大桥”为例,对比基于规则(正向最大匹配)与基于统计的方法,强调“歧义处理”的重要性词性标注:用“美丽的花朵绽放”说明“形容词→名词→动词”的标签逻辑,解释其对语义理解的作用。目前,实现词性标注的方法主要分为基于规则的方法和基于机器学习的方法。句法分析:以“小明吃苹果”为例,解析“主语-谓语-宾语”结构,对比基于规则与基于统计的方法局限性2.深度学习与NLP革命词向量:用“指纹”类比,深度学习模型(如Word2Vec)通过分析大量文本,发现经常一起出现的词(如“医生”和“护士”、“教师”和“学生”),“指纹”会很相似。神经网络是学习这些“指纹”的核心工具。注意力机制:聚焦关键词,对比RNN+注意力和CNN+注意力两种基础架构。预训练模型:它通过一些特别的训练任务(比如遮住句子中的某个词,让它猜出来),学会了理解词语在具体上下文中的真实含义。以BERT为例,解释“饱读诗书的学霸”如何通过“填空游戏”学习上下文(如区分“银行”的两种含义)。第二节课3.案例实操:WPS自然语言处理——智能文档实战拆解流程:语音转文字→全文概览(关键词云、发言人分栏)→会议纪要整理→文档分析。重点分析:“智能关键词云双向跳转”“注意力机制定位发言片段”等功能如何提升信息检索效率。
第10次课AI感知技术本次授课内容4.4AI感知技术:让机器像人一样感知世界4.4.1计算机视觉:AI的“眼睛” 4.4.2语音识别:AI的“耳朵” 4.4.3生物识别:AI的“触觉”本次课的教学目的理解计算机视觉(人脸识别)、语音识别、生物识别的核心流程与技术挑战;掌握人脸识别的“数据预处理→特征提取→决策推理”三步法本次课教学重点与难点计算机视觉的特征提取逻辑语音识别的噪声鲁棒性生物识别的安全与伦理权衡多技术融合的跨学科性教学方法教学手段PPT、讨论、练习、案例实操。课堂教学时间分配教学内容时间分配(分)内容讲解60练习、讨论、提问与互动30课堂教学设计导入任务-核心内容讲解-讨论-总结-案例实操实验基于希冀平台的图像理解与应用本实验基于希冀平台的Qwen2.5-VL-7B-Instruct聊天机器人Web应用,用户需要上传图片素材与大模型交流(点击上传按钮上传图片),为大模型提供基础的图片内容。上传好图片后,在输入框输入提示词内容,回车或者点击发送向大模型发送图片和提示词内容。评估模型Qwen2.5-VL-7B-Instruct的图像理解能力思考题及作业题习题20-25课程思政元素结合华为5G研发团队的事迹,引导学生在理解5G技术原理的同时,树立“科技强国”的信念,厚植爱国情怀与民族自豪感。课堂引入事例:5G赋能千行百业——科技报国的生动实践华为5G技术不仅实现了通信领域的突破,更深度融入工业、医疗、交通等民生领域:工业制造:某汽车厂通过5G+工业互联网,生产线自动化率提升30%,产品不良率下降50%;疫情防控:2020年,华为5G远程医疗系统为湖北偏远地区提供超10万次远程会诊,让优质医疗资源触达基层;智慧城市:深圳通过5G网络实现交通信号智能调控,高峰期拥堵时长减少25%。思政引导:感受“科技为民”的初心,理解5G技术对国家数字化转型的战略意义;增强民族认同感:中国5G技术已从“跟跑”到“领跑”,成为国家名片,激发学生“为国奋斗”的使命感。思政元素核心目标爱国情怀与报国精神:通过团队突破封锁、服务国家需求的事迹,引导学生将个人职业理想与国家战略结合;集体主义与奉献精神:以“小李坚守实验室”等案例,传递“舍小家为大家”的团队协作价值观;民族自信与科技自信:展示5G技术的全球影响力,让学生认识到中国科技的硬实力,增强文化自信。通过这些事例,实现“知识传授+能力培养+价值引领”的三位一体,让学生在专业学习中自然接受思政教育,成长为有理想、有担当的科技人才。教学后记课堂重点内容详解第一节课4.4AI感知技术:让机器像人一样感知世界1.计算机视觉:AI的“眼睛”人脸识别流程:拆解“数据预处理(像素分析、光照调整)→多尺度特征提取(眼睛、鼻子等关键点)→决策推理(特征匹配)”。技术挑战:分析“图像模糊、光线不足”对识别的影响,介绍深度学习如何通过“增强特征提取”提升鲁棒性。案例实操:基于希冀平台零代码手势分类使用零代码手势识别模型训练系统,通过上传或拍照合适的数据集进行处理,构建自定义的手势识别模型,并进行实时推理。第二节课2.语音识别:AI的“耳朵”工作原理:声波→数字信号→声学特征提取→语言模型匹配。局限性:对比人类听觉(聚焦对话、适应口音)与AI的不足(噪声干扰、难以理解讽刺)。3.生物识别:AI的“触觉”技术分类:生理特征(指纹、面部、虹膜)与行为特征(笔迹、步态),对比其应用场景。案例解析:掌静脉识别(红外线扫描静脉分布)在企业门禁的应用,虹膜识别在军事基地的高安全性。4.案例实操:基于希冀平台零代码音频分类使用零代码音频分类模型训练系统,通过上传实时麦克风路径进行特征提取和处理,构建自定义的音频分类模型,并进行实时推理
第11次课数据分析与数据采集本次授课内容第5章玩转数据智能5.1数据分析基本概念 5.2数据采集从何入手本次课的教学目的掌握数据分析全流程(采集→预处理→分析→可视化)的核心概念、方法及工具,理解AI对各环节的赋能价值(如DeepSeek辅助数据处理与图表生成)树立数据合规意识与隐私保护观念,培养严谨的数据分析思维与创新应用能力。本次课教学重点与难点数据分析基础:四类分析类型(描述性、诊断性、预测性、规范性)的定义与应用边界,常见工具(Excel、Python、Tableau)的功能对比。采集原则(合法性、最小化)与方法(网络爬虫、用户行为追踪)AI赋能的“智采”变革。教学方法教学手段PPT、讨论、练习。课堂教学时间分配教学内容时间分配(分)内容讲解60讨论、提问、答疑、练习30课堂教学设计导入任务-核心内容讲解-讨论-总结实验基于希冀平台数据分析1.对销售数据集进行分析,并让智能体输出可视化结果。使用提示词“基于sales_data_sample.csv数据集文件,进行数据分析,给出可视化结果”2.实验数据自动分析:验证胡克定律的线性关系(F=−kx),通过测量不同质量下弹簧的形变量,计算劲度系数k,并评估实验数据与理论值的偏差。思考题及作业题习题1-10课程思政元素结合王选院士与汉字激光照排的突破之路讲述自主创新打破技术垄断的科研实践案例王选院士(1937-2006),江苏无锡人,计算机文字信息处理专家,汉字激光照排技术创始人,被誉为“汉字激光照排系统之父”“有市场眼光的科学家”。他凭借卓越智慧与勇气,推动中国印刷业从“铅与火”迈入“光与电”时代,是自主创新、科技报国的典范。核心突破:自主创新与技术跨越技术路线创新面对国外技术封锁,王选大胆提出“跳过二代、三代机,直接研制第四代激光照排系统”的设想,虽遭质疑,但凭借对技术趋势的洞察力坚持推进。关键技术攻克汉字字形存储难题:带领团队创造性提出高分辨率字形压缩技术,通过分析汉字笔画结构,将字形信息压缩至原大小的1/500,解决存储效率问题。激光扫描精度:攻克高精度扫描技术,确保印刷清晰度与准确性。精神遗产与科研理念:“顶天立地”理念:既要追求技术“顶天”(世界领先),又要实现成果“立地”(转化为生产力),强调科研需兼顾理论高度与应用价值。榜样力量:证明中国人能在高科技领域打破垄断,激励科研工作者以坚定信念、创新思维与恒心攻克技术难关。教学后记课堂重点内容详解第一节课5.1数据分析基本概念一、数据分析概述核心定义数据分析是通过统计与逻辑技术,对数据进行清洗、转换、建模,以提取价值、发现规律并支持决策的过程。其本质是将原始数据转化为业务洞察,需结合具体场景解读数据意义。四类分析类型(层层递进)描述性分析:回答“过去发生了什么”,通过基础统计(平均值、占比)和可视化(柱状图、折线图)呈现现状,如“上月销售额100万”。诊断性分析:回答“为什么发生”,通过下钻、关联分析挖掘原因,如“销售额下降是因为核心产品在华东缺货”。预测性分析:回答“未来可能发生什么”,利用机器学习模型预测趋势(如销量预测、客户流失风险),输出概率而非确定结果。规范性分析:回答“应该怎么做”,模拟多决策方案的结果并推荐最优路径,如“基于库存数据,建议优先补货A产品”。全流程六步骤目标定义→数据收集→清洗处理→探索性分析与建模→结果可视化→部署与决策支持。其中,数据清洗与处理是最耗时但关键的环节(占比约80%),直接决定分析结果的可靠性。二、常见数据分析工具电子表格(Excel/WPS)特点:灵活易用、适合中小规模数据,支持公式计算、数据透视表(快速分类汇总)和基础可视化。适用场景:日常事务(预算管理、问卷统计)、简单描述性分析。BI工具(Tableau/PowerBI)特点:拖拽式操作、交互式仪表盘,支持多数据源连接与复杂可视化。适用场景:商业汇报、毕业设计展示、跨部门数据整合分析。编程工具(Python/R/SQL)Python:通过Pandas(数据处理)、Matplotlib(可视化)、Scikit-learn(机器学习)处理海量数据,适合自动化与复杂建模。R语言:专注统计分析与绘图(ggplot2),适合学术研究与高级统计建模。SQL:用于数据库查询与ETL(数据提取、转换、加载),是数据分析师必备技能。三、AI赋能数据分析的核心价值效率提升自动化数据清洗(识别异常值、合并多源数据),减少人工操作;自然语言交互(用日常语言提问,如“显示上月销量Top10产品”)降低技术门槛。深度与准确性发现非线性数据关系(如用户行为与购买决策的隐藏关联);高精度预测(金融风控中毫秒级欺诈识别)。应用场景扩展处理非结构化数据(文本情感分析、图像品牌识别);个性化推荐(视频/商品推荐)。四、关键总结数据分析的本质是“数据→信息→洞察→决策”的转化过程。工具选择需结合数据规模、分析复杂度与业务需求(如中小数据用Excel,海量数据用Python)。AI并非替代人工,而是通过自动化与智能化提升分析效率与深度,让分析师聚焦高价值的业务解读。第二节课5.2数据采集从何入手一、数据采集的核心原则合法性原则必须遵循《网络安全法》《个人信息保护法》等法规,明确用户授权(如隐私政策同意),禁止采集敏感信息(如未授权的用户身份证号)。最小化原则只采集实现目标必需的最少数据,避免过度采集(如分析用户购买偏好时,无需采集用户婚姻状况)。准确性与系统性原则确保数据真实可靠,建立持续、稳定的采集流程(如每日定时抓取电商价格数据),避免零散采集导致的数据不一致。二、常见数据采集方法网络爬虫通过Python工具(Requests、BeautifulSoup、Scrapy)自动抓取网页数据(如电商商品价格、新闻标题),需注意反爬策略(设置请求间隔、使用代理IP)。传感器与物联网采集利用温度、GPS等传感器实时获取物理数据(如智能家居环境监测、车联网定位),数据特点是实时性强、连续生成。用户行为追踪在网站/App中嵌入监测代码,记录用户点击、浏览时长等行为(如电商平台分析用户购买路径),需严格遵守隐私合规要求。自动化文档处理通过OCR(光学字符识别)解析图片/扫描件,NLP(自然语言处理)提取文本关键信息(如合同条款、发票金额)。三、数据采集的标准化流程明确目标:定义需采集的数据字段(如“XX品牌手机在三大电商平台的每日价格、评论数”)。识别数据源:确定数据所在位置(如电商平台的商品列表页、详情页)。选择方法与工具:根据数据类型选择工具(如大规模数据用Python爬虫,实时数据用传感器)。执行与存储:运行采集程序,将数据存储为CSV、Excel或数据库格式(如按日期命名文件:手机价格_20231027.csv)。质量检查:验证数据完整性(如是否缺失价格字段)、格式正确性(如价格无乱码)。四、AI赋能数据采集的“智采”变革全流程自动化通过RPA(机器人流程自动化)模拟人类操作(登录系统、填写表单),实现数据抓取与预处理一体化。多模态数据处理能“看懂”图片(提取商品信息)、“听懂”语音(转写客服录音)、“理解”文本(分析评论情感),突破传统采集仅处理结构化数据的局限。智能解析与自适应从非结构化数据中提取关键信息(如新闻中的实体识别),爬虫能自适应网站结构变化(如页面布局更新时自动调整抓取规则)。4.人工智能大模型赋能数据采集的应用案例。【案例1】利用DeepSeek生成电子商务模拟数据。(1)生成测试数据在DeepSeek中,输入提示词(Prompt):DeepSeek经过思考,得到如图所示的10条产品测试数据和验证说明。产品信息表数据说明(2)生成异常和边界场景的测试数据。在DeepSeek中,输入提示词(Prompt):DeepSeek经过思考,得到如图所示的测试数据。(3)编写生成数据的Python程序DeepSeek还可以编写用来生成测试数据的Python程序。在DeepSeek中,输入提示词(Prompt):DeepSeek经过思考,得到如图所示的结果。【案例2】利用DeepSeek抓取数据在DeepSeek中,输入提示词(Prompt):DeepSeek经过思考,生成新浪体育新闻爬虫程序
第12次课数据预处理与AI赋能数据分析本次授课内容5.3数据预处理的小技巧5.4AI赋能,数据分析轻松上手5.5数据可视化太惊艳本次课的教学目的熟悉数据智能的应用场景(非结构化数据处理、个性化推荐等),建立数据驱动决策的认知框架。能独立完成中小规模数据分析项目(从数据采集到可视化报告),初步使用AI工具提升分析效率。能识别数据质量问题并应用预处理技巧,选择合适分析方法(描述性统计、相关性分析等)解决实际问题。。本次课教学重点与难点预处理核心操作:数据清洗(缺失值/异常值处理)、转换(非结构化→结构化)、集成(消除数据孤岛)。AI赋能分析与可视化:描述性统计、相关性分析、假设检验、回归分析的基本方法及AI工具应用。常见图表类型(柱状图、折线图等)的选择与Python实现,通过可视化传递数据洞察。教学方法教学手段PPT、讨论、练习、案例实操。课堂教学时间分配教学内容时间分配(分)内容讲解60讨论、提问、答疑、练习30课堂教学设计导入任务-核心内容讲解-讨论-总结实验基于希冀平台数据分析根据你所在的学科领域,寻找或由希冀平台提供的与本专业相关的数据集(如销售数据集、学生成绩数据集、财务数据、材料性能数据、作物生长数据、交通流量数据等),使用AI大模型辅助完成一次完整的数据分析与可视化探索,并撰写一份简短的报告,阐述你从数据中发现的规律或见解。思考题及作业题习题10-20课程思政元素1.集合数据采集需遵循“合法合规”原则,如《通用数据保护条例》(GDPR)对个人数据准确性的要求,以及数据清洗中“降低合规与风险成本”的必要性,引导学生树立数据伦理意识,在技术应用中坚守法律底线,保护用户隐私,避免因数据滥用导致的社会风险。2.教学后记课堂重点内容详解第一节课5.3数据预处理的小技巧一、数据清洗:数据分析的“基石”数据清洗的必要性解决“垃圾进,垃圾出”问题:原始数据常存在缺失值、异常值、重复数据等质量问题,直接影响分析结果的准确性(如错误的用户行为数据会导致推荐算法失效)。提升模型性能:机器学习模型对数据质量敏感,清洗后的数据能减少“噪音”干扰,提高预测精度。合规与风险控制:金融、医疗等行业需保证数据准确性以满足法规要求(如GDPR对个人数据的准确性要求)。常见数据质量问题及处理缺失值:通过均值/中位数填充(数值型)、众数填充(分类数据)或删除缺失严重的记录。异常值:使用箱线图识别,通过删除或替换(如用中位数替代)处理。重复数据:通过主键(如用户ID)去重,避免重复计算。格式不一致:统一日期格式(如“YYYY-MM-DD”)、单位(如将“kg”和“lb”转换为统一单位)。AI赋能数据清洗自动识别并修复数据错误(如DeepSeek生成Python代码批量处理缺失值),减少人工操作。【案例3】使用DeepSeek进行数据清洗(1)在DeepSeek中,输入的提示词(Prompt):(2)进一步处理,在DeepSeek中,输入提示词(Prompt):删除上述数据表中数量为0的行,处理后的数据以表格形式给出。DeepSeek处理后,删除了订单ID号为D1007的数据行。(3)使用DeepSeek编写清洗数据的代码。在DeepSeek中,输入提示词(Prompt):DeepSeek经过思考,给出python程序代码及程序说明。二、数据转换:从“原始”到“可用”非结构化数据转换文本数据:通过NLP技术(分词、TF-IDF、词嵌入)转换为数值向量,用于情感分析、主题建模。图像/视频数据:使用CNN提取特征向量,用于图像分类、目标检测。音频数据:转换为MFCC(梅尔频率倒谱系数)或频谱图,用于语音识别、情感分析。数据格式与类型转换格式转换:JSON→CSV、Excel→数据库,确保数据在不同工具间兼容(如将API返回的JSON数据转换为Excel便于分析)。类型转换:字符串→数值(如“123”→123)、字符串→日期(如“2023/10/25”→“2023-10-25”),需处理转换失败的异常情况(如“abc”无法转为数值)。【案例4】使用DeepSeek实现JSON格式文件与Excel文件相互转换。JSON文件作为一种轻量级的文本格式,用于表示结构化数据。在DeepSeek中,输入提示词(Prompt):DeepSeek经过思考,给出转换程序和转换结果。【案例5】电商订单数据分析。假设你是一家电商公司的数据分析师。技术团队给你推送了一个名为orders_raw.csv的原始订单数据文件。orders_raw.csv文件内容如表所示。原始订单数据文件orders_raw.csvorder_idproduct_categoryprice_strquantity_strorder_date_strcustomer_idA1001Electronics599.9922023-10-2514:30:05CUST-001A1002Books25.5012023/10/2609:15:37CUST-002A1003Home&Kitchen89.9932023-10-26CUST-003A1004Electronics1299.00127/10/202316:45:00CUST-001A1005Books19.99two2023-10-28CUST-004A1006Apparel45.7522023-10-2811:59:01CUST-005原始数据中的数字和日期都是以文本(字符串)格式存储的,无法直接进行数学运算(如求和、求平均)或时间序列分析,并且quantity_str列包含一个非数字字符"two"(这是一个需要处理的脏数据)。现在利用DeepSeek进行正确的数据类型转换。在DeepSeek中,输入提示词(Prompt):DeepSeek经过思考,给出转换后的数据结果及转换说明。数据规范化Min-Max规范化:将数据映射到[0,1]区间,适用于无异常值的场景(如用户评分)。Z-Score标准化:处理后数据均值为0、标准差为1,适用于存在异常值的场景(如销售额预测)。【案例6】客户价值评估。假设你是一家零售公司的数据分析师。你有一个客户数据集,包含客户最近一年的购买行为信息,如表5.3所示。你的任务是建立一个简单的客户价值评分模型,用于识别高价值客户。表5.3客户数据集customers_raw.csvcustomer_idtotal_spentpurchase_countdays_since_last_purchaseC00115000530C002800155C0034500860C004300252C00512001215核心问题:原始数据中的三个特征(总消费金额、购买次数、最近购买距今天数)具有不同的量纲和单位。其中:总消费金额:范围在几百到上万(单位:元)购买次数:范围在几次到上百次(单位:次)最近购买距今天数:范围在几天到几百天(单位:天)如果直接将这三个数值相加来评分,总消费金额因为数值巨大,将完全主导评分结果,而购买次数的作用会被淹没。数据规范化的目的就是消除量纲的影响,使所有特征处于同一数值尺度上,从而公平地参与模型计算。现在利用DeepSeek进行Min-Max规范化和Z-Score标准化。在DeepSeek中,输入提示词(Prompt):DeepSeek经过思考,给出转换程序和转换结果三、数据集成:消除“数据孤岛”数据集成的核心目标将分散在多个系统(如订单系统、CRM系统)的数据整合为统一视图(如用户画像宽表),支持跨部门分析(如精准营销)。数据集成的关键步骤提取:从数据库(MySQL)、日志文件(JSON)、API等多源获取数据。转换:清洗数据、统一编码(如将“Male”和“M”转换为“男”)、聚合计算(如按用户ID汇总订单金额)。加载:将转换后的数据加载到数据仓库(如Snowflake)或数据湖,支持后续分析。数据集成的挑战与解决多源异构性:通过ETL工具(如ApacheNiFi)统一数据格式,解决半结构化日志与结构化数据库的整合问题。数据匹配与去重:使用实体识别技术(如判断“张三”和“张老三”是否为同一用户),避免重复记录。【案例7】电商用户360度视图分析案例背景:某电商公司拥有多个数据源系统,包括:订单系统(MySQL数据库):记录用户的交易数据。用户行为日志系统(JSON日志文件):记录用户在网站上的点击、浏览、搜索等行为。CRM系统(RESTAPI):存储用户的个人信息和客户服务交互记录。数据分析团队希望将这些分散的数据整合起来,构建一个统一的用户标签宽表,用于分析不同用户群体的特征、行为模式和价值,从而支持精准营销和个性化推荐。第一步:定义目标与数据源分析目标数据集:user_profile_wide_table(用户画像宽表)目标字段:用户ID、人口统计信息、购买能力指标、行为偏好指标、服务互动指标。数据源如表5.4所示:表5.4数据源分析数据源存储格式示例关键字段挑战订单系统(orders)MySQL表user_id,order_amount,order_date,product_category数据规范,但一个用户有多条记录,需要聚合行为日志(user_click_log)JSON日志文件user_id,timestamp,event_type(e.g.,‘click’,‘search’),page半结构化,数据量巨大,需要解析和聚合CRM系统(customer_info)RESTAPIuser_id,name,registration_date,membership_level需要通过网络接口获取,速率可能受限第二步:提取具体数据(1)订单数据(orders_table),如表5.5所示。表5.5订单数据表order_iduser_idorder_amountorder_dateproduct_category1001101299.002023-10-25Electronics1002102150.502023-10-26Clothing100310149.992023-10-27Books1004103999.002023-10-28Electronics100510275.002023-10-29Clothing(2)用户行为日志(user_click_log.json)(3)CRM用户数据{"data":{"user_id":101,"name":"张三","registration_date":"2022-05-15","membership_level":"Gold"}第三步:数据集成ETL流程设计我们将使用一个经典的ETL(提取、转换、加载)流程来集成这些数据。(1)提取使用JDBC连接器从MySQL中读取orders_table。使用Spark的json数据源读取user_click_log.json文件。编写一个Python函数,通过requests库调用CRMAPI获取用户数据,并并行化处理。(2)转换这是最核心的一步,需要对每个数据源进行清洗和聚合,使其匹配目标宽表的格式。订单数据转换:按user_id分组。计算每个用户的:总订单数(total_orders)、总消费金额(total_amount)、最常购买的商品类别(fav_category)。行为日志数据转换:过滤出关键事件(如查看、搜索、购买)。按user_id分组。计算每个用户的总浏览次数(total_views)、总搜索次数(total_searches)、最后活动时间(last_active_date)。CRM数据转换:直接映射即可,但可能需要将membership_level这样的分类变量转换为数值分数(例如,Bronze=1,Silver=2,Gold=3)以供模型使用。(3)连接将三个转换后的数据集通过user_id进行左外连接(以用户列表为基准),合并所有特征。第四步:集成后的目标数据最终生成的集成宽表user_profile_wide_table如表5.6所示。表5.6用户画像宽表user_idnamemembership_levelregistration_datetotal_orderstotal_amountfav_categorytotal_viewstotal_searcheslast_active_date101张三Gold2022-05-152348.99Electronics102023-10-26102李四Silver2022-08-202225.50Clothing012023-10-28103王五Bronze2023-01-101999.00Electronics102023-10-27四、关键总结数据预处理是数据分析的“隐形工程”,直接决定后续分析的深度与可靠性。清洗、转换、集成是预处理的核心环节,需结合业务目标选择合适方法(如非结构化数据需先转换为结构化)。AI技术(如NLP、OCR)极大扩展了预处理的边界,使非结构化数据的分析成为可能。第二节课5.4AI赋能,数据分析轻松上手一、AI赋能数据分析的核心价值效率与门槛降低自然语言交互:业务人员无需编程,通过日常语言提问(如“显示上月销量Top10产品”)即可生成图表和分析结果,打破技术壁垒。自动化流程:AI自动完成数据清洗、建模等重复性工作(如DeepSeek生成Python代码批量处理数据),释放分析师精力聚焦业务解读。深度与准确性提升复杂模式识别:AI能发现人类难以察觉的非线性关系(如用户行为与购买决策的隐藏关联),提升分析深度。高精度预测:基于机器学习模型(如随机森林、神经网络)进行销量预测、风险评估,预测准确率显著高于传统统计方法。非结构化数据处理通过NLP(自然语言处理)分析文本情感、提取关键信息(如客户评论中的负面反馈);通过计算机视觉识别图像/视频中的内容(如从社交媒体图片中统计品牌曝光量),扩展数据分析边界。二、四大基础分析方法与AI应用描述性统计核心指标:集中趋势(平均值、中位数、众数)、离散程度(标准差、极差),用于快速理解数据全貌(如分析学生考试成绩的平均分、分数分布)。AI赋能:DeepSeek可自动计算统计指标并生成可视化图表(如直方图、箱线图),直观展示数据特征。【案例8】利用DeepSeek进行描述性统计分析。案例背景:分析一家咖啡店过去30天的每日销售数据。数据保存在文件coffee_sales.csv中,其数据字段说明如下:date:日期。daily_customers:每日顾客数。sales_volume_(cups):总销售杯数。avg_order_value:平均订单价值(元)。operating_hours:当日营业时长(小时)。weekday:星期几。利用DeepSeek进行分析的步骤如下:第一步:提出分析请求并提供数据在DeepSeek中,输入提示词(Prompt):第二步:DeepSeek的分析输出相关性分析核心方法:皮尔逊相关系数(衡量连续变量线性关系)、斯皮尔曼等级相关系数(衡量顺序变量单调关系),用于探究变量间关联(如广告投入与销售额的相关性)。AI赋能:DeepSeek生成相关系数矩阵,自动解读强相关/弱相关关系,并结合业务场景分析内在逻辑(如“广告投入与网站访问量呈强正相关”)。【案例9】利用DeepSeek探究影响电商平台销售额的关键因素。案例背景:假设您是一家电商公司的运营人员。公司最近在多个渠道进行了广告投放,并一直在做促销活动。您想了解:广告投入和销售额之间的关系有多强?促销活动对销售额的提升作用明显吗?网站访问用户数是影响销售额的最直接因素吗?这些因素之间是否存在内在联系?(例如,广告投入是否也带来了更多的网站访问用户?)为了回答这些问题,可以对公司每日的运营数据进行相关性分析。第一步:提出分析请求、提供数据并明确要求在DeepSeek中,输入提示词(Prompt):第二步:DeepSeek的分析输出假设检验核心逻辑:通过样本数据推断总体差异(如A/B测试中新版UI是否显著提升留存率),步骤包括提出假设(原假设H0:无差异;备择假设H1:有差异)、计算p值、判断显著性(p<0.05则拒绝H0)。AI赋能:DeepSeek自动选择检验方法(如卡方检验、t检验),输出检验结果并解释业务意义(如“新版UI的留存率显著高于旧版,p值=0.02<0.05”)。【案例10】利用DeepSeek进行假设检验。案例背景:假设您是一家互联网公司的产品经理。为了提升用户活跃度,您的团队设计了一个新的用户界面(UI)改版方案(我们称之为版本B)。当前版本是版本A。核心问题:这个新设计的版本B,是否真的比当前版本A显著地提高了用户次日留存率?为了回答这个问题,您进行了一次A/B测试:将用户随机分为两组:对照组使用版本A,试验组使用版本B。经过一周的测试,分别统计了两组用户的次日留存情况。A/B测试的结果数据,如表5.7所示。表5.7新旧用户界面用户留存率的A/B测试结果组别用户数(n)留存用户数留存率(p)对照组(版本A)105042040.0%对照组(版本B)98046046.9从描述性统计来看,版本B的留存率(46.9%)比版本A(40.0%)高了6.9个百分点。但不能仅凭“版本B的留存率数值更高”就下结论,因为这可能只是随机波动造成的。我们需要通过假设检验来确认这是否是“统计显著”的提升。利用DeepSeek进行假设检验的步骤。第一步:提出分析请求、提供数据并明确检验方法。在DeepSeek中,输入提示词(Prompt):第二步:DeepSeek的分析输出回归分析核心类型:线性回归(预测连续变量,如房价)、逻辑回归(预测分类变量,如用户是否购买)、多元回归(分析多因素影响,如广告投入、价格对销售额的影响)。AI赋能:DeepSeek构建回归模型,输出系数(变量影响程度)、R²(模型拟合度),并生成可视化结果(如散点图+回归线),帮助识别关键影响因素(如“房屋面积每增加100平方英尺,价格平均上涨5万元”)。【案例11】利用DeepSeek进行回归分析,预测房价并分析关键影响因素。案例背景:假设您是一家房地产科技公司的数据分析师。公司希望建立一个模型,来预测区域内房屋的销售价格,以便:为客户提供准确的房价评估。帮助分析师理解影响房价的关键因素及其影响程度。识别那些被市场低估或高估的房产。数据集house_price_data.csv包含了最近一段时间内200套房屋的销售数据。每条数据都包含了以下特征(变量)。size_sqft:房屋面积(平方英尺),连续变量。bedrooms:卧室数量,离散变量。bathrooms:卫生间数量,连续变量。floors:楼层数,离散变量。year_built:建成年份,离散变量。has_garage:是否带车库(1=是,0=否),分类变量。distance_to_city_center_miles:距离市中心的英里数,连续变量。price($1000):房屋售价(因变量y),单位为千美元。利用DeepSeek进行回归分析的步骤。第一步:提出分析请求、提供数据并明确检验方法。在DeepSeek中,输入提示词(Prompt):第二步:DeepSeek的分析输出(示例)5.5数据可视化太惊艳5.5.1数据可视化基本概念数据可视化工具(1)入门级/通用工具(无需编程):•MicrosoftExcel:最普及的工具,内置丰富的图表类型,适合快速创建基本的静态图表。•Tableau:业界领先的商业智能(BI)工具,以强大的交互性和直观的拖拽式操作著称,能轻松创建高级仪表板。•PowerBI:微软推出的BI工具,与Microsoft生态系统无缝集成,功能强大且性价比高。(2)编程工具(灵活性极高):•Python语言-Matplotlib:最基础、最广泛使用的绘图库,高度可定制,但API较为繁琐。-Seaborn:基于Matplotlib,提供了更高级的接口和更美观的默认样式,统计图表功能强大。•R语言-ggplot2:基于“图形语法”理念的强大绘图系统,是R语言中创建复杂、精美统计图表的首选。5.5.2利用DeepSeek绘制图表【案例12】利用DeepSeek(Python)绘制柱状图案例案例背景:假设我们需要可视化2023年某公司各季度产品销售额数据,绘制柱状图比较三种主要产品的销售表现。第一步:提出分析请求、提供数据。在DeepSeek中,输入提示词(Prompt):第二步:DeepSeek的分析输出(示例)DeepSeek会给出Python程序代码,在Python环境下,运行该程序,得到2023年公司各季度产品销售额柱状图此外,DeepSeek还给出2023年公司各季度产品销售额柱状图图表分析【案例13】利用DeepSeek(Python)绘制折线图案例案例背景假设我们需要可视化某公司2023年全年各月的销售额变化趋势,并分析其增长模式和季节性特征。第一步:提出分析请求、提供数据。在DeepSeek中,输入提示词(Prompt):第二步:DeepSeek的分析输出(示例)DeepSeek会给出Python程序代码,用来绘制公司2023年全年各月的销售额变化趋势的折线图。在Python环境下,运行该程序,得到某公司2023年全年各月销售额及同比增长趋势折线图此外,针对该图表,DeepSeek给出了相应的图表分析【案例14】利用DeepSeek(Python)绘制饼图/环形图案例。案例背景假设我们需要可视化某公司2023年各部门的预算分配比例,以便于管理层快速了解资源分布情况。第一步:提出分析请求、提供数据。在DeepSeek中,输入提示词(Prompt):第二步:DeepSeek的分析输出(示例)DeepSeek会给出Python程序代码,用来绘制2023年各部门预测分配比例的环形图。在Python环境下,运行该程序,得到2023年各部门预测分配比例的环形图【案例15】利用DeepSeek(Python)绘制散点图案例案例背景假设我们需要分析某公司12个月中广告投入与销售额之间的关系,以评估广告效果并确定最优投入策略。第一步:提出分析请求、提供数据。在DeepSeek中,输入提示词(Prompt):第二步:DeepSeek的分析输出(示例)DeepSeek会给出Python程序代码,用来绘制广告投入与销售额之间关系的散点图。在Python环境下,运行该程序,得到广告投入与销售额关系散点图和按广告类型分组的广告投入与销售额关系散点图。此外,DeepSeek还给出了图表说明及数据分析,请你尝试自己利用DeepSeek进行分析,查看分析结果。【案例16】利用DeepSeek(Python)绘制直方图案例案例背景假设我们需要分析某班级60名学生的期末数学考试成绩分布,了解整体表现、分数段分布以及识别异常情况。第一步:提出分析请求、提供数据。在DeepSeek中,输入提示词(Prompt):第二步:DeepSeek的分析输出(示例)DeepSeek会给出Python程序代码,用来绘制学生期末数学考试成绩分布的直方图。在Python环境下,运行该程序,得到图表。此外,DeepSeek还给出了图表说明及数据分析,请你尝试自己利用DeepSeek进行分析,查看分析结果。【案例17】利用DeepSeek(Python)绘制箱线图案例案例背景假设我们需要分析四个不同班级(A班、B班、C班、D班)的期末数学考试成绩分布,比较它们的集中趋势、离散程度和异常值情况。第一步:提出分析请求、提供数据。在DeepSeek中,输入提示词(Prompt):第二步:DeepSeek的分析输出(示例)DeepSeek会给出Python程序代码,创建四个不同班级期末数学考试成绩分布的箱线图。在Python环境下,运行该程序,得到图表。此外,DeepSeek还给出了图表说明及数据分析,请你尝试自己利用DeepSeek进行分析,查看分析结果。
第13次课智能编程1本次授课内容第6章从编程助手到智能体构建6.1智能编程入门6.2基于Trae的AI编程体验:从0到1的奇妙跃迁6.2.1Trae国内版安装指南与界面功能介绍 6.2.2基于Trae的智能python编码实践:以冒泡排序为例 6.2.3基于Trae的智能网页设计 本次课的教学目的理解智能编程的核心概念、原理和价值,以及智能编程与传统编程的区别。熟悉国内主流智能编程工具的特点和功能,掌握Trae等工具的基本使用方法。激发学生对人工智能技术的兴趣和热情,培养学生的创新思维和实践能力本次课教学重点与难点理解智能编程的核心原理和技术实现,如机器学习模型对代码库的分析和理解。掌握Trae等智能编程工具的高级功能,如行内对话辅助开发、图像生成网页等。教学方法教学手段PPT讲解演示智能编程及运行结果课堂提问讨论案例实操等等课堂教学时间分配教学内容时间分配(分)内容讲解50提问、练习30讨论、习题等等10课堂教学设计PPT讲解代码演示:在Trae中演示智能代码生成、行内对话辅助开发等功能。软件实操:让学生亲自下载、安装Trae软件,并进行账号登录,在实际操作中熟悉软件界面和功能。问题引导:引导学生思考和讨论,加深对知识点的理解。实验基于希冀平台的零代码软件开发体验在希冀平台中,使用零代码软件开发系统,通过提示词表述软件需求,使用DeepSeek-R1671B满血版大模型生成Web应用。实验采用自然语言交互的方式,用户无需掌握传统编程语言,仅需通过精确的提示词(Prompt)来表述具体的软件功能需求、用户界面设计要求以及业务逻辑规则任务1:待办事项应用任务2:天气卡片任务3:小球碰撞模拟思考题及作业题习题1-5课程思政元素通过介绍阿里云·通义灵码、腾讯云·CodeBuddy等国产智能编程工具的核心技术优势(如通义灵码的毫秒级响应速度、Trae的“AI原生”底层架构),展现我国在人工智能领域的自主研发能力,增强学生对国产技术的认同感和自信心,引导学生关注本土科技生态的发展。结合Trae生成代码时“需人工代码审查以避免逻辑漏洞”的提示,强调技术应用的审慎态度:AI是辅助工具,开发者需对最终代码质量和业务逻辑负责。培养学生在技术创新中坚守伦理底线,避免过度依赖技术导致的责任缺失,树立“科技向善”的价值观。教学后记课堂重点内容详解第一节课6.1智能编程入门智能编程的定义与核心价值:阐释智能编程是通过AI技术辅助或自动化完成编程任务的技术手段,其核心在于利用AI算法理解开发者意图,实现代码自动生成、优化、补全和错误调试等功能。强调智能编程并非取代开发者,而是将编程重心从语法实现转向需求表达和架构设计,推动技术民主化,让编程从专业领域走向大众化。智能编程与传统编程的范式对比:从开发方式、技术门槛、开发效率、代码质量、调试维护、知识依赖和协作模式七个关键维度进行对比,突出智能编程自然语言驱动、低技术门槛、高开发效率等优势。国内主流智能编程工具概览阿里云·通义灵码:介绍其基于通义大模型,覆盖编码全生命周期的核心功能,如智能代码生成、研发辅助体系、场景化知识支持等,以及其技术优势和集成兼容性。腾讯云·AI代码助手(CodeBuddy):说明其基于混元大模型与DeepSeek双引擎,深度适配中国本土生态的特点,包括智能代码生成、研发提效体系、企业级扩展和集成兼容性等功能。百度·文心快码(ComateAIIDE):阐述其基于文心4.5Turbo与X1Turbo双模型引擎,具备多行智能改写、光标预测等复杂代码编辑能力,以及全流程智能体协同、代码优化与维护、深度交互能力和集成适配良好等特性。字节跳动·Trae国内版:讲解其作为中国首个从底层设计的AI原生集成开发环境,通过深度集成AI能力重构开发工具链,实现全流程智能化的核心功能,如动态协作开发、Builder模式、AI助手实时交互和免费生态兼容等。其他工具:简要提及华为云·CodeArtsSnap、京东云·言犀代码助手、360·智脑代码助手和商汤科技·SenseCode等工具的特色和优势。6.2基于Trae的AI编程体验:从0到1的奇妙跃迁6.2.1Trae国内版安装指南与界面功能介绍Trae国内版安装指南与界面功能介绍:详细说明Trae的系统要求、下载安装步骤、账号登录方式以及界面各区域的功能,如顶部菜单栏、左侧文件资源管理器、中央代码编辑器、右侧的AI交互面板和控制台输出区域。下载安装包:访问Trae国内版官方网站,如图6.1所示,单击页面上的“立即获取TraeIDE”按钮。网站将自动检测当前计算机的操作系统类型,并提供相应的安装包下载选项。运行安装程序账号登录界面概览6.2.2基于Trae的智能python编码实践:以冒泡排序为例基于Trae的智能python编码实践:以冒泡排序为例,展示如何使用Trae的侧边对话框智能生成代码,以及行内对话辅助开发功能,包括即时代码解答、代码优化与错误修正、错误诊断与修正等。1.使用侧边对话框智能生成代码在启动TraeIDE后,通常侧边对话框会默认呈现。若此功能未被激活,可以使用快捷键(macOS:Command+U;Windows:Ctrl+U)进行开启。在输入区域中,可利用自然语言阐述其需求,例如:“请用Python实现冒泡排序算法,要求对列表进行升序排列,并添加逐轮排序过程的打印输出。”,随后在对话框的右下角选择适当的大模型,并单击“发送”图标,具体操作如图6.3所示:图6.3Trae侧边对话框AI交互界面Trae的AI助手在思考后会生成完整的代码并提供相应的代码解释。在代码框的右上角,单击“添加到新文件”图标,即可将代码以文件形式展示于Trae的中央代码编辑器。在中央代码编辑器中,可以直接对Python代码进行修改。修改完成后,单击右上角的运行按钮即可执行代码。首次执行代码时,需要配置本地已安装的Python解释器路径(系统将会提示配置步骤),一旦配置完成,代码便可以正常运行。2.行内对话辅助开发TraeIDE的行内对话功能(InlineChat)构成了现代智能编程工具核心创新的关键部分,其在编程过程中发挥着至关重要的作用,例如:即时代码解答功能:在编程实践中,若对某段代码产生疑问,例如对代码的功能或实现方式不理解,可以将该代码段落选中。随后,系统将提供即时的代码解答服务。以图6.6为例,当选中变量“swapped”时,界面上会出现一个对话框。通过单击“编辑”按钮或使用快捷键(在macOS系统中为Command+I,在Windows系统中为Ctrl+I),即可激活行内对话功能。此时,开发者可以针对选中的代码提出问题,例如询问“这个变量的作用是什么?”Trae将直接在代码旁边提供解答和建议,从而允许开发者在不中断编码流程的情况下迅速解决问题,确保编码工作的高效进行。图6.6行内对话即时代码疑问解答代码优化与错误修正:在面对时间复杂度较高的循环代码或其他需要改进的代码结构时,可以选中相关代码段,并与Trae进行对话,提出优化问题,例如询问“如何优化这段代码?”或“如何将这个for循环转换为列表推导?”Trae将能够提供采用更高效的数据结构或算法的建议,以提升程序的运行效率。错误诊断与修正:在代码中出现错误而难以确定问题所在时,可以利用行内对话功能选取错误代码段,向Trae描述相关情况。Trae将自动分析相关上下文,识别问题的根源,并提供改进建议,甚至可能直接生成修正后的代码,从而提高代码质量。第二节课6.2.3基于Trae的智能网页设计基于Trae的智能网页设计:介绍利用Trae的侧边对话框智能构建个人网站、优化现有网页以及从图像到网页的自动化布局设计技术,包括创建项目文件夹、输入需求生成代码、优化网页内容和布局、上传图像生成网页等步骤。利用侧边对话框智能构建个人网站在着手开发网页之前,首先应创建一个文件夹以存放项目相关文件,例如可命名为“C:\个人网站”。随后启动TraeIDE,单击“打开文件夹”选项,如图6.7所示。接着选择之前创建的文件夹“C:\个人网站”,此时TraeIDE将在其界面左侧展示资源管理器窗口,如图6.7所示。图6.7TraeIDE文件操作入口图6.7TraeIDE资源管理器在右侧的对话框中输入网页需求,比如“生成一个个人网页,网页内容包括自我介绍,学历,兴趣爱好,个人专长等”,如图6.9所示,随后单击“发送”按钮。图6.9TraeIDE网页设计需求输入界面Trae经过思考后,生成index.html文件。单击网页编辑器右上角的“应用”按钮,系统将自动在中央代码编辑器区域生成网页代码,具体情形如图所示。中央代码编辑器生成代码界面在单击“接受”按钮之后,系统将会在“C:\个人网站”目录下自动创建一个index.html文件,用户可随时访问该文件以预览网页效果。必须指出的是,由于基于人工智能技术的生成特性,每次产生的页面内容可能会有所差异。例如,页面元素的布局、色彩搭配以及某些动态效果等方面,均可能出现不同的展现形式,这也为网页设计引入了一定程度的灵活性与多样性。网页优化与编辑:借助TraeAI提升现有项目针对已经创建完成的网页“index.html”,可以借助Trae工具进行优化。启动TraeIDE,单击界面上的“文件”选项,在弹出的下拉菜单中选择“打开文件夹”选项,定位至网页所在的文件夹,例如,“C:\个人网站”文件夹。选定目标文件夹后,单击“确定”按钮,Trae将载入选定文件夹内的所有文件。可以在左侧的“资源管理器”中查看并编辑网页的HTML、CSS、JavaScript等文件。若需更新学历背景信息,可在右侧对话框中输入相应的新资料,具体操作可参照图6.13:图6.13输入学历更新信息的操作界面Trae经过思考后,会提出优化建议,如图6.14所示:图6.14Trae优化建议的界面单击右上角的“应用”按钮,Trae自动将优化建议整合至index.html文件,并在编辑器中以高亮色块的形式突出显示修改的部分,如图6.15所示。这种视觉化的标注方法使得代码的变更变得清晰可见,有助于开发者迅速验证优化成果。图6.15Trae整合优化建议界面单击“接受”按钮后,系统将对index.html文件实施代码修改,随后打开该文件即可观察到更新后的网页效果。除了对网页内容进行调整,亦可对网页的布局及互动性进行优化。例如,在右侧的对话框中输入指令:“将整个网页的布局调整为四行,每行分别设置为3、2、3、3列”,“添加一个个人照片轮播区域”等。从图像到网页:Trae的自动化布局设计技术Trae能够依据上传的网页布局图像进行网页设计。通过采用CNN(卷积神经网络)架构,Trae对上传图像的视觉层次结构进行分析,自动识别出常见的用户界面组件,例如导航栏、卡片容器、表单字段等,其准确率高达92%。此外,Trae还支持响应式布局的识别,能够区分栅格系统、弹性布局等现代设计模式。若存在网页布局图像(可以是现有的网页图或绘制的草图,若标注间距则有助于制作出更为精确的页面),无论是创建新的网页,还是对现有的“index.html”网页进行重新布局,均可在右侧对话框中单击“图片”选项上传该布局图,随后用文字描述修改信息,如图6.17所示。图6.17基于图像内容自动生成网页布局的交互操作示意图Trae
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东汕尾市水务集团有限公司招聘5人参考考试题库附答案解析
- 2026山东济宁金乡县事业单位招聘初级综合类岗位人员参考考试试题附答案解析
- 2026广达铁路工程集团有限公司招聘2人(江苏)参考考试题库附答案解析
- 生产技术分析制度
- 生产单位门卫管理制度
- 生产安全保卫管理制度
- 乡村安全生产制度范本
- 严格落实生产管理制度
- 食品生产包材库管理制度
- 家具生产管理制度范本
- 2025年浙江省委党校在职研究生招生考试(社会主义市场经济)历年参考题库含答案详解(5卷)
- DB3704∕T0052-2024 公园城市建设评价规范
- JJG 264-2025 谷物容重器检定规程
- 采购领域廉洁培训课件
- 公司股东入股合作协议书
- 2025年中国化妆品注塑件市场调查研究报告
- 小儿药浴治疗
- 保险实务课程设计
- 物业管理公司管理目标标准
- 2023年重庆巴南区重点中学指标到校数学试卷真题(答案详解)
- JBT 12530.3-2015 塑料焊缝无损检测方法 第3部分:射线检测
评论
0/150
提交评论