人工智能通识教程高水娟习题答案_第1页
人工智能通识教程高水娟习题答案_第2页
人工智能通识教程高水娟习题答案_第3页
人工智能通识教程高水娟习题答案_第4页
人工智能通识教程高水娟习题答案_第5页
已阅读5页,还剩85页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能通识教程高水娟习题答案第1章课内活动和学习成果检验站答案1.1人工智能的历史演进与发展脉络表1-2人工智能发展的三次浪潮时间技术核心标志性成果行业影响技术局限第一次浪潮(1956-1974):符号主义启蒙与理论奠基以“符号主义”为核心,依托逻辑推理与规则定义实现机器“模拟智能”,聚焦用形式化语言表达知识、通过预设规则完成推理,依赖人工输入的明确知识体系1956年达特茅斯会议正式提出“人工智能”概念;1957年纽厄尔与西蒙开发“逻辑理论家”(首个能证明数学定理的AI程序);1965年费根鲍姆研发“DENDRAL”(首个专家系统,用于化学分子结构分析)。开启AI研究先河,推动“机器可模拟人类推理”的认知普及,为后续专家系统发展奠定理论基础;因知识获取依赖人工、无法处理模糊信息与算力不足,1974年后陷入第一次“AI寒冬”。第二次浪潮(1980-1987):知识工程崛起与应用探索以“知识工程”为核心,通过构建专家系统将领域知识转化为机器可识别的规则,侧重在特定领域解决专业问题,强调“知识驱动”而非通用智能。1981年“MYCIN”医疗专家系统(可辅助诊断细菌感染并推荐抗生素);1982年“XCON”(用于DEC公司计算机配置的专家系统,降低人工配置成本);日本“第五代计算机计划”启动,推动AI硬件与知识工程协同发展。首次实现AI在医疗、工业等领域的落地应用,验证了AI的行业价值;因“知识获取瓶颈”(复杂领域知识难以全面规则化)、系统维护成本高,1987年后因投资收缩进入第二次“AI寒冬”。第三次浪潮(2010至今):深度学习驱动与通用智能突破以“深度学习”为核心,依托大数据、算力提升与算法创新(如卷积神经网络、Transformer架构),实现“数据驱动”的自适应学习,具备从海量数据中自主提取特征、泛化到多场景的能力。2012年AlexNet(基于卷积神经网络,ImageNet图像识别准确率大幅突破);2016年AlphaGo(DeepMind研发,首个人工智能击败人类围棋世界冠军);2017年Transformer架构提出(为大语言模型奠定基础);2020年后GPT系列、文心一言等大语言模型爆发,实现自然语言理解与生成的通用化;具身智能快速发展(如四足机器人、灵巧手),推动AI从“虚拟交互”走向“物理世界落地”。2022年:OpenAI推出ChatGPT,基于GPT-3.5和GPT-4,AI进入大规模应用时代。2024年:DeepSeekDeepSeek在人工智能领域持续发力,凭借一系列技术创新、产品迭代和应用拓展,成为行业内备受瞩目的企业,推动着AI技术的发展与应用。AI全面渗透医疗(疾病诊断、药物研发)、制造(智能质检、产线优化)、服务(智能客服、机器人)、交通(自动驾驶感知)等领域,实现从“专用智能”向“通用智能”的跨越。当前仍面临数据偏见、伦理安全、逻辑推理薄弱等挑战,但技术迭代与产业融合速度持续加快。图1-7麻省理工学院制造的六足机器人Genghis(成吉思汗),行为主义的作品。AlphaGo(基于深度神经网络击败围棋冠军)、ChatGPT(基于Transformer架构实现自然语言交互)是连接主义的巅峰成果。逻辑理论家(首个能证明数学定理的AI程序)、MYCIN医疗专家系统(通过规则库诊断细菌感染)是符号主义的成果。学习成果检验站基础巩固区人工智能这一概念首次提出是在(A)​A.1956年达特茅斯会议​B.1960年纽约学术研讨会​C.1970年伦敦科技论坛​D.1980年东京计算机大会​以下哪一项不是人工智能发展过程中的浪潮(D)​A.深度学习驱动与通用智能突破​B.符号主义启蒙与理论奠基​C.知识工程崛起与应用探索​D.形式演绎的结构化方法​阿兰・图灵提出的(B)为人工智能的定义和研究提供了重要方向​A.图灵机​B.图灵测试​C.图灵算法​D.图灵模型​谷歌的DeepMind开发的AlphaGo在哪个领域取得了重大突破(B)​A.国际象棋​B.围棋​C.跳棋​D.中国象棋​人工智能与以下哪个学科的交叉融合,不是为了提升其能力(C)​A.计算机科学​B.数学​C.文学​D.心理学​创新实践区请查阅科技史料,梳理人工智能概念起源的关键节点,通过思维导图等工具以时间轴形式可视化呈现。人工智能发展的关键节点时间轴如下:请详细描述人工智能发展的三次浪潮及其特点,分析每次浪潮对行业发展的影响。​见表1-2人工智能发展的三次浪潮.除了文中提到的例子,再列举至少三个生活中人工智能的应用实例,并分别说明这些应用是如何利用人工智能技术,以及给人们生活带来了哪些改变和影响。自动驾驶、疾病诊断辅助、智能家居系统、政务系统等智能家居系统:智能家电互联借助物联网技术,家电设备接入网络,通过传感器收集自身状态和环境信息,并上传至云端,AI算法在云端对这些数据进行分析处理,然后向家电发送控制指令,如智能空调可以根据室内外温度、湿度以及人体舒适度模型自动调节运行模式。智能交通管理系统则通过安装在道路上的各种监测设备收集交通流量、车速等数据,利用大数据分析和机器学习算法,对交通数据进行实时分析和预测,动态调整交通信号灯时长,优化交通流。自动驾驶汽车有望极大减少交通事故,提高出行的安全性和效率。医疗健康领域:智能可穿戴设备如Fitbit和AppleWatch等,通过传感器实时跟踪用户的心率、血压和血糖水平等生命体征,将数据传输到手机应用或云端平台,利用机器学习算法对这些数据进行分析,建立个人健康模型,一旦发现数据异常,及时向用户发送预警信息。1.2人工智能的定义、分类体系及典型应用场景解析算力算一算:某AI公司计划搭建深度学习训练集群,核心需求是支持参数量50亿的图像生成模型训练,需达到500TFLOPS的持续混合精度(FP16/FP8)算力。可选硬件配置及单卡关键参数如下表所示,若每台服务器最多可搭载8张显卡,且服务器基础成本(不含显卡)为每台1.5万元。请按照公式计算下面表格的方案,并给出结论。以下方案中,既满足算力需求又总成本最低的是(C)单服务器算力=单卡算力×单服务器显卡数量总集群算力=服务器数量×单服务器算力(需≥500TFLOPS)总集群成本=(服务器数量×服务器基础成本)+(总显卡数量×单卡成本)显卡型号单卡混合精度算力(TFLOPS)单卡成本(万元)RTX40901321.2A10240.8H1003358.5V1001253..0A)2台服务器,每台搭载4张H100B)5台服务器,每台搭载8张A10C)3台服务器,每台搭载6张RTX4090D)4台服务器,每台搭载8张V100解析:第一步:明确核心计算逻辑单服务器算力=单卡算力×单服务器显卡数量总集群算力=服务器数量×单服务器算力(需≥500TFLOPS)总集群成本=(服务器数量×服务器基础成本)+(总显卡数量×单卡成本)第二步:逐一验证各方案方案A:2台服务器,每台4张H100总算力:2台×4张×335TFLOPS=2680TFLOPS(满足500TFLOPS需求)总显卡数量:2×4=8张总成本:(2×1.5)+(8×8.5)=3+68=71万元方案B:5台服务器,每台8张A10总算力:5台×8张×24TFLOPS=960TFLOPS(满足500TFLOPS需求)总显卡数量:5×8=40张总成本:(5×1.5)+(40×0.8)=7.5+32=39.5万元方案C:3台服务器,每台6张RTX4090总算力:3台×6张×132TFLOPS=2376TFLOPS(满足500TFLOPS需求)总显卡数量:3×6=18张总成本:(3×1.5)+(18×1.2)=4.5+21.6=26.1万元方案D:4台服务器,每台8张V100总算力:4台×8张×125TFLOPS=4000TFLOPS(满足500TFLOPS需求)总显卡数量:4×8=32张总成本:(4×1.5)+(32×3.0)=6+96=102万元第三步:对比达标方案成本4个方案均满足算力需求,总成本排序为:方案C(26.1万元)<方案B(39.5万元)<方案A(71万元)<方案D(102万元),因此最优方案为C。弱人工智能弱人工智能只擅长做某一件特定的事情,而且能做得非常出色。比如说我们手机里的语音助手,像苹果的Siri、小米的小爱同学,通过语音识别技术,将你的语音转化为文字,然后利用自然语言处理技术理解你的语义,最后调用相关的应用程序完成任务。​案例:我们在网上购物时,很多电商平台都提供了“拍照搜同款”的功能。它的工作原理可能是什么样的?图1-9“拍照搜同款”功能案例解析:“拍照搜同款”的人工智能工作原理主要包括利用深度学习中的卷积神经网络技术对用户上传的图片图像特征提取、将提取到的图片特征与商品数据库中已有的商品特征进行匹配,最后结果返回等步骤。表1-4人工智能按应用场景分类应用领域核心目标典型AI应用案例医疗健康辅助诊断、优化治疗、健康管理,提升医疗效率和准确率。-疾病诊断:AI影像识别(如肺癌CT筛查、糖尿病视网膜病变检测);

-药物研发:AI模拟分子结构,加速新药筛选(如DeepMind的AlphaFold预测蛋白质结构);

-健康管理:智能穿戴设备(如AppleWatch)监测心率、预警异常。交通出行提升出行安全、缓解拥堵、优化交通效率,推动“智能交通”转型。-自动驾驶:L4级自动驾驶汽车(如Waymo无人出租车);

-交通管理:AI动态调整红绿灯(如深圳的“智慧交通”系统,根据车流优化时长);

-出行服务:AI调度网约车(如滴滴算法,减少司机空驶率)。金融财经风险控制、智能投顾、自动化交易,提升金融服务效率和安全性。-风控:AI识别信用卡欺诈(如支付宝风控系统,实时判断交易是否异常);

-投顾:智能理财机器人(如蚂蚁财富“帮你投”,根据风险偏好推荐基金);

-客服:AI金融客服(如银行智能客服,解答还款、开户等问题)。教育学习个性化教学、自动化批改、知识答疑,实现“因材施教”。-个性化学习:AI学习平台(如松鼠AI,根据学生错题推送针对性习题);

-智能批改:AI批改作文、数学题(如作业帮“拍照批改”);

-语言学习:AI口语助手(如多邻国,模拟对话场景纠正发音)。智能家居实现家电互联、环境自适应、生活自动化,提升居住舒适度和便捷性。-语音控制:智能音箱(如小爱同学、天猫精灵)控制灯光、空调;

-环境自适应:智能空调根据人体体温、室外温湿度自动调节模式;

-安全监控:AI摄像头(如小米摄像头)识别“陌生人闯入”并报警。工业制造自动化生产、质量检测、设备维护,推动“工业4.0”和智能制造。-智能质检:AI视觉检测(如汽车零部件表面缺陷识别,比人工更精准);

-预测维护:AI分析设备运行数据(如振动、温度),提前预警故障(如三一重工的“灯塔工厂”);

-机器人协作:工业协作机器人(如ABBYuMi)与人类共同完成组装任务。一、基础巩固区以下关于人工智能定义的描述,正确的是(B)​A.人工智能就是让机器长得像人​B.人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学​C.人工智能只能模仿人类的行为,不能进行思考​D.人工智能就是机器人​下列关于神经网络处理器(NPU)的说法,正确的是(B)A.NPU的架构设计与CPU完全一致,仅通过软件优化适配深度学习B.NPU通过专用硬件单元(如乘加单元、激活函数单元)提升神经网络任务效率C.NPU不支持并行计算,需依赖CPU协助才能处理大规模数据D.NPU的主要应用场景是传统图形渲染,深度学习仅为辅助功能以下属于弱人工智能的是(C)​A.能够和人类一样进行情感交流的机器​B.可以在所有领域超越人类智能的机器​C.手机上的语音助手​D.具备自我意识的智能机器人​人工智能在医疗领域的应用不包括(C)​A.帮助医生诊断疾病​B.预测疾病发展趋势​C.代替医生进行手术​D.辅助药物研发​人工智能在教育领域的作用是(B)​A.完全替代老师的教学工作​B.为学生推送个性化学习内容​C.只负责管理学生的考勤​D.只能制作教学视频​通用人工智能的特点是(C)​A.只能在特定领域发挥作用​B.具备和人类一样的智能水平​C.能够在所有领域达到人类智能水平甚至超越人类​D.目前已经广泛应用在生活中​7.下列设备中,属于人工智能技术在家庭生活中典型应用的是(B)A.可通过手机APP控制开关的智能台灯B.能根据用户口音优化识别、并主动提醒日程的智能闹钟C.支持定时开关机的智能电视D.可自动感应人体、实现人来灯亮的人体感应灯二、创新实践区借助AI工具,详细解释人工智能的定义,并举例说明“模拟”“延伸”“扩展”在实际应用中的体现。​人工智能是一门研究和开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的学科。它致力于使计算机系统具备像人类一样的感知、学习、推理、决策等能力,通过算法和数据处理各种复杂信息。“模拟”在实际应用中的体现为,人工智能通过算法和模型来模仿人类的思维和行为方式。例如,图像识别技术模拟人类视觉系统对图像进行感知和理解,能够识别出图片中的物体、场景等。像人脸识别系统,通过深度学习算法模拟人类大脑对面部特征的识别过程,准确地分辨出不同人的身份。语音识别系统则模拟人类听觉系统,将人类语音转化为文字,如智能语音助手可以听懂用户的指令并进行相应的操作。“延伸”在实际应用中的体现为,人工智能能够突破人类自身生理和心理的限制,完成一些人类难以完成或需要耗费大量时间和精力的任务。例如,在医疗领域,人工智能可以对大量的医学影像进行快速分析,帮助医生更准确地诊断疾病,如肺癌CT筛查、糖尿病视网膜病变检测等,这延伸了人类医生的诊断能力。在金融领域,人工智能可以对海量的金融交易数据进行实时监测和分析,识别出欺诈交易行为,其速度和准确性远超人类手动检测,延伸了人类在金融风险防控方面的能力。“扩展”在实际应用中的体现为,人工智能不仅能够模仿和延伸人类现有的智能,还能够创造出一些人类原本没有的能力和应用场景。例如,生成式人工智能可以根据给定的提示生成全新的文本、图像、音乐等内容,如AI绘画工具可以创作出具有独特风格的艺术作品,这是人类自身能力的一种扩展。在自动驾驶领域,人工智能系统可以综合考虑各种复杂的路况信息和交通规则,做出最优的驾驶决策,实现自动驾驶,这是人类驾驶能力的扩展,为交通运输带来了全新的模式和可能性。某智能安防公司研发园区监控计算平台,该平台需同时处理多路摄像头视频流与实时人形识别任务,其硬件架构包含专用计算单元。请完成以下填空​(1)多路摄像头视频解码​ 摄像头数量:8路​ 单路摄像头参数:每秒输出25帧图像,每帧图像含1920×1080个像素​ 单像素解码计算量:每个像素需执行8次定点运算​ 单路摄像头每秒解码计算量:__________次/秒​ 8路摄像头总解码计算量:__________次/秒​(2)实时人形识别负载​ 单帧人形识别要求:每帧图像需执行3000次特征提取运算​ 识别频率:与摄像头帧率同步(每秒25帧)​ 单路摄像头人形识别计算量:__________次/秒​ 8路摄像头总识别计算量:__________次/秒​(3)NPU架构优势​在这个安防监控计算平台中,NPU凭借其专为__________(填写:神经网络/通用逻辑)设计的硬件加速单元,能够高效处理人形识别中的特征提取与匹配任务,相比通用CPU大幅降低计算延迟。答案:(1)单路摄像头每秒解码计算量:414720000次/秒;8路摄像头总解码计算量:3317760000次/秒(2)单路摄像头人形识别计算量:75000次/秒;8路摄像头总识别计算量:600000次/秒(3)NPU架构优势:神经网络一、(1)多路摄像头视频解码计算过程第一步:计算单路摄像头每秒输出的总像素数单路摄像头每秒25帧,每帧1920×1080个像素,因此每秒总像素数=帧率×单帧像素数=25×(1920×1080)=25×2073600=51840000(像素/秒)。第二步:计算单路摄像头每秒解码计算量每个像素需8次定点运算,因此单路每秒计算量=每秒总像素数×单像素运算次数=51840000×8=414720000(次/秒)。第三步:计算8路摄像头总解码计算量总计算量=单路每秒计算量×摄像头数量=414720000×8=3317760000(次/秒)。二、(2)实时人形识别负载计算过程第一步:计算单路摄像头人形识别每秒计算量人形识别与帧率同步(每秒25帧),每帧需3000次特征提取运算,因此单路每秒计算量=帧率×单帧运算次数=25×3000=75000(次/秒)。第二步:计算8路摄像头总识别计算量总计算量=单路每秒计算量×摄像头数量=75000×8=600000(次/秒)。三、(3)NPU架构优势原理说明人形识别任务的核心是通过神经网络模型(如CNN卷积神经网络)完成特征提取与匹配——需大量重复的乘加运算、激活函数运算,而NPU(神经网络处理器)的硬件架构专为这类神经网络任务设计,集成了专用MAC(乘加单元)、激活函数加速模块,可直接硬件级执行神经网络运算;相比之下,CPU侧重通用逻辑处理,无专用加速单元,处理人形识别任务时延迟高、效率低。因此此处需填写“神经网络”。补充题:答案:(1)单帧计算量:2500000次/帧;每秒总计算量:5×10⁹次/秒(2)单摄像头计算量:20000次/秒;4个摄像头总计算量:80000次/秒(3)GPU架构优势:并行(1)激光雷达数据融合计算单帧计算量:单帧点云包含500000个点,每个点需5次浮点运算,因此单帧计算量=点数量×单点运算次数=500000×5=2500000(次/帧)。每秒总计算量:每秒处理2000帧,因此每秒总计算量=单帧计算量×每秒帧数=2500000×2000=5000000000=5×10⁹(次/秒),对应5GFLOPS(若为浮点运算,单位可表述为GFLOPS)。(2)摄像头图像处理负载计算单摄像头计算量:单摄像头每秒拍摄20张图像,每张需1000次矩阵运算,因此单摄像头每秒计算量=每秒帧数×单帧运算次数=20×1000=20000(次/秒)。4个摄像头总计算量:总计算量=单摄像头计算量×摄像头数量=20000×4=80000(次/秒)。3、按照自己的专业,分析人工智能在本行业领域落地的场景,并预测未来发展。​​人工智能在软件技术领域的落地场景包括:研发环节:代码生成与优化:AI驱动的工具如IBMwatsonxCodeAssistant、GitHubAutopilot等可以根据自然语言描述生成代码,或者预测并推荐下一行代码,帮助开发人员更快地编写代码,减少错误。同时,AI还能对现有代码进行分析,提出重构和优化建议,以提高代码的效率和可维护性。错误检测和修复:生成式AI驱动的工具可自动检测代码中的错误、漏洞或低效率问题,分析代码库中存在的模式并提供解决方案,甚至可以通过使用实时数据来优化原型,自动纠正代码问题。测试自动化:AI工具能根据用户故事生成测试用例,并优化测试过程,缩短手动测试时间,提高测试覆盖范围。例如商汤科技的智能测试平台通过机器学习模型预测软件潜在漏洞,将测试覆盖率提升至95%以上。产品设计环节:用户反馈分析聚类:利用AI将用户社区、反馈表单和客服记录中的大量自然语言反馈自动分类聚类,识别核心问题与产品机会,帮助产品经理更好地了解用户需求和产品存在的问题。设计基本构想发展:输入产品构想文本,AI可以自动生成低保真原型图,供设计团队快速迭代,加快产品设计的进程。设计方案可用性优化助手:AI能够优化产品界面中的微文案,如按钮、提示、表单说明等,提升可用性与一致性,还可以对高保真原型设计文件提出交互范式改进建议。运营环节:用户留存风险预测:基于用户行为、活跃度与反馈数据,AI可以预测用户的流失风险,并触发相应的干预措施,帮助企业提高用户留存率。自动化数据日报生成:AI可以整合多个数据源,自动生成结构化日报、周报,包括图表、重点变化解读等,节省运营人员的时间和精力。技术支持环节:自助问答机器人:结合产品文档和历史案例训练的AI机器人,可以支持客户完成大部分常见问题的解答,提高技术支持的效率和质量。支持工单智能分类与分派:AI能自动将用户提交的支持请求按紧急程度与模块分类,分配至合适的处理人,并结合情绪分析决定升级路径,优化工单处理流程。人工智能在软件技术领域的未来发展预测开发范式深度变革:AI将继续驱动软件开发范式的变革,智能代码生成、测试和调试等功能会更加成熟和普及,进一步提升研发效率。同时,大模型技术的成本会持续降低,使得更多中小企业和开发者能够利用大模型开发和部署AI应用,推动软件行业的整体创新。全产业链智能化升级:随着基础大模型、行业大模型、智能体、具身智能等技术的不断革新,人工智能将促进软件业全产业链的迭代升级。从需求分析、设计、开发到测试、运维等各个环节,都将实现更高度的智能化,提高软件产品的质量和性能。安全与隐私保护强化:随着软件与AI的深度融合,安全问题将更加突出。未来会有更多针对AI时代新型安全挑战的解决方案出现,如“以模制模”的思路,用大模型来对付大模型,解决大模型遭受攻击、隐私泄露、内容出错等风险。开源生态更加繁荣:开源体系建设将不断完善,人工智能、人形机器人、自动驾驶等领域的开源社区会加快建设。更多的开源软件成果将涌现,促进软件技术的共享和创新,降低开发门槛,加速技术的普及和应用。与其他技术深度融合:人工智能将与云计算、大数据、物联网等技术进一步深度融合,形成更强大的技术合力。例如,AI与云计算的结合将提供更强大的计算能力和更便捷的AI服务部署方式,AI与物联网的结合将使智能设备更加智能和自主。1.3人工智能领域关键技术和经典算法案例:根据机器学习的流程,填写“小麦病虫害识别系统”的阶段任务应用领域阶段任务数据准备模型选型训练优化模型评估根据评估结果,可能还需反向优化流程:若准确率低,可能是数据准备阶段遗漏了某些病害样本,或模型选择不合适,需返回前序步骤补充数据、更换模型,再重新训练评估。只有当模型在测试集上的评估指标(如准确率、召回率)达到实际应用标准,才能真正投入使用——比如让通过评估的“作物医生”机器人去农场实际巡检,完成从“理论学习”到“实践应用”的闭环。第一步:数据准备——为机器“积累经验”的基础​这是机器学习的“原料准备阶段”,就像给初学诊断的机器人收集“病害案例库”。首先要收集足量且高质量的数据:比如在小麦病害识别任务中,需采集不同品种、不同生长阶段的小麦叶片图像,既要有健康叶片的“正常样本”,也要有锈病、白粉病等不同病害的“异常样本”,甚至要包含不同光照、角度下拍摄的图像,避免数据“片面”导致机器学习偏差。​收集完数据后,还要进行“数据清洗”:剔除模糊不清、标注错误的图像(如把健康叶片误标为病害的无效数据),并对数据进行“预处理”——比如将不同尺寸的叶片图像统一调整为相同像素,把图像颜色从RGB格式转为更易分析的灰度格式,同时将数据分为“训练集”(给机器学习的主要案例,占比70%-80%)和“测试集”(后续检验机器学习效果的“考题”,占比20%-30%)。这一步就像给机器人筛选出“优质教材”,为后续学习打下扎实基础。​第二步:模型选型——为机器“匹配学习工具”​这一步是根据任务目标,为机器挑选最适合的“学习方法”,如同给机器人选择“诊断手册类型”。若任务是“根据标注好的病害图像识别病害类型”(已知答案学规律),就适合选择监督学习模型(如决策树、卷积神经网络),因为这类模型擅长从标注数据中学习“特征-结果”的对应关系;若任务是“从无标注的用户购物记录中划分消费群体”(未知答案找规律),则更适合无监督学习模型(如K-means聚类算法);若任务是“让自动驾驶汽车在路况中优化驾驶策略”(通过试错学经验),强化学习模型(如Q-learning)便是更优选择。​以小麦病害识别为例,由于需要从图像中提取病斑纹理、颜色等复杂特征,选择卷积神经网络(CNN)模型最为合适——它能像人类眼睛一样,逐层捕捉图像的细节特征,比简单的决策树模型识别精度更高。模型选择的核心是“适配任务”,选对模型能让机器的学习效率和效果事半功倍。​第三步:训练优化——让机器“自主摸索规律”​这是机器学习的“核心学习阶段”,相当于让机器人拿着“教材”反复练习、总结诊断经验。在这个阶段,将准备好的“训练集”数据输入选定的模型(如卷积神经网络),模型会按照自身算法逻辑,开始自主分析数据:比如在病害识别中,模型会先学习“锈病病斑的颜色阈值”“白粉病的霉层纹理特征”,然后通过内部的“损失函数”计算预测结果(如将某叶片预测为锈病)与实际标注(如该叶片实际是白粉病)的误差。​接着,模型会通过“优化器”(如梯度下降算法)不断调整内部参数,减少误差——就像机器人发现“把白色霉层误判为锈病”后,会修正对“病斑颜色特征”的判断标准。这个“计算误差-调整参数”的过程会反复进行,直到模型在训练集上的预测准确率达到预期(如90%以上),此时模型已基本掌握数据中的隐藏规律,相当于机器人初步学会了“病害诊断方法”。​第四步:模型评估——检验机器“学习成果”​这是判断机器学习效果的“考核阶段”,如同给学会诊断的机器人安排“模拟考试”。将之前预留的“测试集”数据(模型从未见过的新数据)输入训练好的模型,观察模型的预测表现:比如用100张未参与训练的小麦叶片图像测试,若模型能准确识别出92张的病害类型,说明模型的“泛化能力”良好(能应对新场景);若仅识别对75张,且多次将白粉病误判为锈病,说明模型可能存在“过拟合”问题(只学好了训练集的案例,不会灵活应对新数据)。​填一填:填入ASR和TTS的核心功能、工作逻辑和其他应用场景,各列举三个。ASRTTS核心功能是将人类说话的声波信号,自动、准确地转化为计算机可理解的文本符号。核心工作逻辑包括语音信号预处理、特征提取、模型匹配与文本输出。核心功能是将文本符号(如文字、字母)自动转化为自然、流畅的人类语音信号。核心工作逻辑包括文本预处理、文本分析(语言学处理,包括字音转换(注音/标音)和韵律分析)语音合成和语音后处理。场景1:微信“语音转文字”场景1:导航软件语音(如“前方左转”)、电子书有声朗读(如听小说)场景2:智能音箱(如小爱同学、Siri)靠ASR识别用户的语音指令场景2:车载语音助手(如“播放下一首歌”)场景3:会议录音转文字、客服通话内容实时记录、残障人士辅助沟通场景3:儿童学习机读拼音学习成果检验站​一、基础巩固区​在监督学习中,模型训练的关键前提是(B)。​A.无标注数据​B.带标签的训练数据​C.仅依赖强化信号​D.无需迭代优化​以下技术中,不属于深度学习在自然语言处理领域典型应用的是(B)。​A.语音转文字(ASR)​B.图像风格迁移​C.机器翻译​D.智能问答系统​关于神经网络与深度学习的关系,下列说法正确的是(C)。​A.深度学习是神经网络的基础​B.神经网络是深度学习的进阶形态​C.深度学习是多层神经网络的拓展与优化​D.两者无直接关联​计算机视觉技术中,用于“识别图像中特定物体位置并标注边界框”的技术是(B)。​A.图像分类​B.目标检测​C.语义分割​D.图像生成​下列场景中,主要依赖强化学习技术实现的是(B)。​A.根据历史消费数据推荐商品​B.自动驾驶汽车在路况中优化行驶策略​C.识别手写数字​D.将中文文本翻译成英文小明想利用算法对顾客购买水果的偏好进行分类,若顾客数据包含“水果颜色”“价格区间”“产地”等特征,决策树算法最有可能优先选择以下哪个特征开始划分数据?​(C)A.水果颜色,因为肉眼最容易区分​B.价格区间,因为能直接反映成本​C.信息增益最大的特征​D.随机选择一个特征​神经网络在训练图像识别模型时,输入层接收的数据形态通常是?​(B)A.图像的文字描述​B.图像的像素矩阵​C.图像的拍摄日期​D.图像文件的大小数值​遗传算法在优化快递配送路线时,以下哪种操作最像快递员交换配送区域?​(B)A.选择操作,淘汰效率低的路线​B.交叉操作,合并两条路线优势部分​C.变异操作,随机调整某条路线​D.初始化操作,随机生成初始路线​支持向量机在区分垃圾邮件与正常邮件时,关键是找到?​(B)A.邮件字数最多的分界线​B.能最大化两类邮件间隔的超平面​C.发送时间最早的邮件特征​D.包含附件最多的邮件规律​以下关于算法特点的描述,正确的是?​(c)A.决策树永远不会出错,因为它层层判断​B.神经网络训练不需要数据,靠“灵感”学习​C.遗传算法每次运行结果都可能不同​D.支持向量机只能处理二维数据分类​二、创新实践区1.某科技公司计划开发一款“智能古籍修复辅助系统”,需结合人工智能技术解决古籍数字化中的关键问题。请查阅资料并回答:​(1)该系统若需实现“古籍异体字自动识别”,应主要依赖哪两类AI技术?需依赖“计算机视觉技术”与“深度学习技术”(各3分)。①计算机视觉技术:用于对古籍图像进行预处理(如去除污渍、增强文字清晰度),并提取异体字的视觉特征(如字形结构、笔画细节);②深度学习技术:通过深层神经网络(如CNN卷积神经网络),对标注的异体字样本进行训练,建立“图像特征→异体字类别”的映射模型,实现自动识别。在模型训练阶段,团队需收集大量古籍样本,除了异体字样本,还需关注哪些数据特征以提升识别准确率?①古籍年代与版本特征②文字磨损与残缺特征③古籍纸张与背景特征④上下文语义特征从“文化传承”角度,分析该系统的开发对社会的价值。①降低古籍数字化门槛②助力古籍研究普及③推动文化创新传播2.某AI公司计划开发一款“家庭宠物智能监护系统”,核心功能是通过摄像头实时识别画面中的猫与狗,辅助用户远程查看宠物状态。该系统实现“猫狗识别”需依赖计算机视觉的哪些核心技术?请简要说明各技术的作用。图像预处理技术:优化摄像头画面,解决光照、噪声问题,提供清晰识别原料;目标检测技术:定位画面中猫狗位置,避免误判背景,用YOLO等算法实现;图像分类技术:用ResNet等模型区分猫狗,应对品种差异;实时推理技术:优化模型,保障动态识别流畅,满足远程查看需求。1.4认识大模型和大语言模型想一想:如果需要完成以下任务,分别需要选用什么模型?需要“给产品设计图做缺陷检测”。需要“给这张设计图写一份产品说明书”。“先检测设计图缺陷,再自动生成修复建议文案”若需要“给产品设计图做缺陷检测”,得找“计算机视觉大模型”(大模型的一种),它输出的是“缺陷位置标注图”;​若需要“给这张设计图写一份产品说明书”,得找“大语言模型”,它输出的是“文字版说明书”;​若需要“先检测设计图缺陷,再自动生成修复建议文案”,就需要“计算机视觉大模型+大语言模型”练一练:模仿自然语言处理领域大模型的应用原理,分析在人脸识别技术中,大模型是如何工作的?编码器和解码器的应用原理分别是什么?可以借助大语言模型查一查。在图像识别领域,大模型同样展现出了强大的实力。以人脸识别技术为例,它的工作原理充满了科技感。当一张人脸图像输入到大模型中,就像是给模型“递交”了一份“身份档案”。编码器首先对这张图像进行处理,它将图像看作是由无数像素点组成的复杂数据集合,通过一系列的卷积、池化等操作,逐步提取出人脸的关键特征。这些特征就像是每个人脸独一无二的“密码”,包括眼睛的形状、鼻子的高度、嘴巴的轮廓、脸部的纹理等信息。然后,解码器会将提取到的特征与数据库中已存储的人脸特征进行比对,就像在一个庞大的“身份信息库”中查找匹配的记录。如果找到高度匹配的特征,就能准确识别出这张人脸对应的身份。大模型在图像识别领域的应用不仅仅局限于人脸识别,在图像分类、目标检测、图像分割等任务中,它也是“主力军”。例如在自动驾驶技术中,大模型通过对道路图像的识别,能够检测出车辆、行人、交通标志等目标,并对它们进行分类和定位,为车辆的自动驾驶提供关键的决策依据,保障行车安全。学习成果检验站一、基础巩固区1、假设传统AI模型参数数量如同一个小镇的居民人数,那么大模型的参数数量更像以下哪种场景?(D)​ A.一个普通县城的人口总数​B.​一所中学的师生人数C.一个大型村庄的人口数量​D.​全球所有城市的人口总和在Transformer架构里,当我们输入一段旅游攻略文本,负责标记“景点名称”“推荐路线”等关键信息的组件是?(C)​A.解码器​B.​多头注意力机制单独作用C.编码器结合注意力机制​D.模型输出层​大模型训练时,数据预处理环节就像给食材进行处理,以下哪项操作不属于这个“食材处理”过程?(B)​A.把文本中的错别字“修正”​B.给图像添加滤镜特效​C.剔除文本里无意义的语气词​D.将杂乱的表格数据整理规范​大模型在医疗影像诊断中,是如何识别肺部病灶的?(C)​A.直接对比影像颜色深浅​B.随机猜测病灶位置​C.编码器提取病灶特征,解码器对比判断​D.仅依靠人工标注信息​大模型面临的“数据隐私问题”好比家门没锁,可能导致以下哪种后果?(B)​A.模型训练速度变慢​B.用户个人健康数据被窃取​C.模型参数数量自动减少​D.训练数据自动删除​​二、创新实践区如果你是大模型的“讲解员”,请向一位对AI完全不懂的老人,解释编码器和解码器在机器翻译中的分工。​可以把编码器比作“听懂外语的人”,比如把英语句子拆解开,弄明白每个词的意思和它们之间的关系;解码器就像“会说中文的人”,根据编码器理解的意思,用通顺的中文把句子讲出来。两者配合,就能把外语变成我们能懂的话有人说“大模型训练就是让计算机无脑背诵数据”,请结合所学知识,反驳这种观点并说明训练的核心逻辑。​这种说法不对。大模型训练不是“无脑背诵”,而是通过学习数据中的规律(比如语言逻辑、图像特征、因果关系等),形成对世界的“抽象理解”。比如训练翻译模型时,它学的是不同语言的对应规则,而不是死记硬背每句话;面对没见过的句子,也能根据规律翻译出来,这正是理解能力的体现,核心是“学习规律并灵活应用”。假如未来你要开发一个“智能垃圾分类助手”,你会如何运用大模型的相关技术实现这个功能?用计算机视觉技术(结合大模型的图像编码器)识别垃圾外观特征(如形状、包装);让模型学习海量垃圾分类数据(文本标注、图像标签),通过注意力机制聚焦关键特征(如“可回收”“厨余”的区分点);解码器根据识别到的特征输出分类结果,还能通过用户反馈持续优化模型(比如新增罕见垃圾类别时快速学习)。结合自己的专业查询专业技能相关问题(如设备故障排查方法、客户沟通话术)的解决方案,筛选有效信息并应用。以“客户沟通话术”为例:让模型学习优质沟通案例(如安抚话术、问题解决流程),提取“共情表达”“清晰回应”等关键特征;实时分析客户语音/文本中的情绪(通过编码器捕捉语气、关键词),解码器生成适配话术(如客户愤怒时先道歉再解决问题);结合历史交互数据优化,确保话术既专业又贴合客户需求。

第2章课内活动和学习成果检验站答案一、课堂思考题人眼识别苹果与计算机识别苹果的过程有哪些相似和不同之处?答案:相似:都涉及“感知-处理-识别”的过程。不同:人眼依赖生物视觉系统和大脑理解,计算机依赖传感器和算法;人眼具有更强的上下文理解和泛化能力,计算机依赖数据和模型训练。为什么图像预处理被称为计算机视觉的“清洁工”?答案:因为原始图像常含有噪声、模糊、光照不均等问题,预处理算法(如去噪、增强、边缘检测等)能提升图像质量,使其更适合后续分析和识别。 学习成果检验站一、基础巩固区图像的最小单位是像素。计算机视觉中,将彩色图像转换为只有亮度信息的图像的过程称为灰度化。用于消除图像中随机噪声的常用滤波方法是中值滤波/高斯滤波。卷积神经网络中用于提取局部特征的层是卷积层。目标检测中用于标出物体位置的矩形框称为边界框/BoundingBox。图像分割中,区分不同个体的任务称为实例分割。在医疗影像分析中,计算机视觉常用于辅助医生分析CT/MRI/X光等影像。迁移学习是利用预训练模型在新数据上进行微调。用于图像边缘检测的经典算法是Canny算子。计算机视觉系统中,用于采集图像的设备称为摄像头/传感器。计算机视觉中图像的基本单位是:A.向量B.像素C.滤波器D.特征图答案:B下列哪项不是图像预处理的操作?A.灰度化B.卷积C.二值化D.边缘检测答案:B卷积神经网络中用于降维的层是:A.卷积层B.全连接层C.池化层D.Softmax层答案:C目标检测任务输出的是:A.图像类别B.图像尺寸C.边界框和类别D.图像像素值答案:C下列哪项是深度学习在计算机视觉中的典型应用?A.边缘检测B.图像分类C.图像采集D.图像存储答案:B用于人脸识别的深度学习方法通常使用:A.决策树B.支持向量机C.卷积神经网络D.随机森林答案:C下列哪种传感器可以获取深度信息?A.可见光相机B.红外热成像相机C.深度相机D.多光谱相机答案:C图像分割中,不区分个体只区分类别的任务是:A.实例分割B.语义分割C.目标检测D.图像分类答案:B下列哪项不是计算机视觉的应用领域?A.自动驾驶B.医疗影像分析C.文本翻译D.安防监控答案:C灰度化公式中,绿色通道的权重最高,其系数为:A.0.299B.0.587C.0.114D.0.5答案:B简述卷积神经网络(CNN)相比传统特征提取方法(如SIFT)的主要优势。答案:CNN能自动从数据中学习层次化特征,无需人工设计特征提取器,具有更强的表达能力和泛化性能,尤其在大量数据支持下表现更优。计算机视觉技术在应用中可能带来哪些伦理和社会问题?应如何应对?答案:可能带来隐私泄露、歧视性识别、技术滥用等问题。应在合法合规前提下使用,加强数据保护,推动技术透明和公众监督,倡导“科技向善”。

第2章课内活动和学习成果检验站答案2.2声波探针——计算机听觉的原理溯源与场景赋能讨论:人的耳朵是如何听“懂”声音的呢?

人耳听懂声音分三步:首先,声音(空气振动)进入外耳道,推动鼓膜振动,像鼓面被敲击般;接着,鼓膜振动带动中耳听小骨(锤骨、砧骨、镫骨),把振动放大后传给内耳耳蜗;最后,耳蜗内液体随振动流动,刺激毛细胞产生神经信号,信号经听觉神经传给大脑听觉中枢,大脑解读信号,我们就“听懂”了声音,比如分辨出人声、音乐声,整个过程快到几乎瞬间完成。表2-3高精度声音采集场景场景构成麦克风阵列主要技术会议录音/直播设备4-8单元线性阵列“波束成形”技术(即聚焦特定方向的声音,抑制其他方向噪声)汽车智能座舱4-6麦克风阵列,分布在方向盘、车顶、车门等位置。一方面能通过声源定位,区分“主驾指令”和“副驾指令”;另一方面能在高速行驶、风噪和发动机噪声较大的环境下,通过多通道信号对比,提取纯净的语音信号,确保“导航到最近的加油站”这类指令被准确识别。声学检测设备数十个麦克风组成的高密度阵列结合声源定位技术,精准定位故障部件的位置(如轴承磨损产生的异常噪声来源)查一查:语音信号频谱图在‌1941年‌发明,是用于分析语音信号的时频特性的工具,通过将时域信号转换为二维频谱图,可视化呈现时间、频率和能量强度三者的关系。查一查,语音信号频谱图因为什么原因会出现黑色横纹? 出现黑色横纹浊音声学特征浊音(如辅音)发音时声带振动,其频谱图在低频区(约200Hz附近)会形成能量集中现象,表现为明显的黑色横纹,这是辨别浊音的重要声学标志。[1浊音杠的形成机制与声带振动产生的周期性信号有关。‌采样率不足当音频文件保存或播放时,若采样率设置过低(如低于CD音质标准),可能导致高频信号丢失,在频谱图上表现为高频区域缺失,形成类似黑色横纹的视觉效果。‌格式兼容性问题不同音频格式对高频信号的保留能力存在差异。例如MP3格式采用压缩编码技术会丢弃部分高频信息,而WAV格式则能更好保留原始信号。若处理或播放时格式转换不当,可能导致频谱图异常。表2-2声学AI增强关键技术表传统算法模块AI增强路径关键技术场景“按频率过滤”动态频谱感知根据“上下文特征”判断噪声在会议室,识别“连续稳定、有语义逻辑的声音”为目标信号,而将“间歇性、无规律的声音”(如翻纸声、咳嗽声、空调运行声)识别为噪声并通过“掩码技术”消除干扰。“线性预测”自适应学习实时记录特征智能音箱播放音乐时,AI会同步生成与音乐特征相反的“抵消信号”,当麦克风同时采集到“用户指令+音乐回声”时,抵消信号会与回声抵消,只保留清晰的指令声。特征提取算法声源分离技术识别不同的“声纹特征”并增强当麦克风阵列采集到多个声源(如会议室中有3人同时发言、工业设备旁有电机声+风扇声+故障异响)时,AI能通过“声源分离技术”,将混合的声音信号拆解为独立的单一声源信号。图2-4计算机语音理解流程图案例:当我们说“播放周杰伦的歌曲”时,语音识别系统把语音信号转化为文字,然后语音理解系统分析出关键词“周杰伦”“歌曲”,理解我们的意图是想听周杰伦的歌,接着它就会在音乐库中搜索并播放相关歌曲。请分析,当用户说““明天上午8点导航去故宫”时,ASR和SLU分别完成什么工作?案例解析:用户说“明天上午8点导航去故宫”→ASR转写为文本“明天上午8点导航去故宫”→SLU解析为“意图:导航设置-规划路线;槽位:【时间:明天上午8点】、【目的地:故宫】”→导航软件接收语义指令,生成路线。练一练:跨方言语义对齐是一种将不同方言的语义进行对应和匹配的技术或方法,旨在建立起不同方言之间在语义层面的等价关系,在声纹识别中具有重要作用,主要体现在提升模型性能、增强模型泛化能力、降低数据稀疏性影响等方面。请设计下面的跨方言语义对齐表格。普通话苏州方言南京方言徐州方言聊天 讲张韶韶(sáosáo)拉呱:读音为“lāguā”膝盖脚馒头磕膝头儿胳偻拜子”或“格拉拜子”玉米御麦苞芦棒槌查一查:无人机挂载的声纹局放检测设备是如何工作的?我国较新的相关技术有哪些? 无人机挂载的声纹局放检测设备工作时,先利用高精度麦克风阵列,收集电力设备运行时产生的声音信号,像局部放电、机械振动等声音都能捕捉。接着,设备对这些信号进行降噪处理,去除无人机自身运转、环境风声等干扰噪声。随后,运用傅里叶变换等算法,提取声音的关键特征,再将其与预先建立的局放声纹数据库对比。一旦匹配到异常声纹,就能依据多个麦克风接收信号的时间差、相位差,结合无人机位置信息,精准定位局部放电源,将故障信息实时传输回地面,助力运维人员及时检修。我国在无人机挂载声纹局放检测技术上不断创新,处于国际前沿水平。国网枣庄供电公司自主研发的无人机机载超声波局放检测技术为全国首创。该技术自2022年6月起开始攻关,通过硬件结构改造和多算法融合优化,攻克了传统局放巡检无法锁定放电部位、无人机螺旋桨噪声干扰局放检测、巡检地理条件限制等一系列难题,实现了配电网高质效局放成像检测。2023年7月投入试用,截至2024年7月24日,累计检测450架次,发现局放隐患63处,减少设备故障37次,降低配电网故障停运率68%,提升供电可靠率至99.982%,大幅提升了电力设备巡检的效率与准确性。学习成果检验站基础巩固区1.(选择题)下列关于计算机听觉技术的表述,正确的是(C)A.计算机听觉技术采集声音信号后无需转化就能处理B.环形阵列是唯一的麦克风阵列布局方式C.语音理解是在语音识别的基础上进行语义分析D.声音分类只能区分语音和非语音2.(选择题)下列关于Transformer大模型在计算机听觉中应用的描述,正确的是(B)A.Transformer仅用于替代传统MFCC特征工程B.自监督预训练使其能直接建模原始波形时空特征C.多模态对齐仅限文本与语音的关联D.长程上下文建模无法处理动态决策逻辑3、某智能家居的声控门锁,在未明确告知用户的情况下,持续录制了用户日常在家中的对话(非解锁指令相关语音)。针对这一情况,符合数据安全与用户权益保护原则的正确处理方式是(B)A.将录制的对话数据匿名化后,用于优化门锁的语音指令识别准确率B.立即停止非必要录音行为,删除已采集的无关对话数据,并向用户说明情况C.仅停止后续录制,但保留已采集数据,以备后续可能的功能升级需求D.通知用户数据采集情况,若用户未明确反对,则继续保留并使用数据解析:计算机听觉技术(如语音采集、识别)在智能家居场景中应用时,需严格遵循数据最小化、用户知情同意、数据安全保护三大核心原则,重点判断“是否侵犯用户知情权与数据控制权”“是否合理处理已违规采集的数据4.(判断题)计算机听觉技术在处理声音信号时,滤波和降噪是同一回事。(×)5.(填空题)语音识别中,用于将语音信号转化为音素序列的是_声学模型_模型。6.(填空题)在AI增强的滤波算法中,实现动态频谱感知的核心技术是_自适应滤波算法(或深度学习驱动的动态频谱感知算法)__。7.(简答题)简要说明声音分类与事件检测在智能安防中的作用。声音分类在智能安防中,可快速区分“异常声音”与“正常声音”,如将“撬锁声”“尖叫”归类为危险声音,“说话声”“脚步声”归类为正常声音,触发预警机制;​事件检测则进一步定位“异常声音对应的事件”,如检测到“玻璃破碎声+急促脚步声”,判断可能发生“入室盗窃事件”,并结合声音定位技术(如麦克风阵列)确定事件发生位置,为安防人员提供精准处置依据,减少误报(如避免将杯子掉落声误判为玻璃破碎)。创新实践区基于计算机听觉技术,设计一款新型的智能教育产品,如能自动识别学生朗读错误的智能朗读助手。利用合适的AI工具画出产品的功能框架图,详细介绍其工作原理和预期效果。功能框架图:可使用MindMaster等AI绘图工具绘制。整体框架分为声音采集、预处理、识别分析、反馈输出四大模块。声音采集模块由高灵敏度麦克风组成,负责收集学生朗读声音;预处理模块进行降噪、滤波,去除环境噪音干扰;识别分析模块运用声学模型与语言模型,对比标准发音库,识别朗读错误;反馈输出模块通过文字、语音提示错误位置与正确发音。例如,当学生朗读“苹果”发音错误时,工具能精准指出并播放正确读音。​工作原理:麦克风采集声音转化为电信号,经A/D转换为数字信号。降噪算法去除背景噪音,傅里叶变换等提取声音特征。声学模型将特征转为音素序列,语言模型结合语法、语义知识,与标准发音库对比,判断错误。最后,通过文本、语音合成技术给出反馈。​预期效果:学生朗读错误识别准确率超90%,能指出常见发音、语调、断句错误,提供针对性改进建议,帮助学生提升朗读水平,激发学习兴趣,提高自主学习能力。选择一个计算机听觉技术的应用场景,如智能会议系统,调研该场景下现有产品的使用体验。利用AI工具(DeepSeek、豆包、Kimi等)设计调查问卷,收集用户反馈,分析产品存在的问题,并提出改进建议,撰写一份调研报告。答案:调查问卷设计:利用Kimi设计问卷。如提问“会议中语音转文字准确率如何?”“是否遇到声音回声干扰?”“对发言人自动切换功能满意度如何?”等。通过线上平台、邮件向企业员工、会议组织者发放问卷,收集反馈。​问题分析:经分析发现,现有产品存在语音识别准确率在多人发言、嘈杂环境下降低;回声消除不彻底,影响沟通;发言人自动切换延迟或误判等问题。例如,在一场有10人参与的头脑风暴会议中,语音识别错误率达20%,严重影响会议纪要准确性。​改进建议:采用更先进的神经网络算法提升语音识别准确率,优化麦克风阵列布局增强声音定向采集,引入实时降噪技术减少回声,利用多模态(如结合视频画面中人物动作、表情)提升发言人切换精准度。除传统画图软件(如Xmind、Visio)和国外的开源在线流程图编辑器(drawio、/)以外,还可以使用什么AI工具绘制或生成流程图?举例并写出提示词。按照设计的提示词,生成人工智能听觉感知的流程图。使用Kimi,提示词如“绘制人工智能听觉感知从声音采集到分类决策的流程图,使用mermaid输出”。Kimi会生成mermaid编码,将编码复制到支持mermaid的markdown编辑器(如Typora)即可生成流程图。

2.3计算机通感神经:编织AI感官世界的“多维触网”下面是一张“猫”的多模态特征语义关联表。请模仿设计一张智能驾驶场景的多模态特征语义关联表。模态类型具体特征内容语义关联核心(统一语义指向)关联技术支撑图像特征(视觉感知)1.

道路元素:车道线(白色

/

黄色实线

/

虚线)、交通信号灯(红

/

/

绿三色亮起状态)、限速标牌(圆形红圈

+

黑色数字);

2.

障碍物:行人(直立行走姿态、携带物品形态)、其他车辆(轿车

/

货车轮廓、转向灯闪烁状态)、路障(锥形桶橙黑配色、护栏金属质感);

3.

环境状态:雨天路面反光、雪天道路积雪、隧道内明暗过渡画面指向

“智能驾驶的道路规则、障碍物识别与环境适配”

核心场景卷积神经网络(CNN)+Transformer

提取图像中车道线、信号灯等关键视觉特征,通过跨模态注意力机制关联语音

/

文本中的

“道路指令”“风险预警”

语义语音特征(听觉感知)1.

交通提示音:救护车

/

消防车的高频鸣笛声(穿透力强、节奏急促)、路口违章抓拍的

“滴滴”

警示音、车辆倒车时的

“请注意,倒车”

语音播报;

2.

车辆状态音:轮胎压过减速带的

“咚咚”

声、刹车片轻微摩擦的

“沙沙”

声、雷达探测到近距离障碍物的

“蜂鸣”

提示音;

3.

交互语音:驾驶员指令(“打开自适应巡航”“降低车速”)、车机反馈(“已开启

ACC”“前方限速

60km/h”)指向

“智能驾驶的交通信号识别、车辆故障预警与人机交互指令”梅尔频率倒谱系数(MFCC)+Wav2Vec

2.0

提取声学特征,结合时序建模(LSTM)关联图像中的动态场景(如

“消防车鸣笛声”

对应图像中

“红色消防车驶来”

画面)文本特征(语义指令)1.

道路规则文本:“红灯禁止通行”“限速

60km/h”“禁止超车”“礼让行人”;

2.

车辆功能文本:“自适应巡航(ACC)”“车道保持辅助(LKA)”“自动紧急制动(AEB)”;

3.

预警文本:“前方

500

米有事故”“左侧车道有行人横穿”“车辆电量低”指向

“智能驾驶的规则依据、功能定义与风险提示”词嵌入模型(BERT)+

知识图谱提取文本语义,通过跨模态语义映射关联图像中的视觉标识(如

“限速

60

标牌”

图像对应文本

“限速

60km/h”)与语音中的提示(如

“AEB

启动”

语音对应文本

“自动紧急制动功能激活”)讨论:你能从人体感知的角度,思考还可以有哪些多模态感知方式呢?

从人体感知角度出发,可围绕视觉、听觉、触觉、嗅觉、味觉、本体觉(感知自身运动/位置)的协同融合,拓展以下多模态感知方式。如“触觉+温度觉+痛觉”安全交互感知​人体接触物体时,会同时感知触感(软/硬)、温度(冷/热)、是否刺痛,可将这三种感知融合到智能假肢或医疗设备中。比如智能假肢,除前文提到的触觉感知(如握力反馈),再集成温度传感器(感知物体冷热,避免触碰高温烫伤)和痛觉模拟传感器(当假肢碰撞硬物时,通过微弱电流刺激皮肤传递“类似痛觉”的预警),让使用者更安全地与环境交互,贴近人体真实感知体验。说一说:相比传统仅依赖触觉反馈的智能假肢,“意念-环境”直连的控制系统能为残障人士的日常交互(如抓取物品、操作家电)带来哪些更贴合人体需求的优势?“意念-环境”直连的控制系统(EEG脑电信号+AR视觉融合),相比传统仅依赖触觉反馈的智能假肢,能从三方面带来更贴合人体需求的优势:一是操作更“即时响应”,减少交互延迟。传统假肢需通过触觉反馈感知操作效果(如抓握力度是否合适),再调整动作,存在“感知-调整”的时间差,抓取易碎物品(如鸡蛋)时易因延迟导致失误;而“意念控制”通过脑电信号直接传递操作指令,搭配AR视觉实时显示物品位置,残障人士可凭“想法”快速启动抓握、放下动作,响应速度更贴近人体自然动作的即时性。二是交互更“主动适配”,降低操作门槛。传统假肢依赖触觉反馈判断环境(如家电按钮位置需靠触觉摸索),对视力不佳或触觉感知不敏感的用户不够友好;“意念-环境”直连系统中,AR视觉能提前标注家电按钮、物品轮廓等环境信息,脑电信号可直接关联“启动电视”“拿起水杯”等目标指令,无需反复依赖触觉确认,尤其适合复杂家居场景的自主操作。三是动作更“精准可控”,贴合人体使用习惯。传统假肢的触觉反馈多为单一力度信号(如“过紧”“过松”),难以区分物品细微差异(如抓取纸巾与抓取手机的力度需求);而脑电信号能传递更精细的动作意图(如“轻捏”“握紧”),搭配AR视觉对物品大小、材质的识别,可自动匹配适配力度,让操作更符合人体对不同物品的自然操控习惯,减少因力度不当导致的物品损坏或操作失败。学习成果检验站基础巩固区1.(选择题)多模态感知的技术框架不包括以下哪个环节?(B)A.数据采集B.模型训练C.模态对齐D.决策融合2.下列哪项属于“视觉+触觉+本体觉”协同感知的典型应用场景?(C)A.化工厂通过声音、画面、气味预警设备泄漏B.助行机器人识别障碍、听鸣笛声并检测身体平衡C.仿生机器人精准抓取易碎玻璃并调节手臂力度D.智能假肢感知物体温度并传递碰撞预警3.某智能设备需模拟人体察觉危险时的多模态联动,以下哪种技术组合符合“听觉+视觉+嗅觉”感知逻辑?(B)A.触觉传感器+温度传感器+痛觉模拟传感器B.声音识别模块+摄像头+有害气体检测传感器C.视觉摄像头+机械臂关节传感器+触觉像素D.本体觉传感器+听觉模块+路线识别摄像头4.(判断题)晚期融合策略是在数据输入层直接拼接多模态原始数据。(×)5.(填空题)多模态感知中,将各模态特征映射到同一语义空间的环节是__模态对齐____。6..(简答题)简述多模态感知在智能医疗领域的应用及优势。应用:①智能假肢:融合触觉(握力反馈)、温度觉(感知物体冷热)、痛觉(碰撞预警)传感器,帮助残障人士安全交互;②医疗诊断:结合视觉(CT影像识别病灶)、听觉(AI分析心肺音异常)、生理数据(心率/血压传感器),辅助疾病判断;③康复器械:如运动康复机器人,通过视觉(监测动作规范度)、本体觉(感知患者肢体角度)、触觉(调节辅助力度),指导患者科学康复。​优势:①弥补单一模态局限,如仅靠影像难以判断的早期心肺疾病,可结合声音特征提升诊断准确率;②贴合人体感知习惯,如智能假肢的多模态反馈让使用者更自然操控;③提升安全性,如康复器械通过多模态感知避免辅助力度过大导致损伤。创新实践区选择计算机触觉技术的应用场景——“智能假肢”,调研该场景下现有产品的用户使用体验。利用AI工具(如豆包、Kimi)设计调查问卷,收集残障用户、康复师等群体的反馈,分析产品在触觉感知功能上存在的问题,并提出针对性改进建议,撰写一份简短调研报告具体实施步骤​确定调研对象与工具​调研对象:使用过智能假肢(如肌电假肢、触觉反馈假肢)的残障用户(10-15人)、康复机构专业康复师(3-5人);​AI工具:用豆包生成问卷初稿,用Kimi整理用户反馈文本并提取关键问题。​设计调查问卷(核心问题示例)​(由豆包辅助设计,含客观题与主观题)​①您使用的智能假肢是否具备触觉反馈功能?()​A.完全没有B.仅能感知粗略力度(如“握紧/松开”)C.能感知简单纹理(如“光滑/粗糙”)D.能感知多维度触觉(力度+纹理+温度)​②您在使用智能假肢抓取物体时,触觉反馈的延迟情况如何?()​A.延迟明显(>1秒),影响操作B.轻微延迟(0.5-1秒),偶尔影响C.基本无延迟(<0.5秒),不影响​③主观反馈:您认为当前智能假肢的触觉感知功能最需要改进的地方是?(可多选)​□触觉分辨率低(无法区分细小物体)□温度感知缺失(易触碰高温受伤)□反馈力度不准确(过轻/过重)□续航短(频繁充电影响使用)​④康复师补充:您观察到用户在适配智能假肢时,因触觉功能不足导致的主要操作困难是?​收集反馈并分析问题(用Kimi辅助文本分析)​假设收集到的核心反馈如下:​用户反馈:80%用户选择“仅能感知粗略力度”(选项B),70%用户认为“延迟明显”(选项A),60%用户希望补充“温度感知”;​康复师反馈:用户因“无法感知物体软硬”,常出现抓取鸡蛋破碎、抓取纸张过松掉落的问题。​用Kimi提取关键问题:①触觉维度单一(缺乏温度、纹理细节感知);②触觉反馈延迟高;③力度控制精度不足。​提出改进建议(结合我国触觉技术成果)​技术改进:集成复旦大学“自适应视触觉AI传感器”(最小感知力0.01牛顿),提升触觉分辨率;加入成都人形机器人创新中心的“AI神经网络电子皮肤”温度感知功能,避免烫伤;​算法优化:采用低延迟信号处理算法,将触觉反馈延迟降至0.3秒以内;​场景适配:针对日常抓取场景(如鸡蛋、纸张),预设不同物体的触觉反馈参数,提升操作精准度。​撰写调研报告框架​标题:《智能假肢触觉感知功能用户体验调研报告》​正文:①调研背景与目的;②调研对象与方法;③用户反馈核心问题;④基于我国触觉技术的改进建议;⑤总结(如智能假肢需结合多模态触觉技术,提升用户生活质量)。

第3章课内活动和学习成果检验站答案3.1语言小能手!AI如何用逻辑“唠明白天下事”想一想:计算机知道“苹果”既可以指一种水果,也可以指一家公司。在自然语言处理领域,这种一词多义的现象被称为“歧义”。为了区分“苹果”的不同含义,计算机主要依靠以下方法:上下文语境分析计算机通过分析“苹果”周围的词语和句子结构来判断其含义。例如,在“我喜欢吃苹果”中,“吃”这个词提示“苹果”指的是水果;而在“苹果发布了新款iPhone”中,“发布”和“iPhone”表明“苹果”是指公司。命名实体识别技术这是一种专门用于识别文本中具有特定意义的实体(如人名、地名、组织名等)的技术。通过训练模型,计算机可以学习到“苹果”在不同语境下的不同实体类型,从而进行准确区分。知识图谱知识图谱是结构化的知识库,包含了实体之间的关系。计算机可以利用知识图谱中的信息,根据上下文将“苹果”与其他相关实体联系起来,确定其正确含义。大规模预训练语言模型像GPT-3这样的模型,通过在海量文本数据上进行训练,学习到了丰富的语言知识和语境信息。它们能够根据上下文中的线索,准确理解“苹果”的具体含义。练一练:针对给定的句子,使用不同的在线分词工具可能会得到不同的结果。“乒乓球拍卖完了”:工具A可能分词为:“乒乓球/拍卖/完了”工具B可能分词为:“乒乓球拍/卖完了”“咬死了猎人的狗”:工具A可能分词为:“咬死/了/猎人/的/狗”工具B可能分词为:“咬死/了/猎人的/狗”“我看见她笑了”:工具A可能分词为:“我/看见/她/笑了”工具B可能分词为:“我/看/见/她/笑了”对于“乒乓球拍卖完了”这句话存在的歧义,可以通过添加上下文信息来消除。例如,在“体育用品店”的场景下,可以重新表述句子为:“体育用品店的乒乓球拍已经卖完了。”这样,“乒乓球拍”和“卖完了”的含义就明确了。在实际应用中,如果需要处理大量文本或特定领域的文本,可以考虑使用自定义语音识别模型,通过训练包含领域特有短语的模型来提高分词和识别的准确性。练一练:"AI助手昨天在工厂帮工人检查设备":施事格:AI助手解析:AI助手是执行“检查”动作的主体,因此是施事格。受事格:设备解析:设备是被检查的对象,因此是受事格。工具格:无解析:在这个句子中,没有明确提到使用的工具,所以没有工具格。地点格:工厂解析:工厂是检查动作发生的地点,因此是地点格。助事格:工人解析:AI助手帮助工人进行检查,因此工人是助事格。想一想:你认为自然语言处理技术在未来还可能应用到哪些领域?如果有一天,AI能够完全理解人类语言,我们的生活会发生什么变化?如何解决跨语言和方言的理解问题?自然语言处理(NLP)技术在未来有望在更多领域实现创新应用:教育领域:个性化学习辅助,根据学生的学习进度和理解能力提供定制化的学习内容和反馈。心理健康领域:通过语言分析评估心理状态,提供早期干预和支持。法律领域:自动化法律文档的审查和分析,提高法律服务的效率。娱乐和媒体领域:自动生成新闻、故事和剧本,以及个性化内容推荐。智能家居和物联网:更智能的语音控制,实现设备之间的无缝交互。如果AI能够完全理解人类语言,我们的生活将发生深刻的变化:人机交互:与设备的交流将更加自然和高效,无需学习复杂的操作指令。信息获取:快速获取和理解海量信息,消除语言障碍,促进跨文化交流。工作效率:自动化处理文档、邮件等,大幅提高工作效率。社会服务:医疗、法律等领域的服务将更加普及和高效。为了解决跨语言和方言的理解问题,可以采取以下措施:多语言模型训练:使用多种语言和方言的数据训练AI模型,提高其理解和处理能力。方言数据收集:收集和整理各地方言的数据,建立方言语料库,为AI提供学习资源。跨语言迁移学习:利用已有语言的知识迁移到新语言的学习中,加速对方言的理解。实时翻译技术:发展更精准的实时翻译技术,实现不同语言和方言之间的即时交流。练一练:中文多音字是自然语言处理中的经典难题,例如“长”在“长短”中读cháng(形容词),在“长大”中读zhǎng(动词),读音差异对应语义与词性的双重变化。分析以下几个句子字应该如何进行自然语言理解。1.他爱好跑步,每天都要跑好几个小时。2.小明在宿舍里弹吉他,宿管阿姨让他注意宿舍卫生3.银行发行的债券利率很高,吸引了很多投资者。在自然语言处理中,针对多音字的语义和词性理解是一个复杂但至关重要的过程。1、他爱好跑步,每天都要跑好几个小时。在这个句子中,“跑”读作“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论