版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能通识教程第6章具身智能01具身智能概述目录02具身智能的技术支撑03具身智能的应用领域04人形机器人05具身智能的挑战与限制01具身智能概述Partone6.1具身智能概述什么是具身智能具身智能和智能体的关系具身智能的发展历程具身智能在人工智能中的地位与作用具身智能(EmbodiedIntelligence)是当下人工智能领域的一个前沿研究方向,它打破了传统人工智能仅侧重于抽象计算和推理的局限,将智能体的认知与行动紧密相连。简单来说,具身智能强调智能不仅仅产生于大脑中的思维活动,更体现在与周围环境的交互以及物理实体的行动能力上。6.1.1什么是具身智能具身智能包含感知、决策和行动三个关键部分。通过各类传感器,如视觉、听觉、触觉传感器等,智能体能够感知周围环境的信息,像机器人利用摄像头获取视觉图像,了解周围物体的位置、形状等;接着,运用机器学习、强化学习等先进算法,智能体对感知到的信息进行分析和处理,做出决策,例如判断在当前环境下应该采取何种行动来完成任务;最后,智能体根据决策结果,通过自身的物理实体进行行动,如机器人的机械臂完成抓取动作。核心要素具身智能已在多个领域崭露头角。在医疗领域,外骨骼机器人借助具身智能技术,能够根据患者的运动意图和身体状态,实时调整助力模式,帮助患者进行康复训练;在物流行业,智能仓储机器人利用具身智能,可在复杂的仓库环境中自主导航、识别货物并完成搬运任务,提高物流效率。技术应用具身智能和智能体是人工智能领域中的两个相关但不同的概念,它们的核心区别在于对“身体”的依赖和与环境的交互方式(如表所示)。总体而言,具身智能是智能体的子集,所有具身智能体都是智能体,但并非所有智能体都具备“具身性”。具身性是一种强化约束,具身智能在传统智能体的基础上,增加了物理身体与实时环境交互的硬性要求。智能体的典型例子包括软件智能体(比如ChatGPT)和硬件智能体(比如人形机器人)。具身智能的典型例子包括机器人(如宇树科技的机器人)和自动驾驶汽车等。6.1.2具身智能和智能体的关系维度智能体具身智能身体依赖不要求物理身体(可以是虚拟的)必须拥有物理身体(如机器人、生物体)环境交互方式可仅通过数据或符号与环境交互(如输入文本、图像)必须通过物理动作(如移动、触摸、力学反馈)与环境互动智能来源可能依赖纯算法或数据驱动(如深度学习)身体感知与行动闭环是智能的核心(如通过跌倒学会平衡)适应性适应虚拟或结构化环境(如游戏AI)适应复杂物理环境(如动态地形、温度变化)6.1.3具身智能的发展历程1956年达特茅斯会议标志人工智能诞生,学者持“内在主义”观点,核心分支符号主义主张通过形式化符号系统及逻辑推理处理智能问题。人工智能起源与内在主义同期一批学者基于控制论从机械感知与行动角度探索,发展为机器人学,初期与内在主义独立发展。控制论与机器人学(1)兴起原因:认知科学、神经科学进步,机器学习突破,计算能力和硬件技术提升,社会需求推动。(2)新的发展:深度学习成为内在主义主流与具身智能重要基础,打破二者壁垒,实践中实现跨领域合作,具身智能体有望更广泛融入生活。具身智能的再次兴起(21世纪)(1)理论突破:符号主义发展放缓,引发质疑;机器人学取得进展,部分学者倡导身心一元论,催生具身智能领域。莱考夫与约翰逊提出具身认知理论,吉布森发展“生态学知觉”理论。(2)实践成就:布鲁克斯的“行为型机器人”通过感知与运动控制完成任务,具身智能展现活力。4.具身智能的低谷(20世纪90年代):过于聚焦低级智能行为,对高级智能活动探讨少,且受限于计算能力,难以应对复杂任务,陷入低谷。具身智能的兴起(20世纪80年代)6.1.4具身智能在人工智能中的地位与作用①挑战符号主义与连接主义。②重新定义智能的本质。对传统AI的范式突破①填补AI的物理化空白。②推动机器人学的进化。连接虚拟与物理世界的桥梁①生物智能的模拟。②跨领域整合能力。迈向通用人工智能(AGI)的关键路径02具身智能的技术支撑Parttwo6.2具身智能的技术支撑传感器技术:感知世界的触角机器学习与强化学习机器人技术:具身的物理载体6.2.1传感器技术:感知世界的触角在具身智能体系中,传感器技术宛如智能体的“触角”,承担着获取外界信息的关键任务,为后续的决策与行动提供了不可或缺的数据基础。传感器融合技术其他传感器触觉传感器听觉传感器视觉传感器6.2.1传感器技术:感知世界的触角视觉传感器常见的视觉传感器主要基于电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)技术。CCD通过将光信号转换为电信号,再经过一系列处理后输出图像信息;CMOS则利用晶体管将光信号转化为数字信号,具有成本低、功耗小、集成度高等优势。工作原理在机器人导航领域,视觉传感器能够实时捕捉周围环境的图像信息,通过与预先存储的地图数据或实时构建的地图进行比对,帮助机器人确定自身位置和前进方向。在工业生产中,视觉传感器可用于产品质量检测,快速识别产品表面的缺陷、尺寸偏差等问题,保障产品质量。在具身智能中的应用6.2.1传感器技术:感知世界的触角听觉传感器主要基于压电效应或电容变化原理。压电式麦克风内部的压电材料在声波作用下产生形变,从而产生电信号;电容式麦克风则通过膜片与背板之间电容的变化来感知声音的变化,将声音信号转换为电信号,再经过放大、滤波等处理后输出。工作原理在智能语音交互系统中,听觉传感器能够捕捉用户的语音指令,通过语音识别技术将语音转化为文本信息,供智能体理解和执行相应操作。在安防监控领域,听觉传感器可用于检测异常声音,如玻璃破碎声、警报声等,及时发出警报。在具身智能中的应用6.2.1传感器技术:感知世界的触角触觉传感器触觉传感器的工作原理多样,常见的有电阻式、电容式、电感式等。电阻式触觉传感器通过压力改变电阻值来检测压力大小;电容式触觉传感器利用压力引起的电容变化来感知压力;电感式触觉传感器则基于电磁感应原理,通过检测磁场变化来感知物体的接近或接触。工作原理在机器人抓取任务中,触觉传感器能让机器人感知物体的形状、硬度、表面粗糙度等信息,从而调整抓取力度和姿态,避免损坏物体。在医疗康复领域,触觉传感器用于外骨骼机器人,帮助患者更好地感知肢体的运动和受力情况,提高康复训练效果。在具身智能中的应用6.2.1传感器技术:感知世界的触角其他传感器除了上述常见的传感器,具身智能还可能用到惯性传感器、温度传感器、湿度传感器等。惯性传感器(如加速度计、陀螺仪)能够检测物体的加速度和角速度,用于机器人的运动姿态监测和控制;温度传感器和湿度传感器则可用于环境监测,为智能体提供环境参数信息,使其能够根据环境变化做出相应决策。6.2.1传感器技术:感知世界的触角传感器融合技术为了让智能体获取更全面、准确的环境信息,通常会采用传感器融合技术。该技术将多种类型传感器的数据进行综合处理,充分发挥各传感器的优势,弥补单一传感器的不足。通过将视觉传感器获取的物体形状信息与触觉传感器获取的物体表面信息相结合,能够让智能体更准确地识别和操作物体。传感器融合的方法主要有数据层融合、特征层融合和决策层融合,不同的融合方法适用于不同的应用场景,在具身智能的发展中发挥着重要作用。6.2.2机器学习与强化学习机器学习与强化学习是具身智能实现自主决策与行动的核心技术,它们赋予智能体从数据中学习并不断优化自身行为的能力。机器学习强化学习两者的协同作用6.2.2机器学习与强化学习机器学习机器学习是一门多领域交叉学科,它旨在让计算机通过数据学习模式和规律,从而对未知数据进行预测或决策。例如,通过分析大量的图像数据,让计算机学习到不同物体的特征,从而能够识别新图像中的物体。基本概念在具身智能中,机器学习常用于感知数据的处理和理解。通过机器学习算法,智能体可以对视觉传感器获取的图像数据进行分析,识别出物体的类别、位置和姿态;对听觉传感器获取的语音数据进行语音识别和语义理解,从而理解用户的指令。在机器人的路径规划中,机器学习可以根据环境地图和目标位置,学习到最优的路径规划策略。在具身智能中的应用6.2.2机器学习与强化学习强化学习强化学习是一种通过智能体与环境进行交互,以最大化累积奖励为目标的学习范式。智能体在环境中采取行动,环境会根据智能体的行动给出奖励或惩罚反馈,智能体通过不断尝试不同的行动,学习到能够获得最大奖励的策略。基本概念强化学习在具身智能中主要用于智能体的决策和行动控制。以机器人的抓取任务为例,机器人通过强化学习,可以根据物体的形状、位置以及自身的状态,学习到最佳的抓取动作和力度,以确保成功抓取物体。在智能体的运动控制中,强化学习可以让智能体学习到在不同地形和环境条件下的最优运动策略,实现高效、稳定的运动。在具身智能中的应用6.2.2机器学习与强化学习两者的协同作用机器学习和强化学习在具身智能中相互协作,共同提升智能体的性能。可以为强化学习提供初始的策略和模型,帮助强化学习更快地收敛到最优策略。例如,通过监督学习训练一个初始的策略网络,然后再用强化学习对其进行优化。机器学习可以通过与环境的交互,不断生成新的数据,这些数据又可以用于机器学习的训练,进一步提升机器学习模型的性能。例如,智能体在强化学习过程中获取的经验数据,可以用于训练更好的感知模型,从而提高智能体对环境的理解和决策能力。强化学习6.2.3机器人技术:具身的物理载体具身的物理载体是具身智能得以实现的硬件基础,它们如同智能的“躯壳”,承载着感知、决策与行动的使命,让智能不再仅仅停留在虚拟的算法层面,而是能够切实地与现实世界交互。智能穿戴设备其他物理载体机器人6.2.3机器人技术:具身的物理载体机器人机器人是具身物理载体的典型代表,类型丰富多样。工业机器人通常拥有机械臂、关节和底座,具备高精度的运动控制能力,机械臂的多自由度设计使其能在工业生产线上完成如零件装配、焊接、搬运等复杂任务。服务机器人则更注重与人的交互和对复杂生活环境的适应。类型与结构机器人通过内部的控制系统来协调各个部件的运作。控制系统接收来自传感器的环境信息,这些传感器包括前文提到的视觉、听觉、触觉等各类传感器。工作原理机器人是具身智能的重要实践者,在工业制造领域,具身智能的工业机器人能够根据生产线上的实时变化,如零件的供应情况、产品的质量检测结果等,自主调整工作流程和操作方式,提高生产效率和质量。在物流行业,物流机器人可以在仓库中自主规划路径,搬运货物,实现高效的仓储管理。在医疗领域,手术机器人借助具身智能,能够更精准地执行手术操作,降低手术风险。在具身智能中的作用6.2.3机器人技术:具身的物理载体智能穿戴设备智能穿戴设备也是具身物理载体的重要组成部分。智能手表除了具备传统手表的时间显示功能外,还集成了多种传感器,如加速度计、心率传感器、GPS模块等。加速度计可以检测用户的运动状态,如步数、跑步距离、运动速度等;类型与功能智能穿戴设备通过内置的微处理器和传感器来实现其功能。传感器收集用户的生理数据、运动数据和环境数据等,微处理器对这些数据进行处理和分析。当智能手表的心率传感器检测到心率数据后,微处理器会根据预设的算法判断心率是否正常,若出现异常则向用户发出提醒。同时,智能穿戴设备通过蓝牙等无线通信技术与手机或其他智能设备连接,将数据传输到配套的应用程序中,方便用户查看和管理数据。工作原理在具身智能的范畴内,智能穿戴设备使智能更加贴近个人生活。通过对用户生理和运动数据的持续监测与分析,智能穿戴设备能够为用户提供个性化的健康建议和运动指导。结合具身智能的算法,智能手表可以根据用户的实时运动状态和心率变化,动态调整运动计划,如在用户运动强度过高时提醒降低运动强度,在用户运动目标未完成时给予激励。在智能家居控制场景中,智能穿戴设备可以作为控制终端,用户通过简单的手势或语音指令,就能控制家中的智能家电,实现更便捷的生活体验。在具身智能中的作用6.2.3机器人技术:具身的物理载体其他物理载体除了机器人和智能穿戴设备,还有一些特殊的具身物理载体也在具身智能中发挥着作用。无人机在物流配送、测绘、农业植保等领域有广泛应用,它通过多个电机驱动螺旋桨产生升力和推进力,实现飞行。在物流配送中,具身智能的无人机可以根据实时路况和配送地址,自主规划最优飞行路线,将货物准确送达目的地。无人机配备了多种传感器,如视觉传感器用于避障和目标识别,GPS用于定位导航。水下机器人则主要应用于海洋探测、水下作业等领域,它的外壳能够承受水下的高压环境,通过推进器和舵机实现水下的运动控制,借助声呐、水下摄像头等传感器感知水下环境,执行如海底地形测绘、水下设备维护等任务。这些特殊的物理载体在各自的应用领域中,借助具身智能技术,拓展了人类的活动范围和能力边界03具身智能的应用领域Partthree6.3具身智能的应用领域人机交互与协作自主系统与导航医疗健康娱乐与教育具身智能凭借其独特的技术优势,在多个领域得到了广泛应用,深刻地改变着人们的生活和工作方式。6.3.1人机交互与协作辅助机器人与日常生活在日常生活中,辅助机器人正逐渐走进人们的视野。智能陪伴机器人能够理解人类的语言和情感,通过语音交互和肢体动作,为用户提供陪伴服务。当老人独自在家感到孤独时,陪伴机器人可以陪他们聊天、听音乐、讲故事,甚至还能提醒老人按时服药。家务辅助机器人则专注于解决家庭琐事,如前面提到的家用清洁机器人,通过具身智能技术,它能自主规划清洁路径,避开家具和障碍物,完成地面清扫工作。一些高端的家务辅助机器人还具备物品整理功能,通过视觉识别和机械臂操作,将物品分类整理归位。6.3.1人机交互与协作工业生产中的协同作业在工业生产线上,具身智能的协作机器人与人类工人紧密配合。这些协作机器人能够感知人类的动作和意图,在保障安全的前提下,与工人共同完成复杂的生产任务。在汽车制造工厂中,协作机器人可以协助工人进行零部件的装配,机器人利用高精度的传感器和先进的控制算法,准确地抓取和放置零部件,与工人的动作协调一致,大大提高了装配效率和质量。同时,具身智能还使得机器人能够根据生产线上的实时变化,如零部件供应的延迟、产品质量的波动等,灵活调整工作流程和操作方式,增强了生产线的柔性和适应性。6.3.2自主系统与导航自动驾驶汽车与无人机是具身智能在交通领域的典型应用。通过激光雷达、摄像头、毫米波雷达等多种传感器,自动驾驶汽车能够实时感知周围的交通环境,包括道路状况、车辆位置、行人动态等信息。利用机器学习和深度学习算法,汽车对这些信息进行分析和处理,做出决策并控制车辆的行驶。在遇到前方车辆减速时,自动驾驶汽车能够自动减速并保持安全距离;在识别到交通信号灯变化时,能够及时做出停车或行驶的决策。自动驾驶汽车同样借助具身智能实现自主飞行和导航。在物流配送领域,无人机根据预设的路线和实时的环境信息,如天气状况、障碍物分布等,自主规划飞行路径,将货物准确送达目的地。在测绘领域,无人机可以按照预定的航线进行飞行,利用搭载的高清摄像头和测绘设备,对地面进行高精度的图像采集和数据测绘。无人机6.3.2自主系统与导航复杂环境中的自主探索在一些复杂和危险的环境中,具身智能的自主系统发挥着重要作用。在灾难救援场景中救援机器人可以进入倒塌的建筑物、火灾现场等危险区域,进行生命探测和物资运输。这些机器人配备了多种传感器,如热成像仪、气体传感器等,能够在黑暗、烟雾弥漫的环境中感知生命迹象和危险气体浓度。通过自主导航和路径规划算法,机器人能够在复杂的废墟中找到前进的道路,为救援工作提供重要支持。灾难救援场景在太空探索领域,火星探测器等太空机器人利用具身智能技术,在火星表面自主行驶、探测和采样。由于火星与地球之间存在巨大的距离和通信延迟,探测器需要具备高度的自主决策能力,根据火星表面的地形、气候等环境变化,自主调整探测任务和行动策略。太空探索领域6.3.3医疗健康外骨骼与康复机器人外骨骼机器人为行动不便的人群带来了新的希望。对于下肢瘫痪的患者,外骨骼机器人通过与人体的物理连接,感知患者的运动意图,并提供相应的助力,帮助患者实现站立、行走等动作。这些外骨骼机器人利用传感器实时监测患者的肌肉电信号、关节角度等生理数据,通过算法分析患者的运动意图,然后驱动电机为患者的肢体提供精确的助力。康复机器人则主要应用于康复训练过程中,根据患者的康复需求和身体状况,制定个性化的康复训练方案。例如,智能康复机器人可以模拟各种日常运动场景,如上下楼梯、行走在不同地形等,帮助患者进行针对性的康复训练,提高康复效果。6.3.3医疗健康智能诊断与治疗辅助具身智能技术可以辅助医生进行疾病的诊断。通过对患者的医学影像(如X光、CT、MRI等)和生理数据(如心率、血压、体温等)进行分析,智能诊断系统能够快速准确地识别疾病特征,为医生提供诊断建议。医疗诊断手术机器人借助具身智能,实现更精准的手术操作。例如,达芬奇手术机器人具有高度灵活的机械臂和先进的视觉系统,能够在狭小的手术空间内进行精细的操作,减少手术创伤和并发症的发生。同时,手术机器人还可以通过远程控制技术,实现专家远程手术,让优质的医疗资源能够覆盖更广泛的地区。手术治疗6.3.4娱乐与教育游戏与虚拟现实中的互动角色在游戏和虚拟现实(VR)领域,具身智能使得互动角色更加逼真和智能。在一些大型角色扮演游戏中,非玩家角色(NPC)利用具身智能技术,能够根据玩家的行为和游戏场景的变化,做出更加自然和合理的反应。当玩家靠近NPC时,NPC能够主动打招呼并进行对话;在战斗场景中,NPC能够根据玩家的攻击方式和自身的状态,灵活地躲避和反击。游戏在VR游戏中,玩家通过佩戴VR设备和动作捕捉装置,能够与虚拟环境中的智能体进行实时互动。例如,在虚拟射击游戏中,玩家的动作能够实时反馈到游戏角色上,游戏中的敌人也会根据玩家的动作做出相应的躲避和攻击动作,增强了游戏的沉浸感和趣味性。虚拟现实(VR)领域6.3.4娱乐与教育教育机器人与个性化学习教育机器人为个性化学习提供了新的途径。这些机器人可以根据学生的学习进度、知识掌握程度和学习风格,制定个性化的学习计划。同时,教育机器人还可以收集学生的学习数据,分析学生的学习行为和学习效果,为教师提供教学参考,帮助教师优化教学方法和教学内容。智能教育机器人能够通过语音交互、表情识别等方式与学生进行互动,解答学生的问题,引导学生进行学习。在语言学习中,教育机器人可以充当语言陪练,与学生进行对话练习,纠正学生的发音和语法错误。在编程教育中,机器人可以通过图形化编程界面,引导学生进行编程实践,培养学生的逻辑思维和编程能力。04人形机器人Partfour6.4人形机器人人形机器人的内涵人形机器人的发展阶段人形机器人的分类典型人形机器人人形机器人是具身智能的重要形式。埃隆.马斯克曾说,人形机器人将成为历史上最畅销的产品,人形机器人可能会成为家庭和社会生活的核心组成部分,数量可能达到200亿到300亿台,甚至可能形成“机器人军团”,将深刻影响当今的经济和社会结构。6.4.1人形机器人的内涵人形机器人指模仿人类外观和行为,具备较高智能化水平的机器人,与传统工业机器人、服务机器人相比,最大的特点是其与人类相似的“肢体”结构、运动方式和感知方式,并在人工智能大模型的赋能下,从体能、技能、智能三方面,实现对人的模仿。人形机器人具有拟人智能、类人形态和广泛适用三个特点。6.4.2人形机器人的发展阶段人形机器人的发展历程是一部不断突破技术壁垒、迈向智能化的奋进史,历经了萌芽探索、集成发展、高动态发展以及智能化发展这四个关键阶段。在这个时期,人形机器人领域的先驱们将目光聚焦于实现基本的双足行走功能。萌芽探索阶段(20世纪60年代末-90年代)随着控制理论和技术的持续进步,人形机器人的认知能力得到质的飞跃,使其能够独立且稳定地执行复杂动作,运动能力也显著增强。高动态发展阶段(2010年-2022年)进入新世纪,人形机器人迎来了新的发展契机,以感知和智能控制的整合为显著特征。集成发展阶段(本世纪初-2010年)人工智能技术的蓬勃发展为人形机器人注入了新的活力,开启了智能化发展的新篇章。在这一阶段,电驱动成为人形机器人“肢体”的主流技术路线,实现了更精准的行走和操作,同时大幅提高了研发迭代速度。智能化发展阶段(2022年-至今)6.4.3人形机器人的分类人形机器人作为具身智能的重要载体,在形态上模仿人类,具备头部、躯干、四肢等结构,能以类人方式与环境交互。从不同维度可对人形机器人进行如下分类:按研发目的分类按形态分类按功能特性分类按应用场景分类6.4.3人形机器人的分类按应用场景分类在服务领域,人形服务机器人应用广泛。如酒店、餐厅的接待和引导机器人,它们能以类人形象和友好的语音交互,为顾客提供信息咨询、引导就座等服务,提升服务效率和顾客体验。在教育领域,人形教育机器人能充当教学辅助工具,通过生动的肢体动作和互动,辅助教师开展编程、科学实验等课程,激发学生学习兴趣。在家庭场景中,人形陪伴机器人陪伴老人小孩,提供情感交流、娱乐互动等功能,如陪老人聊天、给孩子讲故事等。在工业生产场景,人形协作机器人与人类工人协同作业,凭借其灵活的肢体动作,完成精细装配、物料搬运等任务,提高生产效率和质量。6.4.3人形机器人的分类按功能特性分类具备高灵活性的人形机器人,拥有高度灵活的关节和肢体运动能力,能完成复杂的动作任务,如在舞蹈表演、竞技比赛等场景中,展现出高难度的动作。这类机器人通常采用先进的驱动技术和控制算法,以实现精准的动作控制。还有一类是具备高负载能力的人形机器人,其设计重点在于具备强大的负载能力,能够搬运较重的物体,常用于工业搬运、物流运输等领域,可在仓库中搬运大型货物,减少人力劳动强度。而具备高感知能力的人形机器人,配备了多种先进的传感器,如高精度的视觉传感器、灵敏的触觉传感器等,能够对周围环境进行全面感知,在复杂环境下完成任务,如在灾难救援场景中,准确感知废墟中的生命迹象和环境信息。6.4.3人形机器人的分类按形态分类目前主流的人形机器人可以分成三个大类:6.4.3人形机器人的分类按研发目的分类科研探索型人形机器人主要用于科学研究和技术探索,旨在推动人形机器人技术的发展,验证新的算法、控制理论和机械结构设计,为后续的应用开发提供技术支持。例如,一些高校和科研机构研发的人形机器人,用于研究人机交互、人工智能算法的优化等。商业应用型人形机器人则以满足市场需求、实现商业价值为目标,投入实际生产和应用,如前文提到的服务机器人、工业协作机器人等,通过商业化运营,为企业创造经济效益。而文化展示型人形机器人更多地用于文化传播、展示和娱乐活动,如在主题公园、科技馆中,通过精彩的表演和互动,向公众展示人形机器人的魅力,传播科技文化知识。6.4.4典型人形机器人本田ASIMO本田ASIMO机器人(如图所示)在人形机器人发展历程中意义非凡。自20世纪末开始研发,历经多代升级,ASIMO不断突破技术壁垒,成为集成发展阶段的标志性成果。6.4.4典型人形机器人宇树科技机器人宇树科技的人形机器人在人形机器人领域展现出独特的优势,还登上了2025年央视春晚的舞台(如图所示),为全国观众现场表演“扭秧歌”。从技术层面来看,其机械结构设计精妙,高度拟人化的关节构造与肢体布局,使机器人的动作灵活且自然。在材料选择上,宇树科技采用轻质、高强度的材料,在保障机器人结构稳定性的同时,减轻了整体重量,提升了其运动的敏捷性。6.4.4典型人形机器人特斯拉Optimus特斯拉Optimus是一款极具创新性的人形机器人(如图所示),在人形机器人发展进程中有着独特意义。从技术层面来看,它基于特斯拉强大的人工智能技术与自研的FSD芯片打造。FSD芯片具备超高的运算能力,为机器人的智能决策提供了坚实的硬件基础。通过端到端的神经网络模型,Optimus能够实现任务级和动作级的精准决策,面对复杂多变的环境,它可以快速分析并做出合理反应。05具身智能的挑战与限制Partfive6.5具身智能的挑战与限制技术挑战伦理与法律问题社会接受度与影响6.5.1技术挑战在具身智能系统里,实现精准感知与决策至关重要却困难重重。传感器技术虽有进步,但复杂现实环境下,其获取信息仍存噪声、误差与不完整性,像视觉传感器在特殊光照或遮挡时影响智能体对环境的理解。决策方面,机器学习等算法处理大规模高维数据,计算复杂、训练耗时,难以保证实时与准确决策,如自动驾驶场景中决策偏差或延迟后果严重。感知与决策精确性难题现实环境复杂多变,具身智能系统需强大适应与鲁棒性才能稳定运行。当前技术面对环境变化存在局限,如机器人从室内到室外不同地形、气候环境,原感知和决策模型可能失效,需重新调整。并且,遇到未知干扰或异常情况,系统应对能力不足,如何在复杂环境保持稳定性能是亟待解决的技术问题。环境适应性与鲁棒性难题6.5.2伦理与法律问题随着具身智能的发展,其在伦理层面引发了诸多争议。当智能体具备自主决策能力时,如何界定其行为的道德责任成为难题。同时,智能体的行为可能会对人类的价值观和社会秩序产生影响。人工智能伦理框架下的具身智能具身智能系统在运行过程中,会收集大量的用户数据,包括个人身份信息、生理数据、行为数据等。这些数据的安全存储和使用至关重要,一旦发生数据泄露,将对用户的隐私造成严重侵犯。此外,数据在传输和处理过程中,也面临着被篡改和攻击的风险。隐私保护与数据安全6.5.3社会接受度与影响人类对机器人的态度变化随着具身智能机器人在日常生活和工作中的应用逐渐增多,人类对机器人的态度也在发生变化。一方面,机器人能够为人们提供便利和帮助,提高生活和工作效率,受到部分人的欢迎;另一方面,一些人对机器人的发展存在担忧和恐惧,担心机器人会取代人类的工作,甚至威胁到人类的生存。就业与经济结构的影响具身智能的发展无疑会对就业市场和经济结构产生深远影响。在工业生产领域,自动化机器人的广泛应用可能导致一些重复性、规律性的工作岗位被替代,造成部分工人失业。在物流行业,智能仓储机器人和配送无人机的使用,会减少对人力搬运和配送人员的需求。6.6本章小结通过本章的学习,读者可以深刻理解到具身智能与物理身体及环境的紧密联系,以及这种综合性理解方式对于探索智能深层次机制的重要意义。1在技术支撑方面,我们探讨了实现具身智能所需的关键技术和方法,为理解具身智能的实现提供了基础。2在应用领域部分,我们展示了具身智能在多个领域的广泛应用,体现了其巨大的潜力和价值。3同时,我们也关注了人形机器人作为具身智能重要载体的发展现状。4然而,具身智能的发展并非一帆风顺,本章还深入剖析了其面临的挑战和限制,包括技术瓶颈、伦理道德等问题。这些挑战和限制为我们指明了未来研究和发展的方向,也提醒我们在推动具身智能发展的同时,需要关注其可能带来的社会影响和责任。5本章内容围绕具身智能这一人工智能前沿主题展开,全面介绍了具身智能的基本概念、技术支撑、应用领域以及所面临的挑战和限制。林子雨副教授谢谢观看!厦门大学人工智能通识教程第7章AIGC应用与实践01AIGC概述目录02文本类AIGC应用实践03图片类AIGC应用实践04语音类AIGC应用实践05视频类AIGC应用实践06AIGC技术在辅助编程中的应用07AI搜索01AIGC概述PartoneAIGC的全称为“ArtificialIntelligenceGeneratedContent”,中文翻译为“人工智能生成内容”。这是一种新的创作方式,利用人工智能技术来生成各种形式的内容,包括文字、音乐、图像、视频等。AIGC是人工智能进入全新发展时期的重要标志,其核心技术包括生成对抗网络(GAN,GenerativeAdversarialNetworks)、大型预训练模型、多模态技术等。概念与核心技术AIGC的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频、视频等。核心思想AIGC技术不仅可以提高内容生产的效率和质量,还可以为创作者提供更多的灵感和支持。在文学创作、艺术设计、游戏开发、影视制作等领域,AIGC可以自动创作出高质量的文本、图像、音频、视频等内容。同时,AIGC也可以应用于媒体、教育、娱乐、营销、科研等领域,为用户提供高质量、高效率、高个性化的内容服务。应用7.1.1什么是AIGC大模型与AIGC之间的关系可以说是相辅相成、相互促进的。大模型为AIGC提供了强大的技术基础和支撑,而AIGC则进一步推动了大模型的发展和应用,具体如下:大模型为AIGC提供了丰富的数据资源和强大的计算能力AIGC的需求也推动了大模型的发展大模型和AIGC的结合,也带来了广泛的应用前景0201037.1.2AIGC与大模型的关系AIGC的发展历程可以分成三个阶段:早期萌芽阶段、沉淀累积阶段和快速发展阶段,具体如下:由于技术限制,AIGC仅限于小范围实验和应用,例如,1957年出现了首支电脑创作的音乐作品《依利亚克组曲》。然而,在上世纪80年代末至90年代中期,由于高成本和难以商业化,AIGC的资本投入有限,因此,未能取得许多显著进展。早期萌芽阶段(上世纪50年代至90年代中期)AIGC逐渐从实验性转向实用性,2006年深度学习算法取得进展,同时,GPU和CPU等算力设备日益精进,互联网快速发展,为各类人工智能算法提供了海量数据进行训练。2007年出版了首部由AIGC创作的小说《在路上》,2012年微软展示了全自动同声传译系统,主要基于深度神经网络(DeepNeuralNetworks,DNN),自动将英文讲话内容通过语音识别等技术生成中文。沉淀累积阶段(上世纪90年代至本世纪10年代中期)2014年深度学习算法“生成式对抗网络”(GenerativeAdversarialNetwork,GAN)推出并迭代更新,助力AIGC实现新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年NVIDIA(英伟达)发布StyleGAN模型可自动生成图片,2019年DeepMind发布DVD-GAN模型可生成连续视频。2021年OpenAI推出DALL-E并更新迭代版本DALL-E-2,主要用于文本、图像的交互生成内容。2024年2月16日,OpenAI再次震撼全球科技界,发布了名为Sora的文本生成视频大模型,只需输入文本就能自动生成视频。2024年5月14日,OpenAI公司推出一款名为GPT-4o的大模型,具备“听、看、说”的出色本领。目前,AIGC基本上都采用了大模型技术。快速发展阶段(本世纪10年代中期至今)7.1.3AIGC的发展历程AIGC可以应用于各行各业,主要包括但不限于生成文字、图像、音频、视频等,具体如下:生成商品标题、描述、广告文案和广告图电商写周报日报,写方案,写运营活动,制作PPT,写读后感,写代码办公生成场景原画,生成角色形象,生成世界观,生成数值,生成3D模型,生成NPC对话,音效生成游戏头像生成,照片修复,图像生成,音乐生成娱乐生成分镜头脚本,生成剧本脚本,台词润色,生成推广宣传物料,音乐生成影视7.1.4常见的AIGC应用场景原画绘制,动画生成,分镜生成,音乐生成动漫写诗,写小说,生成艺术创作品,草图生成,艺术风格转换,音乐创作艺术批改试卷,试卷创建,搜题答题,课程设计,课程总结,虚拟讲师教育UI设计,美术设计,插画设计,建筑设计设计软文撰写,大纲提炼,热点撰写媒体制定学习计划,做旅游规划生活7.1.4常见的AIGC应用场景AIGC技术对行业发展的影响深远且广泛,主要体现在以下几个方面:AIGC技术能够自动生成高质量的文本、图像、音频和视频等内容,极大地提高了内容创作的效率。在新闻、广告、自媒体等领域,AIGC已经实现了广泛应用,帮助创作者快速生成多样化、个性化的内容,满足市场需求。这种技术革新不仅降低了内容创作的成本,还激发了创作者的创新灵感,推动了内容产业的繁荣发展。内容创作领域的革新AIGC技术在多个行业中展现了其提升生产力和降低成本的潜力。例如,在游戏开发领域,AIGC技术可以用于场景构建、角色互动等,减少人工制作的工作量,提高开发效率。在制造业中,AIGC技术可以辅助设计、优化生产流程,降低生产成本。这些应用使得企业能够更快地响应市场变化,提升竞争力。生产力提升与成本降低AIGC技术通过提供个性化、定制化的内容和服务,显著提升了用户体验。在智能客服、在线教育等领域,AIGC技术可以根据用户的需求和偏好提供精准的服务,满足用户的个性化需求。这种以用户为中心的服务模式不仅增强了用户的满意度和忠诚度,还为企业带来了更多的商业机会。用户体验的升级AIGC技术的快速发展为传统行业带来了转型升级的契机。通过与AIGC技术的深度融合,传统行业可以探索新的商业模式和服务模式,实现创新发展。例如,在零售业中,AIGC技术可以用于智能推荐、虚拟试衣等场景,提升购物体验并促进销售增长。在金融领域,AIGC技术可以应用于投资策略优化、风险管理等方面,提高金融机构的决策效率和准确性。推动行业创新与转型7.1.5AIGC技术对行业发展的影响AIGC技术对职业发展产生了深远的影响,主要体现在以下几个方面:传统职业的转型升级新兴职业的出现随着AIGC技术的快速发展,一系列与该技术相关的新兴职业应运而生。例如,AI训练师、机器学习工程师、数据标注员等职业需求激增。这些新兴职业不仅要求从业者具备扎实的技术基础,还需要不断学习和掌握最新的AIGC技术动态。AIGC技术也为传统职业的转型升级提供了契机。许多传统职业如编辑、设计师、教师等,在AIGC技术的辅助下,工作效率和创作质量得到了显著提升。同时,这些职业也需要从业者不断适应技术变革,掌握新的技能和工具,以适应市场需求的变化。工作方式的变革AIGC技术改变了传统的工作方式,使得远程工作、灵活办公成为可能。许多企业开始采用AIGC技术来优化工作流程,减少人力成本,提高工作效率。这种变革不仅为员工提供了更加灵活的工作方式,也为企业带来了更大的经济效益。持续学习与技能提升职业发展路径的多样化AIGC技术的发展为职业发展路径提供了更多的可能性。从业者可以根据自己的兴趣和特长,选择适合自己的职业发展方向。例如,一些对AI技术感兴趣的从业者可以选择成为AI训练师或机器学习工程师,而一些具有创意和设计才能的从业者则可以利用AIGC技术来提升自己的创作能力。面对AIGC技术的快速发展,从业者需要不断学习和提升自己的技能水平。通过参加培训课程、阅读专业书籍、参与技术论坛等方式,从业者可以紧跟技术前沿,保持自己的竞争力。7.1.6AIGC技术对职业发展的影响常见的AIGC大模型工具包括:OpenAI的ChatGPT百度的文心一言科大讯飞的讯飞星火阿里的通义千问华为盘古字节跳动豆包Kimi这些工具基于大规模语言模型技术,具备文本生成、语言理解、知识问答、逻辑推理等多种能力,可广泛应用于写作辅助、内容创作、智能客服等多个领域。通过不断迭代和优化,为用户提供更加智能、高效的内容生成解决方案7.1.7常见的AIGC大模型工具AIGC大模型的提示词(Prompt)是指用户向大模型输入的文本内容,用于触发大模型的响应并指导其如何生成或回应这些提示词可以是一个问题、一段描述、一个指令,甚至是一个带有详细参数的文字描述。它们为大模型提供了生成对应文本、图片、音频、视频等内容的基础信息和指导方向。提示词的重要作用如下:提高准确性引导生成增强交互性7.1.8AIGC大模型的提示词使用提示词需要注意一些技巧,这样可以从大模型获得更加符合我们预期要求的结果,主要技巧如下:简洁明确考虑受众分解复杂任务使用肯定性指令示例驱动明确角色遵守规则自然语言回答7.1.8AIGC大模型的提示词02文本类AIGC应用实践Parttwo文本类AIGC利用先进的机器学习和深度学习算法,通过对大量文本数据的分析和学习,自动产生具有创意和质量的文本内容。这些内容包括但不限于新闻报道、广告文案、社交媒体帖子、教材资料、小说故事等。文本类AIGC能够模仿人类写作风格,实现高效、多样、持续的内容创作,为内容生产领域带来了革命性的变化7.2
文本类AIGC应用实践文本类AIGC已经在多个领域得到了广泛应用,主要包括:人工智能写作技术能够快速生成新闻报道,尤其是在突发事件中,能够迅速整合信息并生成初步报道,为传统新闻机构提供有力支持。新闻报道广告商利用AI技术快速生成针对不同受众群体的个性化文案,以提高广告效果。AI写作程序能够分析用户数据,生成符合用户兴趣和需求的广告内容。广告文案企业和个人利用AI写作程序快速创建高质量的社交媒体内容,以提升品牌影响力和用户粘性。社交媒体内容创作智能文本生成还广泛应用于电子商务、人机交互、电子政务、智慧教育、智慧医疗、智慧司法等多个行业和领域。例如,在电子商务中,AI可以生成产品描述、促销信息等;在智慧医疗中,AI可以辅助医生撰写病历、诊断报告等。其他行业AI在文学创作领域也展现出一定潜力。通过深度学习算法,AI可以学习并分析大量文学作品,生成具有一定文学价值的文本内容。虽然目前AI创作的文学作品还难以完全替代人类创作,但其独特的创作风格和视角为文学创作带来了新的可能性。文学创作7.2.1文本类AIGC应用场景7.2.2案例1:与DeepSeek进行对话1.快速体验DeepSeek访问DeepSeek官网(/),会出现如图7-1所示对话界面,在提示词输入框的底部,有两个按钮,即“深度思考(R1)”和“联网搜索”,可以用鼠标点击来选中或取消,默认情况下,“深度思考(R1)”按钮是处于选中状态,“联网搜索”则处于未选中状态。两个按钮的功能如下:(1)深度思考(R1)。表示触发更复杂的多步推理能力,适合需要逻辑链分析的场景,典型使用场景包括数学题/物理题推导、文学作品的隐喻分析、编程问题的架构设计、需要分步骤解释的操作指南等。(2)联网搜索。表示实时获取最新网络信息,适合时效性强的查询,典型使用场景包括查询实时股价/汇率、验证最新科研成果、获取突发事件进展、检索特定网页内容等。7.2.2案例1:与DeepSeek进行对话在提示词输入框中输入“请模仿李白的《望庐山瀑布》做一首诗,题目是《看厦门鼓浪屿》”,然后回车,或者用鼠标点击提示词输入框右侧的箭头按钮,向DeepSeek发起提问。DeepSeek给出的回答如图7-2所示,需要注意的是,大模型属于概率模型,每次生成的回答内容可能不完全相同。1.快速体验DeepSeek7.2.2案例1:与DeepSeek进行对话2.DeepSeek的基本用法(1)基本原则:简单直接,自然表达。①无需复杂结构。直接描述需求即可,无需添加“角色扮演”(如“假设你是专家”)或复杂指令(如“用学术语言分三点回答”)。比如,你可以直接向DeepSeek提问“什么是光合作用?”、“如何用Python写一个计算器程序?”,而不建议使用提示词“请以生物学教授的身份,用三个段落解释光合作用,每段不超过100字”。②多轮对话优化结果。如果首次回答不完整,可通过追问补充细节,无需一次性给出完美提示。比如,第一轮提问“写一首关于秋天的诗”,第二轮提问“加入一些悲伤的情绪”,第三轮提问“把‘落叶’换成比喻句”。(2)不同场景的提问技巧(非必需,但可提升效率)。虽然简单提问即可满足大多数需求,但在复杂任务中,适当提供背景信息或明确需求会让结果更精准,具体技巧包括:①知识类问题。比如,基础提问是“量子力学的基本原理是什么?”,优化后的提问是“用通俗易懂的语言解释量子纠缠,适合高中生理解”,②
创作类任务(写作、编程等)。比如,基础提问是“写一个关于人工智能的科幻短篇故事”,优化后的提问是“写一个反乌托邦主题的科幻故事,主角是女性工程师,结局有反转”。③实用建议(学习、工作等)。比如,基础提问是“如何提高英语听力?”,优化后的提问是“我每天只有30分钟学习时间,有哪些高效的英语听力练习方法?”。④复杂任务(数据分析、代码调试)。比如,基础提问是“这段Python代码报错了,帮我看看问题”,优化后的提问是“我的代码目标是爬取网页数据,但遇到SSL证书错误。报错信息如下:[粘贴代码]”。7.2.2案例1:与DeepSeek进行对话作为初学者,DeepSeek的一些“魔法”指令也很有用,比如,你可以输入“/步骤如何⽤⼿机拍摄旅游照⽚”,DeepSeek返回的回答结果就会按照步骤详细给出拍摄旅游照片的说明,再比如,你可以输入“请解释量⼦计算,然后/简化”,它就会返回比较简明扼要的回答。2.DeepSeek的基本用法表DeepSeek的“魔法”指令指令功能/续写当回答中断时⾃动继续⽣成/简化将复杂内容转换成⼤⽩话/⽰例要求展⽰实际案例(特别是写代码时)/步骤让AI分步骤指导操作流程/检查帮你发现⽂档中的错误7.2.3案例2:与百度文心一言进行对话3.使用DeepSeek处理文档点击DeepSeek界面中的「回形针」图标上传⽂件,支持的文件类型包括文本类(PDF、DOCX、TXT、Markdown)、数据类(CSV、XLSX)和图像类(JPG、PNG)。然后,就可以在对话框中输入提示词,比如,可以输入“总结这份年报的三个核⼼要点”、“提取合同中的责任条款制成表格”、“对⽐⽂档A和⽂档B的市场策略差异”、“从实验报告中整理所有温度数据”、“请识别图片中的文字”等。也可以使用一些指令来处理文档,如表7-2所示。表
用于文档处理的DeepSeek指令功能指令模板应用场景内容摘要/总结[文件名]生成500字摘要快速把握长篇文档核心内容问答提取/问答[文件名]第三章提到的技术参数是?精准定位特定信息数据可视化/可视化[文件名]将销售数据生成折线图转化表格数据为图形分析跨文档对比/对比文件Avs文件B的政策差异合同/论文查重对比还可以要求DeepSeek对回答结果进行结构化输出,比如,可以输入如下提示词:/解析文件
年度报告.docx输出要求:
1.按"营收/利润/成本"分类
2.用Markdown表格对比近三年数据
3.关键增长点用✅标注(1)告诉文心一言你要的风格在输入提示词时,明确指定你希望生成的文本内容的风格。这样,文心一言在理解并处理你的请求时,会更有针对性地调整其生成内容的风格,以满足你的具体需求。比如,可以使用提示词:请按照要求写一篇200字左右关于云计算的介绍。注意事项:文章的受众是中学生,需要通俗易懂,语言风格需要幽默、风趣一些想要生成不同语气风格的文字,可以在问题描述中加入你想要的语气风格作为限定条件,提示文心一言按照你的要求去输出。比如,如果你需要正式语气,可以在提示词中加入“请采用正式的词汇和语法结构,使内容显得庄重、严肃和专业”;如果你需要抒情语气,请在提示词中加入“请使用富有感情和表达感情的词汇,使内容产生共鸣和情绪共振”;如果你需要口语化语气,请在提示词中加入“请运用口语化的表达方式,例如俚语、俗语和口头禅,使内容更加轻松和亲切”。7.2.3案例2:与百度文心一言进行对话(2)告诉文心一言你要的结构在构建提示词时,应明确指定期望的输出结构。比如,如果是要求生成一篇文章,可以在提示词中明确指出“请按照引言-正文-结论的结构来撰写”。这样,文心一言在生成内容时,会遵循这一结构框架,使得输出更加条理清晰、逻辑严密。再比如,如果要撰写给上级领导的方案、报告、总结时,可以使用提示词:请按照【现状/问题/解决方案,数据洞察/问题概览/调研方向,数据/亮点/问题/经验】这个结构撰写一份关于我国芯片行业的总结报告7.2.3案例2:与百度文心一言进行对话(3)告诉文心一言你要的角色在提示词中可以设定具体的角色或视角。例如,在要求创作故事时,可以明确指定“以一位勇敢探险家的视角讲述这段经历”。这样的提示能引导文心一言在生成内容时,从特定角色的角度出发,赋予文本独特的情感色彩和叙事风格。此技巧有助于增强生成内容的代入感和故事性,使内容更加丰富和引人入胜。下面是一段提示词实例:请你作为一个小红书文案撰写高手,为我生成一篇爆款小红书文案,要求:突出酒店的特色,包括海景房、豪华单间、最新装修、免费早餐、无线上网等下面是另一段提示词实例:我希望你能扮演记者的角色,按照我的要求撰写一份新闻调查,要求:调查油罐车不清洗直接运送食用油的事情,不要出现具体企业名称,要给出政府部门的处理态度7.2.3案例2:与百度文心一言进行对话(4)告诉文心一言你的内容要求可以通过详细具体的提示词明确表达内容要求。无论是希望生成的文章主题、关键词汇,还是期望涵盖的信息点、情感倾向,都应在提示词中清晰呈现。这样做能让文心一言更准确地理解用户需求,生成更符合期望的内容。比如,可以通过如下提示词表达自己的内容要求:在6G专利申请方面,中国已经遥遥领先。2021年的数据显示,中国的6G专利申请量占比高达40.3%,稳坐世界第一的宝座。请把上面的数据更新到目前最新的数据7.2.3案例2:与百度文心一言进行对话(4)告诉文心一言你的内容要求如果对输出的内容有比较多的要求或限制,不妨在输入框中将这些内容要求一条一条明确告诉文心一言,比如,可以采用类似如下的提示词:请以小红书的风格,按照以下要求帮我为“海景美食餐厅”写一篇小红书种草文案;内容要求:(1)要有标题、正文(2)标题字数:不超过20个字;尽量简短精炼,要足够吸引眼球,用词浮夸(3)正文分段,层次分明,每段最少100字(4)要用“首先、其次、最后”这种模式(5)整篇文案不要超过1000个字7.2.3案例2:与百度文心一言进行对话(5)告诉文心一言你想写的文体明确指定文体,如散文、小说、诗歌、科技文等,让大模型理解并模拟该文体的语言特点、结构安排和表达习惯,从而输出更具针对性的文本。比如,可以采用提示词“请写一段[中秋赏月]的朋友圈文案,需要采用藏头诗的形式”7.2.3案例2:与百度文心一言进行对话(6)指导文心一言分步解决问题将复杂问题拆解成多个简单、具体的步骤,作为提示词输入给文心一言。这样不仅能降低问题的处理难度,使文心一言更容易理解和响应,还能确保解决问题的过程更加系统、有条理。通过逐步引导,可以逐步逼近问题的解决方案,提高答案的准确性和实用性。比如,如果想让文心一言帮你制定一份旅行规划,可以使用类似如下的提示词:请为我规划一次为期一周的厦门自由行;(1)第1步:列出必去的景点,如厦门大学、鼓浪屿、环岛路、五缘湾、曾厝垵;(2)第2步:根据景点位置安排每日行程,确保交通便利;(3)第3步:推荐几家当地的特色餐厅,包括早餐、午餐和晚餐;(4)第4步:提供一家性价比高的酒店住宿建议,并考虑其位置是否便于游览。7.2.3案例2:与百度文心一言进行对话(7)告诉文心一言你要的示例明确沟通意图,通过具体示例引导大模型理解你的需求。这有助于文心一言更准确地捕捉你的思维框架和期望结果,减少误解。比如,可以使用类似如下的提示词:我是一位高校教师,请帮我写一份工作周报,内容尽量简洁精炼,下面是我本周的工作内容:(1)完成了5个本科生毕业论文修改(2)撰写了教材的一个章节“云计算与大数据”输出要求示例:【本周工作周报】【本周工作进展】本周做了哪些事,产生了哪些结果【下周工作安排】基于本周的结果下周要推进哪些事【思考总结】简要说说本周的收获和反思7.2.3案例2:与百度文心一言进行对话(8)告诉文心一言你要的场景在输入提示词时,应明确描述所需的上下文或环境背景,如“在科幻电影中描述一个未来城市的景象”或“请撰写一封给朋友的生日祝福信,场景设定在海边日落时”。这样做有助于文心一言更好地理解你的需求,生成更符合场景氛围和情境的内容,从而提升输出内容的贴切性和情感共鸣。7.2.3案例2:与百度文心一言进行对话讯飞智文是科大讯飞公司旗下的AI一键生成PPT/WORD的网站平台,是基于科大讯飞星火认知大模型技术基础上开发的一个具体应用,主要功能有文档一键生成、AI撰写助手、多语种文档生成、AI自动配图、模板图示切换功能。这里介绍如何使用讯飞智文快速生成PPT。请首先准备一个包含文本内容的PDF文件,比如,可以从网络新闻报道中复制一段关于2024年7月19日微软蓝屏事件的内容保存到一个WORD文档中,命名为“微软蓝屏.docx”,然后,使用WPS软件打开“微软蓝屏.docx”,把该WORD文档保存成PDF格式,生成“微软蓝屏.pdf”。7.2.4案例3:使用讯飞智文生成PPT访问讯飞智文官网(/),在首页(如图7-1所示)中点击“免费使用”,然后按照网页提示完成注册(推荐使用手机号注册)。7.2.4案例3:使用讯飞智文生成PPT在页面中(如图7-2所示)点击“开始制作”。在出现的页面中(如图7-3所示),选择AIPPT的“文档创建”。然后,在出现的页面中(如图7-4所示),点击“点击上传”,把本地文件“微软蓝屏.pdf”文件上传上去(当然,也可以上传“微软蓝屏.docx”)。然后,在出现的页面中(如图7-5所示),点击“开始解析文档”。之后,页面会显示提示文字“好的,已收到您的要求,让我先为您生成PPT标题和大纲”。过一会儿,就会显示自动生成的PPT标题和大纲,如果你不满意,可以点击页面底部的“重新生成”,如果满意,可以直接点击“下一步”。图7-2开始创作7.2.4案例3:使用讯飞智文生成PPT图7-3选择AIPPT中的“文档创建”7.2.4案例3:使用讯飞智文生成PPT图7-4上传文件7.2.4案例3:使用讯飞智文生成PPT图7-5开始解析文档7.2.4案例3:使用讯飞智文生成PPT在出现的页面中(如图7-6所示),选择你想要的模板配色,比如,这里选择“清逸天蓝”,然后点击页面顶部的“下一步”。经过一段时间以后,页面就会显示自动生成的PPT(如图7-7所示),点击页面右上角的“导出”,就可以把PPT保存到本地电脑中,然后,可以根据自己的需求,自己对PPT继续进行修改和完善。在本地电脑中打开自动生成的PPT,可以看出,AI制作PPT的水平非常专业,逻辑清晰,配图精美,超过了很多PPT初级者的制作水平,可以大大提高普通用户制作PPT的效率和水平。图7-6选择模板配色7.2.4案例3:使用讯飞智文生成PPT7.2.5案例4:学术论文高效阅读步骤1:打开通义千问的效率工具“阅读助手”。通过浏览器,打开大模型工具通义千问,并登录个人账户。如图7-9所示,点击左侧菜单栏的“效率”,进入“工具箱”页面,并在右边的页面上选择“阅读助手”效率工具。7.2.5案例4:学术论文高效阅读步骤2:准备学术论文。从学术数据库(如PubMed、IEEEXplore、GoogleScholar等)下载PDF格式的论文,或者直接使用本教材附带的“学术论文.PDF”文件(可以从教材官网下载)。如图7-10所示,通过拖放文件或点击上传按钮,将论文上传到通义千问的“阅读助手”工具中。7.2.5案例4:学术论文高效阅读步骤3:打开“阅读助手”功能页面。如图7-11所示,点击页面左下角“最近记录”下的已上传论文,进入“阅读助手”功能页面,包括摘要生成、关键词提取、段落总结等。或者也可以点击页面右上角的“上传记录”,待上传的论文解析成功后,点击“立即查看”,也可进入“阅读助手”功能页面7.2.5案例4:学术论文高效阅读步骤4:论文导读模式。如图7-12所示,点击页面右上角“导读”,通过“全文摘要”和“论文速读”,可以快速了解论文的主要内容和研究目的,确保对论文的整体内容有一个初步的了解。7.2.5案例4:学术论文高效阅读步骤5:论文翻译模式。如图7-13所示,点击页面右上角“翻译”,通过“中英互译”,可以将论文翻译成中文,以便进行进一步的阅读。同时,也可以在页面的左半部分,点击页面左下角的翻页,进行原文的对照阅读。7.2.5案例4:学术论文高效阅读步骤6:论文智能问答模式。在阅读过程中,如果有任何疑问或不理解的地方,可以在“阅读助手”页面的右下角的问题输入框中输入相关问题,进入“智能问答”页面,比如,可以输入问题“Qwen2在哪些基准测试中表现更好?”,页面上会自动给出答案,如图7-14所示。工具会根据论文内容提供相关解答,这有助于深入理解论文的具体细节。7.2.5案例4:学术论文高效阅读步骤7:论文“脑图”模式。如图7-15所示,点击页面右上角“脑图”,可以看到工具生成的论文思维导图,帮助我们以可视化的方式理解和组织学术论文的内容。脑图将整篇论文的结构以树状图的形式展示出来,帮助我们快速了解论文的整体框架;通过层级关系,可以清晰地看到各个部分之间的逻辑关系,例如引言、方法、结果和讨论等。7.2.5案例4:学术论文高效阅读步骤8:论文“笔记”模式。如图7-16所示,点击页面右上角“笔记”,在阅读论文时,可以结合脑图提供的结构和关键点,逐段阅读并做笔记。笔记可以记录关键点,可以标记疑问,也可以做部分总结。03图片类AIGC应用实践Partthree7.3图片类AIGC应用实践图片类AIGC应用场景案例1:创意图片生成案例2:AI修图与老照片修复案例3:图片扩展与高清化案例4:智能抠图与图片融合案例5:涂抹消除与局部重绘案例6:AI绘画艺术创作案例7:真实照片转成二次元风格7.3.1图片类AIGC应用场景图像识别图像增强图像修复图像生成7.3.2案例1:创意图片生成这里使用AIGC工具即梦AI,根据给定的主题或描述生成具有创意和艺术感的图片,并探索不同提示词对生成结果的影响。步骤1:打开一站式AI创作平台即梦AI。在浏览器中打开网址/ai-tool/home,注册并登录后,进入如图所示的页面,该平台是一款面向所有用户,满足日常需求的国内领先的AIGC综合平台。7.3.2案例1:创意图片生成步骤2:进入创作界面。点击页面上方AI作图栏里的“图片生成”按钮,进入创作界面,如图所示,创作部分主要分为图片生成和视频生成。接下来将对“图片生成”的具体操作进行介绍。7.3.2案例1:创意图片生成步骤3:确定主题与提示词。首先选择一个主题,例如“梦幻森林中的精灵聚会”。然后,编写不同详细程度的提示词,比如,可以使用提示词“一片充满神秘气息的梦幻森林,树木高大且闪烁着奇异光芒,精灵们身着华丽服饰在森林空地上举办热闹聚会,有魔法元素环绕”,或者也可以使用比较简单的提示词“梦幻森林,精灵聚会”。步骤4:生成图片操作。在左侧的提示词文本框中描述想要生成的图片,首先输入简略提示词“梦幻森林,精灵聚会”,设置生图模型为“图片2.0Pro”,精细度为“5”,图片比例为“16:9”,图片尺寸为“1024*576”,如图所示。7.3.2案例1:创意图片生成然后点击“立即生成”按钮,稍等片刻后,在页面右方的图片生成区就可以看到新生成的4张图,如图所示。接下来,更换为较为详细的提示词:“一片充满神秘气息的梦幻森林,树木高大且闪烁着奇异光芒,精灵们身着华丽服饰在森林空地上举办热闹聚会,有魔法元素环绕”,重复上述生成步骤,其他参数保持一致,可以看到生成了4张新图,如图所示。7.3.2案例1:创意图片生成更换为更加详细的提示词,具体如下:在一片弥漫着古老魔法与无尽神秘气息的梦幻森林深处,高耸入云的树木仿佛直插天际,它们的树干上缠绕着散发着柔和蓝光的藤蔓,树叶则在微风中轻轻摇曳,闪烁着翠绿与银白交织的奇异光芒。月光透过稀疏的树冠,洒下斑驳陆离的光影,为这片森林增添了几分幽静与奇幻。森林的中心地带,一块被精心清理过的空地上,正举办着一场热闹非凡的精灵聚会。精灵们身着用自然界最绚烂色彩编织而成的华丽服饰,有的裙摆轻拂过地面,如同绽放的花朵;有的则佩戴着由露珠和星辰碎片制成的饰品,在灯光下熠熠生辉。他们的笑声清脆悦耳,与远处小溪潺潺的水声交织成一首动人的乐章。聚会中,各式各样的魔法元素无处不在。空中漂浮着几个小巧的魔法灯笼,它们自动排列成各种图案,为聚会提供柔和而神秘的光源。一些精灵手持魔法杖,轻轻一挥便能召唤出绚烂的烟花或是让周围的花朵瞬间绽放。更有精通音律的精灵,以魔法为弦,弹奏出能触动心灵深处的旋律,让整个森林都为之动容。7.3.2案例1:创意图片生成重复上述生成步骤,其他参数保持一致,生成结果如图所示。7.3.2案例1:创意图片生成步骤5:结果分析与对比。观察并对比几组提示词生成的图片。从画面丰富度、元素契合度、艺术感染力等方面进行评估。分析提示词的详细程度、描述准确性如何影响生成图片的质量和内容呈现。从三组提示词结果中分别选取一张较为满意的图片作为对比,如图所示。7.3.3案例2:AI修图与老照片修复这里使用百度AI图片助手,对一张普通照片进行修图优化,并对一张有损坏的褪色的老照片进行修复,对比修图前后效果并分析不同修复策略。步骤1:打开百度AI图片助手。在浏览器中打开网址/,进入百度AI图片助手页面,如图所示。7.3.3案例2:AI修图与老照片修复点击右上角的“登录”按钮,注册登录成功后,点击搜索框下方的AI创作工具区域,比如“变清晰”,即可进入百度AI图片助手页面,如图所示。7.3.3案例2:AI修图与老照片修复步骤2:上传照片。点击中间的“上传图片”按钮,上传一张普通人物照片“普通人物照片.jpg”(可以从教材官网下载),照片存在光线较暗、清晰度不够等问题,如图所示。7.3.3案例2:AI修图与老照片修复步骤3:普通照片修图操作。上传完毕后,AI图片助手默认使用“变清晰”功能,自动生成了效果图,如图所示。7.3.3案例2:AI修图与老照片修复步骤4:保存图片。画质增强后,照片提高了亮度使人物面部更清晰,增加了色彩饱和度,使用细节增强算法突出了头发和眼睛等部位的细节。如果觉得效果满意,点击右下方的“下载”图标即可进行保存,修图效果如图所示。7.3.3案例2:AI修图与老照片修复步骤5:打开魔搭社区的AI老照片修复。打开网址“/studios/iic/old_photo_restoration/”。进入如图所示页面。7.3.3案例2:AI修图与老照片修复步骤6:上传老照片。点击中间的“登录”按钮进行注册登录,然后点击左侧的“点击上传”区域,开始上传图片,上传一张黑白老照片“黑白老照片.png”(可以从教材官网下载),要对其进行修复上色,如图所示。7.3.3案例2:AI修图与老照片修复步骤6:老照片修复。上传图片后,分别选择左侧的“重新上色”、“应用图像去噪”和“应用色彩增强”为“是”,然后点击“一键修复”按钮,观察照片在色彩、去噪等方面的变化,如图所示。7.3.3案例2:AI修图与老照片修复步骤7:保存图片。重新上色、去噪和色彩增强后,照片色彩更加生动,同时AI算法突出了面容、服饰等部位的细节。如果觉得效果满意,点击效果图右上角的“下载”图标即可进行保存,修复效果如图所示。7.3.4案例3:图片扩展与高清化这里使用百度AI图片助手,对一张尺寸较小且分辨率较低的图片进行扩展放大并提升清晰度。步骤1:打开百度AI图片助手。如之前实验操作一样,导入一张300×200像素的小尺寸山区风景图“低分辨率山区风景图.png”(可以从教材官网下载),图片存在模糊和锯齿现象,如图所示。7.3.4案例3:图片扩展与高清化步骤2:图片扩展操作。上传完图片后,图片助手默认进行了一次“清晰化”操作,我们可以看到图片效果变清晰了,选择右侧的编辑方式为“AI扩图”,选择拓展比例为“1:1”,如图所示。7.3.4案例3:图片扩展与高清化步骤3:保存图片。点击右下方的“立即生成”按钮,稍等片刻后,点击“下载”,得到一张1024×1024像素的AI扩展图,如图所示。7.3.5案例4:智能抠图与图片融合这里使用即梦AI,对两张图片分别进行智能抠图,然后将抠出的主体进行创意叠加合成,探索不同叠加方式和抠图精度对合成效果的影响。步骤1:打开即梦AI的智能画布页面。在浏览器中打开网址/ai-tool/image-edit,进入如图所示的页面。7.3.5案例4:智能抠图与图片融合步骤2:上传人物图片。点击左侧的“上传图片”按钮,上传需要去除背景的图片,笔者选择了一张小女孩骑单车的照片“小女孩骑单车.png”(可以从教材官网下载),如图所示。7.3.5案例4:智能抠图与图片融合步骤3:抠图操作。照片导入后,点击照片上方的“抠图”按钮,智能画布将自动识别人像主体区域,然后,点击下方的“抠图”按钮,即可实现智能抠图,如图所示。7.3.5案例4:智能抠图与图片融合步骤4:保存图片。可以观察工具自动识别并抠取人物主体的效果(如图7-39所示),通过缩放图片来检查人物边缘是否存在毛边或误抠现象,比如,这里可以看到小女孩的头发并没有被完整抠取,可以选择图片上方功能区的“画笔”、“橡皮擦”等功能进行调整,如果对抠图效果满意,可以点击“完成编辑”按钮,再点击右上角的“导出”按钮保存图片。7.3.5案例4:智能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 碧桂园成本部主管面试题库含答案
- 电力系统工程师笔试题及模拟试卷含答案
- 2025年城市灾害防治体系建设可行性研究报告
- 2025年数字广告投放平台优化项目可行性研究报告
- 2025年空间信息与遥感技术应用可行性研究报告
- 2025年数字化个人助理开发可行性研究报告
- 2025年可持续固废处理与利用项目可行性研究报告
- 2025年信息安全技术应用项目可行性研究报告
- 2026年鹤岗师范高等专科学校单招职业技能测试题库及完整答案详解1套
- 2026年河北能源职业技术学院单招职业技能考试题库及答案详解1套
- 初三励志、拼搏主题班会课件
- Cuk斩波完整版本
- GB/T 3521-2023石墨化学分析方法
- 一年级数学重叠问题练习题
- 三维动画及特效制作智慧树知到课后章节答案2023年下吉林电子信息职业技术学院
- 胰腺囊肿的护理查房
- 临床医学概论常见症状课件
- 物业管理理论实务教材
- 仁川国际机场
- 全检员考试试题
- 光刻和刻蚀工艺
评论
0/150
提交评论