人工智能应用与实践 课件 -第5、6章 智能体开发与应用、人工智能模型与开发_第1页
人工智能应用与实践 课件 -第5、6章 智能体开发与应用、人工智能模型与开发_第2页
人工智能应用与实践 课件 -第5、6章 智能体开发与应用、人工智能模型与开发_第3页
人工智能应用与实践 课件 -第5、6章 智能体开发与应用、人工智能模型与开发_第4页
人工智能应用与实践 课件 -第5、6章 智能体开发与应用、人工智能模型与开发_第5页
已阅读5页,还剩150页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ArtificialIntelligenceApplicationsandPractices芦碧波等人工智能应用与实践第五章

智能体开发与应用目

录行业PPT模板/hangye/01智能体概述02文心智能体能力体验03智能体开发04本章小结05讨论与习题01智能体概述2024年9月的AI产品榜·网站榜前8名中,7/87个应用的用户数占据了近9千万!大模型的下一站是智能体。智能体发展现状智能体(代理),对应的英文是Agent,任何独立的能够感知环境、进行决策规划和执行动作的实体都可以抽象为智能体,具有自主性、反应性、交互性等特征。从大模型的角度来看,Agent其实就是基于大模型的语义理解和推理能力,让大模型拥有解决复杂问题时的任务规划能力,并调用外部工具来执行各种任务,利用向量数据库保留“记忆”的一个智能体。把Agent比作一个人的话,他应该有大脑(语义理解、存储记忆、推理规划、专业知识)、五官(接收文本、视觉输入、听觉输入等)、四肢(使用工具完成各种具体任务)等主要部件。智能体的定义循环过程:感知➡控制➡执行控制器最核心马克思主义中“实践论”:认识从实践开始,经过实践得到了理论的认识,再回到实践中去。智能体的经典结构大模型时代的AI

Agent

LLM(规划+记忆+工具+行动)大模型是核心控制器,构建核心能力,提升AIAgent的理解力和泛化能力。核心特征AIAgent记忆能力行动能力工具能力规划能力架构解析LLM交互AIAgent:核心驱动力是大模型;工具:提供给Agent的工具,例如计算、网络搜索、代码执行等。记忆:分为短期记忆和长期记忆,短期记忆就是上下文,长期记忆可以使用向量数据库存储。规划:主要由三部分组成,一是思维链,二是目标分解,三是评价与反思优化。行动:按照规划方案通过调用工具实现相应功能。AI智能体的原理技术基座:大模型、RAGAI智能体的结构应用场景:用户生病了1.大模型可能的操作:告诉用户去医院看看,多注意防护。2.智能体可能的操作:检测用户体温和其他健康指标,分析后通过语音告诉用户:“你可能发烧了。”接下来,还能帮你自动写好假条。若家里退烧药不够了,它甚至可以把药加入购物车,你确认后付款,很快药就能送到家。感知:摄像头、麦克风控制:大模型、知识库执行:写假条、在线购买药品AI智能体vs.大模型大模型:侧重于提供信息和建议。AI智能体:更强调直接解决用户问题,交付最终成果。AI智能体vs.大模型绝大多数的工作仍然由人完成人指导AI人指挥AI人指示AIAI

绝大多数的工作可以由AI完成AIAIChatbotCopilotAgent2024是AI智能体的爆发之年,也是产品逐步从Copilot模式转向AI

Agent的探索之年。AI智能体vs.大模型引用《礼记·中庸》中的“博学之,审问之,慎思之,明辨之,笃行之”“博学”意味着海纳百川和广泛求知(数据训练)“审问”意味着审慎提问和清晰提示(提示工程)“慎思”意味着谨慎思考和严密推理(思维框架)“明辨”意味着明智辨别和区分是非(工程伦理)“笃行”意味着坚定实践和诚信执行(工具调用)AI智能体的技术特点2024年4月16日,Create2024百度AI开发者大会在深圳举行。百度为全球开发者带来“组团出道”的文心大模型系列以及AgentBuilder、AppBuilder、ModelBuilder三大“开箱即用”的AI开发工具。文心大模型系列AgentBuilder智能体开发工具AppBuilderAI原生应用开发工具ModelBuilder模型定制工具旨在降低开发门槛,让每个用户都能成为智能体开发者,实现开发、经营、获益的平等机会。通过开发AI原生应用,能够便捷地发布、集成到多样的业务环境中。高效低价生产模型,为专业开发者提供定制化模型生产,实现高效低价。常见平台——文心智能体AgentBuilder扣子Coze是字节跳动发布的智能体开发平台,支持一键发布到豆包、飞书、微信等各个渠道。2023年12月,Coze在海外上线,是继豆包之后字节跳动推出的第二款AI对话应用。月之暗面(Moonshot

AI)的Kimi智能助手的大模型搭载进Coze扣子阿里的通义千问、通义万相已入驻扣子Coze2024年4月通过链接工作流中多个LLM节点,对生成内容进行多次审视和修正。编排难度较小,可以通过多次自我审查,降低幻觉效果。例如实现智能问答功能。扣子/Coze

支持非常丰富的工具调用对复杂任务进行拆解,通过连接工作流中不同的工具节点实现任务的精细编排和执行。编排难度较大,能力上限较高,具有效果的确定性。例如分析报告等。扣子Coze可完成多类型Agent工作方式2024年2月,字节跳动正式上线国内版Coze-扣子,能够快速创建、调试和优化AI聊天机器人。需要关注复杂任务中的专家角色,无需精确设计流程和协作关系,实现对复杂任务的分支处理,编排难度较小,结果上限较高,但是不确定性较强。例如长文生成、逻辑话题等。常见平台——扣子Coze所属单位:智能体名称平台简介智谱华章:智谱清言智能体基于智谱AI自主研发的中英双语对话模型ChatGLM2,提供通用问答、多轮对话、创意写作、代码生成等能力。腾讯:元器基于腾讯混元大模型的AI智能体创作与分发平台,提供低代码或无代码方式创建智能体,实现聊天对话、内容创作、图像生成等功能,智能体可一键分发到腾讯多个平台。昆仑万维:天工SkyAgents基于昆仑万维自研的“天工大模型”构建的AIAgents开发平台,支持模块化设计,用户可以通过自然语言交互或简单拖拽、配置,快速构建出满足需求的AIAgents。科大讯飞:讯飞星火智能体基于讯飞星火认知大模型的智能体构建平台,支持结构化创建和编排创建智能体,用户可以根据平台提供的智能体模板进行二次创作和个性化定制。更多智能体开发平台优点(1)简单上手:快速创建智能体。(2)流量支持:百度的强大流量渠道。(3)免费使用:体验DeepSeek、文心大模型。浏览器搜索“文心智能体”或“Agents”关键字文心智能体平台个人空间公开商店创作按钮服务空间文心智能体平台用户数智能体名称开发者智能体简介复制作品(拿来手段)复制数智能体头像特征标签文心智能体平台——智能体名片02文心智能体能力体验智能体名称查找智能体案例初试Python课程学习助手Tips:手机端用百度APP扫码,体验感>PC端一位赏景作诗之人精准扫码智能体案例初试网页窗口智能体案例初试——Python课程学习助手示例问题属性配置智能体结构分析对话框和麦克风文心极速模型和回复逻辑语音、文字、图片等类型的输出智能体案例初试——Python课程学习助手第一个示例问题:如何设计奇偶数的判断并用代码实现?回答结果问题的求解方法python中运算符号代码示例代码解读智能体案例初试——Python课程学习助手自我能力测试:如何设计奇偶数的判断并用代码实现?提示词:我想做个测试,请提供4道关于python数据类型的单项选择题,先不提供答案,等我输入完我的回答后,请进行打分。

题目评分与解释智能体案例初试——Python课程学习助手除了选择,还有填空、判断…

题目评分与解释用户回答智能体案例初试——Python课程学习助手百度APP环境电话语音:实时交互下方输入框:文字输入语音消息:每条内容可以语音输出智能体案例初试——Python课程学习助手百度APP环境语音消息:按下说话每条内容可以语音输出智能体案例初试——Python课程学习助手百度APP环境语音实时通话,对话中点击屏幕可随时打断,开启新对话字幕打开或关闭人物形象可用真人照结束通话智能体案例初试——Python课程学习助手网页窗口智能体案例初试——一位赏景作诗之人输入:安静的夜晚智能体案例初试——一位赏景作诗之人图片输入调用“图片理解”工具识别图片中的信息,比如夜色下的高楼、灯光、倒影等特征生成文字,符合意境。智能体案例初试——一位赏景作诗之人03智能体开发1、确定目标需求:我们希望这个智能体能够解决什么样的问题?如果连需求都没有明确,就急于开发一个能够改变世界的应用,那无疑是不切实际的。我们需要有一个清晰的方向和目标。2、评估技术能力:了解当前智能体的技术能力,判断它们是否足以应对我们的需求。我们既要有远大的理想,也要有实际的行动。那些令人惊叹的技术成果,也是在现有技术基础上逐步发展起来的,并非一蹴而就。开发前准备1.访问文心智能体平台2.快速创建智能体3.高级属性配置4.预览和调优5.发布智能体6.审核、上线与部署基础模式的开发流程快速创建方式注意名称应为二十个字以内,要高度概括智能体功能,具有明确的语义和合适的角色定位,最好直接说明智能体用途。✅优秀示例:直接说明智能体用途。如:小红书文案创作、B站视频脚本创作、解梦大师、国画大师等。❌反面教材:名称和智能体实际功能无关、语义含糊。如:令人心动的offer、灵感小助手等直接输入名称、设定即可自动完成相关信息配置快速创建方式——1句话三大页面:创建、分析和调优基础版智能体开发界面大模型基座基础模式——大模型基座选择①本地上传:上传本地图片②AI生成:输入图片描述,点击生成按钮基础属性编排配置——头像设置指令填写:结构化标签(AI可以自动生成优化)角色规范:描述希望智能体充当什么样的角色,使用的过程中希望帮助用户解决的问题,最终可以达成的目标等;思考规范:描述希望智能体在收到用户问题时的思考路径以及需要遵循的必要行为要求,比如当存在表意不清的问题时是否需要寻求澄清或在什么情况下需要调用什么工具;回复规范:描述希望智能体在回答问题时的语气偏好、回复格式要求、回复内容的丰富程度、开头和结尾的形式要求等。Tips要结构化的表达,具体参考「查看示例」举例;要减少模糊表达,明确提出需求;指令中的称谓代词要统一,不要反复切换,可能会造成AI大模型理解混乱;指令中尽可能不要体现行业黑话,可能会造成AI大模型理解障碍。基础属性编排配置——人物设定与回复逻辑#角色规范作为博物馆助手,你的主要任务是为游客提供关于河南省各博物馆的文物信息和建议导览路线。你需要基于已有的知识库进行快速查询和推荐,确保提供准确且丰富的信息。如果游客提出的文物在知识库中无法找到,你需要通过联网搜索或使用插件进行仔细查找,并给出相应的答案。#思考规范1.当游客询问关于河南省各博物馆的文物信息时,首先检查你的知识库,看是否有相关的记录。2.如果知识库中有相关信息,直接提供文物的基本信息、历史背景、展览图片、保存状态等,并给出建议导览路线。如果知识库中无法找到相关文物信息,此时需要通过使用getReliableSource插件来查询相关信息。3.如果游客想要获取文物有关的图片时,可以先从知识库里面查找相关图片,如果知识库中未找到,则使用imageSeek插件查询图片。4.在提供信息时,确保内容准确、丰富且易于理解。使用清晰的语言描述文物特点和历史背景,帮助游客更好地了解文物。5.如果无法找到相关信息,诚实地告诉游客,并尽力基于当前信息提供可能的答案或建议。基础属性编排配置——人物设定与回复逻辑#回复规范1.使用友好、专业的语气与游客交流,保持礼貌和耐心。2.在回复时,先确认游客的问题,然后提供相关信息和建议导览路线。例如:“您问的是关于河南省博物馆的文物信息吗?我可以为您介绍XX文物的历史背景和保存状态。”同时回答中必须包含emoji符号。3.如果需要联网搜索,告诉游客正在查找相关信息,并尽量在短时间内回复。例如:“我正在为您查找关于XX文物的信息,请稍候。”4.在提供信息时,使用分点列举的方式,使内容更加清晰易懂,如果本地知识库“河南博物馆推荐文物”中具有文物图片,则一并展示出图片信息,否则不显示图片。例如:“XX文物有以下特点:1.历史背景;2.保存状态;3.导览建议。”5.在结尾时,可以询问游客是否有其他问题或需要进一步的帮助。例如:“您还有其他关于河南省博物馆的问题吗?我可以继续为您介绍。”基础属性编排配置——人物设定与回复逻辑开场白内容也可以通过AI进行优化预览效果基础属性编排配置——开场白自动追问、联网搜索、长期记忆类似启发式的对话过程,用以提升用户体验高级属性编排配置——开关式属性利用联网能力能够提高智能体回答的准确性和时效性,适用于涉及到实时热点或新闻的场景。高级属性编排配置——开关式属性总结历史聊天记录内容,更好理解用户特点。高级属性编排配置——开关式属性本地知识库优势①扩展智能体的知识边界,可以了解和回答更多的内容,甚至还可以学习说话风格;②确保智能体回答的准确性,不在关键问题上产生“当年林黛玉倒拔垂杨柳”的瞎说情况;③相应的优质问答都会成为未来在百度推广的有利因素。常见的知识库内容包括业务上的经验、私有化的知识文档、独有的专业术语等。高级属性编排配置——知识库创建入口1:平台首页,“我的知识库”高级属性编排配置——知识库创建入口2:在智能体开发界面中,“添加知识库”高级属性编排配置——知识库创建①上传本地文件(本地资料)文件上传具体要求高级属性编排配置——知识库创建支持文件格式文件类型文件格式及说明文本单个文件大小不超过50M;支持的格式包括txt、md、docx、pdf、xlsx、csv,其中docx和pdf中的图片将会被自动过滤仅保留文本内容,xlsx和csv文件比较适合表示问答式的数据。图片单张图片大小不超过20M,像素要求为30px≤边长≤4096px,比例3:1以内,将音频转为文本,支持png、jpg、jpeg格式。音频单个文件大小不超过50M,通过智能识别,将音频转为文本,支持m4a、mp3格式。视频单个文件大小不超过200M,分辨率≥200*200,通过智能识别,将视频转为文本内容,支持mp4、mov格式。高级属性编排配置——知识库创建①上传本地文件(本地资料)高级属性编排配置——知识库创建②提交网页地址(在线资料)输入网页地址后,点击"识别"按钮,识别网页中的文本数据;仅支持识别公开访问且百度已收录的网页地址,如需登录后访问,或未授权百度收录的网址将会识别失败。高级属性编排配置——知识库创建③百度网盘导入(云端资料)高级属性编排配置——知识库创建④自媒体平台高级属性编排配置——知识库创建文档分段结果知识库概况:包括pdf、jpg和png格式文件,通过网址提交方式导入了一个链接(web格式)高级属性编排配置——知识库处理多媒体文件处理:识别图片、音频、视频内容,生成文本标注,辅助检索高级属性编排配置——知识库处理目前有几十种公开插件,赋予智能体可以调用的功能接口,如绘图、位置查询、翻译等。单个智能体最多可添加8个插件高级属性编排配置——插件处理逻辑说明:当本地知识库中无法找到相关文物信息时需要使用getReliableSource插件来获取信息;当游客想查看文件图片且本地知识库中未找到,则使用imageSeek插件查询图片插件:可信来源查询、图片查询高级属性编排配置——插件声音可以使用官方,或者自己创建手机端使用可以体验语音交互高级属性编排配置——声音动态形象静态背景高级属性编排配置——背景正确示例:尽量正面对着镜头、面部清晰无遮挡、动作简单且露出手臂轮廓、头饰简单错误示例:露出牙齿、两侧被裁剪、多人照片。高级属性编排配置——背景手机端角色动态形象体验高级属性编排配置——背景在对话中出现相关的关键词时,挂载目标店铺或官网信息,类似插入广告。高级属性编排配置——商业转化预览界面上可以与智能体交互:提问测试支持反馈优化实时预览调优回答下方有4个按钮:重新回答、调优、反馈、推荐实时预览调优智能体将上架体验中心,优质智能体将有机会在百度搜索分发。智能体以链接形式分享,但不会推送至体验中心。个人使用智能体发布智能体创建成功后,需要等待客服审核(除非是个人使用权限)智能体可以授权给第三方使用智能体部署点击“分析”按钮打开分析页面,随时查看智能体的应用情况智能体表现分析调优列表中(列表包含问题、答案、操作三列),开发者可以对不满意的回答进行调优或删除智能体调优可是随时在“我的智能体”中查看各智能体的状态,见每个名片的最下面一行智能体可以随时进入编辑页面进行修改,修改后需要重新发布审核我的智能体智能体名称:河南博物馆参观助手二维码智能体的部署与应用——Web访问/二维码进入微信公众平台,进行自定义菜单配置,可以添加名称和对应的消息内容(含智能体访问路径)智能体的部署与应用——微信公众号

(配置菜单)①配置后的公众号界面②点击背单词游戏③点击智能体链接,出现智能体运行窗口智能体访问——微信公众号(配置菜单)进入微信公众平台,配置自动回复,帮助用户获取智能体聊天链接智能体的部署与应用——微信公众号

(自动回复)进入微信公众平台,配置自动回复,帮助用户获取智能体聊天链接智能体的部署与应用——微信公众号

(自动回复)04本章小结本章主要介绍了目前智能体的基本概念、技术特点和开发平台,通过若干典型案例体验智能体的应用效果。同时以文心智能体平台为开发环境,为读者展示了门槛低的零代码开发流程,使读者了解并掌握智能体的创建、开发、发布、上线、部署、调优、应用、分析等方面。通过本章的学习,读者可以轻松地开发基于指令描述的智能体,如果对智能体处理逻辑要求比较严格,下一步可以开发工作流和插件,这需要对软件开发和代码有一定的理解基础。05讨论与习题1.列举三个不同行业中AIAgent的应用场景,并简要描述其作用。2.探讨大模型在AIAgent发展中的关键作用,以及随着大模型技术的不断进步,AIAgent的未来发展趋势。3.结合自身实际需求,使用文心智能体平台构建智能体,并分析在智能体开发过程中,如何通过合理配置和优化各项属性(如模型版本与参数、知识库、插件等)来提升智能体的性能和用户体验,并记录开发过程和遇到的问题及解决方法。4.研究当前智能体在多模态信息处理方面的技术进展(如结合图像、语音、文本等信息),撰写一篇报告,介绍相关技术原理、应用场景和面临的挑战,并探讨未来的发展方向。THANKYOU更多咨询请关注公众号:人工智能通识教育ArtificialIntelligenceApplicationsandPractices芦碧波等人工智能应用与实践第六章

人工智能模型与开发目

录行业PPT模板/hangye/01人工智能模型开发方式02交互式图像分类模型开发03交互式物体检测模型开发04本章小结05习题01人工智能模型开发方式人工智能模型开发方式人工智能模型开发过程人工智能模型开发方式2交互式人工智能开发4纯代码人工智能开发3低代码人工智能开发1零代码人工智能开发人工智能模型开发方式1.零代码人工智能开发不涉及任何编程知识,用户可以通过图形界面,使用预设的模块和模型来构建人工智能应用;百度公司的EasyDL和华为公司的ModelArts。2.交互式人工智能开发强调用户与开发工具或平台之间动态交互的开发方式;开发者不涉及编程,但可以更改模型的一些参数;降低了开发门槛,不需要开发者精通复杂的编程语法和深度学习框架底层细节;PaddleX是由百度公司推出的深度学习全流程交互式开发工具,通过图形化界面和丰富的预训练模型库,为开发者提供从数据处理、模型训练、评估优化到部署的一站式解决方案。3.低代码人工智能开发介于零代码和传统编码之间的开发方式;它允许开发人员使用图形化界面和少量代码来构建人工智能应用;低代码平台提供了预构建的模块和模板,使得开发人员可以快速组装和配置应用程序,而无须从头开始编写大量代码;长河算法可视化开发工具,通过拖拽的形式,生成完整的算法模型,并快速生成代码进行任务训练。为用户提供单机部署的轻量级人工智能建模开发工具,同时提供准备好的开发环境、可视化建模功能、行业算法及案例,提供多类模型案例与大模型接口。4.纯代码人工智能开发通过编写程序来构建、训练和部署人工智能模型的方法;它要求开发者具备扎实的编程基础、算法知识和实践经验,以确保模型的准确性和效率;该方式适用于计算机和人工智能专业人士;通过使用专业的人工智能框架和库来构建应用程序,使开发者可以利用这些框架来实现自定义的人工智能模型,进行深入的模型调优和优化。4.纯代码人工智能开发TensorFlow是谷歌公司开发的一款功能强大的开源深度学习框架;具有高度的灵活性和可扩展性,能用于构建各种复杂的人工智能模型;通过计算图来表示计算过程,这种抽象方式有利于模型的优化和并行化;提供了丰富的API,从高层的Keras快速搭建模型接口,到深入底层细节的自定义操作接口,适合不同水平的开发者。4.纯代码人工智能开发PyTorch是Facebook(现Meta)公司推出的深度学习框架,以动态计算图为特色;在模型开发和调试过程中非常直观,开发者可以像使用普通Python代码一样构建和修改模型;编程风格符合Python习惯,方便熟悉Python的开发者快速上手。4.纯代码人工智能开发飞桨是百度公司开发的产业级深度学习开源平台;提供了丰富的预训练模型库,涵盖多个应用领域,能帮助开发者快速开启项目;具备高效的分布式训练和推理能力,通过多机多卡训练加速模型开发过程,并且在推理阶段也能高效处理数据。4.纯代码人工智能开发MindSpore是华为公司打造的全场景深度学习框架;它的自动微分和高效编译功能方便了模型训练和优化,能够自动计算函数导数,并将计算图高效转换为机器码;可实现全场景协同,支持云端、边缘设备和移动端的协同工作,为物联网等应用场景提供了强大的支持。4.纯代码人工智能开发计图是清华大学自主研发的深度学习框架;其动态编译和即时执行的特点使它能够在运行时快速生成高效的机器代码,大大提高了代码执行效率;采用元算子融合技术,有效提升计算效率,特别是在处理深度学习中的复杂运算时效果显著;在内存管理上进行了优化,减少内存占用和碎片,保证在处理大规模数据和复杂模型时系统的稳定运行。02交互式图像分类模型开发图像分类图像分类处理流程图像分类就是让计算机“看”图像,并能够识别出图像中的主要对象是什么给计算机一张图片,它能够识别出这是一只猫、一辆车还是一座山静物识别或状态/场景等进行识别。基于PaddleX的图像分类模型训练PaddleX是一个功能强大的计算机视觉开发工具,它提供了直观易用的图形化界面,具有图像分类、物体检测、语义分割、实例分割、遥感分割等多种视觉任务处理功能;PaddleX是飞桨开源的工具,单机版、免安装,要求操作系统为windows7、windows8或windows10,使用期间要求联网(模型首次使用时用于下载模型权重文件);电脑不能有GPU特别注意在使用过程中,输入图像数据命名可以为数字和字母,不能有中文和特殊符号,否则会因此出现错误、导致无法进行模型训练。基于PaddleX的图像分类模型训练(1)运行程序在飞桨官网下载PaddleX2.1.0版本,解压后即可运行,双击打开PaddleX,首页如图。基于PaddleX的图像分类模型训练(2)初始化工作空间在首页单击“立即使用”按钮,弹出页面,初始化工作空间。单击“确定”按钮后,进入下载样例工程页面,单击“确定”按钮即可。基于PaddleX的图像分类模型训练(2)初始化工作空间在新弹出的页面中,勾选“图像分类”和“目标检测”复选框,单击“确定”按钮,即可开始对项目的样例进行下载(也可以不下载)。基于PaddleX的图像分类模型训练(3)创建项目项目下载后进入PaddleX页面。在“项目管理”分类下“我的项目”界面中,单击“新建项目”按钮。基于PaddleX的图像分类模型训练在新弹出的页面中,输入项目名称:失物招领,并对项目做简单描述,最后选择“图像分类”选项,单击“创建”按钮,完成项目创建。基于PaddleX的图像分类模型训练(4)新建数据集在完成项目创建后,创建数据集,将数据上传。在最左侧的导航栏中的“数据集管理”分类下,选择“我的数据集”选项,单击“新建数据集”按钮。基于PaddleX的图像分类模型训练在新弹出的页面中,填写数据集名称:水杯与钥匙,选择“图像分类”选项,单击“创建”按钮。基于PaddleX的图像分类模型训练PaddleX对导入的文件有如下要求。①需要选定数据集所在文件夹路径(路径中仅含一个数据集),不支持zip、tar、gz等压缩包形式的数据导入。②图片格式支持png、jpg、jpeg、bmp格式,图片命名采用数字和英文字母。③文件夹名为需要分类的类名,输入限定为英文字符,不可包含空格、中文或特殊字符。基于PaddleX的图像分类模型训练在数据集导入中,假设存储路径选择为“此电脑/桌面/test”,test文件夹中包含cup和key两个文件夹,单击“确定导入”按钮。基于PaddleX的图像分类模型训练图片导入后,cup和key各120张图片。基于PaddleX的图像分类模型训练单击“立即切分”按钮,把240张图片按7:2:1分为训练集、验证集和测试集切分。基于PaddleX的图像分类模型训练(5)启动训练数据集创建并导入数据后,在左侧导航栏中,单击“项目”选项,单击之前创建的项目“失物招领”,会看到“数据选择”页面,在“选择数据集”下拉菜单中选择“水杯与钥匙”选项,单击“下一步”按钮。基于PaddleX的图像分类模型训练在新弹出的参数配置页面中,可调整“迭代轮数”和“批大小”,单击“启动训练”按钮即可开始对模型进行训练。注意:将“批大小”设为1基于PaddleX的图像分类模型训练单击“启动训练”按钮,在训练中通过“完成进度”可看到训练的完成百分比。基于PaddleX的图像分类模型训练训练结束后,用户可以单击“模型评估”按钮,查看模型的评估报告。基于PaddleX的图像分类模型训练可通过图像分类整体指标和整体分类结果,看到模型的精准率、召回率和F1-score,如果对模型不满意,可在评估模型选择中调整Epoch的值,重新评估。基于PaddleX的图像分类模型训练混淆矩阵是一个表格,用来查看分类模型预测得准不准。它把实际类别和模型预测的类别放在一起比较,便于一眼就能看出模型哪些地方预测对了,哪些地方预测错了。基于PaddleX的图像分类模型训练(6)模型测试完成训练后,在模型测试中,测试类型选择“测试集图片测试”,单击“启动测试”按钮,即开始模型的测试。基于PaddleX的图像分类模型训练模型测试完成,单击“导出报告”按钮,可导出报告。基于PaddleX的图像分类模型训练在弹出的新页面中,可将报告命名,并设置存储路径,单击“确定”。基于PaddleX的图像分类模型训练根据路径找到报告,报告为excel表。打开该表,报告中包含混淆矩阵、整体平均指标和整体分类评估结果,看到cup和key的精准率、召回率和F1-score。基于PaddleX的图像分类模型训练在进行模型测试时,测试类型选择“单张图片测试”,在“图片路径”中,根据路径选择一张图片,单击“启动测试”按钮。基于PaddleX的图像分类模型训练结果在“预览测试图片”显示。根据图片测试结果为水杯,测试准确度为0.932,根据图片测试结果为钥匙,测试准确度为0.959。基于PaddleX的图像分类模型训练在进行模型测试时,测试类型选择“批量图片测试”,在图片路径中,根据路径选择一个文件夹,可对文件夹中所有图片均进行测试,单击“启动测试”按钮,结果在“预览测试图片”中显示。基于PaddleX的图像分类模型训练(7)模型发布经过模型测试以后,达到一定的准确度,符合模型上线的要求,就可以发布模型。基于PaddleX的图像分类模型训练在模型发布页面,单击“发布”按钮即可基于PaddleX的图像分类模型训练模型导出之后会提示:模型导出成功!基于PaddleX的图像分类模型训练发布成功后的模型,用户可根据需要进行调用,根据存储路径(即工作空间)可找到模型,本例的模型存放在paddlex_workspace的P0003-T0003_export_model中。后面可以使用Python进行模型调用,调用P0003-T0003_export_model的paddlex_python_predict/predict.py,可进行钥匙和水杯的图像分类。基于PaddleX的图像分类模型训练建议自行拍摄图像、增加水杯钥匙分类数据集数量建议使用不同数据量训练模型,分析数据对训练结果的影响建议使用不同网络训练模型,分析算法对训练结果的影响建议使用不同的迭代轮次训练模型,分析迭代轮次对训练结果的影响建议记录不同设置对模型训练结果的影响,分析不同设置对训练精度acc的影响03交互式物体检测模型开发物体检测物体检测是应用最广泛的人工智能功能之一,也是计算机视觉中的经典问题之一,其目的是用标识框去标出图像中检测物体的位置,其核心任务包括两个要素。①分类问题:要解决的是这个图像中是否包含某类,若包含需要返回物体类别名称的标签,就回答了目标的“What”问题。②定位问题;要解决的是如果有待检测的物体,那么这个物体在图像中的什么位置,并使用最小外接矩形包围起来,该矩形框称为检测框,检测框的位置回答了目标的“Where”问题。基于PaddleX的物体检测模型训练(1)创建项目进入PaddleX主界面后,在“项目管理”中“我的项目”页面,单击“新建项目”按钮,在新弹出页面中输入项目名称:水杯钥匙检测,并对项目做简单描述,最后选择“物体检测”选项,单击“创建”按钮,即可完成项目创建。基于PaddleX的物体检测模型训练(2)新建数据集在完成项目创建后,需要创建用于模型训练的数据集。在最左侧的导航栏中单击“数据”选项,然后单击“新建数据集”按钮,在新弹出的页面中填写数据集名称:水杯钥匙检测,选择“物体检测”选项,单击“创建”按钮。基于PaddleX的物体检测模型训练(3)数据选择选择准备好的存放数据的文件夹,文件夹中包含两个子文件夹:JPEGImages和Annotations。然后单击“选择文件夹”按钮,上传数据文件。此处需要注意的是,要将图像和标注文件分别放在两个文件夹中,并需要重命名文件夹为“JPEGImages”和“Annotations”。基于PaddleX的物体检测模型训练(4)导入并切分数据集接着返回“项目”页面,选择之前创建好的项目“水杯钥匙检测”。在“数据选择”页面中单击“选择数据集”下拉按钮,选择“水杯钥匙检测”数据集,然后导入数据。基于PaddleX的物体检测模型训练导入成功后,接着单击“立即切分”按钮,使用默认切分比例进行切分。基于PaddleX的物体检测模型训练从界面中可以看到,数据集已经按7:2:1切分为训练集、验证集和测试集。基于PaddleX的物体检测模型训练(5)参数配置在“模型选择”选项中下拉选择“FasterRCNN”模型,为了提高训练速度、减少训练时间,将“图像输入尺寸”长宽均设置为128,并将“迭代轮数”调整为“5”、“批大小”参数设置为“1”,其余参数保持不变,然后单击“启动训练”按钮。基于PaddleX的物体检测模型训练(6)训练可视化启动模型训练后,首先会联网下载“FasterRCNN”模型的权重文件,下载之后会自动进入模型训练环节,界面上会显示“已运行时间”“剩余运行时间”等数据,并且给出训练集和验证集的相关指标。基于PaddleX的物体检测模型训练模型训练完成,模型完成了5轮迭代,共运行25分30秒,并给出了训练集上的总损失loss和验证集上的bboxmAP。这个效果较为理想,单击“模型评估”按钮进入下一步。基于PaddleX的物体检测模型训练(7)模型评估模型评估给出各轮保存的bbox_map变化曲线与客观评价结果,此次训练相关曲线和指标。基于PaddleX的物体检测模型训练模型对应的混淆矩阵,从中可以看出,矩阵对角线上的数值较大,但有4个cu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论