《人工智能基础》课件-项目4：人工智能感知技术

上传人：青*** IP属地：福建上传时间：2026-05-05 格式：PPTX 页数：96 大小：18.10MB 积分：20 举报 版权申诉

已阅读5页，还剩91页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人工智能基础AI

INTElLIGENCE项目4人工智能的关键技术任务4.1让机器识文断字：文字识别探CONTENTS目录01020304任务导入任务分析知识技能任务实施PARTTWO任务导入101任务导入周一清晨，某互联网公司行政专员小李刚到岗，就收到了部门总监的紧急任务：需在上午10点前将20份纸质客户档案中的关键信息（姓名、联系方式、合作意向）提取并整理成电子表格。这些档案包含印刷体填写的规范信息和部分手写补充内容，人工逐份录入不仅耗时费力，还容易出现录入错误。借助文字识别技术，可快速实现图像到结构化数据的转化，高效完成信息提取与整理工作，解决传统人工录入的效率与准确率难题。PARTTWO任务分析201任务分析

本任务通过“客户档案信息智能提取”场景，掌握文字识别技术的核心应用能力，实现从“人工手动录入”到“AI智能提取”的高效转型。具体分析如下：1.系统学习文字识别技术体系，明确其定义、分类、核心流程及主流工具；2.掌握图像采集与预处理的关键方法，确保输入图像满足文字识别的精度要求；3.熟练操作百科融创平台的文字识别相关功能节点，完成从图像输入到文字提取、结果输出的全流程搭建；4.验证识别结果的准确性，对识别误差进行人工校对与优化，确保结构化数据的完整性与可靠性。PARTTWO知识技能3知识技能知识点1知识点2知识点3文字识别是指利用计算机对图像中的印刷体、手写体文字进行检测、定位、识别和理解，将图像形式的文字转化为计算机可处理的文本格式的技术。它跨越了图像与文本的界限，实现了非结构化信息向结构化信息的转化，是信息自动化处理的关键技术之一。（1）按文字类型划分：分为印刷体文字识别和手写体文字识别。印刷体识别适用于书籍、文档、海报等标准化文字，识别准确率较高；手写体识别又分为规整手写体和自由手写体，后者因书写风格差异大，技术难度更高。（2）按文字语种划分：包括中文识别、英文识别、日文识别等单一语种识别，以及多语种混合识别，可满足跨语言信息处理需求。（3）按识别场景划分：分为通用场景识别（如普通文档、网页截图）和特定场景识别（如身份证、银行卡、车牌、票据等结构化信息载体）。（1）政务办公：身份证、户口本、营业执照等证件信息自动录入，减少人工录入工作量，提高政务办理效率。（2）金融服务：银行卡信息识别、票据扫描录入、信用卡申请资料审核等，实现金融业务自动化处理。（3）教育领域：试卷扫描阅卷、作业批改、古籍文字数字化录入，助力教育信息化建设。（4）日常生活：手机拍照翻译、名片信息提取、文档扫描存档，为用户提供便捷的信息处理工具。（5）企业管理：合同、发票等办公文档数字化归档，方便检索与管理，降低纸质存储成本。文字识别的定义文字识别的分类文字识别的应用场景知识技能知识点4（1）百度OCR：基于百度AI技术，提供通用文字识别、证件识别、票据识别等多种服务，支持API调用和在线使用，识别准确率高，适用于企业与个人用户。（2）腾讯云OCR：涵盖证件、票据、文档等多场景识别能力，支持批量处理和自定义模板，具备高稳定性和安全性，广泛应用于企业级场景。（3）阿里云OCR：提供丰富的识别接口，支持中文、英文等多语种识别，适配不同分辨率图像，可与阿里云其他服务无缝集成。（4）微信小程序“传图识字”：轻量化在线工具，支持拍照或上传图片识别文字，操作简单，适合个人日常快速识别需求。（5）豆包AI文字识别：集成于豆包AI助手，支持图片、文档中的文字提取，可直接将识别结果用于编辑、翻译等后续操作，实现“识别-处理”一站式服务。主流文字识别工具PARTTWO任务实施5

本任务将通过百科融创平台，搭建一款支持“文本输入-智能响应-多形式反馈”的机器人对话系统。该系统可接收用户文本输入，通过自然语言处理技术生成贴合语境的回复，并同步以文字显示和语音播报的形式反馈给用户，具体步骤如下：步骤1.登录百科融创平台打开浏览器，输入百科融创AI通识教育平台官网地址（/index/ai-cognitive/ai/），按下Enter键进入平台首页，如图4-1-1所示。首页展示了平台核心功能、服务领域及成功案例，为用户提供直观的入口指引。图4-1-1百科融创平台首页示意图若未注册账号，需先单击“登录/注册”按钮，进入注册界面（如图4-1-2所示），填写相关信息完成注册；已有账号则直接输入账号密码登录，登录后进入AI通识教育平台界面，如图4-1-3所示。图4-1-2注册界面图4-1-3AI通识教育平台界面步骤2.进入AI通识教育平台模块首页在AI通识教育平台界面中，单击“开始体验”按钮，进入平台智能认知模块首页，如图4-1-4所示。该界面左侧为“节点库”，包含实现各类功能的节点，中间为画布编辑区，用于放置节点并建立逻辑关联。

该页面是搭建机器人对话系统的核心操作区，各功能模块分工明确：左侧“项目管理”功能区：用于创建、保存、管理项目，是系统搭建的起点；左侧“节点库”功能区：包含基础节点、技术方向分类节点等，是实现各类功能的核心组件库；中间“画布编辑区”：用于放置功能节点、建立逻辑关联，是系统的“搭建舞台”；上方“功能开关”与“节点搜索”：可快速开启/关闭核心功能、搜索目标节点，提升操作效率；右侧“控制台”：用于查看系统运行状态、数据流速度等，便于测试与调试。图4-1-4百科融创AI通识教育平台首页示意图步骤3.创建并命名空白项目在平台首页左侧导航栏的“项目管理”功能区，单击“空白项目”按钮进入项目编辑页面。单击页面上方的“项目保存”按钮，弹出“项目保存”窗口，在“项目名称”文本框中输入项目名称“4-1机器人对话”，单击“保存新项目”按钮，完成项目的创建与命名，如图4-1-5所示。项目创建后，会自动保存到“项目列表”中，后续可通过“项目管理”功能区的“项目列表”按钮快速找到并打开该项目，方便多次编辑与优化。图4-1-5创建项目步骤4.添加功能节点并关联逻辑

在“项目管理”功能区，单击“项目列表”按钮找到新创建的项目，单击项目名称“4-1机器人对话”进入项目编辑界面。1）添加基础节点根据机器人对话系统“输入-处理-输出”的核心流程，需从左侧节点库中筛选并添加输入类、逻辑类、交互类、输出类四类功能节点，拖动节点至中间画布的合适位置，避免节点重叠，确保布局清晰：

在左侧导航栏的“基础节点”功能区中，单击“输入控件”按钮，在弹出的列表中选择“文本输入框”选项，将其拖动至编辑画布的合适位置，如图4-1-6所示。该节点用于接收用户输入的对话文本，是系统与用户交互的“入口”，支持手动输入文字并触发提交。图4-1-6添加文本输入框在“技术方向分类”功能区中，单击“自然语言处理”按钮，在弹出的列表中选择“机器人对话”选项，将其拖动至画布，如图4-1-7所示。图4-1-7添加机器人对话在“基础节点”功能区中，单击“输出控件”按钮，在弹出的列表中选择“文字输出”选项，将其拖动至编辑画布的合适位置。在“技术方向分类”功能区中，单击“语音技术”按钮，在弹出的列表中选择“语音播报”选项，将其拖动至画布。在“基础节点”功能区中，单击“路由控件”按钮，在弹出的列表中分别选择“二合一”“一分三”选项，将其拖动至编辑画布的合适位置，如图4-1-8所示。图4-1-8添加文字显示2）关联功能节点单击节点右上角的“输出端口”，按住鼠标左键拖动至目标节点的“输入端口”，完成节点间的逻辑连接。操作方式为：单击节点右上角的蓝色“输出端口”，按住鼠标左键拖动至目标节点的黄色“输入端口”，释放鼠标即可完成连接，具体关联步骤如下：：将“文本输入框”的输出端口连接至“二合一”节点的输入端口，实现用户输入文本向逻辑整合模块的传递；将“二合一”节点的输出端口连接至“机器人对话”节点的文字输入端口，让整合后的输入文本进入对话处理模块；将“机器人对话”节点的输出端口连接至“一分三”节点的输入端口，使生成的回复内容进入结果分发模块；将“一分三”节点的多个输出端口，分别连接至“文字显示”“语音播报”等节点的输入端口，实现回复结果的多形式输出。所有节点关联完成后，机器人对话系统的功能结构图如图4-1-9所示。建议关联完成后，整体检查一遍连接关系，确保无漏连、错连，必要时可拖动节点调整布局，使逻辑关系更直观图4-1-9机器人对话功能结构图步骤5.测试机器人对话场景在编辑画布中，找到“文本输入框”节点，右键单击节点内的输入区域，输入需要对话的文字(如“今天的天气真好啊！”)。单击“文本输入框”节点下方的“运行”按钮，启动功能流程。查看效果：“机器人对话”节点会自动生成响应内容；“文字显示”节点将展示对话结果（如“嗯，接着说”）；“语音播报”节点会同步播放响应内容的语音（若设备音量开启）。若需多次测试，可在“文本输入框”中重新输入内容，再次单击“运行”即可。图4-1-10机器人对话效果图THANKS感谢聆听人工智能基础AI

INTElLIGENCE项目4人工智能的关键技术任务4.2让机器识人识面：人脸识别CONTENTS目录01020304任务导入任务分析知识技能任务实施PARTTWO任务导入101任务导入周三上午，某职业院校班主任王老师刚走进教室，就发现传统纸质签到表又出现了代签、漏签的情况。临近学期末，考勤数据统计压力增大，人工点名不仅占用课堂时间，还难以精准记录每位学生的到课情况。借助人脸识别技术搭建课堂考勤系统，通过提前采集学生人脸信息建立特征库，签到时实时比对人脸与库中数据，可自动完成签到记录与统计，彻底解决传统考勤的效率低、易作弊问题。PARTTWO任务分析201任务分析

本任务通过“课堂签到人脸验证系统”搭建场景，掌握人脸识别技术的核心应用逻辑，实现从“人工考勤管理”到“AI智能核验”的模式升级，兼顾技术实践与场景落地，具体分析如下：1.系统梳理人脸识别技术体系，明确其定义、核心流程、关键算法及应用边界，筑牢技术基础；2.掌握人脸信息采集与预处理的规范方法，确保人脸库数据的清晰度与标准化，为精准比对提供保障；3.熟练操作百科融创平台的人脸识别相关功能节点，完成摄像头调用、人脸检测、特征比对、结果输出的全流程搭建。PARTTWO知识技能3知识技能知识点1知识点2人脸识别（FaceRecognition）是一种基于生物特征的身份识别技术，它利用计算机视觉技术捕捉图像或视频中的人脸信息，通过算法对人脸的几何特征（如面部器官位置、轮廓比例）、纹理特征（如皮肤纹理、斑点分布）进行提取与分析，生成唯一的“人脸特征码”，再与预设人脸库中的特征码进行相似度比对，最终判断是否为同一人，并输出识别结果。与指纹识别、虹膜识别等其他生物识别技术相比，人脸识别具有“非接触式、直观性强、识别速度快”的优势，广泛应用于需要快速身份验证的场景。人脸识别的完整流程通常包括人脸采集→人脸预处理→人脸检测与对齐→特征提取→特征比对→结果输出六个核心环节，各环节功能与技术要点如下：（1）人脸采集通过摄像头获取包含人脸的图像或视频流，需保证采集环境光线充足、人脸无遮挡，图像分辨率不低于300×300像素，确保面部特征清晰可辨。（2）人脸预处理对采集的原始人脸图像进行优化处理，去除干扰信息，为后续环节奠定基础。核心操作包括：降噪处理：通过高斯滤波、双边滤波等算法去除图像中的颗粒噪声、光线杂斑；光照归一化：采用直方图均衡化、Gamma校正等方法，消除不同光照条件对人脸特征的影响；灰度化处理：将彩色人脸图像转换为灰度图像，减少色彩通道数据量，提升后续算法运行效率。（3）人脸检测与对齐：从预处理后的图像中定位人脸区域，并调整人脸姿态至标准角度。人脸检测：使用Haar特征分类器、MTCNN（多任务级联卷积神经网络）等算法，自动识别图像中人脸的位置，输出人脸的边界框；人脸对齐：通过检测面部关键特征点，将倾斜、偏转的人脸调整为正面朝上的标准姿态，确保不同采集角度的人脸特征具有可比性。（4）特征提取：通过深度学习模型对对齐后的人脸图像进行特征提取，将二维人脸图像转化为一维的“人脸特征向量”。（5）特征比对：将提取的人脸特征向量与预设“人脸库”中的特征向量进行相似度计算（常用欧氏距离、余弦相似度等方法）。（6）结果输出：根据特征比对结果，以可视化或结构化数据形式输出识别结论。人脸识别的定义人脸识别的基本流程知识技能知识点3（1）教育领域课堂签到：通过教室摄像头实时捕捉学生人脸，自动比对人脸库完成签到，避免代签、漏签，生成签到报表供教师查看；考场身份验证：在考试入场时，通过人脸识别比对考生身份证照片与现场人脸，防止替考作弊；校园门禁：学生、教职工通过人脸验证进出宿舍、图书馆、实验室，替代传统门禁卡，提升校园安全管理效率。（2）安防领域公共安全监控：在机场、车站、商场等公共场所部署人脸识别摄像头，实时比对公安部“在逃人员人脸库”，协助警方抓捕嫌疑人；小区智能安防：业主通过人脸验证进出小区大门、单元楼，陌生人需经业主授权或安保确认后才能进入，提升居住安全性；视频监控回溯：在案件调查中，通过人脸识别技术从海量监控视频中快速定位目标人物出现的时间与地点，缩短调查周期。（3）金融领域手机银行身份验证：用户登录手机银行、进行转账汇款时，通过人脸识别确认身份，替代传统密码，提升账户安全性；银行柜台开户：在银行办理开户、办卡业务时，人脸识别比对身份证照片与现场人脸，确保“人证一致”，防范身份冒用；支付验证：部分移动支付平台支持“刷脸支付”，用户通过人脸验证即可完成交易，无需输入密码或扫码，提升支付便捷性。（4）日常生活领域手机解锁：主流智能手机支持“人脸识别解锁”，通过前置摄像头捕捉人脸，快速解锁手机屏幕，保护手机隐私；酒店入住：旅客在酒店办理入住时，人脸识别比对身份证与现场人脸，简化登记流程，缩短入住等待时间；景区票务：游客通过“人脸票”入园，无需携带实体门票或身份证，刷脸即可快速通行，提升景区服务效率。人脸识别的应用场景知识技能知识点4表4-2-1汇总了当前主流的人脸识别工具与平台，涵盖企业级服务、轻量化应用及开源开发框架三类场景。这些工具与平台基于深度学习技术，均具备人脸检测、特征提取与比对核心能力，同时根据适配场景的差异形成独特优势。用户可根据实际场景的规模、技术需求与开发资源，选择适配的工具或平台开展人脸识别相关应用搭建。主流人脸识别工具与平台工具/平台名称核心特点适用场景百度AI开放平台-人脸识别提供人脸检测、特征提取、人脸比对、人脸库管理等完整API，支持1:N（1个人脸比对N个库中人脸）、1:1（两个人脸互相比对）识别，文档丰富，支持在线调试课堂签到系统、企业考勤、校园门禁开发腾讯云人脸识别具备高准确率的人脸特征提取能力，支持活体检测（防止照片、视频伪造），提供人脸搜索、人脸验证、人脸属性分析（如年龄、性别识别）功能，安全防护机制完善金融身份验证、公共安防监控阿里云人脸识别支持大规模人脸库管理（最高可容纳1000万级人脸数据），识别响应速度快（毫秒级），适配多终端（PC端、移动端、嵌入式设备），提供可视化控制台大型企业考勤、景区票务系统豆包AI-人脸验证模块操作简单，无需编程基础，支持上传人脸图像与本地照片比对，或实时调用摄像头进行人脸验证，适合非技术人员快速体验个人身份验证测试、教学演示OpenCV（开源库）提供基础的人脸检测（Haar特征）、人脸预处理功能，需结合其他深度学习框架（如TensorFlow）实现完整人脸识别，灵活性高，适合自定义开发科研项目、低成本人脸识别系统搭建表4-2-1主流人脸识别工具与平台PARTTWO任务实施5本任务将通过百科融创平台，搭建一套完整的课堂人脸考勤打卡系统。该系统可通过摄像头实时采集学生人脸信息，与预设人脸库进行精准比对，自动完成签到记录、结果反馈与数据统计，具体步骤如下：步骤1.登录百科融创平台，创建并命名空白项目用注册账号登录，进入AI通识教育平台界面，进行项目创建和命名，如图4-2-1所示。创建后的项目会自动保存到“项目列表”中，方便后续随时调取编辑。图4-2-1创建项目步骤2.添加功能节点并关联逻辑从“项目管理”的项目列表中，找到“4-2人脸考勤打卡”项目，单击项目名称打开项目编辑界面。（1）添加核心功能节点根据人脸考勤的业务流程，需依次添加设备接入、AI识别、数据处理、输出反馈四类功能节点，拖动节点至画布的合适位置。设备接入类：选择“摄像头输入”节点，如图4-2-2所示。该节点用于调用设备摄像头，实时采集画面中的人脸图像，是考勤系统的“视觉入口”，支持手动触发拍摄或自动连续采集。图4-2-2添加摄像头输入AI识别类：选择“人脸检测”节点（检测画面中的人脸）、“人脸比对”节点（与已录入人脸库匹配），如图4-2-3所示。“人脸检测”节点可从摄像头采集的画面中，自动定位人脸位置并输出人脸坐标；“人脸比对”节点则负责将检测到的人脸特征与预设人脸库进行相似度匹配，是考勤验证的核心节点。图4-2-3添加人脸检测和人脸对比数据处理类：选择“图片裁剪”、“数字大小判断”节点（记录打卡时间、人员信息）。“图片裁剪”节点可根据人脸检测输出的坐标，裁剪出纯净的人脸图像用于后续比对；“数字大小判断”节点用于设置相似度阈值（如95分），判断比对结果是否有效，同时记录打卡时间、人员信息等数据。输出类：选择“图片显示”、“文字显示”、“电灯”节点、“控制台显示”节点（展示打卡结果，如“打卡成功”），如图4-2-4所示。“图片显示”节点用于展示裁剪后的人脸图像；“文字显示”节点用于直观展示打卡结果（如“张三打卡成功”）；“电灯”节点为可视化反馈组件，打卡成功时点亮灯，失败时保持熄灭；“控制台显示”节点用于在后台记录详细考勤日志，方便后续核查。图4-2-4添加数据处理节点（2）关联节点逻辑节点添加完成后，需按照“数据采集→处理→识别→反馈”的流程建立逻辑关联。操作方式为：单击节点右上角的蓝色“输出端口”，按住鼠标左键拖动至目标节点的黄色“输入端口”，释放鼠标即可完成连接，具体关联顺序如下：

将“摄像头调用”的输出端口连接至“人脸检测”的输入端口，实现采集图像向检测环节的流转；将“人脸检测”的输出端口连接至“人脸比对”的输入端口；将“人脸比对”的输出端口（成功/失败分支）分别连接至“考勤记录”（成功分支）、“文字显示”（失败分支）；将“图片显示”的输出端口连接至“文字显示”（展示成功信息）和“电灯”节点。所有节点关联完成后，功能结构如图4-2-5所示。图4-2-5人脸考勤打卡功能结构图步骤3.配置节点参数单击“人脸比对”节点，在右侧参数面板中选择“导入人脸库”，上传需要考勤的人员人脸照片并标注姓名；单击“考勤记录”节点，设置记录字段（如“姓名”“打卡时间”“状态”）。检查结构图逻辑过程，确保节点配置与关联生效（如图4-2-5所示）。节点关联完成后，需配置关键节点的参数，确保系统按预期运行：（1）配置“人脸比对”节点单击画布中的“人脸比对”节点，右侧会弹出参数配置面板。在面板中找到“人脸库管理”选项，单击“导入人脸库”按钮，选择提前整理好的学生人脸照片（建议为正面免冠照，分辨率不低于300×300像素），上传完成后为每张照片标注对应学生的姓名，建立考勤人脸库。支持批量上传和批量标注，提高配置效率。（2）配置“数字大小判断”节点单击“数字大小判断”节点，在右侧参数面板的“判断数值”输入框中输入“95”，设置相似度阈值为95分（满分100分）。当人脸比对得分≥95分时，判定为“匹配成功”，触发打卡成功流程；得分＜95分时，判定为“匹配失败”，提示重新尝试。（3）配置“考勤记录”节点单击“考勤记录”节点，在参数面板中设置记录字段，默认字段包括“姓名”“打卡时间”“比对得分”“打卡状态”，可根据需求添加“班级”“学号”等自定义字段。同时设置记录存储方式为“自动保存”，确保考勤数据不丢失。（4）配置“文字显示”节点分别为打卡成功和失败分支的“文字显示”节点设置反馈内容：成功分支设置为“【姓名】打卡成功，时间：【打卡时间】”，失败分支设置为“未识别到有效人员，相似度不足，请重试！”。支持插入变量字段，实现个性化反馈。步骤4.测试人脸考勤打卡场景在项目编辑界面，单击画布中的“摄像头调用”节点，在右侧面板中单击“启用摄像头”（需允许浏览器获取摄像头权限）。单击编辑界面上方的“运行”按钮，启动考勤流程：摄像头自动采集画面，“人脸检测”节点识别画面中的人脸；“人脸比对”节点将检测到的人脸与库中信息匹配；若匹配成功：“考勤记录”节点自动记录当前时间与人员信息，“文字显示”节点展示“【姓名】打卡成功，并点亮电灯。若匹配失败：“文字显示”节点展示“未识别到有效人员，请重试”。重复测试不同人员的人脸，验证考勤记录的准确性，测试完成后单击“停止运行”按钮。THANKS感谢聆听人工智能基础AI

INTElLIGENCE项目4人工智能的关键技术任务4.3让机器耳听八方：语音识别CONTENTS目录01020304任务导入任务分析知识技能任务实施PARTTWO任务导入101任务导入周五下午，某互联网公司的产品经理小陈正在筹备一款智能客服产品的原型测试，需要快速搭建一个能响应多样化用户咨询的对话交互模块。该模块需支持文本输入与语音输入两种方式，能准确理解用户意图并生成自然回复，同时可通过文字展示与语音播报同步反馈结果，若依赖传统开发模式，周期长且难以快速适配测试需求。借助语音识别、自然语言处理等AI技术搭建AI对话机器人，可快速实现“输入-理解-响应”的全流程交互，高效满足原型测试需求。PARTTWO任务分析201任务分析本任务通过“智能客服对话交互模块搭建”场景，掌握语音技术与自然语言处理的协同应用能力，实现从“单一输入响应”到“多模态智能交互”的升级。具体分析如下：1.拆解对话机器人的核心交互流程，明确输入方式、语义理解、结果输出的关键环节；2.掌握语音识别（语音转文字）、自然语言理解（意图识别）、语音合成（文字转语音）的核心逻辑；3.熟练操作百科融创平台的相关功能节点，完成输入整合、对话处理、多形式输出的全流程搭建；4.测试不同输入场景下的交互稳定性，优化节点参数以提升回复准确率与语音自然度。PARTTWO知识技能3知识技能知识点1（1）语音识别的定义

语音识别，又称自动语音识别（AutomaticSpeechRecognition，简称ASR），是指通过计算机算法将人类语音信号（如说话声）转化为可编辑、可存储的文本格式的技术。它模拟人类听觉系统的工作原理，先将连续的语音信号分解为离散的声学特征，再通过模型匹配将声学特征映射为对应的文字，最终实现“机器听懂人类语言”的目标。语音识别技术的核心价值在于打破“文字输入”的效率瓶颈——传统键盘输入速度约为30-60字/分钟，而正常说话速度约为150-200字/分钟，语音识别可实现“说话即输入”，大幅提升信息记录效率。（2）语音识别的核心技术与流程语音识别的完整流程包括语音信号采集→预处理→特征提取→模型训练/解码→文本输出五个核心环节：（3）语音识别的关键技术特点-连续性：支持连续语音识别，可处理自然对话中的长句，无需逐词停顿；-多语种与方言支持：主流平台可识别中文（含普通话、粤语、四川话等方言）、英文、日文等多语种，部分工具支持方言与普通话混合识别；-实时性：实时语音识别延迟可控制在1-3秒内，适用于会议直播、实时字幕等场景；-领域适配性：支持自定义词汇库（如添加行业专业术语、人名、地名），提升特定领域（如医疗、法律、科技）的识别准确率。语音识别知识技能知识点2（1）语音合成的定义语音合成，又称文本转语音（Text-to-Speech，简称TTS），是指通过计算机算法将文字信息转化为自然、流畅的人类语音信号的技术。它模拟人类发声器官（如声带、口腔、鼻腔）的工作原理，生成与文字内容匹配的语音，让机器具备“说话”的能力，是语音交互的重要输出环节。（2）语音合成的核心技术与流程语音合成的完整流程包括文本预处理→文本分析→声学建模→语音合成→语音优化五个环节（3）语音合成与语音识别的协同关系语音识别（ASR）与语音合成（TTS）是语音交互的“输入”与“输出”两端，两者协同可构建完整的交互闭环：-典型场景：智能会议记录助手中，语音识别将“会议发言”转化为“文字记录”（ASR），用户对文字记录进行编辑后，语音合成将“整理后的文字”转化为“语音回放”（TTS），实现“语音→文字→语音”的全流程处理；-技术互补：语音识别的准确率提升可减少文字记录的校对工作量，为语音合成提供高质量的文本输入；语音合成的自然度提升可让回放语音更易理解，增强用户对记录内容的回溯效率。语音合成知识技能知识点4表4-3-1系统梳理了当前主流的语音技术工具与平台，涵盖百度AI开放平台-语音技术、腾讯云语音识别与TTS、阿里云智能语音交互、豆包AI-语音交互模块及讯飞听见等核心产品。主流语音技术工具与平台表4-3-1主流语音技术工具与平台工具/平台名称核心功能（语音识别+语音合成）适用场景百度AI开放平台-语音技术语音识别：支持实时/离线识别、多语种/方言识别、自定义词汇库；语音合成：支持多音色选择（如“度小宇”“度小美”）、语速语调调节、情感语音合成智能会议记录、实时字幕生成、智能客服腾讯云语音识别与TTS语音识别：支持会议场景优化（如区分多发言人）、长音频转写；语音合成：支持个性化音色定制（上传少量语音即可生成专属音色）、SSML标记语言（控制停顿、重音）企业会议记录、有声书制作、智能家居语音交互阿里云智能语音交互语音识别：支持噪声鲁棒性优化（嘈杂环境下仍保持高准确率）、实时流识别；语音合成：支持多场景音色适配（如新闻播报、聊天语气）、高保真语音生成户外采访记录、广播电台内容生成、智能音箱豆包AI-语音交互模块语音识别：支持上传音频文件（如MP3、WAV）转文字，或实时录音转文字；语音合成：支持将文字内容一键转化为语音，可选择“男声”“女声”，调节语速个人会议记录、学习笔记整理、文字内容语音回放讯飞听见专注于会议场景：支持多发言人自动分离、实时字幕显示、会议纪要自动生成；语音合成：支持将会议纪要转化为语音，适配会议回放场景企业大型会议、线上研讨会、培训记录PARTTWO任务实施5本任务将通过百科融创平台，搭建一款支持“文本+语音”双输入、“文字+语音”双输出的AI对话机器人。该机器人整合语音识别、自然语言处理、语音合成三大核心技术，可精准接收用户输入、智能生成回复并多形式反馈，适用于智能客服、日常互动、信息咨询等场景，具体步骤如下：步骤1.登录百科融创平台,

创建并命名空白项目用注册账号登录，进入AI通识教育平台界面，进行项目创建和命名，如图4-3-1所示。图4-3-1创建项目步骤2.添加功能节点并关联逻辑从“项目管理”的项目列表中，找到“4.3AI对话机器人”项目，单击项目名称右侧的“进入编辑”按钮，打开项目编辑界面。（1）添加核心功能节点根据AI对话机器人“双输入→整合→处理→双输出”的核心流程，需从左侧节点库中筛选并添加输入类、逻辑类、交互类、输出类四类功能节点，拖动节点至画布合适位置，避免重叠，确保布局清晰有序：输入类节点：用于接收用户对话输入，支持文本和语音两种方式。在左侧“节点库”中，找到“输入控件”分类，选择“文本输入框”节点（接收手动输入文本）；找到“语音技术”分类，选择“麦克风输入”节点（采集语音信号）和“语音识别”节点（将语音转化为文字），将三个节点依次拖动至画布左上方，如图4-3-2所示。其中，“麦克风输入”节点支持实时录音，“语音识别”节点可精准转化语音为文本，两者配合实现语音输入功能。图4-3-2添加输入节点逻辑类节点：用于整合输入信息和分发输出结果。在“节点库”的“路由控件”分类中，选择“二合一”节点和“一分三”节点，将“二合一”节点拖动至输入类节点右侧（用于整合文本和语音转化后的文字信息），将“一分三”节点拖动至画布中间位置（用于将AI回复分发至多个输出节点），如图4-3-3所示。“二合一”节点可实现多路输入信号的统一流转，“一分三”节点支持一路信号同步输出至多个模块，为双输出功能提供支撑。图4-3-3添加逻辑节点交互类节点：用于AI生成回复内容，是机器人的核心大脑。在“节点库”的“自然语言处理”分类中，选择“机器人对话”节点，拖动至“二合一”节点右侧。该节点内置预训练语言模型，可根据输入文本的语义、语境生成自然流畅的回复，支持日常闲聊、信息咨询、功能请求等多种对话场景。输出类节点：用于反馈AI回复结果，支持文字显示和语音播报两种方式。在“节点库”的“输出控件”分类中，选择“文字显示”节点（直观展示回复文本）；在“语音技术”分类中，选择“语音播报”节点（将文字转化为语音播放），将两个节点拖动至“一分三”节点右侧，如图4-3-4所示。“文字显示”节点字体清晰、位置显眼，“语音播报”节点支持自然语音合成，两者配合实现多模态反馈。图4-3-4添加输出节点（2）关联节点逻辑节点添加完成后，需按照“输入→整合→处理→输出”的流程建立逻辑关联，确保数据顺畅流转。操作方式为：单击节点右上角的蓝色“输出端口”，按住鼠标左键拖动至目标节点的黄色“输入端口”，释放鼠标即可完成连接，具体关联步骤如下语音输入链路：将“麦克风输入”节点的输出端口连接至“语音识别”节点的输入端口，实现语音信号向文本的转化；输入整合链路：将“文本输入框”节点的输出端口、“语音识别”节点的输出端口，分别连接至“二合一”节点的两个输入端口，实现双输入信息的统一整合；对话处理链路：将“二合一”节点的输出端口连接至“机器人对话”节点的输入端口，让整合后的文本进入AI对话处理模块；输出分发链路：将“机器人对话”节点的输出端口连接至“一分三”节点的输入端口，实现回复结果的分流；结果反馈链路：将“一分三”节点的两个输出端口，分别连接至“文字显示”节点和“语音播报”节点的输入端口，实现双形式反馈。所有节点关联完成后，功能结构如图4-3-5所示。建议关联后整体检查一遍，重点确认“机器人对话”节点的输入输出是否通畅，避免漏连、错连导致系统无法运行。图4-3-5AI对话机器人功能结构图步骤5.测试AI对话机器人场景在项目编辑画布中，找到“文本输入框”节点，单击节点内的输入区域，输入对话内容（如“你好呀”）。单击“文本输入框”节点下方的“运行”按钮，启动对话流程：“文本输入框”将内容传递至“合一”节点，再进入“机器人对话”节点；“机器人对话”节点生成回复内容，通过“分三”节点分发至“文字显示”和“语音播报”节点；查看“文字显示”节点，会展示AI回复内容（如“你好啊”）；同时“语音播报”节点会自动播放该回复的语音（需确保设备音量开启）。重复测试：在“文本输入框”中重新输入新的对话内容（如“推荐几道家常菜”），再次单击“运行”，验证多轮对话的稳定性。测试完成后，单击编辑界面上方的“停止运行”按钮，结束当前测试。THANKS感谢聆听人工智能基础AI

INTElLIGENCE项目4人工智能的关键技术任务4.4让机器独具慧眼：图像识别CONTENTS目录01020304任务导入任务分析知识技能任务实施PARTTWO任务导入101任务导入周二上午，某知识产权服务公司的审核专员小刘接到紧急任务，需在当天下午前完成一批商业合作项目中的200余张商标图片核查工作，确认这些商标是否为已注册的合法商标，以及对应所属品牌信息。人工比对商标库不仅耗时费力，还容易因视觉疲劳出现识别误差。借助图像识别技术搭建商标识别系统，可快速实现商标的自动检测、特征提取与库内比对，高效完成核查工作，解决传统人工识别的效率与准确率难题。PARTTWO任务分析201任务分析

本任务通过“商业项目商标合法核查”场景，掌握图像识别技术在特定目标识别中的应用能力，实现从“人工肉眼比对”到“AI智能核验”的转型。具体分析如下：1.拆解商标识别的核心需求，明确商标检测精度、品牌信息匹配完整性等关键指标；2.掌握图像预处理（如对比度增强）、目标检测、特征比对的核心逻辑，理解商标信息库的构建与调用方式；3.熟练操作百科融创平台的相关功能节点，完成图像输入、商标检测、特征比对、结果输出的全流程搭建；4.验证不同类型商标（图形商标、文字商标、组合商标）的识别准确率，优化节点参数与商标库数据，确保核查结果的可靠性。PARTTWO知识技能3知识技能知识点1知识点2图像识别是指利用计算机对图像中的目标对象、场景、特征等信息进行自动分析与解读，通过算法提取图像的视觉特征（如颜色、形状、纹理），并与预设的特征库或模型进行匹配，最终实现对图像内容的分类、识别与理解的技术。与人类通过眼睛观察、大脑判断的视觉识别过程类似，图像识别让机器具备了“看见”并“理解”图像内容的能力，是连接物理世界与数字世界的重要桥梁。（1）机器学习技术机器学习是图像识别的基础技术之一，通过构建数学模型让计算机从大量图像数据中学习特征规律。其中，传统机器学习方法需人工提取图像的颜色直方图、边缘特征、纹理特征等，再通过模型训练实现分类。这类技术适用于特征明确、场景简单的图像识别任务，如简单的物体形状分类。（2）深度学习技术深度学习是当前图像识别的主流技术，尤其以卷积神经网络（CNN）为核心。CNN通过多层卷积、池化操作自动提取图像的底层特征、中层特征和高层特征，无需人工设计特征，大幅提升了复杂场景下的识别准确率。常见的CNN模型包括LeNet（用于手写数字识别）、AlexNet（ImageNet图像分类竞赛突破模型）、ResNet（解决深层网络梯度消失问题）等，广泛应用于复杂目标识别、图像分割等任务。（3）图像预处理技术图像预处理是图像识别的前置关键环节，主要用于优化图像质量、减少干扰信息，为后续特征提取与模型识别奠定基础。核心操作包括：降噪处理、尺寸归一化、色彩空间转换、图像增强。（4）目标检测与分割技术目标检测技术用于定位图像中多个目标的位置并识别类别，输出目标的边界框，主流算法包括YOLO、FasterR-CNN；目标分割技术则进一步将目标从背景中分离，实现像素级的精准识别，常见技术有MaskR-CNN、U-Net等，适用于需要精细分析的场景。图像识别的定义图像识别的核心技术知识技能知识点3（1）日常生活领域智能垃圾分类：通过手机APP或智能垃圾桶摄像头拍摄垃圾图像，自动识别垃圾类型并提示投放方式；人脸识别：用于手机解锁、门禁系统、支付验证等，通过识别面部特征确认身份；拍照搜物：如电商平台“拍照搜商品”、植物识别APP“拍照识花”，快速获取图像对应信息。（2）工业生产领域产品质量检测：在汽车制造、电子元件生产中，通过图像识别检测产品表面的划痕、缺陷，替代人工质检，提升效率与准确率；智能仓储：识别货物包装上的条码、二维码或货物外形，实现自动分拣、库存盘点；设备故障诊断：通过工业摄像头拍摄设备零部件图像，识别磨损、变形等故障特征，提前预警维护。（3）公共服务领域交通管理：通过道路摄像头识别车牌、违章行为（如闯红灯、压线），实现智能交通监控；医疗诊断：如医学影像识别（CT、X光片），辅助医生检测肿瘤、骨折等病灶，提升诊断效率；安防监控：识别公共场所的异常行为（如打架、徘徊）、危险物品（如刀具、易燃物），及时触发警报。（4）农业领域作物病虫害识别：通过无人机或田间摄像头拍摄作物叶片图像，识别病虫害类型并推荐防治方案；农产品分拣：根据水果的颜色、大小、成熟度进行自动分类，如区分苹果的品级，提升分拣效率。图像识别的应用领域知识技能知识点4表4-4-1全面汇总了当前主流的图像识别工具与平台，涵盖百度AI开放平台-图像识别、腾讯云智能图像服务、阿里云视觉智能开放平台、豆包AI-图像识别模块及TensorFlow/PyTorch开源框架等核心选择。主流图像识别工具与平台表4-4-1主流图像识别工具与平台工具/平台名称核心特点适用场景百度AI开放平台-图像识别提供图像分类、目标检测、图像分割等成熟API，支持自定义模型训练，文档丰富，适合快速开发应用企业级应用开发、个人创新项目腾讯云智能图像服务支持通用物体识别、场景识别、人脸识别，具备高并发处理能力，安全防护机制完善工业质检、安防监控、电商图像分析阿里云视觉智能开放平台集成海量预训练模型，支持图像识别、视频分析、文字识别联动，适配多终端（PC端、移动端）智能仓储、医疗影像辅助诊断、新零售视觉分析豆包AI-图像识别模块操作简单，支持上传图像直接识别物体类别，可结合自然语言交互优化识别需求个人日常图像识别、教学演示、简单垃圾分类辅助TensorFlow/PyTorch（开源框架）提供深度学习模型开发工具，支持自定义图像识别模型构建，灵活性高，需具备一定编程基础科研项目、复杂自定义识别任务PARTTWO任务实施5本任务将通过百科融创平台，搭建一套高效精准的商标识别系统。该系统可通过摄像头拍摄或图片上传获取商标图像，经预处理优化后，自动检测商标区域、提取特征并与预设商标库进行比对，最终以文字形式输出识别结果，具体步骤如下：步骤1.登录百科融创平台,

创建并命名空白项目用注册账号登录，进入AI通识教育平台界面，进行项目创建和命名，如图4-4-1所示。图4-4-1创建项目步骤2.添加功能节点并关联逻辑进入项目编辑：从“项目管理”的项目列表中，找到“4.4商标识别”项目，单击项目名称右侧的“进入编辑”按钮，打开项目编辑界面。（1）添加核心功能节点根据商标识别“图像获取→预处理→检测→比对→结果输出”的核心流程，需从左侧节点库中筛选并添加输入类、预处理类、AI识别类、数据处理类、输出类五类功能节点，拖动节点至画布合适位置，避免重叠，确保布局清晰有序：输入类节点：选择“摄像头输入”“对比度增强”节点（用于实时拍摄商标）；图4-4-2添加输入节点AI识别类节点：选择“图片显示”节点（定位图片中的商标区域）、“商标识别”节点（匹配商标库信息）；数据处理类节点：选择“商标信息库”节点（存储已收录的商标数据）；输出类节点：选择“文字显示”节点（展示识别结果）。图4-4-3添加输出节点

(2）关联节点逻辑节点添加完成后，需按照“输入→预处理→检测→识别→比对→输出”的流程建立逻辑关联，确保数据顺畅流转。操作方式为：单击节点右上角的蓝色“输出端口”，按住鼠标左键拖动至目标节点的黄色“输入端口”，释放鼠标即可完成连接，具体关联步骤如下：将“图片上传/摄像头调用”的输出端口连接至“商标检测”节点的输入端口；将“商标检测”的输出端口连接至“商标识别”节点的输入端口；将“商标信息库”的输出端口连接至“商标识别”节点的“比对库”输入端口；将“商标识别”的输出端口连接至“文字显示”“信息弹窗”节点的输入端口。图4-4-4添加路由控件配置节点参数：单击“商标信息库”节点，在右侧参数面板中，单击“导入商标”，上传已整理的商标图片及对应信息（如商标名称、所属品牌），完成商标库的初始化；单击“商标识别”节点，设置匹配精度（如“高/中/低”），确保识别准确性。检查结构图逻辑过程，确保节点配置与关联生效。图4-4-5商标识别功能结构图步骤3.测试商标识别功能场景单击“摄像投输入”节点，在弹出的文件选择框中，选择本地待识别的商标图片，单击“确认上传”；启动识别流程：单击编辑界面上方的“运行”按钮，启动商标识别流程：“商标识别”节点将检测到的商标与“商标信息库”比对；查看识别结果：若识别成功：“文字显示”节点展示结果（如“识别结果：XX品牌商标）；若识别失败：“文字显示”节点展示“未匹配到对应商标”。多案例测试：更换不同商标图片，重复上述步骤，验证识别功能的稳定性与准确性；测试完成后单击“停止运行”按钮。THANKS感谢聆听人工智能基础AI

INTElLIGENCE项目4人工智能的关键技术任务4.5让机器善解人意：自然语言处理CONTENTS目录01020304任务导入任务分析知识技能任务实施PARTTWO任务导入101任务导入周日上午，某大型连锁超市的运营主管小李收到不少顾客反馈：超市货架布局复杂，找心仪商品需花费大量时间，高峰期还因咨询导购人员导致通道拥堵。为提升顾客购物体验、缓解导购服务压力，需快速搭建一套智能导购系统，支持顾客通过语音或文本输入商品需求，快速获取商品所在货架位置、区域路线等信息，同时实现语音播报与文字展示双重反馈，解决传统购物“找货难、咨询繁”的问题。PARTTWO任务分析201任务分析本任务通过“超市智能找货服务”场景，掌握自然语言处理与数据关联技术的协同应用能力，实现从“人工导购指引”到“AI智能导航”的升级。具体分析如下：1.拆解超级导购的核心服务流程，明确用户输入方式、商品需求解析、货架数据匹配、结果多形式输出的关键环节；2.掌握自然语言处理中关键词提取、意图识别的核心逻辑，理解智能货架数据接口的调用与数据字段筛选方法；3.熟练操作百科融创平台的相关功能节点，完成输入整合、需求解析、数据匹配、多终端输出的全流程搭建；4.测试不同商品需求场景（常见商品、冷门商品、模糊需求）的响应准确性与路线指引清晰度，优化节点参数与关键词库，提升系统适配性。PARTTWO知识技能3知识技能知识点1知识点2自然语言处理（NLP）是人工智能与语言学交叉的技术领域，它旨在让计算机理解、解释和生成人类自然语言，实现“机器与人类的语言交互”。其核心目标是打破“语言壁垒”——让机器不仅能“读懂”文字表面含义，还能理解深层语义，最终具备类似人类的语言处理能力。NLP的技术本质是“将非结构化的自然语言转化为结构化的数据”：例如，将一段简历文本转化为“姓名、学历、工作经历关键词、技能标签”等结构化信息，再通过算法对这些信息进行分析与处理。与语音识别（侧重“语音转文字”）、图像识别（侧重“图像理解”）不同，NLP直接面向“语言本身的语义与逻辑”，是实现“人机对话”“智能文本分析”的核心技术基础。什么是自然语言处理自然语言处理的发展历程自然语言处理的发展经历了“规则驱动→统计驱动→深度学习驱动”三个核心阶段，各阶段的技术特征与突破点如下：发展阶段时间范围核心技术典型成果技术局限规则驱动阶段20世纪50-80年代基于人工编写的语法规则、词典与模板，通过预设逻辑处理语言机器翻译雏形（如1954年美国乔治敦大学与IBM的英俄翻译系统）、简单问答系统依赖人工编写规则，无法处理复杂句式与歧义；适配性差，换一种语言或场景需重新编写规则统计驱动阶段20世纪90年代-2010年基于统计机器学习，通过大规模语料库学习语言规律统计机器翻译（如谷歌早期翻译系统）、垃圾邮件过滤、简单文本分类依赖大规模标注语料库，数据获取成本高；对语义深层理解能力弱，难以处理上下文关联深度学习驱动阶段2010年至今基于深度学习模型，通过海量无标注数据预训练+微调，实现语义深度理解智能对话机器人、高精度机器翻译（如谷歌翻译）、情感分析系统、自动文本生成模型参数量大，训练与推理需高性能计算资源；存在“语义”知识技能知识点3自然语言处理包含多个相互关联的技术模块，各模块协同工作实现“语言理解与生成”，核心技术如下：（1）文本预处理技术文本预处理是NLP的基础环节，用于将原始文本转化为机器可处理的格式，核心操作包括：分词：将连续的文本拆分为独立的词语，常用工具如结巴分词、百度AI分词API；去停用词：去除文本中无实际语义的词语，减少数据冗余；词性标注：为每个词语标注词性，为后续语义分析提供基础；词向量表示：将词语转化为数值向量，让机器通过数值计算理解词语间的语义关联。（2）语义理解技术语义理解是NLP的核心目标，用于解析文本的深层含义，核心技术包括：命名实体识别（NER）：识别文本中的特定实体；句法分析：分析句子的语法结构；上下文语义理解：结合上下文分析词语或句子的真实含义，解决歧义问题，预训练语言模型（如BERT）是该领域的核心技术。（3）文本分析与生成技术文本分类：将文本划分到预设类别；关键词提取：从文本中提取核心关键词；情感分析：判断文本的情感倾向；文本生成：根据需求自动生成自然语言文本。（4）对话系统技术对话系统是NLP的典型应用，实现“机器与人类的多轮对话”，核心技术包括：意图识别：理解用户对话的核心需求；槽位填充：提取对话中的关键信息；多轮对话管理：维护对话上下文，实现连贯交互。自然语言处理的核心技术知识技能知识点3（1）办公领域简历智能分析与优化：通过NLP提取简历关键词，匹配岗位需求，生成优化建议；智能文档摘要：自动生成会议纪要、报告的核心摘要，减少阅读时间；邮件分类与自动回复：对邮件进行分类，自动回复简单咨询邮件。（2）教育领域智能批改：自动批改作文、主观题，分析学生答题中的语法错误与语义问题；个性化学习推荐：根据学生的学习文本，推荐适配的学习资源；语言翻译与教学：提供多语种实时翻译，辅助外语学习。（3）金融领域智能客服：通过对话系统解答用户的银行业务咨询；风险文本分析：分析企业年报、新闻中的风险信息，辅助风险评估；交易文本处理：自动识别交易记录中的关键信息，实现自动化记账。（4）日常生活领域智能语音助手：如手机的“Siri”“小爱同学”，通过NLP理解语音指令；机器翻译：如谷歌翻译、百度翻译，实现多语种实时互译；内容推荐：如短视频平台、新闻APP，通过分析用户阅读文本的偏好，推荐相关内容。自然语言处理的应用领域知识技能知识点5表4-5-2全面梳理了当前主流的自然语言处理工具与平台，涵盖百度AI开放平台-NLP、腾讯云自然语言处理、豆包AI-NLP模块、结巴分词及HuggingFace等核心产品。主流自然语言处理工具与平台表4-5-2主流自然语言处理工具与平台工具/平台名称核心功能适用场景百度AI开放平台-NLP提供分词、命名实体识别、关键词提取、文本生成、情感分析等API；支持自定义语料训练简历关键词提取、文本分类、智能问答系统开发腾讯云自然语言处理支持文本理解（句法分析、语义相似度）、文本生成（摘要、文案）、对话系统搭建；提供行业解决方案（如金融文本分析）企业年报分析、智能客服开发、简历优化豆包AI-NLP模块操作简单，无需编程基础；支持文本分析（简历诊断）、文本生成（简历优化）、多轮对话（解答简历修改疑问）；适合非技术人员使用个人简历优化、学习笔记整理、简单文本生成结巴分词（开源工具）轻量级中文分词工具，支持自定义词典；可集成到Python项目中，实现本地化文本预处理小规模文本分词、学生实验项目HuggingFace（开源平台）提供丰富的预训练语言模型（如BERT、GPT）与工具库；支持模型微调与部署，适合自定义NLP任务科研项目、复杂文本分析（如专业领域简历优化）PARTTWO任务实施5本任务将通过百科融创平台，实现超级导购功能，超级导购机器人无缝集成智能货架系统，能够帮助游客快速找到所需商品。具体步骤如下：步骤1.登录百科融创平台,

创建并命名空白项目用注册账号登录，进入AI通识教育平台界面，进行项目创建和命名，如图4-5-1所示。图4-5-1创建项目步骤2.添加功能节点并关联逻辑（1）返回项目管理界面的“我的项目”列表，找到刚刚创建并命名的“超级导购”项目，单击项目名称，进入项目；（2）添加核心功能节点：根据超级导购功能的需求（集成智能货架系统、接收游客需求、定位商品位置、反馈结果），在左侧“节点库”中筛选并添加以下功能节点，添加方式为单击目标节点后拖动至中间“画布编辑区”的合适位置：输入交互类节点：选择“文本输入”节点；AI识别处理类节点：选择“文字包含判断”节点（识别需求中的商品名称、类型等关键信息）；图4-5-2添加输入节点数据关联类节点：选择“智能货架”节点（集成智能货架系统，获取货架布局、商品摆放位置、库存状态等数据）、“数字大小判断”节点、（将解析后的商品需求与智能货架数据匹配，定位目标商品所在货架及具体位置）；输出反馈类节点：选择“文字显示”节点（展示商品位置信息）、“语音播报”节

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《人工智能基础》课件-项目4：人工智能感知技术

文档简介

温馨提示

最新文档

评论

《人工智能基础》课件-项目4：人工智能感知技术

文档简介

温馨提示

最新文档

评论

相关文档