CN119376549B 基于具身智能体的人机交互方法、装置及具身智能体（北京通用人工智能研究院）

上传人：1*** IP属地：山西上传时间：2026-04-10 格式：DOCX 页数：51 大小：1.05MB 积分：9.6 举报 版权申诉

CN119376549B 基于具身智能体的人机交互方法、装置及具身智能体（北京通用人工智能研究院）_第2页

CN119376549B 基于具身智能体的人机交互方法、装置及具身智能体（北京通用人工智能研究院）_第3页

CN119376549B 基于具身智能体的人机交互方法、装置及具身智能体（北京通用人工智能研究院）_第4页

CN119376549B 基于具身智能体的人机交互方法、装置及具身智能体（北京通用人工智能研究院）_第5页

已阅读5页，还剩46页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本申请公开了一种基于具身智能体的人机用于存储从目标场景中预先识别到的所有物体能够对复杂场景中物体和任务之间的关联性进2对所述描述文本进行语义理解，确定所述描述文本所指示的第一目标确定所述描述文本中是否指示与所述第一目标物体相关联的第二若所述描述文本指示有第二目标物体，则基于所述第一目标物体和所述第二目标物在预先建立的物体记忆库进行检索，得到与所述目标物物体记忆库用于存储从所述目标场景中预先识别到的所有基于所述目标感知数据，在预先配置的多个候选动作中确定出至少应的第一感知数据和与第二目标物体对应的第二感知数据；所述基于所述目标感知数据，在预先配置的多个候选动作中确定出至少一个目标动作和每个目标动作分别对应的动作基于所述第一感知数据和所述第二感知数据，确定所述第一目基于所述位置关系和所述第一感知数据，在预先配置的多个基于所述位置关系和所述第二感知数据，在预先配置的多个获取目标视频和与所述目标视频对应的具身传感数据；基于所述至少一视频帧和所述具身传感数据，分别确定所述具建立与所述目标场景对应的物体记忆库，并将所述至少一个物体的感针对任一视频帧，识别所针对的视频帧中的至少一个物体，通过与所针对的视频帧对应的具身传感数据，对所述二基于所述至少一个物体分别对应的三维边界数据，确定所述至3针对任一视频帧，若识别到所针对的视频帧中存在未知物体，若所述重识别结果表征所述未知物体与任一已识别物体为同一物若所述重识别结果表征所述未知物体非任一已识别物体，确将所述未知物体的感知数据存储至所述物体确定模块，用于对所述描述文本进行语义理解，确定所述检索模块，用于在预先建立的物体记忆库进行检索，得到与所述感知数据；所述物体记忆库用于存储从所述目标场景中预先识别到的所有物体的感知数规划模块，用于基于所述目标感知数据，在预先配置的多个候选动作个目标动作和每个目标动作分别对应的动作执行模块，用于按照所述动作执行顺序对所述目标物体执行所述8.一种计算机设备，包括存储器、处理器及序被处理器执行时实现如权利要求1_5中任一项所述的基于具身4[0008]在预先建立的物体记忆库进行检索，得到与所述目标物体对所述物体记忆库用于存储从所述目标场景中预先识别到的所有物体的感[0009]基于所述目标感知数据，在预先配置的多个候选动作中确定出至少一个目标动5述计算机程序被处理器执行时实现如上述第一方面所述的基于具身智能体的人机交互方6被处理器执行时实现如上述第一方面所述的基于具身智能体的[0029]本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得[0030]图1是本申请于一些实施例中提供的基于具身智能体的人机交互方法的应用场景[0031]图2是本申请于一些实施例中提供的基于具身智能体的人机交互方法的流程示意[0036]图7是本申请于一些实施例中提供的基于具身智能体的人机交互装置的结构示意7[0047]本申请实施例中还提出一种具身视频智能体（EmbodiedVideoAgent能够对视8交互方法的执行主体可以为具身智能体或者具身智能体中能够实现该基于具身智能体的施例提供的基于具身智能体的人机交互方法体基于目标场景中的感知数据建立物体记忆库，从而实现对场景的动态监控和物体管理。9取文本特征，并进而基于文本特征确定与交互任务相关的目标物体。比如，对于描述文本此过程中，具身智能体还可以结合任务推理机制，以更准确地理解用户意图并确定目标物体。[0070]物体之间的位置关系是指目标场景中不同物体相对位置的空间描述，包括距离、[0072]物体的视觉数据是指从图像/视频帧中提取到的物体的特征信息，包括但不限于务需求。示例性地，具身智能体预先配置的可执行的候选动作包括但不限于：搜索括为第一目标物体执行目标动作提供方位线索的目标物体；方位线索包括在描述文本中；[0091]如果具身智能体解析出描述文本中还指示有与该第一目标物体关联的第二目标定与第一目标物体对应的第一目标动作及动作执行顺序；基于位置关系和第二感知数据，在预先配置的多个候选动作中，确定与第二目标物体对应的第二目标动作及动作执行顺与视频数据结合提供多模态数据支持，从而提升目标场景中物体识别和特征分析的精度，[0110]具身智能体获取目标视频，可以是通过其自身搭载的视觉采集设备实时拍摄/录[0115]具身智能体将这些数据与相应的物体建立关联，并分条频智能体例如搭载有相机和深度检测装置等。具身视频智能体可以将深度数据、相机6D位姿和视频数据结合进行多模态处理，识别出目标场景中的各物体，并提取各物体的感知数测得到的二维边界框进行升维处理，得到物体的三维边界框。具体处理流程可参照前述实于微波炉O1上，相应的RO例如为(on,O1)；而微波炉O1支撑卷纸O0，相应的RO例如为现对物体的更精确和全面的感知，提高了具身智能体对空间和空间内各物体的感知能力，形态等发生了变化，则具身智能体对物体记忆库中该已识别的物体的感知数据进行更新；别到该绿色杯子与已记忆的一个绿色杯子匹配，则更新该绿色杯子的位置和状态描述等，[0167]针对不同动态属性的未知物体，具身智能体分别基于不同的相似度条件进行判体得到第四重识别结果，该第四重识别结果表征未知物体与某一已识别物体不是同一物很可能在某些时刻与其他物体存在遮挡等情况，因此静态的交叠程度和包含程度不适用。上一视频帧中与第一图像区域位置相同的第二图像区域；对第二图像区域进行特征提取，于(200,300,50,150)的二维边界框界定出来的图像区域内的像素数据进行特征提取，得到第二物体特征。由此，具身智能体通过计算第一对象视觉特征与第二对象视觉特征的差异（如欧几里得距离或余弦相似度等判断其是否小于预设阈值。若第一物体特征和第二物物体包括属于同一物体类别的多个物体，则具身智能体分别确定每个物体对应的感知数分别对应的感知数据，例如基于罐子A和罐子B各自对应的三维边界数据，通过视觉语言模型分别确定罐子A和罐子B是否为该动作的目标。进而，具身智能体输出相应的回答，比如[0198]本申请实施例还提供一种基于具身智能体的人机交互装置，应用于具身智能预先建立的物体记忆库进行检索，得到与目标物体对应的目标感知数据引入物体记忆库，成交互任务，通过动作匹配机制使得具身智能体能够适应不同场景下的多样化任务需求，定。[0211]本申请实施例还提供一种具身智能体，该具身智能体包括如图7所示的基于具身[0212]本申请实施例中的基于具身智能体的人机交互装置可以为具有操作系统的装[0213]本申请实施例提供的基于具身智能体的人机交互装置能够实现图2或图4的方法

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119376549B 基于具身智能体的人机交互方法、装置及具身智能体（北京通用人工智能研究院）

文档简介

温馨提示

最新文档

评论

CN119376549B 基于具身智能体的人机交互方法、装置及具身智能体 （北京通 用人工智能研究院）

文档简介

温馨提示

最新文档

评论

相关文档

CN119376549B 基于具身智能体的人机交互方法、装置及具身智能体（北京通用人工智能研究院）