CN120220034A 事件识别方法、设备、存储介质及程序产品

上传人：x*** IP属地：重庆上传时间：2025-09-03 格式：DOCX 页数：37 大小：169.09KB 积分：10.8 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(19)国家知识产权局(71)申请人阿里云飞天(杭州)云计算技术有限地址311199浙江省杭州市临平区星桥街道星桥北路173号2幢121室(74)专利代理机构北京太合九思知识产权代理有限公司11610专利代理师胡冰群(54)发明名称本申请实施例提供一种事件识别方法、设取工务作业过程中的场景图像数据后，可利用目标检测模型，对场景图像数据进行目标检测，得到场景图像数据包含的目标对象的属性信息。根据目标对象的属性信息，可确定场景图像数据对应的目标作业场景，并可利用目标多模态模型，根据目标对象的属性信息及目标作业场景中的不同事件类型对应的知识信息，识别场景图像数据在目标作业场景中对应的目标事件类型。在这种实施方式中，将基于计算机视觉的目标检测模型与目标多模态模型相结合，充分发挥了目标检测模型在细粒度目标检测方面的优势和多模态获取工务作业过程中的场景图像数据利用目标检测模型，对所述场景图像数据进行目标检测，得到所述场景图像数据包含的目标对象的属性信息根据所述目标对象的属性信息，确定所述场景图像数据对应的目标作业场景利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型2获取工务作业过程中的场景图像数据；利用目标检测模型，对所述场景图像数据进行目标检测，得到所述场景图像数据包含的目标对象的属性信息；根据所述目标对象的属性信息，确定所述场景图像数据对应的目标作业场景；利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型。2.根据权利要求1所述的方法，其特征在于，根据所述目标对象的属性信息，确定所述场景图像数据对应的目标作业场景，包括：根据所述目标对象的属性信息，获取所述目标对象的类别信息；将所述目标对象的类别信息，分别与不同作业场景包含的必要对象的类别信息进行比若所述目标对象的类别信息与所述不同作业场景中的任一作业场景包含的必要对象的类别信息匹配，则确定所述任一作业场景作为所述场景图像数据对应的目标作业场景。3.根据权利要求1所述的方法，其特征在于，利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型，包括：根据所述目标作业场景的事件识别规则，判断是否能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型；若为否，则利用所述目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型。若能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型，则根据所述目标对象的属性信息，确定所述目标对象的类别；将所述目标对象的类别分别与所述目标作业场景中的不同事件类型依赖的必要对象类别进行匹配；若所述目标对象的类别与所述目标作业场景中的任一事件类型依赖的必要对象类别一致，则确定所述任一事件类型为所述目标事件类型，并输出所述目标事件类型。5.根据权利要求3所述的方法，其特征在于，根据所述目标作业场景的事件识别规则，判断是否能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景若所述目标作业场景的事件识别规则依赖对象的类别，则确定能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型；若所述目标作业场景的事件识别规则依赖对象的类别以及对象之间的关系，则确定不能根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型。6.根据权利要求1-5任一项所述的方法，其特征在于，所述目标对象的属性信息包括：3所述目标对象的坐标信息和类别信息；利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件根据所述目标对象的坐标信息，对所述场景图像数据进行裁剪，得到所述目标对象对应的场景子图；根据所述场景子图、所述目标对象的坐标信息和类别信息以及所述目标作业场景中的不同事件对应的知识信息，构造目标提示词；根据所述目标提示词调用所述目标多模态模型，以利用目标多模态模型识别所述场景图像数据在所述目标作业场景中对应的目标事件类型。7.根据权利要求6所述的方法，其特征在于，根据所述目标提示词调用所述目标多模态模型，以利用目标多模态模型识别所述场景图像数据在所述目标作业场景中对应的目标事将所述目标提示词输入所述目标多模态模型；在所述目标多模态模型中，从所述目标提示词中获取所述目标对象中的多个对象各自的坐标信息以及类别信息，并提取所述多个对象各自的场景子图的语义特征；根据所述多个对象各自的坐标信息、类别信息以及语义特征，识别所述多个对象之间的逻辑关系；根据所述多个对象之间的逻辑关系，分别对所述不同事件类型对应的知识信息进行匹配，得到与所述多个对象之间的逻辑关系适配的目标知识信息；将所述目标知识信息对应的事件类型，确定为所述场景图像数据在所述目标作业场景中对应的事件类型。8.根据权利要求1-5任一项所述的方法，其特征在于，所述目标多模态模型是对预训练的多模态大模型进行轻量化压缩得到的，所述目标多模态模型部署在终端设备上或者边缘侧设备上。所述存储器用于存储一条或多条计算机指令；所述处理器用于执行所述一条或多条计算机指令以用于：执行权利要求1-8任一项所述的方法中的步骤。10.一种存储有计算机程序的计算机可读存储介质，其特征在于，计算机程序被处理器执行时能够实现权利要求1-8任一项所述的事件识别方法。11.一种计算机程序产品，其特征在于，包括：计算机程序/指令，所述计算机程序/指令被处理器执行时能够实现权利要求1-8任一项所述的事件识别方法。4事件识别方法、设备、存储介质及程序产品技术领域[0001]本申请涉及人工智能技术领域，尤其涉及一种事件识别方法、设备、存储介质及程序产品。背景技术[0002]在电力、交通、工业生产等领域的工务作业过程中，操作员以及设备所在的作业环境较为复杂，因此对保障作业安全、规避风险的要求较高。识别作业场景中的安全事件以及风险事件，并及时地对风险事件进行预警或干预是非常重要的环节。例如，工业生产领域中，可识别焊接操作员在执行焊接作业时是否佩戴护目镜。在电力领域中，可识别检修工人在执行电力检修作业时是否使用合规的操作工具。[0003]不同领域中，对作业场景中安全事件以及风险事件的定义较为复杂，传统的事件识别手段无法准确地识别出作业场景中不同类型的事件。因此，有待提出一种新的解决方发明内容[0004]本申请实施例提供一种事件识别方法、设备、存储介质及程序产品，用以准确地识别工务作业场景中的事件类型。[0005]本申请实施例提供一种事件识别方法，包括：获取工务作业过程中的场景图像数据；利用目标检测模型，对所述场景图像数据进行目标检测，得到所述场景图像数据包含的目标对象的属性信息；根据所述目标对象的属性信息，确定所述场景图像数据对应的目标作业场景；利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型。[0006]可选地，根据所述目标对象的属性信息，确定所述场景图像数据对应的目标作业场景，包括：根据所述目标对象的属性信息，获取所述目标对象的类别信息；将所述目标对象的类别信息，分别与不同作业场景包含的必要对象的类别信息进行比对；若所述目标对象的类别信息与所述不同作业场景中的任一作业场景包含的必要对象的类别信息匹配，则确定所述任一作业场景作为所述场景图像数据对应的目标作业场景。[0007]可选地，利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型，包括：根据所述目标作业场景的事件识别规则，判断是否能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型；若为否，则利用所述目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型。[0008]可选地，还包括：若能够根据所述目标对象的属性信息确定所述场景图像数据在5所述目标作业场景中对应的目标事件类型，则根据所述目标对象的属性信息，确定所述目标对象的类别；将所述目标对象的类别分别与所述目标作业场景中的不同事件类型依赖的必要对象类别进行匹配；若所述目标对象的类别与所述目标作业场景中的任一事件类型依赖的必要对象类别一致，则确定所述任一事件类型为所述目标事件类型，并输出所述目标事件类型。[0009]可选地，根据所述目标作业场景的事件识别规则，判断是否能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型，包括：若所述目标作业场景的事件识别规则依赖对象的类别，则确定能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型；若所述目标作业场景的事件识别规则依赖对象的类别以及对象之间的关系，则确定不能根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型。[0010]可选地，所述目标对象的属性信息包括：所述目标对象的坐标信息和类别信息；利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型，包括：根据所述目标对象的坐标信息，对所述场景图像数据进行裁剪，得到所述目标对象对应的场景子图；根据所述场景子图、所述目标对象的坐标信息和类别信息以及所述目标作业场景中的不同事件对应的知识信息，构造目标提示词；根据所述目标提示词调用所述目标多模态模型，以利用目标多模态模型识别所述场景图像数据在所述目标作业场景中对应的目标事件类型。[0011]可选地，根据所述目标提示词调用所述目标多模态模型，以利用目标多模态模型识别所述场景图像数据在所述目标作业场景中对应的目标事件类型，包括：将所述目标提示词输入所述目标多模态模型；在所述目标多模态模型中，从所述目标提示词中获取所述目标对象中的多个对象各自的坐标信息以及类别信息，并提取所述多个对象各自的场景子图的语义特征；根据所述多个对象各自的坐标信息、类别信息以及语义特征，识别所述多个对象之间的逻辑关系；根据所述多个对象之间的逻辑关系，分别对所述不同事件类型对应的知识信息进行匹配，得到与所述多个对象之间的逻辑关系适配的目标知识信息；将所述目标知识信息对应的事件类型，确定为所述场景图像数据在所述目标作业场景中对应的事件类型。[0012]可选地，所述目标多模态模型是对预训练的多模态大模型进行轻量化压缩得到的，所述目标多模态模型部署在终端设备上或者边缘侧设备上。[0013]本申请实施例还提供一种电子设备，包括：存储器和处理器；所述存储器用于存储一条或多条计算机指令；所述处理器用于执行所述一条或多条计算机指令以用于：执行本申请实施例提供的方法中的步骤。[0014]本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时能够实现本申请实施例提供的方法中的步骤。[0015]本申请实施例还提供一种计算机程序产品，包括：计算机程序/指令，所述计算机程序/指令被处理器执行时能够实现本申请实施例提供的方法中的步骤。[0016]本申请实施例中，获取工务作业过程中的场景图像数据后，可利用目标检测模型，对场景图像数据进行目标检测，得到场景图像数据包含的目标对象的属性信息。根据目标6对象的属性信息，可确定场景图像数据对应的目标作业场景，并可利用目标多模态模型，根据目标对象的属性信息以及目标作业场景中的不同事件类型对应的知识信息，识别场景图像数据在目标作业场景中对应的目标事件类型。在这种实施方式中，将基于计算机视觉的目标检测模型与目标多模态模型相结合，充分发挥了目标检测模型在细粒度目标检测方面的优势和多模态模型在高级语义理解和推理方面的强大能力，实现更准确的事件识别。[0017]其次，将目标检测模型作为目标多模态模型的前置模型，可使得目标多模态模型专注于高级语义理解和推理，有利于缩减目标多模态模型的参数量，可在保证语义理解能力的同时，显著降低工程落地复杂度，从而便于目标多模态模型工程化部署。附图说明[0018]此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：图1为本申请一示例性实施例提供的事件识别方法的流程示意图；图2为本申请另一示例性实施例提供的事件识别方法的流程示意图；图3为本申请一示例性实施例提供的电子设备的结构示意图。具体实施方式[0019]为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。[0020]在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制排除包含至少一种的情况。[0021]应当理解，本文中使用的术语“和/或”仅仅可以存在三种关系，例如，A和/或B,可以表示：单独存在A,同时存在A和B,单独存在B这三种包含，从而使得包括一系列要素的产品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种产品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……"”限定的要素，并不排除在包括所存在另外的相同要素。[0023]在电力、交通、工业生产等领域的工务作业过程中，操作员以及设备所在的作业环境较为复杂，因此对保障作业安全、规避风险的要求较高。识别作业场景中的安全事件以及风险事件，并及时地对风险事件进行预警或干预是非常重要的环节。例如，工业生产领域中，可识别焊接操作员在执行焊接作业时是否佩戴护目镜。在电力领域中，可识别检修工人在执行电力检修操作时是否使用合规的操作工具。不同领域中，对作业场景中安全事件以及风险事件的定义较为复杂，传统的事件识别手段无法准确地识别出作业场景中不同类型7的事件。[0024]一种方案中，可基于计算机视觉(ComputerVision,CV)模型和事件判别规则来识别作业场景中的事件类型。但是这种方案中，CV模型的规模较小，泛化能力差、判定准确率不高，在面对语义要求比较复杂的作业场景时，无法准确地识别作业场景中的事件类型。[0025]在另一些方案中，可直接使用参数量较多的多模态大模型对作业过程中拍摄到图片进行理解及事件判定。但是，多模态大模型在针对特定场景执行细粒度的目标识别任务时，它们的表现可能不及那些专门为此类任务设计的小型模型。此外，多模态大模型的参数量较大，对模型微调需要的数据更多，且部署这类多模态大模型需要的机器资源更多、成本更高，不利于工程化部署到资源有限的实际生产环境中。[0026]针对上述技术问题，在本申请一些实施例中，提供了一种解决方案，以下结合附图，详细说明本申请各实施例提供的技术方案。[0027]图1是本申请一示例性实施例提供的事件识别方法的流程示意图，该方法可包括如图1所示的步骤：步骤101、获取工务作业过程中的场景图像数据。[0028]步骤102、利用目标检测模型，对所述场景图像数据进行目标检测，得到所述场景图像数据包含的目标对象的属性信息。[0029]步骤103、根据所述目标对象的属性信息，确定所述场景图像数据对应的目标作业场景。[0030]步骤104、利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型。[0031]本实施例适应于工务作业场景，用于对工务作业过程中的场景图像数据进行分析，以识别工务作业过程中的事件类型。其中，工务作业是指工业生产和工程建设中涉及的作业，主要用于与基础设施建设、设备维护、工艺操作及技术保障等任务相关。工务作业可包括但不限于：生产设备安装与调试、工程结构施工(如焊接、切割)、牵引、电力巡检)、安全隐患排查及工艺标准执行等。工务作业的赖专业技术和标准化流程，以保证安全高效实施。[0032]例如，在生产设备安装与调试场景中，操作人员需佩戴适当的个人防护装备，如安在切割作业场景中，操作人员需要佩戴护目镜，且操作人员与切割点之间应当保持适当的安全距离，以避免火花飞溅造成伤害。例如，在电力巡检作业场景中，操作人员应佩戴手套并穿戴绝缘靴，保护全身免受电击风险。[0033]本实施例可由事件识别装置执行，该事件识别装置可运行在一台计算机设备上，也可以采用分布式的方式运行在多台计算机设备上，本实施例不做限制。在一些工程化部署场景中，事件识别装置可运行在靠近工务作业环境的本地终端设备上或者边缘侧设备[0034]在步骤101中，工务作业过程可以是任意一种工务作业过程。在工务作业的过程中，可拍摄场景图像数据，场景图像数据用于从视觉维度描述作业场景。在一些实施例中，事件识别装置可通过工务作业环境中部署的图像采集设备获取工务作业过程中的视频或8者图像。若获取到视频，则可从视频中抽取部分静态帧得到场景图像数据。[0035]在步骤102中，事件识别装置可利用目标检测模型，对该场景图像数据进行目标检测，得到该场景图像数据包含的目标对象的属性信息。其中，目标对象的属性信息可包括目标对象在场景图像数据中的位置信息和/或类别信息。[0036]其中，目标检测模型是一种用于识别等)的机器学习模型，其核心任务是定位目标的位置(输出边界框),或者分类目标的类别，或者在定位目标的位置的同时分类目标的类别。在一些工程化部署场景中，目标检测模型可运行在靠近工务作业环境的终端设备上或者边缘侧设备上，进而可快速响应事件识别装置的调用，满足工务作业场景中的实时预警需求。当然，在一些其他的可选实施例中，目标检测模型也可部署在云端服务器上，以供事件识别装置远程调用。[0037]事件识别装置可通过目标检测模型对外开放的接口，向目标检测模型发送检测请求，该检测请求携带场景图像数据。目标检测模型可将场景图像数据作为输入，并对场景图像执行特征提取操作。其中，特征提取操作可包括：使用卷积神经网络(CNN)提取图像中的特征，捕捉目标的形状、纹理等信息。基于提取到的特征，生成可能包含目标对象的候选区域(即潜在的边界框),或者，基于提取到的特征直接预测边界框。若生成了可能包含目标对象的候选区域，则可采用分类与回归算法，对每个候选区域进行分类，即判断候选区域对应可采用非极大值抑制(NMS)算法，去除重叠的多余边界框，保留较为准确的检测结果。基于上述实施方式，目标检测模型可输出场景图像数据中的每个目标对象的类别标签和对应的边界框坐标给事件识别装置。事件识别装置可将任一目标对象的类别标签和/或边界框坐标，作为该目标对象的属性信息，并基于该属性信息执行步骤103。[0038]在步骤103中，事件识别装置可根据目标对象的属性信息，确定该场景图像数据对应的目标作业场景。在一些可选的实施例中，事件识别装置可调用能够理解上下文语义的神经网络模型，根据目标对象的属性信息，确定场景图像数据对应的目标作业场景。[0039]在另一些可选的实施例中，事件识别装置可使用规则引擎，基于工务作业领域的知识对目标对象的属性信息进行规则匹配，以确定场景图像数据对应的目标作业场景。可产设备安装与调试场景的必要条件是：场景包含操作人员、安全帽、防护鞋等目标对象。焊[0040]规则引擎可根据目标对象的属性信息，遍历不同作业场景对应的必要条件。在遍历到任一作业场景时，规则引擎可判断目标对象的属性信息是否能够满足该作业场景对应的必要条件。若能满足，则确定该作业场景是场景图像数据对应的目标作业场景。若不能满足，则可遍历下一个作业场景，并根据目标对象的属性信息执行必要条件的判断操作，不再[0041]在一些可选的实施例中，任一作业场景对应的必要条件是指该作业场景应当包含的对象的类别。基于此，事件识别装置根据该目标对象的属性信息，确定该场景图像数据对应的目标作业场景的一种方式，可包括：根据该目标对象的属性信息，获取该目标对象的类别信息；将该目标对象的类别信息，分别与不同作业场景包含的必要对象的类别信息进行9比对；若该目标对象的类别信息与该不同作业场景中的任一作业场景包含的必要对象的类别信息匹配，则确定该场景图像数据对应的目标作业场景。例如，切割作业场景对应的的必要条件是：场景中需包含切割机、操作人员等对象。若场景图像数据中识别出的目标对象包括切割机以及操作人员等对象，则确定该场景图像数据对应的目标作业场景是切割作业场景。基于这种条件匹配的方式，可准确地将场景图像数据与目标作业场景进行关联。[0042]确定目标作业场景后，在步骤104中，事件识别装置可利用目标多模态模型，根据目标对象的属性信息以及目标作业场景中的不同事件类型对应的知识信息，识别场景图像数据在目标作业场景中对应的目标事件类型。[0043]在本实施例中，目标多模态模型是一种涉及多个输入源或数据类型(例如视觉、听觉、文本)的机器学习模型，可综合利用多种信息进行分析和决策。多模态模型是一种能够处理和理解多种类型数据(如文本、图像、音频、视频等)的神经网络模型，可通过融合不同模态的信息，捕捉跨模态之间的关联与语义，从而提升对复杂场景的理解能力和交互能力。目标多模态模型可以是基于Transformer架构的神经网络模型。在本实施例中，文本模态的信息可至少包括：目标检测得到的检测结果中的文本信息以及目标作业场景中的不同事件类型对应的知识信息；图像模态的信息可包括：目标检测提取出的目标对象的检测框和/或原始的场景图像数据，本实施例不做限制。[0044]在本实施例中，目标多模态模型可以是适用于终端侧部署或者边缘侧部署的中小型的多模态模型。相对于大规模的多模态模型来说，中小型的多模态模型具有较少的参数量，例如参数量通常在几百万到数亿不等，适用于部署在资源有限的设备上。其中，目标多模态模型的训练过程将在后续实施例中进行介绍，此处不做赘述。[0045]其中，事件是指作业场景中出现的一个或者一组行为。不同的作业场景对应的事件类型可能不同。在一些实施例中，作业场景中的事件类型可包括但不限于：设备故障事件、安全作业事件以及违规作业事件等。[0046]其中，不同事件类型对应的知识信息，用于描述在工务作业场景中执行不同事件类型的作业所需的工具、设备、材料、操作人员的安全装备及技能要求、以及特定的作业环境条件等。例如，挖掘作业场景中，安全作业事件对应的知识信息是：挖掘作业环境中应当具备挖掘机或铲子等挖掘工具以及挖掘地点标记；操作员应佩戴安全帽、手套和防护靴，并根据需要穿戴反光背心。挖掘作业场景中，违规作业事件对应的知识信息是：挖掘作业环境中缺少挖掘工具或挖掘地点标记；操作员未佩戴安全帽、手套、防护靴以及反光背心中的至少一种。[0047]例如，高空作业场景中，安全作业事件对应的知识信息是：高空作业环境中应当配备脚手架、梯子或高空作业平台；操作员必须佩戴安全带、头盔，并确保安全带连接到可靠的固定点上；高空作业还需要考虑天气条件，如强风或雨雪天气可能不适合作业。高空作业场景中，违规作业事件对应的知识信息是：高空作业环境中未配备脚手架、梯子以及高空作业平台中的至少一种；操作员未佩戴安全带或头盔，或，安全带未连接到可靠的固定点上；或者，作业环境暴露在强风或雨雪天气中。[0048]又例如，电气安装作业场景中，安全作业事件对应的知识信息是：电气安装作业现场应准备好电线、插座、开关、配电箱等电器元件；操作员应携带电工钳等),并穿着绝缘鞋和使用绝缘手套。电气安装作业场景中，违规作业事件对应的知识信息是：电气安装作业现场未准备好电线、插座、开关以及配电箱中的至少一种；操作员未携带电工工具包(螺丝刀、剥线钳等),或者，操作员未穿着绝缘鞋或者未使用绝缘手套。[0049]在本实施例中，不同事件类型对应的知识信息，可以是事件识别装置采用检索增强生成(RetrievalAugmentedGeneration,RAG)从指定知识库中检索得到的，该指定知识库中存储有不同工务作业场景的不同事件类型对应的标准化的知识信息，这些知识信息可以是对行业标准、规范等相关文件进行沉淀得到的。在一些实施例中，事件识别装置可至少根据目标对象的属性信息以及目标作业场景中的不同事件类型对应的知识信息，获取目标多模态模型的输入数据。目标多模态模型可结合学习到的语义理解能力，对目标对象的属性信息以及目标作业场景中的不同事件类型对应的知识信息进行理解，从而识别场景图像数据在目标作业场景中对应的目标事件类型。[0050]本实施例中，将基于计算机视觉的目标检测模型与目标多模态模型相结合，充分发挥了目标检测模型在细粒度目标检测方面的优势和多模态模型在高级语义理解和推理方面的强大能力，实现更准确的事件识别。其次，将目标检测模型作为目标多模态模型的前置模型，可使得目标多模态模型专注于高级语义理解和推理，有利于缩减目标多模态模型的参数量，可在保证语义理解能力的同时，显著降低工程落地复杂度，从而便于目标多模态模型工程化部署。此外，目标检测模型和目标多模态模型可以独立优化，便于灵活地进行版本迭代。[0051]在一些可选的实施例中，多模态模型是在工务作业领域中的数据集上训练得到的，以下将对可选训练方式进行示例性说明。[0052]可选地，在数据收集与预处理阶段，可从工务作业场景中收集包含多种模态的数据集，例如工务作业场景拍摄到的视频数据、图片数据，以及不同作业场景对应的文本数据，任一作业场景中的文本数据可用于描述该作业场景中的不同事件类型的概念、定义、识[0053]在编码阶段，可使用专门的编码器将不同模态的数据转换为统一的表示形式。例如，可使用Transformer或其他编码器对文本数据进行编码，可使用卷积神经网络(CNN)或视觉Transformer(ViT)对图像数据进行编码，可使用时序模型(如RNN、WaveNet)提取音频数据的频谱特征。[0054]在跨模态对齐与融合阶段，可通过特定机制(如注意力机制、对比学习)对齐不同模态的特征，使不同模态的特征在共享的语义空间中具有可比性。对齐不同模态的特征后，可融合多模态特征，形成一个联合表示，并将融合后的多模态特征输入多模态模型。[0055]在模型训练阶段，可设计任务目标为事件类型识别任务，并定义损失函数。获取到多模态模型针对输入数据的预测结果后，可根据损失函数计算多模态模型的预测损失。之后，可将最小化预测损失为目标来优化模型参数，直至预测损失收敛到指定范围。[0056]在另一些可选的实施例中，目标多模态模型可以是对预训练的大规模的多模态模型进行轻量化压缩得到的。多模态大模型指的是能够处理和理解来自多种输入类型的数据解能力，并且能够整合其他模态信息。可选地，该轻量化的目标多模态模型可部署在终端设备上或者边缘侧设备上。11[0057]其中，对大规模的多模态模型进行压缩的可选方式可包括：对大规模的多模态模型进行剪枝、量化或者知识蒸馏。其中，剪枝是指移除大规模的多模态模型中不重要的权重或神经元来简化模型结构。量化是指将模型中的参数从高精度(如32位浮点数)转换为低精度(如8位整数或更低),以此减少存储需求并加速推理过程。知识蒸馏是指利用一个大型教师模型的知识来指导小型学生模型的学习，使得学生模型能够在保持较高准确率的同时具有更小的规模。以下将以知识蒸馏为例进行具体示例性说明。[0058]可选地，可采用知识蒸馏技术对多模态大模型进行知识迁移，得到目标多模态模型。本申请实施例并不限定多模态大模型所支持的模型参数的多少。[0059]具体地，可选择一个通用领域的多模态的大规模的多模态模型作为教师模型，该教师模型通常是在大规模数据集上训练得到，并且在多个任务上表现出色。此外，可设计一个中小型模型作为学生模型，该模型具有较少的参数和较低的计算复杂度，以便于部署到资源受限的环境中。为了进行有效的蒸馏，可收集工务作业场景中的相关数据得到领域训练数据集，以确保学生模型能够学习到工务作业领域中的知识。在知识迁移的过程中，可使用教师模型对训练样本进行预测，得到每个样本的“软”标签(softlabels),这些软标签不仅包含正确的类别信息，还包含了教师模型对于其他类别的置信度分数。在训练学生模型的过程中，可最小化学生模型的预测标签与训练样本的真实标签之间的交叉熵损失，同时最小化学生模型输出的预测标签与教师模型提供的软标签之间的差异。完成训练后，可采用工务作业场景中的训练数据集，对知识迁移得到的学生模型进行进一步的微调，以得到更加适应工务作业领域的目标多模态模型。[0060]基于这种实施方式，可以有效地将大模型的知识迁移到小模型中，从而获得既具备一定精度又能在资源有限环境下运行的领域专用模型，一方面可提升目标多模态模型的可部署性，满足工程化部署需求；另一方面这种小模型专注于具体的任务领域，能够提供更加精确和高效的识别结果。[0061]在一些可选的实施例中，事件识别装置在利用目标多模态模型进行事件识别之前，可进一步判断对场景图像数据对应的事件类型进行识别是否强依赖目标多模态模型。若强依赖目标多模态模型，则利用目标多模态模型识别场景图像数据在目标作业场景中对应的目标事件类型。否则，可利用其他算法识别场景图像数据在目标作业场景中对应的目标事件类型。该其他算法是指参数量、计算量以及所需资源量小于目标多模态模型的算法，例如逻辑判断算法或者决策树算法。以下将进行示例性说明。[0062]可选地，在确定场景图像数据对应的目标作业场景之后，事件识别装置可根据该目标作业场景的事件识别规则，判断是否能够根据该目标对象的属性信息确定该场景图像数据在该目标作业场景中对应的目标事件类型。其中，事件识别规则，是指一组预定义的逻辑条件，用于描述对目标作业场景中的不同事件类型进行识别所依赖的条件。[0063]在一些可选的实施例中，事件识别规则是基于目标作业场景依赖的对象的类别和/或对象之间的关系构建的。例如，牵引机作业场景中的安全作业事件识别规则包括：作[0064]可选地，若该目标作业场景的事件识别规则依赖对象的类别，则事件识别装置可确定能够根据该目标对象的属性信息确定该场景图像数据在该目标作业场景中对应的目标事件类型。例如，牵引机作业场景中的安全作业事件识别规则只依赖对象的类别而不依赖对象之间的关系，事件识别装置可直接根据目标对象的属性信息确定该场景图像数据在牵引机作业场景中对应的目标事件类型。[0065]可选地，若该目标作业场景的事件识别规则依赖对象的类别以及对象之间的关系，则确定不能根据该目标对象的属性信息确定该场景图像数据在该目标作业场景中对应的目标事件类型。例如，焊接作业场景中的安全作业事件识别规则不仅依赖对象的类别还依赖对象之间的关系，事件识别装置可确定无法直接根据目标对象的属性信息确定该场景图像数据在牵引机作业场景中对应的目标事件类型。基于上述实施方式，可根据目标作业场景的事件识别规则，采用逻辑判断方法判断能否根据目标对象的属性信息直接确定目标事件类型。相较于神经网络模型而言，逻辑判断方法较为轻量，降低了对计算资源的耗费。[0066]可选地，若不能根据目标对象的属性信息确定图像数据在目标作业场景中对应的目标事件类型，则根据该目标对象的属性信息以及该目标作业场景中的不同事件类型对应的知识信息，识别该场景图像数据在该目标作业场景中对应的目标事件类型。可选地，若能够根据该目标对象的属性信息确定该场景图像数据在该目标作业场景中对应的目标事件类型，则事件识别装置可输出该目标事件类型。具体地，可根据该目标对象的属性信息，确定该目标对象的类别，并将目标对象的类别分别与目标作业场景中的不同事件类型依赖的必要对象类别进行匹配。若目标对象的类别与目标作业场景中的任一事件类型依赖的必要对象类别一致，则确定该事件类型为目标事件类型。例如，牵引机作业场景中，安全作业事件依赖的必要对象类别包括：操作员以及牵引机，违规作业事件依赖的必要对象类别包括：操作员或牵引机。若目标对象的类别包括：操作员以及牵引机，则确定该场景图像数据在牵引机作业场景中对应的目标事件类型为安全作业类型；反之，若目标对象的类别不包括操作员或牵引机，则确定该场景图像数据在牵引机作业场景中对应的目标事件类型为违规作业类型。[0067]也就是说，在能够直接根据目标对象的属性信息直接确定目标事件类型的情况下，无需发起对目标多模态模型的调用，一方面可提升整体的事件识别效率，另一方面可有效减少对目标多模态模型带来的不必要的调用，降低目标多模态模型的运行次数，从而降低资源消耗。[0068]在一些可选的实施例中，目标多模态模型是多模态模型，该目标对象的属性信息包括：该目标对象的坐标信息和类别信息。相应地，事件识别装置利用目标多模态模型，根据该目标对象的属性信息以及该目标作业场景中的不同事件类型对应的知识信息，识别该场景图像数据在该目标作业场景中对应的目标事件类型的一种方式可包括：根据该目标对象的坐标信息，对该场景图像数据进行裁剪，得到该目标对象对应的场景子图，并根据该场景子图、该目标对象的坐标信息和类别信息以及该目标作业场景中的不同事件对应的知识信息，构造目标提示词。在本实施例中，可预设一提示词模板，该提示词模板可包括任务类型字段、知识信息字段、目标对象的场景子图字段、坐标字段和类别字段等。事件识别装置可将任务类型字段的值设置为事件类型识别任务，并将获取到的上述信息对应填写到提示词模板的字段中，得到目标提示词。事件识别装置可根据该目标提示词调用该目标多模态模型，以利用目标多模态模型识别该场景图像数据在该目标作业场景中对应的目标事件类[0069]在这种实施方式中，目标多模态模型的输入数据不仅包括文本数据还包括场景子图这类图像数据，使得目标多模态模型不仅能够理解文本描述，还能通过分析图像中的逻辑关系和上下文信息，更准确地识别事件类型。此外，将场景子图输入目标多模态模型，可在目标检测模型在视觉特征提取阶段出现错误时，不会直接将错误传递至目标多模态模型[0070]可选地，事件识别装置在根据目标提示词调用该目标多模态模型时，可将该目标提示词输入该目标多模态模型。[0071]在该目标多模态模型中，从该目标提示词中获取该目标对象中的多个对象各自的坐标信息以及类别信息，并提取所述多个对象各自的场景子图的语义特征。在一些实施例中，若目标多模态模型是基于Transformer架构或者其变体的模型，则目标多模态模型可通过注意力机制捕捉场景子图中的语义信息。在另一些实施例中，目标多模态模型可包括卷积神经网络或者视觉变换器，并可基于卷积神经网络或者视觉变换器提取场景子图中的语义特征。根据该多个对象各自的坐标信息、类别信息以及语义特征，识别该多个对象之间的逻辑关系。其中，该逻辑关系可包括但不限于：握持关系、牵引关系、佩戴关系或使用关系等。具体地，目标多模态模型可提取每个对象的场景子图中的高维语义特征，并根据高维语义特征和每个对象的坐标信息确定不同对象之间的逻辑关系。例如，根据操作员的头部和安全帽的坐标信息确定头部和安全帽在位置上重叠，且头部的场景子图与安全帽的场景子图的特征匹配度较高时，可确定头部和安全帽之间的关系是佩戴关系。[0072]目标多模态模型可根据该多个对象之间的逻辑关系，对该不同事件类型对应的知识信息进行匹配，得到与该多个对象之间的逻辑关系适配的目标知识信息，并将该目标知识信息对应的事件类型，作为该场景图像数据在该目标作业场景中对应的事件类型。[0073]例如，若目标作业场景是挖掘作业场景，目标多模态模型可根据该多个对象之间的逻辑关系，与挖掘作业场景中的安全作业事件以及违规作业事件对应的知识信息进行匹配。若多个对象之间的逻辑关系是：操作员(对象a1)佩戴(关系r1)安全帽(对象a2)、手套(对象a3)和防护靴(对象a4),并穿戴(关系r2)反光背心(对象a5),则确定场景图像数据在挖掘作业场景中对应的事件类型是安全作业事件。[0074]又例如，若目标作业场景是高空作业场景，目标多模态模型可根据该多个对象之间的逻辑关系，与高空作业场景中的安全作业事件以及违规作业事件对应的知识信息进行匹配。若多个对象之间的逻辑关系是：操作员(对象b1)佩戴(关系r3)安全带(对象b2)以及头盔(对象b3),但安全带(对象b2)未连接(关系r4)到可靠的固定点(对象b4)上，则确定场景图像数据在挖掘作业场景中对应的事件类型是违规作业事件。[0075]基于上述实施方式，多模态的目标多模态模型可根据输入数据理解多个对象之间的逻辑关系，并根据逻辑关系以及不同事件的知识信息，准确地将输入数据映射到对应的事件类型，实现复杂作业场景的自动化理解。[0076]以下将结合图2,以电力安全监测作业场景中的异常事件识别为例，对本申请实施例提供的事件识别方法进行进一步示例性说明。[0077]如图2所示，在输入图像的步骤中，可获取电力巡检过程中拍摄的图像数据。在目标检测的步骤中，可使用目标检测模型识别图像中的目标对象，例如关键设备(如焊接设备、安全帽)、工作人员及其动作。在关联场景判断的步骤中，象的信息，判断当前作业场景是否符合某种常见事件模式，例如设备故障事件、违规操作事件。在事件明确判断的步骤中，若无法直接基于目标检测的结果确定事件类型，则执行场景子图生成以及提示词构造步骤。在场景子图生成以及提示词构造步骤中，进一步生成目标对象的场景子图，并基于目标对象的场景子图、类别、坐标以及目标对象所属的作业场景等信息，生成提示词。在多模态模型的判断步骤中，可将生成的提示词输入多模态模型进行事件类型的判断，并获取多模态模型输出的判断结果。若确定事件类型是违规事件，则可提示相关人员及时处理。[0078]在这种实施方式中，将基于计算机视觉的目标检测模型与多模态模型相结合，充分发挥了目标检测模型在细粒度目标检测方面的优势和多模态大模型在跨模态理解和推理方面的强大能力，实现更准确的事件识别。其次，多模态模型可以是参数量较少的多模态大模型，可以在保证理解和推理效果的同时，降低计算资源消耗，提高系统实时性和可部署性。此外，在这种实施方式中，通过执行关联场景判断的步骤以及事件明确判断的步骤，可有效减少对多模态模型带来的不必要的调用，提高整体识别效率。[0079]需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤104的执行主体可以为设备A;又比如，步骤101和102的执行主体可以为设备A,步骤103的执行主体可以为设备B;等等。[0080]另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或[0081]需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。[0082]图3示意了本申请一示例性实施例提供的电子设备的结构示意图，该电子设备上可运行前述实施例提供的事件识别装置。如图3所示，该电子设备包括：存储器301以及处理器302。[0083]存储器301,用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指[0084]处理器302,与存储器301耦合，用于执行存储器301中的计算机程序，以用于：获取工务作业过程中的场景图像数据；利用目标检测模型，对所述场景图像数据进行目标检测，得到所述场景图像数据包含的目标对象的属性信息；根据所述目标对象的属性信息，确定所述场景图像数据对应的目标作业场景；利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型。[0085]可选地，处理器302在根据所述目标对象的属性信息，确定所述场景图像数据对应的目标作业场景时，具体用于：根据所述目标对象的属性信息，获取所述目标对象的类别信息；将所述目标对象的类别信息，分别与不同作业场景包含的必要对象的类别信息进行比对；若所述目标对象的类别信息与所述不同作业场景中的任一作业场景包含的必要对象的类别信息匹配，则确定所述任一作业场景作为所述场景图像数据对应的目标作业场景。[0086]可选地，处理器302在利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型时，具体用于：根据所述目标作业场景的事件识别规则，判断是否能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型；若为否，则利用所述目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型。[0087]可选地，处理器302还用于：若能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型，则根据所述目标对象的属性信息，确定所述目标对象的类别；将所述目标对象的类别分别与所述目标作业场景中的不同事件类型依赖的必要对象类别进行匹配；若所述目标对象的类别与所述目标作业场景中的任一事件类型依赖的必要对象类别一致，则确定所述任一事件类型为所述目标事件类型，并输出所述目标事件类型。[0088]可选地，处理器302在根据所述目标作业场景的事件识别规则，判断是否能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型时，具体用于：若所述目标作业场景的事件识别规则依赖对象的类别，则确定能够根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型；若所述目标作业场景的事件识别规则依赖对象的类别以及对象之间的关系，则确定不能根据所述目标对象的属性信息确定所述场景图像数据在所述目标作业场景中对应的目标事件类型。[0089]可选地，所述目标对象的属性信息包括：所述目标对象的坐标信息和类别信息；处理器302在利用目标多模态模型，根据所述目标对象的属性信息以及所述目标作业场景中的不同事件类型对应的知识信息，识别所述场景图像数据在所述目标作业场景中对应的目标事件类型时，具体用于：根据所述目标对象的坐标信息，对所述场景图像数据进行裁剪，得到所述目标对象对应的场景子图；根据所述场景子图、所述目标对象的坐标信息和类别信息以及所述目标作业场景中的不同事件对应的知识信息，构造目标提示词；根据所述目标提示词调用所述目标多模态模型，以利用目标多模态模型识别所述场景图像数据在所述目标作业场景中对应的目标事件类型。[0090]可选地，处理器302在根据所述目标提示词调用所述目标多模态模型，以利用目标多模态模型识别所述场景图像数据在所述目标作业场景中对应的目标事件类型时，具体用于：将所述目标提示词输入所述目标多模态模型；在所述目标多模态模型中，从所述目标提示词中获取所述目标对象中的多个对象各自的坐标信息以及类别信息，并提取所述多个对象各自的场景子图的语义特征；根据所述多个对象各自的坐标信息、类别信息以及语义特征，识别所述多个对象之间的逻辑关系；根据所述多个对象之间的逻辑关系，分别对所述不同事件类型对应的知识信息进行匹配，得到与所述多个对象之间的逻辑关系适配的目标知识信息；将所述目标知识信息对应的事件类型，确定为所述场景图像数据在所述目标作业场景中对应的事件类型。[0091]可选地，所述目标多模态模型是对预训练的多模态大模型进行轻量化压缩得到的，所述目标多模态模型部署在终端设备上或者边缘侧设备上。以及音频组件306等其它组件。图3中仅示意性给出部分组件，并不意味着电子设备只包括图3所示组件。图3中，虚线框内的组件为可选组件，而非必选组件，具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图3中虚线框内的组件；若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图3中虚线框内的组件。[0093]其中，存储器301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(StaticRandom-AccessMemory,SRAM),电可擦除可编程只读存储器(ElectricallyErasableProgrammableRead-OnlyMemory,EEPROM),可擦除可编程只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),可编程只读存储器(ProgrammableRead-0nlyMemory,PROM),只读存储器(Read-OnlyMemory,ROM),[0094]其中，通信组件303被配置为便于通信组件所在设备

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN120220034A 事件识别方法、设备、存储介质及程序产品

文档简介

温馨提示

最新文档

评论

CN120220034A 事件识别方法、设备、存储介质及程序产品

文档简介

温馨提示

最新文档

评论

相关文档