




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
地址350108福建省福州市闽侯县福州大学城联榕路8号所(普通合伙)35233GO6N一种基于视觉语言大模型智能体的应用程本发明涉及一种基于视觉语言大模型智能体的应用程序自动控制方法,属于信息技术领Agent协同调度的方式共同完成用户自动控制任VLMAgent在解决应用程序自动控制问题的潜*21.一种基于视觉语言大模型智能体的应用程序自动控制方法,其特征在于,方法的框架设计了三种不同角色的视觉语言大模型智能体VLMAgent,分别为应用程序智能体ApplicationAgent、用户接口智能体UIAgent以及用户任务检查智能体Che在用户输入任务描述提示词或者语音后,应用程序智能体ApplicationAgent首先负责解析用户输入,并将用户操作任务拆分成一系列可执行的用户接口UI控件操作,即全局策略规划;之后,应用程序智能体ApplicationAgent再根据全局策略规划中提取的应用程序具体名称从环境变量或者配置文件中获取对应的窗口句柄,即启动指定应用程序,并将VLM执行主导权传递给用户接口智能体UIAgent;用户接口智能体UIAgent利用设计的用户接口工具集UITools对当前应用窗口的GUI界面进行截图,并结合外部图形用户接口定位GUI-像的理解,用户接口智能体UIAgent在对GUI界面进行UI控件识别后将对所有被识别出的UI控件标注检测框以及唯一控件标识号ID,利用VLM对图像标注敏感的视觉感知特性;同时用户接口智能体UIAgent根据全局策略规划以及标注检测框之后的GUI界面截图给出即时策略规划,选择当前步需要操作的UI控件,并修正全局策略规划;最后,用户任务检查智能体CheckAgent将根据操作指定UI控件后的GUI界面截图判断用户当前任务是否已完成,若未完成,则将VLM执行主导权继续交由用户接口智能体UIAgent进行下一步UI控件操作;若完成,则应用程序智能体ApplicationAgent输出终止符,结束本次自动控制任务,并通知用户。2.根据权利要求1所述的一种基于视觉语言大模型智能体的应用程序自动控制方法,步骤S1、构建视觉语言大模型工具集合VLMTools;步骤S2、构建视觉语言大模型团队VLMTeam与视觉语言大模型智能体V步骤S3、应用程序自动控制方法评估。3.根据权利要求2所述的一种基于视觉语言大模型智能体的应用程序自动控制方法,步骤S12、定义全局策略规划工具;步骤S17、定义即时策略规划工具;4.根据权利要求3所述的一种基于视觉语言大模型智能体的应用程序自动控制方法,其特征在于,所述方法的视觉语言大模型工具集合VLMTools为视觉语言大模型智能体VLMAgent的关键组件,将应用程序自动控制方法核心内容与逻辑拆分封装成不同的视觉语言大模型工具VLMTool,其中视觉语言大模型工具VLMTool分为视觉任务VisionTask与非视觉任务Non-VisionTask,视觉语言大模型智能体VLMAgent根据用户提示词Prompt及当3前自动控制任务执行上下文选择调用合适的视觉语言大模型工具VLMT构建多模态消息列表M=[M₁,M₂,…M],将调用过程中产生的图像信息S;,与文本信息t,一起作为多模态消息的请求内容,其中M∈{s,t,},再记视觉语言大模型智能体VLM共享记忆产生困难,无法坚持多轮长对话;为了缓解该现象,减少提示词Prompt与令牌同作为记忆Memory组件的存储单位元,使得每个视觉语言大模型智能体VLMAgent作出的中存储的图像数量始终为1;通用规则元素提取的方式来识别UI控件识别,牺牲提出的应用程序自动控制多智能体户接口定位GUI-Grounding转移至VLM对图像内容的理解与视觉语言大模型智能体VLM文本内容理解的优秀能力过滤掉无关的UI控件,只保留与当前即时决策相关的主要UI控域,而与思路相近的基于通用规则元素提取技术的UF0方法仅在可交互的UI控件右上角标注纯数字ID;视觉语言大模型智能体VLMAgent在与UI控件进行交互之前,还需要在像素坐4件边界的右上角顶点的横坐标,uy₁为像素坐标系中UI控件边界的左上角顶点的纵坐标,当一次UI控件交互操作完成时,为了检验当前用户操作任务界面截图S;以及总体任务描述t;封装为多模态消息M,让视觉语言大模型智能体VLM同时修正全局策略规划πg,并向视觉语言大模型团队VLMTeam给出下一步即时策略规划享修正后的全局策略规划πg以及即时策略规划π1,以便提高VLM对当前GUI界面的图像理解。5.根据权利要求2所述的一种基于视觉语言大模型智能体的应用程序自动控制方法,6.根据权利要求5所述的一种基于视觉语言大模型智能体的应用程序自动控制方法,提示词即可完成整个CCMAgent系统的更新,还能够同时完成多智能体Multi-Agent及多视为了优化用户操作本系统时交互体验,利用STT工具将用户从输入文本的方式转音设备对话来操作视觉语言大模型智能体VLMAgent;针对应用程序自动控制问题总共设计了三种视觉语言大模型智能体VLMAgent,分别为应用程序智能体Application5语言大模型智能体VLMAgent共享记忆Memory组件,同时将方法系统的主线程操作权限交语言大模型智能体VLMAgent的多模态输出消息M来确定下一步应当调用的视觉语言大程操作权限的视觉语言大模型智能体VLMAgent自行选择将主线程交由其他视觉语言大模πg或即时策略规划π的语义信息选择合适的视觉语言大模型智能体VLMAgent;应用程序智能体ApplicationAgent可供操作的视觉语言大模型工具集合VLMTools图以及UI相关步骤;用户任务检查智能体CheckAgent可供操作的视理生成即时策略规划π1,也将其构造成多模态消息M并存储至记忆Memory组件中,将策7.根据权利要求2所述的一种基于视觉语言大模型智能体的应用程序自动控制方法,8.根据权利要求7所述的一种基于视觉语言大模型智能体的应用程序自动控制方法,其特征在于,所述为了更加全面的评估各种基于视觉语言大模型智能体VLMAgent的应用6其中视觉语言大模型智能体VLMAgent执行的预测操作序列为P=[P₁,P₂……P,],包序列中的某个步骤0;相同,但是如果该预测步骤Pi对完成任务没有任何帮助,则记P₁∉Pwnusefiul,反之,若执行预测步骤Pi使得用户自动控制任务完成进度提升,则记p,∈P1eful;计算用户自动控制任务完成率会将一些尽管中间步骤存在错误但最终依然完成任务的预测操作序列的权重比例提高,能够索引相同时步骤是否相同一致的个数,最后再计算步骤匹配数与最优操作序列步骤总数不同则置为0;分CC-Score时均用到了最优操作序列O=[o,0₂…0],而WindowsBench并没有提供最优7一种基于视觉语言大模型智能体的应用程序自动控制方法技术领域[0001]本发明属于信息技术领域,特别涉及一种基于视觉语言大模型智能体的应用程序自动控制方法。背景技术[0002]在人机交互领域中,图形用户界面(GraphicalUserInterfaces,GUI)广泛应用于智能手机、计算机等电子设备中,允许用户通过鼠标、键盘等输入设备自由操控这些可交互设备,并在各种应用软件上完成一系列复杂的用户任务。然而,由于用户需求的灵活多变以及用户对软件功能的要求不断增高,应用软件的交互界面越来越复杂臃肿,用户往往需要花费较多时间先学习记忆应用软件的使用方法,使得用户软件界面交互体验变差,用户如果需要完成一些操作步骤较多的用户交互任务则变得困难麻烦。此外,由于GUI中UI控件元素的增多及布局复杂度的增高,导致程序自动化测试控制脚本的编写难度也随之增大。同时传统的自动化测试方法通常依赖于硬编码,难以应对频繁多变的软件交互界面。对于一些大型软件而言,一旦出现版本更新迭代,自动化测试控制脚本便需要重新编写。[0003]由于近几年视觉语言大模型(VisionLanguageLargeModel,VLM)的流行,越来越多的研究学者利用VLM技术来解决这类软件层面上的人机交互问题,如Hong等人提出的能力的特性,将人工操作UI控件元素的步骤进行自动化控制处理,以此简化用户与复杂软件交互过程。基于零样本学习训练的VLM具有处理未知场景的泛化能力,能够较好地理解用户的任务目的,并给出对应的语言文本或者图像输出,这使得VLM在面对版本迭代更新较快的大型软件时,依然能够保持较好的响应效果,辅助用户完成一系列复杂人机交互任务。[0004]虽然目前比较先进的VLM,如GPT-4V(o),在完成高维度状态与动作空间的场景任务时,效果较差,不具备复杂的图像逻辑推理能力,上下文感知能力有限,但对于自动控制软件应用程序问题而言,用户与GUI交互时仅通过鼠标点击及键盘输入等离散动作即可完交互的大部分任务不涉及逻辑性强的推理步骤。因此,在相对简单的用户交互任务中,VLM可以较好地代替用户操作应用程序,以实现自动控制应用程序。[0005]实现VLM自动控制应用程序的关键步骤之一是UI控件坐标定位,即2D-Grounding任务。UI控件识别的准确率直接决定了VLM在自动控制应用程序中的表现和效果。目前基于VLM自动控制应用程序方法主要分为两类:第一类基于GUI-Grounding的方法,如Baechler时对图像中出现的UI控件进行坐标定位,并根据用户提示词输出完成用户指定的应用程序控制任务需要用到的UI控件;第二类方法结合外部GUI-Grounding模型或工具嵌入VLM中,模型的兼容性,本发明采用结合外部GUI-Grounding标识UI控件的方法,利用VLM对图像标8[0006]现有的基于VLM的应用程序自动控制方法在设计智能体策略时,大多采用全局策略规划,在控制指定应用程序之前,首先通过一个VLM智能体根据用户提出的指定操作任务规划接下来可能所有UI操作。这种方式适用于操作步骤较少或软件GUI简易的应用场景,但是在面对一些版本迭代更新比较快的大型复杂软件系统时,由于这种方法依赖于VLM模型训练时输入的GUI操作前置知识,比较容易在方法初始阶段给出错误的UI操作策略规划,导致后续的VLM自动控制GUI操作时陷入死循环。因此,本发明采用即时策略规划为主、全局策略规划为辅的多VLM智能体方法,VLM智能体在控制应用程序时将根据当前应用程序GUI界面截图来不断修正全局策略,即时判断下一步UI操作,类似于强化学习探索环境时的行为策略。发明内容[0007]本发明的目的在于提供一种基于视觉语言大模型智能体的应用程序自动控制方局策略规划为辅的VLM多智能体方法CCMAgent(ComputerControlMulti-Agent),并利用VLM对图像标记敏感的视觉感知特性,通过外部GUI-Grounding方法对当前应用程序GUI界VLMAgent的探索性,提高本发明方法的鲁棒性,避免由于全局策略规划不当导致自动控制陷入死循环。[0008]为实现上述目的,本发明提供如下技术方案:一种基于视觉语言大模型智能体的应用程序自动控制方法,设计了三种不同角色的视觉语言大模型智能体VLMAgent,分别为应用程序智能体ApplicationAgent、用户接口智能体UIAgent以及用户任务检查智能体CheckAgent。在用户输入任务描述提示词或者语音后,ApplicationAgent首先负责解析用户输入,并将用户操作任务拆分成一系列可执行的用户接口UI控件操作,即全局策略规划。之后,ApplicationAgent再根据全局策略规划中提取的应用程序具体名称从环境变量或者配置文件中获取对应的窗口句柄,即启动指定应用程序,并将VLM执行主导权传递给UIAgent.UIAgent利用本发明设计的用户接口工具集UITools对当前应用窗口的图形用户接口GUI界面进行截图,并结合外部图形用户接口定位GUI-Grounding方法识别当前GUI界面进行UI控件识别后将对所有被识别出的UI控件标注检测框以及唯一控件身份标识号ID,以此利用VLM对图像标注敏感的视觉感知特性。同时UIAgent将根据全局策略规划以及标注检测框之后的GUI界面截图给出即时策略规划,选择当前步需要操作的UI控件,并修正全局策略规划。最后,CheckAgent将根据操作指定UI控件后的GUI界面截图判断用户当前任务是否已完成,若未完成,则将VLM执行主导权继续交由UIAgent进行下一步UI控件操作,若完成,则应用程序智能体ApplicationAgent输出终止符,结束本次自动控制任务,并通知用户。步骤S1、构建视觉语言大模型工具VLMToo9序自动控制方法核心内容与逻辑拆分封装成不同的视觉语言大模型工具VLMTool,其中Agent根据用户提示词Prompt及当前自动控制任务执行上下文选择调用合适的VLMTool,若该VLMTool属于VisionTask,则VLMAgent通过构建多模态消息列表,将调用过程中产生的图像信息S₁,如应用程序GUI界面截图Mu=f(M₁,M₂…,MN;θ)(1);[0012]VLMAgent在与UI控件进行交互之前,还需要在像素坐标系中确定其中Ux₁为像素坐标系中UI控件边界的左上角顶点的横坐标,Ux₂为像素坐标系修正全局策略规划πg,本发明设计了专门用于检验任务完成的VLMTool,VLMAgent将利时策略规划π1,如式(4)所示:件存储策略信息,使得所有VLMAgent都能够共享修正后的全局策略规划πg以及即时策略规划π1,以便提高VLM对当前GUI界面的图像理解,若完成,则应用程序智能体11步骤S25、构建应用程序智能体ApplicationAgent;步骤S26、构建用户接口智能体UIAgen[0015]现有的Agent框架大多比较笨重并且不是专门为了设计搭建Agent而生,如LangChain,较难兼容Multi-Agent以及多VLMTool的场景,并且很难扩展不同的最新版商[0016]进一步的,基于AutoGen框架进行二次封装开发,对外提供简化API,用户只需要修改系统提示词即可完成整个CCMAgent系统的更新,还能够同时完成Multi-Agent及多VLMTool的场景,并且能够横向兼容多种最新的商业化的VLMAPI接口,如GPT-4V(o)与Claude-3.7-sonnet。此外,为了优化用户操作本系统时交互体验,本发明利用STT工具将用户从输入文本的方式转为通过语音设备对话来操作VLMAgent。[0017]本发明针对应用程序自动控制问题总共设计了三种VLMAgent,分别为ApplicationAgent、UIAgent以及Check为了让这三种VLMAgent协同调度工作,共享历史上下文,利用VLMTeam技术将三种VLM明步骤S1中定义的各类VLMTool的调度使用是基于语义实现的,需要根据VLMAgent的多模态输出消息M来确定下一步应当调用的VLMTool,因此,本发明将VLMTeam的调度策略定义为通过当前掌握主线程操作权限的VLMAgent自行选择将主线程交由其他VLMAgent或依然是自己,使得VLMTeam处理用户控制任务时较为自由灵活,即VLMTeam根据历史共享上下文中的全局策略规划πg或即时策略规划π₁的语义信息选择合适的VLMAgent。[0018]ApplicationAgent可供操作的视觉语言大模型工具集合VLMTools集合为全局策略规划工具、图像拼接工具与应用程序窗口句柄工具,主要处理生成全局策略规划πg,并将其构造为多模态消息M存储至Memory组件中,以及进行应用程序基础操作,如获取应用程序环境变量、窗口句柄以及启动应用程序操作;UIAgent可供操作的视觉语言大模型工具集合VLMTools集合为UI识别及图像标注工具、交互UI控件工具以及图像拼接工具,主元素等操作;CheckAgent可供操作的视觉语言大模型工具集合VLMTools集合为即时策略规划工具、检验用户操作任务工具以及图像拼接工具,主要处理生成即时策略规划π1,也将其构造成多模态消息M并存储至Memory组件中,将策略π1共享给ApplicationAgent[0019]进一步的,步骤S3的具体实现如下:其中VLMAgent执行的预测操作序列为P=[P₁,P₂…P,],,任务有效的操作序列集合,尽管预测操作序列中某个预测步骤Pi与最优操作序列中的某个步骤0;相同,但是如果该预测步骤P;对完成任务没有任何帮助,则户自动控制任务完成率会将一些尽管中间步骤存在错误但最终依然完成任务的预测操作Agent自动控制方法。由于本发明在计算用户自动控制任务完成率以及CC-Score时均用到够横向扩展多种最新商业化VLMAPI接口,如GPT-4V(o)与Claude-3.7-sonnet,并且能够同时兼容Multi-Agent与多VLMTool场景;(3)应用程序的GUI界面UI控件识别采用基于通用规则元素提取的方式,以牺牲本发明的跨平台性,来尽可能提高UI识别准确率,发掘VLMAgent在应用程序自动控制问题中的潜力,同时本发明利用图像拼接技术,减少多轮长对话中图像信息在Prompt的占比,以提高本发明的运行速度,并缓解Memory中共享的历史上下文过长问题。[0023](4)本发明利用WindowsBench的子集全面评估对比基于GUI-Grounding与基于通用规则元素提取方法之间的任务完成率、CC-Score等5种指标。附图说明[0024]图1为本发明设计的CCMAgent应用程序自动控制方法流程图。[0025]图2为本发明实现的VLMTeam组件交互框架[0026]图3为本发明为WindowsBench子集标注的最优操作序列中UI操作占比图。具体实施方式[0028]本发明提供一种基于视觉语言大模型智能体的应用程序自动控制方法CCMAgent,利用VLMTeam技术协同调度自主设计的3个VLMAgent与7个VLMTool,并采用即时策略规划为主、全局策略规划为辅的Agent决策方法,提高方法的泛化能力与通用性,为自动控制未知软件及复杂控制任务提供思路。为了尽可能提高UI控件的识别与其可交互区域检测框应用程序自动控制问题的潜力,并利用图像拼接技术,拼接VLMAgent中间过程产生的多模态消息,减少多轮长对话中图像信息在Prompt中的占比,提高CCMAgent方法运行速度,同时缓解Memory组件中共享历史上下文过长问题。最后,本发明利用WindowsBench的子集计算5种指标对应用程序自动控制方法进行全面对比评估。[0029]以下为本发明的具体实施例的实现过程。[0030]本发明提出的一种基于视觉语言大模型智能体的应用程序自动控制方法CCMAgent的流程图与组件交互框架图分别见图1与图2。本发明包括如下步骤:步骤S1、构建视觉语言大模型工具集合VLMTools集合;步骤S2、构建视觉语言大模型团队VLMTeam与视觉语言大模型智能体步骤S3、应用程序自动控制方法评估;由于基于通用规则元素提取的方法不能跨平台识别UI控件,因此,为了方便后续类自动控制方法的VLM部署推理过程在L20GPU上完成,其显存容量为48GB,内存容量为[0031](1)步骤1中的构建VLMTools集合本发明将应用程序自动控制方法的核心步骤拆分成多个可供VLMAgent执行的VLMTools集合,为VLMAgent中的关键组件之一,并且分为视觉任务(VisionTask)与非视觉任务(Non-VisionTask)。对于正在执行操作任务的VLMAgent而言,它可以根据历史上当VLMAgent在执行与Vision息与文本信息共同作为多模态消息M的请求内容,其中Mu=f(M₁,M₂…,MN;θ)(1);全局策略规划工具一般在用户自动控制任务的第一步执行,由ApplicationVLMAgent交互UI控件之前首先需要知道UI控件的坐标,而UI控件的坐标由UI识其中ux₁为像素坐标系中UI控件边界的左上UI控件边界的右上角顶点的横坐标,Uy₁为像素坐标系中UI控件边界的左上角顶点的纵坐系统提示词语义指定CheckAgent需要分别执行调度一次即时策略规划工具与检验用户操本发明设计了专门用于检验任务完成的VLMTool,VLMAgent将利用该Tool对指定应用程VLMTeam是一种能够协同多个VLMAPI,用户只需要修改系统提示词即可完成整个CCMAgent系统的更新,还能够同时完成OpenAI平台的GPT-4V(o)或Clau为了方便盲人交互以及简化方便用户交互,不需要用户手动键入Prompt,本发明利用STT工具实现语音交互功能,将用户从输入文本的方式转为通过语音设备对话来操作文本内容转为语音输出。本发明针对应用程序自动控制问题总共设计了三种VLMAgent,分别为定义为通过当前掌握主线程操作权限的VLMAgent自行选择将主线程交由其他VLMAgent本发明针对应用程序自动控制问题总共设计了三种VLMAgent,分别为定义为通过当前掌握主线程操作权限的VLMAgent自行选择将主线程交由其他VLMAgent享上下文中的全局策略规划πg或即时策略规划π的语义信息选择合适的VLMAgent。具与应用程序窗口句柄工具,主要处理生成全局策略规划πg,并将其构造为多模态消息略规划π1,也将其构造成多模态消息M并存储至Memory组件中,将策略π1共享给ApplicationAgent与CheckAgent。为了全面对比评估各类基于VLM先进的应用程序自动控制方法,本发明采用WindowsBench数据集的子集作为评估数据集,施例。CC-Score时均用到了最优操作序列O=[0₁,O₂….m],而WindowsBench并没有提供最优操Prompt:OpenExcelapplicationandinput"100.0"intothecellattherow3,column2.Finallypleaseboldformattingtothecell.1.0penExcel.为了更加全面的评估各种基于VLMAgent的应用程序自动控制方法,本发明使用总共5种评估指标,包含用户自动控制任务完成率(CompleteRat[0051]计算用户自动控制任务完成率会将一些尽管中间步骤存在错误但最终依然完成1,若不同则置为0;在数据集方面,本发明利用由Zhang等人提出的WindowsBench基准中对Word、基准适用于大部分VLMAgent自动控制方法。由于本发明在计算用户自动控制任务完成率以及CC-Score时均用到了最优操作序列O=[o₁,0₂…..],而WindowsBench并没有提供最[0053]本发明在此次对比评估实验中总共使用了两种类型的基于VLM的应用程序自动控表1应用程序自动控制方法效果对比结果CN120215768A用户自动控制任务完每步用1视觉定位2析1视觉定位7-sonn3-3.7-s析gent+GPT-4V3析[0054]分别为基于VLM-Grouding的Niu等人提出的ScreenAgent与Hong等人提出的CogAgent,以及基于通用规则元素提取的Zhang等人提出的UFO方法与本发明提出的VLMAgent执行一个完整步骤,如鼠标点击,需要花费的平均时间;Prompt代表执行[0055]通过表1可以看出,基于主流的GUI-Grounding方法的CompleteRate与CC-Score均比基于通用规则元素提取方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 毕业论文致谢7篇
- 屋顶发电系统故障诊断与修复方案
- 2025年骨科学手术风险评估模拟测试卷答案及解析
- 2025合同调整协议书
- 2025年国内商品买卖合同
- 2025年内科疾病诊断治疗学考试答案及解析
- 2025年眼科疾病诊断与治疗新技术应用实验答案及解析
- 22.3 实际问题与二次函数-二次函数应用-最大利润说课稿 2024-2025学年人教版数学九年级上册
- 2025合同范本摄影师版权拍摄合同
- 2025供用电气热力合同
- DB11∕T344-2024陶瓷砖胶粘剂施工技术规程
- DB37-T 5312-2025 《建筑施工安全防护设施技术标准》
- 《拆装液压系统》课件
- 三方就业合同模板:学生、学校、企业
- 仓库管理评审报告怎么写范文
- 《电气控制基础知识》课件
- 《地理标志农产品产业化发展研究》
- 初中英语7-9年级上册超全语法梳理人教版
- 泄漏管理培训课件
- 全国中学生(高中)物理竞赛初赛试题(含答案)
- 《英语国家概况》课件
评论
0/150
提交评论