GUI-Agent

xlbqc 's Collections

updated about 18 hours ago

GUI Agent相关论文方案简要分析

Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration

Paper • 2502.17110 • Published 4 days ago • 10

Note Mobile,Alibaba,one-shot 通过对操作视频处理提取关键帧长图作为后续动作推理的实例推理过程通过推理、反思、critile 提升推理动作质量
WebGames: Challenging General-Purpose Web-Browsing AI Agents

Paper • 2502.18356 • Published 3 days ago • 8

Note benchmark,Web 提出一个涵盖40个web交互的操作，最新的GPT-4o等模型的成功了在40%左右。文中的web交互操作可以本地运行主要关注一个稍微复杂的网页单一操作，而不是满足人类的模糊需求分析。
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Paper • 2502.18906 • Published 3 days ago • 8

Note RL,无环境训练,奖励模型训练方法通过GPT-4o标注数据训练奖励模型，然后使用奖励模型训练action模型