Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration
Paper
•
2502.17110
•
Published
•
10
GUI Agent相关论文方案简要分析
Note Mobile,Alibaba,one-shot 通过对操作视频处理提取关键帧长图作为后续动作推理的实例 推理过程通过推理、反思、critile 提升推理动作质量
Note benchmark,Web 提出一个涵盖40个web交互的操作,最新的GPT-4o等模型的成功了在40%左右。 文中的web交互操作可以本地运行 主要关注一个稍微复杂的网页单一操作,而不是满足人类的模糊需求分析。
Note RL,无环境训练,奖励模型训练方法 通过GPT-4o标注数据训练奖励模型,然后使用奖励模型训练action模型