2026年，我为什么继续看好 GUI-Agent？

封面来源：Li et al., “ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use”, 2025

如果你关注 AI 领域在过去一年的发展，会发现一个有趣的现象：GUI-Agent 在 2025 年迎来了一波井喷式爆发。从学术界的 Benchmark 刷榜，到工业界的巨头布局，”能操作电脑的 AI”成了当下最热门的话题之一。

图片来源： Claude | Computer use for automating operations

但有意思的是，进入 2026 年以来，学术界开始出现一种声音：“GUI-Agent 已经不适合继续做了”。理由无外乎：赛道太卷、已经发展了比较长的时间、paper 越来越难中。而工业界方面，大厂亲自下台，确实都推出了自己的 GUI 产品，但引起的反响尚不如其他方向的AI产品；中国的”豆包手机”虽然一度引爆流量，却也很快归于平静。

那么，GUI-Agent 是不是真的”不行”了？

我个人的看法是：我仍然长期看好 GUI-Agent，而且比以往任何时候都看好。

借今天这篇文章，我想聊聊这个话题。

写在前面

CLI(Command Line Interface)表示命令行界面，GUI(Graphical User Interface)表示图形用户界面，他们代表了计算机发展中的两大交互界面，也代表了人机沟通方式的演变。前者通过键入精确的文本命令来操作，虽学习门槛高，但高效且资源占用低，是早期计算机及专业技术人员的基石；后者则通过直观的窗口、图标和鼠标点击来实现交互，极大地降低了使用门槛，让计算机得以普及至大众。简而言之，CLI是“念咒语”式的专业工具，而GUI是“按遥控器”式的日常桥梁，两者至今仍相辅相成。

图片来源： Centralized Bash history with timestamps

GUI Agent 是一种能够像人类一样理解和操作图形用户界面的智能体。它通过模拟视觉识别（看懂屏幕上的图标、按钮）和物理交互（控制鼠标移动、点击、键盘输入）来完成复杂任务，本质上是在“观看”屏幕并“动手操作”。

与之相比，通过 CLI 操控电脑的 Agent 走的是另一条路径（目前的主流）：它依赖的是结构化的文本命令和标准化的程序接口，通过生成精确的指令字符串（比如shell 命令）来直接调用计算机的功能。

两者的核心区别在于交互方式与适应能力。CLI Agent 的操作速度快、精度高，但受限于系统必须预装相应的命令行工具，且输出格式固定；而 GUI Agent 则拥有极强的通用性，因为它模拟的是人类的使用方式，理论上可以操作任何有视觉界面的软件（包括那些根本没有 CLI 接口的旧系统或第三方应用），无需底层代码的适配，但其执行效率较低，且更依赖视觉模型的准确性。等会我们还会讨论这个话题。

2025 年：GUI-Agent 井喷的一年

在展开我的观点之前，让我们先回顾一下 2025 年发生了什么。

学术界：Benchmark 百花齐放

2025 年，GUI-Agent 相关的学术研究可以用”爆发”来形容，这一年出现了大量高质量的 Benchmark 和研究成果[1]：

OSWorld：首个在真实 Ubuntu、Windows、macOS 环境中评估多模态 GUI-Agent 的 Benchmark，涵盖 369 个真实桌面任务，覆盖文件管理、办公软件、开发工具等多个场景。人类表现能达到 72.36%，而当时最好的模型只有 12.24%[2]，清楚地暴露出现有模型在 GUI grounding 和多应用协同上的巨大鸿沟。
AndroidWorld：一个在真实 Android 模拟器上构建的动态基准环境，提供 116 个端到端任务、覆盖 20 个真实 App（通讯录、日历、浏览器、记账应用等）。它专门用来评估移动端 GUI-Agent 在真实设备上的操作稳定性和泛化能力，比如在分辨率变化、语言切换、系统设置不同的情况下，Agent 是否还能完成任务。
WorldGUI：2026 年新发布的 Benchmark，在 Windows 桌面环境中构造了大量”从任意初始状态出发”的任务[3]。它刻意让目标软件未打开、窗口被遮挡、界面处于非默认页签等，重点考察 GUI-Agent 在动态环境中的恢复、重规划和纠错能力，而不是在理想静态界面里的”happy path”。
ScreenSpot-Pro：专门针对高分辨率专业软件（如 Photoshop、Premiere Pro）的 GUI grounding 基准，包含 23 个应用、跨越 5 个行业和 3 个操作系统[4]。早期 GUI grounding 模型在这个数据集上的最佳成绩只有 18.9%[4]，之后通过视觉搜索和区域裁剪等方法，准确率被提升到 40%+，最新的 RegionFocus 方法已经把 ScreenSpot-Pro 的准确率提升到 61.6%[9]，但距离实用仍然有明显差距。
FineState-Bench：专注于细粒度状态控制的 Benchmark，覆盖桌面、Web 和移动端[5]。它要求 GUI-Agent 完成诸如精确拖动滑块、选择特定颜色、只高亮某一句话等操作。实验结果显示，即便是目前最先进的 GUI-Agent，在这种精细交互上的综合准确率也只有 32.8%[5]。

这些 Benchmark 有一个共同特点：它们都很难。即便是最先进的多模态大模型，在这些任务上的表现与人类仍有巨大差距。但正是这种差距，意味着这个领域还有巨大的上升空间。

工业界：巨头纷纷入局

2025 年，工业界的动作同样令人目不暇接：

OpenAI Operator：2025 年 1 月发布，能在浏览器中自主执行复杂任务，在复杂 JavaScript 网站上达到 87% 的成功率，WebArena 上 58%，OSWorld 上 38%[1]

图片来源： Introducing Operator

Anthropic Claude Computer Use：2024 年 10 月率先推出，是首个提供自主桌面控制的前沿 AI 模型。通过截屏捕获、视觉分析、动作规划、虚拟鼠标键盘执行的循环来工作[6]
Google Project Mariner：2025 年 5 月向 Google AI Ultra 用户推出，基于 Gemini 2.0，在 ScreenSpot 上得分 84.0%，WebVoyager 上 83.5%[1]
微软 Fara-7B：微软研究院推出的 PC 自动化模型
豆包手机助手：2025 年 12 月，字节跳动推出的系统级 AI Agent，能够跨 App 执行复杂任务，一度在淘宝上被炒到近五千元[7]

开源社区也不甘示弱：

Mobile-Agent-v3 和 GUI-Owl：在开源模型中实现了 SOTA 表现，AndroidWorld 达到 73.3%，OSWorld 达到 37.7%[8]
Browser Use：开源的浏览器自动化框架，支持用 API key 调用各种模型（虽然主要应用在非 GUI 任务中，但其贡献巨大，也促进了人们对 GUI 场景的探索）

唱衰声中的反思

不可否认，2026 年的学术界确实出现了对 GUI-Agent 的反思。有人在 Twitter 上说”GUI-Agent 太卷了，不适合发 paper”，也确实有一些研究者开始转向其他方向。

工业界方面，一些人产生了疑问：GUI-Agent 到底能不能落地，是不是已经到头了？

为什么我仍然看好 GUI-Agent？

让我说说我的理由。

1. GUI 可以真正模拟人机交互，突破 CLI 的天然限制

这是我看好 GUI-Agent 最核心的原因。

CLI（命令行界面）和 API 方式有一个根本性的局限：一旦一个系统既没有结构化接口、也无法通过 DOM/HTTP 注入脚本，只有”看屏幕+动鼠标”这一条路，传统 CLI 就很难施展拳脚。例如很多安全敏感场景，只允许通过远程桌面或本地客户端 GUI 访问，而不会暴露任何可编程接口。

举个例子：不少大型企业把最核心的财务系统部署在内网虚拟机里，员工必须先通过 Windows 远程桌面登录，再在远程桌面里打开一款十几年前的厚客户端软件，完成报销审批、合同导出等操作——没有公开 API，也不能在页面里直接注入脚本，你甚至拿不到 DOM 结构。这种情况下，CLI 或浏览器自动化几乎无从下手，但 GUI 方法直接在远程桌面里”看屏幕→移动鼠标→点击菜单→填写表单→导出报表”，像真人一样完成整个流程。

这就是 GUI-Agent 最本质的优势：它能做任何人类能对电脑做的事情。鼠标点击、键盘输入、拖拽滑动、下拉选择……这些对 GUI-Agent 来说都是基本动作空间。

用更专业的话说，GUI-Agent 是通用的计算机操作接口。它不依赖任何特定的 API，而是直接与图形界面交互。这意味着：

它可以操作任何软件：无论是 Word、Excel、Photoshop，还是某个你刚下载的冷门工具(这点也很关键，它意味着Agent维护方无需手动扩展以适应新的软件和网站)
它可以适应任何网站：即使是没有 API 的个人博客、论坛，也能轻松搞定
它可以跨应用工作：不同应用，甚至不同os的 UI 设计都高度相仿，这使得GUI-Agent在跨应用场景下表现出高度的通用性和灵活性

正如 Anthropic 在介绍 Computer Use 时所说：”We are teaching Claude general computer skills—enabling it to use the same interfaces, applications, and workflows that humans use every day.”（我们正在教会 Claude 通用的计算机技能——让它能够使用与人类相同的界面、应用程序和工作流程。）[6]

2. 在某些领域，GUI-Agent 能提供更好的体验

GUI-Agent 不仅仅是”更通用”，在某些特定场景下，它能提供明显更好的用户体验。

跨 App 的视觉链路任务：比如你需要这样一个操作链：”从邮箱里打开一份 50 页的 PDF 投资报告，把其中所有被红色高亮的指标抄到本地 Excel 模板里生成图表，然后把图表截图发到企业微信里的『投资决策』群。”这里不仅涉及浏览器、PDF 阅读器、Excel、即时通讯软件之间的跳转，还有”识别红色高亮内容”和”确认图表效果是否看起来合理”这种强视觉判断。用 CLI 写脚本几乎不现实，而 GUI-Agent 可以像人一样一边看一边操作。

高度视觉化的创意/设计工作流：在 Figma、Photoshop、Premiere 这类工具里，很多指令是模糊的，比如”让这一页版式更紧凑一点”“把人物再提亮一点但不要过曝”。这些目标很难抽象成稳定的 API 调用，但 GUI-Agent 可以通过多轮截屏和局部对比，在界面上直接拖拽、对齐、微调参数，让结果逐步逼近人类主观的”好看”。

需要视觉确认的场景：有时候，我们需要”看到”才能确认操作是否正确。比如 AI 帮你在后台管理系统里批量更新了一批配置，我们往往希望它能”看到页面上所有字段都变成了绿色对勾”或者”确认页面右上角出现了『发布成功』的 Toast”才认为任务完成。GUI-Agent 可以直接截屏比对这些视觉信号，而不仅仅依赖返回的 HTTP 状态码。

非结构化内容的处理：当你需要 AI 帮你从扫描版合同、手写单据或者一张照片中提取信息，并分别填写到浏览器里的表单、桌面 ERP 系统和本地 Excel 时，GUI-Agent 可以直接完成”看图→理解→跨应用填表”的整个链路，而不需要每个系统都提供结构化接口。

更重要的是，以上这些只是我看到的和能想象出来的应用场景，还有更多未知的场景需要大家去发现和定义。

3. 当前利好 GUI-Agent 发展的因素

除了上述核心优势外外部环境也发生了不少积极变化：

模型的视觉 grounding 能力逐渐增强

在 ScreenSpot-Pro 这个高难度 Benchmark 上，早期通用多模态模型的最佳成绩只有 18.9%[4]；随后一系列视觉搜索与区域裁剪方法将准确率提升到了 40%+，其中 RegionFocus 在 Qwen2.5-VL-72B 上已经把 ScreenSpot-Pro 的准确率提升到 61.6%[9]。2026 年发布的 UI-Venus 1.5 则进一步将这一数字推高到了 69.6%[12]。虽然还没达到人类水平，但在如此复杂的专业软件场景里，这样的进步已经非常惊人——ScreenSpot-Pro 专门针对高分辨率专业软件设计，包含 23 个应用、跨越 5 个行业和 3 个操作系统，连人类都经常感到棘手。

图为该数据集中的一个任务示例，人类都很难立刻找到正确的按钮！图片来源： Li et al., “ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use”, 2025

更值得注意的是，UI-TARS、Qwen3.5 等开源模型也在快速追赶。GUI-Owl-7B 能在 AndroidWorld 上达到 66.4% 的准确率，Mobile-Agent-v3 将这个数字提升到了 73.3%[8]，而 UI-Venus 1.5 在同一基准上的最新成绩已经达到 77.6%[12]。

模型的 Agent 能力飞速增长

2025 年是 Agent 能力爆发的一年。OpenAI 的 o1/o3 系列、Anthropic 的 Claude 4 Sonnet、Google 的 Gemini 2.5，都展示了惊人的推理和规划能力。这些能力对于 GUI-Agent 来说至关重要——毕竟，操作电脑不仅仅是”看到”就够了，还需要”想到怎么做”。

学术研究提供了丰富的 insight

过去一年，学术界对 GUI-Agent 的研究产生了大量有价值的 insight：

WorldGUI 揭示了 Agent 在非默认初始状态下的脆弱性[3]
FineState-Bench 发现顶级模型的细粒度交互准确率仅有 32.8%[5]
各种研究探讨了 VLM 在数字 Agent 任务中的行为逻辑，包括截图分辨率、轨迹历史的影响[2]

这些研究让我们更清楚地知道问题在哪里，也指明了前进的方向。

GUI-Agent 不是孤立的领域

这一点非常重要：GUI-Agent 的发展是建立在 LLM、Inference、Data 等多个领域进步之上的。这意味着什么？

当 LLM 变得更强，GUI-Agent 会自动受益。当多模态模型变得更擅长”看图”，GUI-Agent 的感知能力会同步提升。当推理算法变得更高效，GUI-Agent 的响应速度也会水涨船高。

甚至当 GUI-Agent 操作的对象(比如app)变强，它的能力也随之变强

换句话说，GUI-Agent 是一个”站在巨人肩膀上”的领域。底层技术的每一次进步，都会自动惠及 GUI-Agent。这种”顺风车”特性，让它的长期发展前景更加乐观。

挑战与机遇

当然，GUI-Agent 面临的挑战也不容忽视：

稳定性问题：目前的 GUI-Agent 在复杂任务上仍有较高的失败率。根据 WorldGUI 的研究，即使是最先进的模型，在非默认初始状态下的性能也会大幅下降[3]。

细粒度控制：FineState-Bench 的研究表明，当前模型在精确选择颜色值、高亮特定句子等细粒度操作上表现很差[5]。

推理成本：GUI-Agent 需要反复截屏、分析、决策，token 消耗远高于纯文本交互。这在大规模应用时是一个实际问题。

安全风险：如果 GUI-Agent 日益成熟，安全问题可能会是最值得关注的问题。让模型控制电脑本身就有安全风险，更不用说通过 GUI 了。Anthropic 在 Computer Use 中采取了多层安全措施，包括 ASL-3 分类器、沙盒环境、实时监控等[10]。

但我更愿意把这些挑战理解为机遇。每一个未解决的问题，都是一个潜在的研究方向，也是一个潜在的产品机会。

我的尝试：Auto-Cursor

2025 年末，我发起了一个 Demo 级的项目：Auto-Cursor。 图片来源： Auto-Cursor: A GUI Agent for Cursor IDE

这个项目的动机很简单：拓展 GUI 方法的使用场景，通过 GUI 操作 Cursor IDE。

Auto-Cursor 的形式：让 AI 能够自主操作 Cursor，从而实现自动化编程。你只需要告诉它一个目标（比如”把这个页面的 CSS 改成暗色主题”），它就会自己分析代码、自己通过操作 Cursor 的 UI 进行修改和测试。

它命中了上面说的 GUI 方法的优势中的第一条：突破 API 的限制。需要注意的是，Cursor 向用户开放了大量的接口权限，如获取用户和用户组的行为等等，但不允许通过脚本进行应用内的操作。

当然，这只是一个 Demo 级的小项目，还有很多不完善的地方。但它展示了 GUI-Agent 在不同领域的潜力。

总结

以发 paper 的角度，GUI-Agent 或许不再是增长最快的方向了。但从长远来看，它有无限潜力。

我不太愿意说 GUI-Agent 是”通往 AGI 的道路”，因为 AGI 这个词已经被用得太泛了，很难定义。但我相信，GUI-Agent 未来会成为一个强有力的工作方式，会重塑多个行业。

就像当年 CLI 取代批处理、GUI 取代 CLI 一样，AI 操作界面可能成为人机交互的下一个范式转变。而 GUI-Agent，正是这个转变的先锋。

参考来源：

[1] Zylos Research - Computer Use and GUI Agents in 2026: State of the Art (https://zylos.ai/research/2026-02-08-computer-use-gui-agents)

[2] OSWorld - Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments (https://os-world.github.io/)

[3] WorldGUI - An Interactive Benchmark for Desktop GUI Automation (https://arxiv.org/html/2502.08047v4)

[4] ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use (https://arxiv.org/html/2504.07981v1)

[5] FineState-Bench: A Comprehensive Benchmark for Fine-Grained State Control in GUI Agents (https://arxiv.org/html/2508.09241v1)

[6] Anthropic Computer Use API Documentation (https://www.digitalapplied.com/blog/anthropic-computer-use-api-guide)

[7] 机器之心 - 「豆包手机」为何能靠超级Agent火遍全网 (https://news.qq.com/rain/a/20251210A056UI00)

[8] Mobile-Agent-v3: Fundamental Agents for GUI Automation (https://arxiv.org/abs/2508.15144)

[9] RegionFocus: Visual Test-time Scaling for GUI Agent Grounding (https://arxiv.org/html/2505.00684v2)

[10] Bosio Digital - The Agent Arms Race (https://bosio.digital/articles/agent-arms-race-openai-anthropic-google)

[11] Awesome Agents - Cursor Launches Always-On AI Coding Agents (https://awesomeagents.ai/news/cursor-automations-agentic-coding-agents/)

[12] UI-Venus-1.5 Technical Report & GitHub (https://github.com/inclusionAI/UI-Venus)