近日,来也科技 OpenAPA 框架在 Computer Use Agent 计算机操控智能体的权威基准 OSWorld 上取得 78.3% 的成绩,在 Agentic Framework 这一技术路线上位列全球第一

OSWorld 是什么?Computer Use Agent 界的“高考”

如果说大语言模型的能力可以用 MMLU、GSM8K 这些考试衡量,那么AI 是否能像人一样操作电脑,标尺就是 OSWorld。这个由 HKUNLP、CMU、Waterloo 等顶尖机构联合发布的基准,已成为全球评估计算机操作智能体 的黄金标准——OpenAI、Anthropic、Google 发布最新模型时,均以 OSWorld 作为官方标尺。

OSWorld的“权威性”来自三点:

· 真实环境:在真实的 Ubuntu 和 Windows 系统中,用真实的 Chrome、VS Code、LibreOffice、Thunderbird 等应用完成任务,不是仿真、不是沙盒简化版

· 真实任务:361 个由人类专家精心设计的任务,覆盖办公、编程、浏览、设计、系统管理等日常工作场景

· 客观评分:每个任务都配有可执行的验证脚本,Agent 是否真正完成,由机器自动判定,不靠人工评价

让我们看一个来自 OSWorld 的真实任务:

一个熟练的办公人员完成它也需要不少时间。而对 Agent 来说,这个任务的难度至少体现在两点:

· 超过 60 步的连续操作:从打开邮件客户端、定位邮件、下载附件、查看已有文件命名、按规则重命名,到打开账本、找到正确的 sheet 和行列、按既有格式填写——任何一步出错都会连锁失败

· 全过程需要推理与判断:Agent 必须看懂账单的内容,总结已有 PDF 文件的命名规律,理解账本 Excel 中行、列及格式,而不是按照预设脚本机械执行

这只是 361 个任务中的一个。每一个百分点的提升,背后都是工程与算法的硬仗。

两条技术路线,OpenAPA 在其中一条上站到了最前面

要准确理解 OpenAPA 的成绩,需要先区分 OSWorld 上的两条主流技术路线

· 专用模型(Specialized Model)路线:通过在 GUI 操作数据上做大规模后训练,得到“会操作计算机”的专用大模型,再搭配相对轻量的执行层

· 通用模型 + Agentic Framework 路线:使用通用大模型(如 Gemini、Claude、GPT),依靠框架设计、规划能力、多 Agent 协作、上下文工程等架构和工程创新驱动任务完成

两条路线各有所长:专用模型对特定能力更“熟练”,通用框架则具备更强的可迁移性、可组合性和可控性——同一套框架可以随着底层大模型的进步自动受益,也更适合企业根据自身业务与合规要求灵活调整框架。

OpenAPA 走的正是第二条路线,并在这条路线上以 78.3% 的成绩取得了全球第一。这意味着,在不依赖专门训练模型的前提下,仅通过架构与工程创新,Agent 框架+通用模型也能达到世界级的水平。

OpenAPA 的几个关键创新

仅靠“通用模型 + Agent 框架”,OpenAPA 为什么能在 OSWorld 上跑出全球领先的成绩?答案藏在它的架构设计里:

· 分层规划 + 动态反思:初始规划只定义“做什么”,不预先锁死“怎么做”;反思模块每一步基于最新截图重新校准,有效抑制长程任务中的“越走越偏”。

· Coding Agent 和 GUI Agent 协作:Coding Agent 负责数值计算、数据清洗、文件解析等“程序化”工作,GUI Agent 专注视觉理解和执行,两者之间相互验证、共享知识,兼顾效率与鲁棒性。

· 面向长程任务的上下文工程:通过滑动窗口 + Token 预算机制,动态保留最近的关键截图与推理轨迹,让 100 步级别的长任务稳定运行,Token 消耗降低 60% 以上。

· 推理与定位双模型解耦:主推理模型负责任务理解与决策,专用视觉模型负责像素级坐标定位。“思考”和“看”各司其职,避免单一模型兼顾两头但都做不到极致。

这些设计指向同一个目标:让“通用模型 + 通用框架”,在真实世界的复杂任务中跑出专用系统才具备的可靠性。后续我们将有文章展开介绍 OpenAPA 的架构设计理念。

从 RPA 到 APA,再到 OpenAPA

企业级流程自动化,正在经历一条清晰的演进路径。

来也科技最近将 RPA 升级为 APA(Agentic Process Automation,智能体流程自动化),通过将智能体能力融入流程自动化的开发、执行、维护全生命周期,让企业级自动化变得更智能、更灵活、也更容易落地——过去需要 IT 团队反复配置与维护的流程,如今可以由智能体基于目标自主完成,大幅降低了部署与变更的门槛。

而 OpenAPA 在 OSWorld 上探索的,是 APA 未来演进的下一条关键路径——以 Computer Use Agent 为核心的“视觉驱动、语义理解、自主规划、自我修复”范式,它不依赖固定的接口或脚本,而是像人一样“看屏幕、做判断、执行操作”,这将为 APA 带来了更强的界面理解、任务规划和流程自愈能力。

来也科技已连续五年作为中国唯一厂商入选 Gartner 机器人流程自动化(RPA)魔力象限,同时也是中国唯一入选 Gartner 智能文档处理(IDP)魔力象限和企业级对话式 AI 平台魔力象限的厂商。来也科技已经通过 APA 证明了“智能体 × 流程自动化”的工程化价值,而 OpenAPA 则在更前沿的方向上,为未来的 APA 产品持续注入更灵活、更智能的能力输入。两者共同构成了来也科技对“下一代企业级自动化”的判断与投入。

开源即刻可用

当 AI 学会看屏幕,企业流程自动化将不再止步于“按规则执行”,而是走向“按目标自主完成”——来也科技愿意在这条演进之路上,作为持续的推动者和同行者。

Computer Use Agent 的发展还在早期,因此我们将 OpenAPA 开源,期待更多社区开发者和我们一起共同探索,共同成长,共同推进 Computer Use Agent 技术的发展:


免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

推荐内容