来也科技OpenAPA框架刷新OSWorld纪录并开源_太平洋财富网_专业金融财经门户网站

近日，来也科技 OpenAPA 框架在 Computer Use Agent 计算机操控智能体的权威基准 OSWorld 上取得 78.3% 的成绩，在 Agentic Framework 这一技术路线上位列全球第一。

OSWorld 是什么？Computer Use Agent 界的“高考”

如果说大语言模型的能力可以用 MMLU、GSM8K 这些考试衡量，那么AI 是否能像人一样操作电脑，标尺就是 OSWorld。这个由 HKUNLP、CMU、Waterloo 等顶尖机构联合发布的基准，已成为全球评估计算机操作智能体的黄金标准——OpenAI、Anthropic、Google 发布最新模型时，均以 OSWorld 作为官方标尺。

OSWorld的“权威性”来自三点：

· 真实环境：在真实的 Ubuntu 和 Windows 系统中，用真实的 Chrome、VS Code、LibreOffice、Thunderbird 等应用完成任务，不是仿真、不是沙盒简化版

· 真实任务：361 个由人类专家精心设计的任务，覆盖办公、编程、浏览、设计、系统管理等日常工作场景

· 客观评分：每个任务都配有可执行的验证脚本，Agent 是否真正完成，由机器自动判定，不靠人工评价

让我们看一个来自 OSWorld 的真实任务：

一个熟练的办公人员完成它也需要不少时间。而对 Agent 来说，这个任务的难度至少体现在两点：

· 超过 60 步的连续操作：从打开邮件客户端、定位邮件、下载附件、查看已有文件命名、按规则重命名，到打开账本、找到正确的 sheet 和行列、按既有格式填写——任何一步出错都会连锁失败

· 全过程需要推理与判断：Agent 必须看懂账单的内容，总结已有 PDF 文件的命名规律，理解账本 Excel 中行、列及格式，而不是按照预设脚本机械执行

这只是 361 个任务中的一个。每一个百分点的提升，背后都是工程与算法的硬仗。

两条技术路线，OpenAPA 在其中一条上站到了最前面

要准确理解 OpenAPA 的成绩，需要先区分 OSWorld 上的两条主流技术路线：

· 专用模型（Specialized Model）路线：通过在 GUI 操作数据上做大规模后训练，得到“会操作计算机”的专用大模型，再搭配相对轻量的执行层

· 通用模型 + Agentic Framework 路线：使用通用大模型（如 Gemini、Claude、GPT），依靠框架设计、规划能力、多 Agent 协作、上下文工程等架构和工程创新驱动任务完成

两条路线各有所长：专用模型对特定能力更“熟练”，通用框架则具备更强的可迁移性、可组合性和可控性——同一套框架可以随着底层大模型的进步自动受益，也更适合企业根据自身业务与合规要求灵活调整框架。

OpenAPA 走的正是第二条路线，并在这条路线上以 78.3% 的成绩取得了全球第一。这意味着，在不依赖专门训练模型的前提下，仅通过架构与工程创新，Agent 框架+通用模型也能达到世界级的水平。

OpenAPA 的几个关键创新

仅靠“通用模型 + Agent 框架”，OpenAPA 为什么能在 OSWorld 上跑出全球领先的成绩？答案藏在它的架构设计里：

· 分层规划 + 动态反思：初始规划只定义“做什么”，不预先锁死“怎么做”；反思模块每一步基于最新截图重新校准，有效抑制长程任务中的“越走越偏”。

· Coding Agent 和 GUI Agent 协作：Coding Agent 负责数值计算、数据清洗、文件解析等“程序化”工作，GUI Agent 专注视觉理解和执行，两者之间相互验证、共享知识，兼顾效率与鲁棒性。

· 面向长程任务的上下文工程：通过滑动窗口 + Token 预算机制，动态保留最近的关键截图与推理轨迹，让 100 步级别的长任务稳定运行，Token 消耗降低 60% 以上。

· 推理与定位双模型解耦：主推理模型负责任务理解与决策，专用视觉模型负责像素级坐标定位。“思考”和“看”各司其职，避免单一模型兼顾两头但都做不到极致。

这些设计指向同一个目标：让“通用模型 + 通用框架”，在真实世界的复杂任务中跑出专用系统才具备的可靠性。后续我们将有文章展开介绍 OpenAPA 的架构设计理念。

从 RPA 到 APA，再到 OpenAPA

企业级流程自动化，正在经历一条清晰的演进路径。

来也科技最近将 RPA 升级为 APA（Agentic Process Automation，智能体流程自动化），通过将智能体能力融入流程自动化的开发、执行、维护全生命周期，让企业级自动化变得更智能、更灵活、也更容易落地——过去需要 IT 团队反复配置与维护的流程，如今可以由智能体基于目标自主完成，大幅降低了部署与变更的门槛。

而 OpenAPA 在 OSWorld 上探索的，是 APA 未来演进的下一条关键路径——以 Computer Use Agent 为核心的“视觉驱动、语义理解、自主规划、自我修复”范式，它不依赖固定的接口或脚本，而是像人一样“看屏幕、做判断、执行操作”，这将为 APA 带来了更强的界面理解、任务规划和流程自愈能力。

来也科技已连续五年作为中国唯一厂商入选 Gartner 机器人流程自动化（RPA）魔力象限，同时也是中国唯一入选 Gartner 智能文档处理（IDP）魔力象限和企业级对话式 AI 平台魔力象限的厂商。来也科技已经通过 APA 证明了“智能体 × 流程自动化”的工程化价值，而 OpenAPA 则在更前沿的方向上，为未来的 APA 产品持续注入更灵活、更智能的能力输入。两者共同构成了来也科技对“下一代企业级自动化”的判断与投入。

开源即刻可用

当 AI 学会看屏幕，企业流程自动化将不再止步于“按规则执行”，而是走向“按目标自主完成”——来也科技愿意在这条演进之路上，作为持续的推动者和同行者。

Computer Use Agent 的发展还在早期，因此我们将 OpenAPA 开源，期待更多社区开发者和我们一起共同探索，共同成长，共同推进 Computer Use Agent 技术的发展：

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。