Holo3 开源之后，computer-use Agent 的竞争开始更像“训练工厂”之争

✨ 我是流萤白沙的「文章捕手」，擅长在文字的星海中打捞精华。每当新的篇章诞生，我就会像整理贝壳一样，将思想的闪光点串成珍珠项链~

Holo3 传递的核心信号是：GUI Agent 的竞争重点正从“会点按钮”转向数据工厂、合成环境和强化学习闭环；旗舰版与开源版同步推进，借助企业级基准和多步流程训练，试图把 computer-use 从 demo 推向可部署的真实工作流。

这两个月看 Agent 圈的新闻，会有一种很明显的感觉：
大家已经不再只证明 “模型能不能操作界面”，而是在比谁能把这件事做得更稳定、更便宜、更像真实工作流。

H Company 4 月初公布的 Holo3，我觉得值得单独记一笔。
因为它最有意思的地方，不只是又刷了一次 computer-use benchmark，而是把竞争重点说得很直白：

GUI Agent 的门槛，正在从 “模型会点哪里”，转向 “你有没有一套能持续生产训练环境和多步任务的数据工厂”。

# Holo3 这次到底发了什么？

目前公开信息里，其实能看到两层产品形态：

Holo3-122B-A10B：H Company 官网主推的旗舰版本，官方称在 OSWorld-Verified 上拿到 78.85%
Holo3-35B-A3B：在 Hugging Face 开放权重的版本，基于 Qwen3.5-35B-A3B，采用 Apache 2.0 许可证，模型卡写的是 77.8% OSWorld-Verified

这点本身就很有意思。
它不是单纯在说 “我们有个最强模型”，而是在试图同时讲两件事：

旗舰路线可以继续冲天花板；
开放权重路线也要给开发者一个能上手、能部署、能接到现有工具链里的版本。

换句话说，Holo3 想卖的不只是榜单成绩，而是一条从研究演示到真实部署的过渡路径。

# 真正值得盯的，不是分数本身，而是它背后的训练思路

H Company 在官方介绍里反复强调三件事：

Synthetic Navigation Data
Out-of-Domain Augmentation
Curated Reinforcement Learning

翻成人话，就是它们认为 computer-use Agent 的关键，不只是底座模型够强，而是要靠一整套专门面向 GUI 场景的数据生产和强化流程，把两个能力反复打磨：

感知（perception）：看懂界面、定位按钮、理解页面结构
决策（decision-making）：在多步流程里知道下一步该点什么、何时切换应用、何时回退

这和普通聊天模型的优化思路明显不一样。
聊天模型很多时候卷的是知识、推理、对话体验；但 computer-use Agent 更像是在卷一种数字环境里的行动能力。它不只要 “会回答”，还要在陌生界面里持续不走丢。

# 这篇发布里最强的信号：训练环境本身正在变成护城河

H Company 这次最值得记的一个词，是 Synthetic Environment Factory。

它的意思很直接：
与其等公开 benchmark 慢慢扩展，不如自己批量生成更贴近企业流程的训练环境和可验证任务，让模型在 “像真的办公系统” 里反复练。

官方还配套提到一套 H Corporate Benchmark，覆盖 486 个多步任务，包含：

电商
商业软件
协作工具
Multi-App 联动流程

这说明 computer-use Agent 的竞争逻辑已经在变化。
过去更像是：
谁能在公开网页上完成任务。

现在更像是：
谁能让 Agent 在企业软件、表单、PDF、邮件和多应用切换之间，稳定完成一整条工作链。

如果这个方向继续成立，那未来真正拉开差距的，未必是 “谁再多发一个更大的模型”，而是：

谁更会生成高质量轨迹数据；
谁更会构造接近真实业务的合成环境；
谁更能把失败案例重新喂回训练闭环。

# 为什么我觉得它值得开源社区关注？

因为在 computer-use 这个赛道里，过去真正有存在感的往往还是闭源大模型和重产品化团队。
Holo3 至少释放了两个对开发者更友好的信号：

# 1. 开放权重终于开始认真碰 computer-use 了

Holo3-35B-A3B 这类开放版本，不一定马上就能在所有复杂任务上取代闭源旗舰，但它让开发者第一次更现实地去想：

本地或私有部署的 GUI Agent 能不能做出来；
垂直领域微调是不是有意义；
企业内部流程自动化能不能不完全押注外部黑箱 API。

# 2. Agent 的 “产品感” 开始压过单点 demo 感

这次 Holo3 给我的最大观感，不是 “又一个会操作桌面的模型”，而是它越来越像一套要进企业流程的系统：

有开放模型
有 API
有训练方法论
有企业场景 benchmark
有明确的下一步叙事：Adaptive Agency

也就是说，它不是只想证明 “能点按钮”，而是想证明这条路线可以持续扩展到陌生软件和复杂流程里。

# 但也别太早下结论

Holo3 很值得关注，但我觉得现在也有两个地方需要保持清醒：

# 1. 企业可用性的很多结论，仍然主要来自它自己的评测体系

OSWorld-Verified 这种公开 benchmark 有参考价值，但 H Company 很多 “enterprise readiness” 的说法，还是建立在自家的合成环境和自家企业基准上。
这当然不等于它不真实，但确实还需要更多第三方验证。

# 2. computer-use Agent 真落地时，稳定性比峰值成绩更难

会不会误点、会不会卡在边缘状态、会不会在多应用长流程里逐步偏航，这些问题往往不是一张 benchmark 排行榜能完全说明的。
所以 Holo3 现在更像是在告诉行业：
方向已经很清楚了，但真正的工程硬仗才刚开始。

# 我怎么看

如果只把 Holo3 理解成 “又一个刷榜的 Agent 模型”，其实有点看轻它了。

我更愿意把它看成一个信号：

2026 年的 Agent 竞争，正在从模型参数和单次任务成功率，走向数据闭环、训练环境和工作流抽象能力的综合竞争。

谁能把 “合成环境 → 轨迹生成 → 强化学习 → 企业流程验证” 这条链路跑顺，谁就更可能在下一阶段真正做出可用的 computer-use 系统。

而 Holo3 的价值，就在于它把这件事说得足够明确了。

# 参考来源

H Company: Holo3: Breaking the Computer Use Frontier
Hugging Face Blog: Holo3: Breaking the Computer Use Frontier
Hugging Face Model Card: Hcompany/Holo3-35B-A3B