✨ 我是流萤白沙的「文章捕手」,擅长在文字的星海中打捞精华。每当新的篇章诞生,我就会像整理贝壳一样,将思想的闪光点串成珍珠项链~
Holo3 传递的核心信号是:GUI Agent 的竞争重点正从“会点按钮”转向数据工厂、合成环境和强化学习闭环;旗舰版与开源版同步推进,借助企业级基准和多步流程训练,试图把 computer-use 从 demo 推向可部署的真实工作流。
这两个月看 Agent 圈的新闻,会有一种很明显的感觉:
大家已经不再只证明 “模型能不能操作界面”,而是在比谁能把这件事做得更稳定、更便宜、更像真实工作流。
H Company 4 月初公布的 Holo3,我觉得值得单独记一笔。
因为它最有意思的地方,不只是又刷了一次 computer-use benchmark,而是把竞争重点说得很直白:
GUI Agent 的门槛,正在从 “模型会点哪里”,转向 “你有没有一套能持续生产训练环境和多步任务的数据工厂”。
# Holo3 这次到底发了什么?
目前公开信息里,其实能看到两层产品形态:
- Holo3-122B-A10B:H Company 官网主推的旗舰版本,官方称在 OSWorld-Verified 上拿到 78.85%
- Holo3-35B-A3B:在 Hugging Face 开放权重的版本,基于 Qwen3.5-35B-A3B,采用 Apache 2.0 许可证,模型卡写的是 77.8% OSWorld-Verified
这点本身就很有意思。
它不是单纯在说 “我们有个最强模型”,而是在试图同时讲两件事:
- 旗舰路线可以继续冲天花板;
- 开放权重路线也要给开发者一个能上手、能部署、能接到现有工具链里的版本。
换句话说,Holo3 想卖的不只是榜单成绩,而是一条从研究演示到真实部署的过渡路径。
# 真正值得盯的,不是分数本身,而是它背后的训练思路
H Company 在官方介绍里反复强调三件事:
- Synthetic Navigation Data
- Out-of-Domain Augmentation
- Curated Reinforcement Learning
翻成人话,就是它们认为 computer-use Agent 的关键,不只是底座模型够强,而是要靠一整套专门面向 GUI 场景的数据生产和强化流程,把两个能力反复打磨:
- 感知(perception):看懂界面、定位按钮、理解页面结构
- 决策(decision-making):在多步流程里知道下一步该点什么、何时切换应用、何时回退
这和普通聊天模型的优化思路明显不一样。
聊天模型很多时候卷的是知识、推理、对话体验;但 computer-use Agent 更像是在卷一种数字环境里的行动能力。它不只要 “会回答”,还要在陌生界面里持续不走丢。
# 这篇发布里最强的信号:训练环境本身正在变成护城河
H Company 这次最值得记的一个词,是 Synthetic Environment Factory。
它的意思很直接:
与其等公开 benchmark 慢慢扩展,不如自己批量生成更贴近企业流程的训练环境和可验证任务,让模型在 “像真的办公系统” 里反复练。
官方还配套提到一套 H Corporate Benchmark,覆盖 486 个多步任务,包含:
- 电商
- 商业软件
- 协作工具
- Multi-App 联动流程
这说明 computer-use Agent 的竞争逻辑已经在变化。
过去更像是:
谁能在公开网页上完成任务。
现在更像是:
谁能让 Agent 在企业软件、表单、PDF、邮件和多应用切换之间,稳定完成一整条工作链。
如果这个方向继续成立,那未来真正拉开差距的,未必是 “谁再多发一个更大的模型”,而是:
- 谁更会生成高质量轨迹数据;
- 谁更会构造接近真实业务的合成环境;
- 谁更能把失败案例重新喂回训练闭环。
# 为什么我觉得它值得开源社区关注?
因为在 computer-use 这个赛道里,过去真正有存在感的往往还是闭源大模型和重产品化团队。
Holo3 至少释放了两个对开发者更友好的信号:
# 1. 开放权重终于开始认真碰 computer-use 了
Holo3-35B-A3B 这类开放版本,不一定马上就能在所有复杂任务上取代闭源旗舰,但它让开发者第一次更现实地去想:
- 本地或私有部署的 GUI Agent 能不能做出来;
- 垂直领域微调是不是有意义;
- 企业内部流程自动化能不能不完全押注外部黑箱 API。
# 2. Agent 的 “产品感” 开始压过单点 demo 感
这次 Holo3 给我的最大观感,不是 “又一个会操作桌面的模型”,而是它越来越像一套要进企业流程的系统:
- 有开放模型
- 有 API
- 有训练方法论
- 有企业场景 benchmark
- 有明确的下一步叙事:Adaptive Agency
也就是说,它不是只想证明 “能点按钮”,而是想证明这条路线可以持续扩展到陌生软件和复杂流程里。
# 但也别太早下结论
Holo3 很值得关注,但我觉得现在也有两个地方需要保持清醒:
# 1. 企业可用性的很多结论,仍然主要来自它自己的评测体系
OSWorld-Verified 这种公开 benchmark 有参考价值,但 H Company 很多 “enterprise readiness” 的说法,还是建立在自家的合成环境和自家企业基准上。
这当然不等于它不真实,但确实还需要更多第三方验证。
# 2. computer-use Agent 真落地时,稳定性比峰值成绩更难
会不会误点、会不会卡在边缘状态、会不会在多应用长流程里逐步偏航,这些问题往往不是一张 benchmark 排行榜能完全说明的。
所以 Holo3 现在更像是在告诉行业:
方向已经很清楚了,但真正的工程硬仗才刚开始。
# 我怎么看
如果只把 Holo3 理解成 “又一个刷榜的 Agent 模型”,其实有点看轻它了。
我更愿意把它看成一个信号:
2026 年的 Agent 竞争,正在从模型参数和单次任务成功率,走向数据闭环、训练环境和工作流抽象能力的综合竞争。
谁能把 “合成环境 → 轨迹生成 → 强化学习 → 企业流程验证” 这条链路跑顺,谁就更可能在下一阶段真正做出可用的 computer-use 系统。
而 Holo3 的价值,就在于它把这件事说得足够明确了。
# 参考来源
- H Company: Holo3: Breaking the Computer Use Frontier
- Hugging Face Blog: Holo3: Breaking the Computer Use Frontier
- Hugging Face Model Card: Hcompany/Holo3-35B-A3B