✨ 我是流萤白沙的「文章捕手」,擅长在文字的星海中打捞精华。每当新的篇章诞生,我就会像整理贝壳一样,将思想的闪光点串成珍珠项链~

Holo3 传递的核心信号是:GUI Agent 的竞争重点正从“会点按钮”转向数据工厂、合成环境和强化学习闭环;旗舰版与开源版同步推进,借助企业级基准和多步流程训练,试图把 computer-use 从 demo 推向可部署的真实工作流。

这两个月看 Agent 圈的新闻,会有一种很明显的感觉:
大家已经不再只证明 “模型能不能操作界面”,而是在比谁能把这件事做得更稳定、更便宜、更像真实工作流。

H Company 4 月初公布的 Holo3,我觉得值得单独记一笔。
因为它最有意思的地方,不只是又刷了一次 computer-use benchmark,而是把竞争重点说得很直白:

GUI Agent 的门槛,正在从 “模型会点哪里”,转向 “你有没有一套能持续生产训练环境和多步任务的数据工厂”。

# Holo3 这次到底发了什么?

目前公开信息里,其实能看到两层产品形态:

  • Holo3-122B-A10B:H Company 官网主推的旗舰版本,官方称在 OSWorld-Verified 上拿到 78.85%
  • Holo3-35B-A3B:在 Hugging Face 开放权重的版本,基于 Qwen3.5-35B-A3B,采用 Apache 2.0 许可证,模型卡写的是 77.8% OSWorld-Verified

这点本身就很有意思。
它不是单纯在说 “我们有个最强模型”,而是在试图同时讲两件事:

  • 旗舰路线可以继续冲天花板;
  • 开放权重路线也要给开发者一个能上手、能部署、能接到现有工具链里的版本。

换句话说,Holo3 想卖的不只是榜单成绩,而是一条从研究演示到真实部署的过渡路径。

# 真正值得盯的,不是分数本身,而是它背后的训练思路

H Company 在官方介绍里反复强调三件事:

  • Synthetic Navigation Data
  • Out-of-Domain Augmentation
  • Curated Reinforcement Learning

翻成人话,就是它们认为 computer-use Agent 的关键,不只是底座模型够强,而是要靠一整套专门面向 GUI 场景的数据生产和强化流程,把两个能力反复打磨:

  • 感知(perception):看懂界面、定位按钮、理解页面结构
  • 决策(decision-making):在多步流程里知道下一步该点什么、何时切换应用、何时回退

这和普通聊天模型的优化思路明显不一样。
聊天模型很多时候卷的是知识、推理、对话体验;但 computer-use Agent 更像是在卷一种数字环境里的行动能力。它不只要 “会回答”,还要在陌生界面里持续不走丢

# 这篇发布里最强的信号:训练环境本身正在变成护城河

H Company 这次最值得记的一个词,是 Synthetic Environment Factory

它的意思很直接:
与其等公开 benchmark 慢慢扩展,不如自己批量生成更贴近企业流程的训练环境和可验证任务,让模型在 “像真的办公系统” 里反复练。

官方还配套提到一套 H Corporate Benchmark,覆盖 486 个多步任务,包含:

  • 电商
  • 商业软件
  • 协作工具
  • Multi-App 联动流程

这说明 computer-use Agent 的竞争逻辑已经在变化。
过去更像是:
谁能在公开网页上完成任务。

现在更像是:
谁能让 Agent 在企业软件、表单、PDF、邮件和多应用切换之间,稳定完成一整条工作链。

如果这个方向继续成立,那未来真正拉开差距的,未必是 “谁再多发一个更大的模型”,而是:

  • 谁更会生成高质量轨迹数据;
  • 谁更会构造接近真实业务的合成环境;
  • 谁更能把失败案例重新喂回训练闭环。

# 为什么我觉得它值得开源社区关注?

因为在 computer-use 这个赛道里,过去真正有存在感的往往还是闭源大模型和重产品化团队。
Holo3 至少释放了两个对开发者更友好的信号:

# 1. 开放权重终于开始认真碰 computer-use 了

Holo3-35B-A3B 这类开放版本,不一定马上就能在所有复杂任务上取代闭源旗舰,但它让开发者第一次更现实地去想:

  • 本地或私有部署的 GUI Agent 能不能做出来;
  • 垂直领域微调是不是有意义;
  • 企业内部流程自动化能不能不完全押注外部黑箱 API。

# 2. Agent 的 “产品感” 开始压过单点 demo 感

这次 Holo3 给我的最大观感,不是 “又一个会操作桌面的模型”,而是它越来越像一套要进企业流程的系统:

  • 有开放模型
  • 有 API
  • 有训练方法论
  • 有企业场景 benchmark
  • 有明确的下一步叙事:Adaptive Agency

也就是说,它不是只想证明 “能点按钮”,而是想证明这条路线可以持续扩展到陌生软件和复杂流程里。

# 但也别太早下结论

Holo3 很值得关注,但我觉得现在也有两个地方需要保持清醒:

# 1. 企业可用性的很多结论,仍然主要来自它自己的评测体系

OSWorld-Verified 这种公开 benchmark 有参考价值,但 H Company 很多 “enterprise readiness” 的说法,还是建立在自家的合成环境和自家企业基准上。
这当然不等于它不真实,但确实还需要更多第三方验证。

# 2. computer-use Agent 真落地时,稳定性比峰值成绩更难

会不会误点、会不会卡在边缘状态、会不会在多应用长流程里逐步偏航,这些问题往往不是一张 benchmark 排行榜能完全说明的。
所以 Holo3 现在更像是在告诉行业:
方向已经很清楚了,但真正的工程硬仗才刚开始。

# 我怎么看

如果只把 Holo3 理解成 “又一个刷榜的 Agent 模型”,其实有点看轻它了。

我更愿意把它看成一个信号:

2026 年的 Agent 竞争,正在从模型参数和单次任务成功率,走向数据闭环、训练环境和工作流抽象能力的综合竞争。

谁能把 “合成环境 → 轨迹生成 → 强化学习 → 企业流程验证” 这条链路跑顺,谁就更可能在下一阶段真正做出可用的 computer-use 系统。

而 Holo3 的价值,就在于它把这件事说得足够明确了。

# 参考来源