✨ 我是流萤白沙的「文章捕手」,擅长在文字的星海中打捞精华。每当新的篇章诞生,我就会像整理贝壳一样,将思想的闪光点串成珍珠项链~

GPT-5.4 mini 与 nano 的发布标志着小模型从大模型的阉割版演变为 Agent 工作流中的核心执行层。凭借极高的吞吐量、低延迟及出色的工具调用能力,mini 模型在编码辅助与子任务处理中已逼近旗舰性能。这种分层架构确立了由大模型规划、小模型并发执行的新范式,将 AI 竞争重点从单体模型强度转向了更高效、低成本的系统级协作。

如果最近还把 “小模型” 理解成 “大模型的阉割版”,那 OpenAI 这次的 GPT-5.4 mini / nano,大概就是专门来纠正这个印象的。

它最值得看的地方,不是又多了两个便宜型号,而是 OpenAI 已经把它们明确推向一个很具体的方向:高频、低延迟、可并发的 Agent 工作流。说白一点,就是那些不值得每一步都上大模型、但又必须做得够稳够快的杂活,现在开始有更像样的主力了。

# 这次到底发了什么?

按照 OpenAI 官方说明:

  • GPT-5.4 mini 是更快、更强的小型主力模型;
  • GPT-5.4 nano 是更便宜、更轻量的版本;
  • 两者都面向高吞吐场景,尤其适合编码辅助、工具调用、图像理解和子代理任务。

其中 mini 的定位最清楚:

  • 官方称其相较 GPT-5 mini 运行速度超过 2 倍
  • 支持 文本 + 图像输入
  • 支持 tool use、function calling、web search、file search、computer use、skills
  • 拥有 400k 上下文窗口
  • API 价格为 每百万输入 token 0.75 美元、每百万输出 token 4.50 美元

而 nano 更像是专门给流水线准备的 “轻工位”:

  • 适合 分类、信息抽取、排序、简单编码子任务
  • API 价格进一步压到 每百万输入 token 0.20 美元、输出 token 1.25 美元

这套分层很有意思,因为它已经不是 “一个模型包打天下” 的叙事,而是在鼓励开发者把系统拆成不同层级:大模型负责规划,小模型负责执行。

# 真正值得注意的,不是便宜,而是 “小模型终于够用”

OpenAI 给出的 benchmark 里,GPT-5.4 mini 的信号相当明确:

  • SWE-Bench Pro 达到 54.4%
  • Terminal-Bench 2.0 达到 60.0%
  • OSWorld-Verified 达到 72.1%
  • 在若干编码与工具使用测试中,已经明显超过上一代 GPT-5 mini,并逼近完整版 GPT-5.4。

这里面最关键的一点,不是某个榜单高了几分,而是:

过去很多 “小模型” 只能做边角料;现在的小模型,已经开始能接住真正会影响产品体验的主流程。

尤其在 Agent 系统里,这个变化非常现实。

一个成熟的工作流往往不是 “让一个超强模型从头干到尾”,而是:

  1. 先由更强的模型做任务拆解;
  2. 再把搜索代码库、阅读大文件、提取信息、批量检查这类子任务并发分发出去;
  3. 最后再回到主模型做汇总和判断。

官方甚至直接拿 Codex 的 subagents 当例子:大模型负责规划与最终裁决,mini 去并行处理更窄、更快的子任务。这个表述很重要,因为它说明 “多模型协作” 已经不是社区玩家自己的土办法,而是在被主流产品架构正式吸收。

# GitHub Copilot 也跟进了,这比实验室分数更有说服力

另一条很关键的佐证,是 GitHub Copilot 已经开始提供 GPT-5.4 mini

GitHub 在 changelog 里给出的描述很直接:它认为 GPT-5.4 mini 是 OpenAI 目前表现最强的 mini 模型之一,特点包括:

  • 更快的首 token 响应
  • 更强的 代码库探索能力
  • 在使用 grep 风格工具时尤其有效。

这意味着它的价值并不只停留在 API 宣传页,而是已经被放进真实开发者工具里,接受日常编码工作流的检验。

很多模型新闻的问题在于 “看起来很强,但不知道会不会真被用起来”。Copilot 的接入至少说明,行业已经开始把这种快模型当成可以直接接活的角色,而不是单纯补位。

# 我的判断:2026 年,小模型卷的是 “系统角色”

如果说前两年大家还在问 “小模型能不能替代大模型”,那现在更值得问的问题已经变成:

小模型到底该在系统里承担哪一层职责?

从 GPT-5.4 mini /nano 的发布方式来看,OpenAI 的答案很明确:

  • mini 负责高频但不能太笨的执行层;
  • nano 负责成本极敏感的基础处理层;
  • 大模型 负责更贵但更关键的规划、判断和收尾。

这背后的趋势很值得记一下:

下一阶段的 Agent 竞争,不只是 “谁家旗舰模型更强”,而是 “谁能把不同尺寸的模型组织成一套更顺手、更便宜、更稳定的协作系统”。

所以这次发布真正的重点,并不是 OpenAI 又补了两个 SKU,而是小模型终于越来越像 Agent 时代的基础设施工种 了。

# 参考来源