2026 年 6 月 1 日,阿里通义千问团队在 qwen.ai/blog?id=qwen3.7-plus 发布 Qwen3.7-Plus。
官方给它的定位很直接:Multimodal Agent——多模态智能体模型。不是「能看图的聊天模型」,是「能看屏幕、能操作 GUI、能写代码、能调工具」的 Agent 基座。
在 Claude Opus 4.8 发布 4 天后、Google I/O 2026 发布 Gemini 3.5 Flash 13 天后,阿里选这个时间点推 Qwen3.7-Plus,目标很明确:抢占「多模态 Agent」这个 2026 年中段最热的赛道。
官方公布的核心定位
以下内容全部来自 qwen.ai 官方博客原文:
Today we introduce Qwen3.7-Plus — a multimodal agent model that unifies vision and language into a single, versatile agent foundation.
官方列出的四个核心能力:
| 能力 | 官方描述 |
|---|---|
| 多模态交互混合 Agent | 统一 GUI & CLI 操作,覆盖视觉与文本任务 |
| 全能编码 Agent 与生产力助手 | 全模态输入,从前端原型到复杂软件工程 |
| Visual Agent | 感知、推理、grounding、搜索增强 QA |
| 跨框架泛化 | 在 Claude Code、OpenClaw、Qwen Code 等框架中表现一致 |
关键信息:Qwen3.7-Plus 明确支持在 Claude Code 框架里跑。 这是个有意思的细节——阿里官方博客主动提到自家模型可以跑在竞品(Anthropic)的 Agent 框架里,说明他们对跨框架兼容性有信心,也说明 Agent 框架层正在和模型层解耦。
可用渠道与 API
| 渠道 | 状态 |
|---|---|
| 阿里云百炼(Model Studio) | 已上线 |
| API 协议 | 兼容 OpenAI Chat Completions 和 Responses API |
| 区域端点 | 北京 / 新加坡 / 美国(弗吉尼亚) |
| 模型名 | qwen3.7-plus |
| 输入模态 | 文本 + 图像 + 视频 |
| 特殊参数 | enable_thinking、preserve_thinking(Agent 任务推荐) |
官方给出的 Python 调用示例直接用 openai SDK,base_url 指向阿里云百炼。这意味着已经在用 OpenAI SDK 的团队,改两行配置就能切过来。
preserve_thinking 是个值得注意的参数——它会保留之前所有轮次的思考内容。官方明确说「recommended for agentic tasks」,说明 Qwen3.7-Plus 的思考链在多轮 Agent 工作流里有实际价值,不是装饰。
文本基准:官方表格里的硬数字
官方博客贴出了完整的文本基准对比表,对比对象包括 Opus-4.6 Max、K2.6 Thinking、GLM-5.1 Thinking、DeepSeek-V4-Pro Max、Qwen3.6-Plus 和 Qwen3.7-Plus。
以下是 Qwen3.7-Plus 在关键基准上的官方得分:
编码 Agent
| 基准 | Qwen3.7-Plus | Qwen3.6-Plus | Opus-4.6 Max | DeepSeek-V4-Pro Max |
|---|---|---|---|---|
| Terminal Bench 2.0-Terminus | 70.3 | 61.6 | 65.4 | 67.9 |
| SWE-Verified | 77.7 | 78.8 | 80.8 | 80.6 |
| SWE-Pro | 57.6 | 56.6 | 57.3 | 59.0 |
| SWE-Multilingual | 75.8 | 73.8 | 77.5 | 76.2 |
| SciCode | 51.3 | 41.4 | 51.9 | — |
| QwenWebDev | 1536 | 1500 | 1617 | 1570 |
| QwenSVG | 1588 | 1432 | 1541 | 1506 |
关键观察: Qwen3.7-Plus 在 Terminal Bench 2.0 上拿到 70.3,比上一代 Qwen3.6-Plus 的 61.6 提升明显,也超过了 Opus-4.6 Max(65.4)和 DeepSeek-V4-Pro Max(67.9)。但 SWE-Verified(77.7)反而比 Qwen3.6-Plus(78.8)和 Opus-4.6 Max(80.8)略低。
这说明 Qwen3.7-Plus 的编码能力不是全面碾压,而是在终端任务上强、在 SWE-bench 上略弱。 官方没有回避这个对比,直接把所有数字贴出来了。
通用 Agent 与推理
| 基准 | Qwen3.7-Plus | Qwen3.6-Plus | Opus-4.6 Max |
|---|---|---|---|
| Qwenclaw | 61.8 | 57.2 | 65.5 |
| CoWorkBench | 65.1 | 64.5 | 68.2 |
| MCP-Mark | 58.7 | 48.2 | 56.7 |
| Deep-Planning | 62.3 | 40.9 | 58.9 |
| QwenWorldBench | 62.1 | 47.6 | 56.1 |
| GPQA Diamond | 90.3 | 90.4 | 91.3 |
| LiveCodeBench | 89.6 | 87.1 | 88.8 |
| HMMT 2026 Feb | 92.9 | 87.8 | 96.2 |
Deep-Planning 从 40.9 跳到 62.3,QwenWorldBench 从 47.6 跳到 62.1,MCP-Mark 从 48.2 跳到 58.7。 这三个基准的提升幅度都在 10 分以上,是 Qwen3.7-Plus 相比 Qwen3.6-Plus 最显著的进步区域。
官方原文解释:
Qwen3.7-Plus demonstrates robust tool-use and planning capabilities across MCP-Mark, Deep-Planning, and Kernel Bench L3, showing particular strength in complex multi-step planning and GPU kernel optimization.
多模态基准:这才是 Qwen3.7-Plus 的主战场
官方博客用更大篇幅讲多模态。对比对象是 GPT-5.4 (xhigh)、Opus-4.6 Max、Gemini-3.1 Pro、Qwen3.6-Plus。
视觉 Agent 与编码
| 基准 | Qwen3.7-Plus | Qwen3.6-Plus | GPT-5.4 (xhigh) | Opus-4.6 Max | Gemini-3.1 Pro |
|---|---|---|---|---|---|
| ScreenSpot Pro | 79.0 | 68.2 | 67.4 | 49.5 | 68.1 |
| OSWorld-Verified | 73.3 | 62.5 | 75.0 | 72.7 | — |
| AndroidWorld | 81.0 | 67.2 | — | 62.0 | 70.7 |
| QwenVision2Code | 1772.0 | 1522.0 | 1884.0 | 1518.0 | 1632.0 |
| ClawEval-MM | 55.7 | 49.1 | 54.4 | 54.7 | 45.7 |
这是 Qwen3.7-Plus 最能打的地方。
- ScreenSpot Pro 79.0:超过 GPT-5.4(67.4)、Opus-4.6 Max(49.5)、Gemini-3.1 Pro(68.1)
- AndroidWorld 81.0:超过 Opus-4.6 Max(62.0)和 Gemini-3.1 Pro(70.7),GPT-5.4 在此项无数据
- OSWorld-Verified 73.3:仅次于 GPT-5.4(75.0),超过 Opus-4.6 Max(72.7)
ScreenSpot Pro 测的是 GUI 元素定位能力,AndroidWorld 测的是安卓应用端到端操作,OSWorld-Verified 测的是真实操作系统任务完成度。这三个基准共同回答一个问题:模型能不能「看懂屏幕并操作界面」。
Qwen3.7-Plus 在这三个基准上同时拿到高分,说明阿里的多模态 Agent 路线确实跑通了。
多模态推理与视觉理解
| 基准 | Qwen3.7-Plus | Qwen3.6-Plus | GPT-5.4 (xhigh) |
|---|---|---|---|
| BabyVision | 70.4 / 64.7 | 37.4 | 53.1 |
| MathVision | 90.3 | 88.0 | 91.0 |
| CharXiv(RQ) | 85.9 / 84.4 | 81.5 | 84.5 |
| RealWorldQA | 86.9 | 85.4 | 83.8 |
| CountQA | 77.0 | 71.7 | 58.4 |
| OCR-Bench-V2(EN) | 70.7 | 67.0 | 59.1 |
| OCR-Bench-V2(ZH) | 67.1 | 63.6 | 57.7 |
BabyVision 从 37.4 跳到 70.4,几乎翻倍。 官方原文:
its significant improvement on BabyVision over Qwen3.6-Plus suggests stronger generalization on tasks that are closer to early human visual cognition and spatial reasoning.
OCR-Bench-V2 中英文双双超过 GPT-5.4,这对文档处理场景很关键——中文 OCR 一直是国产模型的护城河。
官方对能力边界的诚实表述
官方博客没有把 Qwen3.7-Plus 吹成「全面第一」,而是明确说了它的定位:
Qwen3.7-Plus delivers competitive text performance that approaches Max-tier models across the board.
关键词是 「approaches Max-tier」(接近 Max 级),不是「超越 Max 级」。官方承认在纯文本任务上,Qwen3.7-Plus 是 Plus 档位,对标的是其他 Plus 档模型,不是 Opus-4.6 Max 这种旗舰。
官方同时承认了几个短板(通过对比表里的空单元格和较低分数体现):
- HLE(人类终极考试)34.7:低于 Opus-4.6 Max(40.0)和 DeepSeek-V4-Pro Max(37.7)
- Apex 22.7:远低于 DeepSeek-V4-Pro Max(38.3)和 Opus-4.6 Max(34.5)
- SWE-Verified 77.7:低于 Opus-4.6 Max(80.8)
这些数字官方都贴出来了,没有藏。这种「强项讲透、弱项不藏」的发布风格,比单纯吹跑分更可信。
跨框架泛化:Agent 层和模型层解耦
官方博客有一段特别值得注意:
It generalizes across agent scaffolds, performing consistently whether deployed through Claude Code, OpenClaw, Qwen Code, or other frameworks.
翻译:Qwen3.7-Plus 在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架里表现一致。
这件事的行业意义大于模型本身:
| 维度 | 含义 |
|---|---|
| 模型层 | Qwen3.7-Plus 不锁定自家框架 |
| 框架层 | Claude Code 不锁定 Anthropic 模型 |
| 用户层 | 可以混搭「阿里模型 + Anthropic 框架」 |
Agent 框架和底层模型正在解耦。 这对开发者是好事——不用被迫买全家桶。但对厂商的商业模式是挑战——模型订阅和框架订阅的捆绑销售会越来越难。
行业影响
1. 多模态 Agent 成为国产模型的差异化战场。 Qwen3.7-Plus 在 ScreenSpot Pro、AndroidWorld、OSWorld-Verified 上的表现,说明国产模型在「GUI 操作」这个具体场景已经摸到第一梯队。这个场景的商业价值很直接:RPA、自动化测试、无障碍辅助。
2. Plus 档位对标 Max 档位的性价比叙事。 官方明确说 Qwen3.7-Plus「approaches Max-tier」,定价却是 Plus 档。这对预算敏感的团队有吸引力——用 Plus 的价格买到接近 Max 的能力。
3. 跨框架兼容倒逼全家桶解绑。 Qwen3.7-Plus 跑在 Claude Code 里,意味着用户不再需要为了用某个框架而买某个厂商的模型。这会压低整体 API 价格。
4. 中文 OCR / 文档处理护城河巩固。 OCR-Bench-V2 中英文双双领先 GPT-5.4,对国内企业级文档处理场景(合同、票据、报表)是硬实力。
诚实的局限
- 官方未公布 API 定价。 qwen.ai 博客没有贴价格,具体费用需查阿里云百炼控制台。本文不编造任何定价数字。
- 对比对象不含最新旗舰。 官方表格对比的是 Opus-4.6 Max、Gemini-3.1 Pro、GPT-5.4,没有对比 5 月 28 日发布的 Claude Opus 4.8 和 5 月 19 日发布的 Gemini 3.5 Flash。这是官方表格的时效性局限,不是本文的疏漏。
- 客户评价缺失。 与 Anthropic 公告不同,qwen.ai 这篇博客没有贴署名客户评价,只有基准数字。
- 「11 小时独立开发 App」等网友实测标题未在官方博客出现。 这类传播标题来自中文自媒体,本文不作为官方数据引用。
写在最后
Qwen3.7-Plus 最值得记住的不是某个跑分第一,而是它在「看屏幕操作 GUI」这件事上拿出了硬数字。
ScreenSpot Pro 79.0、AndroidWorld 81.0、OSWorld-Verified 73.3——这三个基准共同定义了「多模态 Agent」在 2026 年中的及格线。Qwen3.7-Plus 越过了这条线,而且是在 Plus 档位的价格上越过的。
至于它能不能在 Claude Opus 4.8 和 Gemini 3.5 Flash 的夹击下站稳,要看阿里云百炼的 API 定价和实际生产环境的稳定性反馈。
官方博客原文:qwen.ai/blog?id=qwen3.7-plus 阿里云百炼控制台:modelstudio.alibabacloud.com