Qwen3.7-Plus：多模态 Agent 模型，阿里把「看屏幕」做成了基准强项

2026 年 6 月 1 日，阿里通义千问团队在 qwen.ai/blog?id=qwen3.7-plus 发布 Qwen3.7-Plus。

官方给它的定位很直接：Multimodal Agent——多模态智能体模型。不是「能看图的聊天模型」，是「能看屏幕、能操作 GUI、能写代码、能调工具」的 Agent 基座。

在 Claude Opus 4.8 发布 4 天后、Google I/O 2026 发布 Gemini 3.5 Flash 13 天后，阿里选这个时间点推 Qwen3.7-Plus，目标很明确：抢占「多模态 Agent」这个 2026 年中段最热的赛道。

官方公布的核心定位

以下内容全部来自 qwen.ai 官方博客原文：

Today we introduce Qwen3.7-Plus — a multimodal agent model that unifies vision and language into a single, versatile agent foundation.

官方列出的四个核心能力：

能力	官方描述
多模态交互混合 Agent	统一 GUI & CLI 操作，覆盖视觉与文本任务
全能编码 Agent 与生产力助手	全模态输入，从前端原型到复杂软件工程
Visual Agent	感知、推理、grounding、搜索增强 QA
跨框架泛化	在 Claude Code、OpenClaw、Qwen Code 等框架中表现一致

关键信息：Qwen3.7-Plus 明确支持在 Claude Code 框架里跑。 这是个有意思的细节——阿里官方博客主动提到自家模型可以跑在竞品（Anthropic）的 Agent 框架里，说明他们对跨框架兼容性有信心，也说明 Agent 框架层正在和模型层解耦。

可用渠道与 API

渠道	状态
阿里云百炼（Model Studio）	已上线
API 协议	兼容 OpenAI Chat Completions 和 Responses API
区域端点	北京 / 新加坡 / 美国（弗吉尼亚）
模型名	`qwen3.7-plus`
输入模态	文本 + 图像 + 视频
特殊参数	`enable_thinking`、`preserve_thinking`（Agent 任务推荐）

官方给出的 Python 调用示例直接用 openai SDK，base_url 指向阿里云百炼。这意味着已经在用 OpenAI SDK 的团队，改两行配置就能切过来。

preserve_thinking 是个值得注意的参数——它会保留之前所有轮次的思考内容。官方明确说「recommended for agentic tasks」，说明 Qwen3.7-Plus 的思考链在多轮 Agent 工作流里有实际价值，不是装饰。

文本基准：官方表格里的硬数字

官方博客贴出了完整的文本基准对比表，对比对象包括 Opus-4.6 Max、K2.6 Thinking、GLM-5.1 Thinking、DeepSeek-V4-Pro Max、Qwen3.6-Plus 和 Qwen3.7-Plus。

以下是 Qwen3.7-Plus 在关键基准上的官方得分：

编码 Agent

基准	Qwen3.7-Plus	Qwen3.6-Plus	Opus-4.6 Max	DeepSeek-V4-Pro Max
Terminal Bench 2.0-Terminus	70.3	61.6	65.4	67.9
SWE-Verified	77.7	78.8	80.8	80.6
SWE-Pro	57.6	56.6	57.3	59.0
SWE-Multilingual	75.8	73.8	77.5	76.2
SciCode	51.3	41.4	51.9	—
QwenWebDev	1536	1500	1617	1570
QwenSVG	1588	1432	1541	1506

关键观察： Qwen3.7-Plus 在 Terminal Bench 2.0 上拿到 70.3，比上一代 Qwen3.6-Plus 的 61.6 提升明显，也超过了 Opus-4.6 Max（65.4）和 DeepSeek-V4-Pro Max（67.9）。但 SWE-Verified（77.7）反而比 Qwen3.6-Plus（78.8）和 Opus-4.6 Max（80.8）略低。

这说明 Qwen3.7-Plus 的编码能力不是全面碾压，而是在终端任务上强、在 SWE-bench 上略弱。 官方没有回避这个对比，直接把所有数字贴出来了。

通用 Agent 与推理

基准	Qwen3.7-Plus	Qwen3.6-Plus	Opus-4.6 Max
Qwenclaw	61.8	57.2	65.5
CoWorkBench	65.1	64.5	68.2
MCP-Mark	58.7	48.2	56.7
Deep-Planning	62.3	40.9	58.9
QwenWorldBench	62.1	47.6	56.1
GPQA Diamond	90.3	90.4	91.3
LiveCodeBench	89.6	87.1	88.8
HMMT 2026 Feb	92.9	87.8	96.2

Deep-Planning 从 40.9 跳到 62.3，QwenWorldBench 从 47.6 跳到 62.1，MCP-Mark 从 48.2 跳到 58.7。 这三个基准的提升幅度都在 10 分以上，是 Qwen3.7-Plus 相比 Qwen3.6-Plus 最显著的进步区域。

官方原文解释：

Qwen3.7-Plus demonstrates robust tool-use and planning capabilities across MCP-Mark, Deep-Planning, and Kernel Bench L3, showing particular strength in complex multi-step planning and GPU kernel optimization.

多模态基准：这才是 Qwen3.7-Plus 的主战场

官方博客用更大篇幅讲多模态。对比对象是 GPT-5.4 (xhigh)、Opus-4.6 Max、Gemini-3.1 Pro、Qwen3.6-Plus。

视觉 Agent 与编码

基准	Qwen3.7-Plus	Qwen3.6-Plus	GPT-5.4 (xhigh)	Opus-4.6 Max	Gemini-3.1 Pro
ScreenSpot Pro	79.0	68.2	67.4	49.5	68.1
OSWorld-Verified	73.3	62.5	75.0	72.7	—
AndroidWorld	81.0	67.2	—	62.0	70.7
QwenVision2Code	1772.0	1522.0	1884.0	1518.0	1632.0
ClawEval-MM	55.7	49.1	54.4	54.7	45.7

这是 Qwen3.7-Plus 最能打的地方。

ScreenSpot Pro 79.0：超过 GPT-5.4（67.4）、Opus-4.6 Max（49.5）、Gemini-3.1 Pro（68.1）
AndroidWorld 81.0：超过 Opus-4.6 Max（62.0）和 Gemini-3.1 Pro（70.7），GPT-5.4 在此项无数据
OSWorld-Verified 73.3：仅次于 GPT-5.4（75.0），超过 Opus-4.6 Max（72.7）

ScreenSpot Pro 测的是 GUI 元素定位能力，AndroidWorld 测的是安卓应用端到端操作，OSWorld-Verified 测的是真实操作系统任务完成度。这三个基准共同回答一个问题：模型能不能「看懂屏幕并操作界面」。

Qwen3.7-Plus 在这三个基准上同时拿到高分，说明阿里的多模态 Agent 路线确实跑通了。

多模态推理与视觉理解

基准	Qwen3.7-Plus	Qwen3.6-Plus	GPT-5.4 (xhigh)
BabyVision	70.4 / 64.7	37.4	53.1
MathVision	90.3	88.0	91.0
CharXiv(RQ)	85.9 / 84.4	81.5	84.5
RealWorldQA	86.9	85.4	83.8
CountQA	77.0	71.7	58.4
OCR-Bench-V2(EN)	70.7	67.0	59.1
OCR-Bench-V2(ZH)	67.1	63.6	57.7

BabyVision 从 37.4 跳到 70.4，几乎翻倍。 官方原文：

its significant improvement on BabyVision over Qwen3.6-Plus suggests stronger generalization on tasks that are closer to early human visual cognition and spatial reasoning.

OCR-Bench-V2 中英文双双超过 GPT-5.4，这对文档处理场景很关键——中文 OCR 一直是国产模型的护城河。

官方对能力边界的诚实表述

官方博客没有把 Qwen3.7-Plus 吹成「全面第一」，而是明确说了它的定位：

Qwen3.7-Plus delivers competitive text performance that approaches Max-tier models across the board.

关键词是 「approaches Max-tier」（接近 Max 级），不是「超越 Max 级」。官方承认在纯文本任务上，Qwen3.7-Plus 是 Plus 档位，对标的是其他 Plus 档模型，不是 Opus-4.6 Max 这种旗舰。

官方同时承认了几个短板（通过对比表里的空单元格和较低分数体现）：

HLE（人类终极考试）34.7：低于 Opus-4.6 Max（40.0）和 DeepSeek-V4-Pro Max（37.7）
Apex 22.7：远低于 DeepSeek-V4-Pro Max（38.3）和 Opus-4.6 Max（34.5）
SWE-Verified 77.7：低于 Opus-4.6 Max（80.8）

这些数字官方都贴出来了，没有藏。这种「强项讲透、弱项不藏」的发布风格，比单纯吹跑分更可信。

跨框架泛化：Agent 层和模型层解耦

官方博客有一段特别值得注意：

It generalizes across agent scaffolds, performing consistently whether deployed through Claude Code, OpenClaw, Qwen Code, or other frameworks.

翻译：Qwen3.7-Plus 在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架里表现一致。

这件事的行业意义大于模型本身：

维度	含义
模型层	Qwen3.7-Plus 不锁定自家框架
框架层	Claude Code 不锁定 Anthropic 模型
用户层	可以混搭「阿里模型 + Anthropic 框架」

Agent 框架和底层模型正在解耦。 这对开发者是好事——不用被迫买全家桶。但对厂商的商业模式是挑战——模型订阅和框架订阅的捆绑销售会越来越难。

行业影响

1. 多模态 Agent 成为国产模型的差异化战场。 Qwen3.7-Plus 在 ScreenSpot Pro、AndroidWorld、OSWorld-Verified 上的表现，说明国产模型在「GUI 操作」这个具体场景已经摸到第一梯队。这个场景的商业价值很直接：RPA、自动化测试、无障碍辅助。

2. Plus 档位对标 Max 档位的性价比叙事。 官方明确说 Qwen3.7-Plus「approaches Max-tier」，定价却是 Plus 档。这对预算敏感的团队有吸引力——用 Plus 的价格买到接近 Max 的能力。

3. 跨框架兼容倒逼全家桶解绑。 Qwen3.7-Plus 跑在 Claude Code 里，意味着用户不再需要为了用某个框架而买某个厂商的模型。这会压低整体 API 价格。

4. 中文 OCR / 文档处理护城河巩固。 OCR-Bench-V2 中英文双双领先 GPT-5.4，对国内企业级文档处理场景（合同、票据、报表）是硬实力。

诚实的局限

官方未公布 API 定价。 qwen.ai 博客没有贴价格，具体费用需查阿里云百炼控制台。本文不编造任何定价数字。
对比对象不含最新旗舰。 官方表格对比的是 Opus-4.6 Max、Gemini-3.1 Pro、GPT-5.4，没有对比 5 月 28 日发布的 Claude Opus 4.8 和 5 月 19 日发布的 Gemini 3.5 Flash。这是官方表格的时效性局限，不是本文的疏漏。
客户评价缺失。 与 Anthropic 公告不同，qwen.ai 这篇博客没有贴署名客户评价，只有基准数字。
「11 小时独立开发 App」等网友实测标题未在官方博客出现。 这类传播标题来自中文自媒体，本文不作为官方数据引用。

写在最后

Qwen3.7-Plus 最值得记住的不是某个跑分第一，而是它在「看屏幕操作 GUI」这件事上拿出了硬数字。

ScreenSpot Pro 79.0、AndroidWorld 81.0、OSWorld-Verified 73.3——这三个基准共同定义了「多模态 Agent」在 2026 年中的及格线。Qwen3.7-Plus 越过了这条线，而且是在 Plus 档位的价格上越过的。

至于它能不能在 Claude Opus 4.8 和 Gemini 3.5 Flash 的夹击下站稳，要看阿里云百炼的 API 定价和实际生产环境的稳定性反馈。

官方博客原文：qwen.ai/blog?id=qwen3.7-plus 阿里云百炼控制台：modelstudio.alibabacloud.com

Previous Claude Opus 4.8：定价不变，诚实度翻 4 倍，Anthropic 把「不瞎编」做成了卖点 Next MiniMax M3：MSA 稀疏注意力让 1M 上下文真正可用