智谱 GLM-5.2：744B MoE 与真正可用的 1M 上下文

2026 年 6 月 15 日，智谱通过港交所公告确认推出最新一代旗舰模型 GLM-5.2。这是智谱自 2 月发布 GLM-5 以来的又一次重要迭代——744B 总参数的 MoE 架构，1M 真实可用的上下文窗口，MIT 协议全面开源。

发布时机耐人寻味。6 月 12 日，美国商务部一纸禁令要求 Anthropic 暂停向所有境外用户开放 Claude Fable 5 和 Mythos 5 模型——连 Anthropic 自己的外籍员工都被禁止使用。72 小时后，智谱全量开放 GLM-5.2，并在公告中强调：

"前沿智能不应只属于少数人，也不应被少数规则随时收回。"

这不是一次普通的版本更新，而是国产开源模型第一次在编程实战场景摸到第一梯队门槛。

核心规格

维度	GLM-5.2
架构	Mixture of Experts (MoE)
总参数量	744B
激活参数	40B
专家数量	256 个，每 token 动态路由至 8 个
注意力机制	DSA（DeepSeek Sparse Attention）升级版
训练算法	异步 Agent RL（新强化学习算法）
训练规模	10,000+ 可验证环境，覆盖 9 种编程语言
训练数据	28.5 万亿 token
知识截止	2025 年 11 月
上下文窗口	1M token（从 5.1 的 200K 提升 5 倍）
支持模态	纯文本 / 代码（不含多模态）
开源协议	MIT（可商用、可修改、可自部署）
训练硬件	华为昇腾 910B + MindSpore 框架

值得注意的几个工程决策：

MoE + DSA 路线延续：稀疏注意力机制做了大幅升级，这是支撑 1M 上下文真实可用的关键
异步 Agent RL：专为长推理链和 Agent 动作设计的强化学习算法，让模型在数千步工具调用后仍保持状态一致
昇腾全栈训练：全程基于华为昇腾 910B 芯片与 MindSpore 框架训练，无 NVIDIA 依赖，在国内大模型中较为罕见

1M 上下文：真正可用，不只是参数表数字

从 GLM-5.1 的 200K 到 5.2 的 1M，5 倍提升。但行业里"标称百万"的模型不少，"真正可用"的却不多——GPT-5.5 在 50 万到 100 万 token 区间出现能力腰斩，DeepSeek V4 Pro 在多针检索测试中仅有约 60% 通过率。

GLM-5.2 依赖升级后的 DSA 稀疏注意力机制，在长序列下依然能保持推理精度。官方给出的实测验证场景：

测试场景	上下文量	结果
74 万条服务器日志根因分析	~500K+ token	准确定位 25 天前的连接池警告行号
4 份合同交叉分析	~300K token	揪出跨文档条款冲突
工具调用正确率	—	正确率、JSON 格式合法性 100% 通过

社区实测反馈：在 400-500K 上下文长度下，"准确性和指令遵循跟 Claude 差距不是很大，非常的稳"。

20 万 token 大概能装下几篇长文档，100 万 token 意味着你可以把一整个中型代码仓库——所有源文件、配置、测试用例、提交记录——一股脑全丢进去，模型一次性就能完整理解。

编程能力：对标 Claude Opus 4.8

代码能力是 GLM-5.2 最能打的地方，也是 Claude 的基本盘。

LLM Benchmark Code V3 评测

在第三方独立测评 LLM Benchmark Code V3 中，GLM-5.2（Max 档）综合排名全球第三，仅次于 GPT-5.5 和 Claude Opus 4.8。

排名	模型	综合得分
1	GPT-5.5	—
2	Claude Opus 4.8	87.14
3	GLM-5.2	81.43
—	Fable 5	88.57（已被禁）

工程场景评级

在 Flutter 开发、Web 前端、游戏开发等五个工程场景里，GLM-5.2 拿了三个 A 档，而上一代 GLM-5.1 连全部任务都跑不完。

实测案例

机械天文钟：一次性生成包含五大同心圆层、七颗齿轮的机械天文钟，产出 925 行无外部依赖的纯前端代码
寻路算法可视化：处理 A*、Dijkstra 与 BFS 三种寻路算法的可视化时，模型能自主实现优先队列组件而非调用库函数
依赖管理：主动拒绝越界方案，建议保持 pip 依赖关系

High / Max 双档思考强度

模型引入 High 与 Max 两档思考强度设定：

High 档：日常编程任务，平衡速度与深度
Max 档：复杂编码任务，确保架构级逻辑严谨

价格：碾压级的性价比

订阅价格对比

方案	GLM-5.2 (Coding Plan)	Claude Max	GPT Pro
Lite	¥49/月，~80 prompts/5h	$20/月	$20/月
Pro	¥50/月，~400 prompts/5h	$50/月	$50/月
Max	¥96/月，~1600 prompts/5h	$200/月 (Max 20x)	$200/月

GLM Max 仅 ¥96/月，不到 Claude Max $200/月的一半。且所有套餐同权使用完整 GLM-5.2 + 1M 上下文，无阉割版。

API 价格对比

模型	输入 ($/1M)	输出 ($/1M)	倍率 (vs GLM)
GLM-5.2 (估)	~$1.40	~$4.40	1x
DeepSeek V4 Pro	~$0.44	~$0.88	0.25x
Claude Opus 4.6	~$15.00	~$75.00	~14x
GPT-5.2 Pro	$21.00	$168.00	~28x
Kimi K2.6	~$0.95	~$3.80	~0.78x

GLM-5.2 定位精准：比 Claude/GPT 便宜一个数量级，比 DeepSeek 贵但能力明显更强——性价比甜点区。

已知短板

GLM-5.2 并非完美，几个明显短板需要客观看待：

1. 推理速度问题。 在相同复杂任务中，GLM-5.2 耗时 45 分钟，而 Claude Opus 4.8 仅用 33 分钟完成。有用户反馈其响应速度打破了 DeepSeek 此前的最慢记录。

2. 指令遵循分化。 盲测显示 GLM-5.2 在多步指令执行中偶尔缺失分隔符，否定约束下首次调用输出为空，暴露出"过度思考挤占输出空间"的倾向。

3. 复杂推理仍有差距。 HLE（人类终极考试）与 GPQA 等测试中，与顶尖模型存在约 5% 的差距。

4. 第三方基准缺失。 智谱官方未公布 GLM-5.2 在 SWE-bench 等标准化基准上的官方评测数据，第三方验证需要等待 API 正式上线后展开。

开源生态：MIT 协议的战略意义

GLM-5.2 坚持 MIT 协议开源——这是目前最宽松的开源协议之一：

用户可以免费下载、修改、二次训练
开发者能够把它私有化部署在自己的服务器上
不用担心哪天被远程关闭

这正好戳中了当前企业用户最大的痛点。在 Claude Fable 5 因出口管制对美国境外用户暂停访问的背景下，智谱此举被部分开发者视为国产替代方案的重要补充。

开源权重已发布至 HuggingFace，支持本地部署与商用修改。

行业影响

1. 国产模型从"追赶海外"进入"巅峰内竞"。 GLM-5.2 与 Kimi K2.7 Code 同周发布，两款模型均聚焦编程领域，却在技术路线上差异显著——这标志着国产大模型已进入内部竞争阶段。

2. 1M 上下文成为旗舰模型标配入场券。 Anthropic Claude Opus 4.8、OpenAI GPT-5.5、DeepSeek V4 Pro 均标称百万级窗口。但"标称"与"有效可用"之间存在明显距离，GLM-5.2 是少数强调"真正可用"的玩家。

3. 大模型从参数竞赛走向算账时代。 2026 年以来，成本效率取代参数规模成为厂商对外竞争的新卖点。中国日均 Token 调用量已突破 140 万亿次，较 2024 年初增长超千倍。编程场景率先跑通商业化路径——Anthropic 凭借编程订阅实现年化经营性收入 440 亿美元并首次盈利。

4. 资本加速向头部集中。 智谱股价半年翻 13 倍，市值突破 7000 亿港元；DeepSeek 估值推高至 450 亿美元以上；Kimi 完成 20 亿美元融资。

GLM-5.2 的意义不在于又一次跑分上涨，而在于它证明了开源模型可以在编程实战场景摸到第一梯队门槛——当 Claude 被禁用，开发者第一次有了一个真正能用的开源平替。

Previous Claude Fable 5 上线 3 天被美国政府紧急封禁：Anthropic 说「我们不同意」，但必须执行 Next Hermes Agent v0.16.0：从终端浮上桌面，开源 Agent 开始学会做减法