2026 年 6 月 15 日,智谱通过港交所公告确认推出最新一代旗舰模型 GLM-5.2。这是智谱自 2 月发布 GLM-5 以来的又一次重要迭代——744B 总参数的 MoE 架构,1M 真实可用的上下文窗口,MIT 协议全面开源。
发布时机耐人寻味。6 月 12 日,美国商务部一纸禁令要求 Anthropic 暂停向所有境外用户开放 Claude Fable 5 和 Mythos 5 模型——连 Anthropic 自己的外籍员工都被禁止使用。72 小时后,智谱全量开放 GLM-5.2,并在公告中强调:
"前沿智能不应只属于少数人,也不应被少数规则随时收回。"
这不是一次普通的版本更新,而是国产开源模型第一次在编程实战场景摸到第一梯队门槛。
核心规格
| 维度 | GLM-5.2 |
|---|---|
| 架构 | Mixture of Experts (MoE) |
| 总参数量 | 744B |
| 激活参数 | 40B |
| 专家数量 | 256 个,每 token 动态路由至 8 个 |
| 注意力机制 | DSA(DeepSeek Sparse Attention)升级版 |
| 训练算法 | 异步 Agent RL(新强化学习算法) |
| 训练规模 | 10,000+ 可验证环境,覆盖 9 种编程语言 |
| 训练数据 | 28.5 万亿 token |
| 知识截止 | 2025 年 11 月 |
| 上下文窗口 | 1M token(从 5.1 的 200K 提升 5 倍) |
| 支持模态 | 纯文本 / 代码(不含多模态) |
| 开源协议 | MIT(可商用、可修改、可自部署) |
| 训练硬件 | 华为昇腾 910B + MindSpore 框架 |
值得注意的几个工程决策:
- MoE + DSA 路线延续:稀疏注意力机制做了大幅升级,这是支撑 1M 上下文真实可用的关键
- 异步 Agent RL:专为长推理链和 Agent 动作设计的强化学习算法,让模型在数千步工具调用后仍保持状态一致
- 昇腾全栈训练:全程基于华为昇腾 910B 芯片与 MindSpore 框架训练,无 NVIDIA 依赖,在国内大模型中较为罕见
1M 上下文:真正可用,不只是参数表数字
从 GLM-5.1 的 200K 到 5.2 的 1M,5 倍提升。但行业里"标称百万"的模型不少,"真正可用"的却不多——GPT-5.5 在 50 万到 100 万 token 区间出现能力腰斩,DeepSeek V4 Pro 在多针检索测试中仅有约 60% 通过率。
GLM-5.2 依赖升级后的 DSA 稀疏注意力机制,在长序列下依然能保持推理精度。官方给出的实测验证场景:
| 测试场景 | 上下文量 | 结果 |
|---|---|---|
| 74 万条服务器日志根因分析 | ~500K+ token | 准确定位 25 天前的连接池警告行号 |
| 4 份合同交叉分析 | ~300K token | 揪出跨文档条款冲突 |
| 工具调用正确率 | — | 正确率、JSON 格式合法性 100% 通过 |
社区实测反馈:在 400-500K 上下文长度下,"准确性和指令遵循跟 Claude 差距不是很大,非常的稳"。
20 万 token 大概能装下几篇长文档,100 万 token 意味着你可以把一整个中型代码仓库——所有源文件、配置、测试用例、提交记录——一股脑全丢进去,模型一次性就能完整理解。
编程能力:对标 Claude Opus 4.8
代码能力是 GLM-5.2 最能打的地方,也是 Claude 的基本盘。
LLM Benchmark Code V3 评测
在第三方独立测评 LLM Benchmark Code V3 中,GLM-5.2(Max 档)综合排名全球第三,仅次于 GPT-5.5 和 Claude Opus 4.8。
| 排名 | 模型 | 综合得分 |
|---|---|---|
| 1 | GPT-5.5 | — |
| 2 | Claude Opus 4.8 | 87.14 |
| 3 | GLM-5.2 | 81.43 |
| — | Fable 5 | 88.57(已被禁) |
工程场景评级
在 Flutter 开发、Web 前端、游戏开发等五个工程场景里,GLM-5.2 拿了三个 A 档,而上一代 GLM-5.1 连全部任务都跑不完。
实测案例
- 机械天文钟:一次性生成包含五大同心圆层、七颗齿轮的机械天文钟,产出 925 行无外部依赖的纯前端代码
- 寻路算法可视化:处理 A*、Dijkstra 与 BFS 三种寻路算法的可视化时,模型能自主实现优先队列组件而非调用库函数
- 依赖管理:主动拒绝越界方案,建议保持 pip 依赖关系
High / Max 双档思考强度
模型引入 High 与 Max 两档思考强度设定:
- High 档:日常编程任务,平衡速度与深度
- Max 档:复杂编码任务,确保架构级逻辑严谨
价格:碾压级的性价比
订阅价格对比
| 方案 | GLM-5.2 (Coding Plan) | Claude Max | GPT Pro |
|---|---|---|---|
| Lite | ¥49/月,~80 prompts/5h | $20/月 | $20/月 |
| Pro | ¥50/月,~400 prompts/5h | $50/月 | $50/月 |
| Max | ¥96/月,~1600 prompts/5h | $200/月 (Max 20x) | $200/月 |
GLM Max 仅 ¥96/月,不到 Claude Max $200/月 的一半。且所有套餐同权使用完整 GLM-5.2 + 1M 上下文,无阉割版。
API 价格对比
| 模型 | 输入 ($/1M) | 输出 ($/1M) | 倍率 (vs GLM) |
|---|---|---|---|
| GLM-5.2 (估) | ~$1.40 | ~$4.40 | 1x |
| DeepSeek V4 Pro | ~$0.44 | ~$0.88 | 0.25x |
| Claude Opus 4.6 | ~$15.00 | ~$75.00 | ~14x |
| GPT-5.2 Pro | $21.00 | $168.00 | ~28x |
| Kimi K2.6 | ~$0.95 | ~$3.80 | ~0.78x |
GLM-5.2 定位精准:比 Claude/GPT 便宜一个数量级,比 DeepSeek 贵但能力明显更强——性价比甜点区。
已知短板
GLM-5.2 并非完美,几个明显短板需要客观看待:
1. 推理速度问题。 在相同复杂任务中,GLM-5.2 耗时 45 分钟,而 Claude Opus 4.8 仅用 33 分钟完成。有用户反馈其响应速度打破了 DeepSeek 此前的最慢记录。
2. 指令遵循分化。 盲测显示 GLM-5.2 在多步指令执行中偶尔缺失分隔符,否定约束下首次调用输出为空,暴露出"过度思考挤占输出空间"的倾向。
3. 复杂推理仍有差距。 HLE(人类终极考试)与 GPQA 等测试中,与顶尖模型存在约 5% 的差距。
4. 第三方基准缺失。 智谱官方未公布 GLM-5.2 在 SWE-bench 等标准化基准上的官方评测数据,第三方验证需要等待 API 正式上线后展开。
开源生态:MIT 协议的战略意义
GLM-5.2 坚持 MIT 协议开源——这是目前最宽松的开源协议之一:
- 用户可以免费下载、修改、二次训练
- 开发者能够把它私有化部署在自己的服务器上
- 不用担心哪天被远程关闭
这正好戳中了当前企业用户最大的痛点。在 Claude Fable 5 因出口管制对美国境外用户暂停访问的背景下,智谱此举被部分开发者视为国产替代方案的重要补充。
开源权重已发布至 HuggingFace,支持本地部署与商用修改。
行业影响
1. 国产模型从"追赶海外"进入"巅峰内竞"。 GLM-5.2 与 Kimi K2.7 Code 同周发布,两款模型均聚焦编程领域,却在技术路线上差异显著——这标志着国产大模型已进入内部竞争阶段。
2. 1M 上下文成为旗舰模型标配入场券。 Anthropic Claude Opus 4.8、OpenAI GPT-5.5、DeepSeek V4 Pro 均标称百万级窗口。但"标称"与"有效可用"之间存在明显距离,GLM-5.2 是少数强调"真正可用"的玩家。
3. 大模型从参数竞赛走向算账时代。 2026 年以来,成本效率取代参数规模成为厂商对外竞争的新卖点。中国日均 Token 调用量已突破 140 万亿次,较 2024 年初增长超千倍。编程场景率先跑通商业化路径——Anthropic 凭借编程订阅实现年化经营性收入 440 亿美元并首次盈利。
4. 资本加速向头部集中。 智谱股价半年翻 13 倍,市值突破 7000 亿港元;DeepSeek 估值推高至 450 亿美元以上;Kimi 完成 20 亿美元融资。
GLM-5.2 的意义不在于又一次跑分上涨,而在于它证明了开源模型可以在编程实战场景摸到第一梯队门槛——当 Claude 被禁用,开发者第一次有了一个真正能用的开源平替。