时间:2025-07-29 04:35 作者:叶落飞雪
抢跑GPT-5,智谱开源新SOTA模型,一句话搞出能看视频的B站!,下载软件智谱app
金磊 发自 上海
量子位 | 公众号 QbitAI
就在刚刚,智谱GLM史上最大开源大模型来袭——
代码和Agent,直接拿下开源模型的SOTA,推理拿下开源模型第二。
更重要的是,这是首次在单个模型中把这三个能力进行了原生融合的那种。
它就是智谱最新发布的新一代旗舰大模型,GLM-4.5。
从评测维度来看,榜单挑选了最具代表性的12个评测基准,包括:
MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、BFCL v3 和BrowseComp。
评测结果显示,GLM-4.5的综合平均分全球范围内第三(仅次于闭源的o3、Grok4),而在开源和国产两个维度均取得第一的成绩!
整体来看,GLM-4.5采用的是MoE架构,并且全面开源,包括2个产品:
除此之外,速度和价格,也是GLM-4.5的大亮点。
因为它的最快生成速度,已经是来到了100 tokens/s大关了!可以说是远超、秒杀其它AI:
价格方面也是远低于目前的主流大模型:API调用价格输入0.8元/百万tokens,输出2元/百万tokens。
而且在智谱正式发布动作之前,彭博社就来了一波预告:
OpenAI在中国的对手——智谱,将发布一个新的开源模型。
这则预告字里行间所透露的信息,可见海外世界对GLM模型的关注。
然而在一番体验下来之后我们发现,相比于OpenAI,智谱这次做到了更超前。
因为有传闻GPT-5将在本周上线,也有网友已经开始晒出“秒出网页”这样的功能。
但这一切,已经可以在GLM-4.5这里体验;更重要的一点是,开源,开源,开源。
目前,GLM-4.5已经可以在智谱清言 (chatglm.cn) 和Z.ai上免费体验满血版。
例如在Z.ai上,我们只需在模型下拉菜单中选择“GLM-4.5”即可:
然后我们现在就来实测一下它的能力,Prompt是这样的:
做一个百度搜索网站,页面样式要和百度高度相似,并且可以进行正常的搜索。
可以看到,在一句话Prompt之后,GLM-4.5就开始“唰唰唰”自己敲起了代码。
在片刻之后,我们就得到了这样的结果:
如何?界面样式是不是有点百度搜索的味道了?
但到这儿还没完,因为它,是真的能搜索!例如我们搜“智谱”,就能搜到它的官网,点击之后就可直接跳转了:
完整过程是这样的:
同样的道理,我们现在也可以复刻一个AI版的小红书:
做一个跟小红书高度相似的内容社交网站,对帖子可以点赞、收藏和发布留言。
继续加大难度,若是想打造一个B站一样的视频网站,是否也OK呢?
稳稳拿捏住了,甚至还可以播放视频、发弹幕!
想体验一下的小伙伴可戳:https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4
当然,除了这些炫酷的功能之外,我们还能用GLM-4.5来做一些非常实用的事,例如做教案PPT:
制作初中化学老师讲课用的PPT,为人教版初三化学下册第十单元“酸和碱”的第一课时“常见的酸和碱”制作一个教学PPT。
区别于传统AI PPT通过模板套用信息的方式,GLM-4.5能够主动收集资料、匹配合适的图片,并基于实际素材直接生成HTML格式的图文内容,实现了更精确的信息呈现和更自由的版面设计。
由此可见,GLM-4.5在实用性、可用性方面,可谓是站在了一众AI的前面。
并且为了测试GLM-4.5在真实编程场景中的表现,智谱团队还把它和Claude Code、Claude-4-Sonnet、Kimi-K2、Qwen3-Coder放在一起做对比。
团队设计了52个编程任务,覆盖了六个主要的开发方向,让这些模型在独立的测试环境中进行多轮互动测试。
从实际测试结果来看,GLM-4.5比其他开源模型表现更好,尤其是在调用工具的稳定性和完成任务的成功率上优势明显。
例如Claude 4都搞不出来的《羊了个羊》,现在GLM-4.5一句话就能搞定:
https://cwb660.github.io/match-3-game/
虽然GLM-4.5与Claude-4-Sonnet相比还有改进的余地,但在大多数使用场景下已经可以达到替代效果。
与此同时,团队为确保评测透明度,还公布了52道题目及Agent轨迹(https://huggingface.co/datasets/zai-org/CC-Bench-trajectories),供业界验证复现。
正如我们刚才提到的,GLM-4.5采用的是MoE架构,以提升训练和推理的计算效率;MoE层采用了无损均衡路由机制和Sigmoid门控。
在模型结构设计上,相较于DeepSeek-V3和Kimi K2,智谱团队选择在缩小模型宽度(包括隐藏维度和路由专家数量)的同时增加深度(层数),因为实验发现更深的模型在推理任务中表现更优。
在自注意力模块中,团队引入了分组查询的RoPE位置编码方式,并使用了 2.5 倍数量的注意力头(以5120的隐藏维度为例,设置了96个头)。
有趣的是,尽管增加头数并未在训练损失上带来显著优势,但在MMLU和BBH等推理基准测试中表现持续优于低头数模型。
在优化器选择上,智谱团队采用了Muon,以加快收敛速度并支持更大的批量大小。同时,为了稳定注意力对数范围,引入了QK-Norm技术。
此外,在GLM-4.5与GLM-4.5-Air中,团队还加入了MTP(多标记预测)层,以支持推理阶段的推测式解码。
智谱的基础模型经历了多个阶段的训练。
在预训练阶段,模型首先在15T的通用预训练语料上进行训练,随后在 7T 的代码与推理相关语料上继续训练。在完成基础预训练后,团队又引入了若干额外阶段,以进一步提升模型在关键下游任务中的表现。
不同于此前基于大规模通用文档的预训练,这些后续阶段主要依托中等规模的特定领域数据集,包括各类指令类数据。
为支持GLM-4.5等大规模模型所需的高效强化学习(RL)训练,智谱团队设计、开发并开源了强化学习基础设施Slime。
该系统在灵活性、效率和可扩展性方面均经过精心打磨,智谱也积极鼓励社区广泛使用并参与共建。
Slime 的主要创新旨在克服常见的强化学习(RL)瓶颈,尤其是在复杂的智能体任务中。
对于LLM来说,通过自我生成的探索性体验迭代增强其策略的后训练过程至关重要。强化学习已成为推动模型能力边界的关键步骤。
对于GLM-4.5,除了整合GLM-4-0414的通用能力和GLM-Z1的推理能力外,团队特别增强了智能体(Agent)能力,包括智能体编程、深度搜索和通用工具使用。
这个过程从对精选的推理数据和综合的智能体场景进行监督微调开始,随后通过专门的强化学习阶段培养专家模型。
由此可见,GLM-4.5的高性能并非单一技术的突破,而是一个系统性工程的成果。
并且从参数效率角度来看,GLM-4.5的参数量仅为DeepSeek-R1的一半、Kimi-K2的三分之一,却在多项标准基准测试中展现出更优异的表现,充分体现了GLM模型卓越的参数效率。
特别值得关注的是,GLM-4.5-Air凭借106B总参数/12B激活参数的配置实现了显著突破,在推理基准上达到了与Gemini 2.5 Flash、Claude 4 Sonnet相媲美的水平。
在代码能力评估的权威榜单SWE-bench Verified上,GLM-4.5系列占据性能/参数比帕累托前沿,证明了其在同等规模下的最优性能表现。
智谱,给国产开源大模型上了个大分
如果说之前的AI竞赛是“百模大战”,那么智谱GLM-4.5的发布,则可以说是为这场竞赛的下半场树立了新的标杆。
它不仅在多个关键评测维度上取得了国产和开源领域的冠军,更重要的是,它向我们展示了一种更高效、更融合、也更具前瞻性的技术路径。
在各大厂商纷纷追求千亿甚至万亿参数的“军备竞赛”中,智谱展现了不同的思考。GLM-4.5凭借其先进的MoE(混合专家)架构和精巧的系统工程设计,以远少于同行的参数量,实现了超越性的性能。
从评测结果来看,无论是对标DeepSeek-R1还是Kimi-K2,GLM-4.5都以更小的“身躯”爆发出了更强的能量。
当业界还在纷纷猜测和等待OpenAI的GPT-5将带来何种革命性功能时,智谱已经将类似的、甚至更强大的Agent能力通过GLM-4.5直接开源,并开放给所有用户免费体验。
这种“不等、不靠”,用自研实力走在行业“传闻”之前的做法,本身就是一种自信和超前。
总而言之,GLM-4.5的问世,不仅仅是智谱自身的一次技术跃迁,更是为国产开源大模型领域注入了一剂强心针。
它用硬核的性能、前瞻的架构和开放的姿态,证明了中国AI力量不仅能够追赶,更具备了定义下一代模型标准的能力。
这无疑是给国产AI,乃至全球开源社区,上了一个“大分”。
最后,体验地址放下面了,感兴趣的小伙伴可以尝鲜了哦~
https://chat.z.ai/
技术报告地址:
https://z.ai/blog/glm-4.5
智谱还给程序员们发福利了——
50块就能包月爽用GLM-4.5,调用量无上限!
名额有限,快去抢吧~
1、绘说现代化丨向海图强!海洋强国建设风帆正劲,海洋强国发展