智谱官宣GLM-5底层基建进展：吞吐最高提升132%，修复方案被SGLang开源社区采纳

今日凌晨，智谱发布技术博客《Scaling Pain：超大规模Coding Agent推理实践》，首次系统披露GLM-5系列模型在超大规模Coding Agent调用场景下的底层推理技术突破。包括两个关键Bug的定位及修复、一项性能优化创新、以及一个意外的监控机制突破。

针对Context Parallel策略中的KV Cache冗余存储问题，智谱设计实现了KV Cache分层存储方案 LayerSplit —— 每张GPU仅持有部分层的KV Cache，通过广播机制完成协同计算。在Cache命中率90%条件下，40K至120K请求长度区间内，系统吞吐量提升10%至132%，且上下文越长收益越显著。这一优化直接大幅提升智谱在Coding场景下的服务能力上限。

智谱本次披露的工程突破具备明确的技术深度——团队不仅在自有推理链路中定位并修复了PD分离架构下的KV Cache跨节点复用竞态，更进一步在主流开源推理框架SGLang的源代码层面发现并修复了HiCache模块的加载时序缺失(read-before-ready)问题，修复方案被SGLang开源社区采纳，其底层基础设施能力不仅服务于自身模型，也正在成为大模型行业的公共基础设施之一。

智谱推理优化还在进一步加速，大幅提升单位算力token吞吐效率，降低推理成本。

更多精彩内容，关注云掌财经公众号（ID：yzcjapp）

以上内容仅供学习交流，不作为投资依据，据此操作风险自担。股市有风险，入市需谨慎！点击查看风险提示及免责声明

热股榜

代码/名称	现价	涨跌幅
加载中...

加载中 ...

智谱官宣GLM-5底层基建进展：吞吐最高提升132%，修复方案被SGLang开源社区采纳

找回密码

用户反馈

云掌财经APP下载

智谱官宣GLM-5底层基建进展：吞吐最高提升132%，修复方案被SGLang开源社区采纳

二维码已过期

使用云掌财经APP扫码登录

找回密码

用户反馈

云掌财经APP下载