去创作

用微信扫描二维码

分享至好友和朋友圈

进入AI应用时代,CPU有望成为下一个“存储”机遇吗?

在算力需求暴增的今天,CPU是否会重演PC时代崛起神话?这是一个值得思考的问题。如今,大模型推理、端侧AI、智能物联网正将计算压力推向新的临界点。英特尔、AMD股价悄然攀升,Arm架构异军突起,甚至连苹果、小米都在自研芯片中加大CPU投入。

这究竟是短暂的风口,还是结构性机遇的开始?当云端集群的CPU利用率逼近红线,当每台终端设备都需要独立的AI推理能力,传统处理器是否已经站在爆发的边缘?

推理有望成为重要方向

随着AI应用从实验室走向千行百业,推理计算正取代训练成为AI算力的主战场。据IDC与浪潮信息联合预测,2023年中国AI服务器工作负载中训练端占比58.7%,而到2027年推理端算力需求将飙升至72.6%。当大模型逐渐成熟,企业对算力的需求不再是砸钱堆叠训练集群,而是如何将模型高效、经济地部署到真实业务场景中。这种转变,让CPU这一传统通用处理器重新站在了舞台中央。

在推理场景中,CPU的性价比优势正被重新发现。与动辄数十万、功耗惊人的GPU相比,CPU在成本、可用性和总拥有成本(TCO)上展现出无可比拟的竞争力。英特尔数据显示,使用CPU进行AI推理无需构建新的IT基础设施,可复用既有平台空闲算力,避免异构硬件带来的管理复杂度。更重要的是,通过AMX加速、INT8量化优化等技术,现代CPU的推理性能已实现质的飞跃。实测表明,经过优化的至强处理器在ResNet-50等模型上推理速度提升可达8.24倍,精度损失不足0.17%。这种模式,正中中小企业下怀——它们不需要GPT-4级别的算力,但需要能跑通32B参数模型的经济型方案。

CPU的用武之地,恰恰集中在AI推理的"长尾市场"。第一类是小语言模型(SLM)部署,如DeepSeek-R1 32B、Qwen-32B等模型,它们在企业级场景中文能力突出,参数规模适中,CPU完全能够胜任。第二类是数据预处理与向量化环节,这类任务涉及文本清洗、特征提取、嵌入生成等,天然适合CPU的串行处理能力。第三类是并发量高但单次计算简单的"长尾"推理任务,如客服问答、内容审核等,CPU可通过多核心并行处理数百个轻量级请求,实现更高的吞吐率。这些场景的共同点是:对延迟要求相对宽松,但对成本极度敏感,正是CPU大显身手的舞台。

2025年以来的许多上市公司已经将相关产品推向市场。浪潮信息(000977) 在3月率先推出元脑CPU推理服务器NF8260G7,搭载4颗英特尔至强处理器,通过张量并行和AMX加速技术,单机可高效运行DeepSeek-R1 32B模型,单用户性能超20 tokens/s,同时处理20个并发请求。神州数码(000034) 则在7月的WAIC大会上发布KunTai R622 K2推理服务器,基于鲲鹏CPU架构,在2U空间内支持4张加速卡,主打"高性能、低成本"路线,瞄准金融、运营商等预算敏感型行业。这些厂商的布局揭示了一个明确信号:CPU推理不是退而求其次,而是主动战略选择。

更深层的逻辑在于,AI算力正在走向"去中心化"和"场景化"。当每个工厂、每家医院甚至每个手机都需要嵌入式推理能力时,不可能也不必要全部依赖GPU集群。CPU作为通用算力底座,能够将AI能力无缝融入现有IT架构,实现"计算即服务"的平滑过渡。在这个意义上,CPU的确正在成为AI时代的"新存储":它不是最闪耀的,但却是不可或缺的算力基础设施。

CPU 可能比 GPU 更早成为瓶颈

在Agent驱动的强化学习(RL)时代,CPU的瓶颈效应正以比GPU短缺更隐蔽却更致命的方式浮现。与传统单任务RL不同,现代Agent系统需要同时运行成百上千个独立环境实例来生成训练数据,这种"环境并行化"需求让CPU成为事实上的第一块短板。

2025年9月,蚂蚁集团开源的AWORLD框架将Agent训练解耦为推理/执行端与训练端后,被迫采用CPU集群承载海量环境实例,而GPU仅负责模型更新。这种架构选择并非设计偏好,而是环境计算密集型的必然结果——每个Agent在与操作系统、代码解释器或GUI界面交互时,都需要独立的CPU进程进行状态管理、动作解析和奖励计算,导致核心数直接决定了可同时探索的轨迹数量。

更深层的矛盾在于CPU-GPU pipeline的异步失衡。当CPU侧的环境模拟速度无法匹配GPU的推理吞吐量时,policy lag(策略滞后)急剧恶化——GPU被迫空转等待经验数据,而Agent正在学习的策略与采集数据时的旧策略之间产生致命时差。这种滞后不仅降低样本效率,更在PPO等on-policy算法中引发训练震荡,甚至导致策略发散。智元机器人2025年3月开源的VideoDataset项目印证了这一点:其CPU软件解码方案成为训练瓶颈,切换到GPU硬件解码后吞吐量提升3-4倍,CPU利用率才从饱和状态回落。

2025年的工业级实践进一步暴露了CPU瓶颈对收敛稳定性的系统性破坏。腾讯的AtlasTraining RL框架在万亿参数模型训练中,不得不专门设计异构计算架构来协调CPU与GPU的协作,因其发现环境交互的随机种子、CPU核心调度策略的微小差异,会通过早期学习轨迹的蝴蝶效应影响最终策略性能。更严峻的是,多智能体强化学习(MARL)的非平稳性加剧了这一问题——当数百个Agent策略同步更新时,CPU不仅要模拟环境,还需实时计算联合奖励、协调通信,这直接导致状态空间复杂度呈指数级增长。

本质上,Agent RL将计算范式从"模型密集"转向"环境密集",而CPU正是环境模拟的物理载体。当Agent需要探索工具使用、长链推理等复杂行为时,每个环境实例都是一个小型操作系统,消耗1-2个CPU核心。此时,投入再多的A100或H200,若CPU核心数不足,GPU利用率仍会在30%以下徘徊,收敛时间从数周延长至数月。

2025年,这种瓶颈已从学术研究蔓延至产业实践,解决CPU瓶颈已成为RL infra的核心战场。Agent时代的算力竞赛,胜负手或许不在GPU的峰值算力,而在于能否用足够的CPU核心喂饱那些饥饿的智能体。

更多精彩内容,关注云掌财经公众号(ID:yzcjapp)

以上内容仅供学习交流,不作为投资依据,据此操作风险自担。股市有风险,入市需谨慎! 点击查看风险提示及免责声明
热股榜
代码/名称 现价 涨跌幅
加载中...
加载中 ...
加载中...

二维码已过期

点击刷新

扫码成功

请在手机上确认登录

云掌财经

使用云掌财经APP扫码登录

在“我的”界面右上角点击扫一扫登录

  • 验证码登录
  • 密码登录

注册/登录 即代表同意《云掌财经网站服务使用协议》

找回密码

密码修改成功!请登录(3s)

用户反馈

0/200

云掌财经APP下载

此为会员内容,加入后方可查看,请下载云掌财经APP进行加入

此为会员内容,请下载云掌财经APP加入圈子

云掌财经
扫码下载

更多功能与福利尽在APP端:

  • 精选会员内容实时推送
  • 视频直播在线答疑解惑
  • 达人一对一互动交流
关闭
/