供需大厅

登录/注册

公众号

更多资讯,关注微信公众号

小秘书

更多资讯,关注荣格小秘书

邮箱

您可以联系我们 info@ringiertrade.com

电话

您可以拨打热线

+86-21 6289-5533 x 269

建议或意见

+86-20 2885 5256

顶部

荣格工业资源APP

了解工业圈,从荣格工业资源APP开始。

打开
荣格工业-圣德科

代理人工智能要求的不仅仅是GPU

来源:荣格电子芯片编译自semiwiki 发布时间:2026-04-13 67
智能制造其他电子芯片其他 半导体技术专栏
新兴的智能体人工智能系统将推理转变为分布式、多步流程,包括规划、工具调用、验证和迭代推理。这一架构变革带来了显著的CPU需求,使CPU容量成为维持系统吞吐量和整体成本效益的关键因素。

代理型AI工作负载正在重塑现代数据中心基础设施的计算需求,将性能瓶颈从GPU为中心的推理转向CPU密集的编排和工作流管理。传统的AI推理流程主要依赖GPU执行单次前向传递,输入标记化、模型执行和输出生成依次完成。然而,新兴的智能体人工智能系统将推理转变为分布式、多步流程,包括规划、工具调用、验证和迭代推理。这一架构变革带来了显著的CPU需求,使CPU容量成为维持系统吞吐量和整体成本效益的关键因素。

在代理工作流中,CPU 执行诸如控制流管理、分支逻辑、重试以及多个代理与外部服务之间的协调等编排任务。每次代理调用可能需要与数据库、API、搜索引擎或向量存储交互,这些都会产生额外的 CPU、内存和 I/O 开销。此外,推理密集的工作负载通常需要沙箱执行环境进行验证和测试。这些迭代循环创造了多回合的工作流程,CPU决定端到端吞吐量。当CPU资源不足时,GPU会处于空闲状态,等待预处理、工具执行或验证步骤完成,导致昂贵的加速器硬件使用效率低下。

 

实验基准测试进一步强调了CPU工作负载在代理流水线中的重要性。在基于监管文件分析的金融异常检测工作流程中,CPU负责数据加载、基线计算、异常检测、文件检索以及通过网页搜索丰富等任务。结果表明,CPU操作主导了整个运行时间,仅富集操作所耗时间远多于基于GPU的模型推断步骤。这凸显了仅靠推理加速无法优化性能;相反,需要在CPU编排和GPU计算之间实现系统平衡。

 

第二个基准测试聚焦于AI辅助代码生成,进一步揭示了CPU瓶颈。在这种工作流程中,GPU生成候选解决方案,而CPU则在沙箱环境中执行和验证代码。在两千多个任务中,基于CPU的沙箱执行耗时略高于GPU代码生成,尽管采用了高核心数系统。CPU阶段包括子进程管理、测试执行和结果分析,证明验证循环在智能系统中可以媲美甚至超过推理时间。这些发现表明,仅靠提升GPU性能并不能提升整体吞吐量,除非CPU按比例扩展。

 

这些实验中产生的基础设施规模建议强调保持CPUGPU比例的平衡。当前指导建议CPUGPU的比例介于111.41之间,相当于每块GPU86120CPU核心,具体取决于工作负载特性。较小的模型更快地生成令牌,需要额外的CPU容量以保持GPU饱和,而更强大的CPU则可以降低所需的比例。未来的高性能GPU可能会进一步增加CPU需求,随着编排复杂度增加,CPU比例可能进一步提升。

 

其影响不仅限于性能优化。CPU资源配置不足会带来编排延迟、延迟工具执行和验证循环变慢,这些都会降低GPU利用率并增加运营成本。相反,扩展型CPU确保了数据的持续准备、协调和验证,使GPU能够以最高效率运行。这种系统层级的平衡类似于微服务架构,后者整体性能依赖于最慢的组件而非最快的组件。

 

总结:随着代理人工智能的不断发展,CPU将在推理基础设施中扮演越来越核心的角色。从单遍推理向多步工作流程的转变,将价值转向编排、协调和运行时管理。因此,部署代理系统的组织必须重新考虑传统的以GPU为中心的扩展策略,转而设计平衡的架构,以提供足够的CPU容量。通过协调CPUGPU资源,数据中心能够持续吞吐量,减少空闲加速器,并优化下一代AI部署的总拥有成本。

关注微信公众号 - 荣格电子芯片
聚焦电子芯片制造领域的技术资讯、企业动态以及前沿创新,涵盖半导体、集成电路、贴片封装等多个行业领域的解决方案。
推荐新闻