代理人工智能要求的不仅仅是GPU

来源：荣格电子芯片编译自semiwiki 发布时间：2026-04-13 67

智能制造其他电子芯片其他半导体技术专栏

新兴的智能体人工智能系统将推理转变为分布式、多步流程，包括规划、工具调用、验证和迭代推理。这一架构变革带来了显著的CPU需求，使CPU容量成为维持系统吞吐量和整体成本效益的关键因素。

代理型AI工作负载正在重塑现代数据中心基础设施的计算需求，将性能瓶颈从GPU为中心的推理转向CPU密集的编排和工作流管理。传统的AI推理流程主要依赖GPU执行单次前向传递，输入标记化、模型执行和输出生成依次完成。然而，新兴的智能体人工智能系统将推理转变为分布式、多步流程，包括规划、工具调用、验证和迭代推理。这一架构变革带来了显著的CPU需求，使CPU容量成为维持系统吞吐量和整体成本效益的关键因素。

在代理工作流中，CPU 执行诸如控制流管理、分支逻辑、重试以及多个代理与外部服务之间的协调等编排任务。每次代理调用可能需要与数据库、API、搜索引擎或向量存储交互，这些都会产生额外的 CPU、内存和 I/O 开销。此外，推理密集的工作负载通常需要沙箱执行环境进行验证和测试。这些迭代循环创造了多回合的工作流程，CPU决定端到端吞吐量。当CPU资源不足时，GPU会处于空闲状态，等待预处理、工具执行或验证步骤完成，导致昂贵的加速器硬件使用效率低下。

实验基准测试进一步强调了CPU工作负载在代理流水线中的重要性。在基于监管文件分析的金融异常检测工作流程中，CPU负责数据加载、基线计算、异常检测、文件检索以及通过网页搜索丰富等任务。结果表明，CPU操作主导了整个运行时间，仅富集操作所耗时间远多于基于GPU的模型推断步骤。这凸显了仅靠推理加速无法优化性能;相反，需要在CPU编排和GPU计算之间实现系统平衡。

第二个基准测试聚焦于AI辅助代码生成，进一步揭示了CPU瓶颈。在这种工作流程中，GPU生成候选解决方案，而CPU则在沙箱环境中执行和验证代码。在两千多个任务中，基于CPU的沙箱执行耗时略高于GPU代码生成，尽管采用了高核心数系统。CPU阶段包括子进程管理、测试执行和结果分析，证明验证循环在智能系统中可以媲美甚至超过推理时间。这些发现表明，仅靠提升GPU性能并不能提升整体吞吐量，除非CPU按比例扩展。

这些实验中产生的基础设施规模建议强调保持CPU与GPU比例的平衡。当前指导建议CPU与GPU的比例介于1：1到1.4：1之间，相当于每块GPU约86到120个CPU核心，具体取决于工作负载特性。较小的模型更快地生成令牌，需要额外的CPU容量以保持GPU饱和，而更强大的CPU则可以降低所需的比例。未来的高性能GPU可能会进一步增加CPU需求，随着编排复杂度增加，CPU比例可能进一步提升。

其影响不仅限于性能优化。CPU资源配置不足会带来编排延迟、延迟工具执行和验证循环变慢，这些都会降低GPU利用率并增加运营成本。相反，扩展型CPU确保了数据的持续准备、协调和验证，使GPU能够以最高效率运行。这种系统层级的平衡类似于微服务架构，后者整体性能依赖于最慢的组件而非最快的组件。

总结：随着代理人工智能的不断发展，CPU将在推理基础设施中扮演越来越核心的角色。从单遍推理向多步工作流程的转变，将价值转向编排、协调和运行时管理。因此，部署代理系统的组织必须重新考虑传统的以GPU为中心的扩展策略，转而设计平衡的架构，以提供足够的CPU容量。通过协调CPU和GPU资源，数据中心能够持续吞吐量，减少空闲加速器，并优化下一代AI部署的总拥有成本。

关注微信公众号 - 荣格电子芯片

聚焦电子芯片制造领域的技术资讯、企业动态以及前沿创新，涵盖半导体、集成电路、贴片封装等多个行业领域的解决方案。

推荐新闻