智算监控的下半场：从基础设施报警到算力精算师

2026-03-21 5 纸飞机账号购买

摘要：处于十万卡集群以及万亿参数模型的时代，基础设施的稳定状况直接对模型训练的边际成本起到决定作用。当单次训练成本达到千万美元那般高的时候，监控系统已不再是单纯的报警行为，而是成为了衡量算力价值的精算师角色。依据一线智算运维实践情况，探讨怎样去打破数据中心、服务器与网络相互之间的数据壁垒，构建出拥有业务感知能力的下一代智算监控体系。

一、核心痛点：为什么传统监控在智算时代失效了？

在通用计算岁月里，平素我们惯于运用 SLA 用以衡量稳定性，然而在 AI 大模型训练情境状况下，此项指标已然失效，大模型训练乃是木桶效应的极度放大，传统监控的局限性得以显露。

在一个有着数万张 GPU 的集群里，进行训练时采用那种并行策略，木桶效应致使的全局脆弱性显露了出来，这时，只要任意一张 GPU 的显存出现 ECC 错误，或者任意一根光纤的变动使数据重传，整个集群训练就会停滞，局部微小故障带来的就是全局算力的瘫痪，传统监控是割裂的，烟囱式架构造成了可观测性盲区，动环团队只关注水温和电压，网络团队仅仅管理端口状态与带宽，系统团队单纯盯着 CPU 负载和磁盘 IO。当训练速度毫无缘由地降低了 10% 的时候，三个团队的监控面板全部呈现绿色，它们能够证明自身没有问题，然而致使业务遭受损害的根本原因却没办法查找出来。

在下半场的智算监控局势中，一定要破除这般的割裂状况，从而得以达成针对训练或者推理任务的可观测性状态。

二、理念重塑：构建以训练/推理为中心的监控体系

搞破烟囱，关键在于搭建一个把训练或者推理任务当作顶点，朝着下面贯穿全部软硬件层次的架构，监控体系得在以下这四个维度达成升维突破：

监测对象出现升维情况，即从资源池转变为训练或推理的任务，要摒弃像孤立的 GPU 利用率、网络带宽这类传统指标，确立把单次训练或推理迭代时间当作新的黄金指标，并且将它精确拆解成计算阶段耗时、通信阶段耗时、数据加载阶段耗时、排队阶段耗时等，实施端到端追踪，也就是跨层级的关联，为每一回训练或推理迭代生成全局唯一的追踪 ID，此追踪 ID 贯穿从任务调度开始，经过单卡计算，一直到跨节点网络通信的整个链路。借助毫秒级的时间同步，以及统一的元数据，这里的元数据包括任务、Pod、GPU、交换机端口、机架、电源，继而实现跨层根因定位。告警机制进行升维，从故障阻断转变为性能劣化告警，不再仅仅局限于端口Down、GPU宕机等硬性故障。新一代告警要聚焦性能劣化，即迭代时间P99线同比增加10%、集群有效算力利用率，也就是MFU微降5%。而这需要依靠动态基线与AI算法，在性能受损的初期就精准地捕获异常。进行预测以及推演，其是基于数字孪生的前置风控，该风控基于历史数据，构建有关硬件退化，像 GPU 显存寿命、光模块光衰这些方面，与训练或者推理性能波动的关联模型。在开展作业调度或者进行网络拓扑变更之前，能够于数字孪生系统里进行仿真推演，进而预测其对于全局训练或者推理效率所产生的影响。三、底层重构：物理层的核心技术架构。

万卡集群里，软硬件边界正趋于模糊，监控得深入到芯片寄存器，还得涉及光电信号微观层面上。

1. 算力层：深入芯片内部的健康探针

顺着新一代芯片架构的逐步发展变化，单独一台服务器的内部，已然是一种繁复的拓扑网络。

2. 网络层：微秒级拥塞与光链路的预测性维护

于 RDMA/RoCEv2 这个网络当中，网络的质量，并非仅仅取决于交换机，而是更加取决于光。

3. 基础设施层：算力与环境的深度绑定

当机柜功率密度冲破100kW这个数值，液冷以及电网监控正式变为算力监控的其中一部分。

四、产品设计：告别报警风暴，走向智能自愈

智算监控的关键价值所在，是给出MTTI（即Mean Time To Innocence，也就是平均自证清白时间），以及精确的RCA（也就是Root Cause Analysis，根因分析）。

把拓扑感知的全景交互图专家经验加以代码化，自动化的故障确诊系统要把资深运维专家的排障逻辑沉淀成判定树。五、结语：监控就是算力。

在AI Infra这个领域当中，监控系统正处于从仅仅是Observer朝着Controller进行演进的过程，未来用于智算的监控，将会借助eBPF技术实现内核深层潜入，利用Telemetry以毫秒级的速度抓取交换机状态，通过海量的底层传感器来进行感知。

下半场智算监控的本质，在于把视角从资源供应商完全转向训练/推理任务消费者，这一转变要求整个体系务必能够精准回答一个问题：