摘要:处于十万卡集群以及万亿参数模型的时代,基础设施的稳定状况直接对模型训练的边际成本起到决定作用。当单次训练成本达到千万美元那般高的时候,监控系统已不再是单纯的报警行为,而是成为了衡量算力价值的精算师角色。依据一线智算运维实践情况,探讨怎样去打破数据中心、服务器与网络相互之间的数据壁垒,构建出拥有业务感知能力的下一代智算监控体系。
一、 核心痛点:为什么传统监控在智算时代失效了?
在通用计算岁月里,平素我们惯于运用 SLA 用以衡量稳定性,然而在 AI 大模型训练情境状况下,此项指标已然失效,大模型训练乃是木桶效应的极度放大,传统监控的局限性得以显露。
在一个有着数万张 GPU 的集群里,进行训练时采用那种并行策略,木桶效应致使的全局脆弱性显露了出来,这时,只要任意一张 GPU 的显存出现 ECC 错误,或者任意一根光纤的变动使数据重传,整个集群训练就会停滞,局部微小故障带来的就是全局算力的瘫痪,传统监控是割裂的,烟囱式架构造成了可观测性盲区,动环团队只关注水温和电压,网络团队仅仅管理端口状态与带宽,系统团队单纯盯着 CPU 负载和磁盘 IO。当训练速度毫无缘由地降低了 10% 的时候,三个团队的监控面板全部呈现绿色,它们能够证明自身没有问题,然而致使业务遭受损害的根本原因却没办法查找出来。
在下半场的智算监控局势中,一定要破除这般的割裂状况,从而得以达成针对训练或者推理任务的可观测性状态。
二、 理念重塑:构建以 训练/推理 为中心的监控体系
搞破烟囱,关键在于搭建一个把训练或者推理任务当作顶点,朝着下面贯穿全部软硬件层次的架构,监控体系得在以下这四个维度达成升维突破:
监测对象出现升维情况,即从资源池转变为训练或推理的任务,要摒弃像孤立的 GPU 利用率、网络带宽这类传统指标,确立把单次训练或推理迭代时间当作新的黄金指标,并且将它精确拆解成计算阶段耗时、通信阶段耗时、数据加载阶段耗时、排队阶段耗时等,实施端到端追踪,也就是跨层级的关联,为每一回训练或推理迭代生成全局唯一的追踪 ID,此追踪 ID 贯穿从任务调度开始,经过单卡计算,一直到跨节点网络通信的整个链路。借助毫秒级的时间同步,以及统一的元数据,这里的元数据包括任务、Pod、GPU、交换机端口、机架、电源,继而实现跨层根因定位。告警机制进行升维,从故障阻断转变为性能劣化告警,不再仅仅局限于端口Down、GPU宕机等硬性故障。新一代告警要聚焦性能劣化,即迭代时间P99线同比增加10%、集群有效算力利用率,也就是MFU微降5%。而这需要依靠动态基线与AI算法,在性能受损的初期就精准地捕获异常。进行预测以及推演,其是基于数字孪生的前置风控,该风控基于历史数据,构建有关硬件退化,像 GPU 显存寿命、光模块光衰这些方面,与训练或者推理性能波动的关联模型。在开展作业调度或者进行网络拓扑变更之前,能够于数字孪生系统里进行仿真推演,进而预测其对于全局训练或者推理效率所产生的影响。三、底层重构:物理层的核心技术架构。
万卡集群里,软硬件边界正趋于模糊,监控得深入到芯片寄存器,还得涉及光电信号微观层面上。
1. 算力层:深入芯片内部的健康探针
顺着新一代芯片架构的逐步发展变化,单独一台服务器的内部,已然是一种繁复的拓扑网络。
2. 网络层:微秒级拥塞与光链路的预测性维护
于 RDMA/RoCEv2 这个网络当中,网络的质量,并非仅仅取决于交换机,而是更加取决于光。
3. 基础设施层:算力与环境的深度绑定
当机柜功率密度冲破100kW这个数值,液冷以及电网监控正式变为算力监控的其中一部分。
四、 产品设计:告别报警风暴,走向智能自愈
智算监控的关键价值所在,是给出MTTI(即Mean Time To Innocence,也就是平均自证清白时间),以及精确的RCA(也就是Root Cause Analysis,根因分析)。
把拓扑感知的全景交互图专家经验加以代码化,自动化的故障确诊系统要把资深运维专家的排障逻辑沉淀成判定树。五、结语:监控就是算力。
在AI Infra这个领域当中,监控系统正处于从仅仅是Observer朝着Controller进行演进的过程,未来用于智算的监控,将会借助eBPF技术实现内核深层潜入,利用Telemetry以毫秒级的速度抓取交换机状态,通过海量的底层传感器来进行感知。
下半场智算监控的本质,在于把视角从资源供应商完全转向训练/推理任务消费者,这一转变要求整个体系务必能够精准回答一个问题:
就我的那个万卡集群而言,于当下这个时刻,每这一分钱的硬件投资,截至目前到底转化出了多少有效成效的训练或者推理的吞吐量呢?
得打通底层芯片、光电链路、液冷机柜,以及上层并行策略、任务编排的数据孤岛,才能给出答案,这岂止是运维基础设施的升级,更是运营AI生产力的系统性工程。
