GTC 2026 演讲精华 | GMI Cloud 深度解析：基于 Blackwell 架构打造世界级 AI 推理引擎

2026-03-26 5 纸飞机账号购买

摘要

上周，在美国圣何塞那儿，NVIDIA GTC 2026大会盛大举行了。并且呢，在这场全球AI基础设施领域规格最高的年度盛会上出现了这样的情况，GMI Cloud工程VP Yujing Qian受到邀请去发表主题演讲，对当前AI推理规模化落地的核心行业痛点进行了深度拆解，还全面展示了怎样通过软硬协同，在NVIDIA Blackwell架构上打造世界级的推理引擎。然后呢，这里就是对本次演讲内容，核心精华的整理。

3月16日，是美国当地时间，英伟达创始人、CEO黄仁勋，在GTC 2026开幕主题演讲里提出，AI正开启人类历史上规模最大的基础设施建设浪潮，Token成了全新的商品，推理是AI Factory的核心负载，整个AI产业的竞争，已从单一芯片比拼，迈向了整机系统级的AI Factory级基础设施竞争。在这般的行业背景状况下，身为全球七大Reference Platform NVIDIA Cloud Partner当中的一个，GMI Cloud带来了面向Blackwell架构推理落地的全维度解决方案予以分享，直接冲击碰撞行业在规模化推理里所面临的利用率、成本、延迟以及运维这四大核心痛点要点。

算力利用率缺口：

Blackwell 架构规模化落地的核心痛点

布莱克尔架构从发布直至如今已经过去了将近两年时间，在2026年它会正式迈入技术成熟并且大规模落地的阶段，它相较于霍珀架构达成了四倍的张量浮点运算算力提升，然而在实际生产过程当中，机架级部署的布莱克尔硬件依然存在百分之三十到百分之五十的算力利用率缺口，这个问题在霍珀架构落地的初期也曾出现过，硬件技术的快速迭代导致了软件栈适配出现滞后性。

AI开发领域正迎来面向自动感知调度的技术范式转变，这正是利用率缺口的核心根源。往时的五年间，AI软件全然是围绕着单一且孤立的计算设备去进行优化的，调度器默认计算是本地化的，通信速率很低，然而Blackwell架构的核心突破之处在于机架级的系统设计，NVIDIA GB300/GB200是典型的机架级系统，它集成了高达130TB/s的第五代NVLink高速互联网络，这一硬件特性与芯片自身是同样重要的，传统用于单设备优化的软件栈，没办法发挥出其算力优势。

在实际规模化部署当中，这一缺口的成本代价是极其高昂的，GMI Cloud 在台岛建造的首座 AI 工厂运行着七千多个 GPU，具备十六兆瓦的电力容量，在这种规模情况下，架构低效会直接转变为每月七位数的成本损耗。而且，传统多种 GPU 推理或训练的网络配置，像是 NCCL 测试、Infiniband 400G 互联，存在诸多工程化瓶颈，这也进一步加大了硬件利用率的问题。

核心突破：

自动感知调度，适配 Blackwell 的软件革新

开发者采用 Blackwell 平台时，最需关注的核心技术是自动感知调度，它也是解决软硬件适配缺口的关键，这一调度技术是针对 Blackwell 平台的机架级特性打造的，相比传统的 K8s、Slurm 等调度方式，实现了三大核心突破，还为开发者带来 DevOps 层面的零运维负担。

· 即时弹性扩缩容，远超传统调度效率：

传统调度方式要实现算力扩缩容，得完成镜像缓存、存储挂载等操作，这耗时从数十秒到数分钟不等，然而基于NVL72系统的自动感知调度，借助正确的系统设置，能够实现量级上的扩缩容速度提升，使得算力资源随着业务流量进行实时调度，从而真正达成Serverless无预留部署。

· 机架级部署实现稳定低延迟：

传统分布式推理系统，要设置入口，在负载均衡器级别去完成流量与会话路由，其延迟较高，然而 Blackwell 平台，所有计算与通信，都在单个机架内完成，这样就消除了跨节点的通信延迟，从而为用户端产品，提供起稳定的低延迟体验。

提高单位经济方面的效率，达成四倍以及比四倍更多的 Token 吞吐量。

Blackwell平台的盈利单位经济模型达成了大幅优化，借助对平台的精确量化调优，推理任务的Token吞吐量能够实现4倍及以上的提升，这种性能提升在各类基准测试平台里都能够清晰验证，并且Blackwell平台的吞吐量明显优于Hopper架构。

· DevOps 层面零运维负担：

GMI Cloud完成了自动感知调度的全栈式优化，全流程技术支撑由其提供，开发者不用投入时间精力去做基础设施管理、软件栈调优，不用关注暖池维护、集群监控这类DevOps相关工作，只需专心搞模型研发。

然而在实际进行规模化部署期间，这一缺口所带来的成本代价极端高昂，GMI Cloud于台岛建造的首座AI Factory已然运行着数量超过7,000个的GPU，具备16兆瓦的电力容量，在这样的规模状况下，架构的低效会径直转变为每月高达七位数的成本损耗，与此同时，传统的多GPU推理以及训练的网络配置，像是NCCL测试、Infiniband 400G互联，存在着大量的工程化瓶颈，这也更进一步地放大了硬件利用率方面的问题。

技术基石：

Blackwell GB200 的，具备 NVL72 相关特性的，机架级别的，硬件方面所拥有的能力。

NVL72系统，作为Blackwell平台的核心硬件载体，在本次演讲中被重点提及，Yujing结合实际基准测试结果，介绍了该系统相较于传统独立服务器的核心优势，此优势也是其能支撑感知互联调度落地的硬件基础。

· 超高密度

72 张 Blackwell GPU 进行单域部署，打造出单一 NVLink 域，达成大规模模型并行计算，配以直液冷散热技术保障硬件可稳定运行。

· 高可靠带宽

单独的 GPU 给出了 1.8TB 每秒可靠的基线吞吐量，这不是理论上的峰值，依据这样的一种能力，单个 NVL72 的机架级系统的吞吐量能够突破 200 万 Tokens 每秒，达成推理算力的规模化释放。

· 硬件级算力优化

它搭载了专门为推理而设计的 64KB 张量内存，也就是 TMEM，还配备了第五代 Tensor Core，以及张量内存加速器，也就是 TMA，通过这些配置，达成了计算与内存的高效协同。

Yujing 也曾指出，相比较往昔传统形态之下的独自 GPU 服务器而言，NVL72 系统于多 GPU 协同进行推理应用的景象当中效能提升特别明显，更能够完全根除传统方式分布部署里的跨越节点的网络方面的瓶颈限制，在模型跟算力需求处于那种“能够放置于单个服务器支架”的合理范畴之时，NVL72 系统能够同时达成经济收益与算力效能的最大化，这也是当前 Blackwell 平台得以实现的最佳景象。于本次 GTC 大会现场，专门设置，关乎 NVL72 系统的，有关机架之演示，经相关布线后续之硬件架构，直观呈现 Blackwell 平台的，关于机架级别的特性，从而给开发者，予以更具形象之技术认知。

GMI Cloud MaaS 平台：

一站式 AI 推理的未来

凭借自动高速互联感知调度技术，以及 NVL72 系统的专属硬件支撑，GMI Cloud 正式推出 GMI Cloud MaaS 平台（访问地址：maas.gmicloud.ai），旨在让全球 AI 开发者真正落地 Blackwell 架构的推理能力，实现了 DevOps 层面零运维负担的 Blackwell 算力服务，其核心能力涵盖四大维度。

· 单 API 对接全模型，消除厂商碎片化

对接全球主流的闭源大语言模型，对接全球主流的开源大语言模型，对接图像等多模态模型，对接视频多模态模型，对接音频多模态模型，通过仅需要对接一个AP，而不是对接多个厂商，来实现消除多合同复杂度，大幅将模型接入的研发成本降低。

· 自带模型部署，适配定制化需求

允许开发者于 Blackwell 基础设施里布置自有定制模型，达成全模态覆盖，并且给予完备的部署、版本管理以及 SLA 保障、适配开发者持续迭代的业务负载需求，使得定制化模型也能够享有 Blackwell 的算力优势。

· 低于市场的定价，由设计实现成本优化

凭借推理引擎的高利用率方面的优化，也就是自动感知调度、KV缓存复用，等等，GMI Cloud把硬件效率的提升直接转变为定价优势，达成低于市场水准的推理服务定价，从而让开发者享受到规模化算力带来的成本红利。

· 零基础设施负担，全托管式服务

GMI Cloud 针对所有模型端点的运行以及维护，实施全流程托管，开发者不用去管理 GPU 暖池呀，也不用管理服务器集群以及网络配置这类基础设施，仅仅只需专心致力于 AI 产品的打造就行，而整个技术栈的稳定运行是由 GMI Cloud 来负责的。

生态愿景：

不止于基础设施提供商，更要做 AI 开发者的创新伙伴

在演讲临近结束之际，Yujing 分享了 GMI Cloud 的长远生态愿景，作为全球七大 Reference Platform NVIDIA Cloud Partner 当中的一员，其已完成 Blackwell 平台的全栈式适配，会持续为开发者供给 GPU 算力、模型托管、技术优化方面的全流程服务，正逐渐成为开发者用以解锁新一代算力平台的关键桥梁，推动 AI 推理技术朝着更高性能、更低成本、更易于落地的方向迈进。

关于 GMI Cloud

GMI Cloud 是一家顶尖的 AI Native Cloud 服务商，它由 Google X 的 AI 专家和硅谷精英一同参与开创，是全球七大 Reference Platform NVIDIA Cloud Partner 当中的一员，其数据中心分布于世界各地，能为企业 AI 应用给予最新且最优的 GPU 云服务，还可为全球新创公司、研究机构以及大型企业提供稳定可靠、高效经济的 AI 云服务解决方案。

GMI Cloud依靠技术架构具备的高稳定性，凭借强大的GPU供应链，以及一批令人瞩目的GPU产品阵容（其中包括能够使AI成本和效率实现精准平衡的H200，拥有卓越性能的GB200、GB300，还有未来所有全新出现并上线的高性能芯片），使得企业客户在高度确保有数据安全以及具备计算效能的状况下，高效且低成本地在本地完成AI得到落地。另外，借助自行研发的“Cluster Engine”与“Inference Engine”这两个平台，实现了从将算力以原子化形式进行供给，到业务层级的智能计算服务的全栈式跨越，倾尽全力去搭建下一代的智能算力基础。

身为推动通用人工智能也就是AGI后续发展发挥重要作用的力量，GMI Cloud始终在AI基础设施范畴引领创新，去选择GMI Cloud，您所选择的不单单是先进的GPU云服务，更是选定了一个具备全方位特性的AI基础设施合作伙伴。