引言:生成式 AI 时代的推理加速挑战
现今,处于人工智能迅猛发展的时代里,图像以及视频生成技术已然从科研前沿迈向实际应用,从创意产业的广告制作、内容生成开始,到工业设计的可视化当中,再到医学影像辅助诊断以及虚拟内容制作领域,扩散模型,也就是Diffusion Model,正在为各个行业创造出前所未有的价值。
然而,这种应用广泛化,带来新挑战:模型规模持续不断增大,推理时间跟着增加,用户对生成速度的期待与硬件性能矛盾,凸显速度矛盾。同时,复杂推理优化配置,给普通用户设较高技术门槛,制约强大技术普及。
在AI生成这个领域当中,推理性能要是得到提升,这就直接决定了用户体验的质量如何。FunArt它是阿里云函数计算所提供的一键托管ComfyUI应用平台,它致力于给用户提供那种开箱即用的先进DiT推理引擎能力,并且持续提升图像或者视频生成性能。在此之前,FunArt已经相继集成了Nunchaku和DeepGPU这两款DiT推理引擎,使得用户不用进行繁琐配置就能享受到加速推理带来的红利。
当下,FunArt再度集成全新引擎,此引擎名为VisionPlaid。VisionPlaid是由阿里云基础软件团队所推出的,一款专门针对视觉扩散模型(Diffusion Model)而设计的高性能推理加速框架。它深度整合前沿技术,能提供对ComfyUI的原生支持。它给多款模型提供极致的推理体验。
技术演进:从 Nunchaku 到 VisionPlaid
某种名为FunArt的事物,它在推理加速这个领域所经历的演进过程,体现出了一个关键的理念,即单独的一种加速方案,没办法去满足全部场景的需求,唯有持续不断地去集成最新的技术,才能够给用户提供真正意义上的极致体验。
FunArt 的优势
有一种名为 FunArt 的平台,此平台是由阿里云函数计算所提供的,它是能实现一键托管 ComfyUI 的应用平台,该平台具备从项目开发一直到 API 调用的全生命周期管理能力。
提供从项目开发直至 API 调用的全生命周期管理,实现一键部署、开箱即用,具备国内网络加速的功能,能够减少等待时间,灵活且开放资源独享,可安全无忧,拥有 Serverless 算力,能弹性扩展,按需付费,有企业级可靠性保障,VisionPlaid 技术概览为:推理加速的新方向。
VisionPlaid 的呈现,意味着推理加速技术获得了一项关键的突破。相较于传统的加速办法而言,VisionPlaid 选取了全然崭新的技术路径,它不但确保了和现有的生态(ComfyUI)达成无缝的兼容情形,还凭借创新的算法以及架构达成了明显的性能提高。这样一种“兼容性与性能同时并重”的设计理念,恰恰就是 VisionPlaid 能够迅速被 FunArt 接受的缘故嘛。
优点如下,其一,ComfyUI并行化加速处于行业领先地位(SP),其二,原生ComfyUI兼容性达到极致,其三,具备智能内存管理以及异步Offload,其四,架构易用性呈现极简状态,此为VisionPlaid核心特性。
VisionPlaid借助软硬件协同进行优化,于维持模型精度之际,突破推理性能方面的瓶颈。
存在着并行,有着通信精度,还有量化架构,以及算子,针对VisionPlaid作出的横向评测,也就是Benchmarks。
在跟当下业界处于领先地位的 SOTA 项目作横向比较时,VisionPlaid 在 Transformer 单步所耗费的时间方面,以及在端到端延迟方面,都呈现出了极为明显的优势。
视频生成
不仅 VisionPlaid 的性能优势体现在原始数字方面,更关键的是这些性能提升对实际应用所产生的实际影响。在视频生成领域之中,跟 Diffusers 相比较,单卡加速达 1.6 倍表明,生成一段视频的时候也由原本的 499 秒下降至 308 秒,等待时间减少了 191 秒,这对于那些需要快速进行迭代的创意工作者来讲,是巨大的生产力提升。在双卡配置的情形之下,2.5倍的那种加速,把时间进一步压缩到了200秒,使得原本要8分钟的任务,降到了3分钟,这在生产环境当中,能够显著提升吞吐量。
测试环境:
Wan 2.1 T2V 14B,使用 4090,历经 20 个步骤,生成 81 帧,分辨率为 480P(480x848),采用 SageAttention,数据格式为 BF16。
注意事项如下,xDiT是尚未接入SageAttention的,所以Speedup信息是被省略掉的;在2卡的情况下,似乎是cpu offload和parallel发生了冲突,进而导致了OOM。
图片生成(bf16/fp8)
在图片生成这个领域之中,VisionPlaid展现出了针对不同精度配置的那种优异适应能力,即便处于fp8低精度的状况下,它依旧能够保持1.10倍的性能优势,这表明VisionPlaid的优化并非仅仅局限于高精度场景,对于成本敏感型的应用而言同样是有效的。在极端的4-step超快速生成配置情形下,VisionPlaid能够在3.51秒的时间内完成一张1024x1024图像的生成,如此一来便使得实时或者近实时的交互式生成变得成为了可能。
测试环境:
如Qwen - Image - 2512这般,在4090的条件下,不论是20步或者4步,呈现出1024x1024的规格大小,具备一定是SageAttention属性的情况。
注意了,在4-step配置当中,运用了CFG等于1.0的推荐配置,xDiT以及SGLD并未支持fp8。
图片生成(int4/4steps+int4)
最值得被留意关注的,是int4超低精度配置情形下的性能展现情况。VisionPlaid加上SageAttention在单独一张卡的时候达成了2.0倍的加速效果,在两张卡的时候甚至能够达到2.7倍,这表明用户能够在消费级显卡上面达成图片以及视频的实时或者准实时生成结果,与此同时显著地削减推理花费费用。这对于那些没有高端GPU资源的开发者以及企业来讲,具备重要的实际用途意义,让其能够凭借更低的投入成本去开展部署以及运营AI生成应用。
测试环境:
以ComfyUI默认启动参数运行,涉及Qwen-Image-Edit-2509,4090,运行步骤为20步或者4步,运行画面尺寸为1440x1920。
请注意,在4 - step配置之内,运用了CFG等于1.0的那种推荐配置情况;Speedup这个指标呢,其分别是拿Nunchaku的两个结果当作基准来考量的,具体而言就是,int4是以int4当作基准,4steps + int4是以4steps + int4当作基准;另外,VisionPlaid所具备的一个优势在于,它默认能够在不重启的状态下切换SageAttention,此种状态适合于一些处于长期运行且workload并不固定的ComfyUI服务(像是阿里云FC服务那样),而当前这个配置正是利用了VisionPlaid的这一特性。
在 FunArt 中使用 VisionPlaid
将 FunArt 做了深度集成,针对的对象是 VisionPlaid ,具体涵盖的方面有:
使用者能够以那种开箱之后马上就能用的方式来运用VisionPlaid,当下情形是正处在邀请测试的阶段,所以要加入客户钉群,群号是32245557,并且去添加VisionPlaid的白名单。
创建FunArt项目登录 FunArt 控制台(https://functionai.console.aliyun.com/funart/cn-hangzhou/explore ),在右上角切换您希望的地域;
转换至项目tab,挑选出创建新项目,于新开启的创建新项目页面。
FunArt进行项目创建致使运行示例工作流完成后,相应项目页面被打开,于其中选择项目开发、工作站以及Workflows,能够明晰FunArt已然内嵌了几个VisionPlaid示例工作流。
选取您打算运行的那个工作流,而后点击处于右上角位置的那个“Run”按钮,如此一来便能够开启运行推理的操作了。总结。
首先,VisionPlaid借助序列并行加速这一创新技术,其次,它凭借原生生态兼容这一创新技术,最后,它依靠智能显存管理这一创新技术,为用户带来了性能与易用性的完美结合。
无论是那种需要实时交互的应用场景,还是那种对生成质量有着高要求的长流程任务,FunArt与VisionPlaid相结合都给出了最优的解决办法。用户不用去开展复杂的配置或者做出优化,只需进行几次点击就能开启一个高性能的AI生成服务,这充分展现了FunArt的“开箱即用”。