摘要:
对单步SD的超分模型存在的易出现幻觉问题,我们提出了信而有证参考超分新范式,此范式基于单步扩散模型构建,先借由注意力机制引入参考信息,接着经隐式相关性建模予以过滤与验证,与之对应的论文已被ICLR2026接收!
此项工作,是由vivo BlueImage Lab,以及南开大学,一同给完成的。
项目主页:
这是一个网址链接,它是,https,冒号斜线斜线,github点com,斜杠,vivoCameraResearch,斜杠,AdaRefSRearch,斜杠,AdaRefSR。
一、研究背景:解决扩散模型的“幻觉”困境
单图超分里依托扩散模型的那种情况,即使能创作出极其令人惊叹的细节,然而它从本质上来说是个病态问题。当没有外部约束条件的时候,模型很容易就产生幻觉,那就是伪造出并非真实存在的纹理。参考超分尝试借助引入参考图来修正这方面情况。可是在实际的场景当中,低质图的退化一般是不清楚的,而且程度严重,由此造成低质图与参考图匹配的难度极大。
我们把 Ada - RefSR 方法给提出来了,目的是去解决上面提到的那些问题。下面是 Ada - RefSR 跟当前占据主流地位方法相比较所呈现出来的效果:
二、技术逻辑:一步式生成的背后
我们给出了“Trust but Verify”(信而有证)模式,先是借由注意力机制纳入参考信息(Trust),跟着凭借隐式相关性建模实施过滤以及验证(Verify)。
2.1 结构概览
以下是我们的方法结构图:
Ada - RefSR 是依据单步扩散模型(Single - step Diffusion)搭建而成的,其核心是由两个关键路径组合而成的:
2.2 核心突破:自适应隐式相关门控 (AICG)
为达成“Trust but Verify”这种范式,我们进行了 AICG 模块的设计。该模块的核心逻辑是,借助隐式建模样式,算出 LQ 输入和参考图彼此间的“信任分”,进而对细节注入的强度予以动态调节。
开始的初步步奏:对参考特征予以提炼,处于一种名为Feature Summarization状态。
有别于直接运用海量的参考特征 Token,这存在计算量大以及含有噪声的情况,我们引进了一组能够学习的总结 Token,也就是 T_S_。借助交叉注意力机制,把参考图里的关键纹理以及高频信息,压缩到数量极少的 _M_ 个核心 Token 当中。
第二步,进行计算,计算的内容是隐式相关度,而隐式相关度用英文表示为 (Implicit Correlation)。
我们把 LQ 图像的查询特征,也就是 Query,拿来和压缩后的参考特征做匹配,进而生成一张相关性图,即 Correlation Map。
第三步:动态门控调节 (Adaptive Gating)
实现鲁棒性的关键在于此。我们对相关性图,在 Token 维度方面取平均,之后借助 Sigmoid 函数,将其映射成 0 到 1 之间的自适应权重 G。
技术优势:
三、性能表现:全面领先 SOTA
经过验证,Ada-RefSR 的实力在四个主流 Benchmark 上得以体现,其具体结果呈现于如下图形之中,如下所示:
| 数据集 | 指标 | 性能表现 |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最佳,视觉自然度显著优于 ReFIR |
| 人脸场景 (Face) | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird) | 结构稳定性 | 在保持语义一致性方面优势明显 |
关键结论:
四、落地优势:专为移动影像设计
Ada - RefSR 的设计初衷并非仅仅是针对学术性能,而是更多地考量了端侧设备,而这里所说的端侧设备具体指的是手机的部署需求:
五、总结
Ada - RefSR 借助 “Trust but Verify” 这个既简洁又深刻的原则,运用隐式相关性建模,解决了 RefSR 在真实世界退化状况下的棘手问题,它在学术研究方面提供了全新别样的自适应视角,还为高性能、低功耗的影像修复实现落地明确了方向。
引用:
曹,杰章,等人。“基于形变注意力变换器的参考图像超分辨率。”《欧洲计算机视觉会议》,2022年。 的句子改写为:曹,杰章等诸位提出了“基于形变注意力变换器的参考图像超分辨率”,该成果于2022年发表在了《欧洲计算机视觉会议》上。
vivo BlueImage Lab
致力于移动影像算法创新的蓝图影像创新实验室,其职责范畴涵盖图像/视频处理,与图像/视频交互,以及图像/视频增强,且包括多模态理解大模型等方面的技术前沿探索。
执着于持续提高 vivo 移动影像的算法能力,借此让用户得以拍摄出愈发清晰且美观的照片以及视频。另外全力探索增强现实、具身智能这类新兴技术领域的应用,谋求为用户塑造更为丰富且便捷的影像体验。
欢欢喜喜地持续留意着vivo影像技术,去取得前沿技术创新方面的经验分享还有热招岗位的信息。