ICLR2026 | Ada-RefSR: 自适应隐式相关建模，开启“信而有证”的参考超分新范式

2026-03-20 4 纸飞机账号购买

摘要：

对单步SD的超分模型存在的易出现幻觉问题，我们提出了信而有证参考超分新范式，此范式基于单步扩散模型构建，先借由注意力机制引入参考信息，接着经隐式相关性建模予以过滤与验证，与之对应的论文已被ICLR2026接收！

此项工作，是由vivo BlueImage Lab，以及南开大学，一同给完成的。

项目主页：

这是一个网址链接，它是，https，冒号斜线斜线，github点com，斜杠，vivoCameraResearch，斜杠，AdaRefSRearch，斜杠，AdaRefSR。

一、研究背景：解决扩散模型的“幻觉”困境

单图超分里依托扩散模型的那种情况，即使能创作出极其令人惊叹的细节，然而它从本质上来说是个病态问题。当没有外部约束条件的时候，模型很容易就产生幻觉，那就是伪造出并非真实存在的纹理。参考超分尝试借助引入参考图来修正这方面情况。可是在实际的场景当中，低质图的退化一般是不清楚的，而且程度严重，由此造成低质图与参考图匹配的难度极大。

我们把 Ada - RefSR 方法给提出来了，目的是去解决上面提到的那些问题。下面是 Ada - RefSR 跟当前占据主流地位方法相比较所呈现出来的效果：

二、技术逻辑：一步式生成的背后

我们给出了“Trust but Verify”（信而有证）模式，先是借由注意力机制纳入参考信息（Trust），跟着凭借隐式相关性建模实施过滤以及验证（Verify）。

2.1 结构概览

以下是我们的方法结构图：

Ada - RefSR 是依据单步扩散模型（Single - step Diffusion）搭建而成的，其核心是由两个关键路径组合而成的：

2.2 核心突破：自适应隐式相关门控 (AICG)

为达成“Trust but Verify”这种范式，我们进行了 AICG 模块的设计。该模块的核心逻辑是，借助隐式建模样式，算出 LQ 输入和参考图彼此间的“信任分”，进而对细节注入的强度予以动态调节。

开始的初步步奏：对参考特征予以提炼，处于一种名为Feature Summarization状态。

有别于直接运用海量的参考特征 Token，这存在计算量大以及含有噪声的情况，我们引进了一组能够学习的总结 Token，也就是 T_S_。借助交叉注意力机制，把参考图里的关键纹理以及高频信息，压缩到数量极少的 _M_ 个核心 Token 当中。

第二步，进行计算，计算的内容是隐式相关度，而隐式相关度用英文表示为 (Implicit Correlation)。

我们把 LQ 图像的查询特征，也就是 Query，拿来和压缩后的参考特征做匹配，进而生成一张相关性图，即 Correlation Map。

第三步：动态门控调节 (Adaptive Gating)

实现鲁棒性的关键在于此。我们对相关性图，在 Token 维度方面取平均，之后借助 Sigmoid 函数，将其映射成 0 到 1 之间的自适应权重 G。

技术优势：

三、性能表现：全面领先 SOTA

经过验证，Ada-RefSR 的实力在四个主流 Benchmark 上得以体现，其具体结果呈现于如下图形之中，如下所示：

| 数据集                  | 指标          | 性能表现                               |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最佳，视觉自然度显著优于 ReFIR               |
| 人脸场景 (Face)         | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird)         | 结构稳定性   | 在保持语义一致性方面优势明显                     |

关键结论：

四、落地优势：专为移动影像设计

Ada - RefSR 的设计初衷并非仅仅是针对学术性能，而是更多地考量了端侧设备，而这里所说的端侧设备具体指的是手机的部署需求：

五、总结

Ada - RefSR 借助 “Trust but Verify” 这个既简洁又深刻的原则，运用隐式相关性建模，解决了 RefSR 在真实世界退化状况下的棘手问题，它在学术研究方面提供了全新别样的自适应视角，还为高性能、低功耗的影像修复实现落地明确了方向。

引用：

曹，杰章，等人。“基于形变注意力变换器的参考图像超分辨率。”《欧洲计算机视觉会议》，2022年。的句子改写为：曹，杰章等诸位提出了“基于形变注意力变换器的参考图像超分辨率”，该成果于2022年发表在了《欧洲计算机视觉会议》上。

vivo BlueImage Lab

致力于移动影像算法创新的蓝图影像创新实验室，其职责范畴涵盖图像/视频处理，与图像/视频交互，以及图像/视频增强，且包括多模态理解大模型等方面的技术前沿探索。

执着于持续提高 vivo 移动影像的算法能力，借此让用户得以拍摄出愈发清晰且美观的照片以及视频。另外全力探索增强现实、具身智能这类新兴技术领域的应用，谋求为用户塑造更为丰富且便捷的影像体验。

欢欢喜喜地持续留意着vivo影像技术，去取得前沿技术创新方面的经验分享还有热招岗位的信息。