IRIP实验室今年共有14篇论文被国际计算机视觉会议CVPR 2026接收!被接收文章包含13篇Main track 和1篇Findings。CVPR是由IEEE主办的计算机视觉及人工智能等领域最具影响力和最重要的国际顶级会议之一。此次会议有16092篇的有效大会论文投稿,共录取4090篇论文,率用率为25.42%。此次会议将于美国科罗拉多州丹佛召开。
接收论文简要介绍如下:
1. Reconstructing CLIP for Open-Vocabulary Dense Perception (Yajie Liu, Jinjin Zhang, Qingjie Liu, Di Huang)
大规模视觉-语言模型(VLMs),例如 CLIP,在零样本图像分类中表现出色,但在实现开放词汇密集感知(OVDP)所需的密集跨模态对齐方面仍然存在困难。尽管近期的自蒸馏方法通过将密集特征与具有泛化能力的全局语义进行对齐来缓解这一问题,但一个关键问题仍然存在:应当如何构建此类密集特征以实现最优对齐?为了解决这一问题,我们提出 DenseRC,一种指导性的密集感知构建框架,其基于两个关键见解对 CLIP 进行重构以适用于 OVDP。首先,通过分析全局 cls token 中编码的内部语义,我们发现多层值嵌入为密集特征提供了信息丰富的基础。其次,我们揭示空间聚合往往会放大语义失配。基于此,我们设计了一个轻量级的头选择门控(HSG)模块,根据各特征头的内在异质性对其进行自适应重加权,从而实现具有判别性且有利于对齐的密集表征构建。大量实验结果表明,DenseRC 在包括目标检测和语义分割在内的开放词汇密集感知任务上取得了一致且显著的性能提升,并在多个基准上达到了新的最先进性能。
2. Catalyst4D: High-Fidelity 3D-to-4D Scene Editing via Dynamic Propagation (Shifeng Chen, Yihui Li, Jun Liao, Hongyu yang, Di Huang)
近年来,基于 NeRF 和 3DGS 的三维场景编辑方法在高质量静态场景编辑方面取得了显著进展。然而,动态场景编辑仍然具有挑战性,因为将二维扩散模型直接扩展到四维的方法通常会产生运动伪影、时间闪烁以及风格传播不一致等问题。本文提出了 Catalyst4D,一种将高质量三维编辑迁移到动态四维高斯场景中的框架,同时保持空间与时间的一致性。其核心在于基于锚点的运动引导(Anchor-based Motion Guidance, AMG),该模块从原始和编辑后的高斯中构建一组在结构上稳定且具有空间代表性的锚点,这些锚点作为稳健的区域级参考,并通过最优传输建立对应关系,从而实现一致的形变传播,避免跨区域干扰和运动漂移。与此同时,基于颜色不确定性的外观细化(Color Uncertainty-guided Appearance Refinement, CUAR)通过估计每个高斯的颜色不确定性,有选择地对易受遮挡引起伪影影响的区域进行细化,从而保持时间上的外观一致性。大量实验表明,Catalyst4D 在动态场景编辑中实现了时间稳定且高保真的效果,并在视觉质量和运动一致性方面优于现有方法。
3. GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion (Enda Xiang, Haoxiang Ma, Xinzhu Ma, Zicheng liu, Di Huang)
本文旨在提升通过模仿学习获得的操作策略在抓取任务中的精度与泛化能力。基于扩散的策略学习方法近年来已成为机器人操作任务中的主流范式。由于抓取是操作过程中的关键子任务,模仿学习策略在执行精确且具备良好泛化能力的抓取方面的能力尤为重要。然而,现有模仿学习方法在抓取任务中通常面临抓取执行不精确、空间泛化能力有限以及物体泛化性能较差等问题。为了解决这些挑战,我们将抓取先验知识引入扩散策略框架中。具体而言,我们采用潜空间扩散策略,在动作片段解码过程中引入抓取位姿先验进行引导,从而确保生成的运动轨迹能够紧密贴合可行的抓取构型。此外,我们在扩散过程中引入自监督重建目标以嵌入抓取性先验:在每一步反向扩散过程中,通过中间表示重建由抓取性反投影得到的腕部相机图像。仿真与真实机器人实验结果表明,所提出的方法显著优于基线方法,并展现出强大的动态抓取能力。
4. CTCal: Rethinking Text-to-Image Diffusion Models via Cross-Timestep Self-Calibration (Xiefan Guo, Xinzhu Ma, Haiyu Zhang, Di Huang)
近年来,文本到图像生成领域的显著进展主要得益于基于扩散的模型,然而,实现文本提示与生成图像之间的精确对齐仍然是一个持续存在的挑战。我们发现,这一困难主要源于传统扩散损失的局限性,其仅为建模细粒度的文本-图像对应关系提供隐式监督。针对这一问题,本文提出了一种跨时间步自校准方法(Cross-Timestep Self-Calibration, CTCal),其建立在如下观察之上:在扩散模型中,随着时间步的增加,实现准确的文本-图像对齐会变得愈发困难。CTCal利用在较小时间步(噪声较少)下形成的可靠文本-图像对齐(即跨注意力图),来校准较大时间步(噪声较多)下的表示学习,从而在训练过程中提供显式监督。此外,我们进一步提出了一种时间步感知的自适应加权策略,以实现CTCal与扩散损失之间的协调融合。CTCal具有模型无关性,能够无缝集成到现有的文本到图像扩散模型中,涵盖基于扩散的方法(例如Stable Diffusion 2.1)以及基于流的方法(例如Stable Diffusion 3)。在T2I-Compbench++和GenEval基准上的大量实验结果表明,所提出的CTCal在有效性和泛化性方面均表现出显著优势。
5. CoVFT: Context-aware Visual Fine-tuning for Multimodal Large Language Models (Nan Zhou, Huiqun Wang, Yaoyan Zheng, Di Huang)
多模态大语言模型(MLLMs)在跨模态感知与推理方面取得了显著进展,然而一个根本性问题仍未得到解决:视觉编码器究竟应该进行微调还是保持冻结?尽管诸如 LLaVA 和 Qwen-VL 等模型已经取得成功,但不一致的设计选择与异构的训练设置阻碍了对视觉微调(VFT)的统一理解。通过一个配置对齐的基准,我们发现现有的VFT方法在多模态任务上并不能稳定地优于冻结基线。我们的分析表明,这种不稳定性源于视觉偏好冲突,即视觉编码器缺乏上下文感知的特性,使其在多样化的多模态上下文下产生相互分歧的参数更新。为了解决这一问题,我们提出了上下文感知视觉微调(CoVFT)框架,该方法在视觉适配过程中显式引入多模态上下文信息。通过集成上下文向量提取(CVE)模块和上下文化混合专家(CoMoE)模块,CoVFT能够分解冲突的优化信号,并实现稳定且具备上下文敏感性的视觉更新。在12个多模态基准上的大量实验表明,CoVFT在保持更高稳定性的同时实现了最先进的性能。值得注意的是,使用CoVFT对一个70亿参数规模的MLLM进行微调,其平均性能甚至超过了对应130亿参数模型的表现,这揭示了MLLM中视觉编码器优化尚未被充分挖掘的巨大潜力。
6. EgoMind: Activating Spatial Cognition through Linguistic Reasoning in MLLMs (Zhenghao Chen, Huiqun Wang, Di Huang)
多模态大语言模型(MLLMs)正越来越多地应用于空间认知任务,在这些任务中模型需要理解并与复杂环境进行交互。现有大多数工作通过引入三维先验或几何监督来增强空间推理能力,尽管能够提升性能,但也带来了显著的数据准备与对齐成本。相比之下,纯二维方法在多帧空间推理中表现受限,主要由于缺乏视角转换信息以及忽略了充当空间桥梁的隐式物体。为了解决这些问题,我们提出了EgoMind,这是一种基于思维链(Chain-of-Thought)的框架,通过角色扮演式描述(Role-Play Captioning)和渐进式空间分析(Progressive Spatial Analysis)实现无几何先验的空间推理,并在多帧之间联合构建一致的语言场景图。在仅使用5K自动生成的监督微调(SFT)样本和20K强化学习(RL)样本的情况下,EgoMind在VSI-Bench、SPAR-Bench、STI-Bench和SPBench上取得了具有竞争力的结果,验证了其在增强MLLM空间推理能力方面的有效性,并凸显了基于语言推理进行空间认知的潜力。
7. TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction (Yihui Li, Chengxin Lv, Zichen Tang, Hongyu Yang, Di Huang)
我们提出了 TokenSplat,一种用于从无位姿多视图图像中进行联合三维高斯重建与相机位姿估计的前馈式框架。其核心在于引入了一个 Token 对齐的高斯预测模块,该模块能够在特征空间中直接对齐不同视角下语义对应的信息。在粗粒度 token 位置和融合置信度的引导下,该模块聚合多尺度上下文特征,从而实现跨视角的长距离推理,并减少由重叠高斯带来的冗余。为进一步提升位姿估计的鲁棒性并将视角线索与场景语义进行解耦,TokenSplat 引入了可学习的相机 token 以及一种非对称双流解码器(ADF-Decoder),该解码器在相机 token 与图像 token 之间施加方向受限的信息交互。这种设计在前馈架构中保持了清晰的因子化结构,使得无需迭代优化即可实现一致的重建效果与稳定的位姿估计。大量实验表明,在无位姿设置下,TokenSplat 在重建保真度和新视角合成质量方面均取得了更优表现,并且相较于现有无位姿方法显著提升了位姿估计精度。
8. Reasoning-Driven Anomaly Detection and Localization with Image-Level Supervision (Yizhou Jin, Yuezhu Feng, Jinjin Zhang Peng Wang, Qingjie Liu, Yunhong Wang)
多模态大语言模型(MLLMs)近年来在异常检测任务中展现出显著的推理与感知能力。然而,大多数现有方法仍局限于图像级异常检测和文本推理,而像素级定位仍依赖外部视觉模块和密集标注。在本工作中,我们激活了MLLMs的内在推理潜力,使其在仅依赖图像级监督、无需任何辅助组件或像素级标签的情况下,同时实现异常检测、像素级定位以及可解释推理。具体而言,我们提出了推理驱动的异常定位方法(Reasoning-driven Anomaly Localization, ReAL),该方法从自回归推理过程中提取与异常相关的token,并聚合其注意力响应以生成像素级异常图。此外,我们引入了一种一致性引导的推理优化模块(Consistency-Guided Reasoning Optimization, CGRO),利用强化学习对推理token与视觉注意力进行对齐,从而获得更连贯的推理过程和更精确的异常定位。在四个公开基准上的大量实验表明,我们的方法在异常检测、定位和可解释性方面均取得了显著提升。值得注意的是,尽管仅依赖图像级监督,我们的方法在性能上已可与基于MLLM且依赖密集像素级监督训练的方法相媲美。
9. Gau-Occ: Geometry-Completed Gaussians for Multi-Modal 3D Occupancy Prediction (Chengxin Lv, Yihui Li, Hongyu Yang, Yunhong Wang)
3D语义占据预测对于自动驾驶至关重要,然而纯视觉方法由于几何线索较弱而性能受限,现有多模态框架通常依赖稠密体素或BEV张量,带来较高的计算开销。本文提出Gau-Occ,一种多模态框架,将场景建模为一组紧凑的语义3D高斯,从而在无需稠密体表示的情况下实现几何引导的跨模态融合。为增强几何完整性,我们引入了LiDAR补全扩散器(LiDAR Completion Diffuser, LCD),该模块基于真实世界先验进行训练,用于从稀疏LiDAR中恢复缺失结构,并将补全后的点编码为语义高斯锚点。进一步地,为融合多视角图像语义信息,我们提出高斯锚点融合(Gaussian Anchor Fusion, GAF)模块,这是一种几何对齐的聚合机制,通过锚点引导的二维采样、局部邻域编码以及跨模态对齐,实现多源信息的有效整合。通过构建能够同时捕捉空间一致性与语义判别性的局部聚合高斯描述子,GAF促进了不同模态之间的精确特征关联。在锚点驱动的高斯属性细化过程中,Occ-GS能够支持精细的3D占据预测。在多个具有挑战性的基准数据集上的大量实验表明,Occ-GS达到了当前最先进的性能水平。
10. Collaborative Multi-Mode Pruning for Vision-Language Models (Zimeng Wu, Yunhong Wang, Donghao Wang, Jiaxin Chen)
视觉-语言模型(Vision-Language Models, VLMs)在统一的 Transformer 架构下取得了快速发展,然而由于其较高的计算复杂度,在资源受限设备上的部署仍然面临挑战。尽管剪枝已被证明是压缩 VLMs 的一种有效技术,但现有方法大多仅关注单一模态,通过对参数或 token 之一进行剪枝,未能充分挖掘各模态中固有的冗余性,从而在高剪枝率下导致显著的性能下降。为了解决上述问题,我们提出了一种面向 VLMs 的新型框架——协同多模态剪枝(Collaborative Multi-Mode Pruning, CoMP),通过联合执行参数剪枝和 token 剪枝来实现模型压缩。具体而言,我们首先设计了协同重要性度量(Collaborative Importance Metric, CIM),用于分析耦合的参数与 token 之间的相互干扰关系,该方法在计算参数重要性评分时引入 token 的差异性重要性,同时减弱被剪枝参数对 token 重要性评估的影响。此外,我们提出了一种多模态剪枝策略(Multi-Mode Pruning Strategy, MPS),将整体剪枝过程分解为一系列阶段,并在每一阶段基于不同剪枝模式的剪枝代价估计其优先级,从而自适应地切换至最优模式。同时,MPS 融合了历史代价信息与随机探索机制,以实现更加稳定的剪枝过程并避免陷入局部最优。大量在多种视觉-语言任务和模型上的实验结果表明,与当前最先进的方法相比,我们的方法在高剪枝率下能够有效提升模型性能。代码将在论文接收后公开。
11. Memory-Efficient Transfer Learning with Fading Side Networks via Masked Dual Path Distillation (Yutong Zhang, Jiaxin Chen, Honglin Chen, Kaiqi Zheng, Shengcai Liao, Hanwen Zhong, Weixin Li, Yunhong Wang)
近年来,内存高效迁移学习(Memory-efficient transfer learning, METL)方法在将预训练模型适配到下游任务方面取得了显著进展。这类方法通过避免在大型骨干网络中进行梯度反向传播,从而显著减少了可训练参数数量以及微调过程中的高内存开销。然而,由于通常引入轻量且可学习的侧网络,这些方法在推理阶段不可避免地带来了额外的内存与时间开销,这与高效迁移学习的最终目标相矛盾。为了解决上述问题,我们提出了一种名为 Masked Dual Path Distillation(MDPD)的新方法,在采用渐隐侧网络进行微调的同时,实现加速推理并保持参数与内存效率。具体而言,MDPD 构建了一个框架,在微调过程中通过冻结的骨干网络与可学习的侧网络之间的双向蒸馏来提升性能,并在推理阶段丢弃侧网络而不损失精度。此外,我们还针对具有多层结构的编码器设计了一种新的基于特征的知识蒸馏方法。在多个视觉/语言单模态及视觉-语言多模态任务以及不同骨干网络上的大量实验表明,该方法在保持参数规模与内存消耗相当的前提下,推理速度至少提升25.2%,同时在精度上显著优于当前最先进方法。代码将在论文接收后公开。
12. Parameter-Efficient Adaptation for MLLMs via Implicit Modality Decomposition (Mingfang Zhang, Yunhong Wang, Lu Wang, Jiaxin Chen)
参数高效微调(Parameter-efficient fine-tuning, PEFT)已成为将大语言模型(LLMs)适配为多模态大语言模型(MLLMs)的一种极具吸引力的方法,使其能够以显著更低的内存与计算成本处理多种模态。然而,现有大多数PEFT方法忽视了模态不平衡学习问题,即在参数更新过程中,文本模态占据过度主导地位,从而导致非文本模态学习不足,并引发性能下降。为了解决这一问题,我们提出了一种基于LoRA的全新MLLM参数高效适配方法——隐式模态分解(Implicit Modality Decomposition, IMoD)。该方法首先将可学习参数分解为互不重叠的文本特定、非文本特定以及模态共享三类组件,从而缓解模态不平衡问题。进一步地,为引导这些组件朝各自特定模态进行优化,我们设计了模态特定解耦约束(Modality-Specific Decoupling Constraint),用于抑制模态特定参数之间的跨模态干扰,以及模态无关对齐约束(Modality-Agnostic Alignment Constraint),以促进模态共享组件学习对齐良好且模态不变的语义表示。在多种多模态任务设置与不同LLM架构上的大量实验表明,该方法能够持续带来显著的性能提升,尤其是在音频-视觉-文本任务上实现了平均3.3%的性能提升,同时不牺牲参数效率与推理效率。
13. Visual Prototype Conditioned Focal Region Generation for UAV-Based Object Detection (Wenhao Li, Zimeng Wu, Yu Wu, Zehua Fu, Jiaxin Chen,)
无人机(UAV)场景下的目标检测是一项关键但具有挑战性的任务,尤其是在动态变化环境以及标注训练数据有限的情况下。基于布局到图像生成的方法通过利用扩散模型合成带标注的图像,已被证明能够有效提升检测精度。然而,这类方法常常在布局中小目标的边界附近产生伪影,从而显著限制其性能。为了解决这些问题,我们提出了UAVGen,一种面向无人机场景目标检测的全新布局到图像生成框架。具体而言,UAVGen设计了一种视觉原型条件扩散模型(Visual Prototype Conditioned Diffusion Model, VPC-DM),为每一类别构建具有代表性的实例,并将其融合到潜在嵌入中以实现高保真的目标生成。此外,我们提出了一种焦点区域增强数据流水线(Focal Region-Enhanced Data Pipeline, FRE-DP),在生成过程中强化目标集中的前景区域,并结合标签精炼策略以纠正生成中的缺失、多余和错位问题。大量实验结果表明,我们的方法显著优于现有最先进方法,并且在与不同检测器结合时均能持续提升检测精度。
14. SAGA: Semantic Anchor-Guided Alignment for Multi-Source Domain Adaptive Object Detection (Yongchao Feng, Ziyue Huang, Jinqing Zhang, Wenrui Cai, Qingjie Liu) (Findings)
多源域自适应目标检测(MSDAOD)在对齐异构域分布并同时保持语义判别性方面面临挑战,而域内与域间的类别不平衡进一步加剧了这一问题。现有基于判别器的方法通常执行类别无关的对齐,容易引发语义混淆,使少数类与相似的多数类发生错误对齐。尽管已有工作提出基于原型的类别级对齐,但类原型的更新容易受到噪声伪标签的干扰,难以充分表征完整的类别分布,尤其是对于少数类。在本文中,我们提出一种新的语义锚引导对齐(SAGA)框架,通过将检测器特征与从视觉基础模型(VFM)中提取的类别特定实例特征进行对齐,学习跨域统一表示。具体而言,我们首先提取图像候选区域,并获取其对应的VFM特征作为语义锚;随后引入双向融合层(BFL),以增强检测器特征与这些语义锚之间的交互,使检测器能够捕捉跨域不变的核心语义。此外,我们设计了多域锚引导对齐(MDAA)模块,利用语义标签作为信号,实现语义锚与检测器特征之间的类别级对齐。大量实验表明,我们的方法在多个基准数据集上持续取得了最先进的性能,并为未来研究提供了坚实基础。