实验室3篇论文被AAAI 2026接收

IRIP实验室今年共有3篇论文被人工智能学术会议AAAI 2026接收。AAAI(AAAI Conference on Artificial Intelligence)由人工智能促进会主办,是人工智能领域的顶级国际学术会议之一。本届AAAI会议收到了23,680篇有效投稿,最终仅录用了 4,167篇论文,录用率为 17.6%接收论文简要介绍如下:

1. RMAdapter: Reconstruction-based Multi-Modal Adapter for Vision-Language Models. (Xiang lin, Li Weixin, Shu Guo, Lihong Wang and Di Huang)

预训练的视觉语言模型(Vision-Language Models, VLMs),如 CLIP,已成为多模态迁移学习中的关键工具。然而,在少样本场景下微调 VLMs 面临着在任务特定适应性与模型泛化能力之间取得平衡的重大挑战。同时,当前研究主要集中于基于提示(prompt-based)的适应方法,而基于适配器(adapter-based)的方法仍然研究不足,且存在显著的性能差距。为应对上述问题,我们提出了一种新颖的基于重建的多模态适配器(Reconstruction-based Multimodal Adapter, RMAdapter),其采用双分支架构。不同于传统的单分支适配器,RMAdapter 包含两个核心分支:(1) 适应分支:通过参数高效的微调方式注入任务特定知识;(2) 重建分支:通过将潜在空间特征重建回原始特征空间以保持通用知识。这种设计促进了通用知识与任务特定知识之间的动态平衡。值得注意的是,虽然 RMAdapter 引入了额外的重建分支,但其经过精心设计以保持轻量化。通过在每一层局部计算重建损失并共享投影模块,整体计算开销被有效控制在较低水平。此外,模型中引入了一种一致性约束,以更好地调节判别性与泛化性之间的权衡。我们在三个具有代表性的任务上全面评估了 RMAdapter 的有效性:新类别的泛化、新目标数据集的泛化以及领域泛化。实验结果表明,在不依赖数据增强或提示设计冗余的情况下,RMAdapter 在所有评估指标上均持续超越当前最先进的方法。

2. SceneGenesis: 3D Scene Synthesis via Semantic Structural Priors and Mesh-Guided Video-Geometry Fusion. (Yueming Zhao, Hongyu Yang and Di Huang)

高质量、可控且结构一致的三维场景生成是一项基础而具有挑战性的任务,尤其是在复杂的多物体环境中。我们提出了一个统一的三维场景合成框架——SceneGenesis,该框架系统性地将语义结构先验与基于网格引导的视频-几何融合相结合。整个过程首先由语义结构初始化模块开始,该模块利用大型语言模型将文本场景提示转化为具备类别感知的物体描述。随后,通过将大尺度物体的过程化近似与经过预训练的精细网格生成器相结合,这些描述被转换为结构化网格,从而实现精确的布局控制与场景可扩展性。为了生成丰富且可控风格的外观,我们从初始化场景中渲染深度图与语义图,并以此为条件,利用预训练的视频扩散模型生成具备几何感知的多视角视频序列;其中,一种基于一致性引导的潜空间融合策略进一步增强了长序列中的时间一致性。更为关键的是,我们引入了基于网格引导的视频-几何融合模块,通过将网格先验与视频输出对齐来重建连贯的三维高斯场景。该模块结合了基于网格的片段初始化、渐进式几何细化以及结构感知优化,从而显著提升了整体几何保真度与视觉真实感。大量实验结果表明,SceneGenesis不仅能够实现灵活的风格变化与物体级编辑,同时在可控性、可扩展性以及三维结构质量方面均表现出卓越性能,为三维场景合成提供了一种高效而通用的解决方案。

3. MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning. (Yutong Zhang, Zimeng Wu, Shengcai Liao, Shujiang Wu and Jiaxin Chen)

参数高效迁移学习(Parameter-efficient Transfer LearningPETL)已成为将预训练基础模型适配至下游任务的关键范式,其能够显著减少可训练参数量,但在微调过程中由于梯度反向传播而导致显著的内存开销。尽管内存高效迁移学习(Memory-efficient Transfer LearningMETL)通过轻量化的辅助侧网络跳过主干梯度计算,从而规避了这一问题,但其严格的内存限制严重限制了侧网络的学习能力,进而显著影响性能。为解决上述限制,我们提出了一种新颖的混合精度交互式侧向专家混合框架(Mixed-Precision Interactive Side Mixture-of-ExpertsMP-ISMoE)。具体而言,我们首先提出一种**高斯噪声扰动迭代量化(Gaussian Noise Perturbed Iterative QuantizationGNP-IQ)方案,用于将权重量化至低比特表示的同时有效降低量化误差。利用 GNP-IQ 节省的内存资源,我们进一步引入交互式侧向专家混合(Interactive Side Mixture-of-ExpertsISMoE**机制,在不牺牲整体内存效率的前提下扩展侧网络的规模。与传统的专家混合模型不同,ISMoE 通过与冻结主干网络的显著特征交互学习最优专家选择,从而抑制知识遗忘并提升模型性能。大量在多种视觉-语言与纯语言任务上的实验表明,MP-ISMoE 在保持可比参数与内存效率的同时,相较于现有最先进的 METL 方法在准确率方面实现了显著提升。