Highlights & News

Highlights & News

发表日期: 2025年3月17日

中国科学院香港创新研究院人工智能与机器人创新中心 (CAIR) 团队论文被国际计算机视觉与模式识别会议 (IEEE Conference on Computer Vision and Pattern Recognition, CVPR) 接收! 

论文题目:

Bayesian Test-Time Adaptation for Vision-Language Models

论文作者:

周李华,叶茂,李帅锋,李念欣,朱霞天,邓磊,刘宏斌,雷震

论文链接:

http://arxiv.org/abs/2503.09248


背景:


预训练视觉-语言模型(如 CLIP)通过在大规模图文对数据上的训练,展现了强大的多模态表征能力,在图像分类等任务中表现出很好的性能。然而,在实际应用中,由于测试数据往往和预训练数据的分布存在较大差异,由此导致模型性能下降。为了解决这个问题,测试时自适应(Test-Time Adaptation, TTA)被提出用于在推理阶段实时调整模型,以适应这些未知的数据分布。目前的TTA方法通常通过调整文本提示(Prompt Tunning)或存储视觉嵌入来优化 CLIP 的适应性,但它们往往忽略了环境变化对先验知识的影响,因而限制了它们的实时性和鲁棒性。


核心创新点:


我们提交的论文提出了一种新的 TTA 方法,称为 Bayesian Class Adaptation (BCA),它能够在动态环境中提升 CLIP 的分类精度和推理效率。我们的核心创新点包括:


1. 先验的动态适应

传统方法通常忽略了先验的存在,因此默认使用了一个固定的先验,缺少灵活性,而 BCA 能根据测试数据动态调整先验以适应当前数据分布。例如,如图 1 所示,在固定先验假设下,无论环境如何,发热患者都被诊断为感冒;而在自适应先验中,若处于 COVID-19 流行时期,诊断更倾向于 COVID-19,而在普通时期则更倾向于感冒。BCA 通过整合似然和先验的更新,增强了模型面对分布偏移时的适应性和鲁棒性。

2. 高效的设计
BCA 不依赖反向传播,而是通过轻量级的统计更新实时适应。在 ImageNet 数据集(ResNet-50模型)上的测试表明,BCA 的推理时间仅为 2.42 分钟,内存占用只比 CLIP 增加了约 4MB。 


技术路线:


BCA 基于贝叶斯框架,将预测过程分解为两个部分:可能性先验,并通过动态更新使模型适应测试数据。具体步骤如下:


1. 初始化

使用 CLIP 文本编码器将手写 prompt 初始化为一组 class embedding(用于后续计算可能性),并以one hot 向量(对应类别为 1,其余为 0)初始化先验向量。

2. 可能性更新
测试样本到来时,CLIP 视觉编码器生成 visual embedding,通过余弦相似度计算概率,选择最高概率的 class embedding,并使用当前的 
visual embedding对选择的class embedding进行统计更新。

3. 先验更新

基于上一步选择出来的class embedding,取其对应的先验向量,然后根据对当前样本的预测更新其先验向量(后验(预测)更新先验)。


图 2 展示了 BCA 流程:第 i 个测试图像到达时,首先通过视觉编码器生成visual embedding,然后模型基于这个visual embedding进行可能性更新,即更新模型中存储的class embedding,然后再对模型执行先验更新,即调整模型中的类别先验,最终输出后验概率(预测)。


实验结果:


我们在 Out-of-Distribution (OOD) 和 Cross Domain 两个基准上验证了 BCA 性能:


1. ResNet-50

OOD 基准:平均精度 49.94%,OOD 平均精度(不含 ImageNet)46.98%;
Cross Domain 基准:平均精度 61.44%。

2. ViT-B/16
OOD 基准:平均精度 65.37%,OOD 平均精度 64.16%;
Cross Domain 基准:平均精度 65.84%。

总结:


Bayesian Class Adaptation (BCA) 通过引入先验适应并结合可能性更新,为视觉-语言模型的测试时适应提供了新思路。它在精度、鲁棒性和效率上超越现有方法,适用于动态现实场景。BCA 入选 CVPR 2025,凸显其在解决分布偏移问题上的潜力,我们期待其在未来研究与应用中的发展。