Highlights & News

CVPR 2025 | 基于贝叶斯理论的视觉语言模型的测试时间自适应

发表日期： 2025年3月17日

中国科学院香港创新研究院人工智能与机器人创新中心 (CAIR) 团队论文被国际计算机视觉与模式识别会议 (IEEE Conference on Computer Vision and Pattern Recognition, CVPR) 接收!

论文题目：

Bayesian Test-Time Adaptation for Vision-Language Models

论文作者：

周李华，叶茂，李帅锋，李念欣，朱霞天，邓磊，刘宏斌，雷震

论文链接：

http://arxiv.org/abs/2503.09248

背景：

预训练视觉-语言模型（如 CLIP）通过在大规模图文对数据上的训练，展现了强大的多模态表征能力，在图像分类等任务中表现出很好的性能。然而，在实际应用中，由于测试数据往往和预训练数据的分布存在较大差异，由此导致模型性能下降。为了解决这个问题，测试时自适应（Test-Time Adaptation, TTA）被提出用于在推理阶段实时调整模型，以适应这些未知的数据分布。目前的TTA方法通常通过调整文本提示（Prompt Tunning）或存储视觉嵌入来优化 CLIP 的适应性，但它们往往忽略了环境变化对先验知识的影响，因而限制了它们的实时性和鲁棒性。

核心创新点：

我们提交的论文提出了一种新的 TTA 方法，称为 Bayesian Class Adaptation (BCA)，它能够在动态环境中提升 CLIP 的分类精度和推理效率。我们的核心创新点包括：

1. 先验的动态适应

传统方法通常忽略了先验的存在，因此默认使用了一个固定的先验，缺少灵活性，而 BCA 能根据测试数据动态调整先验以适应当前数据分布。例如，如图 1 所示，在固定先验假设下，无论环境如何，发热患者都被诊断为感冒；而在自适应先验中，若处于 COVID-19 流行时期，诊断更倾向于 COVID-19，而在普通时期则更倾向于感冒。BCA 通过整合似然和先验的更新，增强了模型面对分布偏移时的适应性和鲁棒性。

2. 高效的设计
BCA 不依赖反向传播，而是通过轻量级的统计更新实时适应。在 ImageNet 数据集（ResNet-50模型）上的测试表明，BCA 的推理时间仅为 2.42 分钟，内存占用只比 CLIP 增加了约 4MB。

技术路线：

BCA 基于贝叶斯框架，将预测过程分解为两个部分：可能性和先验，并通过动态更新使模型适应测试数据。具体步骤如下：

1. 初始化

使用 CLIP 文本编码器将手写 prompt 初始化为一组 class embedding（用于后续计算可能性），并以one hot 向量（对应类别为 1，其余为 0）初始化先验向量。

2. 可能性更新
测试样本到来时，CLIP 视觉编码器生成 visual embedding，通过余弦相似度计算概率，选择最高概率的 class embedding，并使用当前的 visual embedding对选择的class embedding进行统计更新。

3. 先验更新

基于上一步选择出来的class embedding，取其对应的先验向量，然后根据对当前样本的预测更新其先验向量（后验（预测）更新先验）。

图 2 展示了 BCA 流程：第 i 个测试图像到达时，首先通过视觉编码器生成visual embedding，然后模型基于这个visual embedding进行可能性更新，即更新模型中存储的class embedding，然后再对模型执行先验更新，即调整模型中的类别先验，最终输出后验概率（预测）。

实验结果：

我们在 Out-of-Distribution (OOD) 和 Cross Domain 两个基准上验证了 BCA 性能：

1. ResNet-50

OOD 基准：平均精度 49.94%，OOD 平均精度（不含 ImageNet）46.98%；
Cross Domain 基准：平均精度 61.44%。

2. ViT-B/16
OOD 基准：平均精度 65.37%，OOD 平均精度 64.16%；
Cross Domain 基准：平均精度 65.84%。

总结：

Bayesian Class Adaptation (BCA) 通过引入先验适应并结合可能性更新，为视觉-语言模型的测试时适应提供了新思路。它在精度、鲁棒性和效率上超越现有方法，适用于动态现实场景。BCA 入选 CVPR 2025，凸显其在解决分布偏移问题上的潜力，我们期待其在未来研究与应用中的发展。

HOME

INNOVATION

PARTNERS

NEWS

JOIN US

ABOUT

Highlights & News

CVPR 2025 | 基于贝叶斯理论的视觉语言模型的测试时间自适应

发表日期： 2025年3月17日