CLIP 文本-图像对比学习模型

CLIP 文本-图像对比学习模型 CLIP

OpenAI 提出的通过对比学习对齐文本与图像表示的多模态模型，是许多文生图与检索系统的基础。

分类：multimodal 类型：model 别名：CLIP

CLIP 通过在海量「图像-文本描述」对上进行对比学习，让图像编码器和文本编码器在共同嵌入空间中对齐：匹配的图文对距离更近，不匹配的更远。这样训练出的表示可用于零样本分类、图文检索以及作为文生图模型（如 Stable Diffusion）的文本编码模块。

CLIP 的成功推动了多模态对比学习的发展，对后续的图文检索、视觉问答与多模态 Agent 产生了深远影响。

打开 GitHub 界面，修改后直接生成 PR