LLaVA 多模态大模型

LLaVA 多模态大模型 LLaVA

将图像编码器与 LLaMA 类语言模型结合的开源多模态对话模型，支持看图问答和视觉推理。

分类：multimodal 类型：model 别名：LLaVA

LLaVA 通过将图像编码器（如 CLIP 的视觉部分）输出的特征映射到语言模型的嵌入空间，再在多模态指令数据上进行微调，实现了「看图聊天」能力。它展示了在有限算力下构建多模态大模型的可行路径，并催生了众多变体。

在实践中，LLaVA 常被用于多模态 RAG、文档理解、界面操作理解等任务。

打开 GitHub 界面，修改后直接生成 PR