LLaVA 多模态大模型 LLaVA 将图像编码器与 LLaMA 类语言模型结合的开源多模态对话模型,支持看图问答和视觉推理。 分类:multimodal 类型:model 别名:LLaVA LLaVA 通过将图像编码器(如 CLIP 的视觉部分)输出的特征映射到语言模型的嵌入空间,再在多模态指令数据上进行微调,实现了「看图聊天」能力。它展示了在有限算力下构建多模态大模型的可行路径,并催生了众多变体。 在实践中,LLaVA 常被用于多模态 RAG、文档理解、界面操作理解等任务。 ✏️ 在线编辑 打开 GitHub 界面,修改后直接生成 PR