AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

LLaVA 多模态大模型 LLaVA

将图像编码器与 LLaMA 类语言模型结合的开源多模态对话模型,支持看图问答和视觉推理。

分类:multimodal 类型:model 别名:LLaVA

LLaVA 通过将图像编码器(如 CLIP 的视觉部分)输出的特征映射到语言模型的嵌入空间,再在多模态指令数据上进行微调,实现了「看图聊天」能力。它展示了在有限算力下构建多模态大模型的可行路径,并催生了众多变体。

在实践中,LLaVA 常被用于多模态 RAG、文档理解、界面操作理解等任务。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记