AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

llama.cpp llama.cpp

一个用 C/C++ 实现的轻量级 LLM 推理引擎,支持在 CPU、消费级 GPU 和移动设备上运行量化模型。

分类:inference 类型:tool 别名:llama.cpp, 本地 LLM

llama.cpp 起源于在笔记本电脑上运行 LLaMA 模型的实验项目,逐渐发展为支持多种架构与后端(CPU、Metal、CUDA 等)的通用推理引擎。它通过 GGML/GGUF 等格式存储量化后的权重,使得在资源有限的设备上也能运行聊天、补全和简单 Agent 应用。

得益于活跃的社区生态,llama.cpp 被封装到诸多桌面应用、浏览器插件与后端服务中,是「本地跑大模型」场景的代表选择之一。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记