llama.cpp

llama.cpp llama.cpp

一个用 C/C++ 实现的轻量级 LLM 推理引擎，支持在 CPU、消费级 GPU 和移动设备上运行量化模型。

分类：inference 类型：tool 别名：llama.cpp, 本地 LLM

llama.cpp 起源于在笔记本电脑上运行 LLaMA 模型的实验项目，逐渐发展为支持多种架构与后端（CPU、Metal、CUDA 等）的通用推理引擎。它通过 GGML/GGUF 等格式存储量化后的权重，使得在资源有限的设备上也能运行聊天、补全和简单 Agent 应用。

得益于活跃的社区生态，llama.cpp 被封装到诸多桌面应用、浏览器插件与后端服务中，是「本地跑大模型」场景的代表选择之一。

打开 GitHub 界面，修改后直接生成 PR