AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

大语言模型 Large Language Model · LLM

在海量文本上预训练的超大模型,是现代生成式 AI 的核心基础。

分类:foundation 类型:model 别名:大模型, LLM

LLM(大语言模型)通常以 Transformer 为核心架构,通过“下一个 token 预测”在海量文本上进行自监督预训练,从而学习语言结构、世界知识与一定的推理模式。

能力与应用

  • 自然语言交互:对话、问答、解释概念与知识点。
  • 文本生成:翻译、改写、总结、创意写作、营销文案。
  • 代码与数据辅助:代码生成与解释、SQL/正则生成、数据分析脚本。
  • 多轮推理与规划:借助思维链、工具调用进行复杂决策。

模型演进

  • GPT-3 (2020):175B 参数,验证规模化预训练带来的通用能力。
  • InstructGPT/GPT-4 (2022-2023):引入指令微调、RLHF 与多模态感知,提升可用性与安全性。
  • 开源生态:Meta LLaMA、Mistral、Qwen、Yi 等系列提供可定制与私有化部署的选择。

技术栈

  • 预训练数据:网络文本、书籍、代码、对话等多源数据,需进行清洗与去重。
  • 对齐方法:SFT、RLHF、DPO、RLAIF 等技术让模型更符合人类偏好。
  • 推理优化:量化、张量并行、连续批处理等手段保障部署效率。

评估与治理

  • 能力评测:MMLU、BIG-Bench、GSM8K 等基准衡量模型在多学科、多任务的表现。
  • 安全评估:红队测试、越狱检测、偏见审查等保障上线安全。
  • 负责任使用:遵循隐私保护、数据合规与版权规范,建立人类监督机制。

参考资料

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记