AI Safety（人工智能安全）

AI Safety（人工智能安全） AI Safety

研究和实践如何让 AI 系统在行为、影响和长期演化上保持对人类有益且可控的跨学科领域。

分类：safety 类型：concept 别名：AI Safety, 人工智能安全

AI Safety 关注的问题包括：模型是否会输出有害内容、是否会被越狱滥用、是否存在提示注入与越权工具调用风险、是否在决策中造成系统性偏见，以及在长期尺度上是否可能对社会和人类构成结构性风险。它涵盖技术、政策、伦理和治理等多方面。

在大模型落地中，AI Safety 通常体现在红队测试、安全基线、内容过滤、审计日志、Guardrails（防护栏）和事故响应机制等工程实践上：

打开 GitHub 界面，修改后直接生成 PR