AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

AI Safety(人工智能安全) AI Safety

研究和实践如何让 AI 系统在行为、影响和长期演化上保持对人类有益且可控的跨学科领域。

分类:safety 类型:concept 别名:AI Safety, 人工智能安全

AI Safety 关注的问题包括:模型是否会输出有害内容、是否会被越狱滥用、是否存在提示注入与越权工具调用风险、是否在决策中造成系统性偏见,以及在长期尺度上是否可能对社会和人类构成结构性风险。它涵盖技术、政策、伦理和治理等多方面。

在大模型落地中,AI Safety 通常体现在红队测试、安全基线、内容过滤、审计日志、Guardrails(防护栏)和事故响应机制等工程实践上:

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记