AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

大模型红队测试 LLM Red Teaming

通过模拟恶意行为与极端场景,系统评估大模型的安全风险与防护效果。

分类:safety 类型:practice 别名:红队测试, Red Teaming

大模型红队测试以跨学科专家与自动化工具模拟滥用、规避、越狱等攻击路径,评估模型在内容安全、隐私泄露、系统稳定性方面的弱点。典型流程包括威胁建模、测试集构建、执行与复盘,并与安全策略、过滤器迭代闭环。

业界常结合人类专家、模型自我博弈与工具脚本进行持续红蓝对抗,以覆盖仇恨言论、虚假信息、生物化学、网络攻击等高风险场景。测试结果还需与监管框架(如 NIST AI RMF)对齐,形成可审计的安全报告。

在 GenAI 应用里,红队常重点覆盖:

  • 提示注入与间接注入:提示注入
  • 越狱(绕过拒答/安全规则):越狱
  • 工具与权限越界:工具调用(尤其是写操作)

参考资料

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记