大模型红队测试

大模型红队测试 LLM Red Teaming

通过模拟恶意行为与极端场景，系统评估大模型的安全风险与防护效果。

分类：safety 类型：practice 别名：红队测试, Red Teaming

大模型红队测试以跨学科专家与自动化工具模拟滥用、规避、越狱等攻击路径，评估模型在内容安全、隐私泄露、系统稳定性方面的弱点。典型流程包括威胁建模、测试集构建、执行与复盘，并与安全策略、过滤器迭代闭环。

业界常结合人类专家、模型自我博弈与工具脚本进行持续红蓝对抗，以覆盖仇恨言论、虚假信息、生物化学、网络攻击等高风险场景。测试结果还需与监管框架（如 NIST AI RMF）对齐，形成可审计的安全报告。

在 GenAI 应用里，红队常重点覆盖：

Anthropic 论文《Red Teaming Language Models with Language Models》（介绍利用模型辅助红队的流程与案例）
NIST AI Risk Management Framework（提供 AI 系统安全治理与评估的参考框架）

打开 GitHub 界面，修改后直接生成 PR