Teaching Claude Why：给 Agent 安全训练加一层理由审计

摘要

Anthropic Alignment Science 发布 Teaching Claude Why，讨论如何让模型理解安全训练背后的理由。对 HTKU 用户的启发是：给 Agent 规则写清原因和审计问题。

栏目: 安全
发布时间: 2026-05-18
来源: Anthropic Alignment Science Teaching Claude Why / 2026-05-08

这篇解决什么

很多项目只给 Agent 写禁止性规则，却不解释边界背后的理由。没有理由，模型更难在新场景下泛化执行。

Teaching Claude Why：给 Agent 安全训练加一层理由审计 - 流程图

适合谁

适合写 AGENTS.md、企业 AI 使用规范、Agent 安全策略和高风险工作流门禁的人。

操作步骤

1. 把每条 Agent 规则改成三段：规则、理由、触发示例。
2. 对高风险动作补充审计问题：它会改什么、影响谁、如何回滚。
3. 让 Agent 在执行前复述规则与理由，确认理解任务边界。
4. 用历史失败样本测试规则是否能阻止同类问题。
5. 每次事故后更新理由和示例，而不是只加更长的硬性条款。

可复制模板

请把这条 Agent 规则改写成可审计版本。格式：规则、为什么重要、触发场景、执行前自检问题、失败后的恢复动作。

验收清单

规则有理由
触发示例具体
执行前能自检
历史失败能覆盖
事故后更新规则库

Teaching Claude Why：给 Agent 安全训练加一层理由审计 - 交付结果

发布建议

适合做安全栏目和 AGENTS.md 写作教程，避免深入复述研究论文。

资料依据

Anthropic Alignment Science: Teaching Claude Why