Anthropic 讲 Agent containment：高权限 AI 先算爆炸半径

摘要

Agent 能访问代码、服务和工具后，团队要用沙箱、虚拟机、网络出口和权限范围限制最坏影响。

栏目: 安全
发布时间: 2026-05-27
来源: Anthropic Engineering / How we contain Claude across products / 2026-05-25 https://www.anthropic.com/engineering/how-we-contain-claude

这篇解决什么

Agent 能力越强，可执行动作的影响范围越大。只靠用户逐次批准会产生疲劳，系统层面的 containment 才能限制最坏结果。

适合安全工程、平台工程、企业 Agent 管理员、AI 产品负责人和研发主管。

1. 列出 Agent 能读、能写、能调用的资源
2. 按文件、网络、凭证、生产服务四类评估影响范围
3. 为高风险资源设置沙箱、VM 或出口控制
4. 把审批从频繁弹窗改成关键动作门禁
5. 记录越权尝试和拦截证据
6. 每次模型或工具升级后重算风险

Agent：
可访问资源：
最坏影响：
隔离方式：
出口规则：
关键门禁：
拦截证据：

先选一个真实但低风险的任务。前 5 分钟写清输入材料和目标产物；中间 15 分钟按本文步骤执行一次；最后 10 分钟记录输出、人工修改量、失败点和下一次复用条件。小样本通过后，再扩展到团队模板或固定 SOP。

第一次执行时，把它当成个人操作卡；第二次执行时，把成功步骤整理成团队模板；第三次执行时，再判断是否值得升级成固定 SOP、工具页或培训材料。每次复查都要看官方页面是否改版、权限或价格是否变化、原来的示例是否还能跑通。