Anthropic 讲 Agent containment:高权限 AI 先算爆炸半径
Agent 能访问代码、服务和工具后,团队要用沙箱、虚拟机、网络出口和权限范围限制最坏影响。
Agent 能访问代码、服务和工具后,团队要用沙箱、虚拟机、网络出口和权限范围限制最坏影响。
- 栏目
- 安全
- 发布时间
- 2026-05-27
- 来源
- Anthropic Engineering / How we contain Claude across products / 2026-05-25 https://www.anthropic.com/engineering/how-we-contain-claude
这篇解决什么
Agent 能力越强,可执行动作的影响范围越大。只靠用户逐次批准会产生疲劳,系统层面的 containment 才能限制最坏结果。
适合谁
适合安全工程、平台工程、企业 Agent 管理员、AI 产品负责人和研发主管。
操作步骤
1. 列出 Agent 能读、能写、能调用的资源
2. 按文件、网络、凭证、生产服务四类评估影响范围
3. 为高风险资源设置沙箱、VM 或出口控制
4. 把审批从频繁弹窗改成关键动作门禁
5. 记录越权尝试和拦截证据
6. 每次模型或工具升级后重算风险
可复制模板
Agent:
可访问资源:
最坏影响:
隔离方式:
出口规则:
关键门禁:
拦截证据:
验收清单
- 资源清单完整
- 最坏影响已估算
- 隔离边界可验证
- 关键动作有门禁
- 升级后重新评估
常见错误
- 只收藏产品更新,没有把它改成当天能执行的工作卡。
- 只看发布标题,没有确认账号权限、适用版本、成本和数据边界。
- 把 AI 自动化结果直接当结论,没有保留人工复核和失败恢复动作。
- 外部链接散落在聊天记录里,后续复查时找不到来源和日期。
30 分钟小样本
先选一个真实但低风险的任务。前 5 分钟写清输入材料和目标产物;中间 15 分钟按本文步骤执行一次;最后 10 分钟记录输出、人工修改量、失败点和下一次复用条件。小样本通过后,再扩展到团队模板或固定 SOP。
复用方式
第一次执行时,把它当成个人操作卡;第二次执行时,把成功步骤整理成团队模板;第三次执行时,再判断是否值得升级成固定 SOP、工具页或培训材料。每次复查都要看官方页面是否改版、权限或价格是否变化、原来的示例是否还能跑通。
资料依据
标签
AnthropicClaudeAgent 安全沙箱权限