Anthropic Engineering / How we contain Claude across products / 2026-05-25 https://www.anthropic.com/engineering/how-we-contain-claude

Anthropic 讲 Agent containment:高权限 AI 先算爆炸半径

Agent 能访问代码、服务和工具后,团队要用沙箱、虚拟机、网络出口和权限范围限制最坏影响。

安全 · 2026-05-27
Anthropic 讲 Agent containment:高权限 AI 先算爆炸半径 配图
摘要

Agent 能访问代码、服务和工具后,团队要用沙箱、虚拟机、网络出口和权限范围限制最坏影响。

栏目
安全
发布时间
2026-05-27
来源
Anthropic Engineering / How we contain Claude across products / 2026-05-25 https://www.anthropic.com/engineering/how-we-contain-claude

这篇解决什么

Agent 能力越强,可执行动作的影响范围越大。只靠用户逐次批准会产生疲劳,系统层面的 containment 才能限制最坏结果。

Anthropic 讲 Agent containment:高权限 AI 先算爆炸半径 流程图

适合谁

适合安全工程、平台工程、企业 Agent 管理员、AI 产品负责人和研发主管。

操作步骤

1. 列出 Agent 能读、能写、能调用的资源
2. 按文件、网络、凭证、生产服务四类评估影响范围
3. 为高风险资源设置沙箱、VM 或出口控制
4. 把审批从频繁弹窗改成关键动作门禁
5. 记录越权尝试和拦截证据
6. 每次模型或工具升级后重算风险

可复制模板

Agent:
可访问资源:
最坏影响:
隔离方式:
出口规则:
关键门禁:
拦截证据:
Anthropic 讲 Agent containment:高权限 AI 先算爆炸半径 检查清单

验收清单

  • 资源清单完整
  • 最坏影响已估算
  • 隔离边界可验证
  • 关键动作有门禁
  • 升级后重新评估

常见错误

  • 只收藏产品更新,没有把它改成当天能执行的工作卡。
  • 只看发布标题,没有确认账号权限、适用版本、成本和数据边界。
  • 把 AI 自动化结果直接当结论,没有保留人工复核和失败恢复动作。
  • 外部链接散落在聊天记录里,后续复查时找不到来源和日期。

30 分钟小样本

先选一个真实但低风险的任务。前 5 分钟写清输入材料和目标产物;中间 15 分钟按本文步骤执行一次;最后 10 分钟记录输出、人工修改量、失败点和下一次复用条件。小样本通过后,再扩展到团队模板或固定 SOP。

Anthropic 讲 Agent containment:高权限 AI 先算爆炸半径 输出示意

复用方式

第一次执行时,把它当成个人操作卡;第二次执行时,把成功步骤整理成团队模板;第三次执行时,再判断是否值得升级成固定 SOP、工具页或培训材料。每次复查都要看官方页面是否改版、权限或价格是否变化、原来的示例是否还能跑通。

资料依据

标签

AnthropicClaudeAgent 安全沙箱权限