安全与沙箱

为什么 Harness 需要安全?

AI Agent 执行代码、读取文件、调用 API、与外部系统交互。一个安全性差的 harness 就是一个带聊天界面的远程代码执行漏洞。

权限模型

白名单模式(限制型)

只有明确允许的工具和操作才可用。

能力授权模式

Agent 请求能力,harness 授予或拒绝。

人机协同模式

敏感操作需要明确的用户批准:

  • 低风险:自动批准(读文件、搜索)
  • 中风险:通知 + 继续,除非被叫停
  • 高风险:暂停等待明确批准(发邮件、部署)

沙箱架构

架构 隔离级别 性能 适用场景
进程沙箱 本地开发
Docker 容器 生产 Agent
Firecracker/microVM 非常高 较慢 多租户平台
WASM 沙箱 中高 浏览器 Agent

信任边界

┌─ 完全信任 ────────── Agent 配置、系统 prompt
├─ 验证后信任 ──────── 用户消息、上传文件
├─ 不信任 ──────────── 网页内容、API 响应、其他 Agent 输出
└─ 永不信任 ────────── Prompt 注入、未知工具输出

核心原则

  1. 最小权限 — Agent 只获得它需要的权限
  2. 纵深防御 — 多层保护
  3. 安全失败 — 有疑问时,拒绝并询问用户
  4. 审计追踪 — 记录所有敏感操作以供审查

返回 README →