Research / Practicehuangserva ([@servasyy_ai](https://x.com/servasyy_ai))April 4, 2026
View OriginalAutoAgent: 第一个会自我优化的 Agent
原文: Tweet · huangserva (@servasyy_ai) · April 4, 2026 引用: Kevin Gu (@kevingu) — Tweet 分类: Research / Practice
概述
AutoAgent 可能是全球第一个"会自我优化的 Agent"开源项目。24 小时自主优化后:
| 基准测试 | 得分 | 排名 |
|---|---|---|
| SpreadsheetBench | 96.5% | #1 |
| TerminalBench | 55.1% | #1 |
所有其他榜单上的成绩都是手工调的。AutoAgent 的不是。
How It Works
核心机制对应 Harness Engineering 的三个关键概念:
- 评估闭环 — Meta-Agent 读取失败轨迹,改写 harness
- 架构约束 — 自动生成验证循环和格式校验器
- 记忆治理 — 24 小时迭代积累轨迹,形成可复用的经验
Model Empathy(模型共情)
一个有趣的发现:Claude meta + Claude task 比 Claude meta + GPT task 效果好。因为同模型更懂对方怎么想。这印证了一个 harness 设计原则:约束越多反而越可靠。
Why It Matters
AutoAgent 把 Meta-Harness 的理论变成了现实:
"Harness Engineering 的三件事 — 评估闭环、架构约束、记忆治理 — 当时更多是理论推演。AutoAgent 把这三件事全做了。而且是 Agent 自己做的。"
这预示了 Harness Engineering 的未来方向:不是人来优化 harness,而是 Agent 自己优化自己的 harness。
See also: Meta-Harness: Automated Optimization · Anthropic: Multi-Agent Harness Design