Harness 驾驭工程是 AI 平权的必经之路？

2026-04-03 3 纸飞机账号购买

“Harness”这个词源自马具，马乃强大的AI模型不过因其黑盒性质存在不可控性，“Harness”所指的是缰绳、马鞍以及护具等，属于工程管理学范畴，骑手为人类工程师，要明确意图、设计环境并且构建反馈回路。01。

你的客厅里来了一条龙

2026年2月，OpenAI发布了一篇技术博客，其名为《Harness Engineering: Leveraging Codex in an Agent-First World》。一篇文章透露了一桩令人震惊的试验，有着这么一个仅仅由三名工程师（后续扩展至七人）构成的团队，于五个月里运用 Codex Agent 产出了超出一百万行符合生产要求的代码，合并了大概一千五百个代码评审请求，不存在任何一部分代码是由人类亲手书写的。然而，这篇文章实际上在行业内引发热烈讨论的，并非“由人工智能编制一百万行代码”这个数值本身，反倒乃是其提出的一种全新的工程模式：名为 Harness Engineering（驾驭工程）的模式。

照如在Medium之上一篇传播范围广泛并且流传开来的文章所进行比喻的那般来看的话。我们身处的客厅这个空间里出现了一条巨龙的情形。这条巨龙它具备着聪明的特质，拥有强大的能力，当前看起来还算温顺平和的样子。可是 dragon 它是会不断成长变大的呀，我们所需要的并非是更加粗壮的铁链这种东西，而是一整套足够完整的能够驾驭它的系统，这里面涵盖着缰绳、马鞍、护具等等一系列物品，以及一个明白懂得如何去和龙共同相处的骑手。

工程演进：提示词、上下文、驾驭

为了能有着更为深刻的理解，针对Harness Engineering（驾驭工程），那么就让我们把视野进行拉长，使其抵达更宏大的技术史尺度之上：

工业革命：驾驭物理力量

蒸汽机所释放出的，是远远超越人类肌肉的物理力量，可是，蒸汽机自身却不清楚应当驱动什么，转多快，以及何时停下，所以，人类发明了飞轮调速器，安全阀，传动系统等，而这些便是工业革命时代的“Harness”，要是没有这些，蒸汽机仅仅是一个危险的热水壶。

信息革命：驾驭计算力量

计算力量被计算机释放出来，其远超人类大脑。然而，裸机并不清楚该进行怎样的计算。所以，人类发明了操作系统，还发明了编程语言，以及软件工程方法论，从瀑布模型发展到敏捷开发，从汇编语言过渡到高级语言，每一步都是在构建更好的“Harness”用以驾驭算力。

AI 革命：驾驭认知力量

其释放出的认知力量，远远超过了人类个体，大语言模型具备自主规划、推理以及生成的能力，然而，模型自身并不清楚要去解决怎样的问题，无从遵循何种约束，该依照怎样的方式，来在真实世界里实现更为可靠的运作。Harness Engineering 是那种存于 AI 时代，旨在统一操作系统与软件工程方法论的事物，它涵盖 Agent 范式里的记忆、系统提示词、知识库、编排等项目，并且涉及如 Agent.md、Soul.md、User.md 等这般由 OpenClaw 范式所产生的文本流，而这一切都是为了能具备更好的和模型对话的能力。

AI驾驭系统开始成形这一信号，是由Harness Engineering（驾驭工程）的出现所带来的。然而，当提及驾驭工程的时候，提示词工程和上下文工程是我们必须要回顾的。

把提示词工程，说成Prompt Engineering，将上下文工程，称作Context Engineering，把驾驭工程，说为Harness Engineering。

图源：瑶池数据库举办的虾搞数据库杭州站

还有4个案例，能够进一步去了解Harness Engineering ，是这样的情况。

读到此处，你或许会萌生出一种合乎情理的质疑：Harness Engineering 难道仅仅是将优良的软件工程实践予以重新包装而已？撰写好文档，构建好反馈链路，顺畅运行好 CI，这些事项难道我们并非始终都在进行吗？这种怀疑是值得予以认真对待的。我们先来瞧瞧 4 个真实的案例。

案例一：一个编辑工具的改变，让 15 个模型同时变强

出自，Can Duruk所著的，“我在一个下午提升了15个语言模型的编码能力”，于2026年2月。

保持独立身份的开发者 Can Duruk，对一个开源编码 Agent 框架进行着维护工作。他察觉到了一个存在的问题，这个问题是，有很多人没注意到，Agent 用于修改代码文件的编辑工具，其自身其实就是一个堪称巨大的失败源头来源处呀。

如今业界主流的编辑方式存在三种，其一为OpenAI的apply_patch，其要求模型生成特定格式的diff，其二是Claude Code的str_replace，此要求模型精确复现旧文本的每一个字符，其三是Cursor训练的专用70B合并模型。每一种方式均有着严重缺陷，Grok 4运用patch格式时失败率高达50.7%。

他构思并设计了一种名为Hashline的全新方案，方案规定，当模型对文件进行读取操作时，每行内容都会附带一个由2至3个字符所构成的内容哈希标签，在对模型进行编辑之际，仅需引用这些标签，而无需再次复现原始文本。

// 模型看到的文件：
11:a3| function hello() {
22:f1|   return "world";
33:0e| }
// 模型的编辑指令：
"replace line 2:f1 with: return 'universe';"

结果是，有16个模型，3种编辑工具，180个任务，每个任务运行3次。Hashline在几乎全部模型上都做到了匹配或者超越传统方案。其中最极端的案例是Grok Code Fast 1，其成功率从6.7%急剧飙升至68.3% 带来了十倍提升！Grok 4 Fast的输出token也下降了61%。

在传统软件工程范畴之内，人类究竟是选用VS Code，还是采用Vim，这对于代码质量而言，是不存在影响力的。然而，在Agent所处的专门领域当中，模型用于表达自身意图的接口方面的设计情况，却会直接对其是否能够将正确无误的想法转变成正确无误的代码，起到决定性的作用。Can Duruk当年确切说过这样一句话：“你正在责怪飞行员，然而实际问题却是出在起落架之上。”。

案例二：技术债的指数级放大效应

来源是，AgentsMesh 开发者、“52 天，独自 35 万行代码”、Reddit 上的 r/ClaudeAI、2026 年 3 月、来自 Reddit。

一名独立从事开发工作的人员，在五十二天的时间之中，借助人工智能智能体独自开展构建工作，成功完成了三十五万行应用于生产环境的代码编写。他察觉到了一种在传统开发模式里并不存在的情况：技术债务会被智能体以指数级的速度进行放大。

当你进行了一回临时的妥协，避开Service层进而直接去查询数据库，又或者采用一个硬编码而成的魔法数字，Agent会将此模式视作“先例”，下次生成相似功能之际，并非偶然地复用，而是系统性地展开复用，人类工程师碰到烂代码通常晓得“这是地雷，需绕着走”，Agent却并非如此，它一旦瞧见代码库中存有某个模式，便会把它当成合法方案。

若在情形里，好的实践处于主导态势，那么 Agent 便会对好的实践予以放大；要是在状况中，捷径处于主导形势，此时 Agent 就会将捷径进行放大。

传统软件工程里，技术债呈线性累积状态，存在这样一种情况，即一个坏模式有可能被几个人模仿，不过其传播速度受到团队规模以及代码审查的限制。在Agent协作开发当中，技术债转变为自我复制的病毒，具体表现为，一个坏模式能够在几小时内，被Agent复制到代码库的每一处角落。

这便需求一种全然新颖的“代码库卫生”策略，文章起始部分所提及的 OpenAI 实践。

清理 Agent 会定期运行，它如同垃圾回收器一般，OpenAI 团队曾把每周五 20%的时间用于清理“AI 垃圾”，后来却发现这样做不可扩展，没办法持续对抗衰变，于是，将“品味”编码成了自动化规则。

这里的品味包括：

技术债务如同那笔有着高利息的贷款，持续地采用小额贷款的形式去偿还债务，比起让债务持续加以累积，而后惨痛地一次性予以解决，要好出许多不少。人类的品味一旦被成功捕捉到，便会持续地应用于每一行代码之中。这还促使着我们每天都能去发现并且解决不良模式，而非任由它们在代码库里面传播长达数天又或者数周之久。

案例三：子 Agent 作为“上下文防火墙”

出自,HumanLayer,,，《Skill Issue: Harness Engineering for Coding Agents》,,，2026年,03月。

HumanLayer团队于众多企业级棕地项目里，察觉到一核心问题，即每当有次工具调用出现，每当有次文件读取发生，每当有次grep结果产生之时，Agent的上下文窗口会伴随工作步入而“腐烂”，于上下文中留下残余，待上下文扩展至一定地步，Agent便进入到他们所讲的“笨蛋区”，哪怕是简单任务都会开始犯错。

18个模型，在Terminal Bench 2.0的测试用例上，其表现会随着上下文长度的增加而显著下降，该研究提供了这样的实证支撑，并且，当上下文中存在低语义相关性的干扰信息时，这种退化会更加陡峭。

HumanLayer的解决方案并非是那种单纯的“加大上下文窗口”，而是得去引入一种被称作子Agent的东西，将其作为起着类似“上下文防火墙”作用的部件存在：

阿里于近期开源的HiClaw项目，其所采用的是Manager-Workers架构，这架构也能够被视作是一种“上下文防火墙”，是由Manager来下发任务的，每个Worker都承担着不一样的职责，目的是防止记忆溢出或者被污染，进而致使Agent进入“笨蛋区”。

在传统软件工程里头，上下文管理是由人类大脑自动达成的，对于读了不少代码文件之后会忘掉项目架构这种情况，我们无需忧心。然而，LLM的上下文窗口是一种有限且会发生退化的资源。子Agent或者多Agent所提供的上下文防火墙模式，是一种全新的架构模式，它不是微服务，不是消息队列，并非是任何传统分布式系统概念的复刻版本。它所解决的是一个唯有在非人类认知体执行任务之际才会出现的问题，即怎样在有限的注意力预算范围之内，去完成需要无限注意力投入的工作。

案例四：反馈回路的重新设计

来源是，HumanLayer的实践，以及那篇名为LangChain"Improving Deep Agents"的内容。

那个被称作 HumanLayer 的团队，在早期的时候犯下了一个表面上看起来好像挺有道理的错误，是什么样的错误呢？就是每当 Agent 对代码做出修改后，就会去运行一整套涵盖了所有方面的测试套件。结果呢，多达 4000 行原本能够通过的测试输出一股脑地涌入了上下文窗口当中，紧接着，Agent 就开始针对刚刚读到的测试文件产生出一些虚幻不实的认知印象，进而丢失了对原本实际所执行任务的追踪。

他们归纳得出一条违背直觉的准则，那就是，成功应当处于寂静状态，唯有失败才理应发出声响。

他们给Claude Code编写了一个Hook脚本，这脚本是这样儿的：当Agent停止工作之际，会自动运行格式化检查，还会自动运行TypeScript类型检查，如果一切都通过了，那就完全静默，不会向上下文.inject任何东西。要是检查失败了，那就只输出错误信息，并且用退出码告知Harness重新激活Agent去搞问题修复，把问题给解决喽。

LangChain 的实践有了更深入的进展：他们设计了 PreCompletionChecklistMiddleware，它在 Agent 尝试交卷之际会进行拦截，使其必须依据任务规格开展一次验证。与此同时，他们运用 LoopDetectionMiddleware 去追踪针对同一文件的重复编辑次数，在达到 N 次之后注入“也许你该换个思路”这样的提示，以此助力 Agent 摆脱死循环。

其中的结果呈现为，LangChain的编码代理于Terminal Bench 2.0测试这一情况里，从原本处于前30名的位置，实现了向跃升至前5名的转变。

传统CI/CD的反馈回路是针对人类来设计的，测试报告越详尽越好，毕竟人类需要去理解失败的缘由。Agent的反馈回路却要对上下文窗口友善，信息量得精准把控，成功信号需压缩至零，失败信号要提炼成最小的可操作单元。更具独特性的是“循环检测”以及“强制验证”，人类工程师无需被提醒“你已对同一个文件修改了10次”，也无需被强制在提交之前对照需求文档核查一番。这些是专门为非人类认知体的行为缺陷设计的补偿机制。

同一模型，不同的 Harness，结果截然不同。这 4 个案例表明：Agent 的竞争优势，除了取决于你所使用的模型，还在于你构建了怎样的 Harness。Harness 造就了护城河，这护城河不仅针对 Agent Builder 这类群体，更是针对 Agent User 这类群体。

群体智能：企业业务创新的拐点

那个关于提效的故事，已然不再具备足够的吸引力，反而是业务创新，成为了那些企业为Token支付费用时，最为强大的推动力量。

慧能工程，不光是要使得单个智能体能够更稳妥可靠地开展工作，它还是被运用来对多个智能体之间的协作成效予以充分优化的，借助群体智能的力量来加快业务创新的进程，群体智能是依靠对岗位彼此之间所存在的知识孤岛予以克服、对跨岗位协作所引发的创意衰减等诸多方式来提高业务创新能力的。

这一课题正在被一系列开源项目推向实践前沿。

CLI-Anything：群体智能的基础设施

来源是，香港大学数据智能实验室这一机构，其网址为github、com然后斜杠HKUDS再斜杠CLI，Anything、号。

AI Agent具备推理能力，具备写代码能力，具备搜索能力然而然而要让它把GIMP打开，把一张图的背景去掉，又或者用Blender去渲染一个3D场景它却是做不到的GUI是专门为人类所设计的并不是为Agent所设计的。

CLI - Anything 是一个插件，它属于 Claude Code，它能够对任意软件的源代码进行分析，它可以自动生成一套命令行接口，这套命令行接口是生产级别的，它能够调用真实的应用后端，其中包括让 LibreOffice 生成真正的 PDF，包括让 Blender 渲染真正的 3D 场景，包括让 Audacity 通过 sox 处理真正的音频等。

一条命令完成全部工作：/cli-anything

经过这样一个阶段，先是进行分析，接着展开设计，随后开始实现，再通过测试，之后撰写文档，最后发起发布，经过这7个阶段所构成的全自动流水线，输出一个能够进行pip install操作的Python包。

每一个被生成出来的 CLI，都自行带有 SKILL.md，这是一份机器能够读取的能力描述文件。这所代表的意义是，Agent 在运行的时候，可以自动发觉其他 Agent 能够做到的事情，动态地构建协作关系。这便是群体智能的基础设施。

HiClaw：群体智能的操作系统

出自阿里云，在github.com/alibaba/hiclaw/tree/main那里。

但 CLI-Anything 只解决了部分问题。

想象一下，企业存在着 10 多个较为关键的部门，其中包括架构师所在部门、产品经理所在部门、前端开发部门、后端开发部门、市场部门、公关部门、供应链部门等等，每个部门都有着独有的技能以及知识库。接着你就会发觉，要是基于单体架构的 OpenClaw 去构建群体智能，将会面临：

这些，都是 HiClaw 会去解决的问题。

现在，我们来瞧一瞧一个以 HiClaw 为基础搭建起来的群体智能的实践方面的案例。有一家汽车生产厂商，它打算去制造一款价值 700w 的豪华汽车，为此通过设计 N 个各式各样的角色，借由他们展开 100 次的反复讨论，从而得出一个最终的结果。

在案例里，我们挑选了三位身份各不相同的目标用户，让他们展开自由讨论，在这回的 100 轮对话当中，他们分别于品牌认知、舒适需求、安全隐私、品牌社交、软价值等好些方面进行了激烈的讨论。

由于内容较多，感兴趣的朋友，可以去以下地址进行围观。

https://github.com/alibaba/hiclaw/issues

使得企业具备一支能够进行编排、可以实施治理、能够持续进化的数字化智能团队的是 Harness Engineering，个人效率得到提升呈现出线性特征，群体性智能出现呈现出指数级特征，CLI - Anything、HiClaw这类开源项目恰恰就是Harness Engineering在群体性智能之下展开的探索以及实践。

https://openai.com/zh-Hans-CN/index/harness-engineering/

https://blog.can.ac/2026/02/12/the-harness-problem/

https://www.humanlayer.dev/blog/skill-issue-harness-engineeri...

https://blog.langchain.com/improving-deep-agents-with-harness...