AI长程编程｜一文搞懂什么是 Long-Horizon Coding？

本文已同步发布到微信公众号「人言兑」

👈 扫描二维码关注，第一时间获取更新！

第一次听到「Long-Horizon Coding」这个词的时候，我脑子里想的是「哦，就是写很长的代码了」。后来查了下资料才发现，完全不是这么回事。这个词跟红杉资本那篇《2026: This is AGI》有很大关系。他们直接把 Long-Horizon Agents（长程智能体）定义为「功能上的 AGI」——也就是 AI 终于从「聊天框里的回答机器」变成了「能自己把事情搞定的执行者」。

本文关键词：Long-Horizon Coding、长程代码生成、AI 编程智能体、SWE-bench、代码智能体基准测试、自主软件开发

Long-Horizon Coding

那到底什么是 Long-Horizon Coding？

简单来说，Long-Horizon Coding 不是指代码行数多，而是指 AI 需要在很长时间跨度内、经历很多个步骤、不断试错和调整，最终完成一个复杂的软件工程任务。

举个例子你就明白了：

短程（Short-Horizon）：你让 AI 写一个排序函数，它一次性生成代码，完事。类似 HumanEval、MBPP 这种基准测试，考的就是这种「一锤子买卖」的能力。
长程（Long-Horizon）：你扔给 AI 一个 GitHub issue，说「这个项目的用户登录模块有 bug，而且影响了密码重置流程，你修一下」。AI 得自己去看代码库结构、找相关文件、理解业务逻辑、改代码、跑测试、发现不对再回滚、再改……可能要折腾几十个回合，最后才能提交一个靠谱的 PR。这就是 SWE-bench 这类基准测的东西。

正如红杉那篇文章说的：以前 AI 是 Talkers（说话的人），2026 年开始变成 Doers（干活的人）。Long-Horizon Coding 就是这个转变在编程领域的具体体现。

为什么Long-Horizon这个词现在才被大家关注？

其实概念早就有了，但直到最近几个月才跨过某个「能力阈值」。红杉提到，2022 年的 ChatGPT 解决了「知识/预训练」问题，2024 年的 o1 解决了「推理/思考时间计算」问题，而 2026 年初的 Claude Code 这类工具则解决了「迭代执行」问题。三个条件凑齐，Long-Horizon Agents 才真正能用了。

从学术圈的角度看，2025-2026 年涌现了一大批专门测长程能力的基准：

基准测试	测什么	特点
SWE-bench / SWE-bench Verified	修 bug	从真实 GitHub issue 里抽任务，平均改 2-3 个文件
SWE-bench Pro	复杂工程问题	多步骤、专业级任务
TerminalBench	终端工具使用	测命令行操作能力
Commit0 / PaperBench	长程软件演化	不止修 bug，还要持续维护代码库
NL2Repo-Bench	从零建仓库	只给需求文档，AI 自己设计架构、写多模块代码

长程编程到底难在哪？

翻了下最近的几篇论文让AI帮我解读，发现 Long-Horizon Coding 的坑比想象中多：

1. 上下文会爆炸

AI agent 在代码库里折腾几十个回合后，上下文窗口里堆满了之前的尝试、错误信息、中间文件……怎么压缩、怎么保留关键信息、怎么丢掉垃圾，都是问题。有篇论文专门研究这个，叫「Optimizing Context Compression for Long-horizon LLM Agents」。

2. 错误会累积

有个叫 SlopCodeBench 的基准特别扎心：它测的是 AI 在连续修改代码的过程中，代码质量是怎么逐渐劣化的。结果发现，孤立测试时通过率 80% 的任务，在连续执行场景下掉到 38% 。就像你接手的前任同事留下的代码一样，改来改去最后把代码改成了屎山。

3. 规划能力要够强

NL2Repo-Bench 的实验显示，即使是最强的模型，从零构建一个完整 Python 库的平均测试通过率也不到 40% 。主要死因包括：过早放弃、全局一致性丢失、跨文件依赖搞不定、几百步交互后不知道自己在干嘛。。。

4. 探索大型代码库像大海捞针

有研究者专门测了「在几万文件的仓库里找到该改哪个文件」这个能力。题目很刁钻：用业务语义描述问题，不提文件名、类名、函数名，而且目标文件藏得很深。结果发现 GLM-5 这种专门训练过 agent 轨迹的模型，在这种「战略搜索」上比 Claude Opus 4.5 还强。这说明长程编程不只是代码写得好，还得会「侦查」。

Long-Horizon Coding 跟常听到的「Vibe Coding」是什么关系？

现在还有个很火的词叫「Vibe Coding」（氛围编程），指那种「随便描述一下需求，AI 自动生成代码，不对就再 vibe 一下」的轻松编程方式。但 Long-Horizon Coding 其实是 Vibe Coding 的「硬核版」——Vibe Coding 可能只需要几分钟、几次交互，而 Long-Horizon Coding 可能要持续数小时、上百次交互，中间还要处理测试失败、依赖冲突、架构调整这些脏活累活。

有篇论文说：Long-horizon evaluation targets the capabilities that distinguish production-grade agentic engineering from single-turn vibe coding 。翻译过来就是：Vibe Coding 是玩具，Long-Horizon Coding 是生产工具。

当前的现状（2026）：还没到「随便用」的程度

虽然红杉说 2026 年是 Long-Horizon Agents 元年，但实际情况是——能跑通和能靠谱地跑通，是两回事。

SWE-bench leaderboard 上那些 90%+ 的分数看着很唬人，但有文章专门泼冷水：这些分数测的是公开 Python 项目的 bug 修复，不测安全漏洞、不测代码审查能力、不测私有代码库、不测多文件大规模重构。企业里一个 bug 可能涉及 10-30 个文件的改动，这种复杂度基准测试覆盖不到。

另外，现在的评估成本也高得吓人。有篇论文提到，跑一次 Darwin-Gödel Machine（一种自改进软件 agent）在 SWE-bench Verified 上的测试，要花 22000 美元 。这还没算训练成本——有团队为了训练能处理超长程任务的 KLong agent，搞了个叫 Research-Factory 的自动化流水线，资源消耗大到「小型研究团队可能难以复现」。

一点拙见

我觉得 Long-Horizon Coding 现在有点像 2023 年初的 LLM 应用——大家都知道方向对了，但具体怎么落地还在摸索。几个可能的发展趋势：

多 agent 协作：一个 Agent 搞不定长程任务，那就拆成几个——有的负责规划、有的负责写代码、有的负责测试、有的专门「挑刺」。Triple-S、MALMM 这些框架都在往这个方向走。
记忆架构会很重要：长程任务必须记住「我之前试过什么、为什么失败、用户偏好什么」。Harrison Chase（LangChain 创始人）在红杉访谈里特别强调 Memory 是构建垂直领域壁垒的核心。
评估体系会重构：以后看一个 coding agent 厉不厉害，可能不是看 HumanEval 通过率，而是看「能不能连续工作 4 小时不出幺蛾子」。

最后说个题外话——写这篇文章的时候我一直在想，Long-Horizon Coding 本质上测的不是 AI 写代码有多快，而是AI 是不是真的能像一个真人一样「折腾」——犯错、发现、调整、再试，循环往复直到搞定。这种「折腾」的能力，可能才是 AGI 的真正标志。

但话又说回来，自从Kimi2.6发布并体验之后，不知道是不是Kimi存在bug，总感觉有点过了，有的任务其实不需要那么折腾…我已经有些天没有使用Kimi了，主要它动不动就说它“累了”。

（文中数据都来自最近几个月的论文，具体数字可能随时间变化，以最新研究为准。）

关注我

AI长程编程｜一文搞懂什么是 Long-Horizon Coding？

那到底什么是 Long-Horizon Coding？

为什么Long-Horizon这个词现在才被大家关注？

长程编程到底难在哪？

Long-Horizon Coding 跟常听到的「Vibe Coding」是什么关系？

当前的现状（2026）：还没到「随便用」的程度

一点拙见

版权声明

关注我

也可以看看

关注博主

微信打赏

文章分类

广告赞助

热门标签

大流量卡

推荐阅读

广告赞助

最新文章

广告赞助

最多阅读

广告赞助

最多评论

广告赞助

最有帮助

广告赞助

最少阅读

广告赞助

最没帮助

广告赞助

猜你喜欢

广告赞助

今日热门

广告赞助

随便看看

广告赞助

资源下载

广告赞助

网站统计

广告赞助