AI 编程 2025 总结：国产模型“能力追平”，国产编程工具还在“情感陪伴”

作者: Phodal Huang 2025年12月30日 16:25

前几天，我看到一篇国产 AI Coding 工具的案例文章，花了不少篇幅在讲一个“智能体的附加价值”——当你写代码写到崩溃时，它可以安慰你、鼓励你，让你感觉好受一点。作为开源 AI 编程工具 AutoDev 的作者，读到这里，我心里冒出了一个不太礼貌的问题：如果模型和工具真的足够强，为什么还需要靠安慰来弥补使用体验？

当问题迟迟解决不了、工程迟迟跑不起来时，程序员真正需要的，究竟是一句“你已经很努力了”，还是一个能把事情做完的系统？这正是我想讨论的起点。

所以，我想到一个特别合适今天的话题，另外，也想思考 2026 年有没有更合适的方向？

趋势 1：国产编程模型的 “能力追平”

到了 2025 年，一个出乎不少人意料的变化正在发生：终于有国产模型开始沿着 Claude 的路线，主动强化主力文本模型的编程能力与 Agentic 行为，而不是只追求通用对话表现。这意味着，模型的目标不再是“能写代码”，而是能处理真实编程场景中的复杂任务。

到年底，我被付费体验了国产编程模型 Minimax M2.1，以及新出的 GLM 4.7。暂且不讨论它们在纯 Coding 能力上是否已经追平 Sonnet 4.5，但至少在 Agentic 能力层面，已经给出了相当扎实的表现：任务规划清晰、工具调用合理，能够完成连续、多步骤的工程操作。尽管，在某些复杂任务上的表现不足，如我之前设计的遗留系统迁移场景，在长对话后，模型完成的任务有点失焦，但是总体表现还是不错的。

PS：大家需要注意的是，虽然我们看到在榜单上各种模型的分数相当的高，但是受限于基础模型在语料上的不足，并非所有的场景，都能达到很好的效果。

趋势 2：开放的工具集成，与开放的模型调用

与上一年相比，一个明显的变化是：不少模型厂商已经逐步放弃自研 AI Coding 工具。随之而来的，是一种更开放的产品策略——不再试图从零开始“重做一遍 IDE”，而是选择主动兼容、接入成熟的现有工具体系。

这种转向带来了一个更现实的结果：对终端开发者而言，使用的已不再是一个功能有限、体验割裂的“厂商自带工具”，而是 最成熟的编程工具 + 可替换的模型能力。

简单来说，你可以：在 Cursor、Claude Code 等各种国外领先的 AI 编程工具中，使用国内的模型。在满足数据不出境等合规要求的前提下，开发者终于可以把模型当作能力模块，而不是被迫接受一整套并不成熟的工具链。你甚至可以在“官方的文档”上看到大量的相关文档，它展示着如何利用开源的 Cline、Gemini，还有闭源的 Claude Code 使用国产的 19.9 元的 Coding Plan。

趋势 3：Spec 的复兴与上下文工程的反复试验

在 2025 年，我们看到 AI Coding 的发展已经不再停留在“生成代码”层面，而是更强调上下文感知与规范驱动。简单来说，模型不只是写代码，而是要“理解你要做什么，怎么做，以及做完后验证结果”。

几个显著的趋势：

模型上下文协议（MCP）的崛起到 Skill 的崛起 数据孤岛问题长期困扰着开发者：模型在本地写的代码，往往无法接触生产环境的真实数据。MCP 和 SKill 能让 AI 能够安全访问日志、数据库和文档，把模型的推理与工程上下文连接起来——不再只是编辑器里的孤立片段，而是能在真实系统里做决策。

Agents.md 与 Spec-driven development 的实践 SDD 和 Agents.md 等工具，让开发者用明确的“规范（Spec）”来驱动模型生成、测试和执行。AI 不再仅靠提示生成代码，而是在规范约束下反复试验：先计划、再生成、再验证，最后回到规范进行迭代。这样的闭环，让开发者能够以更小的成本探索复杂任务的正确实现路径。

而这些内容简单来说，就是 Coding 工具在更好的探索什么是更好的上下文工程。从 Claude Code 的最初只是文件操作就能获取上下文，到 CC 年底开始支持使用 LSP（语言服务协议）来获取上下文，都是另外一方面的体现。基于文件操作的 Agentic RAG 成本还是太高的，还会缺失关键的上下文。

从过去人们讨厌各类的规范，到现在重新梳理规范体系，以让 AI 像人一样更好地遵从。

趋势 4：AI 编程工具门槛正在下降，端到端落地变得更容易

如果把时间拉回到 2024 年底到 2025 年初，AI 编程工具的主要参与者，仍然集中在内部平台与基础设施团队：他们通过 API 扩展、MCP 等机制，将组织内部能力接入现有的 AI 编程工具，解决的是“如何让 AI 读懂内部系统”的问题。

而到了 2025 年中后期，一个更有意思的变化开始出现——端到端能力的实现门槛，正在明显下降。

6 月，我尝试使用了 Rovo Dev 来写了几行代码，它是用 Jira 的母公司 Atlassian 推出的 CLI 工具。与 IDEA/VSCode 插件不同的是，作为一个 CLI 工具，它与 Atlassian 现在的 SDLC 工具非常好的集成，如 Jira、Bitbucket 等。当然了，今年的 GitHub Copilot 也与 GitHub.com 有了更好的集成，它开始无处不在了。

另一个更明显的信号，来自 Code Review 场景。11 月，Augment Code 邀请我这样的开源作者体验 Augment Review。坦率地说，在更早的版本中，我对它的评价并不高——它并不适合 Vibe Coding 时代对“连续性”和“执行感”的要求。借助他们提供的企业版权限，我直接用示例向团队演示了我心目中 AI 时代的 Code Review Agent 应该具备的能力：

对整体代码变更进行结构化总结（Summary）
使用流程图或结构视图呈现全景，而不是碎片化评论
具备生命周期连续性：Review 不只是“提意见”，而是能够回溯修改意图、衔接后续调整

到了今天，这套思路已经在他们的产品中被完整实现——无论是否直接来源于我的反馈，这个方向本身已经成为共识。AutoDev 的 Code Review Agent 也是基于同样的设计原则构建的。

类似的趋势并非个例。12 月，Cursor 收购了代码检视公司 Graphite，本质上也是在补齐 “AI 编程不止写代码，而是贯穿交付流程” 的关键一环。

这些变化共同指向一个结论：

AI 编程工具的竞争，正在从“单点能力”转向“端到端闭环”，而真正的门槛，正在快速向下移动。

趋势 5：自验证时代——AI 编程从“会写”走向“能落地”

到 2025 年，一个更值得关注的变化是：AI 编程工具开始对自己生成的结果负责了。这不仅仅是“能写代码”，而是“写的代码能跑得对、能用得上”。

过去，Lint、编译、构建、运行这些手段只是基础检查，更多是工具链的附属，而不是智能体决策的一部分。今年，我们看到验证能力正在发生质变： 验证不再只是判断代码能不能跑，而是判断任务是否真正完成、逻辑是否符合预期。

这一趋势在 Testing Agent 里表现得最明显。像 Playwright 的原生 Agent 或 ScenGen 等工具，开始引入类似 OODA（观察–判断–决策–行动）的循环，模拟人类测试员的思路。它们不仅执行断言，还会根据场景目标调整测试策略，确保功能从单步正确走向整体落地。

与此同时，自动修复和经验沉淀也在落地。Playwright 的 Healer Agent 可以在 UI 变化或断言失败时，自动回放失败步骤、生成修复补丁；动态记忆机制让智能体在未来任务中避免重复踩坑。换句话说，AI 不再只是“写完就算”，而是能够 自查、自修、持续改进。

这一趋势意味着：

AI 编程正在从“会写”走向“能落地”，真正融入工程闭环，帮助开发者完成可交付的工作，而不是仅仅提供辅助性的情感或提示价值。

趋势 6：全栈的回归与 AI 替换重复劳动力

不过，并非所有变化都是令人激动的。AI 降低了各个技术栈的门槛——后端工程师可以轻松写漂亮的前端，前端工程师也能搞定复杂的容器部署。表面上，这听起来很酷，但背后隐藏的趋势是：AI 正在逐渐替代那些重复性、可模板化的工作。因为某些大公司，真的在结合 AI 做类似的裁员动作。

在这种情况下，“全栈”不再意味着更高的技术自由度，而更多的是岗位边界的模糊化——很多原本依赖专业技能的任务，现在可以通过 AI 快速完成。对于开发者而言，这意味着两件事：

重复劳动被替代：简单 CRUD、常规脚本、模板化前端组件，AI 能自动生成，降低了人工成本。
核心能力的门槛提升：真正有价值的工作，不再是单纯写代码，而是设计复杂系统、规划工程落地、协调上下游流程。

换句话说，AI 的全栈能力让开发者可以随手做更多事情，但也同时逼迫大家去思考：

哪些工作是 AI 做不到的？哪些能力才是未来不可替代的核心竞争力。

总结

到 2025 年，国产 AI 编程生态正在形成三大趋势：

模型能力稳步追平，Agentic 行为落地
工具和模型开放集成，形成插件化生态
从“生成代码”向“理解任务、验证结果、端到端落地”升级

与此同时，AI 正在替代重复性劳动、提高全栈能力，但也提高了核心工程能力的门槛。开发者未来需要关注系统设计、流程规划、不可替代的工程能力。

在 2026 年，我们不需要一个会说‘加油’的聊天框，我们需要一个敢于在凌晨两点发现系统漏洞并默默提交修复 PR 的‘数字合伙人’。AutoDev 接下来的路，就是要把这些‘情感陪伴’的带宽，全部还给‘工程确定性’。

或许您还需要下面的文章: