昨天,和我的前同事(他们 Thoughtworks Global,我们前 Thoughtworks 中国区,现 Inspire)聊完 AI Code Review 之后,觉得有几个点非常不错 的点,应该会影响到不少人对于对 AI 代码检视的架构设计与思考。
在 2024 年,我们的观点一直是现有的代码质量工具,Sonarlint、Ktlint 等等语言 Lint 已经非常不错了,还有诸如于 CodeQL 等可以编写自定义规则。所以,AI 辅助更适合于分析 Lint 误报,生成规则等。但是,到了 2025 年,工具的 Agentic 化变成了主流的方式,诸如于 CodeRabbit 等构建的 Agent Review 也展现了非常好的潜力。
从 Sonarlint 到实时 CodeQL,再到 Agentic Review,影响我们的就是 token 数了。
在 2025 年,我们依然能看到大量互联网企业,靠那种“长到能吓死人的 AI 代码检视提示词”来支撑所谓的 AI Review 体系。把一个超长的 prompt 当作“靠提示词吃饭的万能检视引擎”,并寄希望它能覆盖所有团队、所有项目、所有语言、所有上下文。
然后所有人都惊讶:为什么它总是失效?
因为单一提示词的上限就是纸面效果,一旦进入真实项目场景(复杂架构、历史包袱、团队约定、混合技术栈),它立刻原形毕露。AI Coding 这两年踩过的坑, 在 Code Review 上一个都不会少。你要问——“为什么 AI Coding 投了几百亿模型也才做到现在这个效果,你就凭一份 prompt 想解决 AI Code Review?” 换谁都做不到。
传统 LLM 给你写代码,是靠你丢一段 prompt,告诉它“帮我改一下这个函数”。 Agentic 模式则完全不同:
模型不会“自以为懂”,它会主动调用工具:项目结构、类关系、接口契约、依赖图、用例、上下游调用关系、Spec 文档…… 它会为一次任务构建一个专属的 Task Context Graph:任务相关的文件、规则、上下文、提示词。
Code Review 也是同样逻辑:你不提供上下游调用关系、架构约束、项目 Spec,AI 凭什么 review?
AI 不可能无上下文地理解你的代码,它需要结构化、动态收集、可组合的上下文体系。
而这三项核心能力,在 Code Review 里都是刚需:
我们可以直接参考 Code Rabbit 来看看好的 Code Review 是如何设计的:

为了确保 AI Review 确实是有效率的,Code Rabbit 做了一个提示词的基准线:代码与相关上下文1:1。对于每一行正在审查的代码,们都会向 LLM 提供同等权重的周边上下文。简单来说,如果你要 review 10 行代码,那么我从我的上下文工程中,应该获取到 10 行的上下文信息, 诸如于:用户意图、文件依赖关系、预期结果。这些上下文来源于:
在完成初步 review 之后,会调用 Verification Agents 来验证 AI 的建议是否正确,以确保这些评论确实能对代码库带来有意义的改进。诸如于编写验证脚本(verification scripts), 并运行,以确保 AI 的建议不会引入新的问题。
在足够的 context 能影响结果的情况下,我们的问题就变成了,我们是否值得投入这么多去做这件事?我们就需要考虑到成本。 这里的成本由两部分构建:
在企业环境中,这个成本问题更为复杂:是否统一提供一种工具,还是根据系统特点使用不同工具?并非所有系统的价值都相同:
因此,从成本视角出发,AI Code Review 的应用策略可以根据系统的重要性和价值来决定:一些系统使用传统工具(如 Sonarlint)即可, 而关键系统则可采用更高等级的 AI Review。
在企业中落地 AI Code Review,不仅是技术问题,也是组织与流程的问题。简单地堆积工具和模型,无法解决真正的质量问题。
2025 年的 AI Code Review 不再是单纯的“写 prompt 就能解决问题”。真正有效的体系是 Agentic + Context + Verification 的组合, 通过分级策略匹配成本与价值,从而最大化 ROI。
未来的趋势是:
如果你希望真正让 AI Code Review 在企业落地,不仅要关注模型能力,更要关注 成本、上下文、验证与组织匹配。ROI 不仅是指标,更是设计 AI Review 架构的核心指南。
围观我的Github Idea墙, 也许,你会遇到心仪的项目