遗留系统现代化工具集：Modernizing

作者: Phodal Huang 2022年2月20日 20:08

遗留系统的现代化演进是一门艺术。

Why 开源 + 遗留系统现代化工具

在日常的软件开发里，我们经常会遇到一系列的问题，诸如于：

如何解决人类智商不够的问题？模式、原则和工具
谁应该去解决代码的问题？代码
……

应对于这些问题，其中的一个解决方案就是：自动化的工具，有些人喜欢称之为器。支撑这些工具的便是一系列的原则与模式，将它们融入到工具之中。另外一个解决人成长的方案就是：元元（meta-meta），这是另外一个故事。

遗留系统是常态。在咨询团队里，我们所遇到的系统里多数是是遗留系统，来到一个新项目时，可能就需要对他们快速的分析，以提供洞见 —— 写 PPT 汇报。所以，在过去的几年里，咨询团队也沉淀了一系列的遗留系统分析和重构的工具，比如新哥的 Tequila、正在开源的架构分析和守护工具 ArchGuard 等等。除此，在有些重构项目里，还要编写定制的工具来进行分析，诸如于先前覃宇和俊斌等所写的「移动应用遗留系统重构」系列。

技术热情发电。对于 Thoughtworker 而言，写工具的最大挑战并不在技术上，而是版权问题：你的工具是否受客户启发？不过，在这里我们开发写的主要是代码分析工具，基本上是不存在这方面的问题的。除此之外，另外一个挑战则是：你需要拿自己的业余时间来完善工具。你不能用客户 billable 的时间来做这样的事。

既然要用自己的时间来开发，还和项目没有关系，这种用爱发电的事情，用开源的方式最合适了。

我们需要怎样的工具？

从对于使用工具的结果来看，我们需要这个现代化工具是：

可视化驱动。快速生成项目的分析结果，并展示出来给开发人员了解现状，还有编写 PPT。
必要的交互性。用于在重构的过程中，寻找合适的切入点。
定制化开发。
特定坏味道。不同的开发团队会有不同的坏味道，有些坏味道是无法由 Sonarqube 这样的工具识别的。
自动化重构。基于已知的坏味道，对应的代码位置信息，对代码进行自动化重构。
适当的语法精准度。更高的语法精准度，意味着更高的开发成本，需要有针对地平衡它们。
多平台。我们用的是 macOS，而多数时候，客户使用的是 Windows。

如何开发这样的工具？

这里定义的遗留系统现代化工具包含了这么几部分：语法分析、结果及可视化、自动化重构、架构守护。

语法分析

对代码进行语法分析，生成特定的语言的数据结构。常用的工具有：Antlr、Ctags、TreeSitter、Doxygen、CodeQuery 等。一个大致的对比（拍脑袋订的）如下表所示：

工具	精准度	开发难度	跨语言学习成本	添加新语言成本	可自动化重构
语言编译器	完美	低	高	-	Yes
Antlr	极高	中	中	中	Yes
Ctags	中	低	低	高	Yes（成本高）
TreeSitter	高	高	中	高	Yes（成本高）
Doxygen	中	低	低	高	No
CodeQuery	高	中	中	高	Yes

结果及可视化

通常来说，我们会出于以下的一些情况，来对遗留系统进行可视化：

数值化。如针对于特定的 smell 进行自动化重构，类似于 Sonarqube，常见的模式和原则源自于《重构》一书。在 Coca 里，还引入了在一些论文里看到了测试的 bad smell，诸如于没有断言的测试等。
可视化依赖。如针对于代码中的类、包等的依赖情况进行可视化，主要用于分析分层架构等。常用的工具有：PlantUML、Graphviz、D3.js、Echarts 等。
代码属性可视化。如针对于文件的修改频率、大小等属性进行可视化，可以获取诸如于单位时间内的文件变化频率。一个文件经常修改，还大量被引用，那说明它是一个不稳定的类、文件，除了业务变化，最有可能就是设计不合理。
其它。

自动化重构

这一步是可选的，它取决于我们的场景。通常来说，编写这样的功能主要弥补是现代化的 IDE 无法完成的工作，诸如于：

多代码库间的未使用类删除。
多代码库间的聚类。
针对于 CSS 颜色的重构。

架构守护

编写架构的守护规则，以对于系统的架构进行守护，用的工具有：ArchUnit、ArchGuard 等。在参考了 ArchUnit 的语法之后，我们也设计了一个多语言的架构守护工具：Guarding。

后续，我们将针对于这四部分的每一部分，展开详细的介绍。在开发这些工具的过程中，它们也不断地 push 着我进一步学习语言背后的东西，如编译原理（语言的前端部分），理解构建系统（build system）等。