Blog

Blog

PHODAL

DSL 三步曲一 —— Geng

上个月将关注点放在了DSL上面,也就是DSL三步曲的第一步,一个简单的自然语言时间解析。

Geng

让我们先从测试用例看起

it('should correctly convert time', function () {
    expect(Geng.parser('子时在今天是几点').convert()).toEqual({from: '23', to: '1'});
    expect(Geng.parser('丑时在今天是几点').convert()).toEqual({from: '1', to: '3'});
});

我们要实现的是这样的一个解析自然语言的软件,主要会有三个步骤

  1. 将自然语言分成词
  2. 接着简单的匹配
  3. 简单的对应关系

因为我是特别懒的一个人,所以在了解需要用什么算法,了解算法的原理之后。我会

分词

找了很多分词算法,发现我并不需要考虑效率的问题,毕竟对于分词来说最重要的是字典,最后用了Trie树来实现。

又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

Trie Tree
Trie Tree

于是,子时在今天是几点会变成子时今天几点,接着把它丢到

词法分析器

接着需要有一个Lexer。先看看测试:

it('should return input type', function () {
    _lexer.addRule(/[a-f\d]+/i, function () {
        return 'HEX';
    });

    _lexer.setInput('aa0000');
    var result = _lexer.lex();
    expect(result).toBe('HEX');
});

我们就是对应于相应的匹配给一定的结果,最后来进行处理。

Bayes

原来是有Bayes的设计,用于区分古代和现代,但是后来想想好像没有多大的必要。不过,还是找了经典Bayes的库。

it('should correctly return correspond result', function () {
    _bayes.learn('amazing, awesome movie!! Yeah!! Oh boy.', 'positive');
    _bayes.learn('Sweet, this is incredibly, amazing, perfect, great!!', 'positive');
    _bayes.learn('terrible, shitty thing. Damn. Sucks!!', 'negative');
    var result = _bayes.categorize('awesome, cool, amazing!! Yay.');
    expect(result).toBe('positive');
});

虽然很扯淡,但是免强可以用的。

其他

出现的问题: 由于一开始设计的目标过于宏大,导致无法如期完成。。

源码: [https://github.com/phodal/geng](https://github.com/phodal/geng)

关于我

Github: @phodal     微博:@phodal     知乎:@phodal    

微信公众号(Phodal)

围观我的Github Idea墙, 也许,你会遇到心仪的项目

QQ技术交流群: 321689806

新书《前端架构:从入门到微前端》

《前端架构:从入门到微前端》是一本围绕前端架构的实施手册,从基础的架构规范,到如何设计前端架构,再到采用微前端架构拆分复杂的前端应用。本书通过系统地介绍前端架构世界的方方面面,来帮助前端工程师更好地进行系统设计。

前端架构包含以下五部分内容:

  • 设计:讲述了架构设计的模式,以及设计和制定前端工作流。
  • 基础:通过深入构建系统、单页面应用原理、前端知识体系等,来构建出完整的前端应用架构体系。
  • 实施:通过与代码结构的方式,介绍如何在企业级应用中实施组件化架构、设计系统和前后端分离架构。
  • 微前端:引入6种微前端的概念,以及如何划分、设计微前端应用,并展示了如何实现这6种微前端架构。
  • 演进:提出更新、迁移、重构、重写、重新架构等架构演进方式,来帮助开发人员更好地设计演进式架构。
comment

Feeds

RSS / Atom

最近文章

关于作者

Phodal Huang

Developer, Consultant, Writer, Designer

ThoughtWorks 高级咨询师

工程师 / 咨询师 / 作家 / 设计学徒

开源深度爱好者

出版有《前端架构:从入门到微前端》、《自己动手设计物联网》、《全栈应用开发:精益实践》

联系我: h@phodal.com

微信公众号: 与我沟通

标签