Blog

Blog

PHODAL

DSL 三步曲一 —— Geng

上个月将关注点放在了DSL上面,也就是DSL三步曲的第一步,一个简单的自然语言时间解析。

Geng

让我们先从测试用例看起

it('should correctly convert time', function () {
    expect(Geng.parser('子时在今天是几点').convert()).toEqual({from: '23', to: '1'});
    expect(Geng.parser('丑时在今天是几点').convert()).toEqual({from: '1', to: '3'});
});

我们要实现的是这样的一个解析自然语言的软件,主要会有三个步骤

  1. 将自然语言分成词
  2. 接着简单的匹配
  3. 简单的对应关系

因为我是特别懒的一个人,所以在了解需要用什么算法,了解算法的原理之后。我会

分词

找了很多分词算法,发现我并不需要考虑效率的问题,毕竟对于分词来说最重要的是字典,最后用了Trie树来实现。

又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

Trie Tree
Trie Tree

于是,子时在今天是几点会变成子时今天几点,接着把它丢到

词法分析器

接着需要有一个Lexer。先看看测试:

it('should return input type', function () {
    _lexer.addRule(/[a-f\d]+/i, function () {
        return 'HEX';
    });

    _lexer.setInput('aa0000');
    var result = _lexer.lex();
    expect(result).toBe('HEX');
});

我们就是对应于相应的匹配给一定的结果,最后来进行处理。

Bayes

原来是有Bayes的设计,用于区分古代和现代,但是后来想想好像没有多大的必要。不过,还是找了经典Bayes的库。

it('should correctly return correspond result', function () {
    _bayes.learn('amazing, awesome movie!! Yeah!! Oh boy.', 'positive');
    _bayes.learn('Sweet, this is incredibly, amazing, perfect, great!!', 'positive');
    _bayes.learn('terrible, shitty thing. Damn. Sucks!!', 'negative');
    var result = _bayes.categorize('awesome, cool, amazing!! Yay.');
    expect(result).toBe('positive');
});

虽然很扯淡,但是免强可以用的。

其他

出现的问题: 由于一开始设计的目标过于宏大,导致无法如期完成。。

源码: [https://github.com/phodal/geng](https://github.com/phodal/geng)

关于我

Github: @phodal     微博:@phodal     知乎:@phodal    

微信公众号(Phodal)

围观我的Github Idea墙, 也许,你会遇到心仪的项目

QQ技术交流群: 321689806
comment

Feeds

RSS / Atom

最近文章

关于作者

Phodal Huang

Developer, Consultant, Writer, Designer

ThoughtWorks 高级咨询师

工程师 / 咨询师 / 作家 / 设计学徒

开源深度爱好者

出版有《自己动手设计物联网》、《全栈应用开发:精益实践》

联系我: h@phodal.com

微信公众号: 与我沟通

标签