DSL 三步曲一 —— Geng

作者: Phodal Huang 2015年7月18日 22:36

上个月将关注点放在了DSL上面，也就是DSL三步曲的第一步，一个简单的自然语言时间解析。

Geng

让我们先从测试用例看起

it('should correctly convert time', function () {
    expect(Geng.parser('子时在今天是几点').convert()).toEqual({from: '23', to: '1'});
    expect(Geng.parser('丑时在今天是几点').convert()).toEqual({from: '1', to: '3'});
});

我们要实现的是这样的一个解析自然语言的软件，主要会有三个步骤

将自然语言分成词
接着简单的匹配
简单的对应关系

因为我是特别懒的一个人，所以在了解需要用什么算法，了解算法的原理之后。我会

分词

找了很多分词算法，发现我并不需要考虑效率的问题，毕竟对于分词来说最重要的是字典，最后用了Trie树来实现。

又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。

Trie Tree

于是，子时在今天是几点会变成子时，今天，几点，接着把它丢到

词法分析器

接着需要有一个Lexer。先看看测试：

it('should return input type', function () {
    _lexer.addRule(/[a-f\d]+/i, function () {
        return 'HEX';
    });

    _lexer.setInput('aa0000');
    var result = _lexer.lex();
    expect(result).toBe('HEX');
});

我们就是对应于相应的匹配给一定的结果，最后来进行处理。

Bayes

原来是有Bayes的设计，用于区分古代和现代，但是后来想想好像没有多大的必要。不过，还是找了经典Bayes的库。

it('should correctly return correspond result', function () {
    _bayes.learn('amazing, awesome movie!! Yeah!! Oh boy.', 'positive');
    _bayes.learn('Sweet, this is incredibly, amazing, perfect, great!!', 'positive');
    _bayes.learn('terrible, shitty thing. Damn. Sucks!!', 'negative');
    var result = _bayes.categorize('awesome, cool, amazing!! Yay.');
    expect(result).toBe('positive');
});

虽然很扯淡，但是免强可以用的。

其他

出现的问题: 由于一开始设计的目标过于宏大，导致无法如期完成。。

源码: [https://github.com/phodal/geng](https://github.com/phodal/geng）

或许您还需要下面的文章:

标签:
dsl
domain

关于我

Github: @phodal 微博:@phodal 知乎:@phodal

微信公众号(Phodal)

围观我的Github Idea墙, 也许，你会遇到心仪的项目

QQ技术交流群: 321689806

Feeds

RSS / Atom

关于作者

Phodal Huang

Engineer, Consultant, Writer, Designer

ThoughtWorks 技术专家

工程师 / 咨询师 / 作家 / 设计学徒

开源深度爱好者

出版有《前端架构：从入门到微前端》、《自己动手设计物联网》、《全栈应用开发：精益实践》

联系我: h@phodal.com

微信公众号: 最新技术分享

Github: @phodal
微博:@phodal
知乎:@phodal
SegmentFault:@phodal

Blog

Blog