上个月将关注点放在了DSL上面,也就是DSL三步曲的第一步,一个简单的自然语言时间解析。
让我们先从测试用例看起
it('should correctly convert time', function () {
expect(Geng.parser('子时在今天是几点').convert()).toEqual({from: '23', to: '1'});
expect(Geng.parser('丑时在今天是几点').convert()).toEqual({from: '1', to: '3'});
});
我们要实现的是这样的一个解析自然语言的软件,主要会有三个步骤
因为我是特别懒的一个人,所以在了解需要用什么算法,了解算法的原理之后。我会
找了很多分词算法,发现我并不需要考虑效率的问题,毕竟对于分词来说最重要的是字典,最后用了Trie树来实现。
又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
于是,子时在今天是几点会变成子时
,今天
,几点
,接着把它丢到
接着需要有一个Lexer。先看看测试:
it('should return input type', function () {
_lexer.addRule(/[a-f\d]+/i, function () {
return 'HEX';
});
_lexer.setInput('aa0000');
var result = _lexer.lex();
expect(result).toBe('HEX');
});
我们就是对应于相应的匹配给一定的结果,最后来进行处理。
原来是有Bayes的设计,用于区分古代和现代,但是后来想想好像没有多大的必要。不过,还是找了经典Bayes的库。
it('should correctly return correspond result', function () {
_bayes.learn('amazing, awesome movie!! Yeah!! Oh boy.', 'positive');
_bayes.learn('Sweet, this is incredibly, amazing, perfect, great!!', 'positive');
_bayes.learn('terrible, shitty thing. Damn. Sucks!!', 'negative');
var result = _bayes.categorize('awesome, cool, amazing!! Yay.');
expect(result).toBe('positive');
});
虽然很扯淡,但是免强可以用的。
出现的问题: 由于一开始设计的目标过于宏大,导致无法如期完成。。
源码: [https://github.com/phodal/geng](https://github.com/phodal/geng)
围观我的Github Idea墙, 也许,你会遇到心仪的项目