就做了三个简单的操作:
1、过滤非英文字符,然后依据空格来划分;
2、把复数单词转化为单数形式;
3、过滤 Stopwords。
很简单的分词,用来做英文 tag,分好后过一次词典就可以了。
例子:http://phzzy.org/code/en_seg/seg.php
代码:http://phzzy.org/code/en_seg/en_seg.zip
参考:
Stopwords: http://www.uspto.gov/patft/help/stopword.htm
就做了三个简单的操作:
1、过滤非英文字符,然后依据空格来划分;
2、把复数单词转化为单数形式;
3、过滤 Stopwords。
很简单的分词,用来做英文 tag,分好后过一次词典就可以了。
例子:http://phzzy.org/code/en_seg/seg.php
代码:http://phzzy.org/code/en_seg/en_seg.zip
参考:
Stopwords: http://www.uspto.gov/patft/help/stopword.htm