就做了三个简单的操作:
1、过滤非英文字符,然后依据空格来划分;
2、把复数单词转化为单数形式;
3、过滤 Stopwords。
很简单的分词,用来做英文 tag,分好后过一次词典就可以了。
例子:http://phzzy.org/code/en_seg/seg.php
代码:http://phzzy.org/code/en_seg/en_seg.zip
参考:
Stopwords: http://www.uspto.gov/patft/help/stopword.htm
就做了三个简单的操作:
1、过滤非英文字符,然后依据空格来划分;
2、把复数单词转化为单数形式;
3、过滤 Stopwords。
很简单的分词,用来做英文 tag,分好后过一次词典就可以了。
例子:http://phzzy.org/code/en_seg/seg.php
代码:http://phzzy.org/code/en_seg/en_seg.zip
参考:
Stopwords: http://www.uspto.gov/patft/help/stopword.htm
分好后过一次词典是虾米意思?
循环和要打 tag 的词比对一次就可以了,选出你想要的词。
才不到一个月哦~~~
好久没更新了你,消失了???
多更新点技术文章,我这个菜鸟要学习!