简单英文分词

就做了三个简单的操作:
1、过滤非英文字符,然后依据空格来划分;
2、把复数单词转化为单数形式;
3、过滤 Stopwords。

很简单的分词,用来做英文 tag,分好后过一次词典就可以了。

例子:http://phzzy.org/code/en_seg/seg.php
代码:http://phzzy.org/code/en_seg/en_seg.zip

参考:
Stopwords: http://www.uspto.gov/patft/help/stopword.htm

,

已经有5个回复

  1. blankyao Says @ 08-06-3 8:50 am

    分好后过一次词典是虾米意思?

  2. phzzy Says @ 08-06-3 5:23 pm

    循环和要打 tag 的词比对一次就可以了,选出你想要的词。

  3. blankyao Says @ 08-06-19 5:36 am

    :( 你多长时间没更新了啊….

  4. phzzy Says @ 08-06-19 7:16 pm

    才不到一个月哦~~~

  5. wknight Says @ 08-09-22 1:01 am

    好久没更新了你,消失了???

看完了要说点啥么?