元のページ
タームを素性とする特徴ベクトル生成の例(英語編), 文分割 + トークン化 + ステミング + ストップワード除去 (情報工学実験 4 : データマイニング班)
目次
想定環境、追加インストール
- OS: Mac OS X 10.9.x (10.7.x以降であれば同じ方法で問題無いはず)
- Python: 3.4.x
- numpy: 1.9.0 (numpy.version)
- scipy: 0.14.0 (scipy.version)
- NLTK: 3.0.0 (nltk.__version__)
# 追加インストール。
# python インタプリタ上で nltk.download() を実行し、
# 以下のモデルやデータをダウンロード。
import nltk
nltk.download()
# (追加) Models / maxent_treebank_pos_tegger
タギング
docs = []
docs.append("This is test. The name of this class is data-mining.")
import nltk
nltk.pos_tag(nltk.word_tokenize(docs[0]))
# タグ分類はPenn Treebank P.O.S. Tagsを参照。