元のページ

タームを素性とする特徴ベクトル生成の例(英語編), 文分割 + トークン化 + ステミング + ストップワード除去 (情報工学実験 4 : データマイニング班)

目次

想定環境、追加インストール

# 追加インストール。
#  python インタプリタ上で nltk.download() を実行し、
#  以下のモデルやデータをダウンロード。

import nltk
nltk.download()
# (追加) Models / maxent_treebank_pos_tegger

タギング

docs = []
docs.append("This is test. The name of this class is data-mining.")

import nltk
nltk.pos_tag(nltk.word_tokenize(docs[0]))
# タグ分類はPenn Treebank P.O.S. Tagsを参照。