ステージ3-2: タームを素性とする特徴ベクトル生成の例(日本語編), 文分割 + トークン化 + ステミング + ストップワード除去 (情報工学実験 3 : データマイニング班)

想定環境
文書集合からターム素性集合（コードブック）を作る
文分割 + トークン化 + ステミング + ストップワード除去を含んだ例
case 1:コードブックを素性とする文書ベクトルを作る（直接ベクトル生成）
case 2 (辞書型->DictVectorizer) は省略。
case 3 (疎行列) は省略。

想定環境

OS: Mac OS X 10.8.x (10.7.x以降であれば同じ方法で問題無いはず)
Python: 2.7.x
Mercurial: 2.2
NLTK: 2.0.4 (nltk.__version__)
MeCab: 0.993 (MeCab.VERSION)

文書集合からターム素性集合（コードブック）を作る

nltk.RegexpTokenizer(): 文章(doc)をパターンマッチングで文(sentence)に分割
mecab.parseToNode(): 形態素解析結果を双方向連結リストとして出力。表層=surface, 解析結果=feature, 双方向ポインタnext <-> prev.

docs = []
docs.append(u"会場には車で行きます。行きます。")
docs.append(u"会場には自動車で行きます。")
docs.append(u"会場には自転車で行きます。")
docs.append(u"お店には自転車で行きます。")

# doc -> sentences分割処理の例。
import nltk
from prettyprint import pp
jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^　「」！？。]*[！？。]')
sents = jp_sent_tokenizer.tokenize( docs[0] )
pp(sents)

# sentence -> words 分割処理の例。トークン化。
# 　(注意) MeCabに渡すテキストは UTF-8 でエンコード必須。
# 　最初から全てを UTF-8 化しておくと良さそうだが、
# 　一方、NLTKの一部は UTF-8 では正しく処理できないこともあるため、
# 　ここでは docs に文書を保存する際には unicode 指定している。
# 　もし文書 dcos を utf-8 保存するなら、NLTKへは unicode 変換して渡そう。
import MeCab
mecab = MeCab.Tagger('-Ochasen')
node = mecab.parseToNode(docs[0].encode('utf-8'))
while node:
    print "surface=",
    print node.surface,
    print "feature=",
    print node.feature
    node = node.next

# token を基本形に修正する例。ステミング。
node = mecab.parseToNode(docs[0].encode('utf-8'))
while node:
    fs = node.feature.split(",")
    print "surface=%s -> fs[6]=%s" % (node.surface, fs[6])
    node = node.next

def collect_words_jp(docs):
    u'''日本語文書集合 docs からの単語コードブック作成例。
    シンプルに文書集合を予め決めうちした方式で処理する。
    必要に応じて指定できるようにしていた方が使い易いかも。

    ＜使用しているライブラリの説明＞
    nltk.RegexpTokenizer: 文章(doc)をパターンマッチングで文(sentence)に分割する。
    mecab.parseToNode: 形態素解析結果を双方向連結リストとして出力。node.next <-> node.prev
    '''
    import nltk
    jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^　「」！？。]*[！？。]')
    import MeCab
    mecab = MeCab.Tagger('-Ochasen')
    
    codebook = []
    pos = ['形容詞', '形容動詞','感動詞','副詞','連体詞','名詞','動詞']
    jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^　「」！？。]*[！？。]')
    stopwords = ["", "*", "これ", "あれ", "は", "が", "の", "を", "です", "、", "。"]
    for doc in docs:
        for sent in jp_sent_tokenizer.tokenize(doc):
            node = mecab.parseToNode(sent.encode('utf-8'))
            while node:
                fs = node.feature.split(",")
                if fs[0] in pos:
                    this_word = fs[6]
                    if this_word not in codebook and this_word not in stopwords:
                        codebook.append(this_word)
                node = node.next
    return codebook

codebook = collect_words_jp(docs)
codebook.sort()
pp(codebook)

コードブックを素性とする文書ベクトルを作る (直接ベクトル生成)

def make_vectors_jp(docs, codebook):
    u'''コードブックを素性とする文書ベクトルを作る（直接ベクトル生成）
    n-gramモデルの例と流れは一緒。
    「doc=1文とは限らない」ケースにも対応するよう拡張。
    '''
    vectors = []
    jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^　「」！？。]*[！？。]')
    for doc in docs:
        this_vector = []
        fdist = nltk.FreqDist()
        for sent in jp_sent_tokenizer.tokenize(doc):
            node = mecab.parseToNode(sent.encode('utf-8'))
            while node:
                fs = node.feature.split(",")
                this_word = fs[6]
                fdist.inc(this_word)
                node = node.next
        for word in codebook:
            this_vector.append(fdist[word])
        vectors.append(this_vector)
    return vectors

data = make_vectors_jp(docs, codebook)
data

ステージ3-2: タームを素性とする特徴ベクトル生成の例(日本語編), 文分割 + トークン化 + ステミング + ストップワード除去 (情報工学実験 3 : データマイニング班)

想定環境

文書集合からターム素性集合（コードブック）を作る

コードブックを素性とする文書ベクトルを作る (直接ベクトル生成)

参考サイト一覧