ステージ3-3: 潜在的意味インデキシング（LSI）の例 (情報工学実験 3 : データマイニング班)

想定環境
cosine類似度による特徴ベクトルの類似度確認
単語・文書行列を特異値分解
単語・文書行列をランク削減して近似
参考サイト一覧

想定環境

OS: Mac OS X 10.8.x (10.7.x以降であれば同じ方法で問題無いはず)
Python: 2.7.x
Mercurial: 2.2
numpy: 1.8.0 (numpy.version)
NLTK: 2.0.4 (nltk.__version__)
MeCab: 0.993 (MeCab.VERSION)

cosine類似度による特徴ベクトルの類似度確認

np.matrix()

# データ準備（前回の続き）
from prettyprint import pp
docs = []
docs.append(u"会場には車で行きます。")
docs.append(u"会場には自動車で行きます。")
docs.append(u"会場には自転車で行きます。")
docs.append(u"お店には自転車で行きます。")
data = [[1, 0, 0, 0, 1, 1], [1, 0, 1, 0, 1, 0], [1, 0, 0, 1, 1, 0], [0, 1, 0, 1, 1, 0]]

# 型を行列に変換
# 　単に特異値分解や次元削減するだけならそのままの文書行列を用いても良いが、
# 　「単語(codebook)の視点から重要な特徴軸を抽出したい」ので、
# 　ここでは転置行列を処理している。
import numpy as np
mat = np.matrix(data)
mat_T = mat.T

#行列の指定行indexをリストに変換
def matTolist(mat, index):
    #return mat[index].tolist()[0]
    return np.array(mat[index]).reshape(-1,).tolist()

# cosine類似度
def cosine_similarity(vec1, vec2):
    u'''コサイン類似度。
    vec1, vec2 は同次元の特徴ベクトル(リスト型)。
    文章の類似度を測るために使われる指標の一つ。
    同一ベクトルであれば類似度=1(最大値)。
    全く異なる場合は類似度=0(最小値)。
    >>> len(vec1) == len(vec2)
    True
    '''
    import math
    numerator = sum([vec1[x]*vec2[x] for x in range(len(vec1))])
    
    sum1 = sum([vec1[x]**2 for x in range(len(vec1))])
    sum2 = sum([vec2[x]**2 for x in range(len(vec2))])
    denominator = math.sqrt(sum1) * math.sqrt(sum2)
    
    if not denominator:
        return 0.0
    else:
        return float(numerator) / denominator

# 初期特徴ベクトル(mat)で類似度を確認。
def printMatSim(mat):
    for i in range(len(mat)):
        str = ""
        str += "d%d:" % (i)
        #j = i+1
        j = 0
        while j < len(mat):
            str += "%f, " % (cosine_similarity(matTolist(mat,i),matTolist(mat,j)))
            j = j+1
        print str

pp(docs)
printMatSim(mat)

単語・文書行列を特異値分解

numpy.linalg.svd(): 特異値分解
numpy.dot(): 内積
numpy.allclose(): 2つの行列がうまく近似できているかをチェック。許容範囲を指定することも可能。

# numpy を使って特異値分解
import numpy as np
U, s, V = np.linalg.svd(mat_T, full_matrices=False)
U.shape, s.shape, V.shape
# -> U.shape[1], s.shape[0], V.shape[0] のランクを下げることで近似可能。
# 以下では取りあえず近似せずにそのまま元の行列を再構築。
S = np.diag(s)
mat_T_svd = np.dot(U, np.dot(S, V))
np.allclose(mat_T, mat_T_svd)
#-> True

単語・文書行列をランク削減して近似

numpy.diag(): 1次元行列の値を対角線上に配置した2次元行列へ変換。

# 元のランクは4(s.shape[0]=4)。
# これをランクk=2に削減して近似してみる。
k = 2
print u"(ランクk=%d) 累積寄与率=%f" % (k, sum(s[:k]) / sum(s))
S = np.zeros((len(s),len(s)))
S[:k, :k] = np.diag(s[:k])
mat_T_rank2 = np.dot(U, np.dot(S, V))

pp(docs)
print "元の行列における類似度"
printMatSim(mat)
print "近似した行列における類似度"
printMatSim(mat_T_rank2.T)

参考サイト一覧

潜在的意味インデキシング（LSI）徹底入門
Python で実装する類似度計算
Wikipedia(潜在意味解析): [ Latent semantic analysis | 潜在意味解析 ]