英文型分類判定

伊波 立樹 大井 翔

英文型分類判定

125716B 伊波 立樹

125771E 大井 翔

Agenda

  • 目的
  • アプローチ方法
  • データセット
  • 学習方法
  • 実験結果
  • 考察
  • 課題
  • まとめ

目的

  • センター入試等で英文型の問題が出題される
  • その問題を機械学習を使って解きたい

アプローチ方法

データセット

今回二つの特徴ベクトルを用いたデータセットを作成

二つで共通している項目

  • Stanford CoreNLPを使用して形態素解析
  • そこで取得したタグで特徴ベクトルを作成
  • 形容詞, 助動詞, 名詞, 代名詞, 動詞のタグを基本的に使用する

データセット

タグの比率を特徴ベクトルとしてデータセットを作成

比率の特徴ベクトル

例 : “This is the pen”

“This” “is” “the” “pen”
“DT” “VBZ” “DT” “NN”
限定詞 動詞 限定詞 名詞

比率の特徴ベクトル

例 : “This is the pen”

形容詞 助動詞 名詞 代名詞 動詞
0 0 1/2 0 1/2
  • この例では結果 [0, 0, 0.5, 0, 0.5] というデータが得られる

データセット

動詞の前後に注目し, データセットを作成

動詞の前後に注目した特徴ベクトル

例 : “I would like you to tell her the truth.”

“I” “would” “like” “you” “to” “tell” “her” “the” “truth”
“PRP” “MD” “VB” “PRP” “TO” “VB” “PRP$” “DT” “NN”
代名詞 助動詞 動詞 代名詞 TO 動詞 代名詞 限定詞 名詞

動詞の前後に注目した特徴ベクトル

例 : “I would like you to tell her the truth.”

形容詞 助動詞 名詞 代名詞 形容詞 助動詞 名詞 代名詞
0 1 0 0 0 0 0 2
  • 動詞の前後のタグをカウント
  • このデータの頭に動詞の数を追加する
  • 結果 [2, 0, 1, 0, 0, 0, 0, 0, 2] というデータが得られる

学習方法

  • 文型という決まった解(教師データ)を持っている
  • よって, Classification(分類)の学習手法が適切

学習方法

  • 文型毎に30個の英文を用意
  • データセットの形式に英文データを変換
  • 変換したデータセットを学習データとして学習を行う

実験環境

  • 実行環境
    • Mac OSX 10.10.2
    • Python 3.4.2
    • scikit-learn 0.15.2
    • corenlp-python 3.4.1-1
  • 学習機
    • svm.SVC(Support Vector Classification)
    • パラメータはsvm.SVC(kernel=’linear’)を設定

実験方法

  • 学習した分類器に文型毎の未知データ(各文型10〜70個をランダム)をPredictして結果を調べる
  • 二つのデータセットで使用する未知データは同じ未知データである

比率の特徴ベクトルでの実験結果

文型 比率 正答率
第一文型 5/19 26%
第二文型 7/10 70%
第三文型 13/33 39%
第四文型 2/10 20%
第五文型 17/46 36%

考察

  • 全体的に正答率は低い結果となった
  • 比率での特徴ベクトルは全ての文型で被りやすい
  • よって, 他の文型に分類分けされやすく, 低い正答率となったと考えられる

動詞の前後に注目した特徴ベクトルでの実験結果

文型 比率 正答率
第一文型 19/19 100%
第二文型 6/10 60%
第三文型 2/33 6%
第四文型 4/10 40%
第五文型 30/46 65%

考察

  • 比率での特徴ベクトルに比べて正答率は高い結果となった
  • しかし, 第三文型の正答率は6%になった

第三文型のみの結果

文型 比率  
第一文型 22/33 67%
第二文型 0/33 0%
第三文型 2/33 6%
第四文型 6/33 18%
第五文型 3/33 9%

第三文型の結果から考察

  • 第一文型の分類分けが多い結果となった
  • 理由としてデータセットのパターンが第一文型と第三文型で同じような形が多くなったのが原因だと考えられる
    • [x, 前は代名詞か名詞がカウント, 後は全て 0] が双方に多く発生
  • また, 第一文型 “SV”は他のすべての文型と同じ部分があるので, 他の文型の未知データにも多く発生している

課題

  • 第三,四文型の正答率が50%を切っているので, その解決
    • 他の特徴ベクトルを探す?
    • 他のタグもカウント?
    • 学習データを増やす?
  • 時間が足りず,アプローチ方法でのノイズを取る作業を行うことが出来なかった
    • 第一文型に対して何らかの例外処理が必要?

まとめ

  • 第一, 二, 五文型に関しては正答率60%以上を出すことができた
  • しかし, 全体的な精度に関しては十分ではなく, センター入試の問題を解くのは難しい