(論文メモ) Evaluating the Impact of Coder Errors on Active Learning / ACL-HLT 2011
「自然言語処理分野で世界最大の国際会議ACL-HLT 2011の論文が公開されました」ということらしいので、Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT 2011)から面白そうな論文をリストアップしてみます。
ちら見した感想も書いてありますが、ざっと眺めて気になった点を書いてあるだけなので事実と異なる可能性もあります。気になるなら原本読みましょう。
出典情報: P11-1005: Ines Rehbein; Josef Ruppenhofer, Evaluating the Impact of Coder Errors on Active Learning, ACL-HLT 2011
能動学習におけるアノテーション・ノイズが精度に及ぼす影響を評価してるっぽい。
前置き
「能動学習」は機械学習の一種。一般的な教師あり機械学習では、予め正解を付与した事例集合からそれらを分類したり類似判断したりするための有益な判断基準を自動抽出するのに対し、能動学習では抽出した判断基準を用いて未知の事例集合について判断した結果に自信が無い場合、それを人間に質問して正解を確認しながら学習します。つまり、少しずつ事例集合を増やすという対応ができるので、最初から大量の正解事例を用意することなく、苦手な(判断が困難な)事例を判断しながら事例を増やしていくことができたりするので、事例を用意する手間を大きく省けることと、事例自体を追加し続けることができる点が嬉しい。ここでのアノテーションは、ここでは事例に与える正解と考えてもらって良さそう。つまり、アノテーション・ノイズとは、ある事例に対して与えられた「正解」に誤りが含まれること。人間が手作業で付けるので、判断ミスもあればタイプミスもあるかもしれない。一人の人間だけじゃなく複数の人間で作業することも多いので、個々人の判断基準がそれ難いので、用意された「正解」にも誤りが含まれ得るということです。このノイズが学習に及ぼす影響を調査してみた、というのがこの論文の主旨になります。
一つ目の実験設定としては下記3ケース、
・rand: ノイズ含んだ事例集合からランダム・サンプルした学習、
・ALrand: 事例に付与されたクラスをランダムにN%変更するノイズ(片寄無し)を付与した状況での学習、
・ALbias: 同様のノイズをバイアス付けて付与した状況での学習、
についてノイズの割合を増やしながら比較評価してるらしい。(図1を見ただけで見て取れる結果なだけで読み違えている可能性があるけど)意外なことに結果は、
・エラー率が低い状況(10%ぐらいまで): 「rand<ALrand<ALbias」の順で精度が良く(「落ちにくい」と読むのが正しい?)、
・10〜20%ぐらいでは「rand≒ALrand<ALbias」、
・20〜30%ぐらいでは「ALrand<rand<ALbias」
のように、付与したエラー率によって順番が変わってくるらしい。大雑把な傾向として「rand≒ALrand」や「rand≒ALrand<ALbias」なのは直感に符号するのだけど、「rand≒ALrand」についてはノイズの割合が変わると割と顕著に差が開くらしい。やってることは質的には同等に見えるのだけど、影響が異なるらしい。一体何故。
その原因を追求するためなのかは分からないけど、筆者は過学習のリスクや能動学習初期段階における判断精度の低さが要因となる問題を避けるために「能動学習時に教えてもらう教師データを鵜呑みするのではなく、そのデータとこれまでの学習結果を組み合わせることでより一般的な特徴ベクトルを生成する。(多分全クラスN個分に対して同処理を行う)。その後、N個の分類器とoracle(システムからの質問に答える人)の関係からそれを学習するのに適切か否かを判断し、適切ならば学習する。適切じゃなければ学習しない。(例えば、全分類器がagreeしてるのに、oracleがdisagreeという状況ならrejectする)」というアプローチを提案しているらしい。実際にはもうちょっと細かいことやってるようだけど、合議アルゴリズムのような形で学習すべきか否かを判断させている訳だ。
結果は、図3を見る限りでは「どちらかというと悪く作用している(精度が落ちやすく見える)」ように見えるのだけど、考察を読む限りでは改善しているらしい。あれ、図の見方間違ってる?(表2では良くなってるところもあるけど、どの時点での精度なのか良く分からず)
ノイズが完全に無いデータなんてのは非現実的だと思うので、意図的なノイズにせよノイズが精度に及ぼす影響とそれを踏まえた学習手法の改善策としては面白いですね。