IPSJ80, day3
最終日は一般セッションというか学生セッション(自然言語処理)に参加してました。IPSJ-ONEは学生に参加して欲しいので見送ることに。ちなみに日程的に丸かぶりなタイミングで言語処理学会の年次大会が開催されてるのですが、ブッキングしつつも情報処理学会側に一般セッション1件+学生セッション6件もあるってすごいな。
学生セッション 自然言語処理(4)
[ セッション概要 ]
神谷さん発表にも2名から真っ当な質問貰えたので、それなりに面白い&妥当なやり方になってるらしい。お疲れ様でした。
個人的に面白かったのは、、
辞書を用いたクラスタリングとその多重ラベル付け。データの一部を捨ててでも良いから「密度の高い部分をクラスタにする。密度が低い部分は捨てる」というスタンスの、DBSCANベースのクラスタリングをしてみたという話。それと、WordNetのsynsetで表現することで、語義曖昧性を解消するという話もありました。
確率的TF-IDFを用いた特徴語抽出と文書検索。SNSのように「文書サイズが小さく、更新頻度が高く、正確でない語彙もそれなりにある」ケースでの利用を想定しているとのことで、通常のTF-IDFだと、IDFが文書数増える度に計算し直す必要があるし、語彙が正確でないのでTFも計算しにくい。そこでTFをMAP推定し、それに基づいてIDFを推定してみたとのこと。TwitterみたいなケースでIDFが効果的かはおいといて、着眼点は面白い。
Wikipediaからの技術やサービス間の関係抽出。上位下位関係とか同義語を抽出したいのではなく、ある概念の使用例(Bag-of-Wordsが文書分類に使われるとか)や、その反対の関係を自動抽出したいという話。ざっくりと手動テンプレートで抽出した後、SVMでフィルタリング。まだまだノイズ多いし、多分抽出漏れも多数あるのだろうけど、ある程度抽出できてるらしい。一方で、instanceとsubclassとを区別したいのだったか、ちょっとそこは定義自体が曖昧じゃないのという部分もあり。
議論スキル向上のための発言の自動評価とその効果的なフィードバック。実際の討論中に「相手を評価する」というのはとてもコストが高い。そこで機械的に評価できる部分だけでも自動化しようぜという試み。また、評価に基づいた自動レビューというかフィードバック(どこそこが悪いのでここに気をつけようとか)も自動生成してて、出し方にも工夫してみたとのこと。
学生セッション 自然言語処理(6)
[ セッション概要 ]
個人的に面白かったのは、、、
ユーザモデルにもとづいて発言タイミングを決定するプレディクティブチャットボット。人間同士の対話では、実際には真面目に聞いてないけど相槌を打つ等、様々な状況下で「本当とは異なる発話」をしていることがある。それを推定したいという話。一種の嘘発見器みたいな話にも近そうだけど、やりたいことは推定できるようにした結果をチャットボットに活用したいらしい。
人物ベースの Seq2Seq モデルを用いた対話システム Deep EVE における小説中の登場人物らしい応答文の生成。「ホームズのように喋らせる」のように、ある物語に出てくる登場人物のように喋らせたいというのが目標。人物毎にコーパス用意してseq2seqで発話文生成してるらしいけど、単に文章入力するだけじゃなくて語義的な意味も活用することで未知語への対応も狙ってるらしい。ただ、コーパス5万文では全く足りてないらしい。ひー。