NLP2011, チュートリアル終了
NLP2011の一日目(チュートリアル)が終了しました。
チュートリアルというだけあって分かりやすい言葉で話されてるケースも多いのですが、濃い話が長時間に渡って続いたので途中から自分で咀嚼することができなくなってる部分が多数。頂いた資料には参考文献も多数示されているので、適宜参照しないと。
今日一日の感想としては、NLP(自然言語処理)というキーワードで括っていても研究対象やアプローチが多種多様なのを体感でき、自分がやろうと思ってることも、よりブレイクダウンして考えないと前進することが困難だということ。前進できたとしても討論の場に持ち上げることができず、「試してみました」だけな話になってしまいそうなこと。一方で、その討論のために評価を厳密にやることが困難なテーマも多数ごろごろしてることが良く分かりました。評価困難だとしても、取りあえず第三者が使えるようにツールを公開してしまうことでリアクション得られてより進みやすくなるというのも、その通りだよなと再確認。やること一杯あって、ある意味幸せですね。
以下に、今日のチュートリアルに関するメモと、質疑応答関連のサマリを残しておきます。
青字で冒頭に「*」や「Q:」が付いてる箇所は個人的な疑問やコメント。
赤字は会場内での私が意味を汲み取れた質疑応答。
目次
- 「強化学習の基礎と言語処理への応用」伊藤秀昭 氏(佐賀大学)
- 「形式意味論の考え方とその変遷」戸次大介 氏(お茶の水女子大学)
- 「Understanding sentences in Japanese」Edson T. Miyamoto 氏(筑波大学)
- 「言語生成研究の動向」徳永健伸 氏(東京工業大学)
- 更新ログ
(T-a) 3月7日(月) 11:00〜12:30 司会:高村大也(東工大)
「強化学習の基礎と言語処理への応用」伊藤秀昭 氏(佐賀大学)試行錯誤により報酬を最大化する行動を学習する。 教師あり学習と異なり、明示的にどの行動が最適化は与えられない。
>一段の決定問題(bandit problemの例) ここでは観測は無し。 強いて言うなら2台のスロットマシーンがあるということを観測する。 *報酬自体も観測の一部だと思ってたけど、独立して考えるのね。
最初から期待値が求められるなら計算したら良いが、ある行動を選択した 際に得られる報酬がどの程度見積もれるか分からないときに、最適な行動 を学習したい。 →行動価値の推定
・exploitation vs. exploration 回数が少ないうちはQ(a)はあまり信頼できない。 arg max(Q(a)) を選ぶべきか(greedy action) それ以外の行動を選んでQ(a)をより正確にするべきか(exploratory action) →厳密な解決(様々な要因により異なる)は困難。近似解を考える。 ε-greedy法 softmax法
Q: 報酬が変動するような場合にはどうなる? ・短期的変動/中長期的変動とかケースバイケース? ・多段決定問題と等価? ・割引率の推定/調整問題?
>多段の決定問題(三目並べの例) ・1段決定問題との違い 環境:agentの行動により影響を受けるもの+agentに観測と報酬を与えるもの。 報酬:行動の評価はすぐに得られるとは限らない。 →1回のplayでどのぐらい報酬が得られるかを推定。
・遷移グラフで全局面を網羅生成 ○と□で表現された経路には、観測と行動の履歴を対応付けることができる。 各履歴の生起確率は、各行動and各観測がどの確率で得られるかに依存。 ある履歴o1において行動a1を選ぶ関数π((o1),a1)を政策と呼ぶ。 最適なπ()を学習するのが目標。
・観測関数 ある行動を選択した結果、どの観測に遷移するか(相手がどの手を選ぶか)を観測関数と呼ぶ。 政策と観測関数から、履歴の生起確率が求められる。
・エピソード 履歴の中で終端まで到達したもの。
・報酬関数 ある履歴において行動aを選択したとき、直後の報酬がある確率分布に従って得られるとしたもの。 報酬の割引率(遅く勝つより、早く勝つ方が良い) 割引率を加味して、各エピソードの報酬和を評価。
Q: 単純に割り引くことでデメリットは無いか? ・例えば一時的に負けるが最終的に勝てるような行動履歴は得られる?
・期待報酬と最適policy 報酬関数と履歴の生起確率から期待報酬を求めることができる。 ランダムpolicy→常勝policyへ。 環境<A,O,o(1),θ,R,γ>:固定 V^π=E{R_e|π} を最適化 →いろんな解法がある。
>解法1: direct policy search policy π(h,a)は履歴hと行動aから確率への関数だが、膨大なので近似が必要。 近似の仕方は工夫のしどころ。NNやlog-linearモデル等。 →πがθでパラメトライズされた近似 policyを、π(h,a:θ) や単純にπ(θ)と書く。 勾配法:このままでも計算量多いので更に近似→確率的勾配法。
>言語処理への応用 [Branavan 09] Windowsのヘルプ文章→文書の指示通りにWindowsを操作。 その文章から操作への写像を学習。
観測:文書のみ処理部分の一部+PC画面の情報 行動:PCへのコマンドと、文書のどの部分を処理したかの情報 報酬:操作の正しさをチェックするのは困難なので、工夫。 負の報酬 アイテムに対応していない状況に陥った場合、それ以上操作を続けられない。 行動数。 正の報酬 多くの単語を処理できた場合。
Q: (パッと見だけど)文書を処理する順番は考慮していない?
会場Q: どのぐらい学習を繰り返せば良いのか。仮定をおくことで理論的な終了 タイミングは分かるのか。 A: 最適値が観測できる場合には分かるが、一般的には観測できないので、分からない。
会場Q: 強化学習ではロボットでインタラクションがある時に良く使われているが、 そういうインタラクションが無い場面ではどういう用途に使われている? A: 資料最後にある対話システム [Young 10] が一つの例。バーチャルな世界にモノ を作っている。バーチャルな世界でも複雑になってくると計算困難なので、擬似 的に最適値を学習させたい。 会場Q: ユーザの反応を取り込んでいる? A: この例では Simulated User を作ってやっている。
会場Q: 言語処理における強化学習の応用として、どの辺りに可能性がありそうか? A: 対話処理では結構使われている。それ以外にも人間が関わるいろんな所に使える のではないかと、漠然と考えている。
会場Q: 集団での対話は、1対1の対話からやる強化学習とは少し異なるように思うが、 そこは余りやられていないように思う。これはやるべきなのか、やらない方が良いのか。 A: 全てをRLでやろうとするのは大変。表面を見るといろんな情報が入り込んで複雑 に見えるが、うまく抽象化ができれば、例えば質問するとか挨拶するとか、そうい う単純な形で書けるならRLしやすい。それ以外のケースではRL以外も検討し、 上手く使い分けすることが良いのでは。
(T-b) 3月7日(月) 13:30〜15:00 司会:宮尾祐介(NII)
「形式意味論の考え方とその変遷」戸次大介 氏(お茶の水女子大学)>背景と形式意味論 自然言語の「意味」は多様な側面があり、直接研究対象とするのは困難。
2文の間に演繹関係があるか。 1文目(包含する方)が真ならば、演繹関係がある副文も真。 これを論理的演繹として定義することが形式意味論の第一ステップ。 形式意味論とは、含意関係を予測・説明する理論。 ・意味的含意 ・会話の含意
>モンタギュー文法(PTQ)[Montague 1973] PTQは
形式意味論ではない。→形式意味論である。by @kaleidotheaterさん モンタギューを否定しながらも、PTQのアプローチを参考にしながら厳密な形式意味論をやる。PTQ:シンタックス+セマンティクス(IL) IL:一階述語論理+様相論理+型付きラムダ計算
*前半20分ぐらいから既についていけてない。。(涙) →ひたすらPTQの気持ち悪さを感じて欲しいというのが趣旨だったらしい。orz
PTQ自体は不完全なものだが、 スコープ分析の仕方は面白く未だに似たようなアプローチが多い。 また、これを「de re読み」と「de dicto読み」に応用した点がエライ。 らしい。
初の「構成的意味論」(compositional semantics) を提示することで、 意味論が反証可能になった。 それまではある文→論理式への写像があやふやだったが、 初めて単語レベルからの写像を提示した。 「論理では自然言語が扱えない」という議論に対し、 恐らく初めて提示した論文。
PTQは沢山問題があるが、 反証&修正という歯車が回り始めることで現在の発展につながっている。 "Generalized Conjunction", "Type Raising", etc.
会場Q: センテンス→文章の意味、文と文の意味を扱うことについてどうやったのか。 A: 今回の話は80年代だった。文と文を繋いでしまって一まとまりとして扱うのも やられているし、どう切り分けるかについても様々なアプローチがある。DRP(?)。 Compositional なDRPが無いかということについては90年代以降やられている。
会場Q: (1)使う立場からすると「分からない」のが大問題で、難し過ぎて使えない。 力学だと古典力学/ニュートン力学・・・と進んでいるが、多くの場合は古典力学 で十分。形式意味論についても、ある程度小さいものならこれぐらいの複雑さでOK というものがあると助かる。 (2)スコープについて、人間が読んでも良く分からないものもある。自然/不自然言 語処理。良く読むとこういうことかもしれないというものについて、 何かしら考えがあるか。 A: (1)難しいからではなくて、完成していないからだと思う。量子力学やればできる というような統一された世界が無い。計算的側面も欠けている。全部の現象を考え ていないから、ブレイクスルーが起きていないのだと思う。統一した瞬間簡単な ものになると考えているので、そこを目指している。 (2)はっきりとした理論ができた後の話かもしれない。
会場Q: 一般全ての文例を説明することへのチャレンジはとても大切なことだと思う。 その手続きの詳細を理解できる人は少ないかもしれないが、パッケージして使える ようになれば利用者も増え、発展しやすくなるのでは。 A: 形式意味論で扱っているというのは、分野に限らず全部についてやっている というより、言語を扱う以上そこを避けて通ることができないのだと思う。 まず「意味」が良く分かっていないから、こういう風にやっている。 そもそも「意味」をどう書くか、どういう振る舞いを持つ演算として書けるか。
(T-c) 3月7日(月) 15:15〜16:45 司会:高村大也(東工大)
「Understanding sentences in Japanese」Edson T. Miyamoto 氏(筑波大学)どのように文を理解するか。 眼球運動(大人)の場合 単純な環境(pick up the candy)似たオブジェクトcandle →似た単語のオブジェクトがあると230ms 子供(赤ちゃん)の場合 何度、どのぐらいintensionを持って見るか。 遮るものがあると隠れるという知識の有無。 驚く飽きる
Neurolinguistics brain lesions/fMRI/PET/MEG/EEG Reading times silent reading -> eye movements not smooth: fixations, saccades 仮説:longer reading times=more difficulty →Self-paced reading eye tracking とボタン押した回数とを、文節毎に比較
Human parser (1) cognitive resources (2) knowledge bases (grammar, social conventions, world knowledge) 仮説:言語の違いは(2)のみに依存→(2)のみを学習すれば良い。 英語の例 日本語の例 →alternative rules I (head is crucial), II(processing is incremental) 客を(ヲ格)/客に(二格)で他単語を見る頻度(≒他に着目する頻度)が異なる。
How soon is the parent node A built? 英語/日本語といった言語の違いはあるが、 「どのぐらい読み違えるか」は似ている(?)。 Q: え、そうなの?
Memory resources Long-term memory Working memory
Hyakurakan test cause? consequence?
Heavy NP Shift English: heavy stuff to the end Japanese: heavy stuff to the begin
Metrics: how do you measure distance? number of words number of new discourse entities similarity of the constituents time elapsed etc.
青字で書かれたred
会場Q: コンピュータはワーキングメモリが一杯ある。アルゴリズムはみんな一緒 でグラマーが違うという話があったと思うが。 A: ワーキングメモリが多いケースは分からないが、少ないケースは患者さんで多 くいる。文章を作ることは普通にできる。ワーキングメモリが必要なのは読む ときで、多い人は読むのに苦労しないが、少ない人は読むのに時間がかかる。 読む時間は遅くならないが、正答率が遅いというケースや、正答率は高いが読 み時間をかなり要するというケースもある。 会場Q: 時間がかかるというのはアルゴリズムが違うと考えて良いのか。 A: ある意味で違うと考えても良いと思う。ある範囲で頑張る人も要れば、諦める 人もいる。
会場Q: 英語と対比すると日本語は省略が多いと言われる。言語的に依存している けれども、世界知識的な所で差が出ているのか、グラマーでは違いが無いけれ ども、どこでその差が現れていると考えられるのか。 A: 全てを統一的に語ることはできないが、日本語の場合は動詞が最後にくる。 だから省略する方が理解しやすいというのはあるかもしれない。
(T-d) 3月7日(月) 17:00〜18:30 司会:藤田篤(未来大)
「言語生成研究の動向」徳永健伸 氏(東京工業大学)対話システムの応答をどう作るか。 株価/気象データといった(非)言語情報から生成。 テキストからテキスト生成するのも良い。
評価問題:正解がそもそも用意できない
言語生成のサブタスク テキスト・プランニング:what to say 内容の決定、構造化 マイクロ・プランニング+表層化:how to say 語選択、集約、参照表現の生成 ad-hocになりがち。 参照表現は比較的問題が定式化しやすい。GRE等。
内容の構造化 一般的な形式化は困難 メッセージ集合を談話関係で構造化: e.g, 修辞構造理論RST→テキストプラン プランニングに基づく構造化
参照表現の良さ Incremental Algorithm 冗長すぎない方が良さそうだが、心理言語学的観点から見ると ・「以外と冗長」 [Deutsch 1982] ・文脈集合すべてを見ているわけではない [Pechmann 1989] ・漸進的に作られる
評価 内生的評価/外生的評価 MTに近い側面もあるが、そもそも元の文自体が無い。 入力/出力/尺度/文脈/ベースラインは?
会場Q: 参照表現で、日本語に限って言えば、如何に単語を省略するかということ があると思うが、そういうことはやられているのか。 A: 日本語で生成やってる人が殆どいないこともあって、殆どやられていない。
会場Q: 内生的評価/外生的評価にあまり相関が無いということが指摘されていたが、 割とくらい気持ちにもなるがどう捉えるべきか。どうすべきか。 A: 外生的評価をやるべき。ただし、コストが高い。 会場Q: 内生的評価のコストが低いなら、そこで頑張る方法もあるのか。 A: 理想としてはそうだが、解析やろうとしてる時点でだいたい「これが欲しい」 という目処が立っていることが多い。決めてしまえば他は見ないというやり方 もあり得る。ただし、それ以外が×かというと、フェアな評価とは言えない。 ちゃんとした使う環境で評価することが大切。
会場Q: CGだと生成も解析もどちらも大切なタスクとしてやられているが、 言語ではなぜそこまでやられていないのか。 A: 見栄えの問題が大きい。学生から見ても地味。視覚よりも更に違いが分かり 難いという側面もある。 会場Q: 意味表現が難しいとかそういうことも影響している? A: それも当然ある。対話と密接な関係があり、インタラクションしている中で それをどう表現するのか等様々なタスクがあり、その先に何があるのか見え 難く、手を付け難いという敷居の高さがあると思う。
更新ログ
- PTQについて、@kaleidotheaterさんより形式意味論であるとのご指摘を頂きました。