車を運転できなくなってから歩数が10倍ぐらいに増えてる気がする

Share on:

今日は昼過ぎに公務員宿舎を覗かせてもらい、問題無さそう(あっても許容レベル)なので素直にそこにする決心をしました。あちこち修繕が必要なため入居できるのは8月末ぐらいになるかもという話なので、後1ヶ月強ぐらいはバスに乗るっぽい。昼食で多少遠くても歩かざるを得ない(誰か誘っても良いんだけど)こともあってあちこち歩いてます。昨日は坦々亭まで歩いて行ったし。お陰で汗かきまくりなので職場に肌着の着替えが必須。というかここ最近毎日着替えてるから「持って行ってそのまま持ち帰ってる」のであって、実質的には置いてる訳ではないか。

昨日は京大のデザイン学連携プログラム関連での会食があって久しぶりにブログをさぼりました。2日間という中途半端な期間ではお祭り騒ぎぐらいにしかならないんじゃないかと思ってましたが、あれこれ身に染みる指摘も頂きつつ、そのままテーマにしても良さそうなorこれらを叩き台として使えそうなアイデアもあれこれ提案頂けました。あやふやな問題設定からそこまで導くこと自体が一種のデザインだよね。

NAL研ゼミではNNでのDeep Learningを勉強中の玉城くんが少し時間かかったぐらいか。今は人工知能学会誌の連載解説deeplearning.netで紹介されてる論文読みつつ、DeepLearnToolboxのソースを読みながら勉強中。まだ事前学習段階ですが、「イメージ」から「より具体的な処理の理解」に近づいている感覚は出てきています。

帰りが遅くなったのでnokoto cafeで晩ご飯食べてから帰ろうと思いきや閉まってて涙目。客がいなかったから早めに閉めたのかしら。

以下は昨日の複雑研全体ゼミを終えての補足記事です。


自然言語系 (松田昇悟, 福里宏晃)

全体の流れとしては [1] の目次にそった自然言語処理の全体像を紹介しつつ、各自が強い興味を持っている形態素解析と文脈処理について具体例を示しつつ目標と手法の概要を説明するというものだったかと思います。

[1] 自然言語処理の基礎, 奥村学, コロナ社, 2010

>形態素解析

形態素解析では一般に辞書や学習コーパスを用い、そこに含まれる形態素(既知語)を用いて構築した格子ラティスから「最適な系列」を選択することで分割する。一方で、その辞書や学習コーパスに含まれていない形態素(未知語)があるとその格子ラティスを適切に生成できなかったり、できたとしても最適な系列を選択できないことが多くなるので「辞書や学習コーパス(語彙資源)を充実させる」というような話でした。

このように語彙資源を充実させる手法はオフライン手法(バッチ手法)と呼ばれており[2]、形態素解析する前に予め構築しておく必要がありますが、漏れなく全ての候補ノード(ラティスのノード)を生成するのは困難なため、形態素を単位としたノードと、文字列を単位としたノードとする手法を組み合わせた方法も提案されているらしい。いずれにせよ、語彙資源を更新し続ける必要があるため、未知語への完全な対応は困難と主張する人もいます[3]。

一方、解析実行時に既知語とともに未知語を同定するアプローチはオンライン手法(リアルタイム手法)と呼ばれており、特に未知語に対しての頑健な解析精度を目指している [2] 人らはこちらを選択していることが多いようです。

「辞書の圧縮」という話については、[4] やそこで紹介されてる簡潔データ構造(succinct data structure)である Rank/Select辞書(Rank/Select Dictionary)、分岐が無いノードを圧縮したトライであるパトリシア(Patricia)、文字列の接尾辞へのポインタを配列の格納して間接ソートしたデータ構造である接尾辞配列(suffix array)や、それらと比較している事例を調べてみると良さそうです。


>文脈解析

文脈処理は適用対象自体に様々なゴールを見据えていますが、その根っこにあるコアな共通部分は「1文に記述されている情報だけでその文の意味を理解するのではなく、それ以前の文も含めた文脈(context)も踏まえた上で文の解析をすること[5]。

文字列そのものを処理対象とした事例については [5] が参考になりますが、それ以外も処理対象に含めた事例もあります。

以下は全て「対話」における例ですが、例えば市川先生 [6,7] は「言語を発話する際に生じる情報プロソディ[8]の有無が内容理解度に大きく影響していることを多数の事例で紹介しています。文脈というよりは意味や意図に近い話ではありますが、文脈理解度には何が影響するのかというメタトピック的には参考になりそうです。

別の事例として「場の言語学(や進化言語学)[9]」という切り口で研究しているグループからは、どのようにインタラクションが発生し、言語へと発達したのかという点について「自己の二重性(卵モデル)[9]」や「ミラーニューロン[10]」等をキーワードに説明を試みているようです。

文字列を対象とした代名詞/照応詞/ゼロ代名詞等々の解決は勿論必要ですが、何かしら前提知識として「対話言語」の事例で述べられてるような事柄を組み込むストーリーも考えられるかもしれません。(何も具体案考えずに書いてます)