複雑研全体ゼミ、鍵、GTEC、word2vec本

Share on:

m_2014080503414553e05279ca975

今日は早朝から複雑研全体ゼミで、予定通りなら来週で一段落着くらしい。

お昼は久しぶりに鍵へ。鍵のお兄さんは和服好きらしく、番傘差してたという理由で大盛り->特盛にしてくれた+サービス券貰ったw 通りで調理中にちらちらこちらを見てたのか。皆も和装でPRしてみよう()。といっても学生は既に割り引きとかあるっぽいから良いのかもしれないが。

GTECについて情報がいまいち共有されていないっぽいですが、学年暦にあるように、3年次がやるのは来年の2月10日です。


全体ゼミ、「統計的機械学習―生成モデルに基づくパターン認識」の第11章「ベイズ推定法におけるモデル選択」では、最尤推定法におけるモデル選択のベイズ推定版という話で、ある意味で基本的な流れは一緒。ただしベイズ推定では「訓練標本Xをパラメータθに基づいて生成されるモデルq(x|θ)として考え、そのパラメータθはハイパーパラメータβによって制御できる(p(θ;β))」と考えたとき、周辺尤度を最大にする形でハイパーパラメータを設定しようという話になるのでちょっとややこしい。パラメータθはハイパーパラメータβで制御できるので、最適なβ(周辺尤度を最大にするβ)を用いてp(θ;β)を設定したいのだけど、その際の基準としてBICを使おうという話。情報量基準についてはこの記事や関連用語でググると良いんじゃないかと。

第12章「カーネル密度推定法」では、ノンパラメトリック法(ガウスモデルとか特定モデルを仮定しない手法)についての紹介で、ベーシックなヒストグラム法(とその問題点)、改善手法としてのパーゼン窓法とカーネル密度推定法という流れで比較的スムーズなストーリー。趣旨としては「ノンパラメトリック法における確率密度関数の近似は、近似する際の領域Rを小さすぎず大きすぎず適切に設定すること」で精度良く推定できるという話で、代表的な手法と、それを更に良い結果にするための交差検定(交差確認)しようという話で〆。


午後は昨日からちらほら眺めてるword2vec本で、例題にある「wikipediaのデータセットからmecabで分かち書きさせて特徴量作る」のをやってみてたのですが、昨日からやってた「wp2txtを使ったダンプデータからテキストへのコンバータ」だけで10数時間かかってて、それが今朝頃終了。その後の特徴量作りはスレッドオプションがあったので30分程度で終了。早い。wp2txtも並列処理対応してくれれば良さそうだけど、中身はrubyなのか。と書いておくと誰かやってくれそう(ぉ

word2vecで用意されてるスクリプトのdistanceで「指定した単語に似た単語上位N件(コサイン類似度なので角度的に近い単語を探している)」を眺めてみることができて、例えば、

  • 開発に最も似ているのは設計、次に構築、技術、、、
  • ゲームに最も似ているのはロールプレイングゲーム、アクションアドベンチャーゲーム、ベルトスクロールアクションゲーム、、、
  • BLに最も似ているのはMG、SM、QF、、、

みたいなことが眺めたり。

興味のある人は手持ちの MacBook Air (OS X 10.9.2) で word2vec を動かしてみるとか、自然言語処理の最新手法”word2vec”で艦これ加賀さんから乳を引いてみるとかを参考にすると良いんじゃないかと。

P.S.
ファミマの牛乳プリンシリーズは割と好きでちょくちょく食べてます。今回のも旨し。

m_2014080510114153e0addd865b1