進化計算班4回目終了

Share on:

微妙に体調が低空飛行気味なので、カツを入れるためにミカン買って食べたり。どこら辺でカツが入るのかは分からないのでここ最近やってないことをやってみたというだけですが、それでも午後は割と集中できてたかな。

進化計算班は4回目が終了。今週と来週の2週間ぐらいで「GAを何に適用するか(何を探索させるか/最適化するか)」を考え、クライアントとしての簡易的な要求仕様の作成を目指しています。テーマ提案の1週目では、グループ毎に2テーマ以上考えてきてもらって、各テーマについて「どうコーディングするのか」「どう点数化するのか」「致死遺伝子対策どうするか」といったあたりのことを討論検討。

テーマ検討だけで結構な時間がかかったので、オプションは前回粗く設計したマインスイーパもどきの実装として、最初の機能の途中までを書いてもらったぐらいかな。来週はリファクタリングに入るはず。多分。

話変わって言語処理で「似たような文」とか「似たような文書(複数文集合)」といったことをする場合、まずはその対象となる「文or文書」を何らかの「特徴空間」に写像し、その空間内で何とかして「距離」を測り、距離の長短を「類似度合い(距離が近いほど似通っている)」という尺度として利用する事で最初の目的達成を目指す事が多い。「文」をどう写像するかが一つの腕の見せ所になる訳ですが、そういうことにも使えそうな「記述要素辞書」なるものを久保先生らが手動構築したらしい。

出典: 久保木武承, 山本和英: “クエリと説明文の関係を表す記述要素辞書の構築”, 信学技報, vol. 112, no. 196, NLC2012-22, pp. 67-72, 2012年8月

我々は以前「ある話題語について検索したとき、得られた文章が話題語についてのどのような内容を説明しているかを推定する」という問題を設定した。例えば「ローパスフィルタ」ならば「機能」「副作用」「設計方法」などの語があり得る。これらの語を記述要素と呼ぶ。

具体例やもう少し詳しい話が研究室のサイトで公開されてますが、どうやら辞書データ自体も話次第(というか多分文字通りどのぐらい使われているかを確認するためにワンクッションおいてるだけと想像)で提供しているらしい。Wikipediaとかで大雑把な辞書代わりに使えなくはないけども、こういうデータがあるなら頼んでみようかしら。具体的にどう使うかというよりは、まずは眺めてあれこれ触ってみたいというのが趣旨なんだけど。

こういうコストかけてデータセットを作り上げていくというのもほんと大切な仕事だよなぁ。

Tags: