(個別ゼミ以外に)久しぶりに予定の無かった一日

Share on:

特別な予定がない一日で、折角冷えてきたので馬の助呼びかけしようかと思ったのですがちょっとお腹の調子が宜しくなかったので学食うどんで済ませちゃいました。明日はTL話題アンケート関連の食事会があるので無し。何時行けるんだろうw

某社から内定貰った学生に課されている課題をパクって、仮配属生に向けて課題を出してみたけどどんな感じになるんだろう。隠す意味無いけどどういう課題なのかは発表後に書く予定です。

NLP2013(言語処理学会第19回年次大会のスケジュールが決まりつつあるらしい。申込自体が延びまくってるっぽいけど〆切日は1/15に確定してるな。

個別ゼミは、強化学習を自動要約に適用してみるという慶留間くんの番。強化学習自体は前期から継続して勉強していることもあって既に代表的な手法自体は実装も済んでて、動作確認用の簡易実験ぐらいは終わってます。ただ、言語処理周りは中間発表直前ぐらいで決めてしまったので、ここ最近は文書(文の集合)からどうやって特徴量を構築するか、どう辞書構築するか、どう特徴ベクトル生成するか、どう類似度測るか、どう評価するかといった一連の流れをメインとしつつ、まずは代表的な手法で全体を繋げて動かせるようにしようといのが目下の目標です。実際実験すると一つ一つのプロセス毎に「例外」が発生することが常なので、それを前提としてどういう風に取り組もうか、といったことについての擦り合わせがメインの内容でした。実装力は比較的高い学生なので、一つずつ手順を理解できると後は割と早いんだよな。ということで、まずは先行事例の追実験できるように頑張ろう。

関連して、辞書構築や特徴ベクトル生成あたりはNLTKを試してみるという話らしいので、私も少し触ってみることに。確か英語オンリーだった気がするんだけど、日本語文書を試せるように用意されてる日本語コーパス「KNBコーパス(KNBC「解析済みブログコーパス」)」なるものがあったらしい。あったらしいというのは、京都大学テキストコーパスへのリンクが提示されてるページを見てて「実際にデータ全体を使うには毎日新聞1995年版CD-ROM(10数万円)が必要」に辿り着いてて思考停止してたから。実際には前述のKNBコーパスで良いらしい。

日本語係り受け解析ではKNPCaboChaが有名所ですが、J.DepPなるものがあるらしい。というのも含めてhjym_uさんの記事で発見。この記事の通りのオペレーションを行えば、(途中までは)毎日新聞データを持たない読者も実際にCaboChaの学習や評価を試すことができるのは嬉しい。

と、来年度からやるつもりの実験テーマ含めてあれこれ検討しながら寄り道してた一日なんだけど、結局の所NLTKでどこからどこまでできるんだろうかw

デュアルソリューションさんからのデータサンプルについては、少し想定外のサンプルが届いてしまったのですが、参考になる部分を参考にしつつ、疑問点含めて確認したい点を明文化して再確認してみることに。人間とのやり取りなのでズレが出てしまうのは当然、ということで気にせずに聞きたいことは直接聞いてることに。あやふやなまま進めても互いに時間が勿体無いしね。